ITBear旗下自媒體矩陣:

獲得多項世界競賽第一的百度大腦OCR技術(shù) 成為企業(yè)降本增效的“新法寶”

   時間:2019-11-01 15:01:45 來源:互聯(lián)網(wǎng)編輯:星輝 發(fā)表評論無障礙通道

在對“降本增效”的絕對追求下,OCR技術(shù)的應用創(chuàng)新,為整個產(chǎn)業(yè)“智能化”升級帶來有效助力。10月31日,百度大腦開放日OCR文字識別專場在上海召開,百度AI技術(shù)生態(tài)部產(chǎn)品經(jīng)理為開發(fā)者們詳細介紹了百度大腦最新的開放能力,百度視覺技術(shù)部韓鈞宇深入分享了百度大腦OCR文字識別方向的最新技術(shù)與趨勢,并邀請華夏保險上海分公司、快合財稅等企業(yè)通過實際案例講述了是如何基于百度大腦OCR技術(shù),進行企業(yè)內(nèi)部智能化升級的全新思路。百度OCR產(chǎn)品經(jīng)理進一步分享了交通、教育、醫(yī)療等更多行業(yè)應用的案例并進行了實際的產(chǎn)品演示?;顒蝇F(xiàn)場座無虛席,互動活躍。

百度大腦O CR 技術(shù)持續(xù)保持業(yè)界第一

據(jù)介紹,百度大腦AI開放平臺面向廣泛的企業(yè)和開發(fā)者,提供最先進、最全面的AI能力,不斷降低AI應用落地的門檻。截至目前,已開放218項AI技術(shù)能力,達到24小時快速集成,開發(fā)者規(guī)模持續(xù)快速增長并突破150萬。

而基于深度學習的百度OCR技術(shù)更是獲得了持續(xù)領先性的成果。2019年,在由工信部、公安部和網(wǎng)信辦組織的,中國最高等級商業(yè)領域人工智能技術(shù)競賽的90+隊伍中,百度OCR脫穎而出,獲得唯一A級別證書,同時還獲得ICDAR2019 MLT文字檢測競賽冠軍等榮譽。

“百度OCR基礎技術(shù)的持續(xù)領先,離不開更好效果的算法創(chuàng)新和更高性能的模型壓縮。”韓鈞宇介紹到。百度OCR文字識別算法具備準確、多場景、多語種、多平臺的特性,通用中英文字符識別準確率達95%以上,支持文檔,隨拍,網(wǎng)圖,街景,商品,手寫等常見文字場景,并且支持中,英,日,韓,法,德,意等20多種語種,還支持云端,嵌入式,私有化等請求部署方式。而端到端識別、卡證票據(jù)識別、公式識別、文字編輯等解決方案則能夠更好地解決具體場景的技術(shù)痛點問題,提升模型精度和運算效率,讓識別更加準確高效。

未來,OCR技術(shù)的行業(yè)應用趨勢將向綜合方案和定制平臺兩個方向發(fā)展。教育、醫(yī)療、交通、財稅等場景都已實現(xiàn)通用化的綜合解決方案,而iOCR自定義模板文字識別和垂類OCR模型訓練平臺等定制平臺將針對更豐富的客戶需求滿足個性定制。

百度大腦O CR 實現(xiàn)最廣泛的應用落地

此次專場,百度大腦邀請到了華夏保險上海分公司和快合財稅兩家企業(yè)客戶根據(jù)自身結(jié)合百度OCR技術(shù)的實際應用落地進行了案例分享。

(左:華夏保險上海分公司新技術(shù)應用處經(jīng)理於維佳 右:快合財稅產(chǎn)品總監(jiān)寧壽輝)

華夏保險上海分公司新技術(shù)應用處經(jīng)理於維佳表示:“通過百度大腦OCR提供的解決方案,讓我們在面臨手工錄入發(fā)票信息出錯率高、效率低等行業(yè)痛點時,能夠顯著的節(jié)約成本、提升財務報銷業(yè)務流程效率。”華夏保險上海分公司,通過應用百度大腦iOCR自定義模板文字識別和EasyDL定制化物體檢測,實現(xiàn)二維碼檢測、增值稅發(fā)票識別,進而實現(xiàn)報銷單據(jù)影像分組及票面識別的自動化業(yè)務流程,年節(jié)省人力等成本核算達到1000萬元。

快合財稅產(chǎn)品總監(jiān)寧壽輝則在現(xiàn)場講到,基于百度iOCR財會票據(jù)識別平臺搭建的快合財稅智能記賬SaaS,結(jié)合一臺自動饋紙式掃描儀,就能夠?qū)⒖旌县敹惖臅嬜鲑~效率提升3倍,每年幫助幾百家代賬公司在做賬報稅環(huán)節(jié)合計省出2000萬元的成本。

最后,百度OCR產(chǎn)品經(jīng)理更加系統(tǒng)化的詳細介紹了金融財稅之外更多行業(yè)應用方案。目前,百度OCR已經(jīng)廣泛應用于財稅票據(jù)、身份驗證、內(nèi)容審核、教育、保險醫(yī)療、交通以及拍照識別/翻譯等領域,并且為了滿足不同客戶的各種需求,百度大腦除了提供近40款垂類文字識別產(chǎn)品外,還提供了自定義模板文字識別開發(fā)平臺iOCR,針對特殊版式的票據(jù)可快速定制識別模板。通過這些案例,能夠看出在這些應用場景中,百度OCR充分發(fā)揮著的優(yōu)勢:豐富的接口、支持自定義模板、高可用的服務確保用戶業(yè)務持久穩(wěn)定、低價/多樣的付費方式(購買次數(shù)包,最多可以節(jié)省74.6%的費用,高精度版本低至千次7.6元),以及支持部署至私有云。

AI的大力發(fā)展,讓不同行業(yè)逐步走上了智能化升級之路,而隨著基礎能力的進一步開放,百度OCR技術(shù)將獲得更多的業(yè)界專家和開發(fā)者的支持,在技術(shù)不斷突破的同時,百度OCR技術(shù)也通過百度大腦AI開放平臺全面開放給第三方使用,打破封閉的研發(fā)生態(tài),積極推動技術(shù)在具體場景上的落地。從而積累更為領先的技術(shù),探索更多的應用場景,賦能更多的合作伙伴,創(chuàng)造更多的價值。

最后,對百度于2019年度公開發(fā)表的OCR文字識別領域創(chuàng)新技術(shù)算法,進行簡單介紹:

文字檢測:

基于主干、候選回歸、候選區(qū)域及精細化二次回歸,文字檢測算法可對任意文字形狀進行精確表示,解決任意形狀長行文字檢測問題,在公開數(shù)據(jù)集合達到SOTA檢測定位效果。

詳情請參見文章:C. Zhang, et al, Look More Than Once: An Accurate Detector for Text of Arbitrary Shapes, in Proc. of CVPR’19

https://arxiv.org/abs/1904.06535

借鑒目標檢測中的經(jīng)驗,為提升檢測速度,研究者通過單階段模型結(jié)構(gòu)與多分支輸出設計對文字候選區(qū)域表達,多任務學習、單階段訓練可以取得兩階段、多階段相當?shù)男Ч?,并提升速度?/p>

詳情請參見文章:P. Wang, et al A Single-Shot Arbitrarily-Shaped Text Detector based on Context Attended Multi-Task Learning, in Proc. of ACMMM’19 to appear

https://arxiv.org/abs/1908.05498

端到端識別:

現(xiàn)有文字識別系統(tǒng)以兩階段、多階段檢測、序列識別模型級聯(lián)為主,非規(guī)則文字識別效果精度不足。為克服同時識別規(guī)則和非規(guī)則文字效果不佳的問題,我們提出端到端OCR識別TextNet算法,通過共享主干、透視RoI變換實現(xiàn)文字檢測、空間注意力機制序列識別耦合設計,同時提升非規(guī)則行的文字識別效果。

詳情請參見文章:Y. Sun, et al, TextNet: Irregular Text Reading from Images with an End-to-End Trainable Network. In Proc. of ACCV’18 oral

https://arxiv.org/abs/1812.09900

針對中文大類別識別場景,我們引入弱標注數(shù)據(jù)的概念,針對街景場景只標注關(guān)鍵詞信息,忽略非重要信息,無需精確位置標注,避免大量精標注全監(jiān)督數(shù)據(jù)高成本低效率問題。

基于端到端-部分監(jiān)督學習方法,弱標注成本是精標注的1/90,弱標識數(shù)據(jù)量從2萬擴增到40萬,單模型平均編輯距離AED錯誤率相對降低20%。取公開英文數(shù)據(jù)集,端到端部分監(jiān)督學習在ICDAR 15端到端評測達到單模型尺度SOTA效果。

詳情請參見文章:Y. Sun, et al, Chinese Street View Text: Large-scale Chinese Text Reading with Partially Supervised Learning, in Proc. of ICCV 2019, to appear,

https://arxiv.org/abs/1909.07808

大規(guī)模公開數(shù)據(jù)集:

為進一步推動中文場景文字識別領域發(fā)展,通過構(gòu)建新的ICDAR 2019-LSVT大規(guī)模街景文字、ICDAR 2019-ArT任意形狀文字集合,百度攜學術(shù)界舉辦兩項ICDAR 2019場景文字識別的國際賽事,提供源于百度真實場景圖像數(shù)據(jù)45萬,獎金17,800美金,吸引業(yè)內(nèi)各大企業(yè)、知名高校研究單位118支參數(shù)隊伍有效提交結(jié)果339個,各大主流媒體報道20余次。百度團隊在ICDAR 2019國際會議期間受邀做總結(jié)報告并為獲獎單位頒獎,展現(xiàn)近年來OCR識別技術(shù)的快速發(fā)展與應用新高度。

詳情請參見文章:C. Chng, et al, ICDAR 2019 RobustReading Challenge on Arbitrary-Shaped Text-ArT,in Prof. of ICDAR 2019 Oral,

https://arxiv.org/abs/1909.07741

Y. Sun, et al,ICDAR 2019 Competition on Large-scale Street View Text with Partial Labeling-LSVT,in Proc. of ICDAR 2019 Oral,

https://arxiv.org/abs/1909.07145

文字編輯

針對文字編輯和風格遷移任務,我們提出了業(yè)界首個文本行級別的文字編輯解決方案SRNet。該方案主要思想是將文字屬性遷移和背景紋理修復任務進行解耦監(jiān)督學習,并且讓網(wǎng)絡自適應學習兩者的融合,以端到端優(yōu)化方式達到魯棒的文字編輯功能。

詳情請參見文章:L.Wu, et al Editing Text in the Wild, in Proc. of ACMMM’19 to appear

https://arxiv.org/abs/1908.03047

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容