“紙質(zhì)合同用WPS轉(zhuǎn)文檔太哇塞了!表格、簽名、公章也能轉(zhuǎn)出來?!?/p>
“各類統(tǒng)計(jì)表要電子版上報(bào),在WPS轉(zhuǎn)后,隨手排下就能用?!?/p>
“基本保持原本的排版設(shè)計(jì),值得擁有~”
2022年下半年,不少用戶在社交媒體點(diǎn)贊WPS,都因驚喜發(fā)現(xiàn):圖片轉(zhuǎn)docx、xlsx格式文檔的效果變得更準(zhǔn)確和精細(xì)。
在用戶看不到的另一面,WPS版式還原功能“悄悄”完成了引擎更新。WPS全新的文檔識(shí)別與理解引擎,開始了它的工作。
它被研發(fā)團(tuán)隊(duì)稱之為文檔AI技術(shù)的“瑞士軍刀”,專解版式還原、內(nèi)容提取、圖像處理的疑難雜癥。升級(jí)以來,相關(guān)功能使用口碑猛漲,反饋率下降75%多;項(xiàng)目的核心技術(shù)榮獲了珠海市產(chǎn)業(yè)核心和關(guān)鍵技術(shù)大獎(jiǎng),VIE(視覺信息提取)技術(shù)部分方案參加了2022年CSIG圖形挑戰(zhàn)賽獲得了小票賽道的冠軍和總決賽雙冠軍……
為什么金山辦公要做這套引擎?又是如何做到的?我們采訪到了金山辦公技術(shù)總監(jiān)熊龍飛,聽他聊聊,WPS文檔識(shí)別與理解引擎的“前世今生”,以及給未來辦公帶來的可能。
反饋居高不下,決心重構(gòu)引擎
問:目前,WPS版式還原能達(dá)到什么樣的效果?
熊龍飛:
你可以認(rèn)為,基本人類肉眼能識(shí)別的,這套引擎都能識(shí)別和還原。
比如領(lǐng)導(dǎo)要你從一沓紙質(zhì)表格里,核對(duì)出數(shù)據(jù)。用手機(jī)輕輕一拍,就能轉(zhuǎn)成可編輯的xlsx或docx文檔;比如揉皺丟進(jìn)垃圾桶的紙,捋一下,用WPS就能識(shí)別。
甚至,我們還精細(xì)到字體屬性的還原,如字體顏色、是否加粗、是否斜體、什么字體。
問:做版式還原,是基于怎樣的洞察?
熊龍飛:
WPS每月都會(huì)統(tǒng)計(jì)用戶反饋排行,前幾年,版式還原相關(guān)的功能投訴量居高不下,如圖片轉(zhuǎn)表格亂碼、圖片轉(zhuǎn)docx耗時(shí)非常久等等。而老的引擎因?yàn)闅v史包袱問題,已經(jīng)很難改動(dòng)了,而金山辦公很重視用戶的體驗(yàn),于是公司高層下定決心,要重構(gòu)一套文字理解和識(shí)別引擎,對(duì)相關(guān)功能進(jìn)行一次顯著性的體驗(yàn)提升。
問:這意味著一切從頭再來,要投入大量人力、時(shí)間、資金,為什么團(tuán)隊(duì)堅(jiān)持這么做?
熊龍飛:
一開始我們心里也沒底。2019年初CV(計(jì)算機(jī)視覺)團(tuán)隊(duì)只有2、3人,而版式還原這種規(guī)模的項(xiàng)目預(yù)估要投入幾倍人力。短期甚至看不到產(chǎn)出,項(xiàng)目可能會(huì)持續(xù)一到兩年,甚至更久。
但當(dāng)時(shí)AI中臺(tái)的負(fù)責(zé)人姚冬非常堅(jiān)定,認(rèn)為作為一個(gè)辦公軟件公司,尤其是把文檔處理當(dāng)作核心業(yè)務(wù)的公司,一定要把版式還原效果提上去,如果我們不做,其他公司更不會(huì)愿意投入這么大物力和人力及時(shí)間成本去做這件事,用戶將長久忍受這個(gè)領(lǐng)域的痛點(diǎn)。
后來我們決定啟動(dòng)項(xiàng)目,而且不僅要做,還要奔著行業(yè)頂尖水平去做。之所以這樣說,一方面來源于我們既往的項(xiàng)目經(jīng)歷,我們當(dāng)時(shí)已經(jīng)做了業(yè)內(nèi)頂尖水平的彎曲矯正能力、最早期的本地OCR(光學(xué)字符識(shí)別)能力以及很多具有功能亮點(diǎn)的CV項(xiàng)目。另一方面,當(dāng)時(shí)經(jīng)過幾個(gè)月的調(diào)研,我們發(fā)現(xiàn),金山辦公無論是AI的技術(shù)儲(chǔ)備還是對(duì)文檔領(lǐng)域排版、版式、格式的技術(shù)和經(jīng)驗(yàn)積累,做這個(gè)事情都是具有優(yōu)勢的,所以雖然我們知道這個(gè)項(xiàng)目有難度,但心底里還是有信心的。
新技術(shù)&領(lǐng)域積累,啃下版式還原硬骨頭
問:研發(fā)過程中最大挑戰(zhàn)是什么?
熊龍飛:
在2019年起步時(shí)最大的挑戰(zhàn)是,老的方案我們已決定徹底放棄,那么意味著從0開始構(gòu)建我們預(yù)期的系統(tǒng),而且我們是希望通過AI技術(shù)進(jìn)行徹底重構(gòu)的,當(dāng)時(shí)這個(gè)領(lǐng)域除了一些論文鮮有其他參考。
方案花了幾個(gè)月構(gòu)思,起步時(shí)的幾個(gè)核心算法也是從頭進(jìn)行驗(yàn)證的。所以我們整體把任務(wù)分拆成了多個(gè)階段,首先實(shí)現(xiàn)了最基礎(chǔ)的圖文渲染排版的檢測和識(shí)別問題,再加大排版復(fù)雜度,做了復(fù)雜排版的版式分析和識(shí)別。再擴(kuò)大不同類型,例如公文類、試卷類和CAD類型。等整套系統(tǒng)具備完善的模塊和流程后,我們當(dāng)時(shí)已經(jīng)能夠解決掉相對(duì)標(biāo)準(zhǔn)的PDF的識(shí)別和轉(zhuǎn)化問題了。
這些過程可能只花了我們一年左右的研發(fā)時(shí)間,后邊的兩年多才是真正的煉獄模式,因?yàn)槲覀円鉀Q更復(fù)雜的場景,例如污染、變形、拍照、自由排版、PPT、甚至帶折痕的老舊文件場景。這些問題不僅對(duì)于企業(yè)是難題,連國內(nèi)頂級(jí)高校以及學(xué)術(shù)界都還在死磕這些極端場景,所以復(fù)雜場景和極端場景的問題解決是我們面臨的最大挑戰(zhàn)。但好在我們把大任務(wù)進(jìn)行了拆分,做了很多里程碑目標(biāo),每個(gè)階段都有相應(yīng)的產(chǎn)出,使得團(tuán)隊(duì)的成員沒有懼怕,最后硬是把這塊硬骨頭給啃下來了。而且隨著啃這塊硬骨頭,我們的團(tuán)隊(duì)在三年多的時(shí)間從幾個(gè)人發(fā)展到了幾十個(gè)人,也算是邊打硬仗邊成長了。以致于我們收獲了一支抗壓能力、戰(zhàn)斗力和輸出很強(qiáng)的團(tuán)隊(duì)。
問:目前的方案是怎樣的?
熊龍飛:
版式還原項(xiàng)目的復(fù)雜度極高,這套系統(tǒng)有超過20個(gè)深度學(xué)習(xí)模型、100多個(gè)算法模塊、幾十萬行代碼。任何一個(gè)小模塊拎出來,都是完整的AI項(xiàng)目。這些模型作為零部件組裝在一起,會(huì)存在很多兼容性和嫁接問題,這么多模塊和流程的中間件工具的串聯(lián)和組合,調(diào)度層的設(shè)計(jì)難度可想而知。
現(xiàn)在要轉(zhuǎn)一張圖片,先由前處理模塊進(jìn)行處理。有彎曲就矯正,有污染就把它變干凈,以便更好識(shí)別、理解。然后就開始檢測元素,有哪些LOGO、文字,都檢測出來。檢測完之后,由VIE進(jìn)行信息的關(guān)系組合以及內(nèi)容識(shí)別和提取,把拆散的元素重新組織成帶版式信息的描述,最終可導(dǎo)出為docx、xlsx等用戶想要的格式。
問:團(tuán)隊(duì)有怎樣的技術(shù)創(chuàng)新?
熊龍飛:
因?yàn)樽霭媸竭€原的公司比較少,也沒有公司將相應(yīng)的技術(shù)做公開,所以任何做這個(gè)領(lǐng)域的公司或團(tuán)隊(duì)都會(huì)面臨著一切從頭來的挑戰(zhàn)。
這樣也會(huì)使得伴隨著項(xiàng)目進(jìn)展,會(huì)產(chǎn)生很多技術(shù)創(chuàng)新。例如,我們團(tuán)隊(duì)用了多個(gè)深度學(xué)習(xí)模型來解決以往通過傳統(tǒng)圖像算法處理的問題,可以提高檢測和識(shí)別效果。也有很多模型內(nèi)我們嵌入了傳統(tǒng)算法的思路,讓模型得到魔改而獲得更好的性能。
除了自身的研發(fā)創(chuàng)新之外,我們還通過高校合作,引入了學(xué)界比較新的技術(shù)思路。例如我們與高校合作應(yīng)用了近年來業(yè)內(nèi)比較火的一項(xiàng)技術(shù)——VIE(視覺信息提取)。
純靠OCR,只能識(shí)別這個(gè)字,卻不知字的關(guān)聯(lián)性、邏輯性。通過VIE技術(shù),段落關(guān)系得以理解,這對(duì)于復(fù)雜排版的文檔識(shí)別會(huì)更加精準(zhǔn),比如發(fā)票、小票信息抽取等。舉個(gè)例子,一張發(fā)票里面,“合”字和“計(jì)”字離得很遠(yuǎn),以前識(shí)別的時(shí)候,就把他們判斷為兩個(gè)詞。在VIE技術(shù)下,就知道他們屬于一個(gè)詞組。
問:金山辦公做版式還原這件事,有什么優(yōu)勢?
熊龍飛:
常規(guī)的識(shí)別方式,就是把文字進(jìn)行提取,最多做一下圖片和印章等對(duì)象的檢測,然后組合在一起。但我們可以做的更多,更精細(xì)。例如段落排版,我們可以做得更復(fù)雜和精準(zhǔn)。
因?yàn)槌私Y(jié)合AI技術(shù)做的段落分析,我們公司還有30多年豐富的段落排版、文檔的版式背后的底層邏輯的技術(shù)積累。公司另一個(gè)老板朱熠鍔在文檔領(lǐng)域已經(jīng)做了非常多年,對(duì)文檔底層技術(shù)有深刻的理解,可以由淺入深跟我們講明白技術(shù)邏輯。就算有些技術(shù)他不是最專業(yè)的,他也能告訴我們應(yīng)該咨詢哪一位或者哪幾位領(lǐng)域?qū)<?。這種專業(yè)指導(dǎo)讓我們不用自己苦苦查閱文檔學(xué)習(xí)和摸索。
另外,在輸出常見的辦公軟件格式上,其他公司如果沒做過這類軟件,不好理解docx、xlsx、PDF等格式的底層邏輯和規(guī)范,更不用說有現(xiàn)成可用的文檔渲染toolkits可以使用,而我們就只需要向朱總反饋一下相關(guān)需求,朱總很快就能在公司內(nèi)協(xié)調(diào)到相關(guān)團(tuán)隊(duì)給我們支持。如果我們自己做這后半程(具體格式的文檔輸出),那知識(shí)的容積以及開發(fā)量就太可怕了。
技術(shù)多走一步,用戶少走一步
問:對(duì)CV團(tuán)隊(duì)來說,最好的技術(shù)是什么樣的?
熊龍飛:
作為技術(shù)開發(fā),比起刷數(shù)據(jù)指標(biāo),我們更在意整體方案是否優(yōu)雅,效果是否讓用戶滿意。我們對(duì)產(chǎn)品有類似于蘋果公司的做事追求,大道至簡。其實(shí)說起來容易,做起來很難,因?yàn)橛袝r(shí)表面看起來越簡單的界面,背后需要做的基礎(chǔ)技術(shù)越多。我們會(huì)把極致的技術(shù)解決方案藏到交互后面,通過更好的算法和策略,盡可能讓用戶使用起來更簡單。我們堅(jiān)信:產(chǎn)品跟技術(shù)多走一步,用戶就可以少走一步。
問:CV團(tuán)隊(duì)是一支什么樣的團(tuán)隊(duì)?工作氛圍如何?
熊龍飛:
我們鼓勵(lì)創(chuàng)新,希望團(tuán)隊(duì)每個(gè)人都大膽提出自己的想法,而不是變成一個(gè)執(zhí)行命令的機(jī)器。
比如,某次上級(jí)否定了你的想法,你想證明是對(duì)的,可以給你20%的時(shí)間去驗(yàn)證,80%的時(shí)間留給常規(guī)工作。最后沒有結(jié)果,說明方向錯(cuò)了;如果證明了自己,會(huì)贏得整個(gè)團(tuán)隊(duì)的認(rèn)可。
但我們不會(huì)靠加班去“卷”。6點(diǎn)后有人還在工作,我們會(huì)主動(dòng)詢問,是不是工作沒規(guī)劃好?每天加班到9點(diǎn),大腦陷入疲憊狀態(tài),已經(jīng)沒有效率了。下班一定要釋放出來,去休息、去玩、去閱讀?,F(xiàn)在大家很愿意在上班時(shí)專注投入,摸魚少了,反而交付的質(zhì)量變高了。
問:團(tuán)隊(duì)下一步規(guī)劃是怎樣的?未來有哪些應(yīng)用場景?
熊龍飛:
未來,我們會(huì)繼續(xù)在文檔智能領(lǐng)域深挖,逐漸實(shí)現(xiàn)從感知智能到認(rèn)知智能的能力覆蓋。
什么叫感知和認(rèn)知?肉眼上看到幾句話,知道是哪些字,屬于感知。但里面描述這段話是什么含義,上下文之間什么關(guān)系,就屬于認(rèn)知智能。
人有思考能力,能去找事物的關(guān)聯(lián)性。通過VIE技術(shù),這套系統(tǒng)也具備這樣的能力。
未來,用戶或許可以在WPS實(shí)現(xiàn)這樣的場景:導(dǎo)入一個(gè)沒有目錄的PDF,系統(tǒng)可以直接生成大綱,歸納每一章節(jié)里的主要內(nèi)容;掃描了很多文件,系統(tǒng)可以幫你分類、歸納……
我們希望通過 AI 或CV 技術(shù),讓文檔識(shí)別和處理更智能一點(diǎn),讓用戶使用起來更暢通、更絲滑,讓用戶通過WPS能夠?qū)崿F(xiàn)更智能的辦公,讓辦公更輕松,讓人們多一些時(shí)間和精力思考,以追求更充實(shí)和幸福的生活。