
我國1970年代末開始進行漢字OCR的研究工作,在1990年代以后推出了許多成熟的印刷體簡體中文OCR軟件及搭載OCR軟件的掃描儀、掃描筆,然而中文古籍的學(xué)習(xí)者、研究者、整理者,仿佛被遺忘在了筆耕硯田的時代中。市面上可以處理繁體豎排、手寫體的OCR產(chǎn)品鳳毛麟角,更別說能處理古籍的了。面向工程化生產(chǎn)的古籍OCR系則往往需要大量人工干預(yù),效率低、成本高、周期長,僅適合大型項目,個人工作、學(xué)習(xí)中無緣得見。
直到2017年AI元年到來,深度學(xué)習(xí)飛速發(fā)展,多個算法模型在自然語言處理、圖像識別領(lǐng)域大放異彩,我們終于有機會暢想:如果古籍OCR也能應(yīng)用前沿AI技術(shù)實現(xiàn)識別準確率的突破,那么什么樣的應(yīng)用系統(tǒng),才是中文古籍的整理、出版、研究工作最需要的?

古聯(lián)的OCR探索筆記
2018年10月,古聯(lián)公司開始帶著實現(xiàn)古籍整理出版數(shù)字化轉(zhuǎn)型的展望和在以往古籍數(shù)字化工程中遇到的問題,與圖像識別、自然語言信息處理、云計算等相關(guān)領(lǐng)域的研究團隊、技術(shù)公司接洽,想要研發(fā)一款面向中文古籍的整理、研究、出版的智能OCR技術(shù)。

中文古籍OCR技術(shù)
核心需求
可處理刻本、稿鈔本、石印本等古籍圖像。
識別準確率高于95%;單頁識別時效在1s內(nèi)。
便捷、高效的人工校對功能。
識別和編輯結(jié)果,符合閱讀順序,方便導(dǎo)出或復(fù)制。
2020年1月,古聯(lián)公司正式啟動智能OCR技術(shù)的研發(fā),經(jīng)過了漫長而曲折的技術(shù)路線實驗,與多個合作伙伴的磨合、探索,古聯(lián)研發(fā)團隊從理論到實踐的成長,終于初步完成了應(yīng)用級的OCR算法。
目前,古聯(lián)研發(fā)的OCR系統(tǒng)使用Cascade R-CNN模型進行版面分析、CRAFT模型進行文字檢測、CRNN進行文字識別,可以實現(xiàn)對版刻、稿鈔本古籍圖片的智能OCR,一般版刻、精抄本的文字識別準確率接近為98%。對古籍常見版面,不僅能準確識別文字,而且通過針對性訓(xùn)練優(yōu)化分區(qū)效果,從而避免出現(xiàn)雖然單字識別正確,但顛倒錯亂不能復(fù)用的情況。

含眉批頁面示例

跨頁復(fù)雜表格示例
在本次推出的面向個人的輕量型OCR系統(tǒng)中,實現(xiàn)了在頁面綜合圖文校對中,提示系統(tǒng)自評分不高的潛在誤字及其候選字,并實時提示圖文的對應(yīng)位置。也可以雙擊原圖中需校對的地方,快速進入模擬傳統(tǒng)折校法的逐行校對模式,有效提升精校工作時的專注度。

折校示例
識別、校對結(jié)果可以導(dǎo)出Word文檔下載至本地,文檔中還會保留版面中體現(xiàn)的內(nèi)容成分特征,如眉批與版框內(nèi)容分開,小字注釋與大字有不同的樣式,甚至表格都會轉(zhuǎn)換出來。

含眉批頁面導(dǎo)出示例

復(fù)雜表格頁面導(dǎo)出示例
在過去9個月,古聯(lián)OCR算法已通過內(nèi)部批處理的方式為許多文獻整理工作提供了OCR服務(wù),識別結(jié)果經(jīng)過作者、校對者、編輯的驗證,一般情況下都比較理想。但每次對研發(fā)同事表達驚喜、贊嘆之后,我們總會追問,還可以更好嗎?反應(yīng)速度好像還有些慢,識別錯漏似乎還有點多,又遇到表現(xiàn)不好的版面了,輸出結(jié)果要做的后處理還比較麻煩……
優(yōu)化永無止境,我們是時候做個復(fù)盤,邀請所有熱愛古籍、從事古籍整理研究事業(yè)的朋友們來討論,對于中文古籍的整理、研究、出版來說,什么樣的OCR系統(tǒng)是好用的、真正需要的系統(tǒng)?

舉例來說,在一開始研發(fā)OCR系統(tǒng)時,整理的功能需求包含了過去工程化的OCR系統(tǒng)各流程的自動處理算法和手動編輯工具。如圖像的預(yù)處理、版面切分校正、文本順序調(diào)整、內(nèi)容成分標注,以及嘗試在行識別算法中讓語義分析發(fā)揮作用……

歷史測試記錄示例
在這些功能反復(fù)折磨測試人員和開發(fā)人員許久之后,我們決定先擱置其他需求,將優(yōu)化OCR識別算法及輸出效果作為核心目標。當前版本的OCR系統(tǒng)中,圖像處理、分區(qū)、調(diào)序、成分標注功能都被舍棄了,上傳圖像、自動OCR、校對、下載結(jié)果在一個頁面上一氣呵成。

籍合網(wǎng)古籍OCR界面示例
但由于算法的完成度較高,一般古籍圖像不經(jīng)過嚴格預(yù)處理也不影響識別效果,網(wǎng)頁輸出結(jié)果和下載文件基本符合人的閱讀習(xí)慣,整體而言用起來似乎更方便了。那么之前被擱置的那些功能需求,是否還有必要重新考慮呢?
在本次系統(tǒng)上線期間,算法團隊還在進行一些特殊版面、字體、應(yīng)覆蓋未覆蓋的漢字的標注和訓(xùn)練,前端開發(fā)團隊在緊鑼密鼓地搭建一個支持整本書多頁圖像批處理且提供自動標點、富文本編輯等OCR后處理服務(wù)的工作平臺,待論證的研發(fā)計劃里還有書名牌記頁面的識別、合理引入NLP算法等等。這些設(shè)想里,會有沒有真實使用場景的偽需求,或者是令人感覺“可以但沒必要”的假創(chuàng)新嗎?




