光學(xué)字符識別技術(shù):讓電腦像人一樣閱讀(組圖)
把手機(jī)攝像頭對準(zhǔn)菜單上的法語菜名,屏幕上實(shí)時顯示出翻譯好的中文菜名;將全世界圖書館的藏書轉(zhuǎn)化為電子書;街景車游走于大街小巷,拍攝街景的同時也從街景 圖像中自動提取文字標(biāo)識,讓地圖信息更豐富更準(zhǔn)確……這些場景的背后有一個共同的關(guān)鍵技術(shù)——OCR (Optical CharacterRecognition),光學(xué)字符識別。

OCR讓電腦“讀”懂世界
鼠標(biāo)發(fā)明人Douglas Engelbart曾經(jīng)針對人工智能的簡稱AI提出了另一個理念——Augmented Intelligence,增強(qiáng)智能。在他看來,人已經(jīng)足夠聰明,我們無需再去復(fù)制人類,而是可以從更加實(shí)用的角度,將人類的智能進(jìn)一步延伸,讓機(jī)器去增強(qiáng)人的智能。
智能眼鏡就是這樣的產(chǎn)品,去超市的時候帶上一副,看到心儀商品上的文字,自動搜索出詳細(xì)信息:生產(chǎn)商情況、在不同電商平臺的價格等等。讓智能眼鏡讀懂文字的 正是OCR技術(shù)。OCR本質(zhì)上是利用光學(xué)設(shè)備去捕獲圖像,今天可以是手機(jī)、照相機(jī),未來可以是智能眼鏡、可穿戴設(shè)備等,就像人的眼睛一樣,只要有文字,就去認(rèn)出來。
我們也可以設(shè)想一下OCR在未來工作中的應(yīng)用場景:每次工作會議后,無需再把白板上的討論內(nèi)容抄寫下來,然后群發(fā)郵件布置任務(wù),只要將白板用手機(jī)等智能設(shè)備拍照留存,系統(tǒng)便能自動識別并分檢出相關(guān)人員的后續(xù)工作,并將待辦事項自動存放到各自的電子日歷中。
事實(shí)上,我們已經(jīng)向這個場景邁進(jìn)了一步,微軟前不久推出的Office Lens應(yīng)用,已經(jīng)可以通過視覺計算技術(shù)自動對圖像進(jìn)行清理并把它保存到OneNote,而OneNote中基于云端的OCR技術(shù)將對圖片進(jìn)行文字識別, 隨后你就可以擁有一個可編輯、可搜索的數(shù)字文件,為上述未來應(yīng)用場景打下基礎(chǔ)。微軟幾年前推出的手機(jī)應(yīng)用Translator,除了支持文本和語音翻譯 外,還能用手機(jī)拍攝不同語言的菜單或指示牌,翻譯結(jié)果立即浮現(xiàn)于原文之上。Office Lens和Translator這兩款產(chǎn)品中的“中日韓”O(jiān)CR核心技術(shù)就來自微軟亞洲研究院的語音團(tuán)隊。

從平板掃描儀到前端手機(jī)后端云
回過頭來看,OCR技術(shù)經(jīng)歷了怎樣的發(fā)展歷程呢?早在20世紀(jì)50年代,IBM就開始利用OCR技術(shù)實(shí)現(xiàn)各類文檔的數(shù)字化,早期的OCR設(shè)備龐大而復(fù)雜,只 能處理干凈背景下的某種印刷字體。20世紀(jì)80年代,平板掃描儀的誕生讓OCR進(jìn)入商用階段,設(shè)備更為輕便靈巧,可以處理的字體數(shù)量也增多,但對文字的背 景要求仍然很高,需要很好的成像質(zhì)量。
平板掃描儀對印刷體文本的識別率在20世紀(jì) 90年代就已經(jīng)達(dá)到99%以上,可謂OCR應(yīng)用迎來的第一個高潮。當(dāng)時最著名事件是谷歌數(shù)字圖書館,谷歌還申請了圖書掃描專利,實(shí)現(xiàn)了批量化的高速掃描。 在此期間,手寫字體的識別也在并行發(fā)展,被廣泛用于郵件分揀、支票分類、手寫表格數(shù)字化等領(lǐng)域。
這樣的成就一度讓大家誤以為OCR技術(shù)已經(jīng)登峰造極,但從21世紀(jì)開始,準(zhǔn)確地說是自從2004年擁有300萬像素攝像頭的智能手機(jī)誕生之日起,這一情況發(fā) 生了根本改變。越來越多的人隨手拿起手機(jī)拍攝所看到的事物和場景,而此類自然場景中的文字識別難度遠(yuǎn)遠(yuǎn)高于平板掃描儀時期,即便是印刷字體,也不能得到很 高的識別率,更別說手寫體了。學(xué)術(shù)界因此將自然場景中的文字識別作為全新的課題來對待。
與 此同時,云計算、大數(shù)據(jù)以及通訊網(wǎng)絡(luò)的快速發(fā)展,實(shí)現(xiàn)了智能手機(jī)的24小時在線,前端采用手機(jī)攝像頭進(jìn)行文字捕捉,后端可以對其進(jìn)行實(shí)時分析和處理,二者 的結(jié)合讓OCR的未來應(yīng)用模式充滿想象。因此,對OCR的研究再度成為學(xué)術(shù)界的焦點(diǎn),無論是前端識別技術(shù)還是后端的關(guān)聯(lián)應(yīng)用領(lǐng)域,都有著無限可能。微軟亞 洲研究院的研究員們,也非常有幸加入了這個大潮。
自然場景下的文字檢測獲突破性進(jìn)展
自然場景圖像中的文字識別大大難于掃描儀圖像中的文字識別,因為它具有極大的多樣性和明顯的不確定性。如文字中包含多種語言,每種語言含有多種字母,每個字 母又可以有不同的大小、字體、顏色、亮度、對比度等;文字通常以文本行的形式存在,但文本行可能有不同的排列和對齊方式,橫向、豎向、彎曲都有可能;因拍 攝圖像的隨意性,圖像中的文字區(qū)域還可能會產(chǎn)生變形(透視和仿射變換)、殘缺、模糊斷裂等現(xiàn)象。

自然場景圖片中的文字多樣性示例
與傳統(tǒng) OCR 技術(shù)中的掃描文檔圖像相比,自然場景圖像的背景更為復(fù)雜。如文字可能不是寫在平面上而是在曲面上;文字區(qū)域附近有非常復(fù)雜的紋理和噪聲;圖像中的非文字區(qū)域有著跟文字區(qū)域非常相似的紋理,比如窗戶、樹葉、柵欄、磚墻等。這些復(fù)雜背景會極大增加誤檢率。
由 于自然場景下的文字識別難度大,微軟亞洲研究院團(tuán)隊對相關(guān)技術(shù)和算法進(jìn)行了針對性的優(yōu)化和創(chuàng)新,從三個方面對文本檢測技術(shù)進(jìn)行了改進(jìn),并取得突破。通 常,OCR識別的步驟可以分為兩步:首先是文本檢測(Text detection),將文字從圖片中提取出來;然后,對文本進(jìn)行識別(Recognition),此次的突破主要是在文本檢測環(huán)節(jié)的兩個子階段。
階段①:采用新算法,檢測準(zhǔn)確高效
一個字母或文字通??梢苑譃槿舾蓚€連通區(qū)域,如o就擁有一個連通區(qū)域,i則擁有兩個連通區(qū)域,文本檢測首先要從圖像中切割出可能存在的文字,即候選連通區(qū)域,然后再對其進(jìn)行文字/非文字分類。
在確定候選連通區(qū)域階段,微軟亞洲研究院團(tuán)隊在傳統(tǒng)檢測方法ER(Extremal Region,極值區(qū)域)和MSER(Maximally Stable Extremal Region,最大平穩(wěn)極值區(qū)域)基礎(chǔ)之上創(chuàng)新地采用了對比極值區(qū)域CER(Contrasting Extremal Region),CER是跟周圍的背景有一定對比度的極值區(qū)域,這個對比度至少要強(qiáng)到能夠被人眼感知到,在低對比度的圖像上比MSER效果更好,而且獲得 的候選連通區(qū)域數(shù)量遠(yuǎn)小于ER,候選范圍大大縮小,提高了算法的效率。
為了提高所獲得的候選連通區(qū)域的質(zhì)量,微軟亞洲研究院團(tuán)隊決定增加一個算法環(huán)節(jié)去增強(qiáng)CER。尤其在圖像模糊、分辨率低或者噪聲較多時,提取出來的CER有可能會含有冗余像素或者噪聲,這些冗余像素或者噪聲的存在會使得后面的文字/非文字分類問題變得更為復(fù)雜。
采 用基于感知的光照不變(Perception-based IlluminationInvariant, PII)顏色空間中的顏色信息去增強(qiáng)CER可算是此次算法優(yōu)化的另一個創(chuàng)新之舉,利用顏色信息盡可能濾除CER中的冗余像素或者噪聲,從而得到 Color-enhanced CER。該顏色空間具有視覺感知一致性,而且對光照不敏感,更接近人眼對顏色的判斷。

受噪聲影響的CER示例
在實(shí)際操作中,并不是每個CER都需要通過顏色信息來增強(qiáng),因為有很多CER本身顏色均勻,沒有噪聲,尤其是在圖片質(zhì)量很高的時候。因此,在對CER進(jìn)行增強(qiáng)操作之前我們會先判斷該CER是否需要增強(qiáng)操作,以減少不必要的計算復(fù)雜度。

對CER的顏色增強(qiáng)效果示例

算法提取出來的候選連通區(qū)域結(jié)果示例
階段②:創(chuàng)新分類,檢測更高質(zhì)
當(dāng)獲得了高質(zhì)量的候選連通區(qū)域,就需要對其中的字符進(jìn)行分辨,確定其是否為文字或非文字,微軟亞洲研究院團(tuán)隊創(chuàng)新地提出了一套基于淺層神經(jīng)網(wǎng)絡(luò)的文字/非文字分類算法,比以往的算法更加有效。
該 算法根據(jù)文字本身的特性采用分治策略將原始問題空間劃分為5個子空間,每個子空間對應(yīng)一類文字樣本,分別命名為Long類,Thin類,F(xiàn)ill 類,Square-large類和 Square-small類(如下圖所示),于是每個候選連通區(qū)域被劃分到這5類中的一種。

文字類問題空間劃分示例
在每個子空間中,微軟亞洲研究院團(tuán)隊創(chuàng)新地利用無歧義學(xué)習(xí)策略訓(xùn)練一個相應(yīng)的淺層神經(jīng)網(wǎng)絡(luò),作為該子空間的文字/非文字分類器,我們可以將該神經(jīng)網(wǎng)絡(luò)看作是一個黑盒子,在經(jīng)過大量學(xué)習(xí)之后,它便能較為準(zhǔn)確的將文字與非文字分類。
每 次分類動作包括兩個階段——預(yù)剪枝(Pre-pruning)階段和驗證(Verification)階段。在預(yù)剪枝階段,分類器的任務(wù)是盡可能濾除無歧 義的非文字候選連通區(qū)域;在驗證階段,則通過引入更多信息來消除孤立連通區(qū)域的歧義性,從而進(jìn)一步濾除有歧義的非文字候選連通區(qū)域。
2014 年8月,在瑞典首都斯德哥爾摩舉辦的國際模式識別大會(ICPR)上,微軟亞洲研究院團(tuán)隊公布的研究成果在自然場景文字檢測的標(biāo)準(zhǔn)數(shù)據(jù)集(ICDAR- 2013測試集)上取得了92.1%的檢測精度和92.3%的召回率。此前業(yè)界最好技術(shù)的檢測精度是88.5%,而召回率只有66.5%,多年來這些數(shù)字 每年增長只有幾個百分點(diǎn),微軟的技術(shù)讓自然場景圖像中的文字檢測實(shí)現(xiàn)了突破。
人類需求牽引科技發(fā)展走到今天,智慧的無限延伸決定了世界的無限潛能。10年前的簡單通訊工具手機(jī)如今已成為智慧生活的伴侶,曾經(jīng)只被掃描儀應(yīng)用的OCR技術(shù)亦已煥發(fā)新機(jī)。隨著研究工作的不斷突破和智能設(shè)備的推陳出新,OCR的應(yīng)用也將充滿無限機(jī)會、無限可能性。
網(wǎng)編:蒲公英 |
|
|
|