|
OCR軟件想必大家都在用,不管是學(xué)生黨還是上班狗,遇到?jīng)]有電子文檔的時候,拿起手機拍一張,稍稍校對修改一下就能省去手打的麻煩,實在是生產(chǎn)力利器。 然而問題來了,市面上這么多的OCR工具,到底哪款軟件最好用呢?網(wǎng)上有不少文章介紹了很多各種各樣的OCR工具,多是從功能方面介紹,很少有針對識別率進(jìn)行對比的,到底哪個識別率最高呢? 黑哥今天就嘗試著做個小實驗,對比一下到底哪款軟件最給力! 特別說明:為充分對比軟件識別效果,本文圖多,如果不想看細(xì)節(jié)對比(都是我的心血啊,好意思嗎?)可以直接拉到最后看結(jié)果。 一、評測準(zhǔn)備 本次選中的是Textgrabber、掃描全能王以及白描這三款。 1、主角背景: A.textgrabber 如果你在電腦上用過ABBYY FineReader Professional,那么你就不會對這款軟件感到陌生,都是由OCR界的扛把子ABBYY開發(fā)的,在文檔識別,數(shù)據(jù)捕獲和語言技術(shù)的開發(fā)中居世界領(lǐng)先地位。 B.掃描全能王 一款國產(chǎn)軟件,其公司在OCR、人工智能、手寫識別、圖像處理及自動圖像增強等領(lǐng)域達(dá)到世界領(lǐng)先水平。核心產(chǎn)品名片全能王全球下載用戶超過3億人,掃描全能王全球下載用戶3.4億。 C.白描 這個軟件名氣不大,出自國人獨立開發(fā)者之手,開發(fā)者陶新樂,一名 iOS 軟件工程師。 為什么會拿一款獨立軟件去跟大廠去懟呢,別著急,往下看你就明白了。 大家知道,作為OCR軟件,我們最關(guān)心的就是識別率,因此,本次主要從這個方面進(jìn)行評測對比。 另外,考慮到大家最常用的使用環(huán)境是中文、英文文檔識別,將對中文、英文、中英文混排三種應(yīng)用場景分別進(jìn)行對比。 2、參評軟件版本號: Textgrabber:iOS 平臺 6.5.0.1 掃描全能王:Android 平臺 5.4.0 白描:Android 平臺 1.0.4 別問我為啥平臺不統(tǒng)一,textgrabber是App Store限免的時候入的,為了省錢唄。。。 目前三款軟件均支持iOS和Android。 3、校對軟件:Word 2016 簡單介紹一下校對過程,在 Word 2016 里面打開審閱標(biāo)簽,選中對比,即可對原文本與目標(biāo)文本進(jìn)行對比。中間為校對區(qū),右上為軟件識別文本,右下為原稿。 實際過程中發(fā)現(xiàn)對比也會有判斷錯誤的地方,如果大家有更好的文本對比軟件,可以介紹給我。 4、原文件 為了盡量減少拍照這一環(huán)節(jié)對識別結(jié)果的影響,在識別對比時,采用的是同一張照片導(dǎo)入三個軟件進(jìn)行分別識別,字號均為五號字。 二、中文文檔識別 本文檔來自《三體》,共1155個字符。 Textgrabber 經(jīng)與原文對比,共檢查出113處修訂。 錯誤表現(xiàn): 1、首行縮進(jìn)均未能正確識別。 2、標(biāo)點符號識別錯誤,中文雙引號“識別為英文引號"。 3、部分字符識別錯誤,汪淼識別為汪森。 4、文本識別丟失。 5、右側(cè)邊緣文本會莫名其妙插入空格。 掃描全能王 經(jīng)與原文對比,共檢查出103處修訂。 錯誤表現(xiàn): 1、首行縮進(jìn)均未能正確識別。 2、標(biāo)點符號識別錯誤,中文雙引號識別為英文引號,省略號……識別為······ 3、在原文換行處錯誤識別為斷行,沒有糾正為自動連接。 4、字符識別錯誤比例低于abbyy,更多來自于格式以及換行錯誤。 白描 共檢查出71處修訂。 錯誤表現(xiàn): 1、首行縮進(jìn)均未能正確識別。(目前所有OCR軟件的通病,后邊不再一一列出。) 2、大部分錯誤來自標(biāo)點符號識別錯誤,特別是段首的標(biāo)點部分丟失,段尾的標(biāo)點符號幾乎全部丟失,但識別到的中文雙引號基本正確,不存在錯誤識別為英文引號。 3、亮點在于文字的識別率幾乎是100%,僅就本測試文檔來說,文字全部識別正確。 小結(jié):白描的文字識別率出乎意料地高,而且對原文版式的還原最準(zhǔn)確,很少出現(xiàn)錯誤斷行的情況。缺點在于對標(biāo)點符號的識別上,段首標(biāo)點部分識別,段末全部陣亡,經(jīng)與作者反饋,證實確實存在這種情況,將在后續(xù)版本進(jìn)行優(yōu)化。 中文識別率排名:白描>textgrabber>掃描全能王 三、英文文檔 出處忘了,好像是來自一篇小說吧,共498字。 Textgrabber 共檢查出27處修訂。 錯誤表現(xiàn): 1、單詞識別率很高,個別單詞存在識別錯誤。 2、部分單詞識別丟失。 3、個別標(biāo)點符號識別錯誤。整體來說識別率很高。 掃描全能王 共檢查出107處修訂。 錯誤表現(xiàn): 1、部分單詞識別錯誤,準(zhǔn)確率要低于abbyy,但優(yōu)于白描。 2、一個奇怪的發(fā)現(xiàn)是word文檔對比時將掃描全能王的部分識別結(jié)果全部判定為錯誤,而實際上當(dāng)我把眼看瞎了也沒發(fā)現(xiàn)錯在何處,所以實際的正確率是要高于對比結(jié)果的,難道word跟這貨有仇嗎? 4、掃描全能王一貫的老毛病依然存在,在換行處未能正確識別,出現(xiàn)多處斷行。 5、部分大小寫識別錯誤。 白描 共檢查出141處修訂。 錯誤表現(xiàn): 1、單詞識別正確率較高,但由于多處大小寫未能正確識別,拉低了識別率。 2、單詞之間的空格出現(xiàn)大面積識別丟失。 3、習(xí)慣性未能識別出每段段尾的標(biāo)點符號,及部分段首的標(biāo)點符號。 4、個別情況出現(xiàn)斷行錯誤。 小結(jié):在這個環(huán)節(jié),國際大廠出品的textgrabber不負(fù)眾望,對英文的識別率及其優(yōu)異,包括對原文版式的還原也非常不錯。從校對結(jié)果就能看出很少出現(xiàn)紅色勘誤。白描在這個環(huán)節(jié)表現(xiàn)較差,容易出現(xiàn)空格丟失以及大小寫識別錯誤,在英文文本識別中非常吃虧。掃描全能王的表現(xiàn)介于兩者之間,同樣是識別率不錯,但斷行習(xí)慣性出錯。 英文識別率排名:textgrabber>掃描全能王>白描 四、中英文混排文檔 出處來自于威鋒一篇帖子,759字。 Textgrabber 共檢查出69處修訂。 錯誤表現(xiàn): 1、文本識別結(jié)果習(xí)慣性在右側(cè)邊緣會莫名其妙插入空格。 2、部分字符識別錯誤,如將mbp15識別為mbpl5。 3、個別標(biāo)點識別錯誤。 掃描全能王 共檢查出182處修訂。 錯誤表現(xiàn): 1、依然在換行處未能正確識別,出現(xiàn)多處錯誤斷行。 2、中英文混排的字符出現(xiàn)部分識別錯誤,如fy識別為行,firefox識別為firefo×。 3、標(biāo)點符號識別錯誤率較高。 白描 共檢查出142處修訂。 錯誤表現(xiàn): 1、習(xí)慣性問題依然存在,未能識別出每段段尾的標(biāo)點符號,及部分段首的標(biāo)點符號。 2、中文識別率較高,中英文混排識別率一般,如將html5test識別為ntml5test。 3、標(biāo)點符號錯誤率較高。 小結(jié):該環(huán)節(jié)各家表現(xiàn)綜合了前兩輪表現(xiàn)特點,textgrabber在該環(huán)節(jié)依然穩(wěn)健,沒有特別明顯的短板,白描和掃描全能王在前兩環(huán)節(jié)的亮點和缺點也延續(xù)在此環(huán)節(jié),綜合來看,textgrabber表現(xiàn)最佳。 中英文混排識別率排名:textgrabber>白描>掃描全能王 五、綜合對比 1、識別率 白描作為一款獨立應(yīng)用,中文的識別率出乎意料地令人印象深刻,同時對原文版式的還原度最高,如果后期對標(biāo)點符號識別繼續(xù)優(yōu)化的話,在中文識別領(lǐng)域里幾乎就不存在對手了。 大廠出品的textgrabber表現(xiàn)最為穩(wěn)定,畢竟是號稱OCR界的老大,延續(xù)了桌面到手機端的優(yōu)勢,其對英文識別的準(zhǔn)確度可謂賞心悅目。 掃描全能王的識別率在于兩者之間,沒有特別明顯的短板,但也沒有特別優(yōu)異的亮點。它的優(yōu)勢在于對文檔掃描及文檔管理上,但在識別這個環(huán)節(jié)表現(xiàn)中庸。 總的來說,識別中文文檔推薦白描,識別英文文檔推薦 Textgrabber。 2、性價比 相較于TextGrabber 30元,和掃描全能王 30 元/月的相比,白描Android版普通版免費,iOS版 6 元的入門價格幾乎稱得上是白菜價啦! 必須值得一提的是,白描的iOS版還支持表格掃描,其余兩款均不支持。為了嘗試這個功能,我還特地付費下載測試了一下,雖然在識別格式上還存在很多優(yōu)化的空間,但總歸邁出了值得期待的一步! 對了,白描還有個特別酷炫的功能,其他兩款都沒有,那就是支持最多9張圖片的批量OCR識別,并且還能合并為一個文檔! 不然這些爆炸好評怎么來的—— 你說,識別率這么高,還賣得這么便宜,你還讓不讓別人活了,黑哥覺得這款軟件賣個三四十塊它一點都不貴呀!要下的趁早,說不定哪天就真的提價了,我已經(jīng)在iOS和Android上都已付費購買,這款良心軟件真的值得付費支持! |
|
|
來自: 網(wǎng)羅燈下黑 > 《待分類》