|
1.書籍中的文字電子化 1、OCR技術(shù)文獻(xiàn)數(shù)字化:基于OCR技術(shù)的文字識(shí)別軟件,可以將通過(guò)攝像機(jī)、掃描儀等光學(xué)輸入方式得到的報(bào)刊、書籍、文稿、表格等印刷品的圖像信息轉(zhuǎn)化為可供計(jì)算機(jī)識(shí)別和處理的文本信息。與傳統(tǒng)錄入方式相比,OCR技術(shù)極大的提高了資料存儲(chǔ)、檢索、加工的效率。 2、OCR技術(shù)的特點(diǎn): 與傳統(tǒng)的手工資料錄入方式相比,文通文字識(shí)別軟件有以下優(yōu)勢(shì): ?。?)效率高,其速度是人工錄入的上百倍甚至上千倍; (2)經(jīng)濟(jì)性好,大大節(jié)約了錄入人員的開銷; ?。?)準(zhǔn)確性更高,根據(jù)數(shù)據(jù)統(tǒng)計(jì)顯示,OCR錄入方式的準(zhǔn)確率遠(yuǎn)高于人工錄入。 3、OCR的技術(shù)支持,文字識(shí)別軟件 2.手寫文字?jǐn)?shù)字化 1)圖文輸入 是指通過(guò)輸入設(shè)備將文檔輸入到計(jì)算機(jī)中也就是實(shí)現(xiàn)原稿的數(shù)字化。在用得比較普遍的設(shè)備是掃描儀。文檔圖像的掃描質(zhì)量是OCR軟件正確識(shí)別的前提條件。恰當(dāng)?shù)剡x擇掃描分辨率及相關(guān)參數(shù)是保證文字清楚、特征不丟失 的關(guān)鍵。 2)預(yù)處理 掃描一幅簡(jiǎn)單的印刷文檔的圖像將每一個(gè)文字圖像分檢出來(lái)交給識(shí)別模塊識(shí)別這一過(guò)程稱為圖像預(yù)處理。預(yù)處理是指在進(jìn)行文字識(shí)別之前的一些準(zhǔn)備工作包括圖像凈化處理去掉原始圖像中的顯見(jiàn)噪聲干擾。 3)單字識(shí)別 單字識(shí)別是體現(xiàn)OCR文字識(shí)別的核心技術(shù)。從掃描文本中分檢出的文字圖 像由計(jì)算機(jī)將其圖形、圖像轉(zhuǎn)變成文字的標(biāo)準(zhǔn)代碼是讓計(jì)算機(jī)"認(rèn)字"的關(guān) 鍵也就是所謂的識(shí)別技術(shù)。 4)后處理 后處理是指對(duì)識(shí)別出的文字或多個(gè)識(shí)別結(jié)果采用詞組方式進(jìn)行上下匹配 即將單字識(shí)別的結(jié)果進(jìn)行分詞與詞庫(kù)中的詞組進(jìn)行比較以提高系統(tǒng)的識(shí)別 率減少誤識(shí)率。 |
|
|
來(lái)自: 昵稱47118512 > 《教育技術(shù)》