| 以MICROTEK掃描儀配備的《尚書六號》OCR為例。 一、掃描操作及注意點(diǎn) 掃描儀聯(lián)機(jī) 在確定 MICROTEK掃描儀能夠在被“Scanner Test”找到的條件下運(yùn)行《尚書六號》OCR軟件。然后點(diǎn)擊“掃描”按扭。片刻之后,掃描儀的控制窗口出現(xiàn),在保證 “黑白兩值”300 dpi的條件下,進(jìn)行圖像預(yù)覽。以上步驟也可以通過MICROTEK掃描儀上的“OCR快捷鍵”實(shí)現(xiàn)。目前,市場上的絕大部分MICOTEK掃描儀都配備了方便用戶的快捷鍵。 放大預(yù)覽及調(diào)節(jié)圖像的清晰度 為了達(dá)到最佳的識別效果,對輸入稿件在掃描時(shí)的最低要求是清晰。為此,我們可以通過“放大預(yù)覽”對文稿中的幾個(gè)文字進(jìn)行取樣掃描,從而對圖像的亮度進(jìn)行更為細(xì)致的調(diào)節(jié)。調(diào)節(jié)的工具是掃描儀工具內(nèi)的“閥值”。 以下是不同閥值下的掃描結(jié)果。調(diào)節(jié)到適當(dāng)?shù)拈y值后,就可以選擇“掃描”按扭了。掃描的結(jié)果會傳遞到OCR軟件內(nèi),同時(shí)掃描儀的控制窗口會自動消失。 二、辨識前所需的注意事項(xiàng) 當(dāng)以上事項(xiàng)完成以后,我們所要做的就是在OCR軟件中的實(shí)際操作了。 注意文字的傾斜校正 由于OCR的辨識原理是采用字模的方式進(jìn)行的,所以一定要注意稿件是否水平。具體實(shí)施過程中,可以采用圖像傾斜校正按扭來解決。 對稿件進(jìn)行識別的預(yù)先處理 由于原稿的情況差異萬千,所以我們在識別前,需做一些預(yù)先的處理。首先應(yīng)該去除原稿中的雜點(diǎn)和圖像。文稿中如含有圖像,OCR是不能識別的,圖像的存在,會影響OCR的文字切分。操作中,可使用“圖像的塊擦拭”工具將文檔中的圖像去除,同時(shí)文稿中的一些雜點(diǎn),也應(yīng)盡量地去除。 針對文檔中出現(xiàn)分欄的情況,建議您手動設(shè)定辨識范圍,最好不要采用“自動切分”,只有這樣才能保證辨識結(jié)果的連貫性。 采用適當(dāng)?shù)谋孀R方式 在具體的辨識中,還應(yīng)注意您的稿件是橫排還是豎排,由此選擇正確的編排格式按扭,以保持對應(yīng)。 目前的《尚書六號》OCR軟件為用戶提供了簡體、繁體、英文等不同的識別方式,其選擇是在窗口上的下拉菜單,而非按扭菜單。按扭中的簡體、繁體、ENGLISH是《尚書六號》在不同的操作系統(tǒng)上獲得正確顯示的顯示模式,千萬不要搞混。 確認(rèn)以上的步驟后,此時(shí)就可按下“識別”按扭,識別完畢后,系統(tǒng)進(jìn)入“文稿校對界面”。 三、文稿校對 通常而言,OCR對不能完全確定的文字,會顯示出蘭色,請用戶確認(rèn)。但值得注意的是,在沒有提示出錯的地方,也有可能出錯,尤其是中文文本的英文單詞,OCR一般會將其做中文識別,錯誤率幾乎是百分之百。所以我們在校對時(shí),可以先通讀一遍,以此提高文字校對的效果。 我們可以在此界面內(nèi),通過操作系統(tǒng)提供的文字輸入方法,添加您所需要的文字。 OCR提供選擇使用外部編輯器的功能,我們可以選擇WORD編輯器。 最后建議您在WORD內(nèi)進(jìn)行整個(gè)的文稿校對,并重新排版,以達(dá)到使用OCR的最佳效果。 | 
|  |