| 可以使用文字識別軟件,下面是文字識別軟件的用法: 首先,尚書七號將整個OCR的過程明確化了,通過程序的菜單,我們就能夠知道整個OCR的過程,主要分為:“文件”、“編輯”、“識別”、“輸出”等步驟。 在文件菜單中,您可以調(diào)用掃描儀,或者選擇將已經(jīng)掃描好的圖像文件打開。得到圖像文件后,用戶的工作,就是“編輯“菜單里面所提示的“圖像頁面的處理”,其中包括圖像頁的傾斜校正(提供自動和手動實現(xiàn)方法)及旋轉(zhuǎn)等功能。 處理完畢后,就可以進入“識別過程”,該過程核心是“版面分析”?,F(xiàn)在尚書七號的自動版面分析功能很強,面對報紙雜志等復(fù)雜情況的版面,也能保持很高的分析正確率。不再需要以往尚書六號里面那樣的建議手工劃識別范圍。也正是這點,大大降低了使用者的工作量。為了方便用戶的使用,在“識別”菜單下,也提供了用戶在自動版面分析后,通過修改識別范圍框的屬性,來決定需要識別否的功能。當(dāng)然,用戶還是可以習(xí)慣的按尚書六號那樣,自己來設(shè)定識別區(qū)域。當(dāng)用戶設(shè)置好后,就可以直接點擊“開始識別”的按鈕進行文字識別了。 自動識別完畢,識別結(jié)果的“文本窗口”都會彈出,這個窗口能夠提供識別結(jié)果的校對,為了校對的方便,尚書七號增加了光標跟隨顯示原圖像行的校對方法(如圖3出現(xiàn)的黃色提示行的出現(xiàn))。 這樣提供校對的方法,一眼就能夠看到圖像原文和識別出文本的差別,方便了用戶,降低了用戶校對的工作疲勞感。當(dāng)檢查過后確認沒有錯誤,用戶就可以選擇識別結(jié)果的“輸出”了,指定的文件格式有:RTF、HTML、XLS、TXT,用戶這里可以根據(jù)自己的需要選擇對應(yīng)的格式。如果用戶是想得到類似原文的識別結(jié)果,請選擇RTF格式。把RTF格式輸出的文件用WORD打開后,會發(fā)現(xiàn)幾乎保留了原文的所有痕跡,包括原來頁面中的彩色圖像,都已經(jīng)保留在WORD中了。原稿效果見圖4: 識別結(jié)束后,存為RTF格式保存,WORD打開后的情況見圖5: 通過上面的正確使用習(xí)慣,我們便可利用尚書七號或其他OCR軟件大幅度提高工作的效率。 此外,多數(shù)OCR軟件同尚書七號一樣,均提供有多圖像頁面的處理功能。用戶就可以放心的將好幾頁的文章,統(tǒng)一進行版面處理(只要選擇“識別”菜單下的“選擇全部文件”就可以做到批處理),識別的結(jié)果輸出在同一個文件當(dāng)中,更便于管理和保存。 另外根據(jù)筆者較長時間的使用經(jīng)驗,總結(jié)得出的一個技巧與各位分享,希望能對各位有所幫助。如無特殊需求,一般用戶只要在掃描驅(qū)動軟件中,設(shè)定分辨率是300dpi,不管是彩色、256階灰度還是黑白兩值,尚書七號或其他OCR軟件都可以輕松的識別,且效果最為理想。同時,如果用戶只是需要黑白文檔,在彩色、256階灰度方式的掃描,尚書七號也可以自動的轉(zhuǎn)化成黑白兩值圖做識別,這樣的識別效果會更好。 詳細內(nèi)容見這里:http://www./show_hdr.php?xname=TVKUIV0&dname=CJQ0JV0&xpos=28 參考 
 | 
|  |