隨著PDF電子雜志的流行,各類PDF轉(zhuǎn)換軟件業(yè)應(yīng)運(yùn)而生。但是問題也隨之而來。
首先我們來認(rèn)識一下當(dāng)前流行的PDF電子雜志。
PDF電子雜志可分為兩類:
1.用制作軟件編寫的PDF文件
2.通過掃描轉(zhuǎn)化而來的PDF文件
當(dāng)前的PDF轉(zhuǎn)換軟件絕大多數(shù)只是用于第一類PDF文件,可以提取文字和圖片。
但是遇到第二類PDF文件就無能為力了(實(shí)際上PDF雜志通常都屬于第二類PDF文件,由掃描文件轉(zhuǎn)換來的)。
難道我們就這樣束手無策了嗎?
NO!
網(wǎng)絡(luò)之大,總有座山頭是偶們的。經(jīng)過小編不懈的努力,終于將它搞定。
總體思路:1.orc文字識別軟件可以掃描文件,可以將PDF文件轉(zhuǎn)換為掃描文件格式,然后用該軟件提取。
具體方法如下:
A.使用PDF Split-Merge (PDF分割合并工具,下載鏈接)分割PDF文件。
B.利用圖片查看工具打開單個(gè)的PDF文件,調(diào)整大小,將其另存為BMP,Tif或JPeg格式(這些格式是由orc文字識別軟件的需要來決定的)。
{注意:調(diào)整PDF文件時(shí)很重要,這關(guān)系到文字提取的準(zhǔn)確率。盡量把PDF文件調(diào)到清晰時(shí),再存儲為BMP,Tif或JPeg格式,不建議使用BMP格式,那樣的話,效果不太好。}
C.使用“尚書六號orc文字識別軟件”(下載鏈接)對轉(zhuǎn)換后的文件進(jìn)行識別。
尚書六號軟件使用方法:
先運(yùn)行軟,選擇“文件”----“打開圖像頁面”,選擇需要的文件。
用左側(cè)工具欄上的“放大”/“縮小”工具,對文件進(jìn)行調(diào)整,
用左側(cè)工具欄上的“定義識別區(qū)域”工具,選擇需要的部分。
單擊 上方工具欄上的“識別”按鈕
查看轉(zhuǎn)換是否正確,確認(rèn)無誤后,保存即可。





