|
經(jīng)常在網(wǎng)上查找資料,遇到PDF格式的文件就有點麻煩了。雖說有很多PDF to Doc工具,可以把PDF格式轉(zhuǎn)換成Word文件。但有些pdf內(nèi)容原本就是圖片格式,轉(zhuǎn)換后的Word文件自然也是圖片格式,肯定不能進行修改和編輯操作。最好辦法就是把這些PDF文件內(nèi)容識別出來,這不,漢王 PDF OCR恰好具有該項功能。 把漢王 PDF OCR安裝到電腦后,運行PDF OCR主程序。單擊PDF OCR窗口“文件→打開”菜單,打開“打開圖像文件”對話框。再單擊“查找范圍”后面的下拉按鈕,找到所要打開的PDF文件,雙擊打開即可。如果PDF文件有多頁內(nèi)容,則會彈出“選擇拆分多頁pdf”的提示,單擊確定后開始拆分頁面操作(見圖1)。 拆分完成后,會在左側(cè)列表框中生成諸多文件列表。接著,單擊窗口的“編輯→自動傾斜校正”菜單,對圖片進行傾斜校正。單擊窗口的“識別→選擇全部文件”菜單后,選中列表框中所有的拆分文件。繼續(xù)單擊繼續(xù)窗口的“識別→開始識別”菜單,進行批處理識別操作(見圖2)。 等到識別完成后,再單擊窗口的“輸出→到指定格式文件”菜單,打開“保存識別結(jié)果”對話框。 單擊“保存在”按鈕,選擇合適的保存目錄后,在“文件名”后輸入便于識別的文件名,再單擊“保存類型”按鈕,選中“rtf文件”后,單擊“保存”即可(見圖3)。 打開生成的文件,可以看到所有文字和表格都能修改編輯,正確識別率高達到90%以上。 |
|
|