|
對于pdf文檔,大家平時在工作的時候,可能會遇到很多的問題,比如不知道文字提取功能是怎么操作的,所以很多時候都浪費了時間。那么pdf文字提取是怎么操作的?pdf的作用及基本特征是什么?萬興PDF專家將為您詳細介紹。 PDF文檔 PDF是由Adobe公司所開發(fā)的獨特的跨平臺文件格式。是便攜文檔格式的外語簡稱,同時也是該格式的擴展名。它可把文檔的文本、格式、字體、顏色、分辨率、鏈接及圖形圖像、聲音、動態(tài)影像等所有的信息封裝在一個特殊的整合文件中。它在技術上起點高,功能全,功能大大的強過了現有的各種流行文本格式;又有大名鼎鼎、實力超群Adobe公司的極力推廣,現在已經成為了新一代電子文本的不可爭議的行業(yè)標準。 pdf的作用及基本特征 PDF文件不管是在Windows,Unix還是在蘋果公司的Mac OS操作系統中都是通用的。這一特點使它成為在Internet上進行電子文檔發(fā)行和數字化信息傳播的理想文檔格式。越來越多的電子圖書、產品說明、公司文告、網絡資料、電子郵件開始使用PDF格式文件。PDF格式文件目前已成為數字化信息事實上的一個工業(yè)標準。 Adobe公司設計PDF文件格式的目的是為了支持跨平臺上的,多媒體集成的信息出版和發(fā)布,尤其是提供對網絡信息發(fā)布的支持。為了達到此目的, PDF具有許多其他電子文檔格式無法相比的優(yōu)點。PDF文件格式可以將文字、字型、格式、顏色及獨立于設備和分辨率的圖形圖像等封裝在一個文件中。該格式文件還可以包含超文本鏈接、聲音和動態(tài)影像等電子信息,支持特長文件,集成度和安全可靠性都較高。 PDF文件使用了工業(yè)標準的壓縮算法,通常比PostScript文件小,易于傳輸與儲存。 pdf文字提取怎么操作? 1. 第一步:先用Adobe Reader打開想轉換的PDF文件,接下來選擇“文件→打印”菜單,在打開的“打印”窗口中將“打印機”欄中的“名稱”設置為“Microsoft Office Document Image Writer”,確認后將該PDF文件輸出為MDI格式的虛擬打印文件。 第二步:運行Microsoft Office Document Imaging,并利用它來打開剛才保存的MDI文件,選擇“工具→將文本發(fā)送到Word”菜單,在彈出的窗口中選中“在輸出時保持圖片版式不變”,確認后系統會提示“必須在執(zhí)行此操作前重新運行OCR。這可能需要一些時間”,不管它,確認即可。 2. 情況一:如果pdf文檔本身就是用pagemaker或word轉換而來的(文字非常清晰銳利,很容易識別),那你就方便了。你可以先用acrobat打開,然后點文件——>另存為——>把他保存成rtf文檔,這樣將把所有的pdf頁保存成rtf文檔,在用word打開。注意最好保存成rtf文檔,要不很有可能產生亂碼。小技巧:如果你只想識別pdf文件中的其中幾頁,那你可以現把那幾頁另存為新的pdf文檔,再進行識別。Ny1
pdf文字提取 情況二:如果你所得到的pdf文檔是用掃描儀掃進去的圖片轉換的,那么就麻煩了,不過還是比手輸入快多了,所以繼續(xù)往下看。首先你用acrobat把pdf文件打開,然后點文件——>另存為——>把他保存成圖片格式*.tiff(這是無壓縮圖片格式,以便識別),然后到網上下載文字識別軟件,建議用尚書六號(現在好像出到七號了,很有名,隨處都可以下到),安裝好后,打開轉換好的tiff圖片,點擊識別,看,文字出來了吧,尚書系列文字識別軟件功能十分強大,你可以在里面把文字都編輯好了,再保存成rtf或txt文件,然后粘貼到word里就可以使用了,注意過濾回車符。 以上就是關于pdf文字提取的詳細介紹??赐晡恼?,大家對如何提取文字是不是清楚了很多,相信大家在以后的工作之中也會感到輕松,推薦使用萬興PDF專家。 |
|
|