小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

傻瓜級 PDF 文件優(yōu)化技巧(zz)

 nice舵主 2014-12-14
     來源: 李鐵牛的日志

  開學了,又是 reading 滿天飛的時節(jié)。很多課程老師會提供閱讀材料的電子版,但時常會出現(xiàn)渣掃描(印歪、黑邊、奇怪的斑點……)的情況,減去了不少閱讀快感。本文將會介紹一些簡單的 PDF 優(yōu)化技巧,從最基本的分割和合并文件、切割頁面、裁切白邊,到稍微復雜一點的文字識別和自動旋轉至水平都有所涉及。在這里,“簡單”的意思是安裝了所需要的小軟件之后,點?幾個按鈕就可以快速完成。

  涉及的大多數(shù)軟件都是免費版,除了 Adobe Acrobat (注意是“Acrobat”而不是“Reader”)。但要實現(xiàn)大多數(shù)這里介紹的功能(ocr 之外的所有功能), Acrobat 并非必須,只是搞一個來的話(破解、試用、在學校電腦用……)會省去很多麻煩。不過為了省去我的麻煩,在此我會基本上只提供所需要的軟件名稱,請自行百度谷歌搜索下載,中?毒不要找我。

  不過需要折騰 PDF 的同學還是去裝一個,它有許多奇妙的功能,甚至包括像在 Word 里面一樣編輯 PDF 上的文字……

  如果這樣還是不會弄的話就找個男朋友去吧。另外,閱讀的材料制作粗糙不是學術渣的借口,韓鱈鲅從來不關心我這些雕蟲小技。

分割和合并文件

  分割文件在我這里的意思是把一個多頁的 PDF 文件拆分成若干個頁數(shù)較少的文件。比如把一個100頁的文件分成100個1頁的文件,或者5個10頁的文件,或者……

  使用軟件:PDFSpliter。沒什么好說的,裝好你就知道怎么用了……

  使用軟件:Acrobat。也沒有什么好說的……分割有三種方式,一是 Split Document (對不起我用的英文版),二是(當你只需要大文件中的某幾頁時) Extract,三是(仍然是只需要某幾頁時)直接打印特定頁數(shù),打印機選擇Adobe PDF,就會生成PDF文件了。合并的話更方便,直接在資源管理器里選擇想要合并的多個文件,右鍵菜單里就有合并選項(被合并的文件可以是 PDF 或者圖片、ppt、doc 等各種文檔,而且合并時可以選擇壓縮文件大?。?br>
  事實上這個打印功能用途廣泛,請自行研究。

裁切白邊

  裁切白邊的意思是把文件每一頁的邊緣空白裁掉,這個功能的作用是方便 Kindle 等閱讀器閱讀(Kindle 的自動切邊功能比較笨),或者在把多個頁面打印到一張紙上時使每一頁的內容稍微大上一點……注意,如果你打出來的文件是給費馬同學看的,請確保白邊夠大,謝謝。

  軟件:Briss。打開后 “l(fā)oad” 需要處理的文件,程序會自動選中頁面上的文字部分(即白邊之外的部分……),可以手動微調或設置具體數(shù)值。這個軟件會把整個文件的所有頁面(或者奇數(shù)、偶數(shù)頁面分開)疊在?一起選中共同的文字部分,所以你不必一頁一頁調白邊要裁多少。

  軟件:Acrobat??旖萱I Ctrl + Shift + T ,然后可以選擇四周分別裁多少、需要裁哪些頁面……也有自動的去除白邊功能(對于渣掃描的文檔而言這個功能非常傻逼)。這個其實不如 Briss,因為是每頁分開處理的,而不是把多個頁面重疊在一起切共同的白邊。

切割頁面

  切割頁面的意思是:有時候會遇到一些 PDF 文件,一個頁面上有被掃描的書的兩頁內容(因為是一本書攤開掃描的),但是你想把這文件切回成每個電子的頁面上只有一個實體書頁面的狀態(tài)。另一個情況是你想把分欄的文件弄?成一欄。

  方法一:使用 Acrobat 和一個能批量修改文件名的工具“拖把更名器”,實在太煩,貼個鏈接。個人感覺該方法巨麻煩而且還有一些我不想解釋的缺點,所以在我發(fā)現(xiàn)方法二之后就拋棄了它,但在發(fā)現(xiàn)方法?三之后我又拋棄了方法二……

  方法二:Briss。在你裁白邊的時候,也許你已經(jīng)注意到了頁面上的被選中部分有一個巨大的數(shù)字“1”,這時只要在邊上沒選中的部分框選一個區(qū)域,就會被標上“2”,?依次類推……事實上如果你導入的是一個明顯分兩個文字區(qū)域的文件,這個過程是會被程序自動完成的。

  方法三:使用大殺器 Scan Tailor,詳見下一段。

Scan Tailor

  該軟件似乎是國外一幫專門研究怎么處理掃描的文件的家伙們開發(fā)出來的一個小工具,性能優(yōu)越,據(jù)說由該軟件處理生成的電子書被谷歌圖書直接采用過。詳細介紹(英文)點擊?這里。

  該軟件提供的第一個功能叫 Fix Orientation,意思是修正性取向……啊不,修正文件的大方向。這里只能以90°的倍數(shù)旋轉頁面。

  第二個功能叫 Split Pages,這并不是我們在1.里面提到的分割文件,而是我們在3.里面提到的方法三。自動模式下會自動識別文件是否分頁,也可以手動在三種情況下選擇:不分頁、分兩頁且?兩頁都保留、分兩頁但拋棄其中只是掃描到邊緣部分的一頁。

  第三個功能叫 Deskew,精確修正頁面的方向。掃描的文件,尤其是老師給的,很多都是歪的(我覺得這個得賴助教?),使用該功能則可以改正。諸如 Acrobat 之類的軟件只能按90°的倍數(shù)旋轉,而該軟件則幾乎可以旋轉任意度數(shù)(其實有個最小值,大概是0.06°吧)。同樣分手動和自動,自動的正確率相當之高。

  第四個功能是 Select Content,即選中內容。就是把頁面上有文字的部分選中,運用這個功能可以像 Briss 一樣去除白邊。由于 Scan Tailor 是一頁一頁分開識別的,所以比 Briss 更精確。同樣支持自動和手動,自動的識別精度挺高的,不會放過頁碼但會放過各種奇怪的斑點……不過缺點是遇到標題頁之類的頁面會裁得太多……

  第五個功能 Margins,就是設置白邊……所以如果你是用這個軟件來去白邊的話,全設置為0就可以了。這個功能主要是在制作版面賞心悅目的電子書文件時有用,可以把功能四里面裁得?參差不齊的頁面用白邊統(tǒng)一大小。

  第六個功能 Output 輸出,里面有一些小的優(yōu)化功能比如調分辨率;模式里可以選黑白、灰度或彩色、混合三種,其中黑白和混合兩種可以加厚或減薄文字(當掃描件比較模糊字顯得比較細的時候有用)?,需要手動把握程度;Dewarping 功能還在測試不用也罷;Despeckling 可以去除文件上的斑點,三種級別可選,重度的話可能會出現(xiàn)把標點符號也干掉的情況。

  綜合來說這個軟件非常好用,如果你沒有很偏執(zhí)地想精確調整每一頁的話。當然也有缺點,比如被處理的文件必須先轉換為圖片,然后再從圖片轉為 PDF (這些功能可以用 Acrobat 輕松完成,也可以使用 p2pdf 等小軟件)。另一個缺點是對渣掃的中文文件效果不佳,經(jīng)常整個兒吞字……最后還有一個缺點是好像沒有 mac 版本,喜聞樂見!

文字識別(OCR)

  掃描版文件的一個問題就是雖然丫是電子版,但是并不能進行文字搜索,這時候就需要把文件轉化一下。

  軟件: acrobat。在工具(Tools)里面有一欄 Recognize Text,打開后可選有語言、分辨率和三種 OCR 方式,其中值得一提的是 ClearScan,有把模糊的字變清晰之奇效。

  事實上有許多其他更專業(yè)的 OCR 軟件,但 Acrobat 是我所知道的里面最簡便好用的,雖然有許多缺點比如 ClearScan 模式下不能手動修改識別錯誤的文字。

拓展閱讀

  覺得 Scan Tailor 還不夠給力的同學的,可以參考這篇文章的后半部分,前半部分太可怕了。

  覺得 Acrobat 的 OCR 不夠給力的同學對不起了,以前曾經(jīng)有過一個很好的介紹這方面的文章,后來那個博客莫名其妙被封了,于是我找不到了。

源地址:http://blog.renren.com/GetEntry.do?id=894198293&owner=248315715    

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內容均由用戶發(fā)布,不代表本站觀點。請注意甄別內容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權內容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多