小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

截屏、文字提取一氣呵成,超實用OCR開源小工具

 520jefferson 2020-09-17
這個文本 OCR 小工具,能讓你「所截即所得」。
在我們辦公時,是不是經(jīng)常遇到圖片內(nèi)容轉(zhuǎn)文字的需求?

你是用什么工具解決的呢?是手機(jī)自帶拍照轉(zhuǎn)文字功能?還是使用 QQ 里面的工具?

今天我們就為大家介紹一款 GitHub 用戶 ianzhao05 剛發(fā)布的小工具——textshot,只需要截屏就能實時生成文字。讀者也可以通過此項目大致了解如何對圖像中的文本進(jìn)行識別。


項目鏈接:https://github.com/ianzhao05/textshot

   使用方法

運(yùn)行 textshot.py,在屏幕上打開一個 overlay,在你希望提取的文字區(qū)域畫一個矩形。

使用可選的命令行參數(shù)指定語言。例如,python textshot.py eng + fra 將使用英語作為主要語言,使用法語作為次要語言。默認(rèn)值為英語(eng)。同時確保為其他語言安裝了適用于 Tesseract 的數(shù)據(jù)文件。

建議將熱鍵附加到此工具上。對于 Windows 來說,可以使用 AutoHotkey 腳本來完成此操作;textshot.ahk 同時也包含一個可以使用的示例 AHK 腳本。

如果是 Ubuntu 系統(tǒng),可以打開「鍵盤設(shè)置」,其中顯示了所有 Gnome 快捷方式。底部有一個「+」按鈕,可用于添加你自己的快捷方式。單擊并將其命令設(shè)置為 / usr / bin / python3 <path-to-textshot.py>。如果使用的是 venv,則上面的 python3 路徑應(yīng)指向 venv 的 python3 而不是全局 python3。

部分代碼展示

   如何安裝

  1. 安裝 Python 3;

  2. 復(fù)制 TextShot 庫,并使用跳轉(zhuǎn)命令 cd 進(jìn)入該庫;

  3. (可選項)創(chuàng)建一個虛擬環(huán)境,例如使用 python -m venv .venv ;

  4. 使用 pip install -r requirements.txt 安裝所需的軟件包;

  5. 安裝 Google 的 Tesseract OCR 引擎(https://github.com/tesseract-ocr/tesseract),并通過將目錄添加到系統(tǒng)路徑來確保可以從命令行訪問 tesseract。


這個實用小工具的開發(fā)也離不開谷歌經(jīng)典 OCR 開源項目 Tesseract。

   Tessract 的使用

Tesseract 是目前最好的用于機(jī)器打印字符識別的開源 OCR 工具。20 世紀(jì) 80 年代由 Hewlett Packard 開發(fā),2005 年開源,自 2006 年起由谷歌贊助開發(fā)。該工具在受控條件下也能很好地運(yùn)行,但是如果存在大量噪聲或者圖像輸入 Tesseract 前未經(jīng)恰當(dāng)處理,則性能較差。


Tesseract OCR 引擎于 20 世紀(jì) 80 年代出現(xiàn),更新迭代至今,它已經(jīng)包括內(nèi)置的深度學(xué)習(xí)模型,變成了十分穩(wěn)健的 OCR 工具。而 Tesseract 和 OpenCV 的 EAST 檢測器是一個很棒的組合。

Tesseract 支持 Unicode(UTF-8)字符集,可以識別超過 100 種語言,還包含多種輸出支持,比如純文本、PDF、TSV 等。但是為了得到更好的 OCR 結(jié)果,還必須提升提供給 Tesseract 的圖像的質(zhì)量。

值得注意的是,在執(zhí)行實際的 OCR 之前,Tesseract 會在內(nèi)部執(zhí)行多種不同的圖像處理操作(使用 Leptonica 庫)。通常情況下表現(xiàn)不錯,但在一些特定的情況下的效果卻不夠好,導(dǎo)致準(zhǔn)確度顯著下降。在將圖像傳遞給 Tesseract 之前,可以嘗試以下圖像處理技術(shù),但具體使用哪些技術(shù)取決于使用者想要讀取的圖像:

  1. 反轉(zhuǎn)圖像

  2. 重新縮放

  3. 二值化

  4. 移除噪聲

  5. 旋轉(zhuǎn)/調(diào)整傾斜角度

  6. 移除邊緣


所有這些操作都可以使用 OpenCV 或通過 Python 使用 numpy 實現(xiàn)。

Tesseract (v4) 最新版本支持基于深度學(xué)習(xí)的 OCR,準(zhǔn)確率顯著提高。底層的 OCR 引擎使用的是一種循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)——LSTM 網(wǎng)絡(luò)。

   中文 OCR 項目

中文 OCR,像身份證識別、火車票識別都是常規(guī)操作,它也可以實現(xiàn)更炫酷的功能,例如翻譯筆在書本上滑動一行,自動獲取完整的圖像,并識別與翻譯中文。

目前比較常用的中文 OCR 開源項目是 chineseocr,它基于 YOLO V3 與 CRNN 實現(xiàn)中文自然場景文字檢測及識別,目前該項目已經(jīng)有 2.5K 的 Star 量。

而機(jī)器之心之前介紹過另一個開源的中文 OCR 項目,基于 chineseocr 做出改進(jìn),是一個超輕量級的中文字符識別項目。


項目地址:https://github.com/ouyanghuiyu/chineseocr_lite

該項目表示,相比 chineseocr,chineseocr_lite 采用了輕量級的主干網(wǎng)絡(luò) PSENet,輕量級的 CRNN 模型和行文本方向分類網(wǎng)絡(luò) AngleNet。盡管要實現(xiàn)多種能力,但 chineseocr_lite 總體模型只有 17M。目前 chineseocr_lite 支持任意方向文字檢測,在識別時會自動判斷文本方向。如下圖所示機(jī)器之心實測效果示例:

為您推薦那些輕輕拍了拍Attention的后浪們吳恩達(dá)推薦筆記:22 張圖總結(jié)深度學(xué)習(xí)全部知識圖靈獎得主Yann LeCun《深度學(xué)習(xí)》春季課程你一定從未看過如此通俗易懂的YOLO系列解讀 (下)震驚!這個街道辦招8人,全是清華北大博士碩士!

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多