截屏、文字提取一氣呵成，超實用OCR開源小工具

520jefferson 2020-09-17

展開全文

這個文本 OCR 小工具，能讓你「所截即所得」。

在我們辦公時，是不是經(jīng)常遇到圖片內(nèi)容轉(zhuǎn)文字的需求？

你是用什么工具解決的呢？是手機(jī)自帶拍照轉(zhuǎn)文字功能？還是使用 QQ 里面的工具？

今天我們就為大家介紹一款 GitHub 用戶 ianzhao05 剛發(fā)布的小工具——textshot，只需要截屏就能實時生成文字。讀者也可以通過此項目大致了解如何對圖像中的文本進(jìn)行識別。

項目鏈接：https://github.com/ianzhao05/textshot

使用方法

運(yùn)行 textshot.py，在屏幕上打開一個 overlay，在你希望提取的文字區(qū)域畫一個矩形。

使用可選的命令行參數(shù)指定語言。例如，python textshot.py eng + fra 將使用英語作為主要語言，使用法語作為次要語言。默認(rèn)值為英語（eng）。同時確保為其他語言安裝了適用于 Tesseract 的數(shù)據(jù)文件。

建議將熱鍵附加到此工具上。對于 Windows 來說，可以使用 AutoHotkey 腳本來完成此操作；textshot.ahk 同時也包含一個可以使用的示例 AHK 腳本。

如果是 Ubuntu 系統(tǒng)，可以打開「鍵盤設(shè)置」，其中顯示了所有 Gnome 快捷方式。底部有一個「+」按鈕，可用于添加你自己的快捷方式。單擊并將其命令設(shè)置為 / usr / bin / python3 <path-to-textshot.py>。如果使用的是 venv，則上面的 python3 路徑應(yīng)指向 venv 的 python3 而不是全局 python3。

部分代碼展示

如何安裝

安裝 Python 3；
復(fù)制 TextShot 庫，并使用跳轉(zhuǎn)命令 cd 進(jìn)入該庫；
（可選項）創(chuàng)建一個虛擬環(huán)境，例如使用 python -m venv .venv ；
使用 pip install -r requirements.txt 安裝所需的軟件包；
安裝 Google 的 Tesseract OCR 引擎（https://github.com/tesseract-ocr/tesseract），并通過將目錄添加到系統(tǒng)路徑來確保可以從命令行訪問 tesseract。

這個實用小工具的開發(fā)也離不開谷歌經(jīng)典 OCR 開源項目 Tesseract。

Tessract 的使用

Tesseract 是目前最好的用于機(jī)器打印字符識別的開源 OCR 工具。20 世紀(jì) 80 年代由 Hewlett Packard 開發(fā)，2005 年開源，自 2006 年起由谷歌贊助開發(fā)。該工具在受控條件下也能很好地運(yùn)行，但是如果存在大量噪聲或者圖像輸入 Tesseract 前未經(jīng)恰當(dāng)處理，則性能較差。

Tesseract OCR 引擎于 20 世紀(jì) 80 年代出現(xiàn)，更新迭代至今，它已經(jīng)包括內(nèi)置的深度學(xué)習(xí)模型，變成了十分穩(wěn)健的 OCR 工具。而 Tesseract 和 OpenCV 的 EAST 檢測器是一個很棒的組合。

Tesseract 支持 Unicode（UTF-8）字符集，可以識別超過 100 種語言，還包含多種輸出支持，比如純文本、PDF、TSV 等。但是為了得到更好的 OCR 結(jié)果，還必須提升提供給 Tesseract 的圖像的質(zhì)量。

值得注意的是，在執(zhí)行實際的 OCR 之前，Tesseract 會在內(nèi)部執(zhí)行多種不同的圖像處理操作（使用 Leptonica 庫）。通常情況下表現(xiàn)不錯，但在一些特定的情況下的效果卻不夠好，導(dǎo)致準(zhǔn)確度顯著下降。在將圖像傳遞給 Tesseract 之前，可以嘗試以下圖像處理技術(shù)，但具體使用哪些技術(shù)取決于使用者想要讀取的圖像：

反轉(zhuǎn)圖像
重新縮放
二值化
移除噪聲
旋轉(zhuǎn)/調(diào)整傾斜角度
移除邊緣

所有這些操作都可以使用 OpenCV 或通過 Python 使用 numpy 實現(xiàn)。

Tesseract (v4) 最新版本支持基于深度學(xué)習(xí)的 OCR，準(zhǔn)確率顯著提高。底層的 OCR 引擎使用的是一種循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）——LSTM 網(wǎng)絡(luò)。

中文 OCR 項目

中文 OCR，像身份證識別、火車票識別都是常規(guī)操作，它也可以實現(xiàn)更炫酷的功能，例如翻譯筆在書本上滑動一行，自動獲取完整的圖像，并識別與翻譯中文。

目前比較常用的中文 OCR 開源項目是 chineseocr，它基于 YOLO V3 與 CRNN 實現(xiàn)中文自然場景文字檢測及識別，目前該項目已經(jīng)有 2.5K 的 Star 量。

而機(jī)器之心之前介紹過另一個開源的中文 OCR 項目，基于 chineseocr 做出改進(jìn)，是一個超輕量級的中文字符識別項目。

項目地址：https://github.com/ouyanghuiyu/chineseocr_lite

該項目表示，相比 chineseocr，chineseocr_lite 采用了輕量級的主干網(wǎng)絡(luò) PSENet，輕量級的 CRNN 模型和行文本方向分類網(wǎng)絡(luò) AngleNet。盡管要實現(xiàn)多種能力，但 chineseocr_lite 總體模型只有 17M。目前 chineseocr_lite 支持任意方向文字檢測，在識別時會自動判斷文本方向。如下圖所示機(jī)器之心實測效果示例：

—完—

為您推薦那些輕輕拍了拍Attention的后浪們吳恩達(dá)推薦筆記：22 張圖總結(jié)深度學(xué)習(xí)全部知識圖靈獎得主Yann LeCun《深度學(xué)習(xí)》春季課程你一定從未看過如此通俗易懂的YOLO系列解讀 (下)震驚！這個街道辦招8人，全是清華北大博士碩士！

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： 520jefferson > 《機(jī)器學(xué)習(xí)/深度學(xué)習(xí)/tensorflow》

舉報/認(rèn)領(lǐng)

0條評論

發(fā)表

請遵守用戶評論公約

類似文章 更多

520jefferson

關(guān)注對話

TA的最新館藏

一些通用的Makefile文件模板
領(lǐng)域/場景大模型也太難訓(xùn)了吧
PEFT | Transformer參數(shù)量、計算量、顯存占用分析
Broadcast,Scatter,Gather,Reduce,All
淺析 | 大語言模型細(xì)節(jié)、訓(xùn)練及微調(diào)
[轉(zhuǎn)] LLMs之InternLM：InternLM/InternLM-7B模型的簡介、安裝、使用方法之詳細(xì)攻略

喜歡該文的人也喜歡更多

熱門閱讀換一換

小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

截屏、文字提取一氣呵成，超實用OCR開源小工具

截屏、文字提取一氣呵成，超實用OCR開源小工具