幾款開(kāi)源的OCR識(shí)別項(xiàng)目，收藏備用

火山山火 2023-03-31 發(fā)布于青海

展開(kāi)全文

OCR引擎

tesseract

Tesseract，一款由HP實(shí)驗(yàn)室開(kāi)發(fā)由Google維護(hù)的開(kāi)源OCR引擎，開(kāi)源，免費(fèi)，支持多語(yǔ)言，多平臺(tái);

https://github.com/tesseract-ocr/tesseract.git

tesseract.js

js版本的Tesseract OCR,支持一百多種語(yǔ)言,使用也是非常簡(jiǎn)單，可以用npm安裝，也可以直接在頁(yè)面引用js

https://github.com/naptha/tesseract.js.git

PaddleOCR

PaddleOCR是百度開(kāi)源一套OCR,旨在打造一套豐富、領(lǐng)先、且實(shí)用的OCR工具庫(kù)，助力開(kāi)發(fā)者訓(xùn)練出更好的模型，并應(yīng)用落地。

https://github.com/PaddlePaddle/PaddleOCR.git

EasyOCR

EasyOCR是用Python編寫基于Tesseract的OCR識(shí)別庫(kù)，用于圖像識(shí)別輸出文本，目前支持80多種語(yǔ)言。

https://github.com/JaidedAI/EasyOCR.git

mmocr

MMOCR 是基于 PyTorch 和 mmdetection 的開(kāi)源工具箱，專注于文本檢測(cè)，文本識(shí)別以及相應(yīng)的下游任務(wù)，如關(guān)鍵信息提取。

https://github.com/open-mmlab/mmocr.git

simple-ocr-opencv

基于opencv 和numpy開(kāi)源的OCR識(shí)別引擎

https://github.com/goncalopp/simple-ocr-opencv.git

OCR工具

OCRmyPDF

OCRmyPDF是基于tesseract-ocr開(kāi)發(fā)、訓(xùn)練的文字識(shí)別提取的開(kāi)源項(xiàng)目

https://github.com/ocrmypdf/OCRmyPDF.git

Umi-OCR

基于 PaddleOCR 實(shí)現(xiàn)的一款開(kāi)源的文字識(shí)別工具，

一般開(kāi)源項(xiàng)目，識(shí)別率肯定沒(méi)有商用的那么高，只有通過(guò)訓(xùn)練自己的字庫(kù)來(lái)提高識(shí)別率。文字識(shí)別場(chǎng)景，有時(shí)候就會(huì)涉及到圖片處理，這里又會(huì)關(guān)聯(lián)到其它強(qiáng)大的圖像處理開(kāi)源項(xiàng)目，如：OpenCV。這些項(xiàng)目中，PaddleOCR相對(duì)來(lái)說(shuō)會(huì)更符合我們常見(jiàn)的業(yè)務(wù)場(chǎng)景，也支持我們自己去訓(xùn)練。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：火山山火 > 《數(shù)據(jù)》

舉報(bào)/認(rèn)領(lǐng)