小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

每天節(jié)省2小時(shí)!打工人都在用的開源OCR工具OCRFlux。

 yan3 2025-07-11 發(fā)布于北京

OCRFlux」是什么?

      它是一款輕量級多模態(tài)大語言模型的工具包,主要功能是把PDF轉(zhuǎn)換為Markdown文件,它的優(yōu)勢是可以解決復(fù)雜的排版解析、復(fù)雜的表格解析和跨頁內(nèi)容合并這些難點(diǎn)問題,同時(shí)它的識(shí)別準(zhǔn)確率也尤為突出。受到廣大用戶的喜愛。

圖片
二、為什么我們要OCRFlux?
     相信在大家在日常工作中肯定會(huì)用到將PDF轉(zhuǎn)換為Markdown的場景,也許在看到今天這個(gè)工具之前,大家一定也會(huì)使用過其他的OCR識(shí)別工具。其實(shí)我也用過,比如olmOCR、Nanonets-OCR,MonkeyOCR等等。
     
     但是今天為什么推薦這個(gè)OCRFlux工具呢?因?yàn)樗_實(shí)可以應(yīng)對更復(fù)雜的PDF資料文件,并且準(zhǔn)確率也更高??谡f無憑,先看官方測評數(shù)據(jù)。
     
     單頁面內(nèi)容的測試(OCRFlux-bench-single)
用工具生成的Markdown與真實(shí)的Markdown之間的相似度(EDS)為指標(biāo)??梢钥闯鯫CRFlux工具比其他的常用OCR識(shí)別工具更準(zhǔn)確,達(dá)到了96.7%的分?jǐn)?shù)。
Language
Model
Avg EDS ↑
English
olmOCR-7B-0225-preview
0.885
Nanonets-OCR-s
0.870
MonkeyOCR
0.828
OCRFlux-3B
0.971
Chinese
olmOCR-7B-0225-preview
0.859
Nanonets-OCR-s
0.846
MonkeyOCR
0.731
OCRFlux-3B
0.962
Total
olmOCR-7B-0225-preview
0.872
Nanonets-OCR-s
0.858
MonkeyOCR
0.780
OCRFlux-3B
0.967
    單頁面復(fù)雜表格的測試(OCRFlux-pubtabnet-single)
同樣使用工具生成HTML的表格與真實(shí)的HTML表格之間的相似度(TEDS)為指標(biāo)??梢钥闯鯫CRFlux的結(jié)果總體分?jǐn)?shù)也是最高的,達(dá)到86.1%的分?jǐn)?shù)。
Type
Model
Avg TEDS ↑
Simple
olmOCR-7B-0225-preview
0.810
Nanonets-OCR-s
0.882
MonkeyOCR
0.880
OCRFlux-3B
0.912
Complex
olmOCR-7B-0225-preview
0.676
Nanonets-OCR-s
0.772
MonkeyOCR
0.826
OCRFlux-3B
0.807
Total
olmOCR-7B-0225-preview
0.744
Nanonets-OCR-s
0.828
MonkeyOCR
0.853
OCRFlux-3B
0.861
下面再來看看,跨頁面的測試數(shù)據(jù)結(jié)果。

    跨頁面內(nèi)容的測試(OCRFlux-bench-cross)
使用的指標(biāo)包括,精確率(Precision)、召回率(Recall)、準(zhǔn)確率(Accuracy)和F1分?jǐn)?shù)。它的總體準(zhǔn)確率達(dá)到99.6%
Language
Precision ↑
Recall ↑
F1 ↑
Accuracy ↑
English
0.992
0.964
0.978
0.978
Chinese
1.000
0.988
0.994
0.994
Total
0.996
0.976
0.986
0.986

    跨頁面復(fù)雜表格的測試OCRFlux-pubtabnet-cross
指標(biāo)包括表格復(fù)雜度,和平均TEDS,同樣可以看出它準(zhǔn)確率都在90%以上。
Table type
Avg TEDS ↑
Simple
0.965
Complex
0.935
Total
0.950

    也許對于這些指標(biāo)沒有直觀感受,只是一些數(shù)字,那么下面我們看看它真實(shí)識(shí)別效果。
     

三、核心功能包括哪些?

1、單頁面識(shí)別場景:

1.1   跨列表格,當(dāng)PDF中存在跨多列時(shí),就難以準(zhǔn)確判定單元格邊界,容易導(dǎo)致識(shí)別不準(zhǔn)確??梢灾庇^地看出,OCRFlux識(shí)別的效果是比較準(zhǔn)確的。

圖片

1.2合并單元格

當(dāng)PDF中存在合并單元格的時(shí)候,特別容易識(shí)別出歧義,OCRFlux支持復(fù)雜表格結(jié)構(gòu)的還原,因此可以準(zhǔn)確識(shí)別其中的內(nèi)容。

圖片

1.3多列

當(dāng)PDF中存在多列的時(shí)候,經(jīng)常會(huì)打亂常規(guī)的從左至右的閱讀順序,因此容易識(shí)別有誤差,可以看下OCRFlux可以識(shí)別的結(jié)果,給出了正確的閱讀順序。

圖片

1.4多表格

單頁pdf中的多表格,也會(huì)增加識(shí)別解析的復(fù)雜度,必須做出正確的切割,才能保證展示的正確,OCRFlux的識(shí)別也是沒有問題的。

圖片

1.5多語言

一個(gè)PDF中混合多種語言,同樣會(huì)增加識(shí)別難度,OCRFlux具備強(qiáng)大的語言識(shí)別和處理能力,可以精準(zhǔn)識(shí)別這種混合語言的文檔。

圖片

2、跨頁段落/表格合并場景

2.1跨頁表格

PDF中經(jīng)常遇到表格跨頁分離,增加了OCR的識(shí)別難度,OCRFlux可以自動(dòng)檢測合并表格元素,無縫對接上下頁的內(nèi)容,輸出正確的結(jié)果。

圖片

2.2表格垂直拆分

多列表格的PDF中,經(jīng)常出現(xiàn)縱向分離,導(dǎo)致理解數(shù)據(jù)和重組數(shù)據(jù)存在困難,OCRFlux可以精確的識(shí)別出這種場景,可以看下效果。

圖片

2.3表頭重復(fù)

在跨頁表格的PDF中,表格的頁眉重復(fù)也會(huì)導(dǎo)致OCR識(shí)別錯(cuò)誤,OCRFlux可以智能合并跨頁內(nèi)容,自動(dòng)刪除多余的頁眉。

圖片

2.4單元格多行拆分

內(nèi)容跨頁超長單元格特別容易導(dǎo)致識(shí)別錯(cuò)誤,OCRFlux也可以智能合并保留完整的數(shù)據(jù)內(nèi)容。

圖片


四、主要應(yīng)用場景?

學(xué)術(shù)研究:對于學(xué)術(shù)文檔、復(fù)雜的文獻(xiàn)都可以使用OCRFlux轉(zhuǎn)換為Markdown進(jìn)行修改。

技術(shù)文檔:對于PDF格式技術(shù)文檔,特別是英文的文檔,可以可以使用OCRFlux轉(zhuǎn)換為Markdown文件。

單據(jù)的識(shí)別:比如財(cái)務(wù)單據(jù)、票據(jù)等PDF格式,都可以轉(zhuǎn)換為Markdown格式進(jìn)行修改存儲(chǔ)。

五、如何部署?
部署方式:
1、源碼部署
通過Conda創(chuàng)建一個(gè)Python環(huán)境來安裝。
conda create -n ocrflux python=3.11conda activate ocrflux
git clone https://github.com/chatdoc-com/OCRFlux.gitcd ocrflux
pip install -e . --find-links https:///whl/cu124/torch2.5/flashinfer/
2、本地使用方式
PDF轉(zhuǎn)Markdown:
python -m ocrflux.pipeline ./localworkspace --data test.pdf --model /model_dir/OCRFlux-3B
圖片轉(zhuǎn)Markdown
python -m ocrflux.pipeline ./localworkspace --data test_page.png --model /model_dir/OCRFlux-3B
批量PDF轉(zhuǎn)Markdown:
python -m ocrflux.pipeline ./localworkspace --data test_pdf_dir/* --model /model_dir/OCRFlux-3B
結(jié)果都會(huì)保存./localworkspace/results目錄中。也可以設(shè)置--skip_cross_page_merge 跳過解析過程的跨頁面合并,把各個(gè)頁面的解析結(jié)果快速拼接起來,生成一個(gè)Markdown文件。

3、Docker部署
docker run -it --gpus all \  -/path/to/localworkspace:/localworkspace \  -/path/to/test_pdf_dir:/test_pdf_dir/ \  -/path/to/OCRFlux-3B:/OCRFlux-3B \  chatdoc/ocrflux:latest /localworkspace --data /test_pdf_dir/* --model /OCRFlux-3B/
使用下面命令生成Markdown文件,生成的文件默認(rèn)保存在./localworkspace/markdowns/DOCUMENT_NAME目錄里。
python -m ocrflux.jsonl_to_markdown ./localworkspace
五、項(xiàng)目地址

https://github.com/chatdoc-com/OCRFlux

https://ocrflux./

今天的分享就到這里,感謝大家的閱讀。如果你最近也要使用PDF轉(zhuǎn)換為Markdown格式,可以試試這個(gè)工具。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多