|
「OCRFlux」是什么? 它是一款輕量級多模態(tài)大語言模型的工具包,主要功能是把PDF轉(zhuǎn)換為Markdown文件,它的優(yōu)勢是可以解決復(fù)雜的排版解析、復(fù)雜的表格解析和跨頁內(nèi)容合并這些難點(diǎn)問題,同時(shí)它的識(shí)別準(zhǔn)確率也尤為突出。受到廣大用戶的喜愛。 ![]()
三、核心功能包括哪些? 1、單頁面識(shí)別場景: 1.1 跨列表格,當(dāng)PDF中存在跨多列時(shí),就難以準(zhǔn)確判定單元格邊界,容易導(dǎo)致識(shí)別不準(zhǔn)確??梢灾庇^地看出,OCRFlux識(shí)別的效果是比較準(zhǔn)確的。
1.2合并單元格 當(dāng)PDF中存在合并單元格的時(shí)候,特別容易識(shí)別出歧義,OCRFlux支持復(fù)雜表格結(jié)構(gòu)的還原,因此可以準(zhǔn)確識(shí)別其中的內(nèi)容。
1.3多列 當(dāng)PDF中存在多列的時(shí)候,經(jīng)常會(huì)打亂常規(guī)的從左至右的閱讀順序,因此容易識(shí)別有誤差,可以看下OCRFlux可以識(shí)別的結(jié)果,給出了正確的閱讀順序。
1.4多表格 單頁pdf中的多表格,也會(huì)增加識(shí)別解析的復(fù)雜度,必須做出正確的切割,才能保證展示的正確,OCRFlux的識(shí)別也是沒有問題的。
1.5多語言 一個(gè)PDF中混合多種語言,同樣會(huì)增加識(shí)別難度,OCRFlux具備強(qiáng)大的語言識(shí)別和處理能力,可以精準(zhǔn)識(shí)別這種混合語言的文檔。
2、跨頁段落/表格合并場景: 2.1跨頁表格 PDF中經(jīng)常遇到表格跨頁分離,增加了OCR的識(shí)別難度,OCRFlux可以自動(dòng)檢測合并表格元素,無縫對接上下頁的內(nèi)容,輸出正確的結(jié)果。
2.2表格垂直拆分 多列表格的PDF中,經(jīng)常出現(xiàn)縱向分離,導(dǎo)致理解數(shù)據(jù)和重組數(shù)據(jù)存在困難,OCRFlux可以精確的識(shí)別出這種場景,可以看下效果。
2.3表頭重復(fù) 在跨頁表格的PDF中,表格的頁眉重復(fù)也會(huì)導(dǎo)致OCR識(shí)別錯(cuò)誤,OCRFlux可以智能合并跨頁內(nèi)容,自動(dòng)刪除多余的頁眉。
2.4單元格多行拆分 內(nèi)容跨頁超長單元格特別容易導(dǎo)致識(shí)別錯(cuò)誤,OCRFlux也可以智能合并保留完整的數(shù)據(jù)內(nèi)容。
學(xué)術(shù)研究:對于學(xué)術(shù)文檔、復(fù)雜的文獻(xiàn)都可以使用OCRFlux轉(zhuǎn)換為Markdown進(jìn)行修改。 技術(shù)文檔:對于PDF格式技術(shù)文檔,特別是英文的文檔,可以可以使用OCRFlux轉(zhuǎn)換為Markdown文件。 單據(jù)的識(shí)別:比如財(cái)務(wù)單據(jù)、票據(jù)等PDF格式,都可以轉(zhuǎn)換為Markdown格式進(jìn)行修改存儲(chǔ)。 conda create -n ocrflux python=3.11conda activate ocrfluxgit clone https://github.com/chatdoc-com/OCRFlux.gitcd ocrfluxpip install -e . --find-links https:///whl/cu124/torch2.5/flashinfer/python -m ocrflux.pipeline ./localworkspace --data test_page.png --model /model_dir/OCRFlux-3Bdocker run -it --gpus all \ -v /path/to/localworkspace:/localworkspace \ -v /path/to/test_pdf_dir:/test_pdf_dir/ \ -v /path/to/OCRFlux-3B:/OCRFlux-3B \ chatdoc/ocrflux:latest /localworkspace --data /test_pdf_dir/* --model /OCRFlux-3B/./localworkspace/markdowns/DOCUMENT_NAME目錄里。https://github.com/chatdoc-com/OCRFlux https://ocrflux./ 今天的分享就到這里,感謝大家的閱讀。如果你最近也要使用PDF轉(zhuǎn)換為Markdown格式,可以試試這個(gè)工具。 |
|
|