Spring Boot 集成 tess4j OCR 實(shí)現(xiàn)拍圖識字

xxcc140 2019-09-23

展開全文

介紹

開發(fā)具有一定價(jià)值的符號是人類特有的特征。對于人們來說識別這些符號和理解圖片上的文字是非常正常的事情。與計(jì)算機(jī)那樣去抓取文字不同，我們完全是基于視覺的本能去閱讀它們。

另一方面，計(jì)算機(jī)的工作需要具體的和有組織的內(nèi)容。它們需要數(shù)字化的表示，而不是圖形化的。

有時(shí)候，這是不可能的。有時(shí)，我們希望自動化的完成用雙手從圖像重寫文本的任務(wù)。

針對這些任務(wù)，光學(xué)字符識別（OCR）被設(shè)計(jì)成一種允許計(jì)算機(jī)以文本形式“閱讀”圖形化內(nèi)容的方法，和人類工作的方式相似。雖然這些系統(tǒng)相對準(zhǔn)確，但仍然可能有相當(dāng)大的偏差。即便如此，修復(fù)系統(tǒng)的錯誤結(jié)果也遠(yuǎn)比手工從頭開始要更加容易和快速。

就像所有的系統(tǒng)一樣，本質(zhì)上是相似的，光學(xué)字符識別軟件在準(zhǔn)備好的數(shù)據(jù)集上進(jìn)行訓(xùn)練，這些數(shù)據(jù)集提供了足夠多的數(shù)據(jù)用來幫助學(xué)習(xí)字符間的差異。如果我們想讓結(jié)果更加準(zhǔn)確，那么這些軟件如何學(xué)習(xí)也是非常重要的話題，不過這將是另外一篇文章的內(nèi)容了。

與其重新造輪或者想出一個非常復(fù)雜（但有用）的解決方案，不如我們先坐下來看看已有的解決方案。

Tesseract

科技巨頭 Google 一直在開發(fā)一個 OCR 引擎 Tesseract ，它從最初誕生到現(xiàn)在已有數(shù)十年的歷史。它為許多語言提供了API，不過我們將專注于 Tesseract 的 Java API 。

很容易使用 Tesseract 來實(shí)現(xiàn)一個簡單的功能。它主要用于讀取計(jì)算機(jī)在黑白圖片上生成的文字，并且結(jié)果的準(zhǔn)確度較好。但這不是針對真實(shí)世界的文本。

對于現(xiàn)實(shí)世界中，我們最好使用像谷歌 Vision 這樣的更高級的光學(xué)字符識別軟件，這將在另一篇文章中討論。

Maven依賴

我們只需要簡單的添加一個依賴，就可以將引擎引入到我們的項(xiàng)目：

<dependency> <groupId>net.sourceforge.tess4j</groupId> <artifactId>tess4j</artifactId> <version>3.2.1</version></dependency>

光學(xué)字符識別

使用 Tesseract 毫不費(fèi)力：

Tesseract tesseract = new Tesseract();tesseract.setDatapath('E://DataScience//tessdata');System.out.println(tesseract.doOCR(new File('...')));

我們先實(shí)例化一個 Tesseract 實(shí)例，然后為已訓(xùn)練好的 LSTM （長短期記憶網(wǎng)絡(luò)）模型設(shè)置數(shù)據(jù)路徑。

數(shù)據(jù)可以從官方GitHub賬號處下載。

然后我們調(diào)用 doOCR() 方法，該方法接受一個文件參數(shù)并且返回一個字符串——提取的內(nèi)容。

讓我們給它提供一張有著大而清晰的黑色字符的白色背景圖片：

Spring Boot 集成 tess4j OCR 實(shí)現(xiàn)拍圖識字

提供這樣一張圖片會獲得完美的結(jié)果：

Optical Character Recognition in Java is made easy with the help of Tesseract'

不過這張圖片掃描起來過于簡單了。它已經(jīng)被歸一化，而且有高分辨率和一致的字體。

讓我們來試試在紙上手寫一些字符并將該圖片提供給應(yīng)用程序，這將會發(fā)生些什么呢：

Spring Boot 集成 tess4j OCR 實(shí)現(xiàn)拍圖識字

我們可以立即看到結(jié)果的改變：

A411“, written texz: is different {mm compatar generated but

有一些單詞十分準(zhǔn)確，并且你可以很輕松的辨認(rèn)出 “written text is different from computer generated” ，但是第一個和最后一個單詞差得有點(diǎn)多。

現(xiàn)在，為了讓程序使用起來更簡單，我們把它轉(zhuǎn)換成一個十分簡單的 Spring Boot 應(yīng)用程序，用更加舒適的圖形化界面來展示結(jié)果。

實(shí)現(xiàn)

Spring Boot應(yīng)用程序

首先，從使用Spring Initializr創(chuàng)建我們的項(xiàng)目開始。它包含spring-boot-starter-web和spring-boot-starter-thymeleaf依賴。然后我們手動導(dǎo)入Tesseract：

Spring Boot 集成 tess4j OCR 實(shí)現(xiàn)拍圖識字

控制器

該應(yīng)用程序只需要一個控制器，它將為我們提供兩個頁面的展示、處理圖片上傳和光學(xué)字符識別功能：

@Controllerpublic class FileUploadController { @RequestMapping('/') public String index() { return 'upload'; } @RequestMapping(value = '/upload', method = RequestMethod.POST) public RedirectView singleFileUpload(@RequestParam('file') MultipartFile file, RedirectAttributes redirectAttributes, Model model) throws IOException, TesseractException { byte[] bytes = file.getBytes(); Path path = Paths.get('E://simpleocr//src//main//resources//static//' + file.getOriginalFilename()); Files.write(path, bytes); File convFile = convert(file); Tesseract tesseract = new Tesseract(); tesseract.setDatapath('E://DataScience//tessdata'); String text = tesseract.doOCR(convFile); redirectAttributes.addFlashAttribute('file', file); redirectAttributes.addFlashAttribute('text', text); return new RedirectView('result'); } @RequestMapping('/result') public String result() { return 'result'; } public static File convert(MultipartFile file) throws IOException { File convFile = new File(file.getOriginalFilename()); convFile.createNewFile(); FileOutputStream fos = new FileOutputStream(convFile); fos.write(file.getBytes()); fos.close(); return convFile; }}

Tesseract 可以和Java的 File 類一起工作，但是不支持表單上傳的 MultipartFile 類。為了便于處理，我們添加了一個簡單的 convert() 方法，它將 MultipartFile 對象轉(zhuǎn)換成一個普通的 File 對象。

一旦我們利用 Tesseract 提取出了文本，我們只需將該文本和掃描的圖像一起添加到模型當(dāng)中，然后附加到重定向的展示頁面 - result。

展示頁面

現(xiàn)在，讓我們定義一個包含簡單文件上傳表單的展示頁面：

<html><body><h1>Upload a file for OCR:</h1><form method='POST' action='/upload' enctype='multipart/form-data'> <input type='file' name='file' /><br/><br/> <input type='submit' value='Submit' /></form></body></html>

以及一個結(jié)果頁面：

<html xmlns:th='http://www.'><body><h1>Extracted Content:</h1><h2>><span th:text='${text}'></span></h2><p>From the image:</p><img th:src=''/' + ${file.getOriginalFilename()}'/></body></html>

運(yùn)行這個應(yīng)用程序?qū)幸粋€簡單的交互界面迎接我們

Spring Boot 集成 tess4j OCR 實(shí)現(xiàn)拍圖識字

添加一個圖片并提交它，屏幕上的結(jié)果將會包含提取的文本和上傳的圖片：

Spring Boot 集成 tess4j OCR 實(shí)現(xiàn)拍圖識字

成功了！

結(jié)論

利用谷歌的 Tesseract 引擎，我們搭建了一個十分簡單的應(yīng)用，它接受從表單提交來的圖片，從中提取文本內(nèi)容，最后將結(jié)果和圖片一起返回給我們。

由于我們只使用了 Tesseract 有限的功能，所以這不是一個特別有用的應(yīng)用程序。而且該應(yīng)用程序?qū)τ谘菔灸康闹獾娜魏纹渌猛径歼^于簡單，但是它可以作為一個有趣的工具來實(shí)現(xiàn)和測試。

當(dāng)你想把內(nèi)容數(shù)字化時(shí)，光學(xué)字符識別可以很快上手，特別是針對文檔。他們很容易被掃描，并且提取的內(nèi)容準(zhǔn)確度也較好。當(dāng)然，為了避免潛在的錯誤，對結(jié)果文檔進(jìn)行校對總是明智的。

OW，文章樣式通過 openwrite.cn 免費(fèi)轉(zhuǎn)換得到~

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： xxcc140 > 《電腦與網(wǎng)絡(luò)》

舉報(bào)/認(rèn)領(lǐng)