|
介紹 開發(fā)具有一定價(jià)值的符號是人類特有的特征。對于人們來說識別這些符號和理解圖片上的文字是非常正常的事情。與計(jì)算機(jī)那樣去抓取文字不同,我們完全是基于視覺的本能去閱讀它們。 另一方面,計(jì)算機(jī)的工作需要具體的和有組織的內(nèi)容。它們需要數(shù)字化的表示,而不是圖形化的。 有時(shí)候,這是不可能的。有時(shí),我們希望自動化的完成用雙手從圖像重寫文本的任務(wù)。 針對這些任務(wù),光學(xué)字符識別(OCR)被設(shè)計(jì)成一種允許計(jì)算機(jī)以文本形式“閱讀”圖形化內(nèi)容的方法,和人類工作的方式相似。雖然這些系統(tǒng)相對準(zhǔn)確,但仍然可能有相當(dāng)大的偏差。即便如此,修復(fù)系統(tǒng)的錯誤結(jié)果也遠(yuǎn)比手工從頭開始要更加容易和快速。 就像所有的系統(tǒng)一樣,本質(zhì)上是相似的,光學(xué)字符識別軟件在準(zhǔn)備好的數(shù)據(jù)集上進(jìn)行訓(xùn)練,這些數(shù)據(jù)集提供了足夠多的數(shù)據(jù)用來幫助學(xué)習(xí)字符間的差異。如果我們想讓結(jié)果更加準(zhǔn)確,那么這些軟件如何學(xué)習(xí)也是非常重要的話題,不過這將是另外一篇文章的內(nèi)容了。 與其重新造輪或者想出一個非常復(fù)雜(但有用)的解決方案,不如我們先坐下來看看已有的解決方案。 Tesseract 科技巨頭 Google 一直在開發(fā)一個 OCR 引擎 Tesseract ,它從最初誕生到現(xiàn)在已有數(shù)十年的歷史。它為許多語言提供了API,不過我們將專注于 Tesseract 的 Java API 。 很容易使用 Tesseract 來實(shí)現(xiàn)一個簡單的功能。它主要用于讀取計(jì)算機(jī)在黑白圖片上生成的文字,并且結(jié)果的準(zhǔn)確度較好。但這不是針對真實(shí)世界的文本。 對于現(xiàn)實(shí)世界中,我們最好使用像谷歌 Vision 這樣的更高級的光學(xué)字符識別軟件,這將在另一篇文章中討論。 Maven依賴 我們只需要簡單的添加一個依賴,就可以將引擎引入到我們的項(xiàng)目: <dependency> <groupId>net.sourceforge.tess4j</groupId> <artifactId>tess4j</artifactId> <version>3.2.1</version></dependency> 光學(xué)字符識別 使用 Tesseract 毫不費(fèi)力: Tesseract tesseract = new Tesseract();tesseract.setDatapath('E://DataScience//tessdata');System.out.println(tesseract.doOCR(new File('...')));我們先實(shí)例化一個 Tesseract 實(shí)例,然后為已訓(xùn)練好的 LSTM (長短期記憶網(wǎng)絡(luò))模型設(shè)置數(shù)據(jù)路徑。 數(shù)據(jù)可以從官方GitHub賬號處下載。 然后我們調(diào)用 doOCR() 方法,該方法接受一個文件參數(shù)并且返回一個字符串——提取的內(nèi)容。 讓我們給它提供一張有著大而清晰的黑色字符的白色背景圖片: 提供這樣一張圖片會獲得完美的結(jié)果: Optical Character Recognition in Java is made easy with the help of Tesseract' 不過這張圖片掃描起來過于簡單了。它已經(jīng)被歸一化,而且有高分辨率和一致的字體。 讓我們來試試在紙上手寫一些字符并將該圖片提供給應(yīng)用程序,這將會發(fā)生些什么呢: 我們可以立即看到結(jié)果的改變: A411“, written texz: is different {mm compatar generated but有一些單詞十分準(zhǔn)確,并且你可以很輕松的辨認(rèn)出 “written text is different from computer generated” ,但是第一個和最后一個單詞差得有點(diǎn)多。 現(xiàn)在,為了讓程序使用起來更簡單,我們把它轉(zhuǎn)換成一個十分簡單的 Spring Boot 應(yīng)用程序,用更加舒適的圖形化界面來展示結(jié)果。 實(shí)現(xiàn) Spring Boot應(yīng)用程序 首先,從使用Spring Initializr創(chuàng)建我們的項(xiàng)目開始。它包含spring-boot-starter-web和spring-boot-starter-thymeleaf依賴。然后我們手動導(dǎo)入Tesseract: 控制器 該應(yīng)用程序只需要一個控制器,它將為我們提供兩個頁面的展示、處理圖片上傳和光學(xué)字符識別功能: @Controllerpublic class FileUploadController { @RequestMapping('/') public String index() { return 'upload'; } @RequestMapping(value = '/upload', method = RequestMethod.POST) public RedirectView singleFileUpload(@RequestParam('file') MultipartFile file, RedirectAttributes redirectAttributes, Model model) throws IOException, TesseractException { byte[] bytes = file.getBytes(); Path path = Paths.get('E://simpleocr//src//main//resources//static//' + file.getOriginalFilename()); Files.write(path, bytes); File convFile = convert(file); Tesseract tesseract = new Tesseract(); tesseract.setDatapath('E://DataScience//tessdata'); String text = tesseract.doOCR(convFile); redirectAttributes.addFlashAttribute('file', file); redirectAttributes.addFlashAttribute('text', text); return new RedirectView('result'); } @RequestMapping('/result') public String result() { return 'result'; } public static File convert(MultipartFile file) throws IOException { File convFile = new File(file.getOriginalFilename()); convFile.createNewFile(); FileOutputStream fos = new FileOutputStream(convFile); fos.write(file.getBytes()); fos.close(); return convFile; }} Tesseract 可以和Java的 File 類一起工作,但是不支持表單上傳的 MultipartFile 類。為了便于處理,我們添加了一個簡單的 convert() 方法,它將 MultipartFile 對象轉(zhuǎn)換成一個普通的 File 對象。 一旦我們利用 Tesseract 提取出了文本,我們只需將該文本和掃描的圖像一起添加到模型當(dāng)中,然后附加到重定向的展示頁面 - result。 展示頁面 現(xiàn)在,讓我們定義一個包含簡單文件上傳表單的展示頁面: <html><body><h1>Upload a file for OCR:</h1><form method='POST' action='/upload' enctype='multipart/form-data'> <input type='file' name='file' /><br/><br/> <input type='submit' value='Submit' /></form></body></html> 以及一個結(jié)果頁面: <html xmlns:th='http://www.'><body><h1>Extracted Content:</h1><h2>><span th:text='${text}'></span></h2><p>From the image:</p><img th:src=''/' + ${file.getOriginalFilename()}'/></body></html> 運(yùn)行這個應(yīng)用程序?qū)幸粋€簡單的交互界面迎接我們 添加一個圖片并提交它,屏幕上的結(jié)果將會包含提取的文本和上傳的圖片: 成功了! 結(jié)論 利用谷歌的 Tesseract 引擎,我們搭建了一個十分簡單的應(yīng)用,它接受從表單提交來的圖片,從中提取文本內(nèi)容,最后將結(jié)果和圖片一起返回給我們。 由于我們只使用了 Tesseract 有限的功能,所以這不是一個特別有用的應(yīng)用程序。而且該應(yīng)用程序?qū)τ谘菔灸康闹獾娜魏纹渌猛径歼^于簡單,但是它可以作為一個有趣的工具來實(shí)現(xiàn)和測試。 當(dāng)你想把內(nèi)容數(shù)字化時(shí),光學(xué)字符識別可以很快上手,特別是針對文檔。他們很容易被掃描,并且提取的內(nèi)容準(zhǔn)確度也較好。當(dāng)然,為了避免潛在的錯誤,對結(jié)果文檔進(jìn)行校對總是明智的。 OW,文章樣式通過 openwrite.cn 免費(fèi)轉(zhuǎn)換得到~ |
|
|