|
3月8日
開(kāi)源的OCR庫(kù),Opensourced OCR library突然想起如何做一個(gè)論壇的發(fā)帖機(jī),但是現(xiàn)在多數(shù)都要圖片認(rèn)證,需要一個(gè)OCR庫(kù)來(lái)識(shí)別圖片。于是在網(wǎng)上找了找,還真是有很多實(shí)現(xiàn):
現(xiàn)在的問(wèn)題,是測(cè)試這些庫(kù)。不過(guò)猜測(cè),這些OCR對(duì)付國(guó)內(nèi)的網(wǎng)站還行,像MSN這樣的圖片肯定無(wú)效了。 下載這些程序分別測(cè)試了一下, gocr和ocrad稍作修改可在Windows下編譯運(yùn)行。gocr用vc6, ocrad用gcc。 OCRE,OCRchie和clara OCR需要X window或gtk不太好編譯。 測(cè)試了一下sina, baidu, taobao,他們都或多或少做了干擾噪音,所以基本不能識(shí)別。 用gocr能夠正確識(shí)別的最好情況是能夠正確識(shí)別4個(gè)數(shù)字中的3個(gè)。
看來(lái)在沒(méi)有對(duì)圖片作預(yù)處理之前,這種識(shí)別方式基本不可行。 還沒(méi)有開(kāi)始就已經(jīng)結(jié)束了。 |
|
|