用MeCab打造一套實用的中文分詞系統(tǒng)(二) | 我愛自然語言處理

看見就非常 2015-04-24

展開全文

雖然是愚人節(jié)，但是這個不是愚人節(jié)玩笑，最近花了一些時間在MeCab身上，越發(fā)喜歡這個來自島國的開源分詞系統(tǒng)，今天花了一些時間訓(xùn)練了一個更適用的模型和詞典，打包提供給大家使用，因為數(shù)據(jù)和詞典涉及到一些版權(quán)問題，所以打包文件里只是mecab用于發(fā)布的二進制詞典和模型文件，目前在mac os和linux ubuntu系統(tǒng)下測試無誤，其他系統(tǒng)請自行測試使用：

鏈接: http://pan.baidu.com/s/1sjBfdXr 密碼: 8udf

了解和安裝mecab請參考：
日文分詞器 Mecab 文檔
 用MeCab打造一套實用的中文分詞系統(tǒng)

使用前請按上述文檔安裝mecab，下載這個中文分詞模型和詞典之后解壓，解壓后得到一個mecab-chinese-data目錄，執(zhí)行:

mecab -d mecab-chinese-data
揚帆遠東做與中國合作的先行
揚帆 v,*,*,*,*,*,揚帆,*,*
遠東 ns,*,*,*,*,*,遠東,*,*
做 v,*,*,*,*,*,做,*,*
與 p,*,*,*,*,*,與,*,*
中國 ns,*,*,*,*,*,中國,*,*
合作 v,*,*,*,*,*,合作,*,*
的 u,*,*,*,*,*,的,*,*
先行 vn,*,*,*,*,*,先行,*,*
EOS

上述第二列提供了詞性標注結(jié)果。

如果想得到單行的分詞結(jié)果，可以這樣執(zhí)行：

mecab -d ./mecab-chinese-data/ -O wakati
揚帆遠東做與中國合作的先行
揚帆遠東做與中國合作的先行

如果想直接對文件分詞，可以這樣執(zhí)行：

mecab -d ./mecab-chinese-data/ INPUT -o OUTPUT

具體可以參考上述兩個文檔，另外我在mac下測試了一下中文維基百科語料的切分速度，大概700多M的語料，不到90秒切分完畢，大概7M/s的切分速度完全達到了工業(yè)屆的使用標準。另外Mecab還支持Nbest輸出，多種輸出格式，全切分模式，系統(tǒng)詞典和用戶詞典定制等等，同時通過SWIG提供了perl, ruby, python, java的調(diào)用接口，非常方便。

以下是在backoff2005 人民日報語料庫上的測試結(jié)果：

=== SUMMARY:
=== TOTAL INSERTIONS: 3803
=== TOTAL DELETIONS: 1981
=== TOTAL SUBSTITUTIONS: 5004
=== TOTAL NCHANGE: 10788
=== TOTAL TRUE WORD COUNT: 104372
=== TOTAL TEST WORD COUNT: 106194
=== TOTAL TRUE WORDS RECALL: 0.933
=== TOTAL TEST WORDS PRECISION: 0.917
=== F MEASURE: 0.925
=== OOV Rate: 0.058
=== OOV Recall Rate: 0.482
=== IV Recall Rate: 0.961
### pku_test.result 3803 1981 5004 10788 104372 106194 0.933 0.917 0.925 0.058 0.482 0.961

召回率93.3%，準確率91.7%, F值為92.5%, 雖然還沒有一個單純針對這個測試語料比賽的分詞結(jié)果好，但是測試了一些其他語料后覺得這個版本完全可以作為一個基準版本使用，另外mecab也提供了用戶定制詞典接口，方便用戶按自己的需求定制使用。

最后提供一個demo僅供測試使用: 中文分詞Demo

注：原創(chuàng)文章，轉(zhuǎn)載請注明出處“我愛自然語言處理”：www.

本文鏈接地址：http://www./用mecab打造一套實用的中文分詞系統(tǒng)二

相關(guān)文章:

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自：看見就非常 > 《tip》

舉報/認領(lǐng)

0條評論

發(fā)表

請遵守用戶評論公約

類似文章 更多

小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

用MeCab打造一套實用的中文分詞系統(tǒng)(二) | 我愛自然語言處理