|
雖然是愚人節(jié),但是這個不是愚人節(jié)玩笑,最近花了一些時間在MeCab身上,越發(fā)喜歡這個來自島國的開源分詞系統(tǒng),今天花了一些時間訓(xùn)練了一個更適用的模型和詞典,打包提供給大家使用,因為數(shù)據(jù)和詞典涉及到一些版權(quán)問題,所以打包文件里只是mecab用于發(fā)布的二進制詞典和模型文件,目前在mac os和linux ubuntu系統(tǒng)下測試無誤,其他系統(tǒng)請自行測試使用: 鏈接: http://pan.baidu.com/s/1sjBfdXr 密碼: 8udf 了解和安裝mecab請參考: 使用前請按上述文檔安裝mecab,下載這個中文分詞模型和詞典之后解壓,解壓后得到一個mecab-chinese-data目錄,執(zhí)行: mecab -d mecab-chinese-data 上述第二列提供了詞性標注結(jié)果。 如果想得到單行的分詞結(jié)果,可以這樣執(zhí)行: mecab -d ./mecab-chinese-data/ -O wakati 如果想直接對文件分詞,可以這樣執(zhí)行: mecab -d ./mecab-chinese-data/ INPUT -o OUTPUT 具體可以參考上述兩個文檔,另外我在mac下測試了一下中文維基百科語料的切分速度,大概700多M的語料,不到90秒切分完畢,大概7M/s的切分速度完全達到了工業(yè)屆的使用標準。另外Mecab還支持Nbest輸出,多種輸出格式,全切分模式,系統(tǒng)詞典和用戶詞典定制等等,同時通過SWIG提供了perl, ruby, python, java的調(diào)用接口,非常方便。 以下是在backoff2005 人民日報語料庫上的測試結(jié)果: === SUMMARY: 召回率93.3%,準確率91.7%, F值為92.5%, 雖然還沒有一個單純針對這個測試語料比賽的分詞結(jié)果好,但是測試了一些其他語料后覺得這個版本完全可以作為一個基準版本使用,另外mecab也提供了用戶定制詞典接口,方便用戶按自己的需求定制使用。 最后提供一個demo僅供測試使用: 中文分詞Demo |
|
|