| 以下分詞工具均能在Python環(huán)境中直接調用(排名不分先后)。 1、jieba(結巴分詞) 免費使用 2、HanLP(漢語言處理包) 免費使用 3、SnowNLP(中文的類庫) 免費使用 4、FoolNLTK(中文處理工具包) 免費使用 5、Jiagu(甲骨NLP) 免費使用 6、pyltp(哈工大語言云) 商用需要付費 7、THULAC(清華中文詞法分析工具包) 商用需要付費 8、NLPIR(漢語分詞系統(tǒng)) 付費使用 1、jieba(結巴分詞) “結巴”中文分詞:做最好的 Python 中文分詞組件。 項目Github地址:jieba 安裝: pip install jieba 使用: import jieba jieba.initialize() text = '化妝和服裝' words = jieba.cut(text) words = list(words) print(words) 2、HanLP(漢語言處理包) HanLP是一系列模型與算法組成的NLP工具包,由大快搜索主導并完全開源,目標是普及自然語言處理在生產環(huán)境中的應用。HanLP具備功能完善、性能高效、架構清晰、語料時新、可自定義的特點。 項目Github地址:pyhanlp 安裝: pip install pyhanlp 使用: import pyhanlp text = '化妝和服裝' words = [] for term in pyhanlp.HanLP.segment(text): words.append(term.word) print(words) 3、SnowNLP(中文的類庫) SnowNLP是一個python寫的類庫,可以方便的處理中文文本內容,是受到了TextBlob的啟發(fā)而寫的,由于現(xiàn)在大部分的自然語言處理庫基本都是針對英文的,于是寫了一個方便處理中文的類庫,并且和TextBlob不同的是,這里沒有用NLTK,所有的算法都是自己實現(xiàn)的,并且自帶了一些訓練好的字典。 項目Github地址:snownlp 安裝: pip install snownlp 使用: import snownlp text = '化妝和服裝' words = snownlp.SnowNLP(text).words print(words) 4、FoolNLTK(中文處理工具包) 可能不是最快的開源中文分詞,但很可能是最準的開源中文分詞。 項目Github地址:FoolNLTK 安裝: pip install foolnltk 使用: import fool text = '化妝和服裝' words = fool.cut(text) print(words) 5、Jiagu(甲骨NLP) 基于BiLSTM模型,使用大規(guī)模語料訓練而成。將提供中文分詞、詞性標注、命名實體識別、關鍵詞抽取、文本摘要、新詞發(fā)現(xiàn)等常用自然語言處理功能。參考了各大工具優(yōu)缺點制作,將Jiagu回饋給大家。 項目Github地址:jiagu 安裝: pip3 install jiagu 使用: import jiagu jiagu.init() text = '化妝和服裝' words = jiagu.seg(text) print(words) 6、pyltp(哈工大語言云) pyltp 是 LTP 的 Python 封裝,提供了分詞,詞性標注,命名實體識別,依存句法分析,語義角色標注的功能。 項目Github地址:pyltp,3.4模型下載鏈接:網盤 安裝: pip install pyltp 使用: import pyltp segmentor = pyltp.Segmentor() segmentor.load('model/ltp_data_v3.4.0/cws.model') # 模型放置的路徑 text = '化妝和服裝' words = segmentor.segment(text) words = list(words) print(words) 7、THULAC(清華中文詞法分析工具包) THULAC(THU Lexical Analyzer for Chinese)由清華大學自然語言處理與社會人文計算實驗室研制推出的一套中文詞法分析工具包,具有中文分詞和詞性標注功能。 項目Github地址:THULAC-Python 安裝: pip install thulac 使用: import thulac thu = thulac.thulac(seg_only=True) text = '化妝和服裝' words = thu.cut(text, text=True).split() print(words) NLPIR(漢語分詞系統(tǒng)) 主要功能包括中文分詞;英文分詞;詞性標注;命名實體識別;新詞識別;關鍵詞提取;支持用戶專業(yè)詞典與微博分析。NLPIR系統(tǒng)支持多種編碼、多種操作系統(tǒng)、多種開發(fā)語言與平臺。 項目Github地址:pynlpir 安裝: pip install pynlpir 下載證書覆蓋到安裝目錄,NLPIR.user 例如安裝目錄:/usr/lib64/python3.4/site-packages/pynlpir/Data 使用: import pynlpir pynlpir.open() text = '化妝和服裝' words = pynlpir.segment(text, pos_tagging=False) print(words) pynlpir.close() | 
|  |