部分常用分詞工具使用整理

左手中的倒影 2019-05-29

展開全文

以下分詞工具均能在Python環(huán)境中直接調用（排名不分先后）。

1、jieba（結巴分詞）免費使用

2、HanLP（漢語言處理包）免費使用

3、SnowNLP（中文的類庫）免費使用

4、FoolNLTK（中文處理工具包）免費使用

5、Jiagu（甲骨NLP）免費使用

6、pyltp（哈工大語言云）商用需要付費

7、THULAC（清華中文詞法分析工具包）商用需要付費

8、NLPIR（漢語分詞系統(tǒng)）付費使用

1、jieba（結巴分詞）

“結巴”中文分詞：做最好的 Python 中文分詞組件。

項目Github地址：jieba

安裝：

pip install jieba

使用：

import jieba

jieba.initialize()

text = '化妝和服裝'

words = jieba.cut(text)

words = list(words)

print(words)

2、HanLP（漢語言處理包）

HanLP是一系列模型與算法組成的NLP工具包，由大快搜索主導并完全開源，目標是普及自然語言處理在生產環(huán)境中的應用。HanLP具備功能完善、性能高效、架構清晰、語料時新、可自定義的特點。

項目Github地址：pyhanlp

安裝：

pip install pyhanlp

使用：

import pyhanlp

text = '化妝和服裝'

words = []

for term in pyhanlp.HanLP.segment(text):

words.append(term.word)

print(words)

3、SnowNLP（中文的類庫）

SnowNLP是一個python寫的類庫，可以方便的處理中文文本內容，是受到了TextBlob的啟發(fā)而寫的，由于現(xiàn)在大部分的自然語言處理庫基本都是針對英文的，于是寫了一個方便處理中文的類庫，并且和TextBlob不同的是，這里沒有用NLTK，所有的算法都是自己實現(xiàn)的，并且自帶了一些訓練好的字典。

項目Github地址：snownlp

安裝：

pip install snownlp

使用：

import snownlp

text = '化妝和服裝'

words = snownlp.SnowNLP(text).words

print(words)

4、FoolNLTK（中文處理工具包）

可能不是最快的開源中文分詞，但很可能是最準的開源中文分詞。

項目Github地址：FoolNLTK

安裝：

pip install foolnltk

使用：

import fool

text = '化妝和服裝'

words = fool.cut(text)

print(words)

5、Jiagu（甲骨NLP）

基于BiLSTM模型，使用大規(guī)模語料訓練而成。將提供中文分詞、詞性標注、命名實體識別、關鍵詞抽取、文本摘要、新詞發(fā)現(xiàn)等常用自然語言處理功能。參考了各大工具優(yōu)缺點制作，將Jiagu回饋給大家。

項目Github地址：jiagu

安裝：

pip3 install jiagu

使用：

import jiagu

jiagu.init()

text = '化妝和服裝'

words = jiagu.seg(text)

print(words)

6、pyltp（哈工大語言云）

pyltp 是 LTP 的 Python 封裝，提供了分詞，詞性標注，命名實體識別，依存句法分析，語義角色標注的功能。

項目Github地址：pyltp，3.4模型下載鏈接：網盤

安裝：

pip install pyltp

使用：

import pyltp

segmentor = pyltp.Segmentor()

segmentor.load('model/ltp_data_v3.4.0/cws.model') # 模型放置的路徑

text = '化妝和服裝'

words = segmentor.segment(text)

words = list(words)

print(words)

7、THULAC（清華中文詞法分析工具包）

THULAC（THU Lexical Analyzer for Chinese）由清華大學自然語言處理與社會人文計算實驗室研制推出的一套中文詞法分析工具包，具有中文分詞和詞性標注功能。

項目Github地址：THULAC-Python

安裝：

pip install thulac

使用：

import thulac

thu = thulac.thulac(seg_only=True)

text = '化妝和服裝'

words = thu.cut(text, text=True).split()

print(words)

NLPIR（漢語分詞系統(tǒng)）

主要功能包括中文分詞；英文分詞；詞性標注；命名實體識別；新詞識別；關鍵詞提取；支持用戶專業(yè)詞典與微博分析。NLPIR系統(tǒng)支持多種編碼、多種操作系統(tǒng)、多種開發(fā)語言與平臺。

項目Github地址：pynlpir

安裝：

pip install pynlpir

下載證書覆蓋到安裝目錄，NLPIR.user 例如安裝目錄：/usr/lib64/python3.4/site-packages/pynlpir/Data

使用：

import pynlpir

pynlpir.open()

text = '化妝和服裝'

words = pynlpir.segment(text, pos_tagging=False)

print(words)

pynlpir.close()

本站是提供個人知識管理的網絡存儲空間，所有內容均由用戶發(fā)布，不代表本站觀點。請注意甄別內容中的聯(lián)系方式、誘導購買等信息，謹防詐騙。如發(fā)現(xiàn)有害或侵權內容，請點擊一鍵舉報。

轉藏分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自：左手中的倒影 > 《待分類》

舉報/認領

0條評論

發(fā)表

請遵守用戶評論公約

類似文章 更多

左手中的倒影

關注對話

TA的最新館藏

HanLP封裝為web services服務的過程介紹
大快搜索黑科技亮相2019（第四屆）大數(shù)據(jù)產業(yè)生態(tài)大會
hanlp分詞工具應用案例：商品圖自動推薦功能的應用
HanLP分詞工具中的ViterbiSegment分詞流程
hanlp自然語言處理包的人名識別代碼解析
自然語言處理工具HanLP-基于層疊HMM地名識別

喜歡該文的人也喜歡更多

熱門閱讀換一換

小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

部分常用分詞工具使用整理