小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

自然語言處理工具python調(diào)用hanlp中文實體識別

 昵稱16619343 2019-02-13

Hanlp作為一款重要的中文分詞工具,在GitHub的用戶量已經(jīng)非常之高,應該可以看得出來大家對于hanlp這款分詞工具還是很認可的。本篇繼續(xù)分享一篇關(guān)于hanlp的使用實例即Python調(diào)用hanlp進行中文實體識別。

想要在python中調(diào)用hanlp進行中文實體識別,Ubuntu 16.04的系統(tǒng)環(huán)境

1.安裝jpype1,在cmd窗口輸入

pip install jpype1

2.下載hanlp的安裝包

https://github.com/hankcs/HanLP/releases

1)下載新的 hanlp-1.7.1-release.zip文件,里面包含hanlp-1.7.1.jar , hanlp-1.7.1-sources.jar , hanlp.properties

2)點擊data-for-1.7.1.zip下載。(底下第8條)

注:如果你在http://hanlp./services.html點擊下載hanlp.jar,下載下來的是hanlp-1.2.8.jar。之后在使用過程中可能會出現(xiàn)“字符類型對應表加載失敗”的錯誤,查看相應路徑下也沒有CharType.dat.yes文件。原因可能是hanlp-1.2.8版本過低,使用新版本應該不會出現(xiàn)這個問題。

3.新建一個文件夾Hanlp,放文件hanlp-1.7.1.jar和hanlp.properties文件

新建一個文件夾hanlp,放data-for-1.7.1.zip解壓后的文件

配置hanlp.properties中的第一行的root為hanlp文件夾的位置,也就是data-for-1.7.1.zip解壓后的文件放的位置。

4.寫py文件調(diào)用hanlp進行中文分析。

用法可參考這個博客 blog.csdn.net/u011961856/article/details/77167546。

另,查看HanLP關(guān)于實體識別的文檔http://hanlp./doc.html

里面介紹說中文人名標注為“nr”,地名標注為“ns”,機構(gòu)名標注為“nt”,所以使用用法參考鏈接里的NLPTokenizer.segment就可以標注出中文句子中的人名,地名和機構(gòu)名。

比較使用jieba進行詞性標注時,也可以標注出中文句子中的人名,地名和機構(gòu)名。jieba分詞的詞性說明:

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多