A curated list of resources for NLP (Natural Language Processing) for Chinese
中文自然語言處理相關(guān)資料
圖片來自復(fù)旦大學邱錫鵬教授
Contents 列表
1. Chinese NLP Toolkits 中文NLP工具
Toolkits 綜合NLP工具包
Popular NLP Toolkits for English/Multi-Language 常用的英文或支持多語言的NLP工具包
Chinese Word Segment 中文分詞
Information Extraction 信息提取
QA & Chatbot 問答和聊天機器人
2. Corpus 中文語料
3. Organizations 中文NLP學術(shù)組織及競賽
4. Industry 中文NLP商業(yè)服務(wù)
5. Learning Materials 學習資料
Chinese NLP Toolkits 中文NLP工具
Toolkits 綜合NLP工具包
THULAC 中文詞法分析工具包 by 清華 (C++/Java/Python)
NLPIR by 中科院 (Java)
LTP 語言技術(shù)平臺 by 哈工大 (C++) pylyp LTP的python封裝
FudanNLP by 復(fù)旦 (Java)
BaiduLac by 百度 Baidu's open-source lexical analysis tool for Chinese, including word segmentation, part-of-speech tagging & named entity recognition.
HanLP (Java)
FastNLP (Python) 一款輕量級的 NLP 處理套件。
SnowNLP (Python) Python library for processing Chinese text
YaYaNLP (Python) 純python編寫的中文自然語言處理包,取名于“牙牙學語”
小明NLP (Python) 輕量級中文自然語言處理工具
DeepNLP (Python) Deep Learning NLP Pipeline implemented on Tensorflow with pretrained Chinese models.
chinese_nlp (C++ & Python) Chinese Natural Language Processing tools and examples
lightNLP (Python) 基于Pytorch和torchtext的自然語言處理深度學習框架
Chinese-Annotator (Python) Annotator for Chinese Text Corpus 中文文本標注工具
Poplar (Typescript) A web-based annotation tool for natural language processing (NLP)
Jiagu (Python) Jiagu以BiLSTM等模型為基礎(chǔ),使用大規(guī)模語料訓練而成。將提供中文分詞、詞性標注、命名實體識別、情感分析、知識圖譜關(guān)系抽取、關(guān)鍵詞抽取、文本摘要、新詞發(fā)現(xiàn)等常用自然語言處理功能。
SmoothNLP (Python & Java) 專注于可解釋的NLP技術(shù)
FoolNLTK (Python & Java) A Chinese Nature Language Toolkit
Popular NLP Toolkits for English/Multi-Language 常用的英文或支持多語言的NLP工具包
CoreNLP by Stanford (Java) A Java suite of core NLP tools.
Stanza by Stanford (Python) A Python NLP Library for Many Human Languages
NLTK (Python) Natural Language Toolkit
spaCy (Python) Industrial-Strength Natural Language Processing with a online course
textacy (Python) NLP, before and after spaCy
OpenNLP (Java) A machine learning based toolkit for the processing of natural language text.
gensim (Python) Gensim is a Python library for topic modelling, document indexing and similarity retrieval with large corpora.
Kashgari - Simple and powerful NLP framework, build your state-of-art model in 5 minutes for named entity recognition (NER), part-of-speech tagging (PoS) and text classification tasks. Includes BERT and word2vec embedding.
Chinese Word Segment 中文分詞
Jieba 結(jié)巴中文分詞 (Python及大量其它編程語言衍生) 做最好的 Python 中文分詞組件
北大中文分詞工具 (Python) 高準確度中文分詞工具,簡單易用,跟現(xiàn)有開源工具相比大幅提高了分詞的準確率。
kcws 深度學習中文分詞 (Python) BiLSTM+CRF與IDCNN+CRF
ID-CNN-CWS (Python) Iterated Dilated Convolutions for Chinese Word Segmentation
Genius 中文分詞 (Python) Genius是一個開源的python中文分詞組件,采用 CRF(Conditional Random Field)條件隨機場算法。
loso 中文分詞 (Python)
yaha '啞哈'中文分詞 (Python)
ChineseWordSegmentation (Python) Chinese word segmentation algorithm without corpus(無需語料庫的中文分詞)
Go語言高性能分詞 (Go) Go efficient text segmentation; support english, chinese, japanese and other.
Ansj中文分詞 (java) 基于n-Gram+CRF+HMM的中文分詞的java實現(xiàn)
Information Extraction 信息提取
MITIE (C++) library and tools for information extraction
Duckling (Haskell) Language, engine, and tooling for expressing, testing, and evaluating composable language rules on input strings.
IEPY (Python) IEPY is an open source tool for Information Extraction focused on Relation Extraction.
Snorkel A training data creation and management system focused on information extraction
Neural Relation Extraction implemented with LSTM in TensorFlow
A neural network model for Chinese named entity recognition
bert-chinese-ner 使用預(yù)訓練語言模型BERT做中文NER
Information-Extraction-Chinese Chinese Named Entity Recognition with IDCNN/biLSTM+CRF, and Relation Extraction with biGRU+2ATT 中文實體識別與關(guān)系提取
Familia 百度出品的 A Toolkit for Industrial Topic Modeling
Text Classification All kinds of text classificaiton models and more with deep learning. 用知乎問答語聊作為測試數(shù)據(jù)。
ComplexEventExtraction 中文復(fù)合事件的概念與顯式模式,包括條件事件、因果事件、順承事件、反轉(zhuǎn)事件等事件抽取,并形成事理圖譜。
TextRank4ZH 從中文文本中自動提取關(guān)鍵詞和摘要
QA & Chatbot 問答和聊天機器人
Rasa NLU (Python) turn natural language into structured data, a Chinese fork at Rasa NLU Chi
Rasa Core (Python) machine learning based dialogue engine for conversational software
Chatstack A Full Pipeline UI for building Chinese NLU System
Snips NLU (Python) Snips NLU is a Python library that allows to parse sentences written in natural language and extracts structured information.
DeepPavlov (Python) An open source library for building end-to-end dialog systems and training chatbots.
ChatScript Natural Language tool/dialog manager, a rule-based chatbot engine.
Chatterbot (Python) ChatterBot is a machine learning, conversational dialog engine for creating chat bots.
Chatbot (Python) 基於向量匹配的情境式聊天機器人
Tipask (PHP) 一款開放源碼的PHP問答系統(tǒng),基于Laravel框架開發(fā),容易擴展,具有強大的負載能力和穩(wěn)定性。
QuestionAnsweringSystem (Java) 一個Java實現(xiàn)的人機問答系統(tǒng),能夠自動分析問題并給出候選答案。
QA-Snake (Python) 基于多搜索引擎和深度學習技術(shù)的自動問答
使用TensorFlow實現(xiàn)的Sequence to Sequence的聊天機器人模型 (Python)
使用深度學習算法實現(xiàn)的中文閱讀理解問答系統(tǒng) (Python)
AnyQ by Baidu 主要包含面向FAQ集合的問答系統(tǒng)框架、文本語義匹配工具SimNet。
DuReader中文閱讀理解Baseline代碼 (Python)
基于SmartQQ的自動機器人框架 (Python)
QASystemOnMedicalKG (Python) 以疾病為中心的一定規(guī)模醫(yī)藥領(lǐng)域知識圖譜,并以該知識圖譜完成自動問答與分析服務(wù)。
GPT2-chitchat (Python) 用于中文閑聊的GPT2模型
CDial-GPT (Python) 提供了一個大規(guī)模中文對話數(shù)據(jù)集,并提供了在此數(shù)據(jù)集上的中文對話預(yù)訓練模型(中文GPT模型)
Corpus 中文語料
開放知識圖譜OpenKG.cn
開放中文知識圖譜的schema
大規(guī)模中文概念圖譜CN-Probase 公眾號介紹
大規(guī)模1.4億中文知識圖譜開源下載
農(nóng)業(yè)知識圖譜 農(nóng)業(yè)領(lǐng)域的信息檢索,命名實體識別,關(guān)系抽取,分類樹構(gòu)建,數(shù)據(jù)挖掘
CLDC中文語言資源聯(lián)盟
中文 Wikipedia Dump
基于不同語料、不同模型(比如BERT、GPT)的中文預(yù)訓練模型 中文預(yù)訓練模型框架,支持不同語料、編碼器、目標任務(wù)的預(yù)訓練模型(from RUC and Tencent)
OpenCLaP 多領(lǐng)域開源中文預(yù)訓練語言模型倉庫 (from Tsinghua)
98年詞性標注庫@百度盤
搜狗20061127新聞?wù)Z料(包含分類)@百度盤
UDChinese (for training spaCy POS)
中文word2vec模型
上百種預(yù)訓練中文詞向量
Tencent AI Lab Embedding Corpus for Chinese Words and Phrases
中文預(yù)訓練BERT with Whole Word Masking
中文GPT2訓練代碼 可以寫詩,新聞,小說,或是訓練通用語言模型。
中文語言理解測評基準ChineseGLUE 包括代表性的數(shù)據(jù)集、基準(預(yù)訓練)模型、語料庫、排行榜。
中華新華字典數(shù)據(jù)庫 包括歇后語,成語,詞語,漢字。
Synonyms:中文近義詞工具包 基于維基百科中文和word2vec訓練的近義詞庫,封裝為python包文件。
Chinese_conversation_sentiment A Chinese sentiment dataset may be useful for sentiment analysis.
中文突發(fā)事件語料庫 Chinese Emergency Corpus
dgk_lost_conv 中文對白語料 chinese conversation corpus
用于訓練中英文對話系統(tǒng)的語料庫 Datasets for Training Chatbot System
八卦版問答中文語料
中文公開聊天語料庫
中國股市公告信息爬取 通過python腳本從巨潮網(wǎng)絡(luò)的服務(wù)器獲取中國股市(sz,sh)的公告(上市公司和監(jiān)管機構(gòu))
tushare財經(jīng)數(shù)據(jù)接口 TuShare是一個免費、開源的python財經(jīng)數(shù)據(jù)接口包。
金融文本數(shù)據(jù)集 SmoothNLP 金融文本數(shù)據(jù)集(公開) Public Financial Datasets for NLP Researches
保險行業(yè)語料庫 [52nlp介紹Blog] OpenData in insurance area for Machine Learning Tasks
最全中華古詩詞數(shù)據(jù)庫 唐宋兩朝近一萬四千古詩人, 接近5.5萬首唐詩加26萬宋詩. 兩宋時期1564位詞人,21050首詞。
DuReader中文閱讀理解數(shù)據(jù)
中文語料小數(shù)據(jù) 包含了中文命名實體識別、中文關(guān)系識別、中文閱讀理解等一些小量數(shù)據(jù)
Chinese-Literature-NER-RE-Dataset A Discourse-Level Named Entity Recognition and Relation Extraction Dataset for Chinese Literature Text
ChineseTextualInference 中文文本推斷項目,包括88萬文本蘊含中文文本蘊含數(shù)據(jù)集的翻譯與構(gòu)建,基于深度學習的文本蘊含判定模型構(gòu)建.
大規(guī)模中文自然語言處理語料 維基百科(wiki2019zh),新聞?wù)Z料(news2016zh),百科問答(baike2018qa)
中文人名語料庫 中文姓名,姓氏,名字,稱呼,日本人名,翻譯人名,英文人名。
公司名、機構(gòu)名語料庫 公司簡稱,縮寫,品牌詞,企業(yè)名。
中文敏感詞詞庫 敏感詞過濾的幾種實現(xiàn)+某1w詞敏感詞庫
中文簡稱詞庫 A corpus of Chinese abbreviation, including negative full forms.
中文數(shù)據(jù)預(yù)處理材料 中文分詞詞典和中文停用詞
漢語拆字字典
SentiBridge: 中文實體情感知識庫 刻畫人們?nèi)绾蚊枋瞿硞€實體,包含新聞、旅游、餐飲,共計30萬對。
OpenCorpus A collection of freely available (Chinese) corpora.
ChineseNlpCorpus 情感/觀點/評論 傾向性分析,中文命名實體識別,推薦系統(tǒng)
FinancialDatasets SmoothNLP 金融文本數(shù)據(jù)集(公開) Public Financial Datasets for NLP Researches Only
People's Daily & Children's Fairy Tale PD&CFT: A Chinese Reading Comprehension Dataset
Organizations 中文NLP學術(shù)組織及競賽
清華大學自然語言處理與人文計算實驗室
北京大學計算語言學教育部重點實驗室
中科院計算所自然語言處理研究組
哈工大智能技術(shù)與自然語言處理實驗室
哈工大社會計算與信息檢索研究中心
復(fù)旦大學自然語言處理組
蘇州大學自然語言處理組
南京大學自然語言處理研究組
東北大學自然語言處理實驗室
廈門大學智能科學與技術(shù)系自然語言處理實驗室
鄭州大學自然語言處理實驗室
微軟亞洲研究院自然語言處理
華為諾亞方舟實驗室
CUHK Text Mining Group
PolyU Social Media Mining Group
HKUST Human Language Technology Center
National Taiwan University NLP Lab
中國中文信息學會
NLP Conference Calender Main conferences, journals, workshops and shared tasks in NLP community.
2017 第一屆“訊飛杯”中文機器閱讀理解評測
2017 AI-Challenger 圖像中文描述 用一句話描述給定圖像中的主要信息,挑戰(zhàn)中文語境下的圖像理解問題。
2017 AI-Challenger 英中機器文本翻譯 用大規(guī)模的數(shù)據(jù),提升英中文本機器翻譯模型的能力。
2017 知乎看山杯機器學習挑戰(zhàn)賽 根據(jù)知乎給出的問題及話題標簽的綁定關(guān)系的訓練數(shù)據(jù),訓練出對未標注數(shù)據(jù)自動標注的模型。
2018 開放領(lǐng)域的中文問答任務(wù) 對于給定的一句中文問題,問答系統(tǒng)從給定知識庫中選擇若干實體或?qū)傩灾底鳛樵搯栴}的答案。
2018 微眾銀行智能客服問句匹配大賽 針對中文的真實客服語料,進行問句意圖匹配;給定兩個語句,判定兩者意圖是否相近。
Industry 中文NLP商業(yè)服務(wù)
華為云NLP 針對各類企業(yè)及開發(fā)者提供的用于文本分析及挖掘的云服務(wù),旨在幫助用戶高效的處理文本
百度云NLP 提供業(yè)界領(lǐng)先的自然語言處理技術(shù),提供優(yōu)質(zhì)文本處理及理解技術(shù)
阿里云NLP 為各類企業(yè)及開發(fā)者提供的用于文本分析及挖掘的核心工具
騰訊云NLP 基于并行計算、分布式爬蟲系統(tǒng),結(jié)合獨特的語義分析技術(shù),一站滿足NLP、轉(zhuǎn)碼、抽取、數(shù)據(jù)抓取等需求
訊飛開放平臺 以語音交互為核心的人工智能開放平臺
搜狗實驗室 分詞和詞性標注
玻森數(shù)據(jù) 上海玻森數(shù)據(jù)科技有限公司,專注中文語義分析技術(shù)
云孚科技 NLP工具包、知識圖譜、文本挖掘、對話系統(tǒng)、輿情分析等
智言科技 專注于深度學習和知識圖譜技術(shù)突破的人工智能公司
追一科技 主攻深度學習和自然語言處理
Learning Materials 學習資料
中文Deep Learning Book
Stanford CS224n Natural Language Processing with Deep Learning 2017
Oxford CS DeepNLP 2017
[Course materials for Georgia Tech CS 4650 and 7650, 'Natural Language'] (https://github.com/jacobeisenstein/gt-nlp-class)
Speech and Language Processing by Dan Jurafsky and James H. Martin
52nlp 我愛自然語言處理
hankcs 碼農(nóng)場
文本處理實踐課資料 文本處理實踐課資料,包含文本特征提?。═F-IDF),文本分類,文本聚類,word2vec訓練詞向量及同義詞詞林中文詞語相似度計算、文檔自動摘要,信息抽取,情感分析與觀點挖掘等實驗。
nlp_tasks Natural Language Processing Tasks and Selected References
NLP研究入門之道 from清華劉知遠老師
Chinese NLP Shared tasks, datasets and state-of-the-art results for Chinese Natural Language Processing




