小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

開源NLP項目推薦:Awesome-Chinese-NLP

 520jefferson 2021-07-04

周末推薦一個開源項目:Awesome-Chinese-NLP

鏈接:https://github.com/crownpku/Awesome-Chinese-NLP


A curated list of resources for NLP (Natural Language Processing) for Chinese

中文自然語言處理相關(guān)資料

圖片來自復(fù)旦大學邱錫鵬教授

圖片

Contents 列表

1. Chinese NLP Toolkits 中文NLP工具

  • Toolkits 綜合NLP工具包

  • Popular NLP Toolkits for English/Multi-Language 常用的英文或支持多語言的NLP工具包

  • Chinese Word Segment 中文分詞

  • Information Extraction 信息提取

  • QA & Chatbot 問答和聊天機器人

2. Corpus 中文語料

3. Organizations 中文NLP學術(shù)組織及競賽

4. Industry 中文NLP商業(yè)服務(wù)

5. Learning Materials 學習資料



Chinese NLP Toolkits 中文NLP工具

Toolkits 綜合NLP工具包

  • THULAC 中文詞法分析工具包 by 清華 (C++/Java/Python)

  • NLPIR by 中科院 (Java)

  • LTP 語言技術(shù)平臺 by 哈工大 (C++) pylyp LTP的python封裝

  • FudanNLP by 復(fù)旦 (Java)

  • BaiduLac by 百度 Baidu's open-source lexical analysis tool for Chinese, including word segmentation, part-of-speech tagging & named entity recognition.

  • HanLP (Java)

  • FastNLP (Python) 一款輕量級的 NLP 處理套件。

  • SnowNLP (Python) Python library for processing Chinese text

  • YaYaNLP (Python) 純python編寫的中文自然語言處理包,取名于“牙牙學語”

  • 小明NLP (Python) 輕量級中文自然語言處理工具

  • DeepNLP (Python) Deep Learning NLP Pipeline implemented on Tensorflow with pretrained Chinese models.

  • chinese_nlp (C++ & Python) Chinese Natural Language Processing tools and examples

  • lightNLP (Python) 基于Pytorch和torchtext的自然語言處理深度學習框架

  • Chinese-Annotator (Python) Annotator for Chinese Text Corpus 中文文本標注工具

  • Poplar (Typescript) A web-based annotation tool for natural language processing (NLP)

  • Jiagu (Python) Jiagu以BiLSTM等模型為基礎(chǔ),使用大規(guī)模語料訓練而成。將提供中文分詞、詞性標注、命名實體識別、情感分析、知識圖譜關(guān)系抽取、關(guān)鍵詞抽取、文本摘要、新詞發(fā)現(xiàn)等常用自然語言處理功能。

  • SmoothNLP (Python & Java) 專注于可解釋的NLP技術(shù)

  • FoolNLTK (Python & Java) A Chinese Nature Language Toolkit

Popular NLP Toolkits for English/Multi-Language 常用的英文或支持多語言的NLP工具包

  • CoreNLP by Stanford (Java) A Java suite of core NLP tools.

  • Stanza by Stanford (Python) A Python NLP Library for Many Human Languages

  • NLTK (Python) Natural Language Toolkit

  • spaCy (Python) Industrial-Strength Natural Language Processing with a online course

  • textacy (Python) NLP, before and after spaCy

  • OpenNLP (Java) A machine learning based toolkit for the processing of natural language text.

  • gensim (Python) Gensim is a Python library for topic modelling, document indexing and similarity retrieval with large corpora.

  • Kashgari - Simple and powerful NLP framework, build your state-of-art model in 5 minutes for named entity recognition (NER), part-of-speech tagging (PoS) and text classification tasks. Includes BERT and word2vec embedding.

Chinese Word Segment 中文分詞

  • Jieba 結(jié)巴中文分詞 (Python及大量其它編程語言衍生) 做最好的 Python 中文分詞組件

  • 北大中文分詞工具 (Python) 高準確度中文分詞工具,簡單易用,跟現(xiàn)有開源工具相比大幅提高了分詞的準確率。

  • kcws 深度學習中文分詞 (Python) BiLSTM+CRF與IDCNN+CRF

  • ID-CNN-CWS (Python) Iterated Dilated Convolutions for Chinese Word Segmentation

  • Genius 中文分詞 (Python) Genius是一個開源的python中文分詞組件,采用 CRF(Conditional Random Field)條件隨機場算法。

  • loso 中文分詞 (Python)

  • yaha '啞哈'中文分詞 (Python)

  • ChineseWordSegmentation (Python) Chinese word segmentation algorithm without corpus(無需語料庫的中文分詞)

  • Go語言高性能分詞 (Go) Go efficient text segmentation; support english, chinese, japanese and other.

  • Ansj中文分詞 (java) 基于n-Gram+CRF+HMM的中文分詞的java實現(xiàn)

Information Extraction 信息提取

  • MITIE (C++) library and tools for information extraction

  • Duckling (Haskell) Language, engine, and tooling for expressing, testing, and evaluating composable language rules on input strings.

  • IEPY (Python) IEPY is an open source tool for Information Extraction focused on Relation Extraction.

  • Snorkel A training data creation and management system focused on information extraction

  • Neural Relation Extraction implemented with LSTM in TensorFlow

  • A neural network model for Chinese named entity recognition

  • bert-chinese-ner 使用預(yù)訓練語言模型BERT做中文NER

  • Information-Extraction-Chinese Chinese Named Entity Recognition with IDCNN/biLSTM+CRF, and Relation Extraction with biGRU+2ATT 中文實體識別與關(guān)系提取

  • Familia 百度出品的 A Toolkit for Industrial Topic Modeling

  • Text Classification All kinds of text classificaiton models and more with deep learning. 用知乎問答語聊作為測試數(shù)據(jù)。

  • ComplexEventExtraction 中文復(fù)合事件的概念與顯式模式,包括條件事件、因果事件、順承事件、反轉(zhuǎn)事件等事件抽取,并形成事理圖譜。

  • TextRank4ZH 從中文文本中自動提取關(guān)鍵詞和摘要

QA & Chatbot 問答和聊天機器人

  • Rasa NLU (Python) turn natural language into structured data, a Chinese fork at Rasa NLU Chi

  • Rasa Core (Python) machine learning based dialogue engine for conversational software

  • Chatstack A Full Pipeline UI for building Chinese NLU System

  • Snips NLU (Python) Snips NLU is a Python library that allows to parse sentences written in natural language and extracts structured information.

  • DeepPavlov (Python) An open source library for building end-to-end dialog systems and training chatbots.

  • ChatScript Natural Language tool/dialog manager, a rule-based chatbot engine.

  • Chatterbot (Python) ChatterBot is a machine learning, conversational dialog engine for creating chat bots.

  • Chatbot (Python) 基於向量匹配的情境式聊天機器人

  • Tipask (PHP) 一款開放源碼的PHP問答系統(tǒng),基于Laravel框架開發(fā),容易擴展,具有強大的負載能力和穩(wěn)定性。

  • QuestionAnsweringSystem (Java) 一個Java實現(xiàn)的人機問答系統(tǒng),能夠自動分析問題并給出候選答案。

  • QA-Snake (Python) 基于多搜索引擎和深度學習技術(shù)的自動問答

  • 使用TensorFlow實現(xiàn)的Sequence to Sequence的聊天機器人模型 (Python)

  • 使用深度學習算法實現(xiàn)的中文閱讀理解問答系統(tǒng) (Python)

  • AnyQ by Baidu 主要包含面向FAQ集合的問答系統(tǒng)框架、文本語義匹配工具SimNet。

  • DuReader中文閱讀理解Baseline代碼 (Python)

  • 基于SmartQQ的自動機器人框架 (Python)

  • QASystemOnMedicalKG (Python) 以疾病為中心的一定規(guī)模醫(yī)藥領(lǐng)域知識圖譜,并以該知識圖譜完成自動問答與分析服務(wù)。

  • GPT2-chitchat (Python) 用于中文閑聊的GPT2模型

  • CDial-GPT (Python) 提供了一個大規(guī)模中文對話數(shù)據(jù)集,并提供了在此數(shù)據(jù)集上的中文對話預(yù)訓練模型(中文GPT模型)



Corpus 中文語料

  • 開放知識圖譜OpenKG.cn

  • 開放中文知識圖譜的schema

  • 大規(guī)模中文概念圖譜CN-Probase 公眾號介紹

  • 大規(guī)模1.4億中文知識圖譜開源下載

  • 農(nóng)業(yè)知識圖譜 農(nóng)業(yè)領(lǐng)域的信息檢索,命名實體識別,關(guān)系抽取,分類樹構(gòu)建,數(shù)據(jù)挖掘

  • CLDC中文語言資源聯(lián)盟

  • 中文 Wikipedia Dump

  • 基于不同語料、不同模型(比如BERT、GPT)的中文預(yù)訓練模型 中文預(yù)訓練模型框架,支持不同語料、編碼器、目標任務(wù)的預(yù)訓練模型(from RUC and Tencent)

  • OpenCLaP 多領(lǐng)域開源中文預(yù)訓練語言模型倉庫 (from Tsinghua)

  • 98年詞性標注庫@百度盤

  • 搜狗20061127新聞?wù)Z料(包含分類)@百度盤

  • UDChinese (for training spaCy POS)

  • 中文word2vec模型

  • 上百種預(yù)訓練中文詞向量

  • Tencent AI Lab Embedding Corpus for Chinese Words and Phrases

  • 中文預(yù)訓練BERT with Whole Word Masking

  • 中文GPT2訓練代碼 可以寫詩,新聞,小說,或是訓練通用語言模型。

  • 中文語言理解測評基準ChineseGLUE 包括代表性的數(shù)據(jù)集、基準(預(yù)訓練)模型、語料庫、排行榜。

  • 中華新華字典數(shù)據(jù)庫 包括歇后語,成語,詞語,漢字。

  • Synonyms:中文近義詞工具包 基于維基百科中文和word2vec訓練的近義詞庫,封裝為python包文件。

  • Chinese_conversation_sentiment A Chinese sentiment dataset may be useful for sentiment analysis.

  • 中文突發(fā)事件語料庫 Chinese Emergency Corpus

  • dgk_lost_conv 中文對白語料 chinese conversation corpus

  • 用于訓練中英文對話系統(tǒng)的語料庫 Datasets for Training Chatbot System

  • 八卦版問答中文語料

  • 中文公開聊天語料庫

  • 中國股市公告信息爬取 通過python腳本從巨潮網(wǎng)絡(luò)的服務(wù)器獲取中國股市(sz,sh)的公告(上市公司和監(jiān)管機構(gòu))

  • tushare財經(jīng)數(shù)據(jù)接口 TuShare是一個免費、開源的python財經(jīng)數(shù)據(jù)接口包。

  • 金融文本數(shù)據(jù)集 SmoothNLP 金融文本數(shù)據(jù)集(公開) Public Financial Datasets for NLP Researches

  • 保險行業(yè)語料庫 [52nlp介紹Blog] OpenData in insurance area for Machine Learning Tasks

  • 最全中華古詩詞數(shù)據(jù)庫 唐宋兩朝近一萬四千古詩人, 接近5.5萬首唐詩加26萬宋詩. 兩宋時期1564位詞人,21050首詞。

  • DuReader中文閱讀理解數(shù)據(jù)

  • 中文語料小數(shù)據(jù) 包含了中文命名實體識別、中文關(guān)系識別、中文閱讀理解等一些小量數(shù)據(jù)

  • Chinese-Literature-NER-RE-Dataset A Discourse-Level Named Entity Recognition and Relation Extraction Dataset for Chinese Literature Text

  • ChineseTextualInference 中文文本推斷項目,包括88萬文本蘊含中文文本蘊含數(shù)據(jù)集的翻譯與構(gòu)建,基于深度學習的文本蘊含判定模型構(gòu)建.

  • 大規(guī)模中文自然語言處理語料 維基百科(wiki2019zh),新聞?wù)Z料(news2016zh),百科問答(baike2018qa)

  • 中文人名語料庫 中文姓名,姓氏,名字,稱呼,日本人名,翻譯人名,英文人名。

  • 公司名、機構(gòu)名語料庫 公司簡稱,縮寫,品牌詞,企業(yè)名。

  • 中文敏感詞詞庫 敏感詞過濾的幾種實現(xiàn)+某1w詞敏感詞庫

  • 中文簡稱詞庫 A corpus of Chinese abbreviation, including negative full forms.

  • 中文數(shù)據(jù)預(yù)處理材料 中文分詞詞典和中文停用詞

  • 漢語拆字字典

  • SentiBridge: 中文實體情感知識庫 刻畫人們?nèi)绾蚊枋瞿硞€實體,包含新聞、旅游、餐飲,共計30萬對。

  • OpenCorpus A collection of freely available (Chinese) corpora.

  • ChineseNlpCorpus 情感/觀點/評論 傾向性分析,中文命名實體識別,推薦系統(tǒng)

  • FinancialDatasets SmoothNLP 金融文本數(shù)據(jù)集(公開) Public Financial Datasets for NLP Researches Only

  • People's Daily & Children's Fairy Tale PD&CFT: A Chinese Reading Comprehension Dataset



Organizations 中文NLP學術(shù)組織及競賽

  • 清華大學自然語言處理與人文計算實驗室

  • 北京大學計算語言學教育部重點實驗室

  • 中科院計算所自然語言處理研究組

  • 哈工大智能技術(shù)與自然語言處理實驗室

  • 哈工大社會計算與信息檢索研究中心

  • 復(fù)旦大學自然語言處理組

  • 蘇州大學自然語言處理組

  • 南京大學自然語言處理研究組

  • 東北大學自然語言處理實驗室

  • 廈門大學智能科學與技術(shù)系自然語言處理實驗室

  • 鄭州大學自然語言處理實驗室

  • 微軟亞洲研究院自然語言處理

  • 華為諾亞方舟實驗室

  • CUHK Text Mining Group

  • PolyU Social Media Mining Group

  • HKUST Human Language Technology Center

  • National Taiwan University NLP Lab

  • 中國中文信息學會

  • NLP Conference Calender Main conferences, journals, workshops and shared tasks in NLP community.

  • 2017 第一屆“訊飛杯”中文機器閱讀理解評測

  • 2017 AI-Challenger 圖像中文描述 用一句話描述給定圖像中的主要信息,挑戰(zhàn)中文語境下的圖像理解問題。

  • 2017 AI-Challenger 英中機器文本翻譯 用大規(guī)模的數(shù)據(jù),提升英中文本機器翻譯模型的能力。

  • 2017 知乎看山杯機器學習挑戰(zhàn)賽 根據(jù)知乎給出的問題及話題標簽的綁定關(guān)系的訓練數(shù)據(jù),訓練出對未標注數(shù)據(jù)自動標注的模型。

  • 2018 開放領(lǐng)域的中文問答任務(wù) 對于給定的一句中文問題,問答系統(tǒng)從給定知識庫中選擇若干實體或?qū)傩灾底鳛樵搯栴}的答案。

  • 2018 微眾銀行智能客服問句匹配大賽 針對中文的真實客服語料,進行問句意圖匹配;給定兩個語句,判定兩者意圖是否相近。



Industry 中文NLP商業(yè)服務(wù)

  • 華為云NLP 針對各類企業(yè)及開發(fā)者提供的用于文本分析及挖掘的云服務(wù),旨在幫助用戶高效的處理文本

  • 百度云NLP 提供業(yè)界領(lǐng)先的自然語言處理技術(shù),提供優(yōu)質(zhì)文本處理及理解技術(shù)

  • 阿里云NLP 為各類企業(yè)及開發(fā)者提供的用于文本分析及挖掘的核心工具

  • 騰訊云NLP 基于并行計算、分布式爬蟲系統(tǒng),結(jié)合獨特的語義分析技術(shù),一站滿足NLP、轉(zhuǎn)碼、抽取、數(shù)據(jù)抓取等需求

  • 訊飛開放平臺 以語音交互為核心的人工智能開放平臺

  • 搜狗實驗室 分詞和詞性標注

  • 玻森數(shù)據(jù) 上海玻森數(shù)據(jù)科技有限公司,專注中文語義分析技術(shù)

  • 云孚科技 NLP工具包、知識圖譜、文本挖掘、對話系統(tǒng)、輿情分析等

  • 智言科技 專注于深度學習和知識圖譜技術(shù)突破的人工智能公司

  • 追一科技 主攻深度學習和自然語言處理



Learning Materials 學習資料

  • 中文Deep Learning Book

  • Stanford CS224n Natural Language Processing with Deep Learning 2017

  • Oxford CS DeepNLP 2017

  • [Course materials for Georgia Tech CS 4650 and 7650, 'Natural Language'] (https://github.com/jacobeisenstein/gt-nlp-class)

  • Speech and Language Processing by Dan Jurafsky and James H. Martin

  • 52nlp 我愛自然語言處理

  • hankcs 碼農(nóng)場

  • 文本處理實踐課資料 文本處理實踐課資料,包含文本特征提?。═F-IDF),文本分類,文本聚類,word2vec訓練詞向量及同義詞詞林中文詞語相似度計算、文檔自動摘要,信息抽取,情感分析與觀點挖掘等實驗。

  • nlp_tasks Natural Language Processing Tasks and Selected References

  • NLP研究入門之道 from清華劉知遠老師

  • Chinese NLP Shared tasks, datasets and state-of-the-art results for Chinese Natural Language Processing

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多