自然語言處理(4)之中文文本挖掘流程詳解（小白入門必讀）

長沙7喜 2017-12-25

展開全文

前言

在對文本做數據分析時，一大半的時間都會花在文本預處理上，而中文和英文的預處理流程稍有不同，本文對中文文本挖掘的預處理流程做一個總結。

中文文本挖掘預處理特點

首先看中文文本挖掘預處理與英文文本挖掘預處理的不同點。

首先，中文文本是沒有像英文的單詞空格那樣隔開的，因此不能直接像英文一樣可以直接用最簡單的空格和標點符號完成分詞。所以一般需要用分詞算法來完成分詞，在（干貨 | 自然語言處理(1)之聊一聊分詞原理）已經講到了中文的分詞原理。

第二，中文的編碼不是utf8，而是unicode。這樣會導致在分詞時，需要處理編碼的問題。

上述兩點構成了中文分詞相比英文分詞的一些不同點，后面也會重點講述這部分的處理。了解了中文預處理的一些特點后，通過實踐總結下中文文本挖掘預處理流程。

1. 數據收集

在文本挖掘之前，需要得到文本數據，文本數據的獲取方法一般有兩種：使用別人做好的語料庫和自己用爬蟲去在網上去爬自己的語料數據。

對于第一種方法，常用的文本語料庫在網上有很多，如果大家只是學習，則可以直接下載下來使用，但如果是某些特殊主題的語料庫，比如“機器學習”相關的語料庫，則這種方法行不通，需要我們自己用第二種方法去獲取。

對于第二種使用爬蟲的方法，開源工具有很多，通用的爬蟲我一般使用beautifulsoup。但是我們需要某些特殊的語料數據，比如上面提到的“機器學習”相關的語料庫，則需要用主題爬蟲（也叫聚焦爬蟲）來完成，一般使用ache。 ache允許我們用關鍵字或者一個分類算法來過濾出我們需要的主題語料，比較強大。

2. 除去數據中非中文部分

這一步主要是針對用爬蟲收集的語料數據，由于爬下來的內容中有很多html的一些標簽，需要去掉。少量的非文本內容的可以直接用Python的正則表達式(re)刪除, 復雜的則可以用beautifulsoup來去除。去除掉這些非文本的內容后，就可以進行真正的文本預處理了。

3. 處理中文編碼問題

由于Python2.x不支持unicode的處理，因此使用Python2.x做中文文本預處理時需要遵循的原則是，存儲數據都用utf8，讀出來進行中文相關處理時，使用GBK之類的中文編碼，在下一節(jié)的分詞再用例子說明這個問題。

4. 中文分詞

常用的中文分詞軟件有很多，比較推薦結巴分詞。安裝也很簡單，比如基于Python的，用'pip install jieba'就可以完成。下面我們就用例子來看看如何中文分詞。

首先準備兩段文本，內容分別如下：

nlp_test0.txt

沙瑞金贊嘆易學習的胸懷，是金山的百姓有福，可是這件事對李達康的觸動很大。易學習又回憶起他們三人分開的前一晚，大家一起喝酒話別，易學習被降職到道口縣當縣長，王大路下海經商，李達康連連賠禮道歉，覺得對不起大家，他最對不起的是王大路，就和易學習一起給王大路湊了5萬塊錢，王大路自己東挪西撮了5萬塊，開始下海經商。沒想到后來王大路竟然做得風生水起。沙瑞金覺得他們三人，在困難時期還能以沫相助，很不容易。

nlp_test2.txt

沙瑞金向毛婭打聽他們家在京州的別墅，毛婭笑著說，王大路事業(yè)有成之后，要給歐陽菁和她公司的股權，她們沒有要，王大路就在京州帝豪園買了三套別墅，可是李達康和易學習都不要，這些房子都在王大路的名下，歐陽菁好像去住過，毛婭不想去，她覺得房子太大很浪費，自己家住得就很踏實。

首先將文本從第一個文件中讀取進來，并使用中文GBK編碼，再調用結巴分詞，最后把分詞結果用uft8格式存在另一個文本nlp_test1.txt中。代碼如下：

# -*- coding: utf-8 -*-

import jieba

with open('./nlp_test0.txt') as f:

document = f.read()

document_decode = document.decode('GBK')

document_cut = jieba.cut(document_decode)

result = ' '.join(document_cut)

result = result.encode('utf-8')

with open('./nlp_test1.txt', 'w') as f2:

f2.write(result)

f.close()

f2.close()

輸出的文本內容如下：

nlp_test1.txt

沙瑞金贊嘆易學習的胸懷，是金山的百姓有福，可是這件事對李達康的觸動很大。易學習又回憶起他們三人分開的前一晚，大家一起喝酒話別，易學習被降職到道口縣當縣長，王大路下海經商，李達康連連賠禮道歉，覺得對不起大家，他最對不起的是王大路，就和易學習一起給王大路湊了 5 萬塊錢，王大路自己東挪西撮了 5 萬塊，開始下海經商。沒想到后來王大路竟然做得風生水起。沙瑞金覺得他們三人，在困難時期還能以沫相助，很不容易。

可以發(fā)現對于一些人名和地名，jieba處理不好，不過可以幫jieba加入詞匯如下：

jieba.suggest_freq('沙瑞金', True)
jieba.suggest_freq('易學習', True)
jieba.suggest_freq('王大路', True)
jieba.suggest_freq('京州', True)

現在再重新進行讀文件，編碼，分詞，編碼和寫文件，代碼如下：

with open('./nlp_test0.txt') as f:

document = f.read()

document_decode = document.decode('GBK')

document_cut = jieba.cut(document_decode)

result = ' '.join(document_cut)

result = result.encode('utf-8')

with open('./nlp_test1.txt', 'w') as f2:

f2.write(result)

f.close()

f2.close()

輸出的文本內容如下：

nlp_test1.txt

沙瑞金贊嘆易學習的胸懷，是金山的百姓有福，可是這件事對李達康的觸動很大。易學習又回憶起他們三人分開的前一晚，大家一起喝酒話別，易學習被降職到道口縣當縣長，王大路下海經商，李達康連連賠禮道歉，覺得對不起大家，他最對不起的是王大路，就和易學習一起給王大路湊了 5 萬塊錢，王大路自己東挪西撮了 5 萬塊，開始下海經商。沒想到后來王大路竟然做得風生水起。沙瑞金覺得他們三人，在困難時期還能以沫相助，很不容易。

以同樣的方法對第二段文本nlp_test2.txt進行分詞和寫入文件nlp_test3.txt。

with open('./nlp_test2.txt') as f:

document2 = f.read()

document2_decode = document2.decode('GBK')

document2_cut = jieba.cut(document2_decode)

#print ' '.join(jieba_cut)

result = ' '.join(document2_cut)

result = result.encode('utf-8')

with open('./nlp_test3.txt', 'w') as f2:

f2.write(result)

f.close()

f2.close()

輸出的文本內容如下：

nlp_test3.txt

5. 引入停用詞

上面解析的文本中有很多無效的詞，比如“著”，“和”，還有一些標點符號，這些我們不想在文本分析時引入，因此需要去掉，這些詞就是停用詞。常用的中文停用詞表是1208個（下載地址：https://pan.baidu.com/s/1gfMXMl9）。

現在將停用詞表從文件讀出，并切分成一個數組備用：

#從文件導入停用詞表

stpwrdpath = 'stop_words.txt'

stpwrd_dic = open(stpwrdpath, 'rb')

stpwrd_content = stpwrd_dic.read()

#將停用詞表轉換為list

stpwrdlst = stpwrd_content.splitlines()

stpwrd_dic.close()

6. 特征處理

現在可以用scikit-learn來對文本特征進行處理，在（）中講到了兩種特征處理的方法，向量化與Hash Trick。而向量化是最常用的方法，因為它可以接著進行TF-IDF的特征處理。在（）中也講到了TF-IDF特征處理的方法，這里使用scikit-learn的TfidfVectorizer類來進行TF-IDF特征處理。

TfidfVectorizer類可以完成向量化，TF-IDF和標準化三步。當然，還可以處理停用詞。現在把上面分詞好的文本載入內存：

with open('./nlp_test1.txt') as f3:

res1 = f3.read()

print res1

with open('./nlp_test3.txt') as f4:

res2 = f4.read()

print res2

現在可以進行向量化，TF-IDF和標準化三步處理（這里引入了上面的停用詞表）。

from sklearn.feature_extraction.text import TfidfVectorizer
corpus = [res1,res2]
vector = TfidfVectorizer(stop_words=stpwrdlst)
tfidf = vector.fit_transform(corpus)

print tfidf

部分輸出如下：

(0, 44)0.154467434933
(0, 59)0.108549295069
(0, 39)0.308934869866
(0, 53)0.108549295069
　　....
(1, 27)0.139891059658
(1, 47)0.139891059658
(1, 30)0.139891059658
(1, 60)0.139891059658

看看每個詞與TF-IDF的對應關系：

wordlist = vector.get_feature_names()#獲取詞袋模型中的所有詞

# tf-idf矩陣元素a[i][j]表示j詞在i類文本中的tf-idf權重

weightlist = tfidf.toarray()

#打印每類文本的tf-idf詞語權重，第一個for遍歷所有文本，第二個for便利某一類文本下的詞語權重

for i in range(len(weightlist)):

print '-------第',i,'段文本的詞語tf-idf權重------'

for j in range(len(wordlist)):

print wordlist[j],weightlist[i][j]

部分輸出如下：

-------第 0 段文本的詞語tf-idf權重------
一起 0.217098590137
萬塊 0.217098590137
三人 0.217098590137
三套 0.0
下海經商 0.217098590137
.....
-------第 1 段文本的詞語tf-idf權重------
.....
李達康 0.0995336411066
歐陽 0.279782119316
毛婭 0.419673178975
沙瑞金 0.0995336411066
沒想到 0.0
沒有 0.139891059658
浪費 0.139891059658
王大路 0.29860092332
.....

7. 建立分析模型

有了每段文本的TF-IDF的特征向量，就可以利用這些數據建立分類或者聚類模型了，或者進行主題模型的分析。此時的分類聚類模型和之前講的非自然語言處理的數據分析沒有什么兩樣。因此對應的算法都可以直接使用。

小結

本文對中文文本挖掘預處理的過程做了一個總結，希望可以幫助到大家。需要注意的是這個流程主要針對一些常用的文本挖掘，并使用了詞袋模型，對于某一些自然語言處理的需求則流程需要修改。比如我們涉及到詞上下文關系的一些需求，此時不能使用詞袋模型。而有時候我們對于特征的處理有自己的特殊需求，因此這個流程僅供自然語言處理入門者參考。