小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

python機器學(xué)習樸素貝葉斯算法及模型的選擇和調(diào)優(yōu)詳解

 新用戶9250QmFv 2021-12-16
目錄

· 一、概率知識基礎(chǔ)

· 1.概率

· 2.聯(lián)合概率

· 3.條件概率

· 二、樸素貝葉斯

· 1.樸素貝葉斯計算方式

· 2.拉普拉斯平滑

· 3.樸素貝葉斯API

· 三、樸素貝葉斯算法案例

· 1.案例概述

· 2.數(shù)據(jù)獲取

· 3.數(shù)據(jù)處理

· 4.算法流程

· 5.注意事項

· 四、分類模型的評估

· 1.混淆矩陣

· 2.評估模型API

· 3.模型選擇與調(diào)優(yōu)

· ①交叉驗證

· ②網(wǎng)格搜索

· 五、以knn為例的模型調(diào)優(yōu)使用方法

· 1.對超參數(shù)進行構(gòu)造

· 2.進行網(wǎng)格搜索

· 3.結(jié)果查看

一、概率知識基礎(chǔ)

1.概率

概率就是某件事情發(fā)生的可能性。

2.聯(lián)合概率

包含多個條件,并且所有條件同時成立的概率,記作:P(A, B) = P(A) * P(B)

3.條件概率

事件A在另外一個事件B已經(jīng)發(fā)生的條件下的發(fā)生概率,記作:P(A|B)

條件概率的特性:P(A1,A2|B) = P(A1|B)P(A2|B)

注意:此條件概率的成立,是由于A1,A2相互獨立的結(jié)果

樸素貝葉斯的原理就是,對于每一個樣本,算出屬于每一個類別的概率,歸為概率最高的那一類。

二、樸素貝葉斯

1.樸素貝葉斯計算方式

 

直接代入實際例子,各部分解釋如下:

P(C) = P(科技):科技文檔類別的概率(科技文檔數(shù) / 總文檔數(shù))

P(W|C) = P('智能','發(fā)展'|科技):在科技文檔這一類文章中,'智能'與'發(fā)展'這兩個特征詞出現(xiàn)的概率。注意:'智能','發(fā)展'屬于被預(yù)測文檔中出現(xiàn)的詞,科技文檔中可能會有更多特征詞,但給定的文檔并不一定全部包含。因此,給定的文檔包含了哪些,就使用哪些。

計算方法:

P(F1|C) = N(i)/N (訓(xùn)練集中計算)

N(i)是該F1詞在C類別所有文檔中出現(xiàn)的次數(shù)

N為所屬類別C下的文檔所有詞出現(xiàn)的次數(shù)和

P('智能'|科技) = '智能'在所有科技類文檔中出現(xiàn)的次數(shù) / 科技類文檔下所有出現(xiàn)的詞次數(shù)和

P(F1,F2...|C) = P(F1|C) * P(F2|C)

P('智能','發(fā)展'|科技) = P('智能'|科技) * P('發(fā)展'|科技)

這樣就可以計算出基于被預(yù)測文檔中的特征詞,被預(yù)測文檔屬于科技的概率。同樣的方法計算其他類型的概率。哪個高就算哪個。

2.拉普拉斯平滑

 

3.樸素貝葉斯API

sklearn.naive_bayes.MultinomialNB

 

三、樸素貝葉斯算法案例

1.案例概述

本案例的數(shù)據(jù)是來自于sklearn中的20newsgroups數(shù)據(jù),通過提取文章中的特征詞,使用樸素貝葉斯方法,對被預(yù)測文章進行計算,通過得出的概率來確定文章屬于哪一類。

大致步驟如下:首先將文章分成兩類,一類作為訓(xùn)練集,一類作為測試集。接下來使用tfidf分別對訓(xùn)練集以及測試集文章進行特征抽取,這樣就生成了訓(xùn)練集測試集的x,接下來可以直接調(diào)用樸素貝葉斯算法,將訓(xùn)練集數(shù)據(jù)x_train, y_train導(dǎo)入進去,訓(xùn)練模型。最后使用訓(xùn)練好的模型來測試即可。

2.數(shù)據(jù)獲取

導(dǎo)入數(shù)據(jù)庫:import sklearn.datasets as dt

導(dǎo)入數(shù)據(jù):news = dt.fetch_20newsgroups(subset='all')

3.數(shù)據(jù)處理

分割使用的方法和knn中的一樣。另外,從sklearn中導(dǎo)入的數(shù)據(jù),都可以直接調(diào)用 .data獲取數(shù)據(jù)集,調(diào)用.target獲取目標值。

分割數(shù)據(jù):x_train, x_test, y_train, y_test = train_test_split(news.data, news.target, test_size=0.25)

特征值提取方法實例化:tf = TfIdfVectorizer()

訓(xùn)練集數(shù)據(jù)特征值提?。?/span>x_train = tf.fit_transform(x_train)

測試集數(shù)據(jù)特征值提取:x_test = tf.transform(x_test)

測試集的特征提取,只需要調(diào)用transform,因為要使用訓(xùn)練集的標準,并且在上一步已經(jīng)fit過得出訓(xùn)練集的標準了,測試集直接使用就行。

4.算法流程

算法實例化:mlt = MultinomialNB(alpha=1.0)

算法訓(xùn)練:mlt.fit(x_train, y_train)

 

預(yù)測結(jié)果:y_predict = mlt.predict(x_test)

5.注意事項

樸素貝葉斯算法的準確率,是由訓(xùn)練集來決定的,不需要調(diào)參。訓(xùn)練集誤差大,結(jié)果肯定不好。因為算的方式固定,并且沒有一個超參數(shù)可供調(diào)整。

樸素貝葉斯的缺點:假設(shè)了文檔中一些詞和另外一些詞是獨立的,相互沒聯(lián)系。并且是在訓(xùn)練集中進行的詞統(tǒng)計,會對結(jié)果造成干擾,訓(xùn)練集越好,結(jié)果越好,訓(xùn)練集越差,結(jié)果越差。

四、分類模型的評估

1.混淆矩陣

評估標準有數(shù)種,其一是準確率,也就是對預(yù)測的目標值和提供的目標值一一對比,計算準確率。

我們也有其他更通用也更好用的評估標準,即精確率和召回率。精確率和召回率是基于混淆矩陣計算的。

 

 

一般情況下我們只關(guān)注召回率。

F1分類標準:

 

根據(jù)以上式子,使用精確率召回率,可計算出F1-score,該結(jié)果可反應(yīng)模型的穩(wěn)健性。

2.評估模型API

sklearn.metricx.classification_report

 

3.模型選擇與調(diào)優(yōu)

①交叉驗證

交叉驗證是為了讓被評估的模型更加準確可信,方法如下:

>>將所有數(shù)據(jù)分成n等份

>>第一份作為驗證集,其他作為訓(xùn)練集,得出一個準確率,模型1

>>第二份作為驗證集,其他作為訓(xùn)練集,得出一個準確率,模型2

>>......

>>直到每一份都過一遍,得出n個模型的準確率

>>對所有的準確率求平均值,我們就得到了最終更為可信的結(jié)果。

若分為四等分,則叫做“4折交叉驗證”。

②網(wǎng)格搜索

網(wǎng)格搜索主要是和交叉驗證同時使用,用來調(diào)參數(shù)。比如K-近鄰算法中有超參數(shù)k,需要手動指定,比較復(fù)雜,所以需要對模型預(yù)設(shè)幾種超參數(shù)組合,每組超參數(shù)都采用交叉驗證來進行評估,最后選出最優(yōu)的參數(shù)組合建立模型。(K-近鄰算法就一個超參數(shù)k,談不上組合,但是如果算法有2個或以上超參數(shù),就進行組合,相當于窮舉法)

網(wǎng)格搜索API:sklearn.model_selection.GridSearchCV

 

五、以knn為例的模型調(diào)優(yōu)使用方法

假設(shè)已經(jīng)將數(shù)據(jù)以及特征處理好,并且得到了x_train, x_test, y_train, y_test,并且已經(jīng)將算法實例化:knn = KNeighborsClassifier()

1.對超參數(shù)進行構(gòu)造

因為算法中需要用到的超參數(shù)的名字就叫做'n_neighbors',所以直接按名字指定超參數(shù)選擇范圍。若有第二個超參數(shù),在后面添加字典元素即可。

params = {'n_neighbors':[5,10,15,20,25]}

2.進行網(wǎng)格搜索

輸入的參數(shù):算法(估計器),網(wǎng)格參數(shù),指定幾折交叉驗證

gc = GridSearchCV(knn, param_grid=params, cv=5)

基本信息指定好后,就可以把訓(xùn)練集數(shù)據(jù)fit進去

gc.fit(x_train, y_train)

3.結(jié)果查看

網(wǎng)格搜索算法中,有數(shù)種方法可以查看準確率、模型、交叉驗證結(jié)果、每一次交叉驗證后的結(jié)果。

gc.score(x_test, y_test) 返回準確率

gc.best_score_ 返回最高的準確率

gc.best_estimator_ 返回最好的估計器(返回的時候會自動帶上所選擇的超參數(shù))

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多