小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

Python的常用包有哪些,分別有什么作用?

 黃爸爸好 2019-09-30

目錄

1、Python的常用包有哪些,分別有什么作用?

2、sklearn的常用包有哪些,分別有什么作用?

3、什么是正則化、如何理解正則化以及正則化的作用?

4、bias和variance是什么?

1

Python的常用包有哪些,分別有什么作用?

Datawhale優(yōu)秀回答者:追風(fēng)者

Python常用包

1、Numpy(數(shù)值運(yùn)算庫)

2、Scipy(科學(xué)計算庫)

3、Matplotlib(基礎(chǔ)可視化庫)

4、Pandas(數(shù)據(jù)處理庫)

5、Seaborn(高級可視化庫)

6、Scikit-learn(流行的機(jī)器學(xué)習(xí)庫)

各自作用

1、Numpy是最為流行的機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)包,Numpy包支持在多維數(shù)據(jù)上的數(shù)學(xué)運(yùn)算,提供數(shù)據(jù)結(jié)構(gòu)以及相應(yīng)高效的處理函數(shù),很多更高級的擴(kuò)展庫(包括Scipy、Matplotlib、Pandas等庫)都依賴于Numpy庫;

2、Scipy包用于科學(xué)計算,提供矩陣支持,以及矩陣相關(guān)的數(shù)值計算模塊,其功能包含有最優(yōu)化、線性代數(shù)、積分、插值、擬合、信號處理和圖像處理以及其他科學(xué)工程中常用的計算;

3、Pandas用于管理數(shù)據(jù)集,強(qiáng)大、靈活的數(shù)據(jù)分析和探索工具,其帶有豐富的數(shù)據(jù)處理函數(shù),支持序列分析功能,支持靈活處理缺失數(shù)據(jù)等;

● Pandas基本的數(shù)據(jù)結(jié)構(gòu)是Series和DataFrame;

● Series就是序列,類似一維數(shù)組;

● DataFrame相當(dāng)于一張二維的表格,類似二維數(shù)組,它的每一列都是一個Series;

● 為了定位Series中的元素,Pandas提供了Index對象,每個Series都會帶有一個對應(yīng)的Index,用來標(biāo)記不用的元素;

● DataFrame相當(dāng)于多個帶有同樣Index的Series的組合(本質(zhì)是Series的容器);

4、Matplotlib庫用于數(shù)據(jù)可視化,強(qiáng)大的數(shù)據(jù)可視化工具以及作圖庫,其主要用于二維繪圖,也可以進(jìn)行簡單的三維繪圖;

5、Seaborn庫是基于Matplotlib的高級可視化庫;

6、Sklearn庫包含大量機(jī)器學(xué)習(xí)算法的實(shí)現(xiàn),其提供了完善的機(jī)器學(xué)習(xí)工具箱,支持預(yù)處理、回歸、分類、聚類、降維、預(yù)測和模型分析等強(qiáng)大的機(jī)器學(xué)習(xí)庫,近乎一半的機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)項(xiàng)目使用該包。

2

sklearn的常用包有哪些,分別有什么作用?

Datawhale優(yōu)秀回答者:玲

sklearn庫的結(jié)構(gòu)

sklearn主要是用于機(jī)器學(xué)習(xí),所以sklearn的模塊也都是圍繞機(jī)器學(xué)習(xí)算法的。sklearn因此可以分為這幾個部分:Classification(分類),Regression(回歸),Clustering(聚類),Dimensionality reduction(降維),Model selection(模型選擇),Preprocessing(預(yù)處理)。

1.分類算法包括SVM(sklearn.svm.SVC等)、近鄰(sklearn.neighbors)、隨機(jī)森林(sklearn.ensemble.RandomForestClassifier)等。

2.回歸算法包括SVR(sklearn.svm.SVR)、嶺回歸(sklearn.linear_model.Ridge)、Lasso(sklearn.linear_model.Lasso)等。

3.聚類算法包括K均值(sklearn.cluster.KMeans)、譜聚類(sklearn.cluster.SpectralClustering)等。

4.降維算法包括PCA(如sklearn.decomposition.PCA)、特征選擇(sklearn.feature_selection,包括單變量特征選擇等)、非負(fù)矩陣分解(如sklearn.decomposition.NMF、LatentDirichletAllocation)。

5.模型選擇方法包括網(wǎng)格搜索(sklearn.model_selection.GridSearchCV)、交叉驗(yàn)證(有很多,比如sklearn.model_selection.KFold、cross_val_score)、評估指標(biāo)(sklearn.model_selection.metrics,包括precision、recall、accuracy等)。

6.預(yù)處理方法包括基本的預(yù)處理方法(sklearn.preprocessing,包括標(biāo)準(zhǔn)化、類別化、離散化等)、特征抽?。╯klearn.feature_extraction,包括文本特征抽取方法bag of words、tf-idf等)。

機(jī)器學(xué)習(xí)主要步驟中sklearn應(yīng)用

1.數(shù)據(jù)集:sklearn.datasets中提供了很多數(shù)據(jù)集,初學(xué)時可將其作為基礎(chǔ)數(shù)據(jù)。

2.數(shù)據(jù)預(yù)處理:sklearn.preprocessing,包括:降維、數(shù)據(jù)歸一化、特征提取和特征轉(zhuǎn)換(one-hot)等

3.選擇模型并訓(xùn)練:分類、回歸、聚類、集成等算法,涉及的模型主要是sklearn.linear_model、sklearn.cluster、sklearn.ensemble。

4.模型評分:sklearn.metrics,包括準(zhǔn)確率、召回率等,算法自身也帶有評分方法score。

5.模型的保存與恢復(fù):可以用python的pickle方法(pickle.dump、pickle.load),或者sklearn.externals.joblib(joblib.dump、joblib.load)。

學(xué)習(xí)建議

不必一次看完sklearn所有模塊的使用方法,這樣太累!成效也不大!最好的方式是一邊學(xué)習(xí)機(jī)器學(xué)習(xí)算法理論,一邊實(shí)踐的過程中去了解相關(guān)模塊的用途,記憶會更深刻。

推薦的學(xué)習(xí)資料

基本了解:https://blog.csdn.net/u014248127/article/details/78885180

深入探索:Hands-On Machine Learning with Scikit-Learn & TensorFlow

3

什么是正則化、如何理解正則化以及正則化的作用?

Datawhale優(yōu)秀回答者:追風(fēng)者

正則化-Regularization(也稱為懲罰項(xiàng)或范數(shù))就是通過對模型的參數(shù)在“數(shù)量”和“大小”方面做相應(yīng)的調(diào)整,從而降低模型的復(fù)雜度,以達(dá)到避免過擬合的效果。

如何理解正則化

如果我們的目標(biāo)僅僅是最小化損失函數(shù)(即經(jīng)驗(yàn)風(fēng)險最小化),那么模型的復(fù)雜度勢必會影響到模型的整體性能;引入正則化(即結(jié)構(gòu)風(fēng)險最小化)可以理解為衡量模型的復(fù)雜度,同時結(jié)合經(jīng)驗(yàn)風(fēng)險最小化,進(jìn)一步訓(xùn)練優(yōu)化算法。

正則化的作用

正則化可以限制模型的復(fù)雜度,從而盡量避免過擬合的發(fā)生;模型之所以出現(xiàn)過擬合的主要原因是學(xué)習(xí)到了過多噪聲,即模型過于復(fù)雜(也可以通過簡化模型或增加數(shù)據(jù)集等方法盡量避免過擬合的發(fā)生)。

正則化的常見類型

(1)L1正則化

可以通過稀疏化(減少參數(shù)“數(shù)量”)來降低模型復(fù)雜度的,即可以將參數(shù)值減小到0。

(2)L2正則化

可以通過減少參數(shù)值“大小”來降低模型的復(fù)雜度,即只能將參數(shù)值不斷減小,但永遠(yuǎn)不會減小為0,只能盡量接近于0。

關(guān)聯(lián)概念

過擬合、正則化、經(jīng)驗(yàn)風(fēng)險最小化、結(jié)構(gòu)風(fēng)險最小化、損失函數(shù)、模型復(fù)雜度、范數(shù)

4

bias和variance是什么?

Datawhale優(yōu)秀回答者:追風(fēng)者

 解釋1 

bias 偏差 :模型的期望(或平均)預(yù)測和正確值之間的差別;

variance 方差 :模型之間的多個擬合預(yù)測之間的偏離程度。

 解釋2 

bias和variance分別從兩個方面來描述了我們學(xué)習(xí)到的模型與真實(shí)模型之間的差距;

bias是 “用所有可能的訓(xùn)練數(shù)據(jù)集訓(xùn)練出的所有模型的輸出的平均值” 與 “真實(shí)模型”的輸出值之間的差異;

variance則是“不同的訓(xùn)練數(shù)據(jù)集訓(xùn)練出的模型”的輸出值之間的差異。

 解釋3 

首先 Error = bias + variance

Error反映的是整個模型的準(zhǔn)確度,bias反映的是模型在樣本上的輸出與真實(shí)值之間的誤差,即模型本身的精準(zhǔn)度,variance反映的是模型每一次輸出結(jié)果與模型輸出期望之間的誤差,即模型的穩(wěn)定性;

更準(zhǔn)確地講Error分成3個部分:Error = bias + variance + noise;

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多