|
重磅干貨,第一時間送達(dá) 介紹擁有良好的統(tǒng)計(jì)背景對于數(shù)據(jù)科學(xué)家的日常工作可能會大有裨益。每次我們開始探索新的數(shù)據(jù)集時,我們首先需要進(jìn)行探索性數(shù)據(jù)分析(EDA),以了解某些特征的概率分布是什么。如果我們能夠了解數(shù)據(jù)分布中是否存在特定模式,則可以量身定制最適合我們的機(jī)器學(xué)習(xí)模型。這樣,我們將能夠在更短的時間內(nèi)獲得更好的結(jié)果(減少優(yōu)化步驟)。實(shí)際上,某些機(jī)器學(xué)習(xí)模型被設(shè)計(jì)為在某些分布假設(shè)下效果最佳。因此,了解我們正在使用哪個概率分布可以幫助我們確定最適合使用哪個模型。 不同類型的數(shù)據(jù)每次我們使用數(shù)據(jù)集時,我們的數(shù)據(jù)集都會代表總體的樣本。然后使用這個樣本,我們可以嘗試了解其概率分布,以便我們可以使用它對總體進(jìn)行預(yù)測。 假設(shè)我們要根據(jù)一組數(shù)據(jù)來預(yù)測房屋的價格,我們可以找到一個包含舊金山所有房價的數(shù)據(jù)集(我們的樣本),進(jìn)行一些統(tǒng)計(jì)分析之后,我們就可以對美國其他任何城市的房價做出相當(dāng)準(zhǔn)確的預(yù)測(我們的總體)。 數(shù)據(jù)集由兩種主要類型的數(shù)據(jù)組成:數(shù)值(例如整數(shù),浮點(diǎn)數(shù))和標(biāo)簽(例如名字,電腦品牌)。 數(shù)值數(shù)據(jù)還可以分為其他兩類:離散和繼續(xù)。離散數(shù)據(jù)只能采用某些值(例如,學(xué)校中的學(xué)生人數(shù)),而連續(xù)數(shù)據(jù)可以采用任何實(shí)際或分?jǐn)?shù)值(例如,身高和體重的概念)。 從離散隨機(jī)變量中,可以計(jì)算出概率質(zhì)量函數(shù),而從連續(xù)隨機(jī)變量中,可以得出概率密度函數(shù)。 概率質(zhì)量函數(shù)給出了變量可以等于某個值的概率,概率密度函數(shù)的值本身并不是概率,需要在給定范圍內(nèi)進(jìn)行積分。 自然界中存在許多不同的概率分布,在本文中,我將向大家介紹數(shù)據(jù)科學(xué)中最常用的概率分布。
import pandas as pd伯努利分布伯努利分布是最容易理解的分布之一,可用作導(dǎo)出更復(fù)雜分布的起點(diǎn)。這種分布只有兩個可能的結(jié)果,一個簡單的例子就是拋擲偏斜/無偏硬幣。在此示例中,結(jié)果可能是正面的概率等于p,而對于反面則是(1-p)(包含所有可能結(jié)果的互斥事件的概率總和為1)。 probs = np.array([0.75, 0.25])均勻分布均勻分布可以很容易地從伯努利分布中得出。均勻分布結(jié)果的數(shù)量可能不受限制,并且所有事件的發(fā)生概率均相同。例如擲骰子,存在多個可能的事件,每個事件都有相同的發(fā)生概率。 probs = np.full((6), 1/6)二項(xiàng)分布二項(xiàng)分布被認(rèn)為是遵循伯努利分布的事件結(jié)果的總和。因此,二項(xiàng)分布用于二元結(jié)果事件,并且所有后續(xù)試驗(yàn)中成功和失敗的概率均相同。此分布采用兩個參數(shù)作為輸入:事件發(fā)生的次數(shù)和試驗(yàn)成功與否的概率。二項(xiàng)式分布最簡單的示例就是將有偏/無偏硬幣拋擲一定次數(shù)。 大家可以觀察一下不同概率情況下二項(xiàng)分布的圖形: # pmf(random_variable, number_of_trials, probability)
如果獲得成功概率(p)和試驗(yàn)次數(shù)(n),則可以使用以下公式計(jì)算這n次試驗(yàn)中的成功概率(x)。 正態(tài)(高斯)分布正態(tài)(高斯)分布是數(shù)據(jù)科學(xué)中最常用的分布之一。 我們?nèi)粘I钪邪l(fā)生的許多常見現(xiàn)象都遵循正態(tài)分布,例如:經(jīng)濟(jì)中的收入分布,學(xué)生的平均報告數(shù)量,平均身高等。此外,中心極限定理說明,在適當(dāng)?shù)臈l件下,大量相互獨(dú)立隨機(jī)變量的均值經(jīng)適當(dāng)標(biāo)準(zhǔn)化后依分布收斂于正態(tài)分布。 n = np.arange(-50, 50)可以看出正態(tài)分布的特征:
可以使用以下公式得出正態(tài)分布 許多機(jī)器學(xué)習(xí)模型被設(shè)計(jì)為遵循正態(tài)分布有最佳效果。以下是一些示例:
在某些情況下可以通過對數(shù)和平方根等變換將非正態(tài)數(shù)據(jù)轉(zhuǎn)換為正態(tài)形式。 泊松分布泊松分布通常用于查找事件可能發(fā)生或不發(fā)生的頻率,還可用于預(yù)測事件在給定時間段內(nèi)可能發(fā)生多少次。 例如,保險公司經(jīng)常使用泊松分布來進(jìn)行風(fēng)險分析(預(yù)測在預(yù)定時間段內(nèi)發(fā)生的車禍?zhǔn)鹿蕯?shù)),以決定汽車保險的定價。 當(dāng)使用泊松分布時,我們可以確信發(fā)生不同事件之間的平均時間,但是事件發(fā)生的確切時刻在時間上是隨機(jī)間隔的。 泊松分布可以使用以下公式建模,其中λ表示單位時間(或單位面積)內(nèi)隨機(jī)事件的平均發(fā)生率。 ![]() 泊松分布的主要特征是:
下圖顯示了改變λ的值是如何影響泊松分布的: for lambd in range(2, 8, 2):![]() 指數(shù)分布指數(shù)分布用于對不同事件之間的時間進(jìn)行建模。 舉例來說,假設(shè)我們在一家餐廳工作,并且希望預(yù)測不同顧客來就餐的時間間隔。針對此類問題使用指數(shù)分布一個理想的起點(diǎn)。指數(shù)分布的另一個常見應(yīng)用是生存分析(例如設(shè)備/機(jī)器的預(yù)期壽命)。 指數(shù)分布由參數(shù)λ調(diào)節(jié)。λ值越大,曲線的斜率變化越快。 for lambd in range(1,10, 3):![]() 指數(shù)分布使用以下公式建模 ![]() 作者:Pier Paolo Ippolito@南安普敦大學(xué) 編譯:胡同學(xué) |
|
|