機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

taotao_2016 2019-09-19

展開全文

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

指數(shù)分布

高斯分布、二項分布、多項分布、泊松分布、伽瑪分布和貝塔分布都屬于指數(shù)分布。它的一般形式是

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

A（η）是累積量函數(shù)。

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

其指數(shù)e?是歸一化因子，A（η）也稱為對數(shù)配分函數(shù)。η是自然參數(shù)。T（x）被稱為充分統(tǒng)計量。在許多特定的分布中，如伯努利分布，它等于x。

考慮以下伯努利分布，其取值為1的概率為α，值為0的概率為1- α。我們可以用指數(shù)形式重寫伯努利分布。

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

然后

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

h，T和A的選固定擇將定義一個特定的指數(shù)分布，如伯努利分布。如果我們轉(zhuǎn)換η，它將成為恢復伯努利分布的模型參數(shù)α的邏輯函數(shù)。

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

因此，它可以用自然參數(shù)η表示為指數(shù)，而不是用參數(shù)α來建模伯努利分布。

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

對于二項式和泊松分布

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

到目前為止，我們的分布只需要一個參數(shù)來建模。對于由多個參數(shù)建模的分布，η將包含值向量。

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

許多概率模型中的概率密度，如在圖模型中由馬爾可夫隨機場MRF建模的概率密度，可以表示為指數(shù)。

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

因此，指數(shù)族分布成為建模概率模型的自然選擇。

讓我們來看看A（η）的導數(shù)

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

它的一階導數(shù)是充分統(tǒng)計量T(x)的期望。對于T(x)=x，這個導數(shù)等于分布的均值。

在泊松分布中，用傳統(tǒng)的積分定義計算E[x](均值)并不容易。將T（x）定義為泊松分布中的x，A '（η）等于E [ x ]。一般來說，微分比積分簡單，我們利用它來解期望。

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

二階導數(shù)A '（η）等于方差。

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

A的導數(shù)實際上幫助我們定義了分布。

矩匹配

矩定量地描述了函數(shù)的形狀。定義為

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

這一矩被稱為關(guān)于零的矩。但是如果我們先用平均值減去x，它將被稱為中心矩。

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

k階矩等于a（η）的k階導數(shù)。

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

A（η）是凸函數(shù)（其二階導數(shù)大于0）。由于A'（η）= μ，η具有與μ（力矩參數(shù)）的一對一映射。

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

根據(jù)充分統(tǒng)計量t（x）的定義，導數(shù)A'（η），A''（η），...... A?（η）具有特殊的意義，可以通過采樣數(shù)據(jù)進行估計。因此，我們在樣本數(shù)據(jù)、分布矩和分布參數(shù)之間創(chuàng)建一個鏈接。在機器學習中，我們要用q*來模擬種群密度p。在矩匹配中，我們從樣本數(shù)據(jù)中計算矩，以使它們的充分統(tǒng)計量的期望值相匹配。

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

假設(shè)繪制的所有數(shù)據(jù)都是iid，最大似然估計將是：

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

可以通過從樣本數(shù)據(jù)中找出充分統(tǒng)計量的平均值來計算μ。這稱為矩匹配。估計后，我們可以找到分布的參數(shù)。

考慮一個簡單的zero-centered分布f

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

讓我們看看如何通過采樣計算分布參數(shù)σ。矩計算如下：

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

這些矩是鐘形分布的均值和方差。我們可以通過采樣來估計二階矩。

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

通過將理論矩和樣本矩聯(lián)系起來，得到了對σ（sampled σ）的估計。

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

在上面的例子中，通過積分求E (x)和E (x2)很容易。一般來說。對于許多其他指數(shù)分布來說，這并不容易，比如gamma分布。

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

自然參數(shù)及其逆定義為：

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

充分統(tǒng)計為（log x，x），a（η）為

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

使用A（η）的導數(shù)，我們找到了充分統(tǒng)計的期望

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

然后利用樣本數(shù)據(jù)計算充分統(tǒng)計量的平均值，對上述參數(shù)α和β進行反求。

貝葉斯推斷

頻率推斷從事件的頻率得出結(jié)論。如果我們兩次擲硬幣兩次正面（head），p（head）等于100％嗎？然而，由于樣本量太小，頻率推斷不太可能發(fā)布這樣的結(jié)果。

貝葉斯推斷利用貝葉斯定理從似然和先驗信念中導出后驗分布。當有新的觀測結(jié)果時，我們將后驗轉(zhuǎn)換為先驗，并根據(jù)新的證據(jù)計算新的后驗。由于后驗是一個確定性分布而不是一個點估計，我們可以繼續(xù)將其與新的證據(jù)相結(jié)合，形成一個新的belief。簡言之，我們從某個p（h）開始，并在新的證據(jù)下繼續(xù)更新后驗。

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

例如，可以通過結(jié)合汽車如何移動的動態(tài)模型和GPS之前的測量數(shù)據(jù)來開始對汽車位置的預先判斷。或者我們甚至可以完全從直覺或經(jīng)驗開始一個先驗。給定當前傳感器讀數(shù)，我們形成了給定不同位置假設(shè)的當前傳感器讀數(shù)的可能性。利用貝葉斯推理，我們可以得到給定傳感器讀數(shù)的當前汽車位置的概率分布P(H|E)。

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

我們將后驗轉(zhuǎn)換為前驗，以便下一次迭代時進行新的觀察。樣本量越小，似然曲線越寬，峰值越低。我們還沒有畫出足夠的數(shù)據(jù)來排除許多可能性。因此，如果后驗是強的(窄的和尖的)，后驗將與前驗相似。當收集到的數(shù)據(jù)越多，似然值越尖，后驗分布越接近似然曲線。

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

Frequentist vs Bayesian

Frequentist應用最大似然估計來找到解釋觀察結(jié)果的最佳模型參數(shù)。貝葉斯聚焦在模型參數(shù)θ上，并使用貝葉斯定理計算模型參數(shù)的后驗。

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

貝葉斯推斷在給定觀察的情況下計算不同模型的概率。當然，對于高維或大的連續(xù)空間，這可能非常復雜。進一步簡化似然模型和先驗模型是可行的?；蛘呶覀兛梢酝ㄟ^采樣或近似來解決這個問題。

根據(jù)樣本收集的方式，回答P(x|y)可能比回答P(y|x)更容易。有時，概率很容易在相反的方向上建模。例如，P（y | x， θ）和P（θ）通常用高斯分布或β分布建模。下面是貝葉斯線性回歸的一個例子。

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

我們忽略貝葉斯定理中的分母P（y | X），因為它不是θ的函數(shù)。對于P（y | x， θ）和P（θ），我們在貝葉斯線性回歸中用單獨的高斯模型對它們進行建模。實際上，P(y |X)或P(X)通常很難計算，所以這是優(yōu)化后驗的一個很好的簡化。

在貝葉斯定理,我們有相對較大的自由選擇模型P(θ)。但并不是每個選擇都是相等的，這個選擇影響后驗分析計算的難易程度。如果相應的后驗函數(shù)屬于前驗函數(shù)的同一類分布，則前驗函數(shù)是共軛前驗函數(shù)。由于后驗在下一次迭代中經(jīng)常被用作先驗，我們可以簡單地重復同樣的數(shù)學計算后驗。例如，如果似然和先驗都可以用高斯函數(shù)建模，那么后驗函數(shù)也是高斯函數(shù)，易于計算。

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

如果模型θ可以使用共軛先驗對應于特定似然分布來建模，我們通常可以容易地和分析地解決后驗。

Beta分布的貝葉斯推斷

對于二項分布，我們可以使用beta分布對其進行建模。如果可能性是二項式或伯努利，我們將在beta分布之前選擇我們的共軛。這個選擇使得我們可以將后驗分布為β分布，并且可以容易地分析計算計算。

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

這是關(guān)于使用β分布來尋找后驗的框架，其中我們對p（data|θ）和p（θ）都使用β分布。后驗p（θ|data）將是β分布，所涉及的數(shù)學只是一些補充。

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

讓我們考慮一個人接觸病毒的感染率。如果我們沒有先驗知識，我們可以從均勻分布開始先驗（如下）。貝葉斯推理中的后驗與頻率論的結(jié)果相似，因為我們的belief較弱。

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

否則，我們可以從一些基于過去經(jīng)驗、知識甚至直覺的先驗知識開始。然而，如果我們的belief是錯的，我們需要收集更多的數(shù)據(jù)來逐漸重塑后驗曲線。

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

讓我們看看貝葉斯推理與頻率推斷的不同之處。在貝葉斯中，我們首先認為流感感染率可以建模為B（2,6）。這將是我們下面的第一張圖。假設(shè)我們只有一個實驗室結(jié)果，并測試呈陽性。一個普通的頻率推斷者會說根據(jù)樣本感染率是100％。但我們知道這在科學上是不合理的。但是對于貝葉斯來說，隨著結(jié)果的逐漸出現(xiàn)，我們?nèi)匀豢梢岳秘惾~斯推理得出某種結(jié)論。從某種角度來看，如果我們先驗是合理的，貝葉斯推理給我們一個合理的圖像。

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

Gamma分布作為共軛先驗

如果似然可以用高斯分布來建模，我們可以用伽馬分布作為共軛先驗。

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

似然p（x |θ）的高斯分布可以用以下形式表示

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

應用貝葉斯定理，我們也可以以Gamma分布的形式推導出后驗。

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

Dirichlet - 多項式的共軛先驗

Dirichlet分布是多項式的共軛先驗。

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

后驗是：

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

Dirichlet分布也是分類分布之前的共軛：

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

共軛先驗概述

以下是對應于特定似然分布的一些其他共軛先驗。

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

預測與正則化

利用bayes定理，在給定觀測值的情況下，計算了θ模型的后驗概率。假設(shè)模型參數(shù)θ為zero-centered高斯分布，則先驗p（θ）在目標函數(shù)中轉(zhuǎn)化為l2正則項。從概念上講，p（θ）可以看作是一個正則化因子。它可以懲罰成本函數(shù)。如下圖所示，如果我們事先知道θ是什么樣子的，我們可以對p（θ）應用一個相當復雜的模型。

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

為了進行新的預測，我們在訓練中使用后驗p（θ| X，y）作為p（θ）。然后我們通過積分θ得到邊際概率p（y 0 | x 0）。這是邊際推斷。我們通過將其他所有內(nèi)容相加來計算變量的概率。

導數(shù)

雅可比矩陣和Hessian矩陣

這些矩陣分別是f的一階和二階導數(shù)。

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

這種表示法稱為分子布局。hessian矩陣是對稱的。具有hessian矩陣和向量v的二次方程的上界是

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

下面，我們使用分母布局。它是分子布局的轉(zhuǎn)置。

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

這是微分一個向量和一個矩陣的結(jié)果

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

矩陣分解

圖形解釋

我們可以通過將x投影到x軸和y軸來表示二維向量x。因此數(shù)據(jù)點可以表示為（x?，y?）。我們可以選擇單位向量q并計算x對q的投影。投影向量為qq?x，其大小等于q?x。

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

在機器學習（ML）中，我們將特征從高維空間提取到低維潛在空間（比如k維）。概念上，我們把x投射到k個不同的向量q ?上。選擇q?是很重要的。如果做得正確，我們可以使用更少的成分來表示信息。例如，如果我們選擇下面的q 1和q 2，我們可以忽略q 2（藍點）。它們可能太小，我們可以忽略它們。但是，如果我們選擇x軸和y軸，則情況并非如此。

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

SVD將矩陣分解為獨立的成分。SVD中選取的所有q相互獨立(正交)，即提取的特征不相關(guān)。從概念上講，SVD選擇第一個q，當其余成分被刪除時，則最小化下面的最小平方誤差

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

XX?是對稱的。最優(yōu)q（命名為q 1）將是XX?的特征向量，具有最大特征值λ或最大奇異值σ（λ=σ2）

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

然后我們基于相同的原理選擇下一個組件，條件是q彼此正交。因此，所選擇的q 2將具有第二大的特征值。我們可以繼續(xù)這個過程，直到我們用完特征向量。

奇異值分解（SVD）

SVD在線性代數(shù)中的表現(xiàn)方式不同。任何矩陣A都可以分解為

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

其中U由u構(gòu)成- AA?和u?的本征向量彼此正交。類似地，v由A?A的特征向量v?組成，該特征向量也彼此正交。

從上面的等式，A也可以寫成

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

其中u?和v?是單位向量。因此，當我們評估分解成分的重要性時，我們可以忽略那些具有非常小的σ?的項。

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

如果我們僅保留具有最大σ?的最頂部k項，我們有效地將A的維度減小為k，即，提取的特征僅在k維度上?？紤]到每個主成分的重要性，我們有效地減少了輸入的維度。這就是PCA所做的。

主成分分析PCA

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

直觀地說，兩個輸入特征可能相互關(guān)聯(lián)，因此您可以創(chuàng)建一個新特征來表示這兩個特征。對于主成分分析，我們希望找到k個獨立的特征來表示我們的數(shù)據(jù)。

PCA示例

在機器學習（ML）中，SVD將包含訓練數(shù)據(jù)的矩陣分解為獨立的特征。例如，矩陣的行包含來自用戶的電影評級。列包含電影的用戶評分。

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

如果我們選擇AA?的前K個特征值，其相應的特征向量等效于下面的前K個優(yōu)化q k向量：

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

回想一下，我們將x投影到這些主成分qk中。求出最上面K個優(yōu)化的qk，將x的維數(shù)降為K，就可以得到投影向量是x的第K個潛在因子。

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

我們可以連接q?形成矩陣Q。我們可以通過將Q?與用戶的電影分級相乘得出user? 的潛在特征。（q?是M ×1，其中M是電影的數(shù)量，Q是M × K）

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

SVD發(fā)現(xiàn)用戶評級的模式（主成分）。我們可以想象一些主成分可能代表電影的類型或發(fā)行的年代。例如，z?中的第一個成分可以指示用戶是否喜歡喜劇。

概率PCA

在svd中，我們將x分解為USV?。而概率pca模型X≈WZ。我們將使用em算法來學習W和Z，其中Z可以作為X的潛在特征。與svd不同，W不需要是正交的。列不需要是單位長度或彼此垂直。

首先，我們假設(shè)潛變量z?是zero-centered高斯分布。利用W，我們可以通過WZ重建原始數(shù)據(jù)X，其中x也由高斯建模。

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

Z是EM算法中的潛在變量θ2，W是θ1。我們的目標是

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

在E步驟中，我們計算q（z?）的高斯分布

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

在M步驟中，我們進行優(yōu)化

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

算法是：

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

Kernel PCA

從一個角度來看，PCA找到一組最大化q?XX?q的向量q 。由于XX?是對稱的，因此q將是具有最大特征值的XX?的特征向量。

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

因此，問題變?yōu)檎业骄哂凶畲筇卣髦档奶卣飨蛄俊?/p>

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

我們用核（Kernel）替換XX?以將輸入映射到更高維度。這允許我們創(chuàng)建線性邊界來對在低維空間中不可線性分離的數(shù)據(jù)進行分類。相反，PCA通常被認為是降維技術(shù)。所以這兩種技術(shù)似乎都朝著相反的方向發(fā)展。然而，有時候，我們需要在變小之前變大。進入高維空間使我們能夠以更簡單明確的邊界對信息進行聚類。一旦信息清晰地聚類，將更容易將其映射到較低維度的空間。這是PCA kernel背后的動機。讓我們從以下等式開始

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

經(jīng)過一些操作，我們得到

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

因此，假設(shè)矩陣K保持核結(jié)果，我們可以通過找到K的特征向量找到a?。讓我們用高斯函數(shù)定義核函數(shù)。x的相應潛在因子可以計算為：

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

下面是我們?nèi)绾问褂肒ernel PCA 預測新輸入x 0

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

Cholesky分解

Hermitian正定矩陣A的Cholesky分解是

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

Hermitian矩陣是一個等于其轉(zhuǎn)置共軛的方陣。轉(zhuǎn)置共軛物取每個元素的復共軛，然后轉(zhuǎn)置矩陣。

協(xié)方差矩陣是對稱的（如果值都是real，則是Hermitian的特殊情況）和半正定。因此，Cholesky分解通常用于機器學習（ML)，以便更容易和更穩(wěn)定地操作。

Moore-Penrose Pseudoinverse

對于線性方程組，我們可以計算方陣A的倒數(shù)來求解x。

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

但并非所有矩陣都是可逆的。在機器學習（ML）中，由于數(shù)據(jù)中存在噪聲，因此不太可能找到精確解。但x的解可以估算為

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

其中

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

統(tǒng)計顯著性

空假設(shè)H 0表示兩個測量現(xiàn)象之間沒有關(guān)系，例如，財富和幸福之間沒有相關(guān)性。如果觀察到的數(shù)據(jù)具有統(tǒng)計顯著性，則拒絕零假設(shè)。例如，如果我們在100次拋硬幣中看到100個正面，我們可以“否定”硬幣是公平的假設(shè)。因此，備擇假設(shè) H 1（一種與H 0相矛盾的假設(shè)）可能是真的（硬幣不均勻）。實際上，要量化兩個變量之間的關(guān)系比計算收集到的數(shù)據(jù)只是偶然發(fā)生的概率要難得多。因此，零假設(shè)是對兩種現(xiàn)象得出結(jié)論的較好方法。

p值(概率值)是零假設(shè)為真時觀測樣本的概率。一個小的p值(通?！?.05或≤0.01)顯示出與原假設(shè)相反的有力證據(jù)，即偶然發(fā)生的情況很少見。

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

例如，在收集100個數(shù)據(jù)點之后，我們可以基于數(shù)據(jù)計算相關(guān)系數(shù)。如上所示，如果我們收集的100個數(shù)據(jù)點的相關(guān)性為-0.25，則其對應的PDF約為0.012。只有2.5％的群體可能具有小于-0.2的相關(guān)性。因此，零假設(shè)可能是錯誤的。

置信區(qū)間

在進行實驗收集樣本后。我們可以使用樣本數(shù)據(jù)點來估計一個像平均值這樣的總體參數(shù)(稱為estimator)。置信區(qū)間可以計算為這個樣本均值周圍的范圍。95%置信水平意味著在95%的實驗中，其置信區(qū)間包含總體的真實均值。換句話說，一個實驗的置信區(qū)間不包含真實均值的概率是1 / 20。

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

這是計算樣本均值的置信區(qū)間的骨架

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

樣本方差：

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

卡方檢驗

卡方檢驗(Chi-square test)是一種常用的檢驗方法，用于測量觀察到的數(shù)據(jù)之間的相關(guān)性只是偶然的可能性，而不是兩個變量之間的某種相關(guān)性。

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

利用上述公式計算卡方統(tǒng)計量。我們比較樣本的實際計數(shù)和假設(shè)不存在相關(guān)性的期望計數(shù)。下面是一個決定性別是否影響寵物選擇的例子。

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

在這個例子中，如果性別不是一個因素，我們計算了擁有汽車的男性的實際數(shù)量減去預期數(shù)量之間的差額。我們平方它，除以期望的計數(shù)然后計算相應的卡方值。在我們的表格中，我們有四種可能的組合(雄貓、雄狗、雌貓、雌狗)。因此，我們有四個自由度，我們需要把所有四個值加起來來計算卡方統(tǒng)計量。

對于雙邊檢驗，我們將給定的顯著性水平α除以2。例如，對于α=0.05，如果卡方統(tǒng)計量只有0.05/2=0.025的概率是偶然的，我們可以接受相關(guān)。由于卡方分布是不對稱的，我們通常會查表，看看對應的特定概率值的卡方統(tǒng)計量是多少。

機器學習總結(jié)（基礎(chǔ)）：指數(shù)分布、矩匹配、矩陣分解等

例如，當自由度為4時，如果upper-tail表卡方統(tǒng)計量大于11.1，我們將接受相關(guān)性。當然，我們也需要參考bottom-tail表來檢查卡方值是否太小。