小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

機(jī)器學(xué)習(xí)推導(dǎo)|主成分分析

 漢無為 2022-11-19 發(fā)布于湖北

一、樣本均值與樣本方差

  1. 概述

假設(shè)有以下數(shù)據(jù):

圖片

  1. 樣本均值與樣本方差

以下定義了數(shù)據(jù)的樣本均值與樣本方差:

圖片

接下來需要對樣本均值與樣本方差進(jìn)行一些變換來獲得其另一種表示形式:

圖片

中心矩陣圖片具備以下性質(zhì):

圖片

因此最終可以得到

圖片

二、主成分分析的思想

一個(gè)中心:PCA是對原始特征空間的重構(gòu),將原來的線性相關(guān)的向量轉(zhuǎn)換成線性無關(guān)的向量;

兩個(gè)基本點(diǎn):最大投影方差和最小重構(gòu)距離,這是本質(zhì)相同的兩種方法,在接下來的部分將具體介紹。

PCA首先要將數(shù)據(jù)中心化(即減去均值)然后投影到一個(gè)新的方向上,這個(gè)新的方向即為重構(gòu)的特征空間的坐標(biāo)軸,同時(shí)也要保證投影以后得到的數(shù)據(jù)的方差最大,即最大投影方差,這樣也保證了數(shù)據(jù)的重構(gòu)距離最小。

四、最大投影方差

假設(shè)投影方向?yàn)?img doc360img-src='http://image109.360doc.com/DownloadImg/2022/11/1919/256093998_12_20221119072846367.svg' alt="圖片" src="http://image109.360doc.com/DownloadImg/2022/11/1919/256093998_12_20221119072846367.svg">,由于我們只關(guān)注投影的方向,因此將圖片的模設(shè)置為圖片,即圖片,則中心化后的數(shù)據(jù)在圖片方向上的投影為圖片,是一個(gè)標(biāo)量。按照最大投影方差的思想,我們定義損失函數(shù)如下:

圖片

因此該問題就轉(zhuǎn)換為以下最優(yōu)化問題:

圖片

然后使用拉格朗日乘子法進(jìn)行求解:

圖片

最后解得符合條件的向量是協(xié)方差矩陣圖片的特征向量。如果想要降到圖片維(圖片),則只需要將對應(yīng)特征值最大的前圖片個(gè)特征向量取出來作為投影方向然后獲得數(shù)據(jù)在這些方向上的投影即為重構(gòu)的坐標(biāo),即:

圖片

特征向量表示投影變換的方向,特征值表示投影變換的強(qiáng)度。通過降維,我們希望減少冗余信息,提高識(shí)別的精度,或者希望通過降維算法來尋找數(shù)據(jù)內(nèi)部的本質(zhì)結(jié)構(gòu)特征。找最大的特征值是因?yàn)?,在降維之后要最大化保留數(shù)據(jù)的內(nèi)在信息,并期望在所投影的維度上的離散最大。

五、最小重構(gòu)距離

最小重構(gòu)距離是另一種求解的方法,其本質(zhì)上和最大投影方差是相同的。

我們知道有圖片個(gè)投影方向符合條件,因此原來的數(shù)據(jù)可以表示為以下形式,降維的數(shù)據(jù)也就是舍棄掉第圖片到第圖片這幾個(gè)方向上的信息。

圖片

因此重構(gòu)距離也就是指圖片,本著最小化重構(gòu)距離的思想我們可以設(shè)置新的損失函數(shù)如下:

圖片

然后就可以轉(zhuǎn)化為以下最優(yōu)化問題:

圖片

顯然這里的每個(gè)圖片是可以單獨(dú)求解的,最終也可以解得圖片是協(xié)方差矩陣圖片的特征向量,只不過這里的圖片是對應(yīng)特征值較小的幾個(gè)特征向量。

六、SVD角度看PCA和PCoA

協(xié)方差矩陣圖片的特征分解:

圖片.

圖片中心化的結(jié)果圖片做奇異值分解:

圖片

接下里可以做以下變換:

圖片

接下來我們構(gòu)造矩陣圖片

圖片

對比圖片圖片,我們可以發(fā)現(xiàn):
①將圖片進(jìn)行特征分解然后得到投影的方向,也就是主成分,然后矩陣圖片即為重構(gòu)坐標(biāo)系的坐標(biāo)矩陣;
②將圖片進(jìn)行特征分解可以直接獲得坐標(biāo)矩陣圖片。
(注意應(yīng)保證圖片圖片特征分解得到的特征向量是單位向量。)

關(guān)于為什么將圖片進(jìn)行特征分解可以直接獲得坐標(biāo)矩陣,現(xiàn)做以下解釋:

圖片

這兩種?法都可以得到主成分,但是由于?差矩陣是圖片的,?圖片圖片的,所以對樣本量較少的時(shí)候可以采? PCoA的?法。

七、概率PCA(p-PCA)

  1. 概述

假設(shè)有以下數(shù)據(jù):

圖片

其中圖片是原始數(shù)據(jù),圖片是降維后的數(shù)據(jù),可以將圖片看做隱變量(latent variable),圖片看做觀測變量(observed variable),則p-PCA就可以看做生成模型。

圖片圖片滿足以下關(guān)系:

圖片

這是一個(gè)線性高斯模型,其中圖片是噪聲,圖片圖片是獨(dú)立的。求解這個(gè)模型要經(jīng)過兩個(gè)階段:
①inference:求圖片
②learning:使用EM算法求解參數(shù)圖片

圖片的生成過程如下:

圖片

上圖中數(shù)據(jù)空間為?維,潛在空間為?維。?個(gè)觀測數(shù)據(jù)點(diǎn)圖片的?成?式為:?先從潛在變量的先驗(yàn)分布圖片中抽取?個(gè)潛在變量的值圖片,然后從?個(gè)各向同性的?斯分布(?紅?圓圈表示)中抽取?個(gè)圖片的值,這個(gè)各向同性的?斯分布的均值為圖片,協(xié)?差為圖片。綠?橢圓畫出了邊緣概率分布圖片的密度輪廓線。

  1. 推斷(inference)

求解圖片的過程如下:

圖片

  • 圖片

圖片

  • 圖片

圖片

  • 圖片

該問題和《高斯分布|機(jī)器學(xué)習(xí)推導(dǎo)系列(二)》中第六部分的問題是類似的。

圖片

利用《高斯分布|機(jī)器學(xué)習(xí)推導(dǎo)系列(二)》中第五部分的公式可以求解圖片

圖片

  1. 學(xué)習(xí)(learning)

使用EM算法求解,這里不做展示。

參考資料

ref:降維時(shí)為什么找最大的特征值對應(yīng)的特征向量
ref:《模式識(shí)別與機(jī)器學(xué)習(xí)》

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請遵守用戶 評(píng)論公約

    類似文章 更多