小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

馬爾科夫鏈(Markov Chain),機(jī)器學(xué)習(xí)和人工智能的基石

 taotao_2016 2019-03-19

“The future is independent of the past given the present!”

這句話看上去很拗口,但是卻蘊含著“馬爾科夫鏈”和人生哲理。請聽我慢慢分解。

01 強(qiáng)化學(xué)習(xí)(Reinforcement Learning)

最近,機(jī)器學(xué)習(xí)(Machine Learning)和人工智能(Artificial Intelligence)都是熱門話題。代表著人類技術(shù)的未來。在機(jī)器學(xué)習(xí)中,強(qiáng)化學(xué)習(xí)(Reinforcement Learning)則是占據(jù)著相當(dāng)重要的位置。

Reinforcement Learning is a sub-field of Machine Learning which deals with the process of decision making based on the rewards being received by the agent.

舉個例子就明白了:

馬爾科夫鏈(Markov Chain),機(jī)器學(xué)習(xí)和人工智能的基石

強(qiáng)化學(xué)習(xí) - 圖片來源 Safaribooksonline

上圖中,Agent是一個機(jī)器人,這個過程很簡單,教會機(jī)器人走路,一步一步朝著目標(biāo)前進(jìn)。前進(jìn)過程中,會有很多選擇,有的選擇會帶來回報,比方說正50分,有的則會帶來懲罰和損失,比方說負(fù)50分。那么,最后機(jī)器人到達(dá)終點,判定行走線路的優(yōu)劣則變成了分?jǐn)?shù)高低的評判。

如上例中,機(jī)器人選擇了有火的分岔路,損失了50分;那么,相關(guān)數(shù)據(jù)會被記錄下來,形成“火 = 壞的情況,扣分”的記憶,這樣就能保證之后避免走到有火的分叉口了。

生活中的例子是:狗的訓(xùn)練

金毛

  • 比如說,你要訓(xùn)練狗狗握手,那么在小狗成功握手之后,你要獎勵一塊餅干,這樣反復(fù)多次,小狗就會有 “握手 = 餅干(獎勵)”的記憶,最后學(xué)會握手。
  • 如果小狗隨地大小便,就要有懲罰措施,讓小狗認(rèn)為它的行為會帶來懲罰。

這就是強(qiáng)化學(xué)習(xí)的過程,而其中 馬爾科夫鏈 又是必不可少的一環(huán)。

02 馬爾科夫鏈

馬爾科夫鏈(Markov Chain),機(jī)器學(xué)習(xí)和人工智能的基石

安德雷·馬爾科夫

安德雷·馬爾科夫,1856年出生的俄國著名數(shù)學(xué)家,他和切比雪夫、李雅普諾夫一起,將概率論從瀕臨衰亡的邊緣拯救出來。三人中以馬爾科夫的貢獻(xiàn)尤為重要,潛心向?qū)W的馬爾科夫,年僅40歲就被選為科學(xué)院院士,一生中發(fā)表的概率論方面的文章或?qū)V灿卸迤ú浚┲?。他研究并提出一個用數(shù)學(xué)方法就能解釋自然變化的一般規(guī)律模型,被命名為馬爾科夫鏈(Markov Chain)。

馬爾科夫鏈?zhǔn)且粋€隨機(jī)過程,同時馬爾科夫鏈的記憶類似于“金魚的記憶只有3秒”,非常的健忘。

1 - 2 - 3 - 4 - 5 - 6

比如說,你現(xiàn)在站在5對6 進(jìn)行預(yù)測,根據(jù)馬爾科夫鏈的知識,6的狀態(tài)只和5有關(guān),而前面1到2, 2到3, 3到4,4到5的整個過程無關(guān)。

馬爾科夫鏈認(rèn)為 過去所有的信息都被保存在了現(xiàn)在的狀態(tài)下了。

馬爾科夫鏈被用的最多的例子就是 天氣預(yù)測了:

馬爾科夫鏈(Markov Chain),機(jī)器學(xué)習(xí)和人工智能的基石

天氣預(yù)測

比方說,今天下雨了(rainy),那么明天的天氣會怎么樣呢?

如上圖:

  • 今天下雨,明天繼續(xù)下雨的可能性為0.8;

  • 今天下雨,明天下雪的可能性為0.02;

  • 今天下雨,明天晴天的可能性為0.18;

也就是說,我只要知道今天是下雨,我就能知道明天天氣的可能性,而不用去管前天是什么天氣。

馬爾科夫鏈(Markov Chain),機(jī)器學(xué)習(xí)和人工智能的基石

非馬爾科夫鏈,圖片來源Brilliant

袋中取球問題

在學(xué)習(xí)概率論的時候,基本上會遇到“袋中取球”的問題。如上圖,袋中有2個綠球,2個紅球,3個藍(lán)球,我下一次取球是綠色的概率是多少,取完的球不放回袋中?

假設(shè)之前的取球結(jié)果是:綠,紅,藍(lán),藍(lán)

那么,我下一次取球的時候,袋中只有綠色球1個,紅色球1個,藍(lán)色球1個,我下一次取球的是綠色球的概率是1/3。這不僅和我最后一次取得球是藍(lán)色有關(guān),也和我之前每一次取的球的顏色有關(guān),所以這個過程不是一個馬爾科夫鏈過程。

馬爾科夫鏈(Markov Chain),機(jī)器學(xué)習(xí)和人工智能的基石

馬爾科夫鏈,圖片來源Brilliant

如果是“袋中取球”,每一次取完球都放回袋中,那么,你下一次取球是綠色的概率始終是2/7。這就建立了一個馬爾科夫隨機(jī)過程。

03 馬爾科夫鏈的例題和應(yīng)用

馬爾科夫鏈在生活中應(yīng)用廣泛,

  • 比如時下火熱的語音識別

讓機(jī)器“聽懂”人類的語言,兩個馬爾科夫模型就解決了:

聲學(xué)模型:利用HMM建模(隱馬爾可夫模型),HMM是指這一馬爾可夫模型的內(nèi)部狀態(tài)外界不可見,外界只能看到各個時刻的輸出值。對語音識別系統(tǒng),輸出值通常就是從各個幀計算而得的聲學(xué)特征。

語言模型:N-Gram最簡單有效,所以應(yīng)用的也最廣泛。它基于獨立輸入假設(shè):第n個詞的出現(xiàn)只與前面N-1個詞相關(guān),而與其它任何詞都不相關(guān),整句的概率就是各個詞出現(xiàn)概率的乘積。這些概率可以通過直接從語料中統(tǒng)計N個詞同時出現(xiàn)的次數(shù)得到。

  • 天氣的預(yù)測

馬爾科夫鏈(Markov Chain),機(jī)器學(xué)習(xí)和人工智能的基石

  • 金融領(lǐng)域

接觸股票的朋友應(yīng)該知道,股票價格的預(yù)測其實是一個典型的馬爾科夫鏈過程,比如今天A公司股價是¥50,明天的股價可能是¥100,也可能是¥20,這只取決與公司今天的整體狀況和市場對股價的預(yù)期。而與A公司1個月前的股價無關(guān)。

通過馬爾科夫鏈的模型轉(zhuǎn)換,我們可以將事件的狀態(tài)轉(zhuǎn)換成概率矩陣,如下例:

馬爾科夫鏈(Markov Chain),機(jī)器學(xué)習(xí)和人工智能的基石

A和B兩個狀態(tài),A到A的概率是0.3,A到B的概率是0.7;B到B的概率是0.1,B到A的概率是0.9。

a. 初始狀態(tài)在A,2次運動后,狀態(tài)還在A的概率是多少?

不難吧!P = A-A-A + A-B-A = 0.3 * 0.3 + 0.7 * 0.9 = 0.72

b. 如果是2次運動后的狀態(tài)概率分別是多少?初始狀態(tài)和終止?fàn)顟B(tài)未知?

馬爾科夫鏈(Markov Chain),機(jī)器學(xué)習(xí)和人工智能的基石

馬爾科夫鏈矩陣示例

有了狀態(tài)矩陣,我們可以輕松得出以下結(jié)論:

  • 初始狀態(tài)A,2次運動后狀態(tài)為A的概率是0.72;

  • 初始狀態(tài)A,2次運動后狀態(tài)為B的概率是0.28;

  • 初始狀態(tài)B,2次運動后狀態(tài)為A的概率是0.36;

  • 初始狀態(tài)B,2次運動后狀態(tài)為B的概率是0.64;

馬爾科夫鏈的有趣問題還有很多,有機(jī)會可以和大家一起研究下。

04 總結(jié)

馬爾科夫鏈也蘊含著哲學(xué)的思想:

現(xiàn)在的你是過去早就的,而未來的你與你的過去無關(guān),只和你當(dāng)下的努力和選擇有關(guān),放下過去,不管多么輝煌或者糟粕,背上行囊,什么時候出發(fā)都來得及!

“逃學(xué)博士”:理工科直男一枚,在冰天雪地的加拿大攻讀工程博士。閑暇之余分享點科學(xué)知識和學(xué)習(xí)干貨。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多