這句話看上去很拗口,但是卻蘊含著“馬爾科夫鏈”和人生哲理。請聽我慢慢分解。 01 強(qiáng)化學(xué)習(xí)(Reinforcement Learning)最近,機(jī)器學(xué)習(xí)(Machine Learning)和人工智能(Artificial Intelligence)都是熱門話題。代表著人類技術(shù)的未來。在機(jī)器學(xué)習(xí)中,強(qiáng)化學(xué)習(xí)(Reinforcement Learning)則是占據(jù)著相當(dāng)重要的位置。
舉個例子就明白了: 強(qiáng)化學(xué)習(xí) - 圖片來源 Safaribooksonline 上圖中,Agent是一個機(jī)器人,這個過程很簡單,教會機(jī)器人走路,一步一步朝著目標(biāo)前進(jìn)。前進(jìn)過程中,會有很多選擇,有的選擇會帶來回報,比方說正50分,有的則會帶來懲罰和損失,比方說負(fù)50分。那么,最后機(jī)器人到達(dá)終點,判定行走線路的優(yōu)劣則變成了分?jǐn)?shù)高低的評判。 如上例中,機(jī)器人選擇了有火的分岔路,損失了50分;那么,相關(guān)數(shù)據(jù)會被記錄下來,形成“火 = 壞的情況,扣分”的記憶,這樣就能保證之后避免走到有火的分叉口了。 生活中的例子是:狗的訓(xùn)練 金毛
這就是強(qiáng)化學(xué)習(xí)的過程,而其中 馬爾科夫鏈 又是必不可少的一環(huán)。 02 馬爾科夫鏈安德雷·馬爾科夫 安德雷·馬爾科夫,1856年出生的俄國著名數(shù)學(xué)家,他和切比雪夫、李雅普諾夫一起,將概率論從瀕臨衰亡的邊緣拯救出來。三人中以馬爾科夫的貢獻(xiàn)尤為重要,潛心向?qū)W的馬爾科夫,年僅40歲就被選為科學(xué)院院士,一生中發(fā)表的概率論方面的文章或?qū)V灿卸迤ú浚┲?。他研究并提出一個用數(shù)學(xué)方法就能解釋自然變化的一般規(guī)律模型,被命名為馬爾科夫鏈(Markov Chain)。 馬爾科夫鏈?zhǔn)且粋€隨機(jī)過程,同時馬爾科夫鏈的記憶類似于“金魚的記憶只有3秒”,非常的健忘。 1 - 2 - 3 - 4 - 5 - 6 比如說,你現(xiàn)在站在5對6 進(jìn)行預(yù)測,根據(jù)馬爾科夫鏈的知識,6的狀態(tài)只和5有關(guān),而前面1到2, 2到3, 3到4,4到5的整個過程無關(guān)。 馬爾科夫鏈認(rèn)為 過去所有的信息都被保存在了現(xiàn)在的狀態(tài)下了。 馬爾科夫鏈被用的最多的例子就是 天氣預(yù)測了: 天氣預(yù)測 比方說,今天下雨了(rainy),那么明天的天氣會怎么樣呢? 如上圖:
也就是說,我只要知道今天是下雨,我就能知道明天天氣的可能性,而不用去管前天是什么天氣。 非馬爾科夫鏈,圖片來源Brilliant 袋中取球問題 在學(xué)習(xí)概率論的時候,基本上會遇到“袋中取球”的問題。如上圖,袋中有2個綠球,2個紅球,3個藍(lán)球,我下一次取球是綠色的概率是多少,取完的球不放回袋中? 假設(shè)之前的取球結(jié)果是:綠,紅,藍(lán),藍(lán) 那么,我下一次取球的時候,袋中只有綠色球1個,紅色球1個,藍(lán)色球1個,我下一次取球的是綠色球的概率是1/3。這不僅和我最后一次取得球是藍(lán)色有關(guān),也和我之前每一次取的球的顏色有關(guān),所以這個過程不是一個馬爾科夫鏈過程。 馬爾科夫鏈,圖片來源Brilliant 如果是“袋中取球”,每一次取完球都放回袋中,那么,你下一次取球是綠色的概率始終是2/7。這就建立了一個馬爾科夫隨機(jī)過程。 03 馬爾科夫鏈的例題和應(yīng)用馬爾科夫鏈在生活中應(yīng)用廣泛,
接觸股票的朋友應(yīng)該知道,股票價格的預(yù)測其實是一個典型的馬爾科夫鏈過程,比如今天A公司股價是¥50,明天的股價可能是¥100,也可能是¥20,這只取決與公司今天的整體狀況和市場對股價的預(yù)期。而與A公司1個月前的股價無關(guān)。 通過馬爾科夫鏈的模型轉(zhuǎn)換,我們可以將事件的狀態(tài)轉(zhuǎn)換成概率矩陣,如下例: A和B兩個狀態(tài),A到A的概率是0.3,A到B的概率是0.7;B到B的概率是0.1,B到A的概率是0.9。 a. 初始狀態(tài)在A,2次運動后,狀態(tài)還在A的概率是多少? 不難吧!P = A-A-A + A-B-A = 0.3 * 0.3 + 0.7 * 0.9 = 0.72 b. 如果是2次運動后的狀態(tài)概率分別是多少?初始狀態(tài)和終止?fàn)顟B(tài)未知? 馬爾科夫鏈矩陣示例 有了狀態(tài)矩陣,我們可以輕松得出以下結(jié)論:
馬爾科夫鏈的有趣問題還有很多,有機(jī)會可以和大家一起研究下。 04 總結(jié)馬爾科夫鏈也蘊含著哲學(xué)的思想: 現(xiàn)在的你是過去早就的,而未來的你與你的過去無關(guān),只和你當(dāng)下的努力和選擇有關(guān),放下過去,不管多么輝煌或者糟粕,背上行囊,什么時候出發(fā)都來得及!
|
|
|