小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

強化學(xué)習(xí)掃盲

 520jefferson 2019-03-11

引言

對一個認(rèn)知科學(xué)家來說,一個最基本的問題是“如何學(xué)習(xí)新知識?”?;卮疬@樣一個問題的idea是,人通過學(xué)習(xí)獲得某種知識,或者擁有某一種技能。而對于機器而言,可以通過學(xué)習(xí)、訓(xùn)練去完成更多只有人能完成的任務(wù),實現(xiàn)真正的人工智能。

雖然目前無法完全回答這個問題,但是有些事實是很清楚的:即在忽略skill的前提下,可以通過與環(huán)境的交互進行學(xué)習(xí),這是強化學(xué)習(xí)相對于其他機器學(xué)習(xí)非常顯著的特點之一。無論人學(xué)習(xí)駕駛汽車還是嬰兒學(xué)習(xí)走路,這樣的學(xué)習(xí)方式都是基于與環(huán)境的交互,從交互中學(xué)習(xí)是學(xué)習(xí)和智力理論的基礎(chǔ)概念。

在維基百科中是這樣介紹強化學(xué)習(xí)的:強化學(xué)習(xí)(RL)作為機器學(xué)習(xí)的一個子領(lǐng)域,其靈感來源于心理學(xué)中的行為主義理論,即智能體如何在環(huán)境給予的獎勵或懲罰的刺激下(即與環(huán)境的交互中),逐步形成對刺激的預(yù)期,產(chǎn)生能獲得最大利益的習(xí)慣性行為。它強調(diào)如何基于環(huán)境而行動,以取得最大化的預(yù)期利益。通俗的講:就是根據(jù)環(huán)境學(xué)習(xí)一套策略,能夠最大化期望獎勵。由于它具有普適性而被很多領(lǐng)域進行研究,例如自動駕駛,博弈論、控制論、運籌學(xué)、信息論、仿真優(yōu)化、多主體系統(tǒng)學(xué)習(xí)、群體智能、統(tǒng)計學(xué)以及遺傳算法。

什么是強化學(xué)習(xí)?

首先,做一個簡單的類比。假如你家有一只寵物,如下圖的小狗。

平常你會帶它到附近的公園去玩,但你不是局限于簡單的遛狗,而是買了一個犬笛(一種訓(xùn)練響片),訓(xùn)練它來完成一些游戲。比如,通過犬笛讓狗坐下,當(dāng)它完成這個動作之后,你會給它一個獎勵(例如一個好吃的)。這實質(zhì)上是reinforce你的狗以完成一個good action。隨著時間的推移,小狗會習(xí)慣于這種聲音并在每次聽到咔噠聲時做出respond。通過這樣的訓(xùn)練方式,可以訓(xùn)練你的狗在需要時完成一個good action。

現(xiàn)在,在這個類比的例子中,用進行如下替換:

寵物(狗)變成一個人造agent;

對狗的獎勵變成獎勵函數(shù);

一個good action(狗坐下)變成一個result action;

以上類比的例子,就是強化學(xué)習(xí)一個簡單的“模樣”,即是強化學(xué)習(xí)最典型的一個例子。要在人造agent上實現(xiàn)此功能,需要添加一個反饋循環(huán)來強化agent。當(dāng)所執(zhí)行的action是正確的,會獎勵它;在錯誤的情況下,會懲罰它。將上圖的狗換成貓咪結(jié)構(gòu)圖為:

進一步抽象為:

從上圖可以一個典型的強化學(xué)習(xí)模型的結(jié)構(gòu)包含兩部分:環(huán)境和agent,描述包含:

l  agent有限的狀態(tài)集S,即agent能夠處于多少種轉(zhuǎn)態(tài),例如在上面的類比中,狗是agent,人則是environment;那么,轉(zhuǎn)態(tài)state則是人通過犬笛發(fā)出不同聲音,給出不同的指令;

l  Agent有限的動作集A,例子中則是狗根據(jù)人發(fā)出的指令需要完成的動作,比如坐下,趴下等;

l  回報函數(shù)R,狗完成不同動作之后,人給予不同的獎勵;

l  折扣因子,用來計算累積的回報(reward)r,反映agent在序列決策中考慮未來一段時間回報的折扣;當(dāng)r=0時,可以認(rèn)為這個agent“目光短淺”,只考慮了眼前利益;當(dāng)r接近于1時,可以認(rèn)為這個學(xué)習(xí)體“目光長遠”,考慮了將來可能帶來的整體利益。

這是一個序列化過程,在時刻t,agent基于當(dāng)前狀態(tài)St發(fā)出動作At,環(huán)境做出回應(yīng),生成新的狀態(tài)S(t+1)和對應(yīng)的回報R(t+1)。需要強調(diào)一點的是,狀態(tài)S和回報R是成對出現(xiàn)的。學(xué)習(xí)體的目標(biāo)就是,通過更加明智地執(zhí)行動作,從而最大化接下來的累計獎勵,公式為:

當(dāng)學(xué)習(xí)體并不是隨機地產(chǎn)生可能的動作,而是經(jīng)過對過去經(jīng)歷的思考得來的時,我們可以把這樣的動作稱為策略policy。從數(shù)學(xué)的角度來講,策略就是由state到action的映射,它有兩種形式,“確定性策略”和“非確定性策略”,前者指給定狀態(tài)輸出唯一的確定性動作,后者指給定狀態(tài)輸出所有動作的概率。一旦確定了策略時,那么學(xué)習(xí)體在每一個時刻都會按照該策略發(fā)出新的動作。

強化學(xué)習(xí)的分類

解決強化學(xué)習(xí)問題,agent可以有多種工具組合,比如通過建立對狀態(tài)的value估計來解決問題,或者通過直接建立對策略的估計來解決問題。因此,根據(jù)agent內(nèi)包含的“工具”進行分類,可以把agent分為如下三類:

僅基于價值函數(shù)的Value Based:在此類agent中,有對狀態(tài)的價值估計函數(shù),但是沒有直接的策略函數(shù),策略函數(shù)由價值函數(shù)間接得到。而這類強化學(xué)習(xí)又包含基于蒙特卡洛的強化學(xué)習(xí),基于時間差分的強化學(xué)習(xí)等。

僅直接基于策略的Policy Based:這樣的agent中行為直接由策略函數(shù)產(chǎn)生,agent并不維護一個對各狀態(tài)價值的估計函數(shù)。這類包括基于策略梯度的強化學(xué)習(xí),基于置信域策略優(yōu)化的強化學(xué)習(xí),基于確定性策略的強化學(xué)習(xí),基于引導(dǎo)策略搜索的強化學(xué)習(xí)等。

演員-評判家形式Actor-Critic:agent既有價值函數(shù)、也有策略函數(shù)。兩者相互結(jié)合解決問題。

此外,根據(jù)agent在解決強化學(xué)習(xí)問題時是否建立一個對環(huán)境動力學(xué)的模型,將其分為兩大類:

不基于模型的agent:這類agent并不視圖了解環(huán)境如何工作,而僅聚焦于價值和/或策略函數(shù)。

基于模型的agent:agent嘗試建立一個描述環(huán)境運作過程的模型,以此來指導(dǎo)價值或策略函數(shù)的更新。

與其他機器學(xué)習(xí)的對比

監(jiān)督學(xué)習(xí)是一種目標(biāo)變量是已知的學(xué)習(xí),并且在訓(xùn)練期間明確使用該信息(監(jiān)督),即模型在目標(biāo)的監(jiān)督下訓(xùn)練,直接給出預(yù)測結(jié)果或者未來的輸出,主要用于解決分類問題和回歸問題。例如,如果想要為手寫數(shù)字構(gòu)建分類模型,則輸入將是圖像集(訓(xùn)練數(shù)據(jù)),目標(biāo)變量將是分配給這些圖像的標(biāo)簽,即0-9的類。

無監(jiān)督學(xué)習(xí)是對由目標(biāo)未知的輸入數(shù)據(jù)組成的數(shù)據(jù)集進行推斷。最常見的無監(jiān)督學(xué)習(xí)方法是聚類分析,用于探索、分析數(shù)據(jù),以發(fā)現(xiàn)隱藏的模式或數(shù)據(jù)分組。其評價是定性或不明確的,不能進行預(yù)測。

強化學(xué)習(xí)是在給定某種情況/環(huán)境的情況下,機器決定采取什么動作,以便最大化獎勵。 監(jiān)督和強化學(xué)習(xí)之間的區(qū)別在于獎勵信號,它簡單地告訴agent采取的行動(輸入)是好還是壞。它沒有告訴agent什么是最好的行動。 在這種類型的學(xué)習(xí)中,既沒有訓(xùn)練數(shù)據(jù)也沒有目標(biāo)變量。

強化學(xué)習(xí)的一些應(yīng)用

強化學(xué)習(xí)憑借其在序列決策問題上的優(yōu)勢,加之深度學(xué)習(xí)的巨大成功,使得強化學(xué)習(xí)在智能決策問題上表現(xiàn)出強勁的勢頭,有望解決通用人工智能。而且,強化學(xué)習(xí)有著廣泛的使用領(lǐng)域。

5.1 PC Games

強化學(xué)習(xí)廣泛應(yīng)用于諸如刺客信條(Assasin’s Creed),國際象棋等PC游戲中,程序可以游戲者的表現(xiàn)改變它們的動作和方法。例如2016年3月,阿爾法圍棋與圍棋世界冠軍、職業(yè)九段棋手李世石進行圍棋人機大戰(zhàn),以4比1的總比分獲勝。

2017年5月,人類棋手“群毆”AlphaGo的大戲開始上演。由時越、羋昱廷、唐韋星、陳耀燁和周睿羊5位世界冠軍組成中國圍棋“天團”,仍沒能抵擋住AlphaGo 。

從AlphaGo Fan到AlphaGo zero,基于深度強化學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)對于序列決策的能力越來越強,因而在圍棋這種決策非常復(fù)雜的游戲中能夠戰(zhàn)勝并超越人類棋手。這樣的例子還有很多,如2019年1月25日,AlphaStar在《星際爭霸2》人機大戰(zhàn)直播節(jié)目中,以10-1的戰(zhàn)績輕松戰(zhàn)勝2018 WCS Circuit排名13、神族最強10人之一的MaNa。

5.2機器人

機器人本身就可以作為一個智能體(agent),因此強化學(xué)習(xí)在機器人上的使用,是一個非常貼切的例子。例如想要機器人模仿人的行為,找到從房子中的一個地方移動到另一個地方,而不會碰到障礙物的最佳路線。因此,重要的是定義分?jǐn)?shù),遇到障礙并得到負(fù)分(懲罰),避免障礙并獲得正分(獎勵)。而它覆蓋的距離越遠,獎勵就越多。目標(biāo)是在每種情況下最大化整體感知分?jǐn)?shù)。除此之外,利用強化學(xué)習(xí)學(xué)習(xí)機器狗跳躍姿勢時的局部線性驅(qū)動器參數(shù),學(xué)習(xí)雙輪機器人的平衡參數(shù)等等。

5.3庫存管理

通過構(gòu)建強化學(xué)習(xí)算法,以減少庫存的運輸時間,以及檢索倉庫中的產(chǎn)品,以優(yōu)化空間利用率和倉庫運營。

5.4 化學(xué)

強化學(xué)習(xí)也可用于優(yōu)化化學(xué)反應(yīng)。基于強化學(xué)習(xí)模型優(yōu)于其他先進的算法,并在“Optimizing Chemical Reactions with Deep Reinforcement Learning”一文中推廣到不同的潛在機制。該應(yīng)用表現(xiàn)出如何在相對穩(wěn)定的環(huán)境中減少耗時和反復(fù)試驗。

強化學(xué)習(xí)的應(yīng)用領(lǐng)域還有自動駕駛(自動駕駛載具)、推薦系統(tǒng)(阿里巴巴黃皮書(商品推薦),廣告投放)、問答系統(tǒng)、智能電網(wǎng)(電網(wǎng)負(fù)荷調(diào)試,調(diào)度)、通信網(wǎng)絡(luò)(動態(tài)路由,流量分配)等等。

最后,推薦一個介紹強化學(xué)習(xí)的視頻(英文的)~

參考資料

[1]深度強化學(xué)習(xí)及其在自動駕駛中的應(yīng)用: DRL&ADS系列之(1): 強化學(xué)習(xí)概述

[2]Simple Beginner’s guide to Reinforcement Learning & its implementation

[3]David Silver, Reinforcement Learning Course

[4]郭憲 方勇純, 深入淺出強化學(xué)習(xí):原理入門

[5]Quara:What is reinforcement learning?

[6]Kober J, Bagnell JA, Peters J. Reinforcement learning in robotics: A survey. The International Journal Of Robotics Research. 2013;32(11):1238-1274.

[7]What are some practical applications of reinforcement learning?


    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多