小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

CMU博士生楊植麟:如何讓AI像人類一樣學(xué)習(xí)自然語言?| 分享總結(jié) | 雷鋒網(wǎng)

 長沙7喜 2018-04-14


楊植麟,卡內(nèi)基梅隆大學(xué)博士三年級,師從蘋果人工智能主任 Ruslan S.,主要研究無監(jiān)督深度學(xué)習(xí)及其在自然語言理解的應(yīng)用;過去兩年在 ICLR/NIPS/ICML 等人工智能頂會發(fā)表 11 篇文章 (9 篇一作);曾在 Facebook 人工智能實驗室從事研究工作,本科以年級第一畢業(yè)于清華計算機系。

分享主題:讓人工智能像人類一樣學(xué)習(xí)自然語言:無監(jiān)督學(xué)習(xí)和情景化學(xué)習(xí)的最新進展

分享提綱

  • 無監(jiān)督學(xué)習(xí):高秩自然語言模型 (ICLR 2018)

  • 基于生成式模型的半監(jiān)督學(xué)習(xí):利用無標注文本提升問答 (ACL 2017, NIPS 2017)

  • 情景化學(xué)習(xí):土耳其機械勇士下降法 (ICLR 2018) 

分享內(nèi)容:

近幾年,深度神經(jīng)網(wǎng)絡(luò)在自然語言學(xué)習(xí)任務(wù)上取得眾多突破,但是仍然依賴于大規(guī)模靜態(tài)標注數(shù)據(jù)。與此相反,人類學(xué)習(xí)語言的時候并不需要大規(guī)模監(jiān)督信號,并且可通過與環(huán)境的交互理解語言。

先來回顧一下近些年 NLP 發(fā)展的狀況。NLP 發(fā)展的黃金時期出現(xiàn)在 2013 年末和 2014 年這段時間。這段時間出現(xiàn)三個非常重要的技術(shù):Word embeddings;Seq2seq;Attention,這三項技術(shù)基本奠定了 2014 年之后的 NLP 發(fā)展基礎(chǔ)。

CMU博士生楊植麟:如何讓AI像人類一樣學(xué)習(xí)自然語言?| 分享總結(jié)

從2015年到現(xiàn)在,大家做的主要事情就是把三個技術(shù)都用上,做各種各樣的變種,用在不同的任務(wù)上來檢驗?zāi)P托Ч?。單從效果上來看,還是有到很多突破的。但有兩點需要注意,依賴監(jiān)督學(xué)習(xí)可能已經(jīng)做到了極限;監(jiān)督學(xué)習(xí)有兩個問題,一是依賴大規(guī)模標注數(shù)據(jù)集,二是依賴靜態(tài)數(shù)據(jù)集。

CMU博士生楊植麟:如何讓AI像人類一樣學(xué)習(xí)自然語言?| 分享總結(jié)

反觀人類是如何學(xué)習(xí)語言的?人類只需要非常少的監(jiān)督信號,通過動態(tài)與環(huán)境交互,在環(huán)境中執(zhí)行一些行為,得到一些反饋,進行學(xué)習(xí)語言。

CMU博士生楊植麟:如何讓AI像人類一樣學(xué)習(xí)自然語言?| 分享總結(jié)

如果讓機器像人類一樣學(xué)習(xí),就需要突破監(jiān)督學(xué)習(xí)的瓶頸。接下來講的就是在這一方面的探索,怎樣讓機器像人類一樣學(xué)習(xí)自然語言。

先看一下這個,Mastering the Dungeon : Grounded Language Learning by Mechanical Turker Descent。其中的

Mastering the Dungeon 是我們創(chuàng)造的一個游戲環(huán)境,Mechanical Turker Descent 是我們發(fā)明的算法名字。

CMU博士生楊植麟:如何讓AI像人類一樣學(xué)習(xí)自然語言?| 分享總結(jié)

圖中的兩個人(Turker1 和 Turker2)相當(dāng)于平臺上的兩個用戶。他們每個人負責(zé)訓(xùn)練一個 dragon,如果 dragon 贏了,對應(yīng)的人會獲得獎勵。這樣 Turker 就會受到激勵,會給 dragon 更好的樣本學(xué)習(xí),讓它在比賽中擊敗其他 dragon。

下圖反應(yīng)了 dragon 在游戲環(huán)境中具體是如何交互學(xué)習(xí)的,以及具體的游戲環(huán)境是怎么樣的。

CMU博士生楊植麟:如何讓AI像人類一樣學(xué)習(xí)自然語言?| 分享總結(jié)

這個交互學(xué)習(xí)算法的名字叫 Mechanical Turker Descent。第一步,每一個 Turker 會給 dragon 一些訓(xùn)練數(shù)據(jù),第二步,用數(shù)據(jù)集訓(xùn)練出一個模型。第三步,這些模型會放在其他數(shù)據(jù)集上交互驗證,每個模型會得到分數(shù),獲得高分的 Turker 會獲得獎勵。第四步,所有的數(shù)據(jù)將合并起來,進入下一輪,直到訓(xùn)練出比較好的 agent。

這個算法其實既有比賽,又有合作。Turker 為了贏得獎勵,所以他們之間相互比賽,促使他們提供更好的數(shù)據(jù)給 dragon。同時他們又是合作的,在每一輪結(jié)束后都會把數(shù)據(jù)合并起來進入下一輪,這些數(shù)據(jù)在下一輪都會共享。

CMU博士生楊植麟:如何讓AI像人類一樣學(xué)習(xí)自然語言?| 分享總結(jié)

這樣的算法有四個優(yōu)點:

  • 第一,避免數(shù)據(jù)樣本太簡單,因為每個 Turker 都是在對方的數(shù)據(jù)集上做驗證,如果太簡單,就會導(dǎo)致對方的分數(shù)比自己高。

  • 第二,避免數(shù)據(jù)樣本太難,如果樣本太難,就不可能訓(xùn)練出模型,同樣不能贏得比賽。

  • 第三,難易度適中的數(shù)據(jù)可以動態(tài)適應(yīng)模型學(xué)習(xí)的能力。

  • 第四,很難通過作弊獲得好成績。

游戲環(huán)境和任務(wù)設(shè)置

CMU博士生楊植麟:如何讓AI像人類一樣學(xué)習(xí)自然語言?| 分享總結(jié)

實驗結(jié)果

通過實驗得出幾點結(jié)論,實驗中的交互學(xué)習(xí)算法確實比傳統(tǒng)通過標記數(shù)據(jù)的靜態(tài)學(xué)習(xí)效果要好。

CMU博士生楊植麟:如何讓AI像人類一樣學(xué)習(xí)自然語言?| 分享總結(jié)

limit 是指限制 Turker 每一輪給的訓(xùn)練數(shù)據(jù)數(shù)量。在給同樣獎勵的情況下,發(fā)現(xiàn)如果不限制 Turker,他會多給 dragon 30% 的數(shù)據(jù),最終的模型表現(xiàn)效果也較好。

CMU博士生楊植麟:如何讓AI像人類一樣學(xué)習(xí)自然語言?| 分享總結(jié)

在模型有反饋和沒有反饋的兩種不同情況下,其性能表現(xiàn)也有很大的差別。如果把模型反饋去掉,所有的指標都會下降,說明動態(tài)調(diào)整訓(xùn)練數(shù)據(jù)的動態(tài)分布是非常重要的。

CMU博士生楊植麟:如何讓AI像人類一樣學(xué)習(xí)自然語言?| 分享總結(jié)

接下來為大家介紹一篇 ICLR Oral 論文。論文題目為:Breaking the Softmax Bottleneck A High-Rank RNN Language Model。

CMU博士生楊植麟:如何讓AI像人類一樣學(xué)習(xí)自然語言?| 分享總結(jié)

我們首先證明了softmax存在表達能力上的根本缺陷,繼而提出了混合softmax (mixture of softmaxes)的方法,先算K softmaxes,然后用weighted sum得到最后的概率。這個方法在大家常用的語言模型數(shù)據(jù)集中,取得了當(dāng)前最好的結(jié)果。

CMU博士生楊植麟:如何讓AI像人類一樣學(xué)習(xí)自然語言?| 分享總結(jié)

CMU博士生楊植麟:如何讓AI像人類一樣學(xué)習(xí)自然語言?| 分享總結(jié)

CMU博士生楊植麟:如何讓AI像人類一樣學(xué)習(xí)自然語言?| 分享總結(jié)

CMU博士生楊植麟:如何讓AI像人類一樣學(xué)習(xí)自然語言?| 分享總結(jié)

由于篇幅限制,這里就不做文字解讀了,大家如果感興趣可以直接去看這篇論文或者觀看視頻回放:http://www./open/course/472

CMU博士生楊植麟:如何讓AI像人類一樣學(xué)習(xí)自然語言?| 分享總結(jié)

小結(jié)

未來最重要的兩個研究方向,一個是無監(jiān)督學(xué)習(xí),另一個是 language grounding。

無監(jiān)督學(xué)習(xí)可以學(xué)習(xí)有價值的和可傳遞的特征表示,可以改善低資源和高資源任務(wù); 可以用于監(jiān)督或無監(jiān)督任務(wù)的元學(xué)習(xí)。language grounding 可以提供足夠復(fù)雜的環(huán)境,是一種非常有效的學(xué)習(xí)算法。

以上就是本期嘉賓的全部分享內(nèi)容。更多公開課視頻請到雷鋒網(wǎng) AI 慕課學(xué)院觀看。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多