|
微軟亞洲研究院副院長周明老師報告:From Language Intelligence to Code Intelligence Based on Pre-trained Models 感謝周明老師的分享以及Windy同學的筆記,完整報告內(nèi)容文末閱讀原文一鍵直達。 TL;DR代碼智能(Code Intelligence)旨在使計算機具備理解和生成代碼的能力,并利用編程語言知識和上下文進行推理,支持代碼檢索、補全、翻譯、糾錯、問答等場景。 以深度學習為代表的人工智能算法,近年來在視覺、語音和自然語言理解任務(wù)上取得了飛躍式的突破。最近基于Transformer的預訓練模型大大推動了自然語言處理和多模態(tài)的技術(shù)進步。而基于最新的自然語言技術(shù)與編程語言知識相融合的代碼智能的研究也受到越來越多的關(guān)注。 本報告將介紹微軟亞洲研究院自然語言計算組在該研究領(lǐng)域的一系列最新進展,包括針對代碼智能的預訓練模型(CodeBERT/CodeGPT)、基準數(shù)據(jù)集(CodeXGLUE)和融合了編程語言句法和語義信息的新的評價指標(CodeBLEU)。最后,本報告研討該領(lǐng)域目前存在的主要問題并探索未來的發(fā)展方向。 報告筆記如下。 一、語言智能和預訓練這幾年NLP領(lǐng)域里程碑式的工作
為什么要做預訓練模型?
Self-supervised Learning方法利用數(shù)據(jù)自然特點,不需要人工標注
總結(jié)預訓練模型的相關(guān)工作(見下圖)預訓練模型的發(fā)展趨勢
微軟工作總覽微軟預訓練模型介紹
應(yīng)用
XCLUE基準二、代碼智能 (基于預訓練模型)能不能把自然語言的方法應(yīng)用到代碼領(lǐng)域,提高效率? 已有工作
現(xiàn)成資源模型
下游任務(wù)
CodeXGLUE數(shù)據(jù)集和任務(wù)匯總成本估算評測基于3點:不同詞的權(quán)重不同,AST的匹配,語義一致(看變量是否一致) 評測本身是否好?(看哪種評價和人工評價最吻合) 總結(jié)未來的工作方向
提問問:從高校的角度如何在預訓練方面工作?答:
問:代碼自動生成的規(guī)則是硬約束還是自動學習,如何保證正確性?答:NLP工作者只知道串對串,對幾個詞的不同比較寬容,但編程只要錯一點就沒法運行。如何評測是需要考慮的,目前沒有很好的辦法數(shù)字化衡量,例如可執(zhí)行性,但邏輯性效率等都可以做一些模擬工作,希望大家未來想辦法自動評價 問:想關(guān)注跨模態(tài)工作前景?答:以前從其他領(lǐng)域借鑒了很多方法,挪到了NLP;后來NLP的transformer等等,有更好的預訓練模型,可以反攻其他領(lǐng)域了。這件事是NLP工作者應(yīng)該好好考慮的,一切序列化的任務(wù)都可以看作自然語言任務(wù),提高相關(guān)領(lǐng)域的技術(shù)發(fā)展,反哺其他領(lǐng)域。 一起交流 |
|
|