小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

Lab Show⑤ | 我們?yōu)槭裁匆虣C(jī)器學(xué)人類語(yǔ)言?

 skysun000001 2019-09-30

一個(gè)人工智能方向的實(shí)驗(yàn)室,招了一名文科生讀博士,會(huì)不會(huì)有點(diǎn)奇怪?

本期由西湖大學(xué)研究生會(huì)主辦的Lab Show走進(jìn)的就是這個(gè)實(shí)驗(yàn)室。它的研究方向很熱門——自然語(yǔ)言處理(NLP)。這是融合語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)于一體的科學(xué),通俗點(diǎn)說,就是教機(jī)器學(xué)會(huì)人類的語(yǔ)言,要能翻譯,能對(duì)話,能讀文章,甚至能寫總結(jié)和心得體會(huì)……

所以,招收文科生,一點(diǎn)也不奇怪。因?yàn)檫@是一項(xiàng)跨越人類語(yǔ)言與機(jī)器算法、跨越人腦與電腦、跨越感性與理性的艱巨任務(wù)。而接受這項(xiàng)挑戰(zhàn)的,正是工學(xué)院PI張?jiān)览蠋煄ьI(lǐng)的文本智能實(shí)驗(yàn)室。



張?jiān)?/strong>

2003年畢業(yè)于清華大學(xué)計(jì)算機(jī)科學(xué)專業(yè),獲得學(xué)士學(xué)位;

2006年畢業(yè)于牛津大學(xué)計(jì)算機(jī)科學(xué)專業(yè),獲得碩士學(xué)位;

2009年畢業(yè)于牛津大學(xué)計(jì)算機(jī)科學(xué)專業(yè),獲得博士學(xué)位;

2010年3月~2012年6月在劍橋大學(xué)計(jì)算機(jī)科學(xué)專業(yè)從事博士后研究;

2012年7月~2018年8月在新加坡科技與設(shè)計(jì)大學(xué)擔(dān)任助理教授;

2018年9月全職加入西湖大學(xué),擔(dān)任終身副教授。

死記硬背,還是觸類旁通


和人類學(xué)英語(yǔ)一樣,機(jī)器學(xué)語(yǔ)言,也需要掌握聽、說、讀、寫、譯等各項(xiàng)技能。怎么學(xué)?先從語(yǔ)言本身入手,我們來(lái)看看翻譯這件事。

自然語(yǔ)言處理的應(yīng)用-機(jī)器翻譯


自然語(yǔ)言處理起源于上世紀(jì)50年代。那時(shí)美國(guó)與蘇聯(lián)冷戰(zhàn),為了第一時(shí)間了解對(duì)方的最新動(dòng)態(tài),取代人力的機(jī)器翻譯應(yīng)運(yùn)而生。最初的做法,是邀請(qǐng)一群語(yǔ)言學(xué)家去分析句法結(jié)構(gòu),然后由計(jì)算機(jī)科學(xué)家寫成機(jī)器能看懂的規(guī)則去翻譯。這種生硬地對(duì)應(yīng)翻譯,體驗(yàn)感自然很糟糕,文不對(duì)題的情況常常出現(xiàn)。
到了上世紀(jì)80年代,統(tǒng)計(jì)學(xué)的方法開始占上風(fēng),就是從人類翻譯的海量文本里統(tǒng)計(jì)出語(yǔ)言學(xué)特征,然后再用概率模型告訴機(jī)器,翻譯的準(zhǔn)確率大大提高。
張?jiān)廊胄心悄?,也就?006年,仍是統(tǒng)計(jì)學(xué)方法方興未艾的時(shí)候。但很快,到了2011年,自然語(yǔ)言處理領(lǐng)域又迎來(lái)一次革新,科學(xué)家們發(fā)現(xiàn),讓機(jī)器利用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)效果更好。我們可以把它想象成一場(chǎng)更大規(guī)模的題海戰(zhàn)術(shù),一端輸入海量的題干,一端輸出海量的標(biāo)準(zhǔn)答案,通過源源不斷的“端到端”的數(shù)據(jù)訓(xùn)練,讓機(jī)器學(xué)習(xí)聽人話、說人話。
填鴨式的訓(xùn)練后,便是我們今天熟悉的人工智能。他們不僅在翻譯上進(jìn)步了,還學(xué)會(huì)了與人聊天,更學(xué)會(huì)了唱歌、寫詩(shī)這些看上去“逆天”的功能。
但在張?jiān)姥劾?,這些都還只是停留在“死記硬背”的階段。
人不一樣,人會(huì)舉一反三,學(xué)了寫詩(shī),可能寫散文的能力也提高了;學(xué)了音樂,對(duì)繪畫創(chuàng)作又提供了靈感。但機(jī)器還不行,而且機(jī)器有數(shù)據(jù)依賴,一旦輸入給它的數(shù)據(jù)不對(duì),輸出就會(huì)出問題,它還不具備甄別能力,而這也是因?yàn)闄C(jī)器的學(xué)習(xí)不是去理解,而是去‘背’。
所以,專注于自然語(yǔ)言處理的張?jiān)?,想在讓機(jī)器學(xué)會(huì)“觸類旁通”這件事上取得突破。
事實(shí)上,世界上很多研究自然語(yǔ)言處理的實(shí)驗(yàn)室都在朝這個(gè)方向努力,有的專攻情感分析,有的鉆研詞法句法,有的側(cè)重人機(jī)對(duì)話……專業(yè)術(shù)語(yǔ)如“文本預(yù)處理、詞法分析、句法分析、語(yǔ)義理解、分詞、文本分類、文本相似度處理、關(guān)系識(shí)別、事件抽取、情感傾向分析、文本生成”等,不同的訓(xùn)練任務(wù)背后,都有無(wú)數(shù)科學(xué)家在專項(xiàng)研究。

基礎(chǔ)自然語(yǔ)言處理研究-分詞

基礎(chǔ)自然語(yǔ)言處理研究-命名實(shí)體識(shí)別


在這個(gè)領(lǐng)域,張?jiān)缹?shí)驗(yàn)室的獨(dú)特之處在于,他圍繞語(yǔ)言理解和生成,對(duì)多項(xiàng)任務(wù)同時(shí)開展研究。
“我團(tuán)隊(duì)有20多個(gè)人,都是做基礎(chǔ)研究的,上面舉例說到的大多數(shù)任務(wù)都有涉及。我們正在努力實(shí)現(xiàn)的,是一個(gè)跨領(lǐng)域、跨任務(wù)、跨語(yǔ)言、跨標(biāo)注規(guī)范的聯(lián)合訓(xùn)練模型,讓機(jī)器也能融會(huì)貫通。因?yàn)樽匀徽Z(yǔ)言處理每個(gè)環(huán)節(jié)上的任務(wù)都要涉及過,才能找到或者設(shè)計(jì)出觸類旁通的‘機(jī)關(guān)’?!?/strong>
現(xiàn)在,他們已經(jīng)在自然語(yǔ)言處理的一系列任務(wù)上,取得了文獻(xiàn)中領(lǐng)先的速度與準(zhǔn)確度。以句法分析為例,2013年,張?jiān)赖乃惴╖Par在標(biāo)準(zhǔn)測(cè)試集上取得了比競(jìng)爭(zhēng)對(duì)手Berkeley和Stanford parser更高的準(zhǔn)確度和15倍以上的速度優(yōu)勢(shì),直到現(xiàn)在他們還在繼續(xù)不斷推進(jìn)句法分析最前沿性能的發(fā)展;另外,在信息抽取中的實(shí)體、關(guān)系、事件、情感等很多數(shù)據(jù)集上,他的實(shí)驗(yàn)室也保持了在文獻(xiàn)中領(lǐng)先的結(jié)果。
張?jiān)老M?strong>下一代自然語(yǔ)言處理,是具備引申、總結(jié)、推斷能力的,“比如能把從新聞上學(xué)到的知識(shí),運(yùn)用到小說領(lǐng)域?!?/section>

電腦,還是人腦


前景令人心潮澎湃,但實(shí)踐仍需腳踏實(shí)地。雖然“深藍(lán)”在22年前打敗了人類國(guó)際象棋大師,AlphaGo在3年前戰(zhàn)勝人類圍棋世界冠軍。但具體到學(xué)語(yǔ)言這件事,電腦花了六七十年,還只是會(huì)一點(diǎn)皮毛。
因?yàn)閷W(xué)語(yǔ)言,不僅要琢磨語(yǔ)言和文化,還要去研究控制語(yǔ)言的大腦,通過研究人的神經(jīng)系統(tǒng)去優(yōu)化機(jī)器的神經(jīng)網(wǎng)絡(luò)。
張?jiān)酪昧艘粍t經(jīng)典謬誤:

英語(yǔ)中有一句成語(yǔ),the spirit is willing but the flesh is weak,意思是“心有余而力不足”??傻搅水?dāng)時(shí)某機(jī)器翻譯系統(tǒng)那里,被翻譯成俄語(yǔ)、再翻譯回英語(yǔ)時(shí),變成了the vodka is strong but the meat is rotten,意思是“伏特加很烈,而肉已經(jīng)爛了”。


差之毫厘,謬以千里。這是因?yàn)?,語(yǔ)言不僅會(huì)產(chǎn)生“歧義”,而且還是一門動(dòng)態(tài)的藝術(shù),它所承載的是龐雜的、不斷發(fā)展的文化。
比如不同時(shí)代有不同的新詞黑話,95后常用的XSWL,能有幾個(gè)70后知道是“笑死我了”的意思,于是語(yǔ)言“代溝”出現(xiàn)了。比如同樣的詞在不同語(yǔ)境、不同文化下會(huì)被賦予不同的含義和情感色彩,美劇《生活大爆炸》主角Sheldon常常聽不出話里有話的“諷刺”,不知道在這項(xiàng)任務(wù)上機(jī)器又能得幾分?

美劇《生活大爆炸》劇照(動(dòng)圖來(lái)自網(wǎng)絡(luò))

“解決這些難題,有幾條路可以走。一種是知識(shí)圖譜和神經(jīng)網(wǎng)絡(luò)的結(jié)合,把人類的常識(shí)、知識(shí)、經(jīng)驗(yàn)建成一個(gè)知識(shí)庫(kù),然后灌給機(jī)器,增強(qiáng)它的推理能力;另一種就是研究新的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)?!睆?jiān)勒f。

后面這一種需要結(jié)合腦科學(xué)、認(rèn)知科學(xué)等跨學(xué)科的知識(shí),這種學(xué)科交叉正在國(guó)際上成為一種趨勢(shì)。斯坦福大學(xué)在2018年底成立的Human-Centered AI Institute(以人為本人工智能研究院),正是著重人工智能與腦科學(xué)和認(rèn)知學(xué)的交叉研究。
在西湖大學(xué),這樣的學(xué)科交叉得到了最有力的鼓勵(lì)和支持。從工學(xué)院到生命科學(xué)學(xué)院,步行耗時(shí)不超過五分鐘,張?jiān)谰退褜さ搅怂暮献骰锇椤?/section>
一個(gè)是生命科學(xué)學(xué)院的孫一,他的實(shí)驗(yàn)室以社會(huì)認(rèn)知的神經(jīng)網(wǎng)絡(luò)計(jì)算原理為研究對(duì)象。另一個(gè)是同屬工學(xué)院的講席教授、加拿大兩院院士Mohamad Sawan,他研究的是與大腦相關(guān)的各種疾病的診斷、預(yù)測(cè)和治療,并涉足腦機(jī)界面等新興領(lǐng)域。
“孫一以果蠅為研究模型,通過成像技術(shù)能看到果蠅腦部的神經(jīng)結(jié)構(gòu)和神經(jīng)行為。但果蠅不會(huì)說話,所以我還需要和Sawan教授合作,他研究人腦、腦機(jī)接口,可以去看和語(yǔ)言相關(guān)的神經(jīng)信號(hào)?!睆?jiān)勒f。
雖然科學(xué)家對(duì)人腦的理解還十分有限,大腦依舊是人體最神秘的器官,張?jiān)缊?jiān)信這是一個(gè)值得嘗試的方向。

得到,還是失去

說到這里,也許有人會(huì)生出另一種擔(dān)憂,當(dāng)機(jī)器真的如人一般說話和思考,那是一幅怎樣的圖景?回到最初的原點(diǎn),我們?yōu)槭裁磮?zhí)著于讓機(jī)器學(xué)會(huì)人的語(yǔ)言?
為了提高效率。”張?jiān)烂摽诙觥?/section>
從工業(yè)革命開始,幾乎每一次技術(shù)革命都把人類從一些簡(jiǎn)單重復(fù)性的勞動(dòng)中解放出來(lái)。及至互聯(lián)網(wǎng)時(shí)代,人類生產(chǎn)并記錄了浩如煙海的“大數(shù)據(jù)”,基于這些大數(shù)據(jù)開發(fā),我們的工作和生活方式正在發(fā)生一些顛覆性變革,比如機(jī)器可以閱讀大量法律條文、文獻(xiàn)資料、數(shù)據(jù)報(bào)表,替人類完成最索然無(wú)味的基礎(chǔ)工作,并提供決策建議和依據(jù)。下班回家,機(jī)器可以幫你開燈、開空調(diào)、煮飯泡茶……
“這些數(shù)據(jù)的閱讀和分析,靠人哪里讀得完,所以我們?cè)噲D用一種更聰明地方式讀懂互聯(lián)網(wǎng),能夠把信息有效地提供給決策者。
再精準(zhǔn)一點(diǎn),張?jiān)缹?shí)驗(yàn)室試圖讓自然語(yǔ)言處理的技術(shù)服務(wù)資本市場(chǎng)。資本市場(chǎng)是為實(shí)體經(jīng)濟(jì)調(diào)配資源的一種機(jī)制,“去杠桿”、“供給側(cè)改革”,都是希望更科學(xué)地調(diào)配資源,而這方面的決策需要整合多方面、多層次的信息,大到企業(yè)年報(bào)、財(cái)經(jīng)評(píng)論,小到社交媒體每一條評(píng)論、每一次點(diǎn)贊。

自然語(yǔ)言處理的應(yīng)用-關(guān)系抽取

自然語(yǔ)言處理的應(yīng)用-情感分析

當(dāng)然,幫助法律裁決的人工智能,是否帶有偏見;提高生活質(zhì)量的個(gè)人助理機(jī)器人,是否會(huì)讓人失去基本的生活能力;智能社交的發(fā)展,是否會(huì)扭曲人的心智;甚至機(jī)器之間會(huì)不會(huì)學(xué)會(huì)一種人類不懂的語(yǔ)言……這的確是令人糾結(jié)的問題。人工智能技術(shù)潛在的威脅,以及英劇《黑鏡》借黑科技描述出來(lái)的人性黑暗面,張?jiān)啦皇菦]有預(yù)見到,但他更愿意保持樂觀。
“其實(shí),即使人工智能在現(xiàn)階段,也可能給人類帶來(lái)危害,問題在于我們?cè)趺匆?guī)范它?!睆?jiān)勒f,事實(shí)上,每一次技術(shù)革命后,人都活得比以前更累了,我們需要不斷適應(yīng)新技術(shù),需要從事更富創(chuàng)造力的工作,也會(huì)有新的、更具挑戰(zhàn)性的工作被創(chuàng)造出來(lái)?!皳Q句話說,更燒腦了?!?/section>
和人類歷史上每一次重大的技術(shù)革命一樣,人工智能的飛速發(fā)展令人興奮,也催人反思。有得必有失,得失之間如何平衡、如何把握,便倚賴我們?nèi)祟愖约旱乃伎己吞幨勒軐W(xué)了。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多