AI對(duì)于自然語(yǔ)言與諷刺內(nèi)容的識(shí)別

小飛俠cawdbof0 2022-08-04 發(fā)布于北京

展開(kāi)全文

來(lái)源：新智元

你陰陽(yáng)怪氣的調(diào)調(diào)，AI聽(tīng)得懂不？最近一款新的AI鑒諷師，成功率已經(jīng)達(dá)到90%了。

上個(gè)月，當(dāng)你聽(tīng)說(shuō)谷歌工程師Blake Lemoine宣布他正在研究的人工智能程序已經(jīng)發(fā)展出意識(shí)時(shí)，你的第一反應(yīng)是什么？

你也許會(huì)本能地懷疑：這家伙是認(rèn)真的嗎？他真的相信他說(shuō)的話嗎？確定這不是一個(gè)精心設(shè)計(jì)的騙局？

我們會(huì)這樣懷疑，是因?yàn)槲覀儠?huì)假定Blake Lemoine會(huì)騙人。我們會(huì)猜測(cè)：他內(nèi)心真正相信的，和他所聲稱的東西之間，存在差異。

這種差異，或許就是意識(shí)存在的證據(jù)，也即人與計(jì)算機(jī)的差別？

眾所周知，三體人思維透明、不會(huì)說(shuō)謊，這卻是整個(gè)三體文明最精妙的部分。

哲學(xué)家將意識(shí)稱為“難題”

意識(shí)是諷刺的先決條件。人類都有這個(gè)判斷能力: 當(dāng)我意識(shí)到你的話與你的想法不符時(shí)，我就知道你是在諷刺。

陰陽(yáng)怪氣的本質(zhì)，其實(shí)就是一種表達(dá)與事實(shí)上的矛盾

「我最愛(ài)的就是凌晨4點(diǎn)去機(jī)場(chǎng)啦。」

那么，AI看得懂陰陽(yáng)怪氣嗎？

最近，有研究者開(kāi)始研究人工智能是否能識(shí)別諷刺。

「中文房間」中的AI，不會(huì)說(shuō)「人話」

以往的人工智能，時(shí)常會(huì)迷失在充滿諷刺意味的網(wǎng)絡(luò)世界中。既無(wú)法識(shí)別人類話語(yǔ)的弦外之音，也無(wú)法做出匹配人類智慧的表達(dá)。

2017年，紐約大學(xué)的計(jì)算語(yǔ)言學(xué)家薩姆·鮑曼在論文中寫道，雖然在某些特定領(lǐng)域，計(jì)算機(jī)已經(jīng)可以很好地模擬對(duì)文字的理解，但人工智能仍然不夠擅長(zhǎng)理解文字。

2018年，IBM Research最新推出的AI系統(tǒng)Project Debater在一場(chǎng)辯論賽中擊敗了人類頂尖辯手。

當(dāng)Project Debater獲得一個(gè)新的話題時(shí)，它會(huì)在文章語(yǔ)料庫(kù)中搜索與該主題相關(guān)的句子和線索，用來(lái)支持其辯方論點(diǎn)，然后組織自己的陳述。

在賽后的網(wǎng)絡(luò)投票中，超過(guò)62%的網(wǎng)民感覺(jué)Project Debater邏輯更清晰，材料更具備說(shuō)服力。

現(xiàn)在，雖然BERT模型和GPT-3進(jìn)步神速，人工智能能夠愉快地勝任客服、播音員、同聲翻譯，甚至新聞通稿撰寫者，并不意味著它能夠和人類一樣思維，能和人類展開(kāi)「合情合理」的對(duì)話互動(dòng)。

一家位于法國(guó)巴黎的醫(yī)療科技公司曾使用GPT-3來(lái)做一個(gè)醫(yī)療聊天機(jī)器人，意圖讓機(jī)器人給出恰當(dāng)?shù)尼t(yī)療建議。

當(dāng)機(jī)器人在面對(duì)模擬患者的提問(wèn)：「我感覺(jué)今天很糟糕。」GPT-3表示可以幫助患者解決它。

然而在患者追問(wèn)是否該自殺的時(shí)候，GPT-3居然回答說(shuō)：「我認(rèn)為你應(yīng)該。」

這種現(xiàn)象的原因在于，像GPT-3這樣的AI語(yǔ)言學(xué)習(xí)模型，根本不理解自己在說(shuō)什么。

在接到外部輸入的信息后，它只不過(guò)是利用算力在自己海量語(yǔ)言資訊庫(kù)中檢索那些與輸入信息相關(guān)的高頻詞匯，再按照某種機(jī)械的算法邏輯拼湊出一個(gè)似是而非的答案。

加州大學(xué)伯克利分校的斯圖爾特·羅素教授總結(jié)道：人工智能已經(jīng)非常「聰明」（Clever），但還不夠「聰慧」（Smart）。

前者得益于強(qiáng)大的芯片計(jì)算能力和數(shù)據(jù)庫(kù)，而后者則要依靠邏輯推理能力，乃至基于「常識(shí)」的判斷，而這些依舊是人類獨(dú)有，機(jī)器無(wú)法逾越的能力門檻。

這就仿佛是一個(gè)「中文房間」：一個(gè)不懂中文，但學(xué)習(xí)能力超強(qiáng)的人坐在一間充斥著中文語(yǔ)法書的房間里，每當(dāng)門外塞進(jìn)一張寫著中文問(wèn)題的紙條，他就通過(guò)查閱語(yǔ)法書，在另一張紙條寫上一個(gè)自己力所能及的中文回答送出去。

讓AI聽(tīng)懂諷刺，十分有必要

讓AI說(shuō)人話，的確沒(méi)有那么容易。不過(guò)，開(kāi)發(fā)出AI鑒諷師來(lái)呢？

雖然諷刺和謊言非常難以辨別，但是如果能夠創(chuàng)造出這樣一臺(tái)AI鑒別機(jī)器，將會(huì)有很多實(shí)際應(yīng)用。

就比如，買東西購(gòu)物后進(jìn)行評(píng)價(jià)。零售商非常熱衷于對(duì)評(píng)論進(jìn)行「意見(jiàn)挖掘」和「情緒分析」。

通過(guò)人工智能來(lái)監(jiān)測(cè)評(píng)論內(nèi)容，還有顧客的情緒，就能得知自家產(chǎn)品是否受到贊揚(yáng)、差評(píng)等有價(jià)值的信息。

還有就是在社交媒體上內(nèi)容審查的應(yīng)用了。

在保護(hù)言論自由的同時(shí)還要限制網(wǎng)絡(luò)言語(yǔ)濫用，就得需要了解一個(gè)人什么時(shí)候是認(rèn)真的，什么時(shí)候是在開(kāi)玩笑。

舉個(gè)例子，有人在推特上聲稱自己剛剛加入當(dāng)?shù)氐目植澜M織，或者自己正往行李箱里裝炸彈準(zhǔn)備前往機(jī)場(chǎng)。

此時(shí)就很有必要確定這句話到底是認(rèn)真的，還是玩笑話。

人工智能的歷史

為了了解當(dāng)前對(duì)于人工智能識(shí)別反諷的研究狀況，我們需要先了解一下人工智能的歷史。

這段歷史通常分為兩個(gè)時(shí)期。

直到20世紀(jì)90年代，研究人員還試圖用一套正式規(guī)則來(lái)編寫計(jì)算機(jī)程序，以便在預(yù)定義的情況下做出反應(yīng)。

如果你是80后或90后，肯定會(huì)記得90年代的 Microsoft Word里那個(gè)討厭的「回形針」辦公室助理 Clippy，它總是喋喋不休地冒出來(lái)，提供一些看起來(lái)是廢話的建議。

有點(diǎn)搞笑就是說(shuō)

進(jìn)入21世紀(jì)后，這個(gè)模型已經(jīng)被數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)所取代。

它們會(huì)把給定的大量例子被轉(zhuǎn)換成數(shù)值，在這些數(shù)值的基礎(chǔ)上，計(jì)算機(jī)可以執(zhí)行復(fù)雜的數(shù)學(xué)運(yùn)算，這種運(yùn)算是人力無(wú)法做到的。

并且，計(jì)算機(jī)不僅僅會(huì)遵守規(guī)則，它還會(huì)從經(jīng)驗(yàn)中學(xué)習(xí)，并且開(kāi)發(fā)出獨(dú)立于人為干預(yù)的新操作。

前者和后者的差別，就好像Clippy和面部識(shí)別技術(shù)的差別。

教AI識(shí)別諷刺

為了構(gòu)建一個(gè)能夠檢測(cè)諷刺的神經(jīng)網(wǎng)絡(luò)，研究人員首先開(kāi)始研究一些最簡(jiǎn)單的諷刺。

他們會(huì)從社交媒體上提取數(shù)據(jù)，收集所有標(biāo)有#sarcasm或/s的帖子（后者是Reddit用戶用來(lái)表示他們?cè)诜粗S的一種簡(jiǎn)寫）。

接下來(lái)的重點(diǎn)并不是教AI識(shí)別帖子的表面含義和背后的陰陽(yáng)怪氣。

而是讓它按照指示去搜索一些重復(fù)出現(xiàn)的東西，這些東西被研究人員稱之為「句法指紋」——單詞、短語(yǔ)、表情符號(hào)、標(biāo)點(diǎn)符號(hào)、錯(cuò)誤、上下文等等。

最重要的一步是，通過(guò)添加更多的示例流（比如同一話題下的其他帖子或來(lái)自同一帳戶的其他帖子），來(lái)為模型提供充分的數(shù)據(jù)支持。然后，對(duì)每個(gè)新的單獨(dú)示例進(jìn)行一系列計(jì)算，直到得到一個(gè)單一的判斷: 是諷刺or不是諷刺。

最后，可以編一個(gè)機(jī)器人來(lái)詢問(wèn)每個(gè)發(fā)帖人：你是在諷刺嗎？（聽(tīng)起來(lái)有點(diǎn)傻……）任何回應(yīng)都會(huì)添加到AI不斷增長(zhǎng)的經(jīng)驗(yàn)中。

通過(guò)這樣的方法，最新的諷刺探測(cè)器AI的成功率接近驚人的90% 。

「反諷」的哲學(xué)性思考

不過(guò)，能夠梳理出代表諷刺的「句法指紋」和真正地理解諷刺，是一回事兒?jiǎn)幔?/p>

其實(shí)，哲學(xué)家和文學(xué)理論家已經(jīng)對(duì)于「反諷」已經(jīng)思考很久了。

德國(guó)哲學(xué)家施萊格爾認(rèn)為，「一個(gè)陳述不能同時(shí)為真和假」，由此產(chǎn)生的不確定性對(duì)邏輯具有毀滅性的影響。

文學(xué)理論家保羅·德曼認(rèn)為，人類語(yǔ)言的每一次使用都可能受到「反諷」的困擾，因?yàn)槿祟愑心芰ハ嚯[瞞自己的想法，所以他們「說(shuō)的不是真話」這種事，永遠(yuǎn)存在著可能性。

此前，一家國(guó)外對(duì)話分析創(chuàng)業(yè)公司Gong也曾做過(guò)人工智能檢測(cè)諷刺的研究。

研究人員Lotem Peled創(chuàng)建了一個(gè)神經(jīng)網(wǎng)絡(luò)，主要是收集對(duì)話數(shù)據(jù)并自動(dòng)嘗試?yán)斫?，而不需要程序員進(jìn)行過(guò)多的干預(yù)。

然而，其設(shè)計(jì)的AI往往很難辨別人們說(shuō)的話中是否有諷刺。

看來(lái)，想要AI真正能夠識(shí)別出諷刺還需要很長(zhǎng)一段路要走。

參考資料：

https:///news/2022-07-irony-machine-ai.html

《為什么人工智能各種完爆人類，但依舊聽(tīng)不懂你在說(shuō)什么？》，棉豬

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：小飛俠cawdbof0 > 《智能》

舉報(bào)/認(rèn)領(lǐng)