圖靈測試還重要嗎？

kantuoga 2019-10-13

展開全文

我們正在步入人工智能時代。隨著人工智能程序越來越擅長像人類般行事，我們也越來越多地面臨這樣一個問題：人類的智能是否真有什么特別之處？還是說我們只是另一種類型的機器？有一天，我們所知道和所做的每件事，是否有可能被一個安裝在足夠復雜的機器人上的復雜計算機程序所復制？

1950年，計算機先驅(qū)和戰(zhàn)時密碼破譯者圖靈（Alan Turing）做出了最有影響力的嘗試來解決這個問題。在一篇具有里程碑意義的論文中，他提出，通過一個簡單的測試，就可以消除人類和機器智能之間的模糊性。這個“圖靈測試”評估計算機模仿人類的能力，由另一個看不見機器但可以問它書面問題的人來判斷。

在過去幾年里，有幾款人工智能軟件宣稱已經(jīng)通過了圖靈測試。這使得有些人認為，這個測試太過于容易，以至于無法用作為人工智能的有用判斷。但我認為那些軟件根本沒有通過圖靈測試，甚至在可預見的將來都不會通過。但是如果有一天，人工智能真的通過了一個設(shè)計恰當?shù)膱D靈測試，那么我們就有理由開始擔心我們的獨特地位。

圖靈測試實際上一項是針對語言流利性的測試。如果理解得當，它可以揭示的是人類最獨特的方面——我們不同的文化。文化的不同導致我們在信仰和行為上表現(xiàn)出巨大的差異，這種差異在動物或大多數(shù)機器身上是看不到的。事實上，我們可以在計算機程序中編寫這種差異，這正是賦予了計算機模仿人類能力的潛力的程序。在判斷模仿的流暢性時，圖靈測試讓我們可以通過了解計算機在社會環(huán)境中對語言的掌握，來判斷它們在人類文化中的分享的能力。

圖靈測試的基礎(chǔ)是“模仿游戲”。假定在游戲中有三個人（如下圖）：男A、女B，以及詢問者C。C獨自呆在一個房間中，C與A、B的交流只能通過兩個連接A、B所在房間的傳真機來完成。C需要通過和A 、B進行對話，判斷他們哪個是男人、哪個是女人。A的目的是模仿女人，盡量擾亂C的判斷；B的目的是盡量讓C相信自己是個女人。

現(xiàn)在，如果我們將A換成一臺機器，再按照如上規(guī)則重新進行游戲，那么C在進行判斷時的準確率是否與當A是一個男人時一樣？

在1950年那個時期，圖靈沒能制定出可以讓我們來評判今天人工智能軟件的必要協(xié)議。首先，他建議測試可以在五分鐘內(nèi)完成。但他沒有發(fā)現(xiàn)，判定者和人類玩家必須共享同一種文化，而計算機必須能試圖模仿這種文化。這才導致了有的人聲稱已經(jīng)通過了測試，而還有一些人則稱測試過于簡單，或者應(yīng)該將物理能力的模擬包含在內(nèi)。

在隨著計算機科學家Joseph Weizenbaum在近50年前創(chuàng)建了名為ELIZA的程序后，這一點變得很明顯。ELIZA被用來模擬一種被稱為羅杰斯式（或以人為中心）的心理治療師。幾個與這個程序接觸過的病人都以為它是真實的，從而形成了最早的關(guān)于圖靈測試已被通過的說法。

但Weizenbaum很清楚，ELIZA實際上就是個笑話。這個設(shè)置甚至沒有遵循圖靈提供的協(xié)議，因為病人并不知道它們可能不是真的，也沒有一個真正的心理治療師同時做出反應(yīng)。此外，在那項測試中并不涉及文化，因為羅杰斯治療師需要說得盡可能少。而任何有價值的圖靈測試都必須讓判定者和玩家盡可能像人類一樣行事。

基于這是一個關(guān)于理解文本的測試，計算機需要根據(jù)前百分之幾的文字編輯的能力來進行判斷。如果提的問題正確，它們可以表明計算機是否理解了其他參與者的物質(zhì)文化。

正確的問題類型可以基于1975年的“Winograd模式”，即兩個句子之間的差別僅為一兩個單詞，但需要具備關(guān)于這個世界的知識才能理解。這樣的人工智能測試被稱為Winograd模式挑戰(zhàn)，它于2012年首次提出，是對圖靈測試的一種改進。

舉個簡單的例子，想想下面這句有兩個可能結(jié)尾的話：“這個獎杯放不進這個手提箱，因為它太小/大了?！比绻詈蟮男稳菰~是“小”，那么“它”指的就是手提箱；如果最后的形容詞是“大”，那么“它”指的就是獎杯。

若要能理解這一點，你必須了解獎杯和手提箱的文化和現(xiàn)實世界。你還必須了解獎杯和手提箱的物理世界，以及你是否真的觸碰過這些事物。因此，采用了這種方法的圖靈測試將會使那些包含了對人工智能模仿人類身體能力的評估的測試變得多余。

這意味著一個基于Winograd模式的圖靈測試比簡單的五分鐘對話更能評估計算機的語言和文化流利性。與此同時，它也設(shè)立了一個更高的標準。在2016年的一場相關(guān)比賽中，所有的計算機都慘敗給了這個測試，沒有任何來自大型人工智能公司的競爭者參與這場比賽，因為他們知道自己注定會失敗。

如果把圖靈測試設(shè)置為一系列對人類創(chuàng)造和理解文化的獨特能力的嚴峻考驗的話，那么那些所謂的已經(jīng)通過了圖靈測試的說法都變得毫無意義。有了恰當?shù)膮f(xié)議，測試才能達到要求。再一次，圖靈又是對的。而且就我們目前的情況來看，并沒有明顯的途徑可以創(chuàng)造出能夠充分深入?yún)⑴c人類文化，并通過正確的語言測試的機器。

撰文：Harry Collins（卡迪夫大學社會學教授）

原文標題為“Turing Test: why it still matters”，原文鏈接：https:///turing-test-why-it-still-matters-123468，中文內(nèi)容有增刪，僅供參考，一切內(nèi)容以原文為準。