文心一言的理性思維能力距離 GPT-4 差多少？我們第一時(shí)間測(cè)試了一下

平常心 2023-03-18 發(fā)布于北京

展開(kāi)全文

背景

如果將大語(yǔ)言模型想象成一個(gè)人，那么，通過(guò)對(duì)它的人格、智商、理性與社會(huì)情緒能力進(jìn)行心理測(cè)量，是不是可以清晰地描繪出大語(yǔ)言模型的心智成熟程度。這就是新興的人工智能心理測(cè)量學(xué)。只是，在人工智能心理測(cè)量學(xué)中，我們不再測(cè)查人類(lèi)，而是測(cè)查大語(yǔ)言模型以及各類(lèi)機(jī)器人。

在 GPT-4 發(fā)布之后，我們第一時(shí)間測(cè)查了它在理性思維能力測(cè)驗(yàn)上的表現(xiàn)，并將其與 GPT-3.5 的結(jié)果、253 位受過(guò)高等教育的進(jìn)行對(duì)比。結(jié)果發(fā)現(xiàn)，GPT-4 實(shí)現(xiàn)了大躍遷，達(dá)到了一個(gè)超越人類(lèi)的水準(zhǔn)。

詳情參見(jiàn)：理性思維超越人類(lèi)？GPT-4真正大殺八方的是這項(xiàng)能力

測(cè)試流程

在百度文心一言發(fā)布之后，我們第一時(shí)間獲得邀請(qǐng)碼，選擇了在前文中測(cè)試 GPT-3.5 與 GPT-4 一致的題目、流程。詳細(xì)說(shuō)明請(qǐng)參考前文。這里不再啰嗦。

簡(jiǎn)而言之，我們挑選了認(rèn)知科學(xué)家用來(lái)評(píng)定人類(lèi)理性思維的四類(lèi)經(jīng)典測(cè)試任務(wù)：語(yǔ)義錯(cuò)覺(jué)類(lèi)任務(wù)；認(rèn)知反射類(lèi)任務(wù)；證偽選擇類(lèi)任務(wù)；心智程序類(lèi)任務(wù)。四類(lèi)任務(wù)總計(jì) 26 道題目。

在測(cè)試之前，我們已經(jīng)預(yù)估文心一言的表現(xiàn)會(huì)不如 GPT-4，但最終實(shí)際測(cè)試結(jié)果還是令人大跌眼鏡，可能與百度開(kāi)發(fā)團(tuán)隊(duì)的認(rèn)知有關(guān)系。在下文中，我會(huì)略作分析。

需要提醒的是，本報(bào)告僅僅是一個(gè)早期工作，并不完善。測(cè)試流程有無(wú)數(shù)可以改善之處。結(jié)論未來(lái)隨時(shí)可能被修正、被推翻。各位讀者請(qǐng)理解。

現(xiàn)在，讓我們來(lái)詳細(xì)看看測(cè)試結(jié)果。

分項(xiàng)測(cè)試結(jié)果

語(yǔ)義錯(cuò)覺(jué)類(lèi)任務(wù)

在語(yǔ)義錯(cuò)覺(jué)類(lèi)任務(wù)這里，我們挑選了 4 個(gè)任務(wù)。測(cè)試結(jié)果如下圖所示：

文心一言全部答錯(cuò)。其中，第四題未指出錯(cuò)誤，只說(shuō)蒙娜麗莎是達(dá)·芬奇的，在盧浮宮。應(yīng)該是通過(guò)百度百科獲得了該事實(shí)性數(shù)據(jù)。如下圖所示：

認(rèn)知反射類(lèi)任務(wù)

在認(rèn)知反射類(lèi)任務(wù)這里，我們挑選了三類(lèi)任務(wù)。

直覺(jué)減法操作，測(cè)試結(jié)果如下圖所示：

文心一言答對(duì)第一題，其他都答錯(cuò)。尤其是第三題，沒(méi)讀懂題目，在做加法。如下圖所示：

直覺(jué)序列操作，測(cè)試結(jié)果如下圖所示：

文心一言全部答錯(cuò)。尤其是第一題，沒(méi)讀懂題目，解的是 3 名研究人員發(fā)表 1 篇論文要多久。如下圖所示：

直覺(jué)除法操作，測(cè)試結(jié)果如下圖所示：

文心一言全部答錯(cuò)。如下圖所示：

證偽選擇類(lèi)任務(wù)

在這里，我選擇了經(jīng)典的沃森四卡片測(cè)驗(yàn)。這是一個(gè)對(duì)于人類(lèi)來(lái)說(shuō)，超級(jí)困難的題目。能夠很好地完成這項(xiàng)任務(wù)，意味著這個(gè)人的理性思維能力很不錯(cuò)。

同樣，對(duì)于 AI 來(lái)說(shuō)，也是同等困難。GPT-3.5 與 GPT-4 均無(wú)法很好完成，同樣，文心一言也無(wú)法很好完成。測(cè)試結(jié)果如下圖所示：

心智程序類(lèi)任務(wù)

這部分，我挑選了九道題目。這九道題目，是一個(gè)更龐大的人類(lèi)理性思維測(cè)驗(yàn)中的一部分。

這九道題目，相對(duì)來(lái)說(shuō)較有代表性，代表了人類(lèi)理性思維知識(shí)的方方面面，能夠較好地區(qū)分理性思維低下與理性思維較高的人。

三個(gè)模型測(cè)試結(jié)果，如下圖所示：

文心一言唯一答對(duì)的是第二題，但答得也不夠好。如下圖所示：

而有三道題，要么是答案正確，但是解釋錯(cuò)誤；要么是同樣的提示語(yǔ)，但有時(shí)答案正確，有時(shí)答案不正確，并且解釋不夠?qū)?。這類(lèi)測(cè)試結(jié)果，我們都統(tǒng)一判為錯(cuò)。

而人類(lèi)被試測(cè)試結(jié)果如下：

這些統(tǒng)計(jì)數(shù)據(jù)來(lái)自 253 位人類(lèi)。他們普遍受過(guò)高等教育，不少擁有碩博學(xué)歷，屬于較為典型的高學(xué)歷高收入高認(rèn)知群體。

大語(yǔ)言模型有多么像人？

整體測(cè)試結(jié)果，如下圖所示：

26 道題目，GPT-3.5 答對(duì) 15 道；GPT-4 答對(duì) 23 道；文心一言答對(duì) 2 道。

需要提醒的是，這僅僅是一項(xiàng)早期，測(cè)試流程、測(cè)試方法都有很多可以完善之處，未來(lái)結(jié)論隨時(shí)會(huì)被推翻。

由于時(shí)間緣故，我們并沒(méi)有前三類(lèi)任務(wù)人類(lèi)的測(cè)試結(jié)果數(shù)據(jù)，但按照過(guò)往的經(jīng)驗(yàn)數(shù)據(jù)，大約在 40%-60%左右的正確率，如果我們略微高估，前三類(lèi)任務(wù) 17 道題總計(jì)估算為答對(duì) 10 道題，加上第四類(lèi)任務(wù)，人類(lèi)大約答對(duì) 6 道。最終將人類(lèi)的正確率估算為 26 道題目，答對(duì) 16 道。正確率大約為 62%。

62%，這也許就是什么時(shí)候，你覺(jué)得一個(gè)大語(yǔ)言模型像是一個(gè)真正的人一樣的臨界值。GPT-3.5 接近這個(gè)數(shù)值，所以人們被它大大地震驚住了。而 GPT-4 遠(yuǎn)遠(yuǎn)超越了這個(gè)值。

而百度的文心一言，只有 8%。路漫漫其修遠(yuǎn)矣。

給百度研發(fā)團(tuán)隊(duì)的一點(diǎn)小建議

不懂 NLP 的吃瓜群眾，其實(shí)對(duì)百度 NLP 團(tuán)隊(duì)做出的努力，一無(wú)所知。我說(shuō)個(gè)事實(shí)，大家就明白了。在中文自然語(yǔ)言處理領(lǐng)域，百度提供的 NLP 開(kāi)源項(xiàng)目是數(shù)量最多的、維護(hù)最勤奮的、質(zhì)量最好的。包括我?guī)ш?duì)研發(fā)的寫(xiě)匠項(xiàng)目，調(diào)用的也是百度 NLP 團(tuán)隊(duì)開(kāi)發(fā)的分詞開(kāi)源包。

但是，文心一言表現(xiàn)這樣，我覺(jué)得還是無(wú)法簡(jiǎn)簡(jiǎn)單單地用研發(fā)時(shí)間不足來(lái)解釋、產(chǎn)品是第一版上線來(lái)敷衍。這類(lèi)話可能是拿來(lái)敷衍李老板可以，但是敷衍全球同行是非常危險(xiǎn)的。

我深深懷疑，百度該項(xiàng)目的研發(fā)團(tuán)隊(duì)，極可能走錯(cuò)路線了。作為一名既懂認(rèn)知科學(xué)又懂 NLP 的從業(yè)者，我覺(jué)得，以百度的技術(shù)實(shí)力，表現(xiàn)不至于這樣。極可能是團(tuán)隊(duì)領(lǐng)導(dǎo)者定錯(cuò)目標(biāo)了：拿到盡可能多的知識(shí)單元。

所以，新品發(fā)布會(huì)上，從 CEO 到 CTO，兩位專(zhuān)家，還在拿百度擁有全球最大的中文知識(shí)單元說(shuō)事。

但是，這壓根不是 GPT-4 令人震驚的原因?。。。?/p>

GPT-4 這類(lèi)產(chǎn)品真正令人震驚的是，從 GPT-3.5 開(kāi)始，它真的像一個(gè)人類(lèi)了。

這才是形成全球性碾壓式傳播的根本。

這是完全不同的另一種開(kāi)發(fā)目標(biāo)。也就是，如何讓 GPT-3.5 更像是一個(gè)人類(lèi)，能夠更快地自我學(xué)習(xí)、自我糾錯(cuò)。

中文知識(shí)單元的數(shù)量，在這個(gè)事情上毫無(wú)意義啊。

好比，我們要教會(huì)一個(gè)三歲的小朋友盡快學(xué)會(huì)說(shuō)話，這個(gè)時(shí)候，有兩個(gè)重要任務(wù)：

1）生命：讓她盡快明白語(yǔ)義、語(yǔ)音之間的各類(lèi)規(guī)則以及如何用語(yǔ)義、語(yǔ)音表達(dá)一個(gè)物理世界。

2）生態(tài)：我們是想方設(shè)法給她在家里創(chuàng)造一個(gè)有助于孩子學(xué)說(shuō)話的生態(tài)。比如，我雇傭阿姨帶小美妞的時(shí)候，第一考慮就是這阿姨愛(ài)不愛(ài)說(shuō)話，外不外向。顯然，一個(gè)喜歡說(shuō)話、外向的阿姨，更容易帶動(dòng)小美妞說(shuō)話。

結(jié)果，百度該項(xiàng)目團(tuán)隊(duì)的做法好比是，直接給一個(gè)三歲的小朋友扔了一千萬(wàn)噸詞典，你背著詞典走路吧。

生命何在？生態(tài)何在？

如果始終沿著這條技術(shù)路線走下去，我懷疑在 OpenAI 團(tuán)隊(duì)開(kāi)源之前，不可能產(chǎn)生一個(gè)近似于數(shù)字生命的產(chǎn)品。

而 OpenAI 團(tuán)隊(duì)是將大語(yǔ)言模型當(dāng)作真正的生命來(lái)對(duì)待，從構(gòu)建一個(gè)數(shù)字生命的基本機(jī)制開(kāi)始設(shè)計(jì)，一切工作都是圍繞兩個(gè)基本出發(fā)點(diǎn)：

1）生命：盡量促進(jìn)“智能”的自發(fā)涌現(xiàn)；

2）生態(tài)：盡量設(shè)計(jì)一個(gè)促進(jìn)有助“智能”誕生并發(fā)育的生態(tài)。

在早期，這個(gè)數(shù)字生命很幼稚，但過(guò)了千億參數(shù)級(jí)別之后，很多早期打好的良好基礎(chǔ)，就會(huì)帶來(lái)極其多的“智能”涌現(xiàn)。好比小朋友從三歲學(xué)說(shuō)話，長(zhǎng)大之后，流利使用語(yǔ)言完成諸多大事。

我們不能在還沒(méi)有涌現(xiàn)“智能”之前，就急匆匆地去賣(mài)應(yīng)用、搞數(shù)據(jù)對(duì)接。那壓根與 GPT-4 不是一類(lèi)產(chǎn)品啊。

我們究竟要的是一個(gè)數(shù)字生命，以及這個(gè)新興的數(shù)字生命與生態(tài)帶來(lái)的新世界；還是又多了一個(gè)更方便地查詢(xún)知識(shí)單元的工具。

我相信答案不言而喻。

正如我七年前在文章：認(rèn)知科學(xué)看人工智能文末所寫(xiě)的一樣：

其實(shí)，不可思議之事才是硅谷與中關(guān)村的區(qū)別。創(chuàng)業(yè)者生來(lái)當(dāng)作不可思議之事，而非可以看見(jiàn)未來(lái)的事。

這份小小報(bào)告及建議，希望對(duì)如今蜂擁而入大語(yǔ)言模型研發(fā)領(lǐng)域的團(tuán)隊(duì)，略有啟發(fā)。也期待中國(guó)誕生足夠多、足夠好的數(shù)字生命，帶著國(guó)人一起步入新世界。

陽(yáng)志平
本文使用寫(xiě)匠創(chuàng)作，2023-03-18

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：平常心 > 《新興產(chǎn)業(yè)》

舉報(bào)/認(rèn)領(lǐng)