小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

ChatGPT之后,下一代大型語言模型在哪里?

 小飛俠cawdbof0 2023-05-30 發(fā)布于北京


轉(zhuǎn)自:圖靈人工智能
來源:學術(shù)頭條
圖片

導(dǎo)讀:ChatGPT的爆火,讓大語言模型受到了人們的關(guān)注,然而這些來自不同公司的大語言模型,像OpenAI的GPT-3、Google的PaLM或LaMDA、Meta的Galactica或OPT等,都是在相同的基本方式上構(gòu)建的,都是基于Transformer構(gòu)建的自回歸、自我監(jiān)督、預(yù)訓(xùn)練、密集激活模型。雖然各種大模型表現(xiàn)類似驚人的能力,但目前的人工智能遠遠沒有到達其能力的終點。

那么未來大語言模型的出路在哪里?The Next Generation Of Large Language Models(下一代大語言模型)根據(jù)一些最新的研究結(jié)果提出了一些猜想。比如大模型可以產(chǎn)生訓(xùn)練數(shù)據(jù)來用于改善自己;大模型可以核查確認事實;海量稀疏專家模型等。該文由Radical Ventures的合伙人,同樣也是You.com的投資者Rob Toews撰寫,并發(fā)表在最近一期的福布斯雜志。

也許您還沒有聽說過,人工智能是最熱門的新事物。

如今,從硅谷到達沃斯,每一位風險投資家、企業(yè)家、財富 《500》 強首席執(zhí)行官和記者都在談?wù)撋扇斯ぶ悄堋?/p>

對于那些在 2022 年開始真正關(guān)注 AI 的人來說,他們認為像ChatGPT 和 Stable Diffusion 這樣的技術(shù)似乎是憑空冒出來,席卷了全球。

早在 2020 年,我們就在本專欄寫過一篇文章,預(yù)測生成式 AI 將成為下一代人工智能的支柱之一。

至少自2019 年GPT-2 發(fā)布以來,該領(lǐng)域的工作人員已經(jīng)清楚,生成語言模型有望引發(fā)巨大的經(jīng)濟和社會變革。同樣,雖然文本到圖像模型去年夏天才引起公眾的注意,但自 OpenAI 于 2021年1 月發(fā)布最初的DALL-E以來,該技術(shù)的優(yōu)勢似乎已經(jīng)不可避免地。

出于同樣的原因,重要的是要記住,人工智能的當前技術(shù)水平遠未達到人工智能能力的最終狀態(tài)。相反,人工智能領(lǐng)域的發(fā)展從未像現(xiàn)在這樣快速。盡管 ChatGPT 目前在我們看來令人驚嘆,但它只是下一步的墊腳石。

下一代大型語言模型 (LLMs) 會是什么樣子?這個問題的答案已經(jīng)存在,目前正在人工智能初創(chuàng)公司和研究小組的開發(fā)中。

本文重點介紹了三個新興領(lǐng)域,它們將有助于定義生成式 AI 和 LLM 的下一波創(chuàng)新浪潮。對于那些希望在這個瞬息萬變的世界中保持領(lǐng)先地位的人來說,請繼續(xù)閱讀:

01、可以自己生成訓(xùn)練數(shù)據(jù)以提高自己的模型


     


想想人類是如何思考和學習的。我們從外部信息來源收集知識和觀點——比如,通過閱讀一本書。但我們也會通過思考一個話題或思考一個問題,自己產(chǎn)生新穎的想法和見解。我們能夠通過內(nèi)部反思和分析來加深對世界的理解,而不直接依賴于任何新的外部輸入。

人工智能研究的一條新途徑旨在使大型語言模型能夠做類似的事情,有效地引導(dǎo)它們自己的智能。

作為他們培訓(xùn)的一部分,今天的 LLMs 吸收了世界上積累的大部分書面信息(例如,維基百科、書籍、新聞文章)。如果這些模型一旦經(jīng)過訓(xùn)練,就可以使用它們從這些來源吸收的所有知識來生成新的書面內(nèi)容,然后將這些內(nèi)容用作額外的訓(xùn)練數(shù)據(jù)來改進自己,那會怎樣?初步研究表明,這種方法可能可行且功能強大。

在最近的一項名為“大型語言模型可以自我改進”的研究工作中, Google 的一組研究人員構(gòu)建了一個 LLM,它可以提出一組問題,為這些問題生成詳細的答案,并過濾自己的答案以獲取最高質(zhì)量的輸出,然后根據(jù)精選的答案進行自我微調(diào)。值得注意的是,這導(dǎo)致了各種語言任務(wù)最新的最先進的性能。例如,該模型在 GSM8K 上的性能從 74.2% 提高到 82.1%,在 DROP 上從78.2% 提高到 83.0%,這兩個流行的標準用于評估LLM 性能。

最近的另一項工作建立在稱為“指令微調(diào)”的重要 LLM 方法的基礎(chǔ)上,它是ChatGPT 等產(chǎn)品的核心。ChatGPT 和其他指令微調(diào)模型依賴于人工編寫的指令,而該研究小組構(gòu)建了一個模型,可以生成自己的自然語言指令,然后根據(jù)這些指令進行自我微調(diào)。性能提升非常顯著:這種方法將基礎(chǔ) GPT-3 模型的性能提高了 33%,幾乎與 OpenAI 自己的指令調(diào)優(yōu)模型的性能相當。

在一項與主題相關(guān)的工作中,來自谷歌和卡內(nèi)基梅隆大學的研究人員表明,如果一個大型語言模型在遇到問題時,在回答之前先背誦它對該主題的了解,,它會提供更準確和復(fù)雜的回答。這可以粗略地類比為一個人在談話中,他不會不是脫口而出關(guān)于某個話題的第一個想法,而是在分享觀點之前搜索她的記憶并反思她的信念。

當人們第一次聽說這方面的研究時,往往會產(chǎn)生一個概念上的異議——這難道不是循環(huán)的嗎?模型如何生成數(shù)據(jù),然后使用這些數(shù)據(jù)來改進自身?如果新數(shù)據(jù)首先來自模型,那么它包含的“知識”或“信號”不應(yīng)該已經(jīng)包含在模型中了嗎?

如果我們將大型語言模型設(shè)想為數(shù)據(jù)庫,存儲訓(xùn)練數(shù)據(jù)中的信息,并在出現(xiàn)提示時以不同的組合再現(xiàn)這些信息,那么這種反對意見是有道理的。但是——盡管聽起來讓人不舒服,甚至令人毛骨悚然——我們最好還是按照人腦的思路來構(gòu)想大型語言模型(不,這個類比當然不完美?。?。

我們?nèi)祟悘氖澜缟衔樟舜罅繑?shù)據(jù),這些數(shù)據(jù)以不可估量、無數(shù)的方式改變了我們大腦中的神經(jīng)連接。通過反省、寫作、交談——有時只是睡個好覺——我們的大腦就能產(chǎn)生新的見解,這是我們以前從未有過的,也沒有出現(xiàn)在世界上任何信息源中。如果我們將這些新的見解內(nèi)化,它們可以讓我們變得更聰明。

鑒于世界可能很快就會用完文本訓(xùn)練數(shù)據(jù),LLM 可以生成自己的訓(xùn)練數(shù)據(jù)的想法尤為重要。這還不是一個廣為人知的問題,但卻是許多人工智能研究人員擔心的問題。

據(jù)估計,全球可用文本數(shù)據(jù)的總存量在 4.6 萬億到 17.2 萬億個Token之間。這包括世界上所有的書籍、所有的科學論文、所有的新聞文章、所有的維基百科、所有公開可用的代碼,以及互聯(lián)網(wǎng)的大部分經(jīng)過了質(zhì)量過濾的內(nèi)容(例如,網(wǎng)頁、博客、社交媒體)。最近的另一項估計將總數(shù)定為 3.2 萬億Token。

DeepMind 的 Chinchilla 是當今領(lǐng)先的 LLMs之一,接受了 1.4 萬億個Token的訓(xùn)練。

換句話說,我們可能在一個數(shù)量級內(nèi),耗盡世界上所有有用的語言訓(xùn)練數(shù)據(jù)供應(yīng)。

如果大型語言模型能夠生成自己的訓(xùn)練數(shù)據(jù),并使用它來繼續(xù)自我改進,這可能會使迫在眉睫的數(shù)據(jù)短缺變得無關(guān)緊要。對于LLMs來說,這將代表一個令人費解的飛躍。

02、能夠?qū)ψ约哼M行核查的模型


     


最近流行的說法是,ChatGPT 和類似的對話式 LLMs 即將取代 Google 搜索,成為世界上最重要的信息來源,顛覆曾經(jīng)強大的科技巨頭,如 Blockbuster 或 Kodak。

這種敘述嚴重地將事情簡單化了。今天存在的 LLM 永遠不會取代 Google 搜索。為什么不?簡而言之,就是因為今天的LLms在編造東西。

盡管它們很強大,但大型語言模型經(jīng)常會產(chǎn)生不準確、誤導(dǎo)或錯誤的信息(并自信且令人信服地呈現(xiàn))。

ChatGPT 的“幻覺”(這些錯誤陳述被稱為幻覺)的例子比比皆是。這并不是要針對 ChatGPT;目前存在的每一個生成語言模型都以類似的方式產(chǎn)生幻覺。

舉幾個例子:它推薦不存在的書;它堅持認為220 這個數(shù)字小于 200;不確定刺殺Abraham Lincoln’s的兇手在遇刺時是否與林肯在同一個大陸;它對 provides等概念提供了看似合理但不正確的解釋。

大多數(shù)用戶不會接受搜索引擎有時會把這些基本事實搞錯;即使是 99% 的準確率也不足以讓市場廣泛采用。OpenAI 首席執(zhí)行官 Sam Altman 本人也承認這一點,他最近警告說:“ChatGPT 非常有限,但在某些方面已經(jīng)足夠出色,足以給人一種偉大的誤導(dǎo)性印象?,F(xiàn)在依賴它來做任何重要的事情都是錯誤的?!?/p>

LLMs 的幻覺問題是否可以通過對現(xiàn)有架構(gòu)的漸進式改進來解決,或者是否有必要對 AI 方法論進行更基本的范式轉(zhuǎn)變以賦予 AI 常識和真正的理解,這是一個懸而未決的問題。深度學習先驅(qū) Yann LeCun認為是后者。LeCun 的逆向觀點可能被證明是正確的;時間會證明一切。

不過,在近期內(nèi),一組有前途的創(chuàng)新至少可以減輕 LLM 在事實上的不可靠性。這些新方法將為LLM在現(xiàn)實世界中部署準備方面發(fā)揮重要作用。

當前使語言模型更準確的工作的核心是兩個相關(guān)的功能:(1) LLM 從外部來源檢索信息的能力,以及 (2) LLM 為他們提供的信息提供參考和引用的能力。

ChatGPT 僅限于已經(jīng)存儲在其中的信息,在其靜態(tài)權(quán)重中捕獲。(這就是為什么它無法討論 2021 年之后發(fā)生的事件,那時模型被訓(xùn)練。)能夠從外部來源獲取信息將使 LLM 能夠訪問最準確和最新的可用信息,即使當該信息經(jīng)常變化時(例如,公司的股票價格)。

當然,能夠訪問外部信息源本身并不能保證 LLM 將檢索到最準確和相關(guān)的信息。LLM 提高了人類用戶的透明度和信任的一種重要方法是包括對他們從中檢索信息的來源的引用。此類引用允許人類用戶根據(jù)需要審核信息源,以便自己決定其可靠性。

該領(lǐng)域的重要早期工作包括REALM(來自 Google)和RAG(來自 Facebook)等模型,它們均于 2020 年發(fā)布。隨著近幾個月對話式 LLM 的興起,該領(lǐng)域的研究正在迅速加速。

去年,OpenAI發(fā)布了一個名為 WebGPT的 GPT 模型的微調(diào)版本,可以使用 Microsoft Bing 瀏覽互聯(lián)網(wǎng),以便對提示提供更準確和深入的響應(yīng)。WebGPT像人類一樣瀏覽互聯(lián)網(wǎng):它可以向 Bing 提交搜索查詢、跟蹤鏈接、在網(wǎng)頁上上下滾動,并使用 Ctrl+F 等功能查找術(shù)語。當模型在互聯(lián)網(wǎng)上找到相關(guān)信息并將其合并到輸出中時,它會提供引用,以便人類用戶可以看到信息的來源。

結(jié)果是令人鼓舞的:對于相同的查詢,WebGPT 的響應(yīng)在 56% 的情況下優(yōu)于人類受試者編寫的響應(yīng),在 69% 的情況下優(yōu)于 Reddit 上評分最高的響應(yīng)。

DeepMind 也在沿著這些方向進行研究。幾個月前,DeepMind 發(fā)布了一個名為Sparrow的新模型。與 ChatGPT 一樣,Sparrow 也是基于對話的;與 WebGPT 一樣,它可以在互聯(lián)網(wǎng)上搜索信息并為其斷言提供引用。Sparrow 建立在 DeepMind 早期的重要工作之上,包括SpaLM、RETRO和GopherCite。

圖片

DeepMind的 Sparrow 模型正在運行。如此處所示,Sparrow 提供報價和鏈接以支持...

DeepMind 的研究人員發(fā)現(xiàn),Sparrow的引用在 78% 的情況下是有用且準確的——這表明這種研究方法很有前途,而 LLM 不準確的問題遠未解決。

包括 You.com 和 Perplexity在內(nèi)的年輕的初創(chuàng)公司最近也推出了 LLM 支持的對話搜索界面,能夠從外部來源檢索信息并引用參考文獻。這些產(chǎn)品今天可供公眾使用。

LLM最大的缺點是他們不可靠,他們固執(zhí)地傾向于自信地提供不準確的信息。語言模型有望重塑我們經(jīng)濟的每個部門,但在這個問題得到解決之前,它們永遠無法發(fā)揮其全部潛力。預(yù)計在未來幾個月內(nèi),我們將會在該領(lǐng)域看到大量活動和創(chuàng)新。

03、 海量稀疏專家模型


     


當今最著名的大型語言模型實際上都具有相同的架構(gòu)。

Meta AI 負責人 Yann LeCun近日表示:“就底層技術(shù)而言,ChatGPT 并沒有特別的創(chuàng)新。這不是革命性的,盡管這是公眾對它的看法。只是,你知道,它被很好地組合在了一起,做得很好?!?/p>

LeCun 的聲明在Twitter上引發(fā)了大量爭議和辯論。但一個簡單的事實是,他是正確的,任何嚴肅的人工智能研究人員都不會對此提出異議。

當今所有著名的語言模型——例如,來自O(shè)penAI的GPT-3、來自Google的PaLM或LaMDA 、來自 Meta 的Galactica或OPT 、來自Nvidia/Microsoft 的Megatron-Turing、來自 AI21 Labs 的Jurassic-1——都是在相同的基本方式上構(gòu)建的。它們是自回歸、自我監(jiān)督、預(yù)訓(xùn)練、密集激活的基于Transformer的模型。

可以肯定的是,這些模型之間存在差異:它們的大小(參數(shù)計數(shù))、它們訓(xùn)練的數(shù)據(jù)、使用的優(yōu)化算法、批量大小、隱藏層的數(shù)量、它們是否經(jīng)過指令微調(diào)等等.這些變化可以轉(zhuǎn)化為有意義的性能差異。不過,核心架構(gòu)變化不大。

然而,一種有趣的不同的語言模型架構(gòu)方法(稱為稀疏專家模型)正在形成勢頭。雖然這個想法已經(jīng)存在了幾十年,但直到最近才重新出現(xiàn),并開始流行起來。

上面提到的所有模型都是密集的。這意味著每次模型運行時,都會使用它的每一個參數(shù)。例如,每次您向 GPT-3 提交提示時,模型的所有 1750 億個參數(shù)都會被激活以產(chǎn)生響應(yīng)。

但是,如果一個模型能夠僅調(diào)用其參數(shù)中最相關(guān)的子集來響應(yīng)給定的查詢呢?這是稀疏專家模型背后的基本概念。

稀疏模型的定義特征是,它們不會為給定輸入激活所有參數(shù),而是只激活那些有助于處理輸入的參數(shù)。因此,模型稀疏性將模型的總參數(shù)計數(shù)與其計算要求分離開來。這導(dǎo)致了稀疏專家模型的關(guān)鍵優(yōu)勢:與密集模型相比,它們可以更大且計算要求更低。

為什么它們被稱為稀疏專家模型?因為稀疏模型可以被認為是由充當不同主題專家的“子模型”的集合組成的。根據(jù)提供給模型的提示,模型中最相關(guān)的專家被激活,而其他專家保持不活動狀態(tài)。例如,用俄語提出的提示只會激活模型中可以用俄語理解和回應(yīng)的“專家”,從而有效地繞過模型的其余部分。

當今所有最大的 LLM 都是稀疏的。如果你遇到一個參數(shù)超過 1 萬億的 LLM,你可以放心地假設(shè)它是稀疏的。這包括谷歌的Switch Transformer(1.6萬億參數(shù))、谷歌的GLaM(1.2 萬億參數(shù))和 Meta 的mix of Experts模型(1.1 萬億參數(shù))。

“AI 最近的大部分進展都來自于訓(xùn)練越來越大的模型,”Mikel Artetxe 說,他曾領(lǐng)導(dǎo) Meta 對稀疏模型的研究,然后辭職與他人共同創(chuàng)立了一家秘密的 LLM 初創(chuàng)公司。“例如,GPT-3 比 GPT-2 大 100 倍以上。但是,當我們將密集模型的大小擴大一倍時,我們也會使其速度加倍。稀疏模型使我們能夠在不增加運行時間的情況下訓(xùn)練更大的模型?!?/p>

最近對稀疏專家模型的研究表明,這種架構(gòu)具有巨大的潛力。

谷歌去年開發(fā)的稀疏專家模型GLaM 比GPT-3 大 7 倍,訓(xùn)練所需能量減少三分之二,推理所需計算量減少一半,并且在廣泛的自然語言方面優(yōu)于 GPT-3?;?Meta 的稀疏模型上進行的類似工作也產(chǎn)生了類似的有希望的結(jié)果。

正如 Meta 研究人員總結(jié)的那樣:“我們發(fā)現(xiàn)稀疏模型可以在一小部分計算量上實現(xiàn)與密集模型相似的下游任務(wù)性能。對于計算預(yù)算相對適中的模型,稀疏模型的性能可與需要幾乎四倍計算量的密集模型相提并論。”

值得一提的是,稀疏專家模型的另一個好處是:它們比密集模型更具可解釋性。

可解釋性——人類理解模型為什么采取它所做的行動的能力——是當今人工智能最大的弱點之一。總的來說,今天的神經(jīng)網(wǎng)絡(luò)是無法解釋的“黑匣子”。這可能會限制它們在現(xiàn)實世界中的實用性,特別是在醫(yī)療保健等高風險環(huán)境中,人工審查很重要。

稀疏專家模型比傳統(tǒng)模型更自然地具有可解釋性,因為稀疏模型的輸出是模型中可識別的、離散的參數(shù)子集的結(jié)果——即被激活的“專家”。事實上,人類可以更好地從稀疏模型中提取有關(guān)其行為的可理解的解釋,這可能被證明是這些模型在實際應(yīng)用中的決定性優(yōu)勢。

稀疏專家模型如今并未得到廣泛使用。與密集模型相比,它們不太容易被理解,而且在技術(shù)上更復(fù)雜。然而,考慮到它們的潛在優(yōu)勢,尤其是它們的計算效率,看到稀疏專家體系架構(gòu)在未來的 LLM 世界中變得更加普遍就不足為奇了。

用Graphcore 首席技術(shù)官 Simon Knowles 的話來說:“如果 AI 可以做很多事情,它就不需要訪問所有知識來做一件事。這是顯而易見的。這就是你的大腦的工作方式,也是人工智能應(yīng)該的工作方式。如果到明年有人開始構(gòu)建密集的語言模型,我會感到驚訝?!?/p>

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多