小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

賽爾譯文 | 基礎(chǔ)模型的機遇與風險 (一)

 520jefferson 2021-09-17
原文:On the Opportunities and Risks of Foundation Models
鏈接:https:///pdf/2108.07258.pdf
譯者:哈工大 SCIR 張偉男,朱慶福,聶潤澤,牟虹霖,趙偉翔,高靖龍,孫一恒,王昊淳,車萬翔(所有譯者同等貢獻)
轉(zhuǎn)載須標注出處:哈工大 SCIR

編者按:近幾年,預(yù)訓練模型受到了學術(shù)界及工業(yè)界的廣泛關(guān)注,對預(yù)訓練語言模型的大量研究和應(yīng)用也推動了自然語言處理新范式的產(chǎn)生和發(fā)展,進而影響到整個人工智能的研究和應(yīng)用。近期,由斯坦福大學眾多學者聯(lián)合撰寫的文章《On the Opportunities and Risks of Foundation Models》,將該模型定義為基礎(chǔ)模型(Foundation Models),以明確定義其在人工智能發(fā)展過程中的作用和地位。文章介紹了基礎(chǔ)模型的特性、能力、技術(shù)、應(yīng)用以及社會影響等方面的內(nèi)容,以此分析基于基礎(chǔ)模型的人工智能研究和應(yīng)用的發(fā)展現(xiàn)狀及未來之路。鑒于該文章內(nèi)容的前沿性、豐富性和權(quán)威性,我們(哈工大SCIR公眾號)將其翻譯為中文,希望有助于各位對基礎(chǔ)模型感興趣、并想了解其最新進展和未來發(fā)展的讀者。因原文篇幅長達200余頁,譯文將采用連載的方式發(fā)表于哈工大SCIR公眾號,敬請關(guān)注及提出寶貴的意見!

圖片


  1. 引言
    • 涌現(xiàn)和同質(zhì)化
    • 社會影響和基礎(chǔ)模型生態(tài)系統(tǒng)
    • 基礎(chǔ)模型的未來
    • 概述
  2. 能力
  3. 應(yīng)用
  4. 技術(shù)
  5. 社會
  6. 結(jié)論

摘要

隨著在大規(guī)模數(shù)據(jù)上訓練并適配到各種下游任務(wù)的模型(例如,BERT、DALL-E、GPT-3)的興起,人工智能正在經(jīng)歷范式上的轉(zhuǎn)變。我們將這些模型稱為基礎(chǔ)模型,以強調(diào)它們至關(guān)重要但并不完整的特征。本文詳盡地介紹了基礎(chǔ)模型的機遇和風險,包括其能力(例如,語言、視覺、機器人學、推理、人機交互)和技術(shù)原理(例如,模型架構(gòu)、訓練過程、數(shù)據(jù)、系統(tǒng)、安全、評價、理論)、應(yīng)用(例如,法律、醫(yī)療保健、教育)和社會影響(例如,不平等、濫用、經(jīng)濟和環(huán)境影響、法律和倫理影響)。盡管基礎(chǔ)模型基于標準的深度學習和遷移學習,但其規(guī)模導致了新能力的涌現(xiàn),其在眾多任務(wù)中的有效性激勵了同質(zhì)化的產(chǎn)生。同質(zhì)化提供了強大的影響力,但需要謹慎使用,因為基礎(chǔ)模型的缺陷會被所有下游適配模型所繼承。盡管基礎(chǔ)模型即將被廣泛部署,但目前我們對其如何工作、何時失效以及其涌現(xiàn)的特性衍生了何種能力尚缺乏清晰的理解。為解決這些問題,我們相信對于基礎(chǔ)模型的大量關(guān)鍵研究,需要與其基礎(chǔ)社會技術(shù)性質(zhì)相稱的深度跨學科的合作。

1 引言
本文調(diào)研了一種新興范式,基于通用類模型構(gòu)建人工智能(AI)系統(tǒng),我們稱這種模型為基礎(chǔ)模型2。基礎(chǔ)模型是任意的在大規(guī)模數(shù)據(jù)上訓練并且可以適配(例如,微調(diào))廣泛下游任務(wù)的模型;當前的例子包括BERT[Devlin et al. 2019]、GPT-3 [Brown et al. 2020]和CLIP[Radford et al. 2021]。從技術(shù)角度來看,基礎(chǔ)模型并不新鮮—它們基于深度神經(jīng)網(wǎng)絡(luò)和自監(jiān)督學習,兩者都已經(jīng)存在了幾十年。然而,過去幾年基礎(chǔ)模型的龐大規(guī)模和應(yīng)用范圍已經(jīng)超出了我們對其可能性的想象。例如,GPT-3有1750億個參數(shù),盡管沒有在特定任務(wù)上進行明確的訓練,仍可以通過自然語言提示(prompts)適配到特定任務(wù)上,在大多數(shù)任務(wù)上取得了不錯的效果 [Brown et al. 2020]。與此同時,現(xiàn)有的基礎(chǔ)模型可能有潛在的危害性,而且對它們的特性普遍知之甚少。鑒于它們即將被廣泛部署,對基礎(chǔ)模型的嚴格監(jiān)督已成為被廣泛討論的議題[Bender et al. 2021]。

2 我們選擇術(shù)語基礎(chǔ)模型來表示這些模型尚未完成但重要的狀態(tài) — 請參閱 §1.1.1:命名 以進一步討論該名稱。

1.1 涌現(xiàn)和同質(zhì)化
基礎(chǔ)模型的意義可以用兩個詞來概括:涌現(xiàn)和同質(zhì)化。涌現(xiàn)意味著系統(tǒng)的行為是隱式歸納而不是顯式構(gòu)造的;它既帶來科學上的振奮,也引起了對意外后果的焦慮。同質(zhì)化指出了在廣泛的應(yīng)用中構(gòu)建機器學習系統(tǒng)的方法論的合集;它為許多任務(wù)提供了強大的支撐,但也會產(chǎn)生故障點。為了更好地理解涌現(xiàn)和同質(zhì)化,讓我們回顧一下過去30年來它們在人工智能研究中的崛起。
圖片圖1 人工智能的故事一直是不斷涌現(xiàn)或是不斷同質(zhì)化。隨著機器學習的引入,任務(wù)從例子中學習如何執(zhí)行(自動推斷);通過深度學習,涌現(xiàn)了用于預(yù)測的高級特征;有了基礎(chǔ)模型,甚至涌現(xiàn)了上下文學習等高級功能。與此同時,機器學習使學習算法同質(zhì)化(例如,邏輯回歸),深度學習使模型架構(gòu)同質(zhì)化(例如,卷積神經(jīng)網(wǎng)絡(luò)),基礎(chǔ)模型使模型本身同質(zhì)化(例如,GPT-3)
機器學習 當今大多數(shù)AI系統(tǒng)都是基于機器學習的,其中預(yù)測模型使用歷史數(shù)據(jù)進行訓練對于未來進行預(yù)測。AI中機器學習的興起始于1990年代,代表著AI系統(tǒng)構(gòu)建方式的顯著轉(zhuǎn)變:學習算法不用于如何解決任務(wù),而是基于數(shù)據(jù)來歸納它—即如何從學習的動態(tài)中涌現(xiàn)。機器學習也表現(xiàn)了向同質(zhì)化邁進的一步:現(xiàn)在單一的通用學習算法(例如邏輯回歸)可以為廣泛的應(yīng)用提供支持。
盡管機器學習在AI中無處不在,但自然語言處理(NLP)和計算機視覺中的復(fù)雜任務(wù)諸如問答或目標識別,其中的輸入是句子或圖像,仍然需要領(lǐng)域?qū)<疫M行“特征工程”—即編寫特定領(lǐng)域的邏輯將原始數(shù)據(jù)轉(zhuǎn)換為更高級別的特征(例如,在計算機視覺中的SIFT[Lowe 1999]),這種方式更適合流行的機器學習方法。
深度學習 2010年左右,以深度學習[LeCun et al. 2015]為名的深度神經(jīng)網(wǎng)絡(luò)的復(fù)興開始在機器學習領(lǐng)域獲得關(guān)注。更大的數(shù)據(jù)集、更大的算力(特別是GPU的可用性)和更大膽地探索推動了深度學習。深度神經(jīng)網(wǎng)絡(luò)將在原始輸入數(shù)據(jù)(例如像素)上進行訓練,并在訓練過程中涌現(xiàn)更高級別的特征。這導致了在基準測試中巨大的性能提升,例如,AlexNet[Krizhevsky et al. 2012]在ImageNet數(shù)據(jù)集[Deng et al. 2009]上的開創(chuàng)性工作。深度學習還反映了向同質(zhì)化的進一步轉(zhuǎn)變:與其為每個應(yīng)用定制特征工程流水線,不如將相同的深度神經(jīng)網(wǎng)絡(luò)架構(gòu)用于多種應(yīng)用。
基礎(chǔ)模型 基礎(chǔ)模型最主要是在NLP中被塑造成型,因此我們暫時將故事的重點放在那里。2018年底,NLP領(lǐng)域又一次迎來了翻天覆地的變化,標志著基礎(chǔ)模型時代的開始。在技術(shù)層面上,基礎(chǔ)模型是通過遷移學習[Thrun 1998]和規(guī)?;瘜崿F(xiàn)的。遷移學習的思想是將從一項任務(wù)(例如,圖像中的對象識別)中學到的“知識”應(yīng)用到另一項任務(wù)(例如,視頻中的行為識別)中。在深度學習中,預(yù)訓練是遷移學習的主要方法:在替代性任務(wù)上訓練模型(通常只是作為達到目的的手段),然后通過微調(diào)適配下游感興趣的任務(wù)。遷移學習使基礎(chǔ)模型成為可能,但規(guī)模化使它們強大。規(guī)模化需要三個要素:(i)計算機硬件的改進—例如,GPU吞吐量和內(nèi)存在過去四年中增加了10倍(§4.5:系統(tǒng));(ii)Transformer模型架構(gòu)[Vaswani et al. 2017]的開發(fā),它利用硬件的并行性來訓練比以往更具表現(xiàn)力的模型(§4.1:建模);(iii)更多可用的訓練數(shù)據(jù)。數(shù)據(jù)可用性和利用數(shù)據(jù)的能力的重要性不容小覷。在至少十年中,使用帶標注的數(shù)據(jù)集進行遷移學習已經(jīng)成為普遍做法,例如,計算機視覺社區(qū)在ImageNet數(shù)據(jù)集上進行預(yù)訓練[Deng et al. 2009]用于圖像分類。然而,大量的標注成本在實際中限制了預(yù)訓練模型優(yōu)勢的發(fā)揮。
另一方面,在自監(jiān)督學習中,預(yù)訓練任務(wù)是從未標注的數(shù)據(jù)中自動推導出來的3 。例如,用于訓練BERT[Devlin et al. 2019]的掩碼語言建模任務(wù)是在給定周圍上下文的情況下預(yù)測句子中的缺失詞(例如,我喜歡豆芽)。自監(jiān)督任務(wù)不僅更具可擴展性,僅依賴于未標注的數(shù)據(jù),而且它們旨在強制模型預(yù)測部分輸入,使它們比在有限的標注數(shù)據(jù)上訓練的模型更豐富、更實用。

3 有趣的是,自監(jiān)督學習在深度學習的早期占據(jù)主導地位 [Hinton et al. 2006],但十年來,隨著標注數(shù)據(jù)集變得 越來越大,它在很大程度上被純粹的有監(jiān)督學習所取代。

可以追溯到詞嵌入[Turian et al. 2010; Mikolov et al. 2013; Pennington et al. 2014]的自監(jiān)督學習取得了相當大的進步,它將每個詞與上下文無關(guān)向量相關(guān)聯(lián),為廣泛的NLP模型提供基礎(chǔ)。此后不久,基于自回歸語言建模的自監(jiān)督學習(根據(jù)前一個詞預(yù)測下一個詞)[Dai and Le 2015]開始流行。這產(chǎn)生了在上下文中表示單詞的模型,例如GPT[Radford et al. 2018]、ELMo[Peters et al. 2018]和ULMFiT[Howard and Ruder 2018]4 。

4 有先見之明的工作 Collobert and Weston [2008] 是相關(guān)的:他們與下游任務(wù)聯(lián)合進行了類似于掩碼語言建模的 可擴展任務(wù)的訓練,而不是生成可以事后適配下游任務(wù)的單一基礎(chǔ)模型。

自監(jiān)督學習的下一波發(fā)展浪潮—BERT[Devlin et al. 2019]、GPT-2[Radford et al. 2019]、RoBERTa[Liu et al. 2019]、T5[Raffel et al. 2019]、BART[Lewis et al. 2020]—迅速跟進,采用Transformer架構(gòu),結(jié)合更強大的深度雙向句子編碼器,并擴展到更大的模型和數(shù)據(jù)集。
雖然人們可以純粹地通過自監(jiān)督學習的視角來看待這最后一波技術(shù)發(fā)展,但圍繞 BERT的引入出現(xiàn)了一個社會學拐點。在2019年之前,語言模型的自監(jiān)督學習本質(zhì)上是NLP的子領(lǐng)域,它與NLP其他方面的發(fā)展并行推進。2019年之后,使用語言模型的自監(jiān)督學習更多地成為NLP的基質(zhì),因為使用BERT已成為常態(tài)。對于單個模型可用于如此廣泛任務(wù)的接受標志著基礎(chǔ)模型時代的開始。
基礎(chǔ)模型導致了前所未有的同質(zhì)化水平:幾乎所有最先進的NLP模型現(xiàn)在都源自少數(shù)基礎(chǔ)模型之一,例如BERT、RoBERTa、BART、T5等。雖然這種同質(zhì)化產(chǎn)生了極高的影響力(基礎(chǔ)模型的任何改進都可以為所有NLP任務(wù)帶來直接的好處),但它也是一種負擔;所有人工智能系統(tǒng)都可能繼承一些與基礎(chǔ)模型相同的錯誤偏置 [Bolukbasi et al. 2016; Caliskan et al. 2017; Abid et al. 2021, inter alia])—詳見 §5.1:公平,§5.6:倫理的討論。我們也開始看到跨研究社區(qū)的同質(zhì)化。例如,類似的基于Transformer的序列建模方法現(xiàn)在被應(yīng)用于文本[Devlin et al. 2019; Radford et al. 2019; Raffel et al. 2019]、圖像[Dosovitskiy et al. 2020; Chen et al. 2020b]、語音 [Liu et al. 2020]、表格數(shù)據(jù) [Yin et al. 2020]、蛋白質(zhì)序列[Rives et al. 2021]、有機分子[Rothchild et al. 2021]和強化學習[Chen et al. 2021a; Janner et al. 2021]。這些例子表明,未來我們將擁有一套統(tǒng)一的工具來開發(fā)各種模態(tài)的基礎(chǔ)模型[Tamkin et al. 2021]。
圖片圖2 基礎(chǔ)模型可以集中來自各種模態(tài)的所有數(shù)據(jù)的信息,然后這個統(tǒng)一模型可以適配各種下游任務(wù)。
除了方法上的同質(zhì)化,我們還看到了跨研究社區(qū)實際模型上的同質(zhì)化。其形式為多模態(tài)模型,例如基于語言和視覺數(shù)據(jù)訓練的基礎(chǔ)模型[Luo et al. 2020; Kim et al. 2021; Cho et al. 2021; Ramesh et al. 2021; Radford et al. 2021]。數(shù)據(jù)在某些領(lǐng)域天然是多模態(tài)的—例如醫(yī)療圖像、結(jié)構(gòu)化數(shù)據(jù)、醫(yī)療中的臨床文本(§3.1:醫(yī)療保健)。因此,多模態(tài)基礎(chǔ)模型是融合領(lǐng)域的所有相關(guān)信息并適配跨越多種模態(tài)任務(wù)的一種自然方法(圖2)。
基礎(chǔ)模型通過(巨大的)規(guī)模也產(chǎn)生了令人驚異的涌現(xiàn)效果。例如,與GPT-2的15 億個參數(shù)相比,GPT-3[Brown et al. 2020]有1750億個參數(shù),并可以進行語境學習。通過向其語言模型提供提示(prompt)(一條對任務(wù)的自然語言描述)就可以讓其適配下游任務(wù)。這種提示是一種既沒有經(jīng)過專門訓練也不被期望在數(shù)據(jù)中出現(xiàn)的涌現(xiàn)屬性。
同質(zhì)化和涌現(xiàn)以一種可能難以預(yù)料的方式相互作用。同質(zhì)化可能為許多限定任務(wù)領(lǐng)域提供巨大的收益,這些領(lǐng)域的數(shù)據(jù)通常非常缺乏。—詳情參閱多個此類領(lǐng)域中出現(xiàn)的機會(如§3.1:醫(yī)療保健,§3.2:法律,§3.3:教育);另一方面,模型中的任何缺陷都會被所有適配好的模型盲目繼承(§5.1:公平,§5.6:倫理)。由于基礎(chǔ)模型的力量來自于它們的涌現(xiàn)性質(zhì)而不是它們的顯式構(gòu)造,現(xiàn)有的基礎(chǔ)模型難以理解(§4.4:評價,§4.10:理論,§4.11:可解釋性),并且具有難以預(yù)料的錯誤模式(§4.7:安全,§4.8:魯棒性)。由于涌現(xiàn)對基礎(chǔ)模型的能力和缺陷造成了很大的不確定性,對這些模型激進的同質(zhì)化是有風險的。從倫理(§5.6倫理)和人工智能安全(§4.9:人工智能安全)的角度來看,去風險是進一步開發(fā)基礎(chǔ)模型的核心挑戰(zhàn)。

圖片

圖3 在推斷基礎(chǔ)模型的社會影響之前,首先要了解它們是從數(shù)據(jù)創(chuàng)建到部署的更廣泛生態(tài)系統(tǒng)的一部分。在兩端,我們都強調(diào)了人是訓練基礎(chǔ)模型的最終數(shù)據(jù)來源,同時也是任何利益和危害的下游接收者。周到的數(shù)據(jù)管理和適配應(yīng)該是任何負責任的人工智能系統(tǒng)開發(fā)的一部分。最后需要注意的是,適配好的基礎(chǔ)模型的部署與其構(gòu)建是不同的過程,后者可以被用于研究。

1.1.1 命名
我們引入術(shù)語基礎(chǔ)模型來描述我們正在見證的范式轉(zhuǎn)變,并簡要介紹我們做出這一決定的一些理由?,F(xiàn)有術(shù)語(如預(yù)訓練模型、自監(jiān)督模型)部分地捕捉到了這些模型的技術(shù)維度,但不能以機器學習領(lǐng)域以外的人可以理解的方式捕捉到范式轉(zhuǎn)變的重要性。語言模型太窄:正如我們所描述的,基礎(chǔ)模型的范圍遠遠超出了語言。我們還考慮了通用模型和多用途模型等術(shù)語,它們捕捉了這些模型可以服務(wù)于多個下游任務(wù)的重要方面,但都未能捕捉到它們并未完成、需要在下游任務(wù)上適配的特性。諸如任務(wù)無關(guān)模型之類的術(shù)語能捕捉到模型訓練的方式,但無法刻畫其對下游應(yīng)用的重要作用。
我們選擇了新的術(shù)語基礎(chǔ)模型來描述作為本報告主題的模型和新興范式。特別地,“基礎(chǔ)”一詞指定了這些模型所扮演的角色:基礎(chǔ)模型本身是不完整的,但作為通用基礎(chǔ),許多限定任務(wù)的模型是通過對其適配而構(gòu)建的。我們還選擇了“基礎(chǔ)”一詞來凸顯架構(gòu)穩(wěn)定性、安全性的重要性:草草搭建的基礎(chǔ)是災(zāi)難的根源,而良好構(gòu)建的基礎(chǔ)是未來應(yīng)用的可靠基石。目前,我們并不完全了解基礎(chǔ)模型所提供的基礎(chǔ)的性質(zhì)或質(zhì)量;我們無法描述基礎(chǔ)是否是可靠的。因此,對于依賴基礎(chǔ)模型的研究人員、基礎(chǔ)模型提供商、應(yīng)用開發(fā)人員、政策制定者和整個社會來說,這是一個關(guān)鍵問題。
1.2 社會影響和基礎(chǔ)模型生態(tài)系統(tǒng)
基礎(chǔ)模型因其令人印象深刻的表現(xiàn)和能力而在科學上引起了興趣,但使它們成為研究的關(guān)鍵是它們正在迅速被部署到現(xiàn)實的AI系統(tǒng)應(yīng)用中,并對人們產(chǎn)生了深遠的影響。例如,擁有40億用戶的Google搜索現(xiàn)在依賴于BERT[Devlin et al. 2019]等基礎(chǔ)模型5。

5 https://blog.google/products/search/search-language-understanding-bert/

我們必須停下來問問:這種社會影響的本質(zhì)是什么?在本報告中,我們解決了這個問題的許多方面:社會不平等的潛在加劇(§5.1:公平)、模型能力增加對經(jīng)濟的影響(§5.5:經(jīng)濟)、計算需求增加對環(huán)境的影響(§5.3:環(huán)境)、放大虛假信息的潛在問題(§5.2:濫用)、強大的生成能力導致的法律后果(§5.4:合法性),同質(zhì)化導致的倫理問題,以及在開發(fā)和部署基礎(chǔ)模型背景下的更廣泛的政治經(jīng)濟影響(§5.6:倫理)。鑒于基礎(chǔ)模型的多變性質(zhì)及其未開發(fā)的能力,我們?nèi)绾呜撠熑蔚仡A(yù)測和解決它們引起的倫理和社會問題?一個反復(fù)出現(xiàn)的話題是,討論部署到特定用戶的特定系統(tǒng)的社會影響比討論基礎(chǔ)模型的社會影響更容易,基礎(chǔ)模型可以適用于任何數(shù)量的不可預(yù)見的下游系統(tǒng)。
在嘗試回答這些問題之前,我們需要做一些基礎(chǔ)工作。首先,讓我們區(qū)分一下基礎(chǔ)模型的研究和基礎(chǔ)模型的部署。大多數(shù)公開的是基礎(chǔ)模型研究—體現(xiàn)在學術(shù)論文、演示和排行榜上的進展。雖然知識的產(chǎn)出可以在塑造未來方面發(fā)揮至關(guān)重要的作用,但直接的社會影響是通過這些模型的實際部署產(chǎn)生的,這些模型通常是在私有數(shù)據(jù)上訓練的專有實現(xiàn)。部署有時是采用新的學術(shù)工作,如GitHub的Copilot6基于OpenAI的Codex模型[Chen et al. 2021b],但通常是升級現(xiàn)有學術(shù)工作(例如,使用BERT的Google搜索)。一方面,研究模型通常沒有經(jīng)過廣泛的測試,可能有未知的錯誤模式,警告標簽應(yīng)該被放在不適合部署的研究模型上;另一方面,實際影響人們生活的已部署基礎(chǔ)模型應(yīng)該接受更嚴格的測試和審計。

6 https://copilot.github.com/

為了進一步理解基礎(chǔ)模型的研究和部署,我們必須縮小范圍并考慮這些基礎(chǔ)模型所在的完整生態(tài)系統(tǒng),從數(shù)據(jù)創(chuàng)建到實際部署。需要注意的是,基礎(chǔ)模型只是AI系統(tǒng)的一個組成部分(盡管是越來越重要的組成部分)。簡而言之,我們可以從不同階段的角度來考慮基礎(chǔ)模型的生態(tài)系統(tǒng),擴展之前的訓練和適配階段7。由于人占據(jù)了整個階段過程的兩端,我們對社會影響更感興趣。這種對于生態(tài)系統(tǒng)的思考使我們能夠意識到,關(guān)于基礎(chǔ)模型的不同問題(例如,基礎(chǔ)模型是否合乎倫理)實際上應(yīng)該在不同階段得到回答。

7 在實踐中,生態(tài)系統(tǒng)的最后是監(jiān)控機制,得到的反饋用于重新調(diào)整之前的階段。

(1)  數(shù)據(jù)創(chuàng)建:數(shù)據(jù)創(chuàng)建從根本上講是一個以人為中心的過程:所有數(shù)據(jù)都是由人創(chuàng)建的,并且大多數(shù)數(shù)據(jù)至少隱式的與人有關(guān)。有時數(shù)據(jù)是由人們以電子郵件、文章、照片等形式為他人創(chuàng)建的,而有時它是對人體的衡量(例如基因組數(shù)據(jù))或?qū)θ藗兩瞽h(huán)境的測量(例如衛(wèi)星圖像)。更需要注意的是,所有數(shù)據(jù)都有一個所有者,并且它們的創(chuàng)建都是有目的性的(該目的可能包括也可能不包括訓練基礎(chǔ)模型)。
(2)  數(shù)據(jù)整理:然后將數(shù)據(jù)整理為數(shù)據(jù)集。數(shù)據(jù)沒有單一的自然分布;即使從互聯(lián)網(wǎng)爬取的數(shù)據(jù)也需要一些選擇和后過濾。在遵從法律和倫理約束的同時確保數(shù)據(jù)的相關(guān)性和質(zhì)量是至關(guān)重要的,但同時也是具有挑戰(zhàn)性的。雖然這在業(yè)界中得到了認可,但在AI研究中卻沒有得到充分重視(§4.6:數(shù)據(jù)).
(3)  訓練:在這些整理好的數(shù)據(jù)集上訓練基礎(chǔ)模型8是AI研究中的核心部分,盡管它只是眾多階段中的一個。

8 一個基礎(chǔ)模型 (例如 Codex) 在訓練時以另一個基礎(chǔ)模型 (例如 GPT-3) 為起點。

(4)  適配:在機器學習研究的背景下,適配是在某些任務(wù)上(例如,文檔摘要),基于基礎(chǔ)模型創(chuàng)建一個新模型。對于部署,適配是創(chuàng)建一個系統(tǒng),它可能需要許多不同的模塊、自定義規(guī)則(例如,對輸出空間的限制)或分類器(例如,用于毒性分類),以及與其他信息的互補(例如,一個問答模型生成的答案將根據(jù)相關(guān)文檔進行驗證)。例如,如果在下游采取適當?shù)念A(yù)防措施,一個產(chǎn)生錯誤預(yù)測存在問題的模型是可以被接受的。額外的限定應(yīng)用適配邏輯對于減輕危害是至關(guān)重要的。
(5)  部署:人工智能系統(tǒng)在部署供人類使用時,會產(chǎn)生直接的社會影響。盡管我們不想部署那些在有問題的數(shù)據(jù)上訓練得到的有潛在危害的基礎(chǔ)模型,但允許它們在研究中存在以促進科學理解,可能仍然是有價值的,但人們?nèi)匀槐仨氈斏餍惺?。更一般地說,大規(guī)模部署的標準做法是逐步發(fā)布,其中部署發(fā)生在越來越多的用戶身上;這可以部分減輕任何潛在的危害。
雖然本報告是關(guān)于基礎(chǔ)模型的,但重要的是,許多影響來自生態(tài)鏈中其他階段的決策,并且每個階段都需要深思熟慮的監(jiān)測和干預(yù)。雖然大型組織機構(gòu)可能擁有整個生態(tài)鏈,但每個階段都可以由不同的組織執(zhí)行,例如,一家在各領(lǐng)域為用戶提供定制模型的公司,這些模型可被應(yīng)用開發(fā)人員使用。
思考生態(tài)系統(tǒng)和評估模型 雖然社會影響取決于整個生態(tài)系統(tǒng),但考慮到許多研究人員和從業(yè)者的關(guān)注點僅限于訓練階段,因此能夠推出基礎(chǔ)模型的社會影響仍然很重要。完成這一過程是很困難的,因為基礎(chǔ)模型是未完成的中間對象,可以適配許多下游應(yīng)用,并且有時又是用于不可預(yù)見目標的完全不同實體。我們需要的是兩件事:(i)一組具有代表性的潛在下游評估的替代指標(§4.4:評價),以及(ii)記錄這些指標[Mitchell et al. 2019],類似于金屬和塑料等材料的數(shù)據(jù)表,可適用于許多下游用例。
表征基礎(chǔ)模型的潛在下游社會影響具有挑戰(zhàn)性,需要對技術(shù)生態(tài)系統(tǒng)和社會都有深入的了解。如果不了解如何部署基礎(chǔ)模型,就無法完全評估其危害(§5.1:公平),也無法在不考慮豐富的社會和歷史背景的情況下定義評價指標。
1.3 基礎(chǔ)模型的未來
基礎(chǔ)模型已經(jīng)展示了初步潛力,但我們?nèi)蕴幱谠缙陔A段。盡管它們被部署到現(xiàn)實世界中,但這些模型在很大程度上還是研究原型,人們對其知之甚少。甚至圍繞基礎(chǔ)模型的專業(yè)規(guī)范—羅伯特·默頓所說的科學精神[Merton 1979]—也不發(fā)達。例如,在諸如模型何時“安全”發(fā)布或社區(qū)應(yīng)如何應(yīng)對某些不當方法等基本問題上缺乏共識。鑒于基礎(chǔ)模型的未來充滿不確定性,一個大問題是:誰來決定這個未來?
學科多樣性 基礎(chǔ)模型背后的技術(shù)基于機器學習、優(yōu)化、NLP、計算機視覺和其他領(lǐng)域數(shù)十年的研究。這些技術(shù)貢獻來自學術(shù)界和工業(yè)界的研究實驗室。然而,構(gòu)建基礎(chǔ)模型本身的研究幾乎只發(fā)生在工業(yè)界—谷歌、Facebook、微軟或華為等大型科技公司,或OpenAI、AI21 Labs等初創(chuàng)公司,盡管AI2是一個明顯的例外[Peters et al. 2018; Zellers et al. 2019]。
技術(shù)進步的迅猛步伐和中心化造成的壁壘引起了強烈的關(guān)注,除了技術(shù)學家之外,還需要人文主義者和社會科學家的關(guān)注。我們不應(yīng)該依賴于倫理和社會后果的事后審計,只有在做出技術(shù)架構(gòu)和部署決策之后才進行。相反,我們需要從一開始就將社會影響和倫理設(shè)計深深地融入基礎(chǔ)模型及其周圍生態(tài)系統(tǒng)的技術(shù)開發(fā)中。學術(shù)機構(gòu)的獨特之處在于它們將最廣泛的學科集中在一個屋檐下,從而將計算機科學家、社會科學家、經(jīng)濟學家、倫理學家、法律學者等聚集在一起。鑒于學科多樣性在理解和解決綜合技術(shù)、倫理、法律、社會和政治多方面問題的重要性 [Hong and Page 2004; Solomon 2006; Steel et al. 2018],因此我們認為學術(shù)界在開發(fā)基礎(chǔ)模型方面發(fā)揮著至關(guān)重要的作用,以促進其社會效益和減輕其社會危害,以及確定生態(tài)系統(tǒng)每個階段采取行動的背景(§1.2:生態(tài)系統(tǒng))從數(shù)據(jù)管理到部署都應(yīng)該被嚴格管控。
激勵 基礎(chǔ)模型的設(shè)計、開發(fā)和部署階段帶來的政治經(jīng)濟學效應(yīng)為每個階段的決策提供了不可避免的激勵結(jié)構(gòu)。人們和機構(gòu)如何對激勵做出反應(yīng)是經(jīng)濟學的基本課程。市場驅(qū)動的商業(yè)激勵可以很好地與社會效益保持一致:在搜索各種潛在用例的同時,使基礎(chǔ)模型更加準確、可靠、安全和高效,可以產(chǎn)生大量的社會效用。然而,商業(yè)激勵也可能導致市場失活和在股東無法獲得創(chuàng)新價值的領(lǐng)域投資不足的問題。正如制藥業(yè)幾乎沒有動力將大量資源投入到瘧疾治療的研究和開發(fā)中,因為窮人買不起藥9,科技行業(yè)也沒有動力將大量資源投入到旨在改善貧困和邊緣化狀況的技術(shù)上[Reich et al. 2021]。此外,商業(yè)激勵可能導致公司忽視社會外部條件 [Acemoglu 2021; Reich et al. 2021],例如勞動力的技術(shù)轉(zhuǎn)移、民主所需的信息生態(tài)系統(tǒng)的健康、計算資源的環(huán)境成本,以及以利潤為導向向非民主政權(quán)出售技術(shù)。最后,任何一家公司都沒有什么動力去創(chuàng)建一個開放的、去中心化的生態(tài)系統(tǒng)來開發(fā)些鼓勵人們廣泛參與建設(shè)的基礎(chǔ)模型。

9 參見 https://www./about/our-role.

相比之下,大學長期而根深蒂固的研究使命是知識的生產(chǎn)和傳播以及全球公共產(chǎn)品的創(chuàng)造[Kerr 2001; Rhoten and Calhoun 2011; Nussbaum 2010]。我們相信,學術(shù)界在塑造基礎(chǔ)模型的發(fā)展方面處于獨特的地位,以確保我們捕捉到具有潛在巨大社會效益的方向,否則這些方向可能不會被行業(yè)優(yōu)先考慮。
可訪問性的喪失 不幸的是,由于可訪問性的喪失,學術(shù)界無法充分參與其中。深度學習革命經(jīng)常被忽視的影響之一是可復(fù)現(xiàn)性和開放科學的增加:公開發(fā)布代碼和數(shù)據(jù)集越來越成為常態(tài),諸如TensorFlow [Abadi et al. 2016]、PyTorch[Paszke et al. 2019]等工具包使人們更容易協(xié)同合作以及構(gòu)建各自的模型。諸如ML Reproducibility Challenge10倡議,主要會議采用的可重復(fù)性檢查清單[Pineau et al. 2020],以及CodaLab Worksheets11等平臺,都積極促進了針對可復(fù)現(xiàn)性的標準的完善。這導致了技術(shù)上創(chuàng)新和進步的激增。

10 https:///rc2020 

11 https://worksheets./

基礎(chǔ)模型開始逆轉(zhuǎn)這一積極趨勢。某些模型(例如 GPT-3)根本不會公開發(fā)布(只對少數(shù)人提供API訪問權(quán)限)。甚至一些數(shù)據(jù)集(例如 GPT-2)也沒有公開發(fā)布。雖然可以使用經(jīng)過訓練的模型(例如 BERT),但由于計算成本過高且工程要求復(fù)雜,絕大多數(shù)AI研究人員實際上無法對基礎(chǔ)模型進行完整的訓練。
在學術(shù)經(jīng)費允許的范圍內(nèi),一些有意義的研究仍然可以通過訓練較小的模型來完成。事實上,當規(guī)模不同造成的差異可量化時(例如,準確率上升),縮放定律 (scaling laws)[Kaplan et al. 2020]所預(yù)測的規(guī)律使得這種方式成為一種行之有效的策略。然而,由于這些基礎(chǔ)模型的自然性質(zhì),諸如上下文學習等能力只能在足夠大的模型中實現(xiàn),因此我們甚至需要足夠大的模型規(guī)模才能夠提出正確的問題。
研究公開發(fā)布的現(xiàn)有模型可能也是行之有效的;事實上,目前已經(jīng)存在一個包含 NLP在內(nèi)的大型子社區(qū),正在探索這類模型[Rogers et al. 2020; Manning et al. 2020]。研究現(xiàn)有模型對于改善下游應(yīng)用或識別現(xiàn)有缺陷(例如,偏見)很有用,但這可能不足以讓我們?yōu)榛A(chǔ)模型設(shè)計更好的架構(gòu)或訓練目標,從而修復(fù)這些缺陷(例如,減輕偏見)。值得反思的是,當今有多少NLP研究是基于BERT,這樣一種特殊(且有些隨意)的基礎(chǔ)模型的。鑒于有必要將社會意識和倫理設(shè)計融入這些模型的構(gòu)建過程中,我們可能需要構(gòu)建看起來與現(xiàn)有模型完全不同的基礎(chǔ)模型。這將需要大規(guī)模的密集實驗。
雖然一些社區(qū)正在嘗試訓練大型基礎(chǔ)模型,例如EleutherAI12和HuggingFace的 BigScience項目13,然而行業(yè)訓練的私有模型與向社區(qū)開放的模型之間的差距可能仍然很大。此外,如今的初創(chuàng)公司(OpenAI、Anthropic、AI21 Labs 等)比學術(shù)界擁有更多資源,因此有能力訓練最大規(guī)模的基礎(chǔ)模型(例如OpenAI的GPT-3)。然而,大型科技公司在資源方面處于更高的水平,尤其是在基礎(chǔ)設(shè)施、用戶以及源于其市場地位的數(shù)據(jù)方面?;A(chǔ)模型的基礎(chǔ)中心化性質(zhì)意味著開發(fā)它們的門檻將繼續(xù)上升,因此即使是初創(chuàng)公司也會發(fā)現(xiàn)難以進行競爭,盡管他們足夠靈活。這一趨勢反映在搜索引擎的發(fā)展中[Radinsky 2015]。

12 https://www./ 

13 https://bigscience./

縮小資源缺口的一種方法是政府將其視為公共基礎(chǔ)設(shè)施進行投資。從哈勃太空望遠鏡和大型強子對撞機等大科學項目中我們能夠發(fā)現(xiàn),大量投資將使得基礎(chǔ)科學發(fā)現(xiàn)變?yōu)榭赡?。我們可以想象一個類似的計算科學基礎(chǔ)設(shè)施,有關(guān)基礎(chǔ)模型的學術(shù)研究將從中受益。美國新生的National Research Cloud計劃14就是朝這個方向邁出的一步。

14 https://hai./policy/national-research-cloud

志愿計算可以作為另一種補充方案,該方案中數(shù)十億計算設(shè)備(節(jié)點)中的任何一個都可以連接到中央服務(wù)器貢獻算力。Folding@home項目已在蛋白質(zhì)動力學模擬方面成功實施了這種的方法[Beberg et al. 2009]。最近,Learning@home項目又試圖利用志愿計算來訓練基礎(chǔ)模型[Ryabinin and Gusev 2020]。節(jié)點之間的高延遲連接以及訓練基礎(chǔ)模型的高帶寬要求使其成為一個開放的技術(shù)挑戰(zhàn)。
總結(jié) 目前存在巨大的經(jīng)濟激勵來推動基礎(chǔ)模型能力和規(guī)模的提升,因此可以預(yù)計未來幾年相關(guān)技術(shù)會穩(wěn)步發(fā)展。但是,一項主要依賴涌現(xiàn)的行為的技術(shù)是否適合廣泛部署給民眾目前尚不清楚。能夠清楚的是我們需要謹慎行事,并且現(xiàn)在應(yīng)著手建立專業(yè)規(guī)范,這將使可靠的基礎(chǔ)模型研究和部署成為可能。學術(shù)界和工業(yè)界需要在此方面進行合作:工業(yè)界會就最終如何部署基礎(chǔ)模型做出具體決策,但鑒于學術(shù)界的學科多樣性以及注重知識生產(chǎn)和社會效益的非商業(yè)激勵性,我們也應(yīng)該依靠其為基礎(chǔ)模型的開發(fā)和部署提供獨特的指導,這在技術(shù)方面和倫理方面都是有根據(jù)的。
1.4 概述
2021年3月,我們在斯坦福大學創(chuàng)建了一個由對基礎(chǔ)模型的某些方面感興趣的學生、教師和研究人員組成的非正式社區(qū)15。該社區(qū)不僅包括AI研究人員,還包括那些渴望將基礎(chǔ)模型應(yīng)用于各自領(lǐng)域(例如醫(yī)療保健和法律),以及那些對社會問題(例如倫理和經(jīng)濟)感興趣的人。隨著討論的進行,我們發(fā)現(xiàn)相互之間在技術(shù)如何運作、行業(yè)如何開發(fā)基礎(chǔ)模型、如何思考倫理問題等方面的理解存在很大差距,并且現(xiàn)有文獻只涉及零碎的思考。因此,我們希望更全面地了解基礎(chǔ)模型,識別機會和風險,并為基礎(chǔ)模型未來可靠的發(fā)展建立一個建設(shè)性的愿景。

15 這個社區(qū)導致了 Center for Research on Foundation Models (CRFM) 的建立, 它是斯坦福大學 Human-Centered AI 研 究所 (HAI) 的一項新的跨學科計劃。

這份報告的撰寫是一個實驗:我們有超過100名來自不同背景的人聚在一起撰寫這份涵蓋了基礎(chǔ)模型各個方面的報告。這份報告有很大一部分是對現(xiàn)有工作的調(diào)查,但通過多次討論,我們決定將其統(tǒng)一在一份報告中,以強調(diào)所有跨學科聯(lián)系。
結(jié)構(gòu) 報告分為26個章節(jié),每個章節(jié)討論基礎(chǔ)模型的一個方面。盡管各章節(jié)之間有許多聯(lián)系,他們主要分為四個主題:能力(§2:能力)、應(yīng)用(§3:應(yīng)用)、技術(shù)(§4:技術(shù))和社會(§5:社會)。這些聯(lián)系強調(diào)了一種綜合的方法論,在這種方法論中,技術(shù)和能力的開發(fā)方式很大程度上受社會問題的影響,同時受到模型應(yīng)用的啟發(fā),也扎根于模型應(yīng)用。
雖然我們盡可能將圍繞基礎(chǔ)模型的大部分重要主題容納在內(nèi),但在該領(lǐng)域發(fā)展迅速的情況下,這份報告將不可避免地不完整。例如,許多應(yīng)用場景(例如,自然科學、音樂、金融、農(nóng)業(yè))不包括在內(nèi),盡管它們可能會受到我們選擇討論的應(yīng)用領(lǐng)域的影響。除此之外,研究基礎(chǔ)模型如何與神經(jīng)科學、認知科學和心理學結(jié)合以解釋智力和幫助計算社會學理解社會也是有趣的議題。
作者貢獻 Percy Liang提出了整個報告的框架和結(jié)構(gòu)。他和Rishi Bommasani共同領(lǐng)導撰寫工作,并為各個章節(jié)提供指導。Drew A. Hudson創(chuàng)建了報告中的所有圖表,并與每個章節(jié)的作者討論了圖表的結(jié)構(gòu)和內(nèi)容。本報告的26個章節(jié)每個都由作者中的一部分撰寫,他們的名字列在每個章節(jié)的開頭。然而,由于有許多討論跨越多個章節(jié),因此可能會有其他的作者實際上也對某個章節(jié)作出貢獻。最后需要注意,并非所有作者都持有本報告中表達的所有觀點。
1.4.1 能力概述
基礎(chǔ)模型具有應(yīng)用可以利用的各種能力。我們選擇對以下五種能力進行論述:處理不同模態(tài)的能力(例如,語言、視覺)、影響物理世界的能力(例如,機器人學)、推理能力、與人類交互的能力(交互)。最后,我們以基礎(chǔ)模型能力存在的可能限制的哲學性討論作為結(jié)束。

圖片圖4 本報告分為能力、應(yīng)用、技術(shù)和社會四個主題,每個主題包含多個章節(jié),每個章節(jié)涵蓋基礎(chǔ)模型的一個方面。

§2.1:語言 自然語言處理是為基礎(chǔ)模型開辟了道路的領(lǐng)域。盡管這些基礎(chǔ)模型在標準基準測試中占主導地位,目前基礎(chǔ)模型所具有的能力距離能夠?qū)⒄Z言作為人類交流、思考的復(fù)雜系統(tǒng)表示出來還存在明顯差距。為了理解這一差距,我們?nèi)骊U述了語言多樣性(例如,不同的風格、方言、語言),考慮到其中的一些變體是數(shù)據(jù)有限的,這也帶來了機遇和挑戰(zhàn)。此外,兒童的語言習得機制相較與基礎(chǔ)模型的訓練具有更高的樣本效率;我們研究了超過文本的信號和接地(grounding)對于減小這一差距的可能幫助。語言的這兩個特征為未來基礎(chǔ)模型的研究提供了明確的方向。
§2.2:視覺 計算機視覺引領(lǐng)了深度學習在人工智能中的采用[Russakovsky et al. 2015],證明了在大規(guī)模標注數(shù)據(jù)集上預(yù)訓練的模型可以被遷移到眾多的下游情景中。目前,通過在網(wǎng)絡(luò)規(guī)模的原始數(shù)據(jù)而非標注數(shù)據(jù)集上預(yù)訓練,基礎(chǔ)模型在計算機視覺領(lǐng)域正在興起(例如[Radford et al. 2021])。它們在諸如圖像分類、目標檢測這樣的標準任務(wù)中取得了令人滿意的結(jié)果,而通過在多模態(tài)和具身(embodied)的數(shù)據(jù)而非僅在圖片數(shù)據(jù)上進行訓練使得在重大挑戰(zhàn)(例如,3D幾何與物理理解、常識推理)上取得突破成為可能。我們還討論了建模(例如,有效擴展到視頻的能力)、評價(例如,對高階能力的度量)、應(yīng)用(例如,醫(yī)療保健中的環(huán)境智能)與社會考量(例如,監(jiān)督)中面臨的關(guān)鍵挑戰(zhàn),這將決定基礎(chǔ)模型如何影響計算機視覺的發(fā)展。
§2.3:機器人學 機器人學研究的長期目標是開發(fā)出能夠在多種物理環(huán)境中完成多種任務(wù)的“通才”機器人。在自然語言處理和計算機視覺中基礎(chǔ)模型能夠處于領(lǐng)先地位是因為具有充裕的原始數(shù)據(jù)來訓練基礎(chǔ)模型以及通過虛擬應(yīng)用來應(yīng)用基礎(chǔ)模型,機器人學不同于它們,其面臨的根本挑戰(zhàn)在于與現(xiàn)實世界的綁定。機器人學利用基礎(chǔ)模型的主要挑戰(zhàn)在于獲得有益于學習的形式正確的足夠的數(shù)據(jù):我們探索了不局限于的特定環(huán)境(例如,一般的人類視頻等)以及跨模態(tài)(例如,語言、視覺)的大量數(shù)據(jù)對于填補這一空白的可能幫助。如果基礎(chǔ)模型能夠在機器人環(huán)境中工作良好,將會使得通過機器人代理進行任務(wù)說明與學習更加容易、引領(lǐng)新的應(yīng)用(例如,家務(wù)勞動)以及提高魯棒性與安全性(例如,正式的安全評估)的重要性。
§2.4:推理與搜索 像定理證明、程序綜合這樣的推理與搜索問題是人工智能領(lǐng)域的長期挑戰(zhàn)。組合搜索空間使得傳統(tǒng)的基于搜索的方法難以處理。然而,眾所周知:人類即使是在最數(shù)學化的領(lǐng)域也會憑直覺操作[Lakoff and Nu?n?ez 2000],事實上,目前像AlphaGo這樣工作已經(jīng)表明了深度神經(jīng)網(wǎng)絡(luò)可以有效的指引搜索空間。但是,人類也會在任務(wù)之間傳遞知識,從而更容易地適應(yīng)任務(wù)和提高抽象推理的能力?;A(chǔ)模型為縮小機器與人類之間的差距提供了可能性:基礎(chǔ)模型的多用途性質(zhì)以及它們強大的生成與多模態(tài)能力為控制搜索空間的組合爆炸提供了新的手段。
§2.5:交互 基礎(chǔ)模型展現(xiàn)出改變?nèi)斯ぶ悄芟到y(tǒng)開發(fā)者和使用者體驗的明顯潛力:由于基礎(chǔ)模型在適配中的樣本效率(sample efficiency),其降低了人工智能應(yīng)用原型設(shè)計與構(gòu)建的難度閾值。同時由于基礎(chǔ)模型的多模態(tài)和生成能力,其提高了新穎用戶交互的上限。這提供了一種我們所鼓勵的協(xié)同作用:開發(fā)者可以提供更加符合用戶需求與價值取向的應(yīng)用,同時引入更加動態(tài)的交互形式與反饋機會。
§2.6:理解的哲學 基礎(chǔ)模型可以理解它所訓練的數(shù)據(jù)的哪些方面?聚焦于自然語言處理,我們確定對于理解的本質(zhì)的不同觀點,并探討了它們與中心問題的相關(guān)性。我們的初步結(jié)論是,對未來基礎(chǔ)模型理解自然語言的能力持懷疑態(tài)度可能還為時過早,尤其對于那些在多模態(tài)數(shù)據(jù)上進行訓練的模型。
1.4.2 應(yīng)用概述
目前,基礎(chǔ)模型的研究主要局限于計算機科學和人工智能領(lǐng)域,而基礎(chǔ)模型的影響和其所支撐的應(yīng)用主要集中在科技產(chǎn)業(yè)。更進一步,基礎(chǔ)模型展現(xiàn)出了明顯的潛力,其可以在科技產(chǎn)業(yè)以外的許多領(lǐng)域改變和拓展人工智能的影響范圍,這也意味著對于人類生活的普遍影響。盡管有許多應(yīng)用和領(lǐng)域需要考慮,我們選擇了醫(yī)療保健、法律和教育這三個領(lǐng)域,因為它們代表了社會的基本支柱。為了在這些領(lǐng)域做出重大貢獻,基礎(chǔ)模型需要特定的能力(§2:能力)以及技術(shù)創(chuàng)新(§4:技術(shù))來滿足每個領(lǐng)域的獨特需求。此外,由于這些領(lǐng)域?qū)τ谏鐣δ?§5:社會)至關(guān)重要,因此將基礎(chǔ)模型應(yīng)用到這些領(lǐng)域需要與深入的社會技術(shù)問題接洽,例如:數(shù)據(jù)(§4.6:數(shù)據(jù))、隱私(§4.7:安全)、可解釋性(§4.11:可解釋性)、公平(§5.1:公平)、倫理(§5.6:倫理)相關(guān)的問題。
§3.1:醫(yī)療保健與生物醫(yī)學 醫(yī)療保健任務(wù)(例如,通過疾病治療對患者進行護理)與生物醫(yī)學研究(例如,新療法的科學發(fā)現(xiàn))需要有限且昂貴的專家知識?;A(chǔ)模型為這些領(lǐng)域提供了明顯的機會,因為有充裕的跨模態(tài)數(shù)據(jù)(例如,圖像,文本,分子)可以用于訓練模型,以及基礎(chǔ)模型在適配中的樣本效率由于昂貴的專家時間和知識開銷而更加具有價值。此外,基礎(chǔ)模型使得醫(yī)療保健提供商、患者與人工智能系統(tǒng)之間的接口設(shè)計(§2.5:接口)的改進成為可能,并且基礎(chǔ)模型的生成能力使得其具有解決像藥物發(fā)現(xiàn)這樣開放式研究問題的潛力。同時,基礎(chǔ)模型也帶來了明顯的風險(例如,加劇醫(yī)藥數(shù)據(jù)集和試驗中的歷史偏差)。為了可靠的釋放基礎(chǔ)模型的潛力,需要深入結(jié)合數(shù)據(jù)來源、隱私、模型的解釋能力與可解釋性等社會技術(shù)問題,同時有效監(jiān)管基礎(chǔ)模型在醫(yī)療保健和生物醫(yī)學中的使用。
§3.2:法律 法律應(yīng)用需要律師閱讀并產(chǎn)生連貫的長篇敘述,其中包含了不斷變化的上下文和對模糊的法律標準的理解?;A(chǔ)模型可能使該領(lǐng)域受益:充足的數(shù)據(jù)以法律文檔的形式存在,并且基礎(chǔ)模型的生成能力非常適合法律領(lǐng)域所需要的許多的生成任務(wù),但是為了能夠可靠地推理各種來源的信息從而生成真實的長格式文檔,基礎(chǔ)模型還需要有效的改進。和醫(yī)療保健領(lǐng)域(§3.1:醫(yī)療保健)一樣,考慮到法律領(lǐng)域中專家時間和知識的成本,基礎(chǔ)模型適配過程中的樣本效率具有更高的價值,這使得專家知識能夠再分配給司法和政府服務(wù)領(lǐng)域中的緊迫問題。在法律領(lǐng)域負責任地開發(fā)基礎(chǔ)模型需要對隱私特別考慮,并強調(diào)現(xiàn)有基礎(chǔ)模型的核心局限性,這些局限性將需要從基礎(chǔ)模型行為的來源和其生成結(jié)果的事實性的保證兩方面取得根本性的進步。
§3.3:教育 教育是一個復(fù)雜且精妙的領(lǐng)域。有效教學涉及對學生的認知水平的推理,并應(yīng)指明學生的學習目標?;A(chǔ)模型的性質(zhì)展現(xiàn)出了尚未在人工智能教育領(lǐng)域?qū)崿F(xiàn)的前景:盡管教育中的很多數(shù)據(jù)流因為過于有限而無法單獨用于基礎(chǔ)模型的訓練,但利用領(lǐng)域外的相關(guān)數(shù)據(jù)(例如,互聯(lián)網(wǎng))以及利用跨多個模態(tài)的數(shù)據(jù)(例如,教科書、數(shù)學公式、圖表、基于視頻的教程)共同為將基礎(chǔ)模型廣泛應(yīng)用于教育任務(wù)提供了希望。如果基礎(chǔ)模型導致教育相關(guān)的能力顯著的提高,那么聯(lián)合了基礎(chǔ)模型的開放式生成(例如,問題生成)和交互(例如,對教師的反饋)方面的新應(yīng)用就具有明顯的潛力?;A(chǔ)模型適配中的樣本效率意味著更強大的自適應(yīng)與個性化學習能力。在這種情況下,需要重新考慮將技術(shù)應(yīng)用到教育中的特點(例如,學生隱私),同時特定的問題也變得更加重要(例如,獲取教育技術(shù)中的不平等、技術(shù)輔助的抄襲)。
1.4.3 技術(shù)概述
現(xiàn)在我們討論構(gòu)建更好的模型架構(gòu)、訓練和適配過程以及系統(tǒng)擴展背后的技術(shù)。一個關(guān)鍵但經(jīng)常被忽視的話題是數(shù)據(jù)—數(shù)據(jù)從何而來、成分如何?此外,我們希望基礎(chǔ)模型面對分布變化時是魯棒性的、面對攻擊時是安全的。最后,我們希望從數(shù)學角度和經(jīng)驗角度理解為什么基礎(chǔ)模型是有效的。
§4.1:建模 什么結(jié)構(gòu)特性產(chǎn)生了基礎(chǔ)模型?在建模部分,我們探索了基礎(chǔ)模型背后的底層架構(gòu),并確定了5個關(guān)鍵屬性。首先,我們從計算模型捕獲和理解現(xiàn)實世界信息的表達能力,以及熟練處理大量高維數(shù)據(jù)的可擴展能力開始討論。這些特性已通過現(xiàn)有架構(gòu)成功實現(xiàn),例如支撐了迄今為止大多數(shù)基礎(chǔ)模型的Transformer網(wǎng)絡(luò) [Vaswani et al. 2017]。然后,我們討論下一代模型所必需的屬性,包括:多模態(tài)—用以消費、處理和潛在地生產(chǎn)來自不同源、不同領(lǐng)域的內(nèi)容,記憶容量—用以有效地存儲和檢索獲得的知識,以及最終的組合能力—用以促進對新設(shè)置、新環(huán)境的成功泛化。我們相信,實現(xiàn)基礎(chǔ)模型所預(yù)想的全部潛力將取決于滿足這些需求的建模能力的進展。
§4.2:訓練 訓練目標在數(shù)學上指定模型應(yīng)該如何從訓練數(shù)據(jù)中學習和獲取能力。目前基礎(chǔ)模型的訓練現(xiàn)狀涉及模態(tài)相關(guān)的目標(例如,用于文本的掩碼語言模型[Devlin et al. 2019]和用于圖像的SimCLR[Chen et al. 2020a]),這些目標通常是啟發(fā)式選擇的。我們設(shè)想基礎(chǔ)模型的未來訓練目標將反映兩個變化:源自系統(tǒng)證據(jù)和評價(§4.4:評價)的原則性選擇和領(lǐng)域通用性,其中領(lǐng)域通用性旨在提供豐富、可擴展和統(tǒng)一的跨數(shù)據(jù)源跨模態(tài)訓練信號。我們還討論了重要的設(shè)計權(quán)衡,包括生成與判別訓練、輸入數(shù)據(jù)表示的選擇以及涉及明確目標表示的未來訓練目標的潛力。
§4.3:適配 基礎(chǔ)模型是中間產(chǎn)物;它們是未完成的且通常不應(yīng)直接使用,而是需要針對特定的下游任務(wù)進行適配。一直以來適配都被實現(xiàn)為微調(diào),而最近研究表明,作為替代方案的輕量級微調(diào)和基于提示的方法可以實現(xiàn)良好的準確性-效率平衡。展望未來,我們設(shè)想了一個更廣闊的適配視角,不僅讓基礎(chǔ)模型專門執(zhí)行感興趣的任務(wù):適配將緩解獨立基礎(chǔ)模型的缺陷(例如,用以反映現(xiàn)實世界中隨時序的變化的時序適配(temporal adaptation)或引入限制(例如,與被遺忘權(quán)(right to be forgotten)相關(guān)的GDPR合規(guī)性;§4.7:安全);這種適配上的更廣闊的視角,符合新的評價協(xié)議的需求(§4.4:評價):系統(tǒng)地評價適配方法,同時控制適配中的資源(例如,運行時、內(nèi)存)和訪問要求。
§4.4:評價 評價通過提供跟蹤進度、理解模型以及記錄能力和偏差的方法,為基礎(chǔ)模型提供了上下文。由于基礎(chǔ)模型與特定任務(wù)相距甚遠,因此對機器學習標準評價范式實現(xiàn)上述目標的能力提出了挑戰(zhàn)。為了設(shè)想適合基礎(chǔ)模型的新評價范式,我們討論了(a)直接評價基礎(chǔ)模型以測量其內(nèi)在能力并獲知基礎(chǔ)模型是如何訓練的,(b)通過控制適配資源和訪問評價限定任務(wù)的模型,以及(c)更廣泛的評價設(shè)計以提供超出準確率(例如,魯棒性(§4.8:魯棒性)、公平性(§5.1:公平)、效率(§4.5:系統(tǒng))、環(huán)境影響(§5.3:環(huán)境))等指標的更豐富的評價指標。評價實踐的改革會讓評價充分服務(wù)于基礎(chǔ)模型范式中涉及的多樣目標和參與者。
§4.5:系統(tǒng) 訓練數(shù)據(jù)(§4.6:數(shù)據(jù))決定了基礎(chǔ)模型理論上可用的信息,而模型架構(gòu) (§4.1:建模)和訓練目標(§4.2:訓練)決定了可以提取多少這些信息,計算機系統(tǒng)決定了基礎(chǔ)模型實際可以實現(xiàn)的目標。系統(tǒng)是擴展數(shù)據(jù)和模型大小的關(guān)鍵瓶頸,這兩者似乎都與功能的提升密切相關(guān)。為了確保我們能夠在時間和成本方面有效地訓練下一代基礎(chǔ)模型,我們將需要算法、模型、軟件和硬件的協(xié)同設(shè)計。這種協(xié)同設(shè)計已經(jīng)開始以各種形式出現(xiàn),例如精心調(diào)整的DNN設(shè)計和基于檢索的模型等新架構(gòu)。除了訓練之外,我們還考慮了哪些是在基礎(chǔ)模型之上部署應(yīng)用所需要的(例如,高效推理)。
§4.6:數(shù)據(jù) 數(shù)據(jù)是基礎(chǔ)模型的命脈;模型的訓練數(shù)據(jù)在很大程度上決定了這些模型可以獲得哪些能力。數(shù)據(jù)的中心性并不是基礎(chǔ)模型獨有的;最近對以數(shù)據(jù)為中心的AI [Press 2021;Re? 2021]的呼吁表明,管理、理解和記錄用于訓練機器學習模型的數(shù)據(jù)具有普遍的重要性。特別是對于基礎(chǔ)模型,當前的模式操作使用未指定或不明確的原則選擇訓練數(shù)據(jù),并且在訓練數(shù)據(jù)的性質(zhì)方面普遍缺乏透明度。我們認為需要一種替代方法來重新構(gòu)想圍繞基礎(chǔ)模型的數(shù)據(jù)生態(tài)系統(tǒng):我們利用數(shù)據(jù)可視化和管理方面的工作,為基礎(chǔ)模型提出一個數(shù)據(jù)中心。我們闡明了該提案如何關(guān)聯(lián)基礎(chǔ)模型的眾多以數(shù)據(jù)為中心的相關(guān)考慮因素,包括:選擇、管理、文檔、訪問、可視化與檢查、質(zhì)量評估以及法律監(jiān)管。
§4.7:安全和隱私 目前,基礎(chǔ)模型的安全性和隱私性在很大程度上是未知的。從根本上說,基礎(chǔ)模型是一個高影響力單點故障(single point of failure),因此成為了攻擊的主要目標:現(xiàn)有工作已證明了這些模型的各種安全漏洞(例如,產(chǎn)生不良輸出的對抗性觸發(fā)器)或隱私風險(例如,記憶訓練數(shù)據(jù))。此外,基礎(chǔ)模型的普遍性加重了這些擔憂,加劇了功能蔓延或雙重用途(即用于未預(yù)期目的)的風險。對于安全性,我們認為基礎(chǔ)模型類似于傳統(tǒng)軟件系統(tǒng)中的操作系統(tǒng);我們討論了實現(xiàn)安全基礎(chǔ)模型的步驟,如能實現(xiàn),它將提供可在其上構(gòu)建可靠機器學習應(yīng)用的強大的抽象層。對于隱私,通過在公開數(shù)據(jù)上利用知識轉(zhuǎn)移,基礎(chǔ)模型可以使樣本更有效地適配敏感數(shù)據(jù)分布,例如,使用基礎(chǔ)模型構(gòu)建隱私保護應(yīng)用,可使其精度下降更少。
§4.8:對分布變化的魯棒性 標準機器學習的一個主要限制是,它產(chǎn)生的模型對訓練分布與測試分布不匹配的分布變化不魯棒?,F(xiàn)有工作表明,對在廣泛的未標注數(shù)據(jù)上訓練的基礎(chǔ)模型進行適配可以提高適配模型在各種變化中的魯棒性。這開辟了一系列改進基礎(chǔ)模型的訓練和適配以實現(xiàn)魯棒性的有前途的新方向。然而,我們不認為基礎(chǔ)模型是魯棒性的靈丹妙藥,例如跨時間推斷(extrapolation across time)和偽相關(guān)的挑戰(zhàn)就不太可能被完全解決。
§4.9:人工智能安全與對齊 當考慮基礎(chǔ)模型潛在的實際應(yīng)用時,確保模型的可靠性 (§4.5:系統(tǒng))、魯棒性(§4.8:魯棒性)以及可解釋性(§4.11:可解釋性)變得越來越重要。除了模型本身重要且直觀的一些值得關(guān)注的注意事項之外,我們還需考慮基礎(chǔ)模型與更大范圍下的風險和危害之間的關(guān)系,且隨著模型能力的增強,這些風險與危害出現(xiàn)的可能也更大。例如,我們考慮了對齊(align)基礎(chǔ)模型的重要性,以便模型不會以錯誤的目標或價值觀進行部署。我們還討論了預(yù)測基礎(chǔ)模型涌現(xiàn)行為的相關(guān)性(例如,模型欺騙或戰(zhàn)略性規(guī)劃的能力),可能會使模型在適配特定任務(wù)時的嘗試變得復(fù)雜,同時可能還需要新的可解釋性研究(§4.11:可解釋性)或評價方法( §4.4:評價)。
§4.10:理論 學習理論為應(yīng)用機器學習時的各種場景提供了廣泛的基礎(chǔ);理論為經(jīng)驗性的發(fā)現(xiàn)提供了解釋思路、原理和證明。目前,對基礎(chǔ)模型的研究主要是經(jīng)驗性的:標準的有監(jiān)督學習理論雖然相對成熟,但仍不足以充分解釋基礎(chǔ)模型。具體來說,基礎(chǔ)模型體系內(nèi)訓練階段和階適配之間的差異體現(xiàn)了現(xiàn)有理論的不足,因為這些階段(可能)對應(yīng)完全不同的任務(wù)和數(shù)據(jù)分布。盡管如此,我們努力改進理論來解決上述差異問題,即使是在簡單、有限的環(huán)境下,也會提供有用的見解。
§4.11:可解釋性 可解釋性可以使基礎(chǔ)模型變得透明:基礎(chǔ)模型中深度神經(jīng)網(wǎng)絡(luò)模型的不透明性,以及基礎(chǔ)模型可預(yù)見內(nèi)的廣泛應(yīng)用,都增加了理解這些模型及其能力的需求。目前的可解釋性方法通常是為解釋特定任務(wù)模型的行為而設(shè)計的;基礎(chǔ)模型的內(nèi)在本質(zhì)(即模型對于各類的任務(wù)的通用性及其所需的意料之外的涌現(xiàn)屬性)為可解釋性研究帶來了新的挑戰(zhàn)。為了討論基礎(chǔ)模型的可解釋性,我們提出了單模型-多模型范式,旨在確定單模型(基礎(chǔ)模型)及多模型(其適配的衍生模型(adapted derivatives))以何種程度共享決策制定。除了解釋相關(guān)的決策制定組件之外,我們還進一步討論了基礎(chǔ)模型背景下的可解釋性(例如,模型生成的解釋的有效性)以及驅(qū)動模型行為的機制(可能證明理解基礎(chǔ)模型可以擴展到理解它們的衍生模型)。鑒于我們認為可解釋性在基礎(chǔ)模型研究中的關(guān)鍵作用,我們最后評估了可解釋性和不可解釋性的社會影響。
1.4.4 社會影響概述
我們相信基礎(chǔ)模型的快速發(fā)展、遷移并部署到各樣的應(yīng)用,將對社會的健康產(chǎn)生大范圍的影響,因為模型的任務(wù)不可知性讓人既興奮又不安。當談及特定的模型系統(tǒng)部署給用戶時,社會影響更容易(但仍然重要)理解和推斷,但我們在開發(fā)基礎(chǔ)模型時,如何才能顧及所有的系統(tǒng)和用例對社會可能產(chǎn)生的影響呢?
§5.1:不平等與公平 在許多情況下,機器學習被證明可能會加劇社會的不平等?;A(chǔ)模型可能會擴大這一趨勢,即進一步加劇對歷史上曾受到歧視的群體的不公正待遇。然而,理解不公平與基礎(chǔ)模型之間的關(guān)系需要思考基礎(chǔ)模型的實質(zhì);基礎(chǔ)模型是根據(jù)應(yīng)用進行調(diào)整的可能對用戶產(chǎn)生影響的中間結(jié)構(gòu)。因此,我們描述了內(nèi)在偏置,即基礎(chǔ)模型內(nèi)在產(chǎn)生有害預(yù)測結(jié)果的屬性,以及外在危害,即在使用基礎(chǔ)模型構(gòu)建的特定應(yīng)用程序的背景下產(chǎn)生的危害。我們對導致這些偏見和危害的各種來源(例如,訓練數(shù)據(jù)、基礎(chǔ)模型開發(fā)人員多樣性的不足、更宏觀的社會技術(shù)環(huán)境等)進行分類,強調(diào)了溯源的重要性和技術(shù)難度,使我們了解其中的倫理和法律責任。我們并不認為基礎(chǔ)模型范式中的不公平是不可避免的:為了解決基礎(chǔ)模型產(chǎn)生的不公平結(jié)果這一問題,我們同時考慮了主動干預(yù)(例如,反事實數(shù)據(jù)增強等技術(shù)方法)和被動追索(例如,反饋傳播機制以及道德/法律責任的歸屬)
§5.2:濫用 我們將基礎(chǔ)模型的濫用定義為模型雖為技術(shù)而生(例如,產(chǎn)生文字或者視頻),但卻用于造成社會危害(例如,制造虛假信息、開發(fā)用于騷擾的深度偽造)。我們認為基礎(chǔ)模型的進步將帶來高質(zhì)量的機器生成的內(nèi)容,這將使得制造和定制以濫用為目的的內(nèi)容更容易。例如,偽造信息者可能會使用模型來快速生成針對不同人群(例如,國籍、政黨、宗教等)的一系列虛假文章。雖然這些新功能限制了人工檢測有害內(nèi)容的方法(例如,跟蹤不同來源的相似文本),但是基礎(chǔ)模型本身具備自動進行濫用檢測的潛力。
§5.3:環(huán)境 基礎(chǔ)模型是計算成本高昂的訓練模式下的副產(chǎn)品,現(xiàn)有的發(fā)展過程也更傾向于更大規(guī)模的模型,這種訓練所需的能量會導致更多的碳排放到大氣中,以及環(huán)境的退化。現(xiàn)階段的討論集中在這些巨大的單次訓練成本以及通過重復(fù)使用來分攤上述成本的可能性。我們試圖通過定量演算環(huán)境對基礎(chǔ)模型的影響來縷清這些討論。此外,我們設(shè)想,打造圍繞基礎(chǔ)模型的生態(tài)系統(tǒng)需要從多方面考慮:(a)計算效率更高的模型、硬件和能源網(wǎng)都會減輕這些模型的碳負荷。(b)環(huán)境成本需要作為評估基礎(chǔ)模型的明確指標(§4.4:評價),使得基礎(chǔ)模型更全面地滿足環(huán)保要求。(c)針對對環(huán)境的影響進行的成本效益分析需要整個社區(qū)更好的記錄和度量。
§5.4:合法性 現(xiàn)階段基礎(chǔ)模型建立在薄弱的法律基礎(chǔ)上,很大程度上尚不明確法律將如何對待這些模型的發(fā)展和應(yīng)用。具體來說對于基礎(chǔ)模型的法律和監(jiān)管框架,以及針對更普遍的人工智能技術(shù)的法規(guī),都將影響、約束,也一并促進相關(guān)的研究、開發(fā)和部署的實踐。著眼于美國的法律環(huán)境,目前美國對于算法工具的看法尚存在很大的不確定性,我們著重強調(diào)了模型預(yù)測法律責任和模型行為保護的相關(guān)問題。關(guān)于這兩個問題,我們描述了如何考慮基礎(chǔ)模型(而不是面向用戶特定任務(wù)的模型)的尚未發(fā)展成熟的狀態(tài)來完善法律條款。
§5.5:經(jīng)濟 基礎(chǔ)模型由于其新穎的功能以及在多種行業(yè)的潛在應(yīng)用,可能會對經(jīng)濟產(chǎn)生重大影響。我們考慮了基礎(chǔ)模型的開發(fā)和使用對美國和全球經(jīng)濟未來的影響,著眼于生產(chǎn)力、工資不平等和所有權(quán)集中等方面。
§5.6:倫理 除了需要承擔§5.1:公平中討論的可能造成更多不平等的風險外,基礎(chǔ)模型的廣泛使用還可能造成其他倫理、政治和社會問題。我們討論與基礎(chǔ)模型應(yīng)用相關(guān)的倫理問題,例如同質(zhì)化、權(quán)利集中、以及適合解決這些問題的規(guī)范準則和發(fā)布策略。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多