|
通過拆解ChatGPT,我們發(fā)現(xiàn):1)單一大模型或為未來AI訓(xùn)練主流方向;2)大模型訓(xùn)練可以積累底層語言能力,但需要大算力支持;3)預(yù)訓(xùn)練語言模型和Transformer架構(gòu)是模型底層能力的根源;4)ChatGPT商業(yè)化應(yīng)用前景廣闊。基于此,我們認(rèn)為國產(chǎn)廠商或?qū)⒂?xùn)練出自己的GPT模型,AI產(chǎn)業(yè)有望迎來景氣周期。 ChatGPT引發(fā)范式革命,AI產(chǎn)業(yè)發(fā)展前景可期 近期由OpenAI團(tuán)隊發(fā)布的聊天機(jī)器人軟件ChatGPT,憑借類人的語言理解和表達(dá)能力,引發(fā)AI產(chǎn)業(yè)范式革命。通過拆解ChatGPT,我們發(fā)現(xiàn):1)單一大模型或為未來AI訓(xùn)練主流方向;2)大模型訓(xùn)練可以積累底層語言能力,但需要大算力支持;3)預(yù)訓(xùn)練語言模型和Transformer架構(gòu)是模型底層能力的根源;4)ChatGPT商業(yè)化應(yīng)用前景廣闊。基于此,我們認(rèn)為國產(chǎn)廠商或?qū)⒂?xùn)練出自己的GPT模型,AI產(chǎn)業(yè)有望迎來景氣周期。 背景:發(fā)源于OpenAI,成名于生成式語言 OpenAI于2015年在舊金山成立,主要從事人工智能研究。2019年OpenAI收到微軟注資 10億美元,就Azure業(yè)務(wù)開發(fā)人工智能技術(shù)。2020年發(fā)布GPT-3語言模型,由微軟獲得獨家授權(quán)。2022年,OpenAI在GPT-3.5的基礎(chǔ)上推出了ChatGPT,強(qiáng)化了人工智能的語言對話能力,引起社會廣泛關(guān)注。2023年,微軟擬對OpenAI追加數(shù)十億美元投資,利用自身算力基礎(chǔ)設(shè)施資源發(fā)揮與OpenAI業(yè)務(wù)協(xié)同效應(yīng),深入布局生成式AI技術(shù)。 原理:AI大模型里程碑式的勝利 ChatGPT采用監(jiān)督學(xué)習(xí)+獎勵模型進(jìn)行語言模型訓(xùn)練,主要包括三個步驟:1)第一階段:訓(xùn)練監(jiān)督策略模型。在ChatGPT模型的訓(xùn)練過程中,需要標(biāo)記者的參與監(jiān)督過程;2)第二階段:訓(xùn)練獎勵模型。借助標(biāo)記者的人工標(biāo)注,訓(xùn)練出合意的獎勵模型,為監(jiān)督策略建立評價標(biāo)準(zhǔn);3)第三階段:采用近端策略優(yōu)化進(jìn)行強(qiáng)化學(xué)習(xí)。通過監(jiān)督學(xué)習(xí)策略生成PPO模型,將最優(yōu)結(jié)果用于優(yōu)化和迭代原有的PPO模型參數(shù)。 我們認(rèn)為,ChatGPT的訓(xùn)練過程采用單一模型+小樣本學(xué)習(xí)+人類微調(diào)監(jiān)督方式進(jìn)行,取得了良好效果,驗證了AI大模型應(yīng)用前景,大模型路線有望成為未來主流。 模型:三個維度拆解GPT模型特征 我們認(rèn)為,ChatGPT的成功離不開AI大模型的加持,強(qiáng)大的算法訓(xùn)練模型,使得ChatGPT在迭代中獲得實現(xiàn)接近自然語言的表達(dá)能力。拆解模型來看: 1)ChatGPT使用單一大模型,積累強(qiáng)大底層通用能力,背后來自微軟豐富的算力資源支持,并通過引入監(jiān)督學(xué)習(xí),有效填補(bǔ)了大模型同質(zhì)化漏洞; 2)模型的具體訓(xùn)練模式,采用的是預(yù)訓(xùn)練語言模型,而預(yù)訓(xùn)練語言模型無需人工標(biāo)簽,具備高效性、通用性與正則化等內(nèi)生優(yōu)勢,且二代模型具備上下文交互能力,推動模型語義理解能力升級; 3)Transformer是大模型高效運行的根基,天然適合高并發(fā)訓(xùn)練,通過編碼器堆疊實現(xiàn)底層架構(gòu)搭建。 應(yīng)用:打開AIGC應(yīng)用新局面 ChatGPT屬于AIGC的具體應(yīng)用,相比過去的AI產(chǎn)品,在模型類型、應(yīng)用領(lǐng)域、商業(yè)化等層面呈現(xiàn)出新的特點。 1)技術(shù)方面:ChatGPT屬于自然語言處理領(lǐng)域,與早期的自然語言技術(shù)相比,ChatGPT采用大模型進(jìn)行訓(xùn)練,并加入人工反饋增強(qiáng)學(xué)習(xí)(RLHF)方法,實現(xiàn)了效果提升; 2)應(yīng)用方面:ChatGPT屬于生成式AI,相比于分析型AI,不局限于已有的內(nèi)容,已在文藝創(chuàng)作,代碼處理,營銷等多個創(chuàng)造性場景內(nèi)得到應(yīng)用; 3)商業(yè)化方面:ChatGPT在商業(yè)化方面彰顯出強(qiáng)于以往AI應(yīng)用的潛力,一方面用戶數(shù)快速增長,另一方面得到了微軟為代表的科技巨頭的支持,應(yīng)用有望快速推廣。 風(fēng)險提示:宏觀經(jīng)濟(jì)波動;下游需求不及預(yù)期。 01 背景:發(fā)源于OpenAI,成名于生成式語言 OpenAI是一家世界領(lǐng)先的非營利性人工智能研究公司。OpenAI于2015年在舊金山成立,是一家非營利的人工智能研究公司,公司的目標(biāo)是以最有可能造福全人類的方式推進(jìn)人工智能,而不受財務(wù)回報需求的約束。OpenAI創(chuàng)始人背景深厚,由埃隆·馬斯克與硅谷孵化器Y Combinator投資人山姆·阿爾特曼等人聯(lián)合創(chuàng)立。公司研究人員經(jīng)驗豐富,包括前Google Brain研究科學(xué)家伊利亞·蘇茨凱弗與前Stripe首席技術(shù)官格雷格·布羅克曼等世界一流研究工程師與科學(xué)家。 微軟持續(xù)增資,布局生成式AI技術(shù)。2018年,隨著特斯拉對AI的應(yīng)用深入,為避免潛在利益沖突,馬斯克主動離任董事會,僅保留捐資人和顧問的身份。由于AI訓(xùn)練花費金額巨大,2019年公司從非營利性公司轉(zhuǎn)向部分盈利公司,成立了OpenAI LP利潤上限子公司,即任何對OpenAI LP投資的收益都將統(tǒng)一轉(zhuǎn)移至一家非盈利公司,回報達(dá)到投資的100倍后進(jìn)行利潤分配。同年,OpenAI收到微軟注資 10億美元,就Azure業(yè)務(wù)開發(fā)人工智能技術(shù)。2020年發(fā)布GPT-3語言模型,由微軟獲得獨家授權(quán)。2022年發(fā)布ChatGPT的自然語言生成式模型,帶來更大潛在應(yīng)用空間。2023年,微軟擬對OpenAI追加數(shù)十億美元投資,利用自身算力基礎(chǔ)設(shè)施資源發(fā)揮與OpenAI業(yè)務(wù)協(xié)同效應(yīng),深入布局生成式AI技術(shù)。 OpenAI產(chǎn)品發(fā)布密集,產(chǎn)品涵蓋音頻制作、圖像生成和語言對話人工智能。2016年,推出用于開發(fā)和比較強(qiáng)化學(xué)習(xí)算法的工具包OpenAI Gym,加速公開社會中RL研究進(jìn)度。同時推出Universe軟件平臺,用于測試和訓(xùn)練 AI 在全球游戲、網(wǎng)站和其他應(yīng)用程序中的智能程度。2019年,OpenAI推出深度神經(jīng)網(wǎng)絡(luò)MuseNet,可以使用 4 種不同的樂器生成 10 分鐘的音樂作品以及最終模型版本的GPT-2。2020年,研發(fā)團(tuán)隊在GPT-2的基礎(chǔ)上拓展參數(shù),發(fā)布了GPT-3語言模型。2021年,發(fā)布了轉(zhuǎn)換器語言模型DALL·E,從文本描述生成圖像。2022年,OpenAI在GPT-3.5的基礎(chǔ)上推出了ChatGPT,強(qiáng)化了人工智能的語言對話能力,引起社會廣泛關(guān)注。
OpenAI當(dāng)前盈利主要通過付費API接口,并嘗試拓展盈利模式。目前,OpenAI提供GPT-3、Codex以及DALL·E的API數(shù)據(jù)接口,分別執(zhí)行用戶自然語言任務(wù)、自然語言轉(zhuǎn)換為代碼的任務(wù)以及創(chuàng)建和編輯圖像的任務(wù)。API接口根據(jù)類型不同以流量收費,比如圖像模型以分辨率分類按張數(shù)收費,語言模型則以基于的子模型型號按字符數(shù)收費。OpenAI API盈利情況較好,據(jù)路透社數(shù)據(jù),OpenAI 2022年收入數(shù)千萬美元,公司預(yù)計2023與2024年收入分別為2億美元和10億美元。同時,OpenAI正嘗試拓展自身盈利模式,2023年1月試點推出訂閱制ChatGPT Plus,收取每月20美元的會員費以得到各類優(yōu)先服務(wù)。
02 原理:AI大模型里程碑式的勝利 ChatGPT采用監(jiān)督學(xué)習(xí)+獎勵模型進(jìn)行語言模型訓(xùn)練。ChatGPT使用來自人類反饋的強(qiáng)化學(xué)習(xí) (RLHF) 來訓(xùn)練該模型。首先使用監(jiān)督微調(diào)訓(xùn)練了一個初始模型:人類 AI 訓(xùn)練員提供對話,他們在對話中扮演雙方——用戶和 AI 助手。其次,ChatGPT讓標(biāo)記者可以訪問模型編寫的建議,以幫助他們撰寫回復(fù)。最后,ChatGPT將這個新的對話數(shù)據(jù)集與原有數(shù)據(jù)集混合,將其轉(zhuǎn)換為對話格式。具體來看,主要包括三個步驟: 1)第一階段:訓(xùn)練監(jiān)督策略模型。在ChatGPT模型的訓(xùn)練過程中,需要標(biāo)記者的參與監(jiān)督過程。首先,ChatGPT會從問題數(shù)據(jù)集中隨機(jī)抽取若干問題并向模型解釋強(qiáng)化學(xué)習(xí)機(jī)制,其次標(biāo)記者通過給予特定獎勵或懲罰引導(dǎo)AI行為,最后通過監(jiān)督學(xué)習(xí)將這一條數(shù)據(jù)用于微調(diào)GPT3.5模型。 2)第二階段:訓(xùn)練獎勵模型。這一階段的主要目標(biāo),在于借助標(biāo)記者的人工標(biāo)注,訓(xùn)練出合意的獎勵模型,為監(jiān)督策略建立評價標(biāo)準(zhǔn)。訓(xùn)練獎勵模型的過程同樣可以分為三步:1、抽樣出一個問題及其對應(yīng)的幾個模型輸出結(jié)果;2、標(biāo)記員將這幾個結(jié)果按質(zhì)量排序;3、將排序后的這套數(shù)據(jù)結(jié)果用于訓(xùn)練獎勵模型。 3)第三階段:采用近端策略優(yōu)化進(jìn)行強(qiáng)化學(xué)習(xí)。近端策略優(yōu)化(Proximal Policy Optimization)是一種強(qiáng)化學(xué)習(xí)算法,核心思路在于將Policy Gradient中On-policy的訓(xùn)練過程轉(zhuǎn)化為Off-policy,即將在線學(xué)習(xí)轉(zhuǎn)化為離線學(xué)習(xí)。具體來說,也就是先通過監(jiān)督學(xué)習(xí)策略生成PPO模型,經(jīng)過獎勵機(jī)制反饋最優(yōu)結(jié)果后,再將結(jié)果用于優(yōu)化和迭代原有的PPO模型參數(shù)。往復(fù)多次第二階段和第三階段,從而得到參數(shù)質(zhì)量越來越高的ChatGPT模型。
從ChatGPT的訓(xùn)練原理中,我們不難發(fā)現(xiàn),這一訓(xùn)練過程存在幾個特點: 1)采用的是單一大模型。在GPT模型興起之前,大多數(shù)AI模型主要是針對特定應(yīng)用場景需求進(jìn)行訓(xùn)練的小模型,存在通用性差、訓(xùn)練數(shù)據(jù)少、適應(yīng)范圍小的弊端。而我們看到,ChatGPT雖然在過程中使用了獎勵模型等輔助手段,但最終用于實現(xiàn)自然語言理解和生成式功能的主模型只有一個,但卻在語義理解、推理、協(xié)作等方面表現(xiàn)出了更強(qiáng)能力。因此,我們認(rèn)為,ChatGPT的成功,驗證了參數(shù)增長、訓(xùn)練數(shù)據(jù)量增大,對AI模型的重要意義。 2)采用的是小樣本學(xué)習(xí)方法。在小樣本學(xué)習(xí)(Few-shot Learning)方法下,AI預(yù)訓(xùn)練模型在不必使用大量標(biāo)記的訓(xùn)練數(shù)據(jù),就可以建立起比較通用的泛化能力。簡單來說,小樣本學(xué)習(xí)即是在給定有限信息和較少訓(xùn)練數(shù)據(jù)的情況下,嘗試對總體規(guī)律進(jìn)行理解和預(yù)測,這一過程類似于“學(xué)習(xí)如何去學(xué)習(xí)”。對于小樣本學(xué)習(xí)在ChatGPT中的應(yīng)用,我們認(rèn)為,這一方法解決了大模型數(shù)據(jù)標(biāo)注工作量巨大的問題,是模型得以迅速迭代的基礎(chǔ)。 3)采用人類反饋微調(diào)監(jiān)督學(xué)習(xí)。ChatGPT是從GPT3.5(即InstructGPT)改進(jìn)而來的版本,相比于前代,ChatGPT主要變化在于采用了人類反饋機(jī)制,對監(jiān)督學(xué)習(xí)過程進(jìn)行微調(diào)。本質(zhì)上來說,無論是大模型還是小樣本學(xué)習(xí),解決的目標(biāo)都是提升訓(xùn)練的效率,但真正令ChatGPT實現(xiàn)結(jié)果準(zhǔn)確、合理的關(guān)鍵技術(shù),還是在于加入了人類反饋。據(jù)Long Ouyang等人2022年發(fā)表的《Training language models to follow instructions with human feedback》,InstructGPT僅用13億個參數(shù)就實現(xiàn)了比1750億個參數(shù)的GPT-3更優(yōu)的輸出解雇,顯著提升了真實性、減少了有害信息的輸出。 03 模型:三個維度拆解GPT模型特征 拆解GPT模型可以幫助理解ChatGPT之所以強(qiáng)大的原因。從前面的討論中,我們發(fā)現(xiàn),ChatGPT的成功離不開AI大模型的加持,強(qiáng)大的算法訓(xùn)練模型,使得ChatGPT在迭代中獲得實現(xiàn)接近自然語言的表達(dá)能力。而這一切的核心,都來自一個模型:GPT模型。因此,我們以GPT模型為核心,從三個維度出發(fā)去拆解GPT模型,以此進(jìn)一步挖掘ChatGPT強(qiáng)大背后的原因。 維度一:單一大模型 ChatGPT使用單一大模型,積累強(qiáng)大底層通用能力。對于ChatGPT所用到的訓(xùn)練模型,從模型體量來看,屬于AI單一大模型的范疇。對比傳統(tǒng)AI訓(xùn)練模型,單一大模型的“大”體現(xiàn)在:1)更多的模型參數(shù)量;2)更大的數(shù)據(jù)處理量;3)更大的訓(xùn)練計算量。模型體量的增大,帶來的最直接變化,在于AI模型通用能力的跨越式提升。傳統(tǒng)的AI訓(xùn)練方法,大多以單一知識領(lǐng)域的應(yīng)用為目標(biāo),主要使用特定領(lǐng)域有標(biāo)注的數(shù)據(jù)進(jìn)行模型訓(xùn)練,模型通用性差,如果更換使用場景,往往需要進(jìn)行重新訓(xùn)練。而大模型的訓(xùn)練,一是能使用的數(shù)據(jù)來源更加廣泛,可用數(shù)據(jù)量更大;二是對標(biāo)注要求更低,只需要對數(shù)據(jù)進(jìn)行微調(diào)甚至不調(diào)就可以用于訓(xùn)練;三是輸出的能力更加泛化通用,在語義理解、邏輯推理、文本表達(dá)等方面能力更出眾。 從通用到特殊,單一大模性具備豐富的垂直領(lǐng)域應(yīng)用潛力。基于對底層能力的訓(xùn)練,AI大模型積累了對于數(shù)據(jù)背后特征和規(guī)則的理解,因此在進(jìn)行垂直領(lǐng)域的時候,可以做到“舉一反三”。這一過程,與人類學(xué)習(xí)知識的過程類似,都是先學(xué)習(xí)如何去學(xué)習(xí),再構(gòu)建聽說讀寫能力,最后在不同學(xué)科深入探索。AI大模型也是一樣,在完成通用能力積累之后,可以將學(xué)習(xí)能力移植到需要應(yīng)用的特定領(lǐng)域,通過投喂垂直領(lǐng)域數(shù)據(jù),可以使模型達(dá)到目標(biāo)場景所需的性能。
大模型訓(xùn)練需要大算力支持,ChatGPT坐擁豐富算力資源。我們認(rèn)為,從大模型自身的發(fā)展過程來看,參數(shù)量的變化是一個非常值得關(guān)注的指標(biāo)。從最早的ResNet、Inception等模型,到如今的GPT,模型參數(shù)量不斷增長。2018年前后OpenAI先后推出Transformer和GPT-1模型,參數(shù)量來到1億級別。隨后谷歌提出3億參數(shù)的BERT模型,參數(shù)量再次增長。2019、2020年,OpenAI加速追趕,陸續(xù)迭代出GPT-2、GPT-3模型,參數(shù)量分別為15億、1750億,實現(xiàn)模型體量質(zhì)的飛躍。另一方面,參數(shù)運算需要大規(guī)模并行計算的支持,核心難點在于內(nèi)存交換效率,取決于底層GPU內(nèi)存容量。以英特爾為例,從2017年V100的32GB內(nèi)存到2020年A100的80GB內(nèi)存,GPU內(nèi)存容量的提升量級與模型參數(shù)相比顯然不在同一量級。而ChatGPT的解決方法,則是與微軟聯(lián)手,借助Azure強(qiáng)大的基礎(chǔ)算力設(shè)施,為ChatGPT提供訓(xùn)練支持。
AI大模型會帶來特性涌現(xiàn)和模型同質(zhì)化問題。2021年8月,李飛飛等學(xué)者于arXiv發(fā)表《On the Opportunities and Risk of Foundation Models》,將大模型統(tǒng)一命名為Foundation Models,即基礎(chǔ)模型或基石模型。此外,論文還提出基礎(chǔ)模型面臨的兩大問題:1)同質(zhì)化。盡管基礎(chǔ)模型基于標(biāo)準(zhǔn)的深度學(xué)習(xí)和遷移學(xué)習(xí),但其規(guī)模導(dǎo)致了新能力的涌現(xiàn),其在眾多任務(wù)中的有效性激勵了同質(zhì)化的產(chǎn)生;2)特性涌現(xiàn)。盡管基礎(chǔ)模型即將被廣泛部署,但目前研究者對其如何工作、何時失效以及其涌現(xiàn)的特性衍生了何種能力尚缺乏清晰的理解。舉例來看,如機(jī)器學(xué)習(xí)的引入,使得算法從數(shù)據(jù)案例中學(xué)會了如何執(zhí)行(自動推斷);深度學(xué)習(xí)的引入,涌現(xiàn)了用于預(yù)測的高級特征;基礎(chǔ)模型的引入,涌現(xiàn)了上下文學(xué)習(xí)等高級功能。但在這一過程中,機(jī)器學(xué)習(xí)使學(xué)習(xí)算法變得同質(zhì)化(例如,邏輯回歸),深度學(xué)習(xí)使模型架構(gòu)同質(zhì)化(例如,卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)),大模型使得下游模型同質(zhì)化(例如,下游模型一定會繼承上游模型缺陷)。 ChatGPT通過引入監(jiān)督學(xué)習(xí),有效填補(bǔ)了大模型同質(zhì)化漏洞。從本質(zhì)上來說,上下游模型同質(zhì)化的問題無法被完全解決,OpenAI選擇的方向是盡可能填補(bǔ)缺陷漏洞。從GPT-3.5版本開始,OpenAI團(tuán)隊在模型中引入了監(jiān)督學(xué)習(xí)過程。在監(jiān)督學(xué)習(xí)模式下,人類反饋機(jī)制開始加入到模型訓(xùn)練過程,從而不斷糾正模型生成結(jié)果,逐步提升輸出結(jié)果的準(zhǔn)確性和真實性。隨著大模型朝著越來越符合人類期望的方向演進(jìn),對話邏輯和表達(dá)方式逐漸逼近人類水平,才最終達(dá)到我們今天所看到的樣子。
AI大模型加持下,ChatGPT有望加速迭代。通過拆解單一大模型的原理、特征及發(fā)展歷程,我們發(fā)現(xiàn)單一大模型的引入,是ChatGPT強(qiáng)大語言的根本來源。展望未來,我們認(rèn)為ChatGPT或?qū)⒃诖竽P图映窒录铀俚?,主要因為?)大模型訓(xùn)練效果取決于數(shù)據(jù)量,目前ChatGPT僅使用2021年之前的數(shù)據(jù),隨著更多數(shù)據(jù)的加入,模型底層語言能力有望進(jìn)一步加強(qiáng);2)大模型具備能力遷移潛力,垂直領(lǐng)域應(yīng)用或?qū)⒓铀貱hatGPT進(jìn)化;3)OpenAI背靠微軟,大算力資源為模型演進(jìn)提供保障;4)隨著軟件用戶規(guī)模持續(xù)擴(kuò)張,用戶自身的反饋又會帶來類似監(jiān)督學(xué)習(xí)的效果,或?qū)覥hatGPT加速迭代。基于此,我們看好AI大模型及ChatGPT未來應(yīng)用前景,商業(yè)化落地或?qū)⒓涌臁?/span> 維度二:預(yù)訓(xùn)練語言模型 拆解模型來看,主要關(guān)注預(yù)訓(xùn)練語言模型和Transformer特征抽取器。我們前面討論了ChatGPT背后所使用的AI大模型及其迭代過程,但如果我們將拆解動作繼續(xù)深入,在更細(xì)顆粒度的視角下,其實可以將訓(xùn)練模型做進(jìn)一步的拆解。實際上,GPT(General Pre-Training)即通用預(yù)訓(xùn)練語言模型,簡單來說就是一種利用Transformer作為特征抽取器,基于語言模型進(jìn)行預(yù)訓(xùn)練的模型。因此,接下來我們從模型的兩個關(guān)鍵特征出發(fā),分別從預(yù)訓(xùn)練語言模型和Transformer特征抽取器的角度來分析GPT模型的迭代過程。 預(yù)訓(xùn)練語言模型無需人工標(biāo)簽,為NLP研究帶來質(zhì)變。預(yù)訓(xùn)練屬于遷移學(xué)習(xí)的范疇,其思想是在利用標(biāo)注數(shù)據(jù)之前,先利用無標(biāo)注的數(shù)據(jù),即純文本數(shù)據(jù)訓(xùn)練模型,從而使模型能夠?qū)W到一些潛在的跟標(biāo)注無關(guān)的知識,最終在具體的任務(wù)上,預(yù)訓(xùn)練模型就可以利用大量的無標(biāo)注數(shù)據(jù)知識,標(biāo)志著自然語言處理模型進(jìn)入了大規(guī)模復(fù)制階段。從實現(xiàn)原理上來看,預(yù)訓(xùn)練語言模型是通過計算某個詞句w的出現(xiàn)概率,即p(W),在給定詞句的情況下,可以自行計算出后一個詞或句出現(xiàn)的概率。因此,GPT的訓(xùn)練可以在無人工標(biāo)簽的基礎(chǔ)上進(jìn)行,通過連續(xù)不斷地預(yù)測、迭代參數(shù)、再預(yù)測,模型最終實現(xiàn)語言能力的學(xué)習(xí)。
預(yù)訓(xùn)練語言模型與神經(jīng)網(wǎng)絡(luò)語言模型的區(qū)別在于初始參數(shù)的選取。上一代神經(jīng)網(wǎng)絡(luò)語言模型訓(xùn)練思想是基于后向傳播(BP)算法:先通過對網(wǎng)絡(luò)模型參數(shù)進(jìn)行隨機(jī)初始化,然后通過優(yōu)化算法去優(yōu)化模型參數(shù)。而預(yù)訓(xùn)練語言模型的初始參數(shù)并非隨機(jī),而是先通過一個任務(wù)訓(xùn)練得到一套模型參數(shù),再以這套參數(shù)對模型初始化,進(jìn)而繼續(xù)反復(fù)訓(xùn)練。 預(yù)訓(xùn)練語言模型的內(nèi)生優(yōu)勢:高效性、通用性與正則化。模型初始參數(shù)選取方式不同使得預(yù)訓(xùn)練語言模型擁有諸多優(yōu)勢:1)訓(xùn)練高效性,神經(jīng)網(wǎng)絡(luò)語言模型中隨機(jī)的初始參數(shù)加大訓(xùn)練復(fù)雜度,而預(yù)訓(xùn)練能得到較好的初始化參數(shù),后續(xù)訓(xùn)練更加高效。2)語言通用性,經(jīng)過預(yù)訓(xùn)練的語言模型更接近通用語言表示(Universial Language Representations),適應(yīng)于多領(lǐng)域?qū)嶋H應(yīng)用場景。3)提供正則化,由于模型復(fù)雜性高,神經(jīng)網(wǎng)絡(luò)模型的優(yōu)化算法易陷入過度擬合,導(dǎo)致實際測試表現(xiàn)遠(yuǎn)低于樣本測試表現(xiàn)。預(yù)訓(xùn)練模型相當(dāng)于一個正則化過程,僅通過幾步精修得到模型,很大程度上避免了過度擬合。 預(yù)訓(xùn)練語言模型的應(yīng)用優(yōu)勢:對數(shù)據(jù)處理程度要求低,可利用海量無標(biāo)注數(shù)據(jù)。在大多數(shù)基于統(tǒng)計方法和神經(jīng)網(wǎng)絡(luò)的自然語言處理模型中都需要大量已標(biāo)注的數(shù)據(jù)集來滿足模型訓(xùn)練,但并非所有的訓(xùn)練任務(wù)都能獲取足夠的標(biāo)注信息。同時,隨著模型復(fù)雜度和參數(shù)數(shù)量的增加,大多數(shù)數(shù)據(jù)集的大小難以支持訓(xùn)練。而預(yù)訓(xùn)練模型能先通過利用無標(biāo)注的數(shù)據(jù)訓(xùn)練模型,解決傳統(tǒng)模型無法解決的實際問題。而且由于預(yù)訓(xùn)練語言模型可以利用現(xiàn)實世界中大量的純文本數(shù)據(jù)訓(xùn)練,擴(kuò)大了其訓(xùn)練范圍和規(guī)模,擁有發(fā)掘大模型(Foundation Models)的潛力。 對比兩代預(yù)訓(xùn)練語言模型,二代模型具備上下文交互能力。第一代預(yù)訓(xùn)練模型是靜態(tài)詞向量模型,經(jīng)訓(xùn)練給每一個詞賦予靜態(tài)詞向量,讓相似的詞聚集在一起,實現(xiàn)了符號空間到向量空間的映射,經(jīng)典結(jié)構(gòu)有Continuous Bag-of-Words(CBOW)和Skip-Gram(SG)等。而由于第一代模型的詞向量靜態(tài)性,使其不能結(jié)合上下文,進(jìn)而有無法分辯同義詞等缺陷。最新的第二代預(yù)訓(xùn)練模型,包括BERT、GPT等則在此基礎(chǔ)上允許靜態(tài)詞向量與上下文交互,這種動態(tài)詞向量優(yōu)化了同義詞問題。目前,第二代預(yù)訓(xùn)練模型的標(biāo)準(zhǔn)范式是“預(yù)訓(xùn)練+微調(diào)”:首先在大量的文本上訓(xùn)練出一個預(yù)訓(xùn)練語言模型,再根據(jù)實際情況對得到的預(yù)訓(xùn)練語言模型進(jìn)行微調(diào),加強(qiáng)了模型對下游應(yīng)用場景的契合度。
維度三:Transformer特征抽取器 Transformer是大模型高效運行的根基。前面我們從單一大模型出發(fā),對預(yù)訓(xùn)練語言模型進(jìn)行了拆解。但如果我們繼續(xù)深入,會發(fā)現(xiàn)語言模型仍然不是GPT模型的最底層,語言模型之下還需要有具體的調(diào)度架構(gòu)和運算邏輯,來實現(xiàn)最終的計算。我們認(rèn)為,Transformer特征抽取器在GPT模型中,就承擔(dān)了這樣的一個角色,直接決定了AI大模型能否實現(xiàn)高效率的運算和學(xué)習(xí)。 Transformer模型較RNN并行計算能力更強(qiáng),提升了大模型訓(xùn)練效率。Transformer模型最早由谷歌在2017年提出,屬于深度學(xué)習(xí)模型架構(gòu)的一種,特點是在學(xué)習(xí)中引入了注意力機(jī)制。對比循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)來看,Transformer與RNN均對輸入數(shù)據(jù),如自然語言等,進(jìn)行順序處理,并主要應(yīng)用于翻譯和文本摘要等工作。但Transformer與RNN不同的是,Transformer中的注意機(jī)制可以為輸入序列中的任何字符提供上下文,因此可以一次處理所有輸入,而不是一次只處理一個詞。因此,與RNN相比,Transformer可以實現(xiàn)更大規(guī)模的并行計算,大大減少了模型訓(xùn)練時間,使得大規(guī)模AI模型得以被應(yīng)用。 Transformer解碼模塊是GPT模型的核心要建。從Transformer架構(gòu)細(xì)節(jié)來看,核心是由編碼模塊和解碼模塊構(gòu)成,而GPT模型只用到了解碼模塊。拆解模塊來看,大致分為三層:前饋神經(jīng)網(wǎng)絡(luò)層、編碼/解碼自注意力機(jī)制層(Self-Attention)、自注意力機(jī)制掩碼層。其中,自注意力機(jī)制層主要作用在于計算某個單詞對于全部單詞的權(quán)重(即Attention),掩碼層則需要在這一過程中幫助模型屏蔽位于計算位置右側(cè)尚未出現(xiàn)的單詞,最后輸出的向量結(jié)果輸入前饋神經(jīng)網(wǎng)絡(luò),完成模型參數(shù)計算。
解碼模塊大量堆疊,最終形成GPT模型完整架構(gòu)。在GPT模型中,解碼模塊相當(dāng)于基本架構(gòu)單元,通過彼此堆疊的方式,拼湊成最終我們看到的GPT模型底層架構(gòu)。這里有兩個值得關(guān)注的要點:1)解碼模塊的數(shù)量決定了模型的規(guī)模,GPT-1一般有12個模塊,GPT-2有48個,GPT-3則有96個模塊;2)針對模塊輸出的結(jié)果還需要進(jìn)行Finetune(對模型進(jìn)行調(diào)優(yōu))。
04 應(yīng)用:打開AIGC應(yīng)用新局面 ChatGPT屬于AIGC的具體應(yīng)用,相比過去的AI產(chǎn)品,在模型類型、應(yīng)用領(lǐng)域、商業(yè)化等層面呈現(xiàn)出新的特點。1)技術(shù)方面:ChatGPT屬于自然語言處理領(lǐng)域,與早期的自然語言技術(shù)相比,ChatGPT采用大模型進(jìn)行訓(xùn)練,并加入人工反饋增強(qiáng)學(xué)習(xí)(RLHF)方法,實現(xiàn)了效果的明顯提升;2)應(yīng)用方面:ChatGPT屬于生成式AI,相比于分析型AI,不局限于已有的內(nèi)容,已在文藝創(chuàng)作,代碼處理,營銷等多個創(chuàng)造性場景內(nèi)得到應(yīng)用;3)商業(yè)化方面:ChatGPT在商業(yè)化方面彰顯出強(qiáng)于以往AI應(yīng)用的潛力,一方面用戶數(shù)快速增長,另一方面得到了微軟為代表的科技巨頭的支持,應(yīng)用有望快速推廣。 技術(shù)新:Transformer架構(gòu)+RLHF,NLP領(lǐng)域迎來新突破 Transformer架構(gòu)逐步成為主流。自然語言處理從技術(shù)的發(fā)展可分為三個時期:1)一般機(jī)器學(xué)習(xí)模型階段(2013年前):自然語言處理多采用機(jī)器學(xué)習(xí)和一般的統(tǒng)計學(xué)方法來分析詞語或者句子之間的聯(lián)系;2)深度學(xué)習(xí)模型階段(2013-2017年):深度學(xué)習(xí)算法被引入NLP領(lǐng)域,在這一階段內(nèi)主要通過增加層深和模型容量提升訓(xùn)練效果;3)Transformer架構(gòu)逐步成為主流(2017至今):2017年transformer架構(gòu)面世,使得深度學(xué)習(xí)對語言的理解更加深入,基于transformer架構(gòu)的GPT及BERT的陸續(xù)發(fā)布,影響力進(jìn)一步擴(kuò)大。
ChatGPT模型優(yōu)勢在于語言生成。2017年后,應(yīng)用范圍最廣的是BERT和GPT模型以及在這些模型基礎(chǔ)上做出的改進(jìn)模型。BERT模型在結(jié)構(gòu)上是一個多層的雙向transformer的Encoder模型,GPT是由12個Transformer中的Decoder模塊經(jīng)修改后組成。相比來說,BERT模型的核心優(yōu)勢在于自然語言理解,GPT模型的核心優(yōu)勢在于自然語言生成。BERT的改進(jìn)模型有RoBERTa、ALBERT等,GPT的改進(jìn)模型有GPT2、GPT3、ChatGPT等。隨著人工反饋增強(qiáng)學(xué)習(xí)(RLHF)方法的加入,模型能夠在與人類標(biāo)注者互動時通過人類的反饋進(jìn)行強(qiáng)化學(xué)習(xí)。人類標(biāo)注者則可對初始模型生成的結(jié)果進(jìn)行修改、比較和排序,幫助模型進(jìn)行訓(xùn)練。ChatGPT在效果上取得重大突破,在語言生成領(lǐng)域形成優(yōu)勢。
應(yīng)用新:生成式AI應(yīng)用于創(chuàng)造性工作 生成式AI應(yīng)用于創(chuàng)造性工作。AI可分為生成式AI和分析型AI,其中分析型AI(Analytical AI),主要在給定數(shù)據(jù)的情況下,通過分析找出規(guī)律和關(guān)系,并在此基礎(chǔ)上生成報告或給出建議。比如通過追蹤客戶行為以刻畫用戶畫像,并基于此進(jìn)行個性化推薦,實現(xiàn)精準(zhǔn)營銷;通過收集城市中傳感器的大量數(shù)據(jù)并分析,預(yù)測天氣及環(huán)境污染情況,從而幫助相關(guān)部門進(jìn)行政策制定。不同于分析型AI局限于分析已有內(nèi)容,生成式AI(Generative AI)可以通過學(xué)習(xí)已有數(shù)據(jù)和信息生成多種形式的新的內(nèi)容,在創(chuàng)造性工作的領(lǐng)域進(jìn)行應(yīng)用,目前生成式AI的應(yīng)用主要包括生成文本、圖像、對話、音視頻、代碼、3D等。
ChatGPT是典型的生成式AI。ChatGPT通過學(xué)習(xí)大量語料并通過生成模型生成文本回答,其基礎(chǔ)GPT-3是一個大型語言模型。該模型通過對大量語料的預(yù)訓(xùn)練,學(xué)習(xí)了語言的語法、語義、語用等特征,并通過對語言的生成任務(wù)進(jìn)行微調(diào),以適應(yīng)各種應(yīng)用場景。目前,除了ChatGPT外,有大量AIGC應(yīng)用產(chǎn)品基于GPT-3模型。
商業(yè)化潛力:巨頭紛紛發(fā)力,商業(yè)化潛力較大 ChatGPT用戶突增彰顯商業(yè)化潛力,內(nèi)容生成或成ChatGPT重要應(yīng)用。據(jù)各公司官網(wǎng),ChatGPT從0到100萬用戶數(shù)僅花費5天,速度遠(yuǎn)超其他平臺。從活躍用戶角度,據(jù)Similarweb,2023年1月期間,ChatGPT平均每天約有1300萬獨立訪客,超出22年12月一倍。用戶數(shù)量的快速擴(kuò)大反映了ChatGPT具備較強(qiáng)的商業(yè)化潛力。
國內(nèi)外巨頭持續(xù)發(fā)力布局AIGC。AIGC(AI Generated Content)指由人工智能生成的內(nèi)容,包括文本、圖像、音頻、3D等多種類型,具有高效及自動化生產(chǎn)的特點。近年來谷歌、亞馬遜、百度等國內(nèi)外巨頭持續(xù)布局AIGC。2014年,谷歌以超5億美元的價格收購人工智能公司DeepMind;2023年3月,谷歌宣布向人工智能初創(chuàng)公司Anthropic投資約3億美元,建立新的合作伙伴關(guān)系;2022年11月,亞馬遜宣布與AI制圖平臺Stability AI合作,成為其首選云合作伙伴,同時為其提供亞馬遜Tradium芯片;2021年4月,華為諾亞方舟實驗室聯(lián)合多部門推出首個2000億參數(shù)中文預(yù)訓(xùn)練模型盤古α;2023年2月,百度官宣類ChatGPT大模型新項目文心一言(英文名 ERNIE Bot)。
風(fēng)險提示: 1、宏觀經(jīng)濟(jì)波動。若宏觀經(jīng)濟(jì)波動,產(chǎn)業(yè)變革及新技術(shù)的落地節(jié)奏或?qū)⑹艿接绊?,宏觀經(jīng)濟(jì)波動還可能對IT投資產(chǎn)生負(fù)面影響,從而導(dǎo)致整體行業(yè)增長不及預(yù)期。 2、下游需求不及預(yù)期。若下游數(shù)字化需求不及預(yù)期,相關(guān)的數(shù)字化投入增長或慢于預(yù)期,致使行業(yè)增長不及預(yù)期。 |
|
|