小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

AI產(chǎn)業(yè)背后的大基建,誰會成為大基建背后的贏家?

 山峰云繞 2023-03-15 發(fā)布于貴州

https://www.toutiao.com/article/7210232882541888000/?log_from=ca57f5d94b20a_1678809963024

#科技之巔#

隨著ChatGPT的火爆,它帶動了一些相關(guān)的概念,其中最受關(guān)注的無疑是顯卡行業(yè)。如果你現(xiàn)在瀏覽英偉達的官網(wǎng),你會發(fā)現(xiàn)他們已經(jīng)自稱為人工智能計算的世界領(lǐng)導(dǎo)者。縱使科技風云變幻,唯有我黃教主啊穩(wěn)坐釣魚臺。

在過去的兩年中,由于某些難以言傳的原因,顯卡供應(yīng)緊缺。也許是因為人工智能的熱潮再次卷土重來,而ChatGPT爆發(fā)后,英偉達的股價從2023年1月開始飆升。毫無疑問,他們是這次AI大戰(zhàn)的贏家。甚至背后為英偉達提供PCB主板的惠州盛宏科技也隨之起飛。

今天我們來談?wù)揂I產(chǎn)業(yè)背后的大基建。雖然這是一個虛擬的行業(yè),但它最終還是依靠實體計算工具的支持。隨著AI的快速發(fā)展,這個基建規(guī)??赡艹尸F(xiàn)指數(shù)級的擴張。可以說,這是計算機發(fā)明以來人類對算力需求最高漲的時代。

那下一步,我們應(yīng)該注意些什么呢?在此之前,每一次ChatGPT訓(xùn)練都需要使用10,000個英偉達A100GPU芯片。因此,每次訓(xùn)練的成本約為450萬美元左右。這是相當大的成本,而現(xiàn)在的用戶數(shù)量已經(jīng)突破了1億人。據(jù)說,為了滿足如此龐大的需求,至少需要6.9萬塊A100GPU。這些GPU不僅要用于訓(xùn)練,還要負責用戶實際訪問時的推理過程,因此,用戶數(shù)量越大,對于GPU的需求量也越大。

現(xiàn)在,讓我們從AI產(chǎn)業(yè)與GPU背后的邏輯關(guān)系開始談起。第一,一種模式的訓(xùn)練本質(zhì)上是什么?在底層,這是一種乘積累加運算,先進行乘法,再將結(jié)果加起來。無論是處理圖像、文字還是聲音,任何深度學(xué)習過程都基于這個簡單的運算。從字面上看,這一過程就是不斷提取權(quán)重的過程。因此,對于AI模型的訓(xùn)練來說,相應(yīng)芯片的計算能力是非常關(guān)鍵的。

最初,像吳恩達加入谷歌的那個時期,AI的訓(xùn)練使用的是CPU。很明顯,CPU有一個問題,即大部分電路都是控制單元和存儲單元,而預(yù)算單元的比重相對較低。因為CPU注重邏輯編程,而不是用于大規(guī)模并行計算,所以后來大家嘗試使用GPU進行計算。

GPU的預(yù)算單元比重很大,而且可以進行并行計算,因此很適合用于AI的訓(xùn)練。在這里,我們要知道,GPU訓(xùn)練AI實際上有些大材小用,因為AI模型的數(shù)據(jù)精度通常要低于游戲?qū)︿秩镜囊?。由于?xùn)練AI的過程與游戲畫面渲染本質(zhì)上具有數(shù)學(xué)方面的一致性,因此,GPU作為可觸及的芯片并具備大規(guī)模并行架構(gòu),用于訓(xùn)練AI是最合適不過的。

然而,無論是CPU還是GPU,它們都不夠徹底,因為它們都基于馮諾伊曼架構(gòu),是通用處理器。因此,它們存在所謂的馮諾伊曼瓶頸。這意味著,無論是CPU還是GPU,每次運算的結(jié)果都必須先保存在寄存器中,然后在下一次運算時再調(diào)用。由于CPU或GPU的運算單元需要經(jīng)常訪問計算器,因此限制了數(shù)據(jù)的吞吐量,并且能耗也非常高。

因此,谷歌推出了所謂的TPU,張量處理單元,專門為深度學(xué)習開發(fā)的一種固定架構(gòu)的芯片。在深度學(xué)習中,張量可以被理解為一種數(shù)據(jù)容器或一種n維數(shù)據(jù)陣列。從左到右,它們分別是0維張量、1維張量、2維張量和3維張量。大多數(shù)人已經(jīng)見過這些深度學(xué)習中常見的數(shù)據(jù)矩陣,這就是張量的含義。

TPU是一種專門針對AI訓(xùn)練和推理所研發(fā)的ASIC,是一種專門的定制產(chǎn)品。與CPU和GPU相比,TPU大大降低了馮諾伊曼的瓶頸。其工作步驟如下:首先,將參數(shù)從內(nèi)存中加載到乘法器和加法器的矩陣中,然后將數(shù)據(jù)從內(nèi)存中加載。當一個乘法被執(zhí)行后,計算結(jié)果會傳遞到下一個乘法器,同時執(zhí)行加法操作。這樣,在大量運算和數(shù)據(jù)傳遞中,就不需要頻繁訪問內(nèi)存。這是因為電路的設(shè)計者知道具體要跑什么樣的算法,所以在物理架構(gòu)上直接針對這個算法來實現(xiàn)操作。這種設(shè)計顯著提高了數(shù)據(jù)吞吐量,同時能耗也可以控制得比較小。目前,谷歌的TPU已經(jīng)迭代了四個版本,單片已經(jīng)達到了每秒275萬億次運算。

然而,TPU作為一種ASIC芯片,它有一個問題,那就是它是固定函數(shù)的,意味著它只能用于一種算法,一旦被設(shè)計出來就不能干別的了。但是,AI領(lǐng)域的進展比較迅速,一些新的架構(gòu)和模型出來以后,原來的芯片可能就不能用了。這時,我們可以考慮一種折中的辦法,既能提高運算量,又具備一定的迭代能力,那就是FPGA,即現(xiàn)場可編程邏輯陣列。FPGA是一種可以編程的芯片,可以針對特定的應(yīng)用進行快速開發(fā)。相比ASIC,F(xiàn)PGA的門檻比較低,開發(fā)效率也比較高,而且設(shè)計流程比較簡單,因此這也是用于AI訓(xùn)練的一種芯片方案。這兩種方案實際上并非取代關(guān)系,只是服務(wù)不同規(guī)模。

舉例來說,ASIC的NRE費用是150萬美元,但是單位費用只有4美元,而FPGA的NRE費用是零,但是單位費用是8美元。兩種方案存在一個平衡點,即在低于40萬個單位時。ASIC實際上比較昂貴,F(xiàn)PGA比較便宜,但超過40萬個單位后,兩者的經(jīng)濟性就對調(diào)了。

因此,這里存在一個規(guī)?;膯栴},這也就意味著兩種芯片的部署階段有所區(qū)別。例如,在AI研發(fā)過程中或者剛剛推向市場時,使用FPGA來降低成本會更加適合,關(guān)鍵是可以快速迭代應(yīng)屆方案,因為需要不斷地優(yōu)化調(diào)整。而在產(chǎn)品相對穩(wěn)定、需要大規(guī)模部署時,ASIC的優(yōu)勢就比較明顯了,尤其是對于邊緣計算來說,芯片越小越好,這樣就可以繼承到一些IOT設(shè)備中。

在AI算力需求暴增的今天,這些工具廠商的前景是很大的。作為世界上最大的獨立顯卡開發(fā)商,英偉達在人工智能領(lǐng)域恰逢其時,如魚得水,長袖善舞。但是老黃其實也不能太驕傲,因為一旦AI大規(guī)模產(chǎn)業(yè)化,就會有競爭者加入。在ASIC和FPGA這條路上的AI芯片公司就有很多,其中就有可能會誕生下一個英偉達。這里有個問題需要解釋一下,既然ASIC和FPGA更適合做AI訓(xùn)練,那么為什么大家都在用英偉達的GPU呢?

一方面是因為直接采用現(xiàn)成的GPU比較方便,而且英偉達的CUDA也比較成熟,對開發(fā)者比較友好,所以很多數(shù)據(jù)中心都使用英偉達的GPU,只需要直接調(diào)用就可以了,路徑實際上是比較成熟方便的。另一方面是因為英偉達為了迎合AI,也在他的GPU架構(gòu)中增加了tensorcore張量核心來適配AI訓(xùn)練的場景,開發(fā)者也很容易就能夠調(diào)用。2017年英偉達發(fā)布了Volta架構(gòu),第一次在GPU中增加了專門做張量計算的核心。

根據(jù)前面所講的,這個就是專門用來做AI訓(xùn)練的。盡管整個GPU是一個混合精度多功能的,但是還是針對AI做的優(yōu)化。不久之后,英偉達又發(fā)布了Turing架構(gòu)。這一架構(gòu)允許GeForce系列的產(chǎn)品,也支持張量核心。這意味著一個用來打游戲的顯卡也可以做AI訓(xùn)練。當然,在GeForce中,張量核心的任務(wù)不是用來訓(xùn)練AI的,而是用來做圖像銳化處理的。英偉達于2020年發(fā)布了一個Ampere架構(gòu),它是一個專門為數(shù)據(jù)中心開發(fā)的A100GPU。這個A100是開頭提到的ChatGPT,用來做AI訓(xùn)練的那個芯片。

現(xiàn)在A100已經(jīng)過時了,最新的產(chǎn)品叫做H100,性能提升了9倍,用8,000塊GPU來訓(xùn)練一個3,950億參數(shù)的AI模型。A100需要7天,而H100只需要20個小時。這意味著,英偉達的算力核彈將在基礎(chǔ)設(shè)施層面加速AI的進化。目前看來,AI訓(xùn)練的大門幾乎都是由英偉達主宰,因為他基于GPU創(chuàng)造出了一系列豐富的解決方案。

除了像谷歌這樣的企業(yè)會自己開發(fā)TPU之外,大部分的公司,包括微軟在內(nèi),都采用英偉達的產(chǎn)品。當然,英特爾、AMD、高通、IBM、亞馬遜等大廠也在積極布局,但更傾向于在ASIC和FPGA領(lǐng)域探索。因此,到目前為止,市場格局還沒有確定,因為正如前面提到的,ASIC和FPGA在人工智能領(lǐng)域理論上比GPU有更多的優(yōu)勢,特別是在大規(guī)模部署后,成本優(yōu)勢將進一步反映出來。而英偉達的GPU呢,都屬于高性能產(chǎn)品。

它不僅可以做AI加速,還可以適用于科研和商業(yè)的很多領(lǐng)域,比如說流體力學(xué)計算等等。長遠來看,GPU在AI產(chǎn)業(yè)化的競爭中性價比可能會逐步喪失。前面提到AI芯片是分為訓(xùn)練和推理,相當于一個是在構(gòu)建這個模型,一個是在執(zhí)行這個模型。所以結(jié)合前面的講解,F(xiàn)PGA一般是數(shù)據(jù)中心用的比較多,而ASIC更多的是邊緣計算場景,也就是在終端設(shè)備上。從這個角度來看的話,ASIC板塊應(yīng)該不會存在絕對意義上的霸主,因為這個東西一般都是終端設(shè)備廠家自己去設(shè)計。

當然也會存在很多的創(chuàng)業(yè)公司來提供相應(yīng)的服務(wù)。但是FPGA不同?,F(xiàn)在全球的FPGA市場基本上是被AMD、英特爾、Lettice、Microsemi四大廠商所壟斷,市占率高達96%以上。其中,AMD是因為收購了FPGA商業(yè)化的鼻祖賽靈思,英特爾是因為收購了FPGA的發(fā)明者Altera公司。所以兩家巨頭一躍就成為了FPGA巨商。

在AI訓(xùn)練芯片領(lǐng)域,AMD和英特爾也是躊躇滿志,這個格局基本上是不會有太大變化的,因為大部分的專利都集中在這些廠家手里。除了GPU、ASIC和FPGA之外,行業(yè)還有第四極,就是IPU這方面。最具代表性的公司是英國的Graphcore。它的IPU實際上是專門用來做AI任務(wù)的一種通用處理器。

你可以把它看作是一種AI領(lǐng)域的GPU。這方面的創(chuàng)業(yè)公司其實還是挺多的。說不定就會有一家AI芯片領(lǐng)域的英偉達出來。這些創(chuàng)業(yè)公司的背后投資方也都包括那些常見的互聯(lián)網(wǎng)巨頭。所以英偉達的處境只是目前看來非常得意,長遠來看還是挺有壓力的。所以在ChatGPT帶火了新一輪的AI熱之后,它背后的這種算力基建也會同步爆發(fā)。

一方面數(shù)據(jù)中心會更加強化AI相關(guān)的硬件基礎(chǔ)設(shè)施,而IAAS行業(yè)呢也會出現(xiàn)垂直的AI賽道。另一方面,AI芯片也會成為巨頭爭奪的下一個城池。很多創(chuàng)業(yè)公司都在成長。所以相比大語言模型,我個人更感興趣半導(dǎo)體行業(yè)的格局演變。那是最有趣的地方。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多