小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

這家初創(chuàng)公司要做SRAM Chiplet,用于AI推理

 山蟹居 2022-04-21

來源:內(nèi)容由半導(dǎo)體行業(yè)觀察(ID:icbank)編譯自datanami,謝謝。

硬件初創(chuàng)公司 d-Matrix 日前表示,在獲得4400 萬美元的A 輪融資后,公司繼續(xù)開發(fā)一種新穎的“小芯片”架構(gòu),該架構(gòu)將6 納米芯片嵌入 SRAM 內(nèi)存模塊中來加速 AI 工作負(fù)載。其目標(biāo)是為當(dāng)今的大型語言模型提供一個(gè)數(shù)量級(jí)的推理效率提升,這些模型正在推動(dòng)自然語言處理 (NLP) 可以做的事情。

文章圖片1

眾所周知,OpenAI的 GPT-3、微軟的 MT-NLG 和谷歌的 BERT等大型語言模型的流行,是過去 10 年來 AI 最重要的發(fā)展之一。由于它們的大小和復(fù)雜性,這些transformer模型可以在以前不可能的水平上展示對(duì)人類語言的理解。他們還可以很好地生成文本,以至于《紐約時(shí)報(bào)》最近寫道,他們很快就會(huì)出書

采用這些transformer模型的激增引起了大公司的注意,它們依賴它們進(jìn)行各種嘗試,包括創(chuàng)建更好的聊天機(jī)器人、更好的文檔處理系統(tǒng)和更好的內(nèi)容審核等等。但是為這個(gè)人工智能提供最后一英里的連接是一個(gè)越來越受到關(guān)注的難題。

尤其是,人工智能推理問題引起了兩位具有半導(dǎo)體行業(yè)背景的工程師的注意,其中包括之前在英特爾工作的 CEO Sid Sheth,以及在德州儀器 ( Texas Instruments ) 工作過的 CTO Sudeep Bhoja 。在 2019 年共同創(chuàng)立d-Matrix之前,兩人都曾在 Inphi(現(xiàn)為Marvell)和Broadcom工作過。

“我們認(rèn)為這將持續(xù)很長(zhǎng)時(shí)間,”Sheth 談到現(xiàn)在支持 Alexa 和 Siri 的大型語言模型時(shí)說?!拔覀冋J(rèn)為,在接下來的 5 到 10 年里,人們基本上會(huì)被transformers所吸引,而這將成為未來 5 到 10 年人工智能計(jì)算的主要工作量?!?/span>

但是有一個(gè)問題。雖然今天的大型語言模型在訓(xùn)練部分由 GPU 提供了良好的服務(wù),但推理部分的最佳計(jì)算架構(gòu)尚未定義。如今,許多客戶都在 CPU 上運(yùn)行推理工作負(fù)載,但隨著模型變得越來越大,這變得越來越不可行。Sheth 說,這讓客戶陷入了困境。

文章圖片2
大型語言模型是為 NLP 工作負(fù)載設(shè)計(jì)的一種神經(jīng)網(wǎng)絡(luò)

“我認(rèn)為客戶想要弄清楚的是,[CPU] 效率不高,所以我應(yīng)該跳到 GPU 上嗎?還是應(yīng)該跳到加速器上?” Sheth 告訴Datanami。“如果我要直接跳轉(zhuǎn)到加速器并跳過 GPU,那么我應(yīng)該跳轉(zhuǎn)到的正確加速器架構(gòu)是什么?這就是我們專注的地方?!?/span>

無論出現(xiàn)什么架構(gòu),Sheth 都懷疑它會(huì)是 GPU。他說,雖然 GPU 在推理方面取得了進(jìn)展,但它們并不適合工作負(fù)載。

“GPU 從來沒有真正為推理而構(gòu)建,”他說?!八娴氖菫橛?xùn)練而建造的。這一切都與高性能計(jì)算有關(guān)。推理是關(guān)于高效計(jì)算的?!?/span>

Memory Whole

d-Matrix 在 2019 年做的第一件事是確定 Sheth 和 Bhoja 想到的新內(nèi)存處理架構(gòu)將使用哪種內(nèi)存。雖然 DRAM 已經(jīng)成熟并適用于各種計(jì)算,但將數(shù)據(jù)移入和移出 DRAM 的成本實(shí)在是太高了,尤其是當(dāng)具有數(shù)十億參數(shù)的現(xiàn)代語言模型中的所有權(quán)重都需要保存在內(nèi)存中時(shí)支持優(yōu)化計(jì)算所需的矩陣數(shù)學(xué)。

“例如,DRAM 訪問量約為每字節(jié) 60 皮焦耳,計(jì)算量為 50 到 60 飛焦耳。這是三個(gè)數(shù)量級(jí)[更高],”Bhoja 告訴Datanami?!八阅悴幌霃?DRAM 中移動(dòng)一些東西并計(jì)算一次。您希望在內(nèi)存中進(jìn)行計(jì)算。而 DRAM 工藝在這方面并不是很擅長(zhǎng)?!?/span>

Bhoja 繼續(xù)說,閃存方面出現(xiàn)了一些有趣的發(fā)展?!斑@比 DRAM 有趣一點(diǎn)。所以你要做的就是將權(quán)重存儲(chǔ)在閃存單元上,然后在閃存單元上進(jìn)行計(jì)算,”他說?!暗S著這些大型語言模型變得非常大,不可能構(gòu)建可以將所有這些、所有權(quán)重放在一個(gè)地方的閃存單元?!?/span>

最終,兩人找不到可重新編程且高效的閃存技術(shù),因此他們一直在尋找。
“新的內(nèi)存類型很有趣,RRAM [電阻式 RAM] 和 MRAM [磁阻式 RAM],”Bhoja 說。“但他們還沒有完全到那里。因此,當(dāng)我們審視一切時(shí),SRAM 是唯一足夠成熟的技術(shù)。它可用于主流 CMOS 工藝。我們不必重新發(fā)明流程。我們可以在內(nèi)存中混合計(jì)算,然后就可以解決了。”

SRAM 或靜態(tài)隨機(jī)存取存儲(chǔ)器比 DRAM 更快且更昂貴。它通常用于 CPU 的高速緩存和內(nèi)部寄存器,而 DRAM 通常用于主存儲(chǔ)器。雖然 SRAM 與 DRAM 一樣在斷電時(shí)會(huì)丟失其數(shù)據(jù),但 SRAM 還具有不需要像 DRAM 那樣定期刷新的優(yōu)點(diǎn)。

SRAM 和 POC

d-Matrix 開發(fā)了一種名為 Nighthawk 的概念驗(yàn)證,以證明其 SRAM 內(nèi)存計(jì)算實(shí)際上可以工作。Nighthawk 展示了 d-Matrix 的“chiplet”方法的可行性,它將芯片嵌入到 SRAM 模塊中,這些模塊位于插入 PCI 總線的卡上。

d-Matrix 計(jì)劃以多種方式打包其 IP,包括軟件、PCIe 卡
(如圖所示)以及最終的服務(wù)器

“我們有 SRAM,我們基本上將模型的權(quán)重存儲(chǔ)在我們的 SRAM 陣列中,然后我們?cè)?SRAM 中進(jìn)行計(jì)算,”Bhoja 說?!拔覀儗⒂?jì)算和內(nèi)存混合在一起。DRAM 不是理想的工藝。SRAM 是理想的工藝?!?/span>

Bhoja 說,DRAM 和 SRAM 之間存在權(quán)衡。就純內(nèi)存架構(gòu)而言,DRAM 更好。但當(dāng)你想混合內(nèi)存和計(jì)算時(shí),SRAM 更好,他說。

“DRAM 晶體管的密度要高得多,”他說?!癝RAM 處理器更大,因此芯片可以更大。這是我們看到的加速Transformer 的唯一方法?!?/span>

Bhoja 說,Transformer 模型很大,處理單個(gè)句子需要大量計(jì)算。他說,配備 8 個(gè) A100 GPU 的 Nvidia DGX 機(jī)器可以在 GPT-3 上每秒解析半個(gè)句子。在每瓦特的基礎(chǔ)上,GPT-3 的推理需求是每瓦特每秒 8 個(gè)句子。

“所以我們正在嘗試構(gòu)建定制硅來解決這個(gè)問題,即轉(zhuǎn)換Transformer 的能源效率問題,”他說?!澳憧梢杂?xùn)練的東西和你可以部署的東西之間有很大的差距?!?/span>

Nighthawk和Jayhawk

該公司已經(jīng)完成了其 Nighthawk 小芯片架構(gòu)的首次概念驗(yàn)證。該公司已與臺(tái)積電簽訂合同,以開發(fā)這些采用 6 納米工藝的小芯片。Bhoja 說,測(cè)試表明,d-Matrix 的 SRAM 技術(shù)在推理工作負(fù)載方面的效率是 Nvidia A100 GPU 的 10 倍。

d-Matrix 還開發(fā)了名為 Jayhawk 的芯片對(duì)芯片互連,這將允許將配備 Nighthawk 小芯片的多個(gè)服務(wù)器串在一起以進(jìn)行橫向擴(kuò)展或縱向擴(kuò)展處理。

“既然這兩個(gè)關(guān)鍵的 IP 部分都已得到證實(shí),該團(tuán)隊(duì)正忙于執(zhí)行……Corsair,這是將在客戶處部署的產(chǎn)品,”Sheth 說。

Sheth 表示,d-Matrix 今天宣布的 A 系列 4400 萬美元將有助于開發(fā) Corsair,該項(xiàng)目應(yīng)在 2023 年下半年準(zhǔn)備就緒。

A 系列投資由美國(guó)風(fēng)險(xiǎn)投資公司 Playground Global 牽頭,M12(微軟風(fēng)險(xiǎn)基金)和 SK 海力士參與。這些新投資者加入了現(xiàn)有投資者 Nautilus Venture Partners、Marvell Technology和 Entrada Ventures 的行列。

Playground Global 的風(fēng)險(xiǎn)合伙人 Sasha Ostojic 表示,很明顯需要在 AI 計(jì)算效率方面取得突破,以服務(wù)于新興市場(chǎng)的超大規(guī)模和邊緣數(shù)據(jù)中心市場(chǎng)的推理。

“d-Matrix 是一種新穎的、可防御的技術(shù),它可以超越傳統(tǒng)的 CPU 和 GPU,通過其軟件堆棧解鎖并最大限度地提高能效和利用率,”O(jiān)stojic 在新聞稿中說?!芭c這支經(jīng)驗(yàn)豐富的運(yùn)營(yíng)商團(tuán)隊(duì)合作,構(gòu)建這種急需的、不折不扣的技術(shù),我們感到無比興奮?!?/span>

雖然它的硬件目標(biāo)是超大規(guī)模,但該計(jì)劃要求 d-Matrix 最終提供一個(gè)小型服務(wù)器,即使是中小型企業(yè)也可以部署它來運(yùn)行他們的 AI 工作負(fù)載。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多