來源：內(nèi)容由半導(dǎo)體行業(yè)觀察（ID：icbank）編譯自datanami，謝謝。

硬件初創(chuàng)公司 d-Matrix 日前表示，在獲得4400 萬美元的A 輪融資后，公司繼續(xù)開發(fā)一種新穎的“小芯片”架構(gòu)，該架構(gòu)將6 納米芯片嵌入 SRAM 內(nèi)存模塊中來加速 AI 工作負(fù)載。其目標(biāo)是為當(dāng)今的大型語言模型提供一個(gè)數(shù)量級(jí)的推理效率提升，這些模型正在推動(dòng)自然語言處理 (NLP) 可以做的事情。

眾所周知，OpenAI的 GPT-3、微軟的 MT-NLG 和谷歌的 BERT等大型語言模型的流行，是過去 10 年來 AI 最重要的發(fā)展之一。由于它們的大小和復(fù)雜性，這些transformer模型可以在以前不可能的水平上展示對(duì)人類語言的理解。他們還可以很好地生成文本，以至于《紐約時(shí)報(bào)》最近寫道，他們很快就會(huì)出書。

采用這些transformer模型的激增引起了大公司的注意，它們依賴它們進(jìn)行各種嘗試，包括創(chuàng)建更好的聊天機(jī)器人、更好的文檔處理系統(tǒng)和更好的內(nèi)容審核等等。但是為這個(gè)人工智能提供最后一英里的連接是一個(gè)越來越受到關(guān)注的難題。

尤其是，人工智能推理問題引起了兩位具有半導(dǎo)體行業(yè)背景的工程師的注意，其中包括之前在英特爾工作的 CEO Sid Sheth，以及在德州儀器 ( Texas Instruments ) 工作過的 CTO Sudeep Bhoja 。在 2019 年共同創(chuàng)立d-Matrix之前，兩人都曾在 Inphi（現(xiàn)為Marvell）和Broadcom工作過。

“我們認(rèn)為這將持續(xù)很長(zhǎng)時(shí)間，”Sheth 談到現(xiàn)在支持 Alexa 和 Siri 的大型語言模型時(shí)說?！拔覀冋J(rèn)為，在接下來的 5 到 10 年里，人們基本上會(huì)被transformers所吸引，而這將成為未來 5 到 10 年人工智能計(jì)算的主要工作量?！?/span>

但是有一個(gè)問題。雖然今天的大型語言模型在訓(xùn)練部分由 GPU 提供了良好的服務(wù)，但推理部分的最佳計(jì)算架構(gòu)尚未定義。如今，許多客戶都在 CPU 上運(yùn)行推理工作負(fù)載，但隨著模型變得越來越大，這變得越來越不可行。Sheth 說，這讓客戶陷入了困境。

大型語言模型是為 NLP 工作負(fù)載設(shè)計(jì)的一種神經(jīng)網(wǎng)絡(luò)

“我認(rèn)為客戶想要弄清楚的是，[CPU] 效率不高，所以我應(yīng)該跳到 GPU 上嗎？還是應(yīng)該跳到加速器上？” Sheth 告訴Datanami。“如果我要直接跳轉(zhuǎn)到加速器并跳過 GPU，那么我應(yīng)該跳轉(zhuǎn)到的正確加速器架構(gòu)是什么？這就是我們專注的地方?！?/span>

無論出現(xiàn)什么架構(gòu)，Sheth 都懷疑它會(huì)是 GPU。他說，雖然 GPU 在推理方面取得了進(jìn)展，但它們并不適合工作負(fù)載。

“GPU 從來沒有真正為推理而構(gòu)建，”他說?！八娴氖菫橛?xùn)練而建造的。這一切都與高性能計(jì)算有關(guān)。推理是關(guān)于高效計(jì)算的?！?/span>

Memory Whole

d-Matrix 在 2019 年做的第一件事是確定 Sheth 和 Bhoja 想到的新內(nèi)存處理架構(gòu)將使用哪種內(nèi)存。雖然 DRAM 已經(jīng)成熟并適用于各種計(jì)算，但將數(shù)據(jù)移入和移出 DRAM 的成本實(shí)在是太高了，尤其是當(dāng)具有數(shù)十億參數(shù)的現(xiàn)代語言模型中的所有權(quán)重都需要保存在內(nèi)存中時(shí)支持優(yōu)化計(jì)算所需的矩陣數(shù)學(xué)。

“例如，DRAM 訪問量約為每字節(jié) 60 皮焦耳，計(jì)算量為 50 到 60 飛焦耳。這是三個(gè)數(shù)量級(jí)[更高]，”Bhoja 告訴Datanami?！八阅悴幌霃?DRAM 中移動(dòng)一些東西并計(jì)算一次。您希望在內(nèi)存中進(jìn)行計(jì)算。而 DRAM 工藝在這方面并不是很擅長(zhǎng)?！?/span>

Bhoja 繼續(xù)說，閃存方面出現(xiàn)了一些有趣的發(fā)展?！斑@比 DRAM 有趣一點(diǎn)。所以你要做的就是將權(quán)重存儲(chǔ)在閃存單元上，然后在閃存單元上進(jìn)行計(jì)算，”他說?！暗S著這些大型語言模型變得非常大，不可能構(gòu)建可以將所有這些、所有權(quán)重放在一個(gè)地方的閃存單元?！?/span>

最終，兩人找不到可重新編程且高效的閃存技術(shù)，因此他們一直在尋找。

“新的內(nèi)存類型很有趣，RRAM [電阻式 RAM] 和 MRAM [磁阻式 RAM]，”Bhoja 說。“但他們還沒有完全到那里。因此，當(dāng)我們審視一切時(shí)，SRAM 是唯一足夠成熟的技術(shù)。它可用于主流 CMOS 工藝。我們不必重新發(fā)明流程。我們可以在內(nèi)存中混合計(jì)算，然后就可以解決了。”

SRAM 或靜態(tài)隨機(jī)存取存儲(chǔ)器比 DRAM 更快且更昂貴。它通常用于 CPU 的高速緩存和內(nèi)部寄存器，而 DRAM 通常用于主存儲(chǔ)器。雖然 SRAM 與 DRAM 一樣在斷電時(shí)會(huì)丟失其數(shù)據(jù)，但 SRAM 還具有不需要像 DRAM 那樣定期刷新的優(yōu)點(diǎn)。

SRAM 和 POC

d-Matrix 開發(fā)了一種名為 Nighthawk 的概念驗(yàn)證，以證明其 SRAM 內(nèi)存計(jì)算實(shí)際上可以工作。Nighthawk 展示了 d-Matrix 的“chiplet”方法的可行性，它將芯片嵌入到 SRAM 模塊中，這些模塊位于插入 PCI 總線的卡上。

d-Matrix 計(jì)劃以多種方式打包其 IP，包括軟件、PCIe 卡

（如圖所示）以及最終的服務(wù)器

“我們有 SRAM，我們基本上將模型的權(quán)重存儲(chǔ)在我們的 SRAM 陣列中，然后我們?cè)?SRAM 中進(jìn)行計(jì)算，”Bhoja 說?！拔覀儗⒂?jì)算和內(nèi)存混合在一起。DRAM 不是理想的工藝。SRAM 是理想的工藝?！?/span>

Bhoja 說，DRAM 和 SRAM 之間存在權(quán)衡。就純內(nèi)存架構(gòu)而言，DRAM 更好。但當(dāng)你想混合內(nèi)存和計(jì)算時(shí)，SRAM 更好，他說。

“DRAM 晶體管的密度要高得多，”他說?！癝RAM 處理器更大，因此芯片可以更大。這是我們看到的加速Transformer 的唯一方法?！?/span>

Bhoja 說，Transformer 模型很大，處理單個(gè)句子需要大量計(jì)算。他說，配備 8 個(gè) A100 GPU 的 Nvidia DGX 機(jī)器可以在 GPT-3 上每秒解析半個(gè)句子。在每瓦特的基礎(chǔ)上，GPT-3 的推理需求是每瓦特每秒 8 個(gè)句子。

“所以我們正在嘗試構(gòu)建定制硅來解決這個(gè)問題，即轉(zhuǎn)換Transformer 的能源效率問題，”他說?！澳憧梢杂?xùn)練的東西和你可以部署的東西之間有很大的差距?！?/span>

Nighthawk和Jayhawk

該公司已經(jīng)完成了其 Nighthawk 小芯片架構(gòu)的首次概念驗(yàn)證。該公司已與臺(tái)積電簽訂合同，以開發(fā)這些采用 6 納米工藝的小芯片。Bhoja 說，測(cè)試表明，d-Matrix 的 SRAM 技術(shù)在推理工作負(fù)載方面的效率是 Nvidia A100 GPU 的 10 倍。

d-Matrix 還開發(fā)了名為 Jayhawk 的芯片對(duì)芯片互連，這將允許將配備 Nighthawk 小芯片的多個(gè)服務(wù)器串在一起以進(jìn)行橫向擴(kuò)展或縱向擴(kuò)展處理。

“既然這兩個(gè)關(guān)鍵的 IP 部分都已得到證實(shí)，該團(tuán)隊(duì)正忙于執(zhí)行……Corsair，這是將在客戶處部署的產(chǎn)品，”Sheth 說。

Sheth 表示，d-Matrix 今天宣布的 A 系列 4400 萬美元將有助于開發(fā) Corsair，該項(xiàng)目應(yīng)在 2023 年下半年準(zhǔn)備就緒。

A 系列投資由美國(guó)風(fēng)險(xiǎn)投資公司 Playground Global 牽頭，M12（微軟風(fēng)險(xiǎn)基金）和 SK 海力士參與。這些新投資者加入了現(xiàn)有投資者 Nautilus Venture Partners、Marvell Technology和 Entrada Ventures 的行列。

Playground Global 的風(fēng)險(xiǎn)合伙人 Sasha Ostojic 表示，很明顯需要在 AI 計(jì)算效率方面取得突破，以服務(wù)于新興市場(chǎng)的超大規(guī)模和邊緣數(shù)據(jù)中心市場(chǎng)的推理。

“d-Matrix 是一種新穎的、可防御的技術(shù)，它可以超越傳統(tǒng)的 CPU 和 GPU，通過其軟件堆棧解鎖并最大限度地提高能效和利用率，”O(jiān)stojic 在新聞稿中說?！芭c這支經(jīng)驗(yàn)豐富的運(yùn)營(yíng)商團(tuán)隊(duì)合作，構(gòu)建這種急需的、不折不扣的技術(shù)，我們感到無比興奮?！?/span>

雖然它的硬件目標(biāo)是超大規(guī)模，但該計(jì)劃要求 d-Matrix 最終提供一個(gè)小型服務(wù)器，即使是中小型企業(yè)也可以部署它來運(yùn)行他們的 AI 工作負(fù)載。

小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

這家初創(chuàng)公司要做SRAM Chiplet，用于AI推理

小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

這家初創(chuàng)公司要做SRAM Chiplet，用于AI推理

這家初創(chuàng)公司要做SRAM Chiplet，用于AI推理