小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

AI芯片開年

 Henryfeng88 2018-02-18

新年伊始,先祝各位朋友新春快樂(lè),萬(wàn)事如意!特別祝愿在AI芯片領(lǐng)域奮斗的各位同仁2018年好運(yùn)!

2018開年,AI芯片領(lǐng)域延續(xù)了17的熱鬧景象。我在這里梳理一下,算是給各位的春節(jié)小禮物。

ISSCC2018 Edge端逼近極限

ISSCC會(huì)議是半導(dǎo)體領(lǐng)域技術(shù)前沿的風(fēng)向標(biāo),去年的會(huì)議我對(duì)相關(guān)內(nèi)容也做了專門的分析(ISSCC2017 Deep-Learning Processors導(dǎo)讀文章匯總)。雖然ML處理器的架構(gòu)我們已經(jīng)討論的很多了,這次ISSCC的Session13: Machine Learning and Signal Processing文還是很有看點(diǎn)的。簡(jiǎn)單總結(jié)一下,給我最深印象的主要有兩個(gè):

1.  Inductive-coupling SRAM 3D stacking

不知道大家還記不記得我在去年底介紹“Petascale AI芯片Vathys:靠譜項(xiàng)目?清奇腦洞?還是放衛(wèi)星?”的時(shí)候說(shuō)的,我覺(jué)得他們提出的三個(gè)腦洞:異步設(shè)計(jì),巨大的片上SRAM(1T)和wireless 3D stacking里,第三個(gè)是我覺(jué)得最難實(shí)現(xiàn)的?,F(xiàn)在看來(lái),也許判斷不太準(zhǔn)確。在今年的13.2論文“QUEST: A 7.49TOPS Multi-Purpose Log-Quantized DNN Inference Engine Stacked on 96MB 3D SRAM Using Inductive-Coupling Technology in 40nm CMOS”中,作者就提出了如下圖所示的無(wú)線SRAM堆疊技術(shù)“inductive-coupling die-to-die wireless communication technology, known as a ThruChip Interface”。

如果暫不考慮這項(xiàng)技術(shù)的成熟度(既然能發(fā)表在ISSCC上,肯定比Vathys隨便說(shuō)說(shuō)要靠譜),它確實(shí)能給Memory集成帶來(lái)一個(gè)新的選項(xiàng),非常值得關(guān)注。更有意思的是,這次的工作集成的是SRAM,而不是DRAM。雖然SRAM的經(jīng)濟(jì)性(存儲(chǔ)密度)沒(méi)法和DRAM相比,但也有它的優(yōu)勢(shì),特別是讀寫速度。這篇論文就實(shí)現(xiàn)了3-Cycle Uniform Random R/W Latency。對(duì)于架構(gòu)設(shè)計(jì)者來(lái)說(shuō),很多設(shè)計(jì)都是為了應(yīng)對(duì)DRAM和片上存儲(chǔ)在讀寫速度上的差異。所以,這種新的封裝模式又給了架構(gòu)設(shè)計(jì)者一個(gè)新的工具,可以有更多Tradeoff空間。再把腦洞開大一點(diǎn),如果這條路被證明有實(shí)際的價(jià)值,也許未來(lái)會(huì)出現(xiàn)專門的SRAM Die和Wireless stacking IP供應(yīng)商。實(shí)際上,文中提到的ThruChip搞了公司,大家不妨關(guān)注一下。

2. Bit-serial Processing

目前低精度(低于8bit)interence的效果已經(jīng)可以支持實(shí)際應(yīng)用了,特別是在Edge/Embedded端,低精度inference是一個(gè)重要趨勢(shì),所以它的實(shí)現(xiàn)也是現(xiàn)在硬件設(shè)計(jì)的一個(gè)重點(diǎn)。這個(gè)方向的一個(gè)主要難度是對(duì)于不同的應(yīng)用和算法,精度要求不同,必須能夠在一個(gè)架構(gòu)上支持不同精度的處理。去年我還思考過(guò)這個(gè)問(wèn)題,基本的要求是處理單元PE必須是可以對(duì)單比特進(jìn)行操作,而不是目前普遍使用的16bit/8bit的MAC。

這次會(huì)議的兩篇論文,包括上面提到的那篇和13.3“UNPU: A 50.6TOPS/W Unified Deep Neural Network Accelerator with 1b-to-16b Fully-Variable Weight Bit-Precision”都有相應(yīng)的工作。后者的最大特點(diǎn)就是能夠支持從1bit到16bit的不同精度。

當(dāng)然,這篇文章的題目里“50.6TOPS/W”的能耗效率有點(diǎn)嚇人。實(shí)際上這個(gè)指標(biāo)是精度為1bit的情況,如果是16bit則是3.08T。下圖是不同bit數(shù)的時(shí)候的一個(gè)能耗效率的對(duì)比。

從這兩年發(fā)布的工作來(lái)看,對(duì)于相同的比特精度,相同的工藝,大家在傳統(tǒng)的數(shù)字設(shè)計(jì)領(lǐng)域試圖通過(guò)架構(gòu)的創(chuàng)新提升效率的努力基本上已經(jīng)接近極限了,發(fā)揮的空間會(huì)越來(lái)越小。

因此,相比2017年,今年的會(huì)議上Machine Learning處理器的論文數(shù)量少了,新增了討論Neuromorphic(Session7)和Computation in Memory(Session31)的內(nèi)容。從這一點(diǎn)也可以看出技術(shù)研究的趨勢(shì)。傳統(tǒng)的ML處理器架構(gòu)已經(jīng)得到了非常廣泛和深入的研究,創(chuàng)新點(diǎn)越來(lái)越少了。而下一步就是要打破現(xiàn)有的架構(gòu),以新的材料和器件為基礎(chǔ)考慮新的架構(gòu)。當(dāng)然,要上這個(gè)臺(tái)階,還有很大的挑戰(zhàn)。一方面,新的材料和器件離規(guī)模商用還有很大距離。另一方面,更重要的是,我們現(xiàn)在對(duì)人腦工作機(jī)制的理解還非常模糊,使用模型也非常簡(jiǎn)陋?;谶@樣的模型,設(shè)計(jì)類腦計(jì)算架構(gòu)是否真能實(shí)現(xiàn)人腦的處理效率還是個(gè)未知數(shù)。感興趣的同學(xué)可以看看Medium上Carlos E. Perez的文章“Surprise! Neurons are Now More Complex than We Thought!!”。不過(guò),對(duì)這兩個(gè)問(wèn)題的研究也許都可以借著AI的火熱得到支持,獲得更快的發(fā)展。

Google Cloud TPU和ARM ML Processor

去年的年終總結(jié)“2017 · AI芯片元年”里,我在18年展望中提了這樣一個(gè)問(wèn)題:“Google的TPU是否會(huì)賣給自己之外的用戶,直接和Nvidia展開競(jìng)爭(zhēng)?”

最近Google正式宣布Cloud TPU已經(jīng)開放小規(guī)模商用,并且公布了價(jià)格。這算對(duì)我提出的問(wèn)題給了一個(gè)初步的答案:Google會(huì)把TPU作為其Cloud的一個(gè)重要Feature推廣下去。目前,Google在Cloud領(lǐng)域并沒(méi)有優(yōu)勢(shì),去年好像已經(jīng)被阿里云超越。TPU可能會(huì)是Google未來(lái)在Cloud上最重要的買點(diǎn)。從這個(gè)意義上來(lái)說(shuō),Google已經(jīng)和Nvidia有了一定的競(jìng)爭(zhēng)關(guān)系,并可能越來(lái)越明顯。下圖是Google Cloud TPU和AWS Nvidia training方案的一個(gè)對(duì)比,目前看起來(lái)并沒(méi)有價(jià)格上的優(yōu)勢(shì)。


source:Forbes

另外一個(gè)有意思的話題是商業(yè)模式和芯片架構(gòu)設(shè)計(jì)的問(wèn)題。Google這次是在Cloud平臺(tái)推出TPU服務(wù)(以4顆TPU2芯片為單位)。而從TPU2的設(shè)計(jì)就可以看出,它可以說(shuō)是充分考慮了Cloud的環(huán)境(更詳細(xì)的分析可以看看Nextplatform的文章:“Under The Hood Of Google’s TPU2 Machine Learning Clusters”)。從這個(gè)例子可以看出,未來(lái)的芯片架構(gòu)的Tradeoff可能要把商業(yè)模式的特征考慮進(jìn)來(lái)。從TPU的進(jìn)展來(lái)看,相信Google還會(huì)加強(qiáng)在這方面的研發(fā),同時(shí)Cloud的其它幾個(gè)巨頭會(huì)如何應(yīng)對(duì)也很值得關(guān)注。


去年的年終總結(jié)提出的另一個(gè)問(wèn)題是“ARM下一步會(huì)怎么走,會(huì)不會(huì)橫掃嵌入端?”。就在春節(jié)前夕,ARM公布了“Project Trillium, Arm’s Machine Learning (ML) platform”,算是回答了我的問(wèn)題的前半部分。ARM的Project Trillium包括三個(gè)部分,Arm ML processor,Arm OD processor和Arm NN SDK。后面兩項(xiàng)之前都提過(guò),ML processor應(yīng)該是第一次公開,不過(guò)給出的框圖還是非常簡(jiǎn)單。

source: ARM

同時(shí),ARM也給出了具體的指標(biāo):

  • Specially designed to provide outstanding performance for mobile; optimizations provide a further increase in real-world use cases up to 4.6 TOPs

  • Best-in-class efficiency at 3 TOPs/ W.

單看這個(gè)指標(biāo)(沒(méi)有提具體的工藝),應(yīng)該算中規(guī)中矩。至于問(wèn)題的后半部分:“ARM會(huì)不會(huì)橫掃嵌入端?”我想目前誰(shuí)都說(shuō)不清楚。畢竟嵌入端的場(chǎng)景非常復(fù)雜,現(xiàn)在大家還都是在摸索當(dāng)中。

規(guī)模的挑戰(zhàn)

最近在Nextplatform看到兩篇文章,從不同的角度討論了在神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)和運(yùn)算規(guī)模不斷增加的背景下,對(duì)于大規(guī)模并行處理架構(gòu)的挑戰(zhàn)。

首先是“Even at the Edge, Scale is the Real Challenge”,作者來(lái)自Nvidia。他討論在自動(dòng)駕駛領(lǐng)域(算是Edge領(lǐng)域)數(shù)據(jù)和計(jì)算的趨勢(shì)。下圖是對(duì)一般的自動(dòng)駕駛應(yīng)用中神經(jīng)網(wǎng)絡(luò)訓(xùn)練需要的數(shù)據(jù)和計(jì)算進(jìn)行的估計(jì)。

source:nextplatform

基于這個(gè)估計(jì),作者進(jìn)一步分析了,如何通過(guò)multi-GPU(Nvlink),multi-node connection(InfiniBand),以及flash storage or flash-accelerated storage來(lái)實(shí)現(xiàn)一個(gè)規(guī)?;铱蓴U(kuò)展的架構(gòu),以應(yīng)對(duì)計(jì)算和存儲(chǔ)上的挑戰(zhàn)。

另一篇文章是“Programmable Networks Train Neural Nets Faster”,來(lái)自一個(gè)做網(wǎng)絡(luò)交換芯片的公司。文章提出了一個(gè)很有意思的概念,Computational Networking,簡(jiǎn)單來(lái)說(shuō)就是把神經(jīng)網(wǎng)絡(luò)的一些處理放到網(wǎng)絡(luò)設(shè)備(比如switch中),“The beauty of our approach is that since we are already doing operations on every packet that comes across the network, we can continue to accumulate those packets at line rate and at low latency, and then it becomes a multicast operation to disseminate that result to all of the other nodes in the network. Since we are already programmatically handling all of the packets in the network, this is not really an additional burden.

source:nextplatform

當(dāng)我們把神經(jīng)網(wǎng)絡(luò)處理的視野逐漸從單顆芯片擴(kuò)展到多顆芯片互連,到Server,到Rack,到Cluster甚至的Datacenter的時(shí)候,每個(gè)運(yùn)算單元,存儲(chǔ)設(shè)備和網(wǎng)絡(luò)設(shè)備形成了一個(gè)整體。運(yùn)算可能集中在MAC陣列,也可能分布在存儲(chǔ)設(shè)備甚至網(wǎng)絡(luò)設(shè)備當(dāng)中。


2018開年,我們看到AI芯片領(lǐng)域既有趨勢(shì)的延續(xù),也有新的問(wèn)題不斷提出。在Edge側(cè)我們還會(huì)不斷在能耗效率上追求極致,或者針對(duì)各種應(yīng)用做文章;而在Cloud側(cè),規(guī)模上的可擴(kuò)展性應(yīng)該是一個(gè)重點(diǎn)話題。同時(shí),硬件架構(gòu)的復(fù)雜性和多樣性,又會(huì)給軟件開發(fā)帶來(lái)新的挑戰(zhàn),進(jìn)而要求更好的工具支持。總之,好戲還在后面。

再次祝愿大家身體健康,工作愉快!


- END- 


    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多