小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

業(yè)界 | 英偉達的新GPU來了,F(xiàn)PGA和ASIC要扔掉嗎?

 追逐四葉 2017-05-14

AI科技評論消息,美國時間5月10日,NVIDIA CEO黃仁勛在開發(fā)者大會GTC2017上發(fā)布新一代GPU架構(gòu)Volta,首款核心為GV100,采用臺積電12nm制程,最大亮點是成倍提升了推理性能,意欲在目前稱霸機器學習訓練場景的基礎(chǔ)上,在推理場景也成為最佳商用選擇。

GV100 GPU

據(jù)AI科技評論了解,Volta架構(gòu)GV100 GPU采用臺積電(TSMC)12nm FFN制程,具有5120個CUDA核心。相比上一代16nm制程的Pascal架構(gòu)GPU GP100,晶體管數(shù)目增加了38%,達到了驚人的211億個;核心面積也繼續(xù)增加33%,達到令人生畏的815mm2,約等于一塊Apple Watch的面積,據(jù)黃仁勛稱這樣的面積已經(jīng)達到了制造工藝極限。隨著核心的增大,GV100的單、雙精度浮點性能也大幅提升了41%。然而這還不是重點,為了滿足GPU在機器學習中的性能需求,Volta架構(gòu)中引入了新的張量運算指令Tensor Core,讓機器學習中訓練速度提升約3倍、推理性能提升約10倍(相比上一代自家GPU GP100)。

GV100搭載在TESLA V100開發(fā)板上亮相,配合來自三星的16GB HBM2顯存,顯存帶寬也達到了900GB/s之高。

根據(jù)現(xiàn)場演講PPT,推理場景下,V100比上一代搭載GP100 CPU的P100板卡,圖像處理能力提升了約10倍,延遲也下降了約30%。在這樣的性能提升之下,GPU已經(jīng)可以讓FPGA和ASIC幾乎沒有用武之地,在商用場景中幾乎滿足全部計算需求。(詳細分析見文末)

DGX-1V、DGX Station

隨著GV100 GPU發(fā)布,NVIDIA的深度學習超級計算機也進行了升級。老款DGX-1把原有Pascal GPU升級為Volta GPU,名字也更新為DGX-1V。它內(nèi)置八塊 Tesla V100開發(fā)板,合計顯存128G、運算能力為 960 Tensor TFLOPS,即將邁入下一個時代。黃仁勛表示,過去 Titan X 需花費八天訓練的神經(jīng)網(wǎng)絡,用 DGX-1V 只需八個小時。它相當于是“把 400 個服務器裝進一個盒子里”。

DGX Station 則是縮小版的 DGX-1V,黃仁勛稱其為“Personal DGX”,堪稱是終極個人深度學習電腦,各方面指標均為DGX-1V的一半,但仍然已經(jīng)非常強大。英偉達內(nèi)部使用DGX Station已經(jīng)很久,每個工程師要么有 DGX-1V,要么有 DGX Station,再要么兩個都有。既然它確實能夠滿足工程師的需求,英偉達決定把這款產(chǎn)品推廣給公眾市場。

NVIDIA意圖通過GV100完全稱霸機器學習硬件市場

據(jù)AI科技評論了解,機器學習中需要用到高計算性能的場景有兩種,一種是訓練,通過反復計算來調(diào)整神經(jīng)網(wǎng)絡架構(gòu)內(nèi)的參數(shù);另一種是推理,用已經(jīng)確定的參數(shù)批量化解決預定任務。而在這兩種場景中,共有三種硬件在進行競爭,GPU、FPGA和ASIC。

GPU(以前是Graphics Processing Unit圖形計算單元,如今已經(jīng)是General Processing Unit通用計算單元)具有高的計算能力、高級開發(fā)環(huán)境、不影響機器學習算法切換的優(yōu)點,雖然同等計算能力下能耗最高,但仍然在算法開發(fā)和機器學習訓練場景中占據(jù)絕對的市場地位。

FPGA(Field-Programmable Gate Array,現(xiàn)場可編程矩陣門)是一種半成型的硬件,需要通過編程定義其中的單元配置和鏈接架構(gòu)才能進行計算,相當于也具有很高的通用性,功耗也較低,但開發(fā)成本很高、不便于隨時修改,訓練場景下的性能不如GPU。

ASIC(Application Specific Integrated Circuits,專用集成電路)是根據(jù)確定的算法設(shè)計制造的專用電路,看起來就是一塊普通的芯片。由于是專用電路,可以高效低能耗地完成設(shè)計任務,但是由于是專用設(shè)計的,所以只能執(zhí)行本來設(shè)計的任務,在做出來以后想要改變算法是不可能的。谷歌的TPU(Tensor Processing Unit張量處理單元)就是一種介于ASIC和FPGA之間的芯片,只有部分的可定制性,目的是對確定算法的高效執(zhí)行。

所以目前的狀況是,雖然GPU在算法開發(fā)和機器學習訓練場景中占有絕對地位;但是由于FPGA和ASIC在任務和算法確定的情況下,在長期穩(wěn)定大規(guī)模執(zhí)行(推理)方面有很大優(yōu)勢,所以GPU跟FPGA和ASIC之間還算互有進退,尤其GPU相同性能下功耗很高,對大規(guī)模計算中心來說電費都是很高的負擔。但隨著GV100對推理計算能力的約10倍提升,商用場景下已經(jīng)沒有必要為了推理場景更換硬件了,同一套GPU可以在訓練場景的計算能力和推理場景的計算能力同時達到同功耗下最佳,還具有最好的拓展和修改能力,簡直別無所求。

面對提升如此明顯的GPU,一眾投身機器學習硬件的FGPA和ASIC廠商前景令人擔憂。也許現(xiàn)在唯一能讓他們松口氣的就是GV100 GPU的量產(chǎn)出貨時間要到2017年三四季度。等2018年,希望大規(guī)模部署后的GV100能用成倍提升后的性能給我們帶來新的驚喜。

報名 |【2017 AI 最佳雇主】榜單

在人工智能爆發(fā)初期的時代背景下,雷鋒網(wǎng)聯(lián)合旗下人工智能頻道AI科技評論,攜手《環(huán)球科學》和 BOSS 直聘,重磅推出【2017 AI 最佳雇主】榜單。


從“公司概況”、“創(chuàng)新能力”、“員工福利”三個維度切入,依據(jù) 20 多項評分標準,做到公平、公正、公開,全面評估和推動中國人工智能企業(yè)發(fā)展。


本次【2017 AI 最佳雇主】榜單活動主要經(jīng)歷三個重要時段:

2017.4.11-6.1 報名階段

2017.6.1-7.1  評選階段

2017.7.7    頒獎晚宴

最終榜單名單由雷鋒網(wǎng)、AI科技評論、《環(huán)球科學》、BOSS 直聘以及 AI 學術(shù)大咖組成的評審團共同選出,并于7月份舉行的 CCF-GAIR 2017大會期間公布。報名期間歡迎大家踴躍自薦或推薦心目中的最佳 AI 企業(yè)公司。

報名方式

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多