|
在 33 億文本的語料上訓(xùn)練,根據(jù)不同的任務(wù)進(jìn)行微調(diào),最終實(shí)現(xiàn) 11 項(xiàng) NLP 任務(wù)的突破進(jìn)展。這就是谷歌于 2018 年 8 月發(fā)布的 NLP 模型——BERT。
因其強(qiáng)大的預(yù)訓(xùn)練效果,BERT 誕生之后便受到學(xué)術(shù)界、工業(yè)界熱捧,甚至一度被稱為是“地表最強(qiáng) NLP 模型“。
但是,這個(gè) NLP 模型的光環(huán)卻籠罩在訓(xùn)練耗時(shí)的陰影之下:BERT 的預(yù)訓(xùn)練需要很長時(shí)間才能完成,在 16 個(gè) TPUv3 芯片上大約需要三天,對應(yīng)的計(jì)算資源消耗也會(huì)比較多。因此,BERT 被調(diào)侃為一項(xiàng)“大力出奇跡”的成果。
一直有不同的 AI 研究團(tuán)隊(duì)嘗試縮短其訓(xùn)練時(shí)間,也都取得了相應(yīng)的進(jìn)展。例如,在今年年初,谷歌的研究團(tuán)隊(duì)就曾提出新的優(yōu)化器——LAMB 優(yōu)化器,將訓(xùn)練的 batch size 推到硬件的極限,使用 TPU Pod ( 1024 塊 TPUv3 芯片),成功將BERT的訓(xùn)練時(shí)長從 3 天又縮短到了 76 分鐘。
現(xiàn)在,這個(gè)數(shù)字又被打破。在一場面向媒體的會(huì)議上,英偉達(dá)宣布,使用 DGX SuperPOD 深度學(xué)習(xí)服務(wù)器加之 Tensor RT 5.0 的優(yōu)化,BERT模型最快只需 53 分鐘就能在GPU上完成訓(xùn)練。據(jù)悉,DGX SuperPOD 的運(yùn)算能力能達(dá)到每秒進(jìn)行 9.4 千萬億次浮點(diǎn)運(yùn)算。
對于 NLP 領(lǐng)域來說,這意味著又一個(gè)新的開始,BERT 等突破性大型 NLP 模型的訓(xùn)練時(shí)長仍有壓縮空間。尤其是在工業(yè)應(yīng)用上,訓(xùn)練時(shí)長的縮短可以直接帶來成本上的節(jié)約,BERT 等突破性模型在規(guī)模化應(yīng)用上又減少了一大阻力。
(來源:英偉達(dá))
英偉達(dá)深度學(xué)習(xí)應(yīng)用研究副總裁 Bryan Catanzaro 對 DeepTech 介紹道,除了 53 分鐘的訓(xùn)練時(shí)長突破以外,BERT 的推理時(shí)耗也縮短到了 2.2 毫秒(10 毫秒被認(rèn)為是業(yè)內(nèi)的高水位),完成 83 億參數(shù)的最大模型訓(xùn)練。英偉達(dá)認(rèn)為,以上三點(diǎn)突破,也將推動(dòng)實(shí)時(shí)對話式 AI( Real-Time Conversational AI)的發(fā)展。
現(xiàn)在,英偉達(dá)將公開 BERT 訓(xùn)練代碼和經(jīng)過 TensorRT 優(yōu)化的 BERT 樣本,所有人都可以通過 GitHub 利用。

(來源:英偉達(dá))
Bryan Catanzaro 稱,與簡單的交易場景下的 AI 不同,對話式 AI 更關(guān)注對話而非交易,為了保證用戶體驗(yàn)需要提供即時(shí)的響應(yīng),因此對話式 AI 的模型會(huì)越來越大,且實(shí)時(shí)性更強(qiáng)。
目前,國外以 FaceBook、谷歌、微軟為首,國內(nèi)以百度、阿里巴巴為首,掌握全球互聯(lián)網(wǎng)幾大最主要流量入口的科技公司、都在對話式AI領(lǐng)域競相追逐,以期能夠在新一代的互聯(lián)網(wǎng)交互式體驗(yàn)上獨(dú)領(lǐng)風(fēng)騷。
2017 年至今,這幾家公司也引領(lǐng)了對話式 AI 研究的幾個(gè)重要成果:2017 年年底,谷歌的 Tansfomer 問世,開啟了新的范式,隨后是 2018 年底的谷歌 BERT;2019 年的對話式 AI 的研究更是百花齊放,微軟 Mt-dnn、阿里巴巴的E nriched BERT base,Uber 的 Plato,百度的 ERNIE,以及近期 Facebook 推出的 RoBERTa,都是值得關(guān)注的研究。
(來源:英偉達(dá))
|