小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

十行代碼讓你的單機(jī)“影分身”,分布式訓(xùn)練速度快到飛起

 新用戶2457q4c3 2021-01-31

工程師“在你輝煌的時(shí)刻,讓我為你唱首歌,我的好兄弟,心里有苦你對(duì)我說(shuō)?!?/p>

計(jì)算機(jī)“哥啊,那我可就說(shuō)了,我是真的苦啊,現(xiàn)在一個(gè)模型動(dòng)輒好幾億參數(shù),數(shù)據(jù)集也是大的嚇人,兄弟我內(nèi)存都快被掏空了,實(shí)在訓(xùn)練不動(dòng)了呀?!?/p>

工程師“前方大路一起走,哪怕是河也一起過(guò)…”

計(jì)算機(jī)“你怎么還唱啊,兄弟我真的堅(jiān)持不住了。”

工程師“擔(dān)心啥,哥有的是辦法救你,就這招吧——分布式訓(xùn)練之參數(shù)服務(wù)器!”

計(jì)算機(jī)“分布式訓(xùn)練?參數(shù)服務(wù)器?真的很好用嗎?”

工程師“好吧,接下來(lái)我們就來(lái)看看什么是分布式訓(xùn)練參數(shù)服務(wù)器功能?!?/p>

下載安裝命令

## CPU版本安裝命令

pip install -f https:///pip/oschina/cpu paddlepaddle

## GPU版本安裝命令

pip install -f https:///pip/oschina/gpu paddlepaddle-gpu

什么是分布式訓(xùn)練

何謂分布式訓(xùn)練呢?大家想想《火影忍者》中鳴人搓螺旋丸的方法,要知道鳴人一個(gè)人可搓不出來(lái),他是怎么做的呢?對(duì)!影分身,再變出兩個(gè)分身來(lái)幫他一起搓丸子,分布式訓(xùn)練其實(shí)用的是相同的原理。通俗的講就是把原先交給一臺(tái)計(jì)算機(jī)上完成的訓(xùn)練任務(wù)改為交由多臺(tái)計(jì)算機(jī)完成。每臺(tái)計(jì)算機(jī)上都會(huì)有一個(gè)或多個(gè)計(jì)算單元,例如CPU、GPU、AI芯片等,合作的計(jì)算機(jī)越多,參與訓(xùn)練的計(jì)算單元也就越多??上攵撬俣瓤隙ㄊ青徉岬模?/p>

什么是參數(shù)服務(wù)器

如圖1所示,參數(shù)服務(wù)器是分布式訓(xùn)練領(lǐng)域普遍采用的編程架構(gòu),主要包含Server和Worker兩個(gè)部分,其中Server負(fù)責(zé)參數(shù)的存儲(chǔ)和更新,而Worker負(fù)責(zé)訓(xùn)練。的參數(shù)服務(wù)器功能也是基于這種經(jīng)典的架構(gòu)進(jìn)行設(shè)計(jì)和開(kāi)發(fā)的,同時(shí)在這基礎(chǔ)上進(jìn)行了SGD(Stochastic Gradient Descent)算法的創(chuàng)新(Geometric Stochastic Gradient Descent)。當(dāng)前經(jīng)過(guò)大量的實(shí)驗(yàn)驗(yàn)證,最佳的方案是每臺(tái)機(jī)器上啟動(dòng)Server和Worker兩個(gè)進(jìn)程,而一個(gè)Worker進(jìn)程中可以包含多個(gè)用于訓(xùn)練的線程。

什么是參數(shù)服務(wù)器

如圖1所示,參數(shù)服務(wù)器是分布式訓(xùn)練領(lǐng)域普遍采用的編程架構(gòu),主要包含Server和Worker兩個(gè)部分,其中Server負(fù)責(zé)參數(shù)的存儲(chǔ)和更新,而Worker負(fù)責(zé)訓(xùn)練。的參數(shù)服務(wù)器功能也是基于這種經(jīng)典的架構(gòu)進(jìn)行設(shè)計(jì)和開(kāi)發(fā)的,同時(shí)在這基礎(chǔ)上進(jìn)行了SGD(Stochastic Gradient Descent)算法的創(chuàng)新(Geometric Stochastic Gradient Descent)。當(dāng)前經(jīng)過(guò)大量的實(shí)驗(yàn)驗(yàn)證,最佳的方案是每臺(tái)機(jī)器上啟動(dòng)Server和Worker兩個(gè)進(jìn)程,而一個(gè)Worker進(jìn)程中可以包含多個(gè)用于訓(xùn)練的線程。

什么是參數(shù)服務(wù)器

如圖1所示,參數(shù)服務(wù)器是分布式訓(xùn)練領(lǐng)域普遍采用的編程架構(gòu),主要包含Server和Worker兩個(gè)部分,其中Server負(fù)責(zé)參數(shù)的存儲(chǔ)和更新,而Worker負(fù)責(zé)訓(xùn)練。的參數(shù)服務(wù)器功能也是基于這種經(jīng)典的架構(gòu)進(jìn)行設(shè)計(jì)和開(kāi)發(fā)的,同時(shí)在這基礎(chǔ)上進(jìn)行了SGD(Stochastic Gradient Descent)算法的創(chuàng)新(Geometric Stochastic Gradient Descent)。當(dāng)前經(jīng)過(guò)大量的實(shí)驗(yàn)驗(yàn)證,最佳的方案是每臺(tái)機(jī)器上啟動(dòng)Server和Worker兩個(gè)進(jìn)程,而一個(gè)Worker進(jìn)程中可以包含多個(gè)用于訓(xùn)練的線程。

異步訓(xùn)練模式:如圖3所示,在訓(xùn)練一個(gè)batch的數(shù)據(jù)后,Worker的每個(gè)線程會(huì)發(fā)送梯度給Server。而Server不會(huì)等待接收所有節(jié)點(diǎn)的梯度,而是直接基于已收到的梯度進(jìn)行參數(shù)更新。異步訓(xùn)練去除了訓(xùn)練過(guò)程中的等待機(jī)制,訓(xùn)練速度得到了極源碼交易大的提升,但是缺點(diǎn)也很明顯,那就是Loss下降不穩(wěn)定,容易發(fā)生抖動(dòng)。建議在個(gè)性化推薦(召回、排序)、語(yǔ)義匹配等數(shù)據(jù)量大的場(chǎng)景使用。

尤其是推薦領(lǐng)域的點(diǎn)擊率預(yù)估場(chǎng)景,該場(chǎng)景可能會(huì)出現(xiàn)千億甚至萬(wàn)億規(guī)模的稀疏特征,而稀疏參數(shù)也可以達(dá)到萬(wàn)億數(shù)量級(jí),且需要小時(shí)級(jí)或分鐘級(jí)流式增量訓(xùn)練。如果使用異步訓(xùn)練模式,可以很好的滿足該場(chǎng)景的online-learning需求。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類(lèi)似文章 更多