十行代碼讓你的單機(jī)“影分身”，分布式訓(xùn)練速度快到飛起

新用戶2457q4c3 2021-01-31

展開(kāi)全文

工程師：“在你輝煌的時(shí)刻，讓我為你唱首歌，我的好兄弟，心里有苦你對(duì)我說(shuō)?！?/p>

計(jì)算機(jī)：“哥啊，那我可就說(shuō)了，我是真的苦啊，現(xiàn)在一個(gè)模型動(dòng)輒好幾億參數(shù)，數(shù)據(jù)集也是大的嚇人，兄弟我內(nèi)存都快被掏空了，實(shí)在訓(xùn)練不動(dòng)了呀?！?/p>

工程師：“前方大路一起走，哪怕是河也一起過(guò)…”

計(jì)算機(jī)：“你怎么還唱啊，兄弟我真的堅(jiān)持不住了。”

工程師：“擔(dān)心啥，哥有的是辦法救你，就這招吧——分布式訓(xùn)練之參數(shù)服務(wù)器！”

計(jì)算機(jī)：“分布式訓(xùn)練？參數(shù)服務(wù)器？真的很好用嗎？”

工程師：“好吧，接下來(lái)我們就來(lái)看看什么是分布式訓(xùn)練參數(shù)服務(wù)器功能?！?/p>

下載安裝命令

## CPU版本安裝命令

pip install -f https:///pip/oschina/cpu paddlepaddle

## GPU版本安裝命令

pip install -f https:///pip/oschina/gpu paddlepaddle-gpu

什么是分布式訓(xùn)練

何謂分布式訓(xùn)練呢？大家想想《火影忍者》中鳴人搓螺旋丸的方法，要知道鳴人一個(gè)人可搓不出來(lái)，他是怎么做的呢？對(duì)！影分身,再變出兩個(gè)分身來(lái)幫他一起搓丸子，分布式訓(xùn)練其實(shí)用的是相同的原理。通俗的講就是把原先交給一臺(tái)計(jì)算機(jī)上完成的訓(xùn)練任務(wù)改為交由多臺(tái)計(jì)算機(jī)完成。每臺(tái)計(jì)算機(jī)上都會(huì)有一個(gè)或多個(gè)計(jì)算單元，例如CPU、GPU、AI芯片等，合作的計(jì)算機(jī)越多，參與訓(xùn)練的計(jì)算單元也就越多?？上攵撬俣瓤隙ㄊ青徉岬模?/p>

什么是參數(shù)服務(wù)器

如圖1所示，參數(shù)服務(wù)器是分布式訓(xùn)練領(lǐng)域普遍采用的編程架構(gòu)，主要包含Server和Worker兩個(gè)部分，其中Server負(fù)責(zé)參數(shù)的存儲(chǔ)和更新，而Worker負(fù)責(zé)訓(xùn)練。的參數(shù)服務(wù)器功能也是基于這種經(jīng)典的架構(gòu)進(jìn)行設(shè)計(jì)和開(kāi)發(fā)的，同時(shí)在這基礎(chǔ)上進(jìn)行了SGD（Stochastic Gradient Descent）算法的創(chuàng)新（Geometric Stochastic Gradient Descent）。當(dāng)前經(jīng)過(guò)大量的實(shí)驗(yàn)驗(yàn)證，最佳的方案是每臺(tái)機(jī)器上啟動(dòng)Server和Worker兩個(gè)進(jìn)程，而一個(gè)Worker進(jìn)程中可以包含多個(gè)用于訓(xùn)練的線程。

什么是參數(shù)服務(wù)器

如圖1所示，參數(shù)服務(wù)器是分布式訓(xùn)練領(lǐng)域普遍采用的編程架構(gòu)，主要包含Server和Worker兩個(gè)部分，其中Server負(fù)責(zé)參數(shù)的存儲(chǔ)和更新，而Worker負(fù)責(zé)訓(xùn)練。的參數(shù)服務(wù)器功能也是基于這種經(jīng)典的架構(gòu)進(jìn)行設(shè)計(jì)和開(kāi)發(fā)的，同時(shí)在這基礎(chǔ)上進(jìn)行了SGD（Stochastic Gradient Descent）算法的創(chuàng)新（Geometric Stochastic Gradient Descent）。當(dāng)前經(jīng)過(guò)大量的實(shí)驗(yàn)驗(yàn)證，最佳的方案是每臺(tái)機(jī)器上啟動(dòng)Server和Worker兩個(gè)進(jìn)程，而一個(gè)Worker進(jìn)程中可以包含多個(gè)用于訓(xùn)練的線程。

什么是參數(shù)服務(wù)器

如圖1所示，參數(shù)服務(wù)器是分布式訓(xùn)練領(lǐng)域普遍采用的編程架構(gòu)，主要包含Server和Worker兩個(gè)部分，其中Server負(fù)責(zé)參數(shù)的存儲(chǔ)和更新，而Worker負(fù)責(zé)訓(xùn)練。的參數(shù)服務(wù)器功能也是基于這種經(jīng)典的架構(gòu)進(jìn)行設(shè)計(jì)和開(kāi)發(fā)的，同時(shí)在這基礎(chǔ)上進(jìn)行了SGD（Stochastic Gradient Descent）算法的創(chuàng)新（Geometric Stochastic Gradient Descent）。當(dāng)前經(jīng)過(guò)大量的實(shí)驗(yàn)驗(yàn)證，最佳的方案是每臺(tái)機(jī)器上啟動(dòng)Server和Worker兩個(gè)進(jìn)程，而一個(gè)Worker進(jìn)程中可以包含多個(gè)用于訓(xùn)練的線程。

異步訓(xùn)練模式：如圖3所示，在訓(xùn)練一個(gè)batch的數(shù)據(jù)后，Worker的每個(gè)線程會(huì)發(fā)送梯度給Server。而Server不會(huì)等待接收所有節(jié)點(diǎn)的梯度，而是直接基于已收到的梯度進(jìn)行參數(shù)更新。異步訓(xùn)練去除了訓(xùn)練過(guò)程中的等待機(jī)制，訓(xùn)練速度得到了極源碼交易大的提升，但是缺點(diǎn)也很明顯，那就是Loss下降不穩(wěn)定，容易發(fā)生抖動(dòng)。建議在個(gè)性化推薦（召回、排序）、語(yǔ)義匹配等數(shù)據(jù)量大的場(chǎng)景使用。

尤其是推薦領(lǐng)域的點(diǎn)擊率預(yù)估場(chǎng)景，該場(chǎng)景可能會(huì)出現(xiàn)千億甚至萬(wàn)億規(guī)模的稀疏特征，而稀疏參數(shù)也可以達(dá)到萬(wàn)億數(shù)量級(jí)，且需要小時(shí)級(jí)或分鐘級(jí)流式增量訓(xùn)練。如果使用異步訓(xùn)練模式，可以很好的滿足該場(chǎng)景的online-learning需求。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

十行代碼讓你的單機(jī)“影分身”，分布式訓(xùn)練速度快到飛起

十行代碼讓你的單機(jī)“影分身”，分布式訓(xùn)練速度快到飛起