百度Hadoop分布式系統(tǒng)揭秘：4000節(jié)點(diǎn)集群 : NoSQLfan

daomucun 2011-01-02

展開全文

百度Hadoop分布式系統(tǒng)揭秘：4000節(jié)點(diǎn)集群

Posted by nosqlfan on 星期二, 十二月 28, 2010 · 3 Comments 【閱讀：525 次】

在 NoSQL 方面，之前了解到百度對 Hadoop 和 hypertable 都有研究，而且 hypertable 方面更是作為其主要贊助商之一，但之前和百度的一些朋友了解到百度內(nèi)部對 hypertable 倒是使用不多，相反在 Hadoop 方面倒是有比較大的應(yīng)用實例。下面一篇文章描述了百度內(nèi)部4000個結(jié)點(diǎn)的 Hadoop 集群的一些技術(shù)細(xì)節(jié)。

百度的高性能計算系統(tǒng)(主要是后端數(shù)據(jù)訓(xùn)練和計算)目前有4000節(jié)點(diǎn)，超過10個的集群，最大的集群規(guī)模在1000個節(jié)點(diǎn)以上。每個節(jié)點(diǎn)由8核 CPU以及16G內(nèi)存以及12TB硬盤組成，每天的數(shù)據(jù)生成量在3PB以上。規(guī)劃當(dāng)中的架構(gòu)將有超過1萬個節(jié)點(diǎn)，每天的數(shù)據(jù)生成量在10PB以上。

底層的計算資源管理層采用了Agent調(diào)度不同類型的計算分別給MPI結(jié)構(gòu)的算法和Map-Reduce和DAG算法應(yīng)用等。而通過調(diào)度的分配，可以讓HPC高性能計算集群和大規(guī)模分布式集群各得其所的計算相應(yīng)數(shù)據(jù)。

百度通過HCE對streaming作業(yè)的排序，壓縮，解壓縮，內(nèi)存控制進(jìn)行了優(yōu)化并提供了C++版的MapReduce接口。

百度HCE語言的有關(guān)內(nèi)容，HCE是基于C++的Hadoop環(huán)境，是一個全功能C++環(huán)境，可以避開Java語言對于釋放內(nèi)存和資源申請的弊端，并在調(diào)用數(shù)據(jù)時繞開Java語言的所有關(guān)節(jié)，極大的提升算法效率。

百度的調(diào)度器是在capacity-scheduler的基礎(chǔ)上根據(jù)自身業(yè)務(wù)改進(jìn)的。

百度計劃對shuffle流程進(jìn)行大幅改造

來源：http://www.cnblogs.com/chinacloud/archive/2010/11/08/1871592.html

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： daomucun > 《技術(shù)積累》

舉報/認(rèn)領(lǐng)