吊炸天：hadoop 2.7.0版本發(fā)布

北書房2014 2015-05-05

展開全文

hadoop 2.7.0已經(jīng)發(fā)布，在這個版本中，包含幾個非常重要的功能。
【重要聲明】
（1）從這個版本開始，JDK必須是JDK 7+，JDK 6以及更低版本不再支持；
（2）hadoop 2.7.0是測試版本，不建議在生產環(huán)境中使用。

1. Hadoop Common

支持Windows Azure blob存儲，可以直接實用MapReduce處理存儲在blob存儲中的數(shù)據(jù)。這個feature估計在國內基本用不到。

2. Hadoop HDFS

(1)支持truncate操作，相當于回滾操作。這是一個非常有價值的feature，方便用戶基于HDFS構建自己的項目。
(2)支持為每種存儲類型設置quota（注：HDFS已經(jīng)支持異構存儲系統(tǒng)，比如同時存在磁盤，SSD，flash，內存等存儲介質）
(3)支持同一個文件存在不同block大小。用戶在往HDFS某個文件中append數(shù)據(jù)時，可選擇直接將數(shù)據(jù)append到當前block末尾，也可以選擇append到一個新的block中，這可通過向{{append}} API傳入{{CreateFlag.APPEND}}和{{CreateFlag.NEW_BLOCK}}標志位實現(xiàn)。與第一個feature的價值一樣，方便用戶基于HDFS構建自己的項目。

3. Hadoop YARN

(1)YARN的授權模塊變成插拔式的，用戶可根據(jù)需要編寫授權模塊；這個feature主要是hortonworks為了自己的市場增加的功能，hortonworks前段時間搞了一個新的開源項目Apache Ranger，加到了自己的hadoop發(fā)行版中。
(2) 對DistributedCache功能增強，DistributedCache模塊擁有獨立的服務，可以獨立升級，也可以通過命令顯式地預先cache文件。

4. Hadoop MapReduce

（1）允許用戶設置每個job可同時運行的map task和reduce task數(shù)目。這個功能非常實用，相信很多公司一直想要這個feature。用戶可通過以下兩個參數(shù)控制同時運行的task數(shù)目：
mapreduce.job.running.map.limit (default: 0, for no limit)
mapreduce.job.running.reduce.limit (default: 0, for no limit)
（2）當最終輸出產生的文件數(shù)目非常多時，加速FileOutputCommitter組件處理速度。FileOutputCommitter主要功能是將作業(yè)產生的文件mv（實際是rename）到最終的目錄下（注意，為了保證原子性，MR job并不會將結果直接寫入最終目錄下，而是暫時寫到一個臨時文件下），之前是單線程做的，當文件數(shù)目非常多時，這個過程可能耗時1~2分鐘。

本站是提供個人知識管理的網(wǎng)絡存儲空間，所有內容均由用戶發(fā)布，不代表本站觀點。請注意甄別內容中的聯(lián)系方式、誘導購買等信息，謹防詐騙。如發(fā)現(xiàn)有害或侵權內容，請點擊一鍵舉報。

轉藏分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自：北書房2014 > 《程序員》

舉報/認領

0條評論

發(fā)表

請遵守用戶評論公約

類似文章 更多

小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

吊炸天：hadoop 2.7.0版本發(fā)布