| hadoop 2.7.0已經(jīng)發(fā)布,在這個版本中 ,包含幾個非常重要的功能。 【重要聲明】 (1)從這個版本開始,JDK必須是JDK 7+,JDK 6以及更低版本不再支持; (2)hadoop 2.7.0是測試版本,不建議在生產環(huán)境中使用。
 
 1. Hadoop Common 支持Windows Azure blob存儲,可以直接實用MapReduce處理存儲在blob存儲中的數(shù)據(jù)。這個feature估計在國內基本用不到。
 
 
 2. Hadoop HDFS 
 (1)支持truncate操作,相當于回滾操作。這是一個非常有價值的feature,方便用戶基于HDFS構建自己的項目。 (2)支持為每種存儲類型設置quota(注:HDFS已經(jīng)支持異構存儲系統(tǒng),比如同時存在磁盤,SSD,flash,內存等存儲介質) (3)支持同一個文件存在不同block大小。用戶在往HDFS某個文件中append數(shù)據(jù)時,可選擇直接將數(shù)據(jù)append到當前block末尾,也可以選擇append到一個新的block中,這可通過向{{append}} API傳入{{CreateFlag.APPEND}}和{{CreateFlag.NEW_BLOCK}}標志位實現(xiàn)。與第一個feature的價值一樣,方便用戶基于HDFS構建自己的項目。
 
 3. Hadoop YARN 
 
 (1)YARN的授權模塊變成插拔式的,用戶可根據(jù)需要編寫授權模塊;這個feature主要是hortonworks為了自己的市場增加的功能,hortonworks前段時間搞了一個新的開源項目Apache Ranger,加到了自己的hadoop發(fā)行版中。 (2) 對DistributedCache功能增強,DistributedCache模塊擁有獨立的服務,可以獨立升級,也可以通過命令顯式地預先cache文件。 
 
 
 4. Hadoop MapReduce 
 (1)允許用戶設置每個job可同時運行的map task和reduce task數(shù)目。這個功能非常實用,相信很多公司一直想要這個feature。用戶可通過以下兩個參數(shù)控制同時運行的task數(shù)目: mapreduce.job.running.map.limit (default: 0, for no limit) mapreduce.job.running.reduce.limit (default: 0, for no limit) (2)當最終輸出產生的文件數(shù)目非常多時,加速FileOutputCommitter組件處理速度。FileOutputCommitter主要功能是將作業(yè)產生的文件mv(實際是rename)到最終的目錄下(注意,為了保證原子性,MR job并不會將結果直接寫入最終目錄下,而是暫時寫到一個臨時文件下),之前是單線程做的,當文件數(shù)目非常多時,這個過程可能耗時1~2分鐘。
 
 
 |