小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

Hadoop學(xué)習(xí)筆記一 簡要介紹 - Hadoop - 技術(shù)應(yīng)用 - 豆豆網(wǎng)

 石頭狗 2009-03-13

Hadoop學(xué)習(xí)筆記一 簡要介紹

http://tech.   2008年09月18日    社區(qū)交流

關(guān)鍵字: Hadoop DB2 UDB Ant Groovy 單元測試

內(nèi)容摘要:Lucene并不是一個應(yīng)用程序,而是提供了一個純Java的高性能全文索引引擎工具包,它可以方便的嵌入到各種實際應(yīng)用中實現(xiàn)全文搜索/索引功能。Nutch是一個應(yīng)用程序,是一個以Lucene為基礎(chǔ)實現(xiàn)的搜索引擎應(yīng)用,Lucene為Nutch提供了文本搜索和索引的API,Nutch不光有搜索的功能,還有數(shù)據(jù)抓取的功能。

  這里先大致介紹一下Hadoop.

  本文大部分內(nèi)容都是從官網(wǎng)Hadoop上來的。其中有一篇介紹HDFS的pdf文檔,里面對Hadoop介紹的比較全面了。我的這一個系列的Hadoop學(xué)習(xí)筆記也是從這里一步一步進行下來的,同時又參考了網(wǎng)上的很多文章,對學(xué)習(xí)Hadoop中遇到的問題進行了歸納總結(jié)。

  言歸正傳,先說一下Hadoop的來龍去脈。談到Hadoop就不得不提到Lucene和Nutch。首先,Lucene并不是一個應(yīng)用程序,而是提供了一個純Java的高性能全文索引引擎工具包,它可以方便的嵌入到各種實際應(yīng)用中實現(xiàn)全文搜索/索引功能。Nutch是一個應(yīng)用程序,是一個以Lucene為基礎(chǔ)實現(xiàn)的搜索引擎應(yīng)用,Lucene為Nutch提供了文本搜索和索引的API,Nutch不光有搜索的功能,還有數(shù)據(jù)抓取的功能。在nutch0.8.0版本之前,Hadoop還屬于Nutch的一部分,而從nutch0.8.0開始,將其中實現(xiàn)的NDFS和MapReduce剝離出來成立一個新的開源項目,這就是Hadoop,而nutch0.8.0版本較之以前的Nutch在架構(gòu)上有了根本性的變化,那就是完全構(gòu)建在Hadoop的基礎(chǔ)之上了。在Hadoop中實現(xiàn)了Google的GFS和MapReduce算法,使Hadoop成為了一個分布式的計算平臺。

  其實,Hadoop并不僅僅是一個用于存儲的分布式文件系統(tǒng),而是設(shè)計用來在由通用計算設(shè)備組成的大型集群上執(zhí)行分布式應(yīng)用的框架。

  Hadoop包含兩個部分:

  1、HDFS

  即Hadoop Distributed File System (Hadoop分布式文件系統(tǒng))

  HDFS具有高容錯性,并且可以被部署在低價的硬件設(shè)備之上。HDFS很適合那些有大數(shù)據(jù)集的應(yīng)用,并且提供了對數(shù)據(jù)讀寫的高吞吐率。HDFS是一個master/slave的結(jié)構(gòu),就通常的部署來說,在master上只運行一個Namenode,而在每一個slave上運行一個Datanode。

  HDFS支持傳統(tǒng)的層次文件組織結(jié)構(gòu),同現(xiàn)有的一些文件系統(tǒng)在操作上很類似,比如你可以創(chuàng)建和刪除一個文件,把一個文件從一個目錄移到另一個目錄,重命名等等操作。Namenode管理著整個分布式文件系統(tǒng),對文件系統(tǒng)的操作(如建立、刪除文件和文件夾)都是通過Namenode來控制。

  下面是HDFS的結(jié)構(gòu):

hadoop學(xué)習(xí)筆記一 簡要介紹

  從上面的圖中可以看出,Namenode,Datanode,Client之間的通信都是建立在TCP/IP的基礎(chǔ)之上的。當Client要執(zhí)行一個寫入的操作的時候,命令不是馬上就發(fā)送到Namenode,Client首先在本機上臨時文件夾中緩存這些數(shù)據(jù),當臨時文件夾中的數(shù)據(jù)塊達到了設(shè)定的Block的值(默認是64M)時,Client便會通知Namenode,Namenode便響應(yīng)Client的RPC請求,將文件名插入文件系統(tǒng)層次中并且在Datanode中找到一塊存放該數(shù)據(jù)的block,同時將該Datanode及對應(yīng)的數(shù)據(jù)塊信息告訴Client,Client便這些本地臨時文件夾中的數(shù)據(jù)塊寫入指定的數(shù)據(jù)節(jié)點。

  HDFS采取了副本策略,其目的是為了提高系統(tǒng)的可靠性,可用性。HDFS的副本放置策略是三個副本,一個放在本節(jié)點上,一個放在同一機架中的另一個節(jié)點上,還有一個副本放在另一個不同的機架中的一個節(jié)點上。當前版本的hadoop0.12.0中還沒有實現(xiàn),但是正在進行中,相信不久就可以出來了。

  2、MapReduce的實現(xiàn)

  MapReduce是Google 的一項重要技術(shù),它是一個編程模型,用以進行大數(shù)據(jù)量的計算。對于大數(shù)據(jù)量的計算,通常采用的處理手法就是并行計算。至少現(xiàn)階段而言,對許多開發(fā)人員來說,并行計算還是一個比較遙遠的東西。MapReduce就是一種簡化并行計算的編程模型,它讓那些沒有多少并行計算經(jīng)驗的開發(fā)人員也可以開發(fā)并行應(yīng)用。

  MapReduce的名字源于這個模型中的兩項核心操作:Map和 Reduce。也許熟悉Functional Programming(函數(shù)式編程)的人見到這兩個詞會倍感親切。簡單的說來,Map是把一組數(shù)據(jù)一對一的映射為另外的一組數(shù)據(jù),其映射的規(guī)則由一個函數(shù)來指定,比如對[1, 2, 3, 4]進行乘2的映射就變成了[2, 4, 6, 8]。Reduce是對一組數(shù)據(jù)進行歸約,這個歸約的規(guī)則由一個函數(shù)指定,比如對[1, 2, 3, 4]進行求和的歸約得到結(jié)果是10,而對它進行求積的歸約結(jié)果是24。

  關(guān)于MapReduce的內(nèi)容,建議看看孟巖的這篇MapReduce:The Free Lunch Is Not Over!

  好了,作為這個系列的第一篇就寫這么多了,我也是剛開始接觸Hadoop,下一篇就是講Hadoop的部署,談?wù)勎以诓渴餒adoop時遇到的問題,也給大家一個參考,少走點彎路。

  文章來源:http://www.cnblogs.com/wayne1017/archive/2007/03/18/668768.html

作者:Alive    責(zé)編:豆豆技術(shù)應(yīng)用

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多