小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

?你應(yīng)該知道的 HBase 基礎(chǔ),都在這兒了

 昵稱42427018 2019-04-19

阿里妹導(dǎo)讀:2006 年10 月Google 發(fā)布三架馬車之一的《Bigtable:A Distributed Storage System for Strctured Data》論文之后,Powerset 公司就宣布 HBase 在 Hadoop 項目中成立,作為子項目存在。后來,在2010 年左右逐漸成為 Apache 旗下的一個頂級項目。可能是實際應(yīng)用中包裝得太好,很多人對于 HBase 的認識止步于 NoSQL 。今天,螞蟻金服的南俊從基礎(chǔ)開始講起,希望有助于增強大家在實際業(yè)務(wù)中對 HBase 的理解。

一、 HBase 簡介

HBase 名稱的由來是由于其作為 Hadoop Database 存在的,用來存儲非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)。

要想知道 HBase 的用途,就需要看一看其在 Apache 的 Hadoop 生態(tài)系統(tǒng)中的位置,可以看到 HBase 是構(gòu)建在 HDFS 之上的,這是由于 HBase 內(nèi)部管理的文件全部都是存儲在 HDFS 當(dāng)中的。同時,MapReduce 這個計算框架在 HBase 之上又提供了高性能的計算能力來處理海量數(shù)據(jù)。此外還有一些像 Pig、Hive 用來提供高層語言的支持。還有 Sqoop 用來完成傳統(tǒng)數(shù)據(jù)庫到 HBase 之間的數(shù)據(jù)遷移。類似衍生出來的新技術(shù)還有很多,有興趣的同學(xué)可以自己去了解一下。

Google 的三架馬車 BigTable、GFS、MapReduce 現(xiàn)在在開源社區(qū)中都能找到對應(yīng)的實現(xiàn)。HBase 就是 Bigtable 的開源實現(xiàn),當(dāng)然這句話不是完全正確,因為兩者之間還是有些差異的。但是主要還是基于 BigTable 這個數(shù)據(jù)模型開發(fā)的,因此也是具有 Key-Value 特征的,同時也就具有 Bigtable 稀疏的、面向列的這些特性。

也是由于 HBase 利用 HDFS 作為它的文件系統(tǒng),因此它也具有 HDFS 的高可靠性和可伸縮性。和 Hadoop 一樣,HBase 也是依照橫向擴展,通過不斷地通過添加廉價的服務(wù)器來增加計算和存儲的能力。BigTable 利用 Chubby 來進行協(xié)同服務(wù),HBase 則是利用 Zookeeper 來對整個分布式系統(tǒng)進行協(xié)調(diào)服務(wù)。正是因為通過HDFS 的高可靠可伸縮性,以及應(yīng)用了 Bigtable 的稀疏的面向列的這些高效的數(shù)據(jù)組織形式。所以 HBase 才能如此地適合大數(shù)據(jù)隨機和實時讀寫。

二、 HBase 基本概念

這里介紹一下 HBase 的一些基本概念:

RowKey(行鍵),顧名思義也就是我們在關(guān)系型數(shù)據(jù)庫中常見的主鍵,它是Unique 的,在 HBase 中這個主鍵可以是任意的字符串,其最大長度是64K,在內(nèi)部存儲中會被存儲為字節(jié)數(shù)組,HBase 表中的數(shù)據(jù)是按照 RowKey 的字典序排列的,例如很多索引的實現(xiàn),包括地理空間索引很大程度就是依賴這個特性。

不過也要注意一個點,現(xiàn)實當(dāng)中期望排序是1、2、3、4...10,而在 HBase 中1 后面緊跟的會是10。因此,在設(shè)計行鍵的時候一定要充分地利用字典序這個特性,將一下經(jīng)常讀取的行存儲到一起或者靠近,減少Scan 的耗時,提高讀取的效率。這里一定要說的一點是,行鍵設(shè)計真的很重要,例如做組合行鍵時將時間排前面,導(dǎo)致寫熱點(曾經(jīng)踩過的坑,記憶猶新)。

Column Family(列族),它是由若干列構(gòu)成,是表 Schema 的一部分,所以需要在創(chuàng)建表的時候就指定好。但也不是所表創(chuàng)建完之后就不能更改列族,只是成本會比較大,因此不建議更改。HBase 中可允許定義的列族個數(shù)最多就20多個。列族不僅僅能夠幫助我們構(gòu)建數(shù)據(jù)的語義邊界,還能有助于我們設(shè)置某些特性,比如可以指定某個列族內(nèi)數(shù)據(jù)的壓縮形式。一個列族包含的所有列在物理存儲上都是在同一個底層的存儲文件當(dāng)中。

Column (列),一般都是從屬于某個列族,跟列族不一樣,列的數(shù)量一般的沒有強限制的,一個列族當(dāng)中可以有數(shù)百萬個列,而且這些列都可以動態(tài)添加的。這也是我們常說的 HBase 面向列的優(yōu)點,不像傳統(tǒng)的關(guān)系型數(shù)據(jù)庫,調(diào)整一下 Schema 都需要擔(dān)心對于生產(chǎn)的影響。

Version Number(版本號),HBase 中每一列的值或者說是每個單元格的值都是具有版本號的,默認使用的系統(tǒng)當(dāng)前的時間戳,精確到毫秒。當(dāng)然也可以是用戶自己顯式地設(shè)置,我們是通過時間戳來識別不同的版本,因此如果要自己設(shè)置的話,也要保證版本號的唯一性。用戶也可以指定保存指定單元格的最后 N 個版本,或者某個時間段的版本,這個是可以在配置中配置的。一個單元格里面是數(shù)據(jù)是按照版本號降序的。也就是說最后寫入的值會被最先讀取。

Cell(單元格),一個單元格就是由前面說的行鍵、列標(biāo)示、版本號唯一確定的,這里說的列標(biāo)示包括列族和列名。Cell 中的數(shù)據(jù)是沒有類型的,全部都是字節(jié)碼。

三、HBase 表邏輯視圖

由于 HBase 表的一個單元格是由多維決定的,我這里嘗試用一個二維的電子表格來展示。可以結(jié)合前面說的 HBase 的基本概念來理解。可以看到通過二維表格來展示一個成績表,中間有很多單元格是空的,整體看起來很稀疏,需要說明的是在 HBase 的實際存儲中這些空的單元格并不占存儲。

四、HBase 表物理視圖

物理視圖比較復(fù)雜,下面以圖來展示一個 HBase 表從宏觀到微觀到物理存儲。盡量以最簡單到方式展示物理視圖的幾個層次。

  • 表的橫向切分(Table?Region)

  • Region 的分裂

  • Region 的分布

  • Region 的存儲結(jié)構(gòu)

一個 Region 是由一個或多個 Store 組成。每一個 Store 其實就是一個列族。每個

Store 又是由一個 memStore 和 0 個或者多個 storeFile 組成。memStore 是存儲在內(nèi)存中,storeFile 是存儲在 HDFS 中,有時候也稱作 HFile。數(shù)據(jù)都會先寫入memStore,一旦 memStore 超過給的的最大值之后,HBase 就會將memStore 持久化為 storeFile。

五、HBase 集群結(jié)構(gòu)

一個 HBase 集群一般由一個 Master 和多個 RegionServer 組成。

  • 客戶端庫:可以通過 HBase 提供的各式語言API 庫訪問集群。API 庫也會維護一個本地緩存來加快對 HBase 對訪問,比如緩存中記錄著 Region 的位置信息。

  • Maste 節(jié)點:主要為各個 RegionServer 分配 Region,負責(zé) RegionServer 對負載均衡,管理用戶對于 Table 對 CRUD 操作。

  • RegionServer:維護 Region,處理對這些 Region 對IO 請求,負責(zé)切分在運行過程中變過大的 Region。

參考資料:HBase權(quán)威指南

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多