小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

并行數(shù)據(jù)庫(kù)技術(shù)分析與展望

 印度阿三17 2021-03-16
本文以我個(gè)人的理解簡(jiǎn)單分析下并行數(shù)據(jù)庫(kù)的技術(shù)要點(diǎn)以及對(duì)未來(lái)并行數(shù)據(jù)庫(kù)的發(fā)展做下展望,理解有偏差的地方,歡迎各位指正。
  • 并行數(shù)據(jù)庫(kù)的定義

    在維基百科上,并行數(shù)據(jù)庫(kù)被定義為通過(guò)并行使用多個(gè)CPU和磁盤來(lái)將諸如裝載數(shù)據(jù)、建立索引、執(zhí)行查詢等操作并行化以提升性能的數(shù)據(jù)庫(kù)系統(tǒng)。其中最重要的關(guān)鍵詞是并行,分布式。

  • 并行數(shù)據(jù)庫(kù)的技術(shù)要點(diǎn)

    并行數(shù)據(jù)庫(kù)主要由執(zhí)行引擎、存儲(chǔ)引擎和管理功能模塊組成,它們的不同技術(shù)風(fēng)格形成了各個(gè)有特色的并行數(shù)據(jù)庫(kù)產(chǎn)品。隨著Hadoop的興起,目前MPP數(shù)據(jù)庫(kù)主要分成兩類,一類是傳統(tǒng)的MPP 關(guān)系型數(shù)據(jù)庫(kù),比如。Greenplum,Vertica等,另外一類是借鑒了MPP并行數(shù)據(jù)庫(kù)的設(shè)計(jì)思想的SQL on Hadoop類的方案,比如Impala,HAWQ,SparkSQL等

    并行數(shù)據(jù)庫(kù)比較關(guān)鍵的技術(shù)點(diǎn)是存儲(chǔ)引擎,而在存儲(chǔ)引擎中最重要的就是數(shù)據(jù)分布按行進(jìn)行Hash分布是并行數(shù)據(jù)庫(kù)的重要特征。其它數(shù)據(jù)分布方式無(wú)法精確控制數(shù)據(jù)擺放,也無(wú)法提供足夠的用于查詢優(yōu)化的存儲(chǔ)信息。這種緊密耦合的非透明的方式帶來(lái)了巨大的好處(同樣分布的表的高效關(guān)聯(lián)),同時(shí)也帶來(lái)了麻煩(擴(kuò)展性、高可用等)。

    像一些SQL on Hadoop的方案,比如impala,就充分利用了HDFS的短路讀和數(shù)據(jù)本地性的方式來(lái)提升SQL查詢的性能。沒(méi)有解決Hash分布的解決方案都難以處理多個(gè)大表關(guān)聯(lián)(Join)的問(wèn)題,它們多通過(guò)預(yù)關(guān)聯(lián)的方式來(lái)規(guī)避這個(gè)問(wèn)題,形成某種類似OLAP多維立方體的解決方案(比如Google Dremel、Mesa,eBayKylin等);或通過(guò)shuffle實(shí)現(xiàn)重新分布(比如Hive或者SparkSQL)。解決了數(shù)據(jù)分布以后,就要思考計(jì)算好Hash后的數(shù)據(jù)在一個(gè)節(jié)點(diǎn)中怎么存。通常三種方式:行、列或者行列混合,所以在這基礎(chǔ)上出現(xiàn)了很多列存的文件存儲(chǔ)格式,比如ORC,Parquet等,以及支持列模式存儲(chǔ)的數(shù)據(jù)庫(kù)(比如Greenplum,Vertica等就有支持列模式的存儲(chǔ))。

    最后考慮的是硬件,目前典型的并行數(shù)據(jù)庫(kù)多使用SAS磁盤,而HDFS使用的容量更大、價(jià)格更便宜但性能和可靠性稍差的SATA磁盤。使用這種慢速的磁盤是并行數(shù)據(jù)庫(kù)目前最大的瓶頸,使得它無(wú)法實(shí)現(xiàn)效率和可擴(kuò)展高可用的兼得。隨著SSD和內(nèi)存的價(jià)格越來(lái)越便宜,性能的快速提高,后續(xù)面對(duì)以SATA接口SSD代替SAS,SATA磁盤的并行數(shù)據(jù)庫(kù),我覺(jué)得很快就會(huì)到來(lái),現(xiàn)在一些高端的并行數(shù)據(jù)庫(kù)一體機(jī)就已經(jīng)可以采用全部SSD的配置了,用硬件來(lái)解決軟件的問(wèn)題是最直接有效的方式。

  • 未來(lái)展望

隨著云計(jì)算技術(shù)的發(fā)展,我認(rèn)為以后以云的方式提供數(shù)據(jù)庫(kù)服務(wù)會(huì)越來(lái)越多,無(wú)論是企業(yè)內(nèi)部的私有云還是對(duì)外的公有云。比如AWS RedShift和Openstack Trove (DBaaS)。這給數(shù)據(jù)庫(kù)軟件帶來(lái)的變化是它需要支持越來(lái)越大的集群,技術(shù)難度加大但經(jīng)濟(jì)性更好。這也要求要具備更好的管控能力。數(shù)據(jù)庫(kù)軟件需要越來(lái)越為大規(guī)模集群設(shè)計(jì)。因此我認(rèn)為,在上述趨勢(shì)的發(fā)展之下。并行數(shù)據(jù)庫(kù)的軟件模塊或者叫組件的分工會(huì)越來(lái)越細(xì)化。以前只有主節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)兩類。有的數(shù)據(jù)庫(kù)找一些空的數(shù)據(jù)節(jié)點(diǎn)來(lái)作為裝載節(jié)點(diǎn)。那么未來(lái)接入節(jié)點(diǎn)、協(xié)調(diào)節(jié)點(diǎn)、元數(shù)據(jù)節(jié)點(diǎn)、日志節(jié)點(diǎn)、安全節(jié)點(diǎn)、SQL解析和優(yōu)化節(jié)點(diǎn)、數(shù)據(jù)裝載和導(dǎo)出節(jié)點(diǎn)、數(shù)據(jù)節(jié)點(diǎn)可能會(huì)被單獨(dú)分析出來(lái)(數(shù)據(jù)節(jié)點(diǎn)的對(duì)等性必須得到保護(hù))。并且這些組件的實(shí)例均需要支持通過(guò)軟件的方式靈活配置數(shù)量等,而不是寫到代碼之中。在架構(gòu)設(shè)計(jì)之初就考慮并行、負(fù)載分擔(dān)和可擴(kuò)展等。組件之間通過(guò)Zookeeper之類的方式進(jìn)行協(xié)調(diào),實(shí)現(xiàn)高可用,松耦合,屏蔽內(nèi)部細(xì)節(jié)。

小結(jié)

1、 隨著云的發(fā)展,無(wú)論是公有云還是私有云,并行數(shù)據(jù)庫(kù)可能會(huì)發(fā)展的越來(lái)越大,專業(yè)性更加強(qiáng)。

2、 隨著SSD和內(nèi)存的價(jià)格越來(lái)越便宜,內(nèi)存可能會(huì)成為數(shù)據(jù)讀寫的主要發(fā)生點(diǎn),這將有效的解決當(dāng)前計(jì)算與存儲(chǔ)緊密結(jié)合的并行數(shù)據(jù)庫(kù)的難題。 

來(lái)源:https://www./content-2-894101.html

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多