| 隨著5G的到來,Cloud、AI技術的應用和普及,各行各業(yè)數(shù)字化轉(zhuǎn)型的不斷加速,分布式存儲已經(jīng)成為產(chǎn)業(yè)界炙手可熱的話題。不禁有人會問,是曇花一現(xiàn),還是分布式存儲迎來春天?今天,我們不妨來一探究竟。 非結(jié)構化數(shù)據(jù)爆發(fā)式增長,分布式存儲大有可為8K、5G、IoT、大數(shù)據(jù)、AI等系列技術的發(fā)展,帶來了數(shù)據(jù)量的爆發(fā)式增長。IDC在《Data Age 2025》的報告中預測,從2018年到2025年,全球數(shù)據(jù)將從33ZB急速增長到175ZB,其中非結(jié)構化數(shù)據(jù)占比將超過80%。分布式存儲憑借高擴展性和易管理能力,成為承載海量數(shù)據(jù)的重要選擇。Gartner 2019年新定義的第二存儲陣列,更是專門強調(diào)架構上必須是Scale Out的。 IDC數(shù)據(jù)增長趨勢預測 IDC指出,目前每年存儲下來的數(shù)據(jù)只有新產(chǎn)生數(shù)據(jù)的1%左右,其中真正用于數(shù)據(jù)挖掘的量不?存儲數(shù)據(jù)的10%。數(shù)據(jù)資產(chǎn)已成為企業(yè)數(shù)字化轉(zhuǎn)型的核心,未來隨著大數(shù)據(jù)和AI等新生產(chǎn)工具的發(fā)展,數(shù)據(jù)存儲比例和挖掘比例必將大幅提升,需要專業(yè)的分布式存儲來提供更高的存儲容量和并發(fā)性能。Gartner定義的第二存儲陣列也將大數(shù)據(jù)分析作為其典型應用場景,認為未來的大數(shù)據(jù)分析會為分布式存儲帶來海量的數(shù)據(jù)和性能需求。 市場趨勢明顯,分布式存儲產(chǎn)業(yè)爆發(fā)在即IDC將分布式存儲歸入了軟件定義存儲來跟蹤,IDC發(fā)布的《中國軟件定義存儲(SDS)及超融合存儲(HCI)系統(tǒng)市場季度跟蹤報告,2019年第二季度》顯示,中國區(qū)軟件定義存儲已經(jīng)連續(xù)多個季度同比大幅增長。 IDC中國區(qū)SDS存儲2017Q2-2019Q2銷售數(shù)據(jù) 按IDC的預測,中國區(qū)SDS存儲銷售從2018年到2023年將保持20%以上的年化增長率;到2023年,全球40%左右的存儲系統(tǒng)都將是分布式存儲架構。另一家調(diào)研機構Zion Market Research更是預測,全球分布式存儲的銷售額將從2018年的20億美元快速增長到2027年的285億美元,年化增長率高達34.7%。無論從過去幾年的銷售數(shù)據(jù)還是未來幾年的銷售預測來看,分布式存儲的春天已經(jīng)到來,以Ceph為代表的開源分布式存儲蓬勃發(fā)展,以EMC、華為為代表的專業(yè)存儲廠商重兵投入,同樣也印證了這一結(jié)論。 IDC中國區(qū)SDS存儲2018-2023年銷售數(shù)據(jù)預測 分布式存儲技術發(fā)展趨勢分布式存儲是未來的發(fā)展方向已成為業(yè)界共識,那么分布式存儲技術上又有哪些發(fā)展趨勢呢,這點可以從Gartner分布式文件&對象存儲關鍵能力要求和各大主流廠商的產(chǎn)品方向上來看一下: 極致效率 Gartner對第二存儲的定義是:首要目的是經(jīng)濟高效地支持延遲和IOPS不是必需屬性的非結(jié)構化數(shù)據(jù)工作負載, 典型用例包括長期歸檔,大數(shù)據(jù)分析應用程序的存儲庫,深度歷史研究以及備份/恢復軟件的備份/恢復目標。這就意味著,分布式存儲的首要目標是提供極致效率的數(shù)據(jù)存儲方案。 從Gartner分布式文件&對象存儲關鍵能力要求來看,效率主要體現(xiàn)在幾個方面: 
 極致性能 分布式存儲不以支持低時延和高IOPS為首要目標,但并不意味著性能對分布式存儲就不重要了。IDC在《Data Age 2025》的報告中預測,實時數(shù)據(jù)占比將逐年提升,到2025年實時數(shù)據(jù)占比將達到30%,這么大規(guī)模的實時數(shù)據(jù),很大一部分是需要借助分布式存儲實現(xiàn)數(shù)據(jù)采集、存儲和分析的,這就需要分布式存儲能夠提供極致性能來應對。 IDC全球?qū)崟r數(shù)據(jù)占比預測 比較典型的如金融的風險評估、交通的自動駕駛、新興的AI應用,都需要從海量數(shù)據(jù)中快速獲取所需的信息并進行實時分析,這就要求存儲提供亞毫秒級的響應時延,同時以高擴展性應對高并發(fā)處理性能需求。業(yè)界主流廠商如EMC、PureStorage、華為等都推出了基于全閃存的分布式存儲產(chǎn)品,通過存儲軟件、專有硬件、網(wǎng)絡的深度配合,來滿足上層應用的極致性能需求。 智能管理 隨著數(shù)據(jù)量的增加和存儲集群規(guī)模的增大,如何實現(xiàn)存儲的高效管理成為用戶面臨的一大課題。各主流廠商紛紛推出“AI in Storage”的概念,通過端到端DIF和靜默數(shù)據(jù)校驗技術保障數(shù)據(jù)的一致性;通過AI訓練實現(xiàn)系統(tǒng)性能自動優(yōu)化;通過系統(tǒng)亞健康檢測和故障模式庫實現(xiàn)故障預測和故障自動解決。 提到智能管理,不可避免的還會涉及純軟件和軟硬一體的流派之爭。以Ceph為代表的開源分布式存儲曾經(jīng)以低成本的純軟部署占領輿論的風口,但這種方式無法實現(xiàn)軟硬件密切配合的智能管理,也難以達到極致性能,最終用戶還是更多選擇了軟硬一體的方案,純軟件方案的代表IBM和XKY也開始大力推廣自己的軟硬件一體機方案ESS和XSCALER。 隨著分布式存儲越來越多進入到企業(yè)的在線生產(chǎn)業(yè)務,如基因測序、自動駕駛、衛(wèi)星測繪等,它已不再是低成本、低可靠存儲的代名詞。遍及各行業(yè)越來越多的大規(guī)模應用表明,分布式存儲的春天已經(jīng)到來。未來,硬件 算法將成為分布式存儲的核心競爭力,以及廠商新的角逐焦點。 | 
|  |