![]() ![]() 作者:a16z 編譯:kefei,穆奕,Ting 排版:海外獨(dú)角獸團(tuán)隊(duì) ![]() 數(shù)據(jù)賽道的美妙之處在于,它將軟件開發(fā)、數(shù)據(jù)分析和人工智能結(jié)合起來,同時(shí)還享受了云計(jì)算浪潮的勢(shì)頭。如今,每一個(gè)人都是數(shù)據(jù)的生產(chǎn)者和消費(fèi)者,需求的激增使數(shù)據(jù)成為企業(yè)基礎(chǔ)設(shè)施服務(wù)領(lǐng)域中增長(zhǎng)最快的賽道之一。 2022 年 3 月 23 日,a16z 發(fā)布 Data 50 榜單,介紹了全球 50 家代表下一代行業(yè)標(biāo)準(zhǔn)的數(shù)據(jù)初創(chuàng)企業(yè),覆蓋 7 個(gè)子領(lǐng)域:
從融資金額上看,數(shù)據(jù)查詢和數(shù)據(jù)處理公司籌集了絕大部分資金。而從公司數(shù)量上看,AI/ML 領(lǐng)域的公司最多,AI/ML 的發(fā)展推動(dòng)新興數(shù)據(jù)公司數(shù)量的增長(zhǎng)。盡管每個(gè)領(lǐng)域發(fā)展驅(qū)動(dòng)力不盡相同,但每個(gè)領(lǐng)域都吸引了投資者的興趣。 除了分享這份 Data 50 的榜單,在本文的后半部分,我們還將和大家分享a16z 在最近更新的一份數(shù)據(jù)基礎(chǔ)設(shè)施架構(gòu)報(bào)告:為了探討數(shù)據(jù)賽道巨大趨勢(shì)背后的架構(gòu)演變和驅(qū)動(dòng)力,a16z 于 年2020末發(fā)布了這套架構(gòu)體系,并于2022年進(jìn)行了更新,以幫助人們追蹤數(shù)據(jù)基礎(chǔ)設(shè)施行業(yè)變化。報(bào)告展示了跨越分析和運(yùn)營(yíng)系統(tǒng)的最佳技術(shù)以及每個(gè)架構(gòu)自上一版本以來的變化,還試圖解釋了為什么會(huì)發(fā)生這些變化。 a16z 表示,核心數(shù)據(jù)處理系統(tǒng)在過去一年中保持相對(duì)穩(wěn)定,而支持類工具和應(yīng)用則迅速激增。文章探討的假設(shè)是,數(shù)據(jù)平臺(tái)開始在數(shù)據(jù)生態(tài)系統(tǒng)中出現(xiàn),這一假設(shè)有助于解釋數(shù)據(jù)棧演變中出現(xiàn)的特殊模式。 未來 10 年將是數(shù)據(jù)的 10 年,無論是基礎(chǔ)層、應(yīng)用層、還是介于兩者之間的一切。 ![]() 如果你想要第一時(shí)間跟蹤「海外獨(dú)角獸」更多活動(dòng)和內(nèi)容動(dòng)態(tài),歡迎添加「小象」的微信~ 01. The Data 50 List 在 "大數(shù)據(jù) "概念誕生的十多年后,數(shù)據(jù)仍然是大型企業(yè)和新興初創(chuàng)企業(yè)快速成長(zhǎng)最重要的創(chuàng)新動(dòng)力之一。不管是對(duì)業(yè)務(wù)基礎(chǔ)運(yùn)營(yíng)進(jìn)行診斷,還是通過機(jī)器學(xué)習(xí)使日常業(yè)務(wù)智能化、自動(dòng)化,數(shù)據(jù)已經(jīng)成為各組織進(jìn)行決策的中樞神經(jīng)系統(tǒng)。此外,數(shù)據(jù)使用者的范圍遠(yuǎn)遠(yuǎn)超出了數(shù)據(jù)科學(xué)家、數(shù)據(jù)分析師和數(shù)據(jù)工程師,如今每個(gè)人都是數(shù)據(jù)的生產(chǎn)者和消費(fèi)者。 市場(chǎng)對(duì)數(shù)據(jù)關(guān)注度日益提升,帶來的結(jié)果是:數(shù)據(jù)管理已經(jīng)成為企業(yè)基礎(chǔ)設(shè)施中增長(zhǎng)最快的領(lǐng)域之一,價(jià)值預(yù)計(jì)超過 700 億美元,21 年20數(shù)據(jù)管理支出占企業(yè)所有基礎(chǔ)設(shè)施支出的五分之一以上。 過去幾年,數(shù)據(jù)產(chǎn)業(yè)的發(fā)展也催生了一些很令人興奮、很有影響力的軟件公司。比如已經(jīng)上市的 Snowflake(市值 734 億美元)和 Confluent (市值 121 億美元),已經(jīng)改變了上千家企業(yè)的運(yùn)作方式和上百萬產(chǎn)品的構(gòu)建形式。然而,大多數(shù)人仍不太了解其他有影響力的企業(yè)——下一代定義行業(yè)標(biāo)準(zhǔn)的企業(yè)。 21 年20,數(shù)據(jù)公司獲得了數(shù)百億美元風(fēng)險(xiǎn)投資,2022 年已經(jīng)到來,我們制作了首個(gè) Data 50 榜單。這些公司都是數(shù)據(jù)領(lǐng)域的細(xì)分賽道龍頭??傮w來看,這 50 家公司的估值超過千億美元,總?cè)谫Y額約 145 億美元,其中 20 家在 21 年20晉級(jí)獨(dú)角獸行列。其中的 Databricks、Fivetran 和 Scale 海外獨(dú)角獸曾經(jīng)發(fā)布過深度分析內(nèi)容。 以下是 2022 年 Data 50 榜單: ![]() ![]() ![]() ![]() ![]() 榜單制作標(biāo)準(zhǔn) Data 50 的上榜公司都在2008年后成立,過去兩年內(nèi)都進(jìn)行過新一輪融資,員工人數(shù)每年至少增長(zhǎng) 30%。他們的產(chǎn)品具有普適性,能為各行業(yè)數(shù)據(jù)或數(shù)據(jù)應(yīng)用團(tuán)隊(duì)提供技術(shù)服務(wù)。 排名是基于公司最新的估值、規(guī)模、過去兩年員工增長(zhǎng)情況、運(yùn)營(yíng)年限以及當(dāng)前收入等因素綜合考慮。員工數(shù)據(jù)基于 LinkedIn 的公開數(shù)據(jù),融資數(shù)據(jù)基于 Pitchbook 和 Crunchbase 的公開數(shù)據(jù),日期截至 2022 年 3 月 22 日。 請(qǐng)注意,這份榜單主要關(guān)注分析型數(shù)據(jù)庫,因此不包括交易型數(shù)據(jù)庫公司,如 CockroachDB、PlanetScale 和 Yugabyte。 02. Data 50 覆蓋 7 個(gè)子領(lǐng)域 ![]() 1. 查詢與處理(Query & Processing) 查詢和處理技術(shù)是訪問、匯總和計(jì)算數(shù)據(jù)的核心引擎。它涉及兩個(gè)主要類別:批量處理(如Databricks 和 Starburst)和實(shí)時(shí)處理(如 ClickHouse 和 Imply)。過去幾年,由于對(duì)實(shí)時(shí)應(yīng)用的需求不斷增加,后者得到了更多關(guān)注。 2. 人工智能與機(jī)器學(xué)習(xí)(AI / ML) AI/ML(人工智能和機(jī)器學(xué)習(xí))包括應(yīng)用算法建模和應(yīng)用機(jī)器學(xué)習(xí)處理大數(shù)據(jù)的軟件。從上榜公司的數(shù)量就能看出,這一領(lǐng)域正在逐漸成熟和蓬勃發(fā)展。其中一些公司專注于特定類型的數(shù)據(jù)(如 Rasa 和 Hugging Face 專注于自然語言),其他公司則專注于不同的領(lǐng)域,如人工智能的產(chǎn)品化(如 Scale 、Tecton 和 Weights and Biases)或運(yùn)行人工智能工作負(fù)載的 "計(jì)算層"(如 Anyscale)。 3. ELT 與編排(ELT & Orchestration) ELT 與編排賦予了數(shù)據(jù)移動(dòng)的能力。這一類別里,產(chǎn)品是一個(gè)運(yùn)輸層,保證數(shù)據(jù)準(zhǔn)確和及時(shí)地到達(dá)目的地。這一類別是從傳統(tǒng)的基于“拖拉拽”操作界面的 ETL 供應(yīng)商基礎(chǔ)上演變而來的。另一方面,這一領(lǐng)域的新廠商大多是云原生的(如 Fivetran 和 dbt)、開發(fā)者友好的(如 Astronomer 和 Prefect),并且能處理不同數(shù)據(jù)環(huán)境中更復(fù)雜的依賴關(guān)系。 注: ETL(Extract-Transform-Load),用來描述將數(shù)據(jù)從來源端經(jīng)過提取、轉(zhuǎn)換、加載至目的端的過程;ELT(Extract-Load-Transform)功能上與 ETL 無差異,僅順序不同,ELT 是一個(gè)較新潮的概念,用于數(shù)據(jù)湖或數(shù)據(jù)中臺(tái)。 編排,對(duì)單獨(dú)組件和應(yīng)用層的工作進(jìn)行組織的流程。 4. 數(shù)據(jù)治理與安全(Data governance & Security) 隨著數(shù)據(jù)棧變得越來越復(fù)雜,越來越多的利益相關(guān)者參與進(jìn)來,數(shù)據(jù)治理和安全正成為關(guān)鍵問題。數(shù)據(jù)治理工具對(duì)于企業(yè)而言是必需的,尤其是強(qiáng)監(jiān)管行業(yè)的企業(yè),它可以確保企業(yè)的數(shù)據(jù)安全,確保企業(yè)在整個(gè)數(shù)據(jù)生命周期內(nèi)保持合規(guī)性(如 OneTrust 和 Collibra)。這個(gè)賽道相對(duì)較新,通常服務(wù)于受監(jiān)管的大型企業(yè)。 5. 客戶數(shù)據(jù)分析(Customer data analytics) 客戶數(shù)據(jù)分析傳統(tǒng)上由營(yíng)銷團(tuán)隊(duì)所有。然而,由于其重要性增加,數(shù)據(jù)團(tuán)隊(duì)現(xiàn)在也更多地參與到將客戶數(shù)據(jù)與中央數(shù)據(jù)平臺(tái)整合的工作中。這個(gè)賽道主要捕捉客戶數(shù)據(jù)(如 Rudderstack 和 ActionIQ)或將數(shù)據(jù)變得可操作,以服務(wù)一線業(yè)務(wù)案例(如 Census 和 Hightouch)。 6. 商業(yè)智能與演算本(BI & Notebooks) 商業(yè)智能與演算本(用于記錄算法操作步驟)覆蓋了數(shù)據(jù)的消費(fèi)層。盡管這是一個(gè)成熟領(lǐng)域,但新參與者如 Preset 或 Metabase,正在采取一種開源優(yōu)先的方式,吸引技術(shù)數(shù)據(jù)工程師以及 BI 團(tuán)隊(duì)。數(shù)據(jù)需求的快速變化也為迭代和交互式演算本(如 Hex)和自動(dòng)生成的洞察(如 Sisu)創(chuàng)造了更多需求。 7. 數(shù)據(jù)可觀測(cè)性(Data Observability) 數(shù)據(jù)可觀測(cè)性從軟件工程棧的最佳實(shí)踐中獲得靈感。隨著數(shù)據(jù)棧與上下游工具的相互依賴性越來越強(qiáng),數(shù)據(jù)的準(zhǔn)確性也有了更廣泛的影響,數(shù)據(jù)可觀測(cè)性作為最新的賽道出現(xiàn),為整個(gè)數(shù)據(jù)流提供監(jiān)控和診斷能力。 數(shù)據(jù)查詢和數(shù)據(jù)處理公司籌集了絕大部分資金 數(shù)據(jù)查詢和數(shù)據(jù)處理領(lǐng)域公司數(shù)量只占 Data 50 的五分之一,但投資于該領(lǐng)域的資金幾乎占所有資金的 50% —— 這是驚人的。即使這一數(shù)據(jù)受到 Databricks 最新的 16 億美元融資的影響,但如果沒有它,該領(lǐng)域仍占所有融資金額的 37%,是排名第二的領(lǐng)域兩倍還多。 ![]() 若從公司數(shù)量看,各領(lǐng)域分布則相對(duì)平衡。AI/ML 是公司數(shù)量最多的領(lǐng)域,主要因?yàn)樵擃I(lǐng)域仍在不斷發(fā)展,需要一套新的獨(dú)立工具來訓(xùn)練、測(cè)量和產(chǎn)出模型。 ![]() Data 50 聚集在灣區(qū) 在這 50 家公司中,47 家(94%)位于美國(guó),3 家位于美國(guó)以外的地區(qū)。大多數(shù)公司(33 家)位于舊金山灣區(qū),9 家位于華盛頓特區(qū)、費(fèi)城、紐約和波士頓的 I-95 走廊沿線,2 家位于西雅圖,1 家位于辛辛那提,1 家位于亞特蘭大。 這樣的分布在很大程度受歷史上大規(guī)模數(shù)據(jù)生態(tài)系統(tǒng)所在地的影響(例如,Oracle 和 Teradata 都是在灣區(qū)成立的)。然而,我們看到更多的數(shù)據(jù)公司在全球范圍內(nèi)出現(xiàn)(如 Firebolt 和 Matillion),因?yàn)閿?shù)據(jù)工程人才以及對(duì)數(shù)據(jù)工具的需求幾乎遍布每個(gè)大陸。 ![]() AI/ML 推動(dòng) 2019 年新興數(shù)據(jù)公司的激增 在 AI/ML 工具爆發(fā)的推動(dòng)下,大部分 Data 50 公司都是在 2014 年之后成立的,在 2019 年左右達(dá)到高峰。事實(shí)上,還有很多數(shù)據(jù)公司在 2019 年之后成立,但由于我們關(guān)注的是已經(jīng)達(dá)到一定規(guī)模的公司,所以大多數(shù)新公司還沒有出現(xiàn)在這個(gè)名單上。 ![]() 每個(gè)領(lǐng)域的投資金額都在增長(zhǎng) 從每個(gè)領(lǐng)域的投資來看,最明顯的趨勢(shì)是,AI/ML 公司正在收獲比以往更多的投資者興趣,主要集中在早期階段。ELT 和編排也是如此,主要由 Fivetran 和 dbt 的巨額融資推動(dòng)。數(shù)據(jù)查詢和數(shù)據(jù)處理公司繼續(xù)吸引大筆資金,盡管這些公司往往處于后期階段。 ![]() 數(shù)據(jù)賽道的美妙之處在于,它將軟件開發(fā)、數(shù)據(jù)分析和人工智能結(jié)合起來,同時(shí)享受了云計(jì)算浪潮的勢(shì)頭。盡管市場(chǎng)采納的主要推動(dòng)力是數(shù)據(jù)量和使用量的增加,但每個(gè)細(xì)分領(lǐng)域的根本驅(qū)動(dòng)力不同。例如,查詢和處理領(lǐng)域主要由計(jì)算和存儲(chǔ)的分離、向云計(jì)算的遷移以及更便宜的算力所驅(qū)動(dòng)。數(shù)據(jù)治理和數(shù)據(jù)可觀測(cè)性領(lǐng)域主要由不斷增長(zhǎng)的實(shí)操案例以及數(shù)據(jù)工作流程的復(fù)雜性所驅(qū)動(dòng)。 為了說明這一巨大趨勢(shì)背后的架構(gòu)演變和驅(qū)動(dòng)力,我們于 年2020底發(fā)布了一套結(jié)構(gòu)體系。我們看到圍繞數(shù)據(jù)構(gòu)建的復(fù)雜系統(tǒng)的興起,系統(tǒng)價(jià)值主要來自數(shù)據(jù),而不是直接來自軟件,這一趨勢(shì)對(duì)行業(yè)產(chǎn)生巨大影響。 然而,我們發(fā)現(xiàn),在這一趨勢(shì)的前端,哪些技術(shù)是領(lǐng)先的,它們?cè)趯?shí)踐中如何使用,大家仍然存在巨大困惑。因此,在過去幾年中,我們與數(shù)百名創(chuàng)始人、企業(yè)數(shù)據(jù)領(lǐng)導(dǎo)者及其他專家進(jìn)行交流,了解他們當(dāng)前的數(shù)據(jù)堆棧與最佳實(shí)踐,形成一個(gè)參考架構(gòu)與體系。 自第一版架構(gòu)體系發(fā)布以來,數(shù)據(jù)基礎(chǔ)設(shè)施行業(yè)持續(xù)保持增長(zhǎng),幾乎所有的關(guān)鍵行業(yè)指標(biāo)都創(chuàng)下了歷史新高,新產(chǎn)品類別的出現(xiàn)速度超過了大多數(shù)數(shù)據(jù)團(tuán)隊(duì)可以合理追蹤的速度。為了幫助數(shù)據(jù)團(tuán)隊(duì)緊跟行業(yè)內(nèi)發(fā)生的變化,我們最近又發(fā)布了一套最新的數(shù)據(jù)基礎(chǔ)設(shè)施架構(gòu)。它們展示了我們過去一年中從眾多企業(yè)那里收集到的、跨越分析和運(yùn)營(yíng)系統(tǒng)的最佳技術(shù)。每個(gè)架構(gòu)藍(lán)圖都包括自上一版本以來的變化摘要。 我們還試圖解釋為什么會(huì)發(fā)生這些變化。我們認(rèn)為,核心數(shù)據(jù)處理系統(tǒng)在過去一年中保持相對(duì)穩(wěn)定,而支持類的工具和應(yīng)用則迅速激增。我們探討的假設(shè)是,平臺(tái)開始在數(shù)據(jù)生態(tài)系統(tǒng)中出現(xiàn)。這一假設(shè)有助于解釋我們?cè)跀?shù)據(jù)棧的演變中看到的特殊模式。 為了更新參考架構(gòu),我們?cè)俅握?qǐng)教了幾十位數(shù)據(jù)專家的意見。以下為更新后的架構(gòu),以及架構(gòu)變化背后的原因。 03. 數(shù)據(jù)基礎(chǔ)設(shè)施架構(gòu) 在我們深入了解細(xì)節(jié)之前,先看看最新的架構(gòu)圖。這些是在領(lǐng)先的數(shù)據(jù)從業(yè)者的幫助下,根據(jù)他們內(nèi)部運(yùn)行的情況和他們對(duì)新部署的建議而編制的。 第一張架構(gòu)圖展示的是與所有數(shù)據(jù)基礎(chǔ)設(shè)施用例相關(guān)的統(tǒng)一概述。 ![]() 注:不包括 OLTP(On-Line Transaction Processing,聯(lián)機(jī)事務(wù)處理過程)、日志分析和 SaaS 分析應(yīng)用。 ![]() 第二張架構(gòu)圖強(qiáng)調(diào)了機(jī)器學(xué)習(xí),它是一個(gè)復(fù)雜的、越來越獨(dú)立的工具鏈。 ![]() ![]() 04. 數(shù)據(jù)基礎(chǔ)設(shè)施藍(lán)圖 在此背景下,我們將對(duì)每個(gè)主要的數(shù)據(jù)基礎(chǔ)設(shè)施藍(lán)圖進(jìn)行詳細(xì)介紹。下面的每一節(jié)都顯示了一個(gè)更新的圖表(與第一版架構(gòu)進(jìn)行比較)和對(duì)關(guān)鍵變化的分析。這部分主要為實(shí)施堆棧的數(shù)據(jù)團(tuán)隊(duì)提供參考。 藍(lán)圖 1:現(xiàn)代商業(yè)智能 為各種規(guī)模的公司提供云原生商業(yè)智能。 ![]() 注:深黑色方框是新的或自 年2020架構(gòu)的第 1 版以來顯著的變化;淺黑色方框?yàn)榛颈3植蛔儯换疑娇虮徽J(rèn)為與此藍(lán)圖不太相關(guān)。 什么沒變 有什么新變化
注: 反向 ETL,指將數(shù)據(jù)流程反轉(zhuǎn),傳統(tǒng)流程為“業(yè)務(wù)系統(tǒng)-ETL-數(shù)據(jù)中心存儲(chǔ)”,反向 ETL 流程則是“數(shù)據(jù)中心存儲(chǔ)-ETL-業(yè)務(wù)系統(tǒng)”。通過反向 ETL,可以將處理后的用戶或產(chǎn)品數(shù)據(jù)從中心存儲(chǔ)(如數(shù)據(jù)倉(cāng)庫或數(shù)據(jù)庫中)同步到業(yè)務(wù)所在的工具和平臺(tái)上。
藍(lán)圖 2:多模態(tài)數(shù)據(jù)處理 進(jìn)化的數(shù)據(jù)湖支持分析和運(yùn)營(yíng)案例,這也被稱為 Hadoop 難民的現(xiàn)代基礎(chǔ)設(shè)施。 注:Hadoop 是一個(gè)由 Apache 基金會(huì)所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開發(fā)分布式程序。Hadoop 作為一項(xiàng)技術(shù)正在衰退。 ![]() 注:深黑色方框是新的或自 年2020架構(gòu)的第 1 版以來顯著的變化;淺黑色方框?yàn)榛颈3植蛔儯换疑娇虮徽J(rèn)為與本藍(lán)圖不太相關(guān)。 什么沒變
有什么新變化
藍(lán)圖 3:人工智能和機(jī)器學(xué)習(xí) 用于機(jī)器學(xué)習(xí)模型的強(qiáng)大開發(fā)、測(cè)試和操作的堆棧。 ![]() 注:深黑色方框是新的或自 年2020架構(gòu)的 V1 以來有意義的變化;淺黑色方框?yàn)榛颈3植蛔?;灰色方框被認(rèn)為與本藍(lán)圖不太相關(guān)。 什么沒變
有什么新變化
注:特征存儲(chǔ),是一個(gè)用于管理機(jī)器學(xué)習(xí)特征的數(shù)據(jù)管理系統(tǒng),包括特征工程代碼和特征數(shù)據(jù),目標(biāo)是使數(shù)據(jù)科學(xué)家能夠縮短從數(shù)據(jù)攝取到ML模型訓(xùn)練和推理的時(shí)間。
05. 數(shù)據(jù)基礎(chǔ)設(shè)施變化洞察 數(shù)據(jù)棧 數(shù)據(jù)棧內(nèi)核穩(wěn)定 盡管在過去的一年中,數(shù)據(jù)基礎(chǔ)設(shè)施領(lǐng)域的活動(dòng)非??駸幔承┓矫孀兓×钊梭@訝,例如數(shù)據(jù)棧內(nèi)核的穩(wěn)定。 在我們的第一版架構(gòu)中,我們區(qū)分了支持?jǐn)?shù)據(jù)驅(qū)動(dòng)決策的分析系統(tǒng),和支持?jǐn)?shù)據(jù)驅(qū)動(dòng)產(chǎn)品的運(yùn)營(yíng)系統(tǒng)。然后,我們將這些類別映射到三種模式或藍(lán)圖中,這些通常由領(lǐng)先的數(shù)據(jù)團(tuán)隊(duì)實(shí)施。 ![]() 其中一個(gè)關(guān)鍵問題是這些架構(gòu)模式是否會(huì)融合。一年后,這似乎并沒有發(fā)生。 尤其是分析和運(yùn)營(yíng)的生態(tài)系統(tǒng)都在持續(xù)蓬勃發(fā)展。像 Snowflake 這樣的云數(shù)據(jù)倉(cāng)庫已經(jīng)迅速增長(zhǎng),主要集中在 SQL 用戶和商業(yè)智能用例。但其他技術(shù)的采用也在加速發(fā)展,例如,像 Databricks 這樣的數(shù)據(jù)湖倉(cāng)一體,客戶量正在以比以往更快的速度增加。我們采訪的許多數(shù)據(jù)團(tuán)隊(duì)證實(shí),異質(zhì)性很可能在數(shù)據(jù)棧中繼續(xù)存在。 其他核心數(shù)據(jù)系統(tǒng),即獲取和轉(zhuǎn)換,已被證明具有類似的持久性。這在現(xiàn)代商業(yè)智能模式中尤其明顯,其中 Fivetran 和 dbt(或類似技術(shù))的結(jié)合已經(jīng)變得幾乎無處不在。這在某種程度上也適用于運(yùn)營(yíng)系統(tǒng),那里已經(jīng)出現(xiàn)了Databricks /Spark、Confluent/Kafka 和 Astronomer/Airflow 等事實(shí)標(biāo)準(zhǔn)。 數(shù)據(jù)棧新變化 圍繞著穩(wěn)定的內(nèi)核,數(shù)據(jù)棧在過去的一年里迅速發(fā)展,變化主要發(fā)生在以下兩個(gè)領(lǐng)域:
我們還看到一些旨在加強(qiáng)核心數(shù)據(jù)處理系統(tǒng)的新技術(shù)的引入。值得注意的是,我們圍繞著分析生態(tài)系統(tǒng)中的指標(biāo)層以及運(yùn)營(yíng)系統(tǒng)的湖倉(cāng)一體化模式展開了積極的討論,這兩者都在向有益的定義和架構(gòu)靠攏。 數(shù)據(jù)平臺(tái) 什么是平臺(tái) 在數(shù)據(jù)生態(tài)系統(tǒng)中,"平臺(tái) "這個(gè)詞已經(jīng)被過度使用了,經(jīng)常被內(nèi)部團(tuán)隊(duì)用來描述他們的整個(gè)技術(shù)堆棧,或者被供應(yīng)商用來銷售松散連接的產(chǎn)品套件。 在更廣泛的軟件領(lǐng)域,平臺(tái)是其他開發(fā)者可以在上面“搭建”的東西。平臺(tái)本身提供的價(jià)值通常是有限的。例如,大多數(shù)用戶對(duì)訪問 Windows 或 iOS 的內(nèi)部結(jié)構(gòu)沒有興趣。但它們提供了一系列好處,如通用的編程接口和龐大的安裝基礎(chǔ),使開發(fā)者能夠建立和發(fā)布用戶最終關(guān)心的應(yīng)用程序。 從行業(yè)的角度來看,平臺(tái)的決定性特征是“相互依賴”,即有影響力的平臺(tái)供應(yīng)商和大量第三方開發(fā)者之間在技術(shù)上和經(jīng)濟(jì)上的相互依賴。 ![]() 什么是數(shù)據(jù)平臺(tái) 從歷史上看,數(shù)據(jù)棧并不適合平臺(tái)的定義。例如,ETL、數(shù)據(jù)倉(cāng)庫和報(bào)告供應(yīng)商之間存在著相互依賴,但整合模式往往是一對(duì)一的,而不是一對(duì)多的,且由專業(yè)服務(wù)來大量補(bǔ)充。 根據(jù)我們采訪的一些數(shù)據(jù)專家的說法來看,這種情況可能會(huì)開始改變。 數(shù)據(jù)平臺(tái)假說認(rèn)為,數(shù)據(jù)堆棧的 "后端",大致定義為數(shù)據(jù)獲取、存儲(chǔ)、處理和轉(zhuǎn)換?!昂蠖恕币呀?jīng)開始圍繞一組相對(duì)較小的基于云的供應(yīng)商進(jìn)行整合。因此,客戶數(shù)據(jù)被收集在一套標(biāo)準(zhǔn)的系統(tǒng)中,而且供應(yīng)商正在大力投資,以使這些數(shù)據(jù)更易于被其他開發(fā)者訪問。客戶數(shù)據(jù)也是 Databricks 等系統(tǒng)的基本設(shè)計(jì)原則,并且是通過 SQL 標(biāo)準(zhǔn),以及 Snowflake 等系統(tǒng)的定制計(jì)算 API 的。 反過來,"前端 "開發(fā)人員已經(jīng)利用這種單一的集成點(diǎn),建立了一系列新的應(yīng)用程序。他們依靠數(shù)據(jù)倉(cāng)庫/湖倉(cāng)的干凈、連接的數(shù)據(jù),無需擔(dān)心它如何實(shí)現(xiàn)基本細(xì)節(jié)。一個(gè)客戶可以在一個(gè)核心數(shù)據(jù)系統(tǒng)的基礎(chǔ)上購(gòu)買和建立許多應(yīng)用程序。我們甚至開始看到傳統(tǒng)的企業(yè)系統(tǒng),如財(cái)務(wù)或產(chǎn)品分析,正在以 "倉(cāng)庫原生 "的架構(gòu)進(jìn)行重建。 這畫面可能看起來像這樣: ![]() 要清楚的是,這并不意味著 OLTP 數(shù)據(jù)庫或其他重要的后端技術(shù)將在不久的將來消失。但是,與 OLAP 系統(tǒng)的原生集成可能會(huì)成為應(yīng)用開發(fā)的一個(gè)重要組成部分。隨著時(shí)間的推移,越來越多的業(yè)務(wù)邏輯和應(yīng)用功能可能會(huì)過渡到這種模式。我們可能會(huì)看到一大類新產(chǎn)品建立在這個(gè)數(shù)據(jù)平臺(tái)上。 數(shù)據(jù)應(yīng)用 數(shù)據(jù)平臺(tái)假說仍有待商榷。然而,我們看到復(fù)雜的垂直 SaaS 解決方案在數(shù)據(jù)平臺(tái)上以水平層的形式實(shí)施。因此,雖然是早期,我們認(rèn)為在數(shù)據(jù)堆棧中發(fā)生的變化至少與平臺(tái)的想法是一致的。 這是由很多原因?qū)е碌摹@?,?Snowflake 和 Databricks 這樣的公司已經(jīng)成為數(shù)據(jù)棧的穩(wěn)定部分,包括偉大的產(chǎn)品,有能力的銷售團(tuán)隊(duì)和低摩擦的部署模式。但也有一種情況是,他們的粘性被平臺(tái)的動(dòng)力所加強(qiáng)—— 一旦客戶用其中一個(gè)系統(tǒng)構(gòu)建和/或集成了一系列數(shù)據(jù)應(yīng)用程序,通常就沒有必要再過渡了。 類似的觀點(diǎn)也可以支持近年來新型數(shù)據(jù)基礎(chǔ)設(shè)施產(chǎn)品激增這一事實(shí),這一趨勢(shì)與海量的數(shù)據(jù)、不斷增加的企業(yè)預(yù)算和過剩的風(fēng)投資金有關(guān)。我們現(xiàn)在看到這么多新產(chǎn)品的出現(xiàn),原因可能與平臺(tái)有關(guān)——也就是說,一個(gè)新的數(shù)據(jù)應(yīng)用程序從未像現(xiàn)在這樣容易被采用,而正確維護(hù)平臺(tái)也從未像現(xiàn)在這樣重要。 平臺(tái)假說在競(jìng)爭(zhēng)態(tài)勢(shì)方面提供了一些預(yù)測(cè)能力。從規(guī)模上看,平臺(tái)可能非常有價(jià)值。如今,核心數(shù)據(jù)系統(tǒng)供應(yīng)商的競(jìng)爭(zhēng)可能不僅僅是為了當(dāng)前的預(yù)算,更是為了長(zhǎng)期的平臺(tái)地位。如果你相信數(shù)據(jù)獲取和轉(zhuǎn)換、指標(biāo)層應(yīng)用或反向 ETL 是新興數(shù)據(jù)平臺(tái)的核心部分,那么它們那令人瞠目結(jié)舌的估值以及各方的激烈辯論也將更有意義。 06. 未來 我們?nèi)蕴幱诙x數(shù)據(jù)平臺(tái)的早期階段,平臺(tái)的各個(gè)部分也在不斷變化。因此,把它當(dāng)作一個(gè)類比,可能比當(dāng)作一個(gè)嚴(yán)格的定義更好。它可能是一個(gè)有用的工具,可以幫助人們過濾噪音中的信號(hào),培養(yǎng)對(duì)市場(chǎng)發(fā)展方式的認(rèn)知。數(shù)據(jù)團(tuán)隊(duì)現(xiàn)在擁有更多的工具、資源和組織動(dòng)力,比數(shù)據(jù)庫發(fā)明以來的任何時(shí)候(可能)都多。我們非常期待看到應(yīng)用層在新興平臺(tái)之上的發(fā)展。 我們相信,未來 10 年將是數(shù)據(jù)的 10 年,包括企業(yè)基礎(chǔ)設(shè)施、應(yīng)用程序以及介于兩者之間的一切。 |
|
|