小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

50家公司、7個(gè)領(lǐng)域,定義全球未來10年數(shù)據(jù)行業(yè)標(biāo)準(zhǔn)

 雷神2025 2022-05-13
圖片
圖片

作者:a16z

編譯:kefei,穆奕,Ting

排版:海外獨(dú)角獸團(tuán)隊(duì)

圖片

數(shù)據(jù)賽道的美妙之處在于,它將軟件開發(fā)、數(shù)據(jù)分析和人工智能結(jié)合起來,同時(shí)還享受了云計(jì)算浪潮的勢(shì)頭。如今,每一個(gè)人都是數(shù)據(jù)的生產(chǎn)者和消費(fèi)者,需求的激增使數(shù)據(jù)成為企業(yè)基礎(chǔ)設(shè)施服務(wù)領(lǐng)域中增長(zhǎng)最快的賽道之一。

2022 年 3 月 23 日,a16z 發(fā)布 Data 50 榜單,介紹了全球 50 家代表下一代行業(yè)標(biāo)準(zhǔn)的數(shù)據(jù)初創(chuàng)企業(yè),覆蓋 7 個(gè)子領(lǐng)域:

  • 數(shù)據(jù)查詢與數(shù)據(jù)處理(Query & Processing)

  • 人工智能與機(jī)器學(xué)習(xí)(AI / ML)

  • ELT 與編排(ELT & Orchestration)

  • 數(shù)據(jù)治理與安全(Data governance & Security)

  • 客戶數(shù)據(jù)分析(Customer data analytics)

  • 商業(yè)智能與演算本(BI & Notesbooks)

  • 數(shù)據(jù)可觀測(cè)性(Data Observability)

從融資金額上看,數(shù)據(jù)查詢和數(shù)據(jù)處理公司籌集了絕大部分資金。而從公司數(shù)量上看,AI/ML 領(lǐng)域的公司最多,AI/ML 的發(fā)展推動(dòng)新興數(shù)據(jù)公司數(shù)量的增長(zhǎng)。盡管每個(gè)領(lǐng)域發(fā)展驅(qū)動(dòng)力不盡相同,但每個(gè)領(lǐng)域都吸引了投資者的興趣。

除了分享這份 Data 50 的榜單,在本文的后半部分,我們還將和大家分享a16z 在最近更新的一份數(shù)據(jù)基礎(chǔ)設(shè)施架構(gòu)報(bào)告:為了探討數(shù)據(jù)賽道巨大趨勢(shì)背后的架構(gòu)演變和驅(qū)動(dòng)力,a16z 于 年2020末發(fā)布了這套架構(gòu)體系,并于2022年進(jìn)行了更新,以幫助人們追蹤數(shù)據(jù)基礎(chǔ)設(shè)施行業(yè)變化。報(bào)告展示了跨越分析和運(yùn)營(yíng)系統(tǒng)的最佳技術(shù)以及每個(gè)架構(gòu)自上一版本以來的變化,還試圖解釋了為什么會(huì)發(fā)生這些變化。

a16z 表示,核心數(shù)據(jù)處理系統(tǒng)在過去一年中保持相對(duì)穩(wěn)定,而支持類工具和應(yīng)用則迅速激增。文章探討的假設(shè)是,數(shù)據(jù)平臺(tái)開始在數(shù)據(jù)生態(tài)系統(tǒng)中出現(xiàn),這一假設(shè)有助于解釋數(shù)據(jù)棧演變中出現(xiàn)的特殊模式。

未來 10 年將是數(shù)據(jù)的 10 年,無論是基礎(chǔ)層、應(yīng)用層、還是介于兩者之間的一切。

以下為本文目錄,建議結(jié)合要點(diǎn)進(jìn)行針對(duì)性閱讀。

??

01 The Data 50 List

02 Data 50 覆蓋 7 個(gè)子領(lǐng)域

03 數(shù)據(jù)基礎(chǔ)設(shè)施架構(gòu)

04 數(shù)據(jù)基礎(chǔ)設(shè)施藍(lán)圖

  • 藍(lán)圖 1:現(xiàn)代商業(yè)智能

  • 藍(lán)圖 2:多模態(tài)數(shù)據(jù)處理

  • 藍(lán)圖 3:人工智能和機(jī)器學(xué)習(xí)

05 數(shù)據(jù)基礎(chǔ)設(shè)施變化洞察

  • 數(shù)據(jù)棧

  • 數(shù)據(jù)平臺(tái)

  • 數(shù)據(jù)應(yīng)用

06 未來

圖片

如果你想要第一時(shí)間跟蹤「海外獨(dú)角獸」更多活動(dòng)和內(nèi)容動(dòng)態(tài),歡迎添加「小象」的微信~

01.

The Data 50 List

在 "大數(shù)據(jù) "概念誕生的十多年后,數(shù)據(jù)仍然是大型企業(yè)和新興初創(chuàng)企業(yè)快速成長(zhǎng)最重要的創(chuàng)新動(dòng)力之一。不管是對(duì)業(yè)務(wù)基礎(chǔ)運(yùn)營(yíng)進(jìn)行診斷,還是通過機(jī)器學(xué)習(xí)使日常業(yè)務(wù)智能化、自動(dòng)化,數(shù)據(jù)已經(jīng)成為各組織進(jìn)行決策的中樞神經(jīng)系統(tǒng)。此外,數(shù)據(jù)使用者的范圍遠(yuǎn)遠(yuǎn)超出了數(shù)據(jù)科學(xué)家、數(shù)據(jù)分析師和數(shù)據(jù)工程師,如今每個(gè)人都是數(shù)據(jù)的生產(chǎn)者和消費(fèi)者。

市場(chǎng)對(duì)數(shù)據(jù)關(guān)注度日益提升,帶來的結(jié)果是:數(shù)據(jù)管理已經(jīng)成為企業(yè)基礎(chǔ)設(shè)施中增長(zhǎng)最快的領(lǐng)域之一,價(jià)值預(yù)計(jì)超過 700 億美元,21 年20數(shù)據(jù)管理支出占企業(yè)所有基礎(chǔ)設(shè)施支出的五分之一以上。

過去幾年,數(shù)據(jù)產(chǎn)業(yè)的發(fā)展也催生了一些很令人興奮、很有影響力的軟件公司。比如已經(jīng)上市的 Snowflake(市值 734 億美元)和 Confluent (市值 121 億美元),已經(jīng)改變了上千家企業(yè)的運(yùn)作方式和上百萬產(chǎn)品的構(gòu)建形式。然而,大多數(shù)人仍不太了解其他有影響力的企業(yè)——下一代定義行業(yè)標(biāo)準(zhǔn)的企業(yè)

21 年20,數(shù)據(jù)公司獲得了數(shù)百億美元風(fēng)險(xiǎn)投資,2022 年已經(jīng)到來,我們制作了首個(gè) Data 50 榜單。這些公司都是數(shù)據(jù)領(lǐng)域的細(xì)分賽道龍頭??傮w來看,這 50 家公司的估值超過千億美元,總?cè)谫Y額約 145 億美元,其中 20 家在 21 年20晉級(jí)獨(dú)角獸行列。其中的 Databricks、Fivetran 和 Scale 海外獨(dú)角獸曾經(jīng)發(fā)布過深度分析內(nèi)容。

以下是 2022 年 Data 50 榜單:

圖片
圖片
圖片
圖片
圖片

榜單制作標(biāo)準(zhǔn)

Data 50 的上榜公司都在2008年后成立,過去兩年內(nèi)都進(jìn)行過新一輪融資,員工人數(shù)每年至少增長(zhǎng) 30%。他們的產(chǎn)品具有普適性,能為各行業(yè)數(shù)據(jù)或數(shù)據(jù)應(yīng)用團(tuán)隊(duì)提供技術(shù)服務(wù)。

排名是基于公司最新的估值、規(guī)模、過去兩年員工增長(zhǎng)情況、運(yùn)營(yíng)年限以及當(dāng)前收入等因素綜合考慮。員工數(shù)據(jù)基于 LinkedIn 的公開數(shù)據(jù),融資數(shù)據(jù)基于 Pitchbook 和 Crunchbase 的公開數(shù)據(jù),日期截至 2022 年 3 月 22 日。

請(qǐng)注意,這份榜單主要關(guān)注分析型數(shù)據(jù)庫,因此不包括交易型數(shù)據(jù)庫公司,如 CockroachDB、PlanetScale 和 Yugabyte。

02.

Data 50 覆蓋 7 個(gè)子領(lǐng)域

圖片

1. 查詢與處理(Query & Processing)

查詢和處理技術(shù)是訪問、匯總和計(jì)算數(shù)據(jù)的核心引擎。它涉及兩個(gè)主要類別:批量處理(如Databricks 和 Starburst)和實(shí)時(shí)處理(如 ClickHouse 和 Imply)。過去幾年,由于對(duì)實(shí)時(shí)應(yīng)用的需求不斷增加,后者得到了更多關(guān)注。

2. 人工智能與機(jī)器學(xué)習(xí)(AI / ML)

AI/ML(人工智能和機(jī)器學(xué)習(xí))包括應(yīng)用算法建模和應(yīng)用機(jī)器學(xué)習(xí)處理大數(shù)據(jù)的軟件。從上榜公司的數(shù)量就能看出,這一領(lǐng)域正在逐漸成熟和蓬勃發(fā)展。其中一些公司專注于特定類型的數(shù)據(jù)(如 Rasa 和 Hugging Face 專注于自然語言),其他公司則專注于不同的領(lǐng)域,如人工智能的產(chǎn)品化(如 Scale 、Tecton 和 Weights and Biases)或運(yùn)行人工智能工作負(fù)載的 "計(jì)算層"(如 Anyscale)。

3. ELT 與編排(ELT & Orchestration)

ELT 與編排賦予了數(shù)據(jù)移動(dòng)的能力。這一類別里,產(chǎn)品是一個(gè)運(yùn)輸層,保證數(shù)據(jù)準(zhǔn)確和及時(shí)地到達(dá)目的地。這一類別是從傳統(tǒng)的基于“拖拉拽”操作界面的 ETL 供應(yīng)商基礎(chǔ)上演變而來的。另一方面,這一領(lǐng)域的新廠商大多是云原生的(如 Fivetran 和 dbt)、開發(fā)者友好的(如 Astronomer 和 Prefect),并且能處理不同數(shù)據(jù)環(huán)境中更復(fù)雜的依賴關(guān)系。

注:

ETL(Extract-Transform-Load),用來描述將數(shù)據(jù)從來源端經(jīng)過提取、轉(zhuǎn)換、加載至目的端的過程;ELT(Extract-Load-Transform)功能上與 ETL 無差異,僅順序不同,ELT 是一個(gè)較新潮的概念,用于數(shù)據(jù)湖或數(shù)據(jù)中臺(tái)。

編排,對(duì)單獨(dú)組件和應(yīng)用層的工作進(jìn)行組織的流程。

4. 數(shù)據(jù)治理與安全(Data governance & Security)

隨著數(shù)據(jù)棧變得越來越復(fù)雜,越來越多的利益相關(guān)者參與進(jìn)來,數(shù)據(jù)治理和安全正成為關(guān)鍵問題。數(shù)據(jù)治理工具對(duì)于企業(yè)而言是必需的,尤其是強(qiáng)監(jiān)管行業(yè)的企業(yè),它可以確保企業(yè)的數(shù)據(jù)安全,確保企業(yè)在整個(gè)數(shù)據(jù)生命周期內(nèi)保持合規(guī)性(如 OneTrust 和 Collibra)。這個(gè)賽道相對(duì)較新,通常服務(wù)于受監(jiān)管的大型企業(yè)。

5. 客戶數(shù)據(jù)分析(Customer data analytics)

客戶數(shù)據(jù)分析傳統(tǒng)上由營(yíng)銷團(tuán)隊(duì)所有。然而,由于其重要性增加,數(shù)據(jù)團(tuán)隊(duì)現(xiàn)在也更多地參與到將客戶數(shù)據(jù)與中央數(shù)據(jù)平臺(tái)整合的工作中。這個(gè)賽道主要捕捉客戶數(shù)據(jù)(如 Rudderstack 和 ActionIQ)或將數(shù)據(jù)變得可操作,以服務(wù)一線業(yè)務(wù)案例(如 Census 和 Hightouch)。

6. 商業(yè)智能與演算本(BI & Notebooks)

商業(yè)智能與演算本(用于記錄算法操作步驟)覆蓋了數(shù)據(jù)的消費(fèi)層。盡管這是一個(gè)成熟領(lǐng)域,但新參與者如 Preset 或 Metabase,正在采取一種開源優(yōu)先的方式,吸引技術(shù)數(shù)據(jù)工程師以及 BI 團(tuán)隊(duì)。數(shù)據(jù)需求的快速變化也為迭代和交互式演算本(如 Hex)和自動(dòng)生成的洞察(如 Sisu)創(chuàng)造了更多需求。

7. 數(shù)據(jù)可觀測(cè)性(Data Observability)

數(shù)據(jù)可觀測(cè)性從軟件工程棧的最佳實(shí)踐中獲得靈感。隨著數(shù)據(jù)棧與上下游工具的相互依賴性越來越強(qiáng),數(shù)據(jù)的準(zhǔn)確性也有了更廣泛的影響,數(shù)據(jù)可觀測(cè)性作為最新的賽道出現(xiàn),為整個(gè)數(shù)據(jù)流提供監(jiān)控和診斷能力。

數(shù)據(jù)查詢和數(shù)據(jù)處理公司籌集了絕大部分資金

數(shù)據(jù)查詢和數(shù)據(jù)處理領(lǐng)域公司數(shù)量只占 Data 50 的五分之一,但投資于該領(lǐng)域的資金幾乎占所有資金的 50% —— 這是驚人的。即使這一數(shù)據(jù)受到 Databricks 最新的 16 億美元融資的影響,但如果沒有它,該領(lǐng)域仍占所有融資金額的 37%,是排名第二的領(lǐng)域兩倍還多。

圖片

若從公司數(shù)量看,各領(lǐng)域分布則相對(duì)平衡。AI/ML 是公司數(shù)量最多的領(lǐng)域,主要因?yàn)樵擃I(lǐng)域仍在不斷發(fā)展,需要一套新的獨(dú)立工具來訓(xùn)練、測(cè)量和產(chǎn)出模型。

圖片

Data 50 聚集在灣區(qū)

在這 50 家公司中,47 家(94%)位于美國(guó),3 家位于美國(guó)以外的地區(qū)。大多數(shù)公司(33 家)位于舊金山灣區(qū),9 家位于華盛頓特區(qū)、費(fèi)城、紐約和波士頓的 I-95 走廊沿線,2 家位于西雅圖,1 家位于辛辛那提,1 家位于亞特蘭大。

這樣的分布在很大程度受歷史上大規(guī)模數(shù)據(jù)生態(tài)系統(tǒng)所在地的影響(例如,Oracle 和 Teradata 都是在灣區(qū)成立的)。然而,我們看到更多的數(shù)據(jù)公司在全球范圍內(nèi)出現(xiàn)(如 Firebolt 和 Matillion),因?yàn)閿?shù)據(jù)工程人才以及對(duì)數(shù)據(jù)工具的需求幾乎遍布每個(gè)大陸。

圖片

AI/ML 推動(dòng) 2019 年新興數(shù)據(jù)公司的激增

在 AI/ML 工具爆發(fā)的推動(dòng)下,大部分 Data 50 公司都是在 2014 年之后成立的,在 2019 年左右達(dá)到高峰。事實(shí)上,還有很多數(shù)據(jù)公司在 2019 年之后成立,但由于我們關(guān)注的是已經(jīng)達(dá)到一定規(guī)模的公司,所以大多數(shù)新公司還沒有出現(xiàn)在這個(gè)名單上。

圖片

每個(gè)領(lǐng)域的投資金額都在增長(zhǎng)

從每個(gè)領(lǐng)域的投資來看,最明顯的趨勢(shì)是,AI/ML 公司正在收獲比以往更多的投資者興趣,主要集中在早期階段。ELT 和編排也是如此,主要由 Fivetran 和 dbt 的巨額融資推動(dòng)。數(shù)據(jù)查詢和數(shù)據(jù)處理公司繼續(xù)吸引大筆資金,盡管這些公司往往處于后期階段。

圖片

數(shù)據(jù)賽道的美妙之處在于,它將軟件開發(fā)、數(shù)據(jù)分析和人工智能結(jié)合起來,同時(shí)享受了云計(jì)算浪潮的勢(shì)頭。盡管市場(chǎng)采納的主要推動(dòng)力是數(shù)據(jù)量和使用量的增加,但每個(gè)細(xì)分領(lǐng)域的根本驅(qū)動(dòng)力不同。例如,查詢和處理領(lǐng)域主要由計(jì)算和存儲(chǔ)的分離、向云計(jì)算的遷移以及更便宜的算力所驅(qū)動(dòng)。數(shù)據(jù)治理和數(shù)據(jù)可觀測(cè)性領(lǐng)域主要由不斷增長(zhǎng)的實(shí)操案例以及數(shù)據(jù)工作流程的復(fù)雜性所驅(qū)動(dòng)。

為了說明這一巨大趨勢(shì)背后的架構(gòu)演變和驅(qū)動(dòng)力,我們于 年2020底發(fā)布了一套結(jié)構(gòu)體系。我們看到圍繞數(shù)據(jù)構(gòu)建的復(fù)雜系統(tǒng)的興起,系統(tǒng)價(jià)值主要來自數(shù)據(jù),而不是直接來自軟件,這一趨勢(shì)對(duì)行業(yè)產(chǎn)生巨大影響。

然而,我們發(fā)現(xiàn),在這一趨勢(shì)的前端,哪些技術(shù)是領(lǐng)先的,它們?cè)趯?shí)踐中如何使用,大家仍然存在巨大困惑。因此,在過去幾年中,我們與數(shù)百名創(chuàng)始人、企業(yè)數(shù)據(jù)領(lǐng)導(dǎo)者及其他專家進(jìn)行交流,了解他們當(dāng)前的數(shù)據(jù)堆棧與最佳實(shí)踐,形成一個(gè)參考架構(gòu)與體系。

自第一版架構(gòu)體系發(fā)布以來,數(shù)據(jù)基礎(chǔ)設(shè)施行業(yè)持續(xù)保持增長(zhǎng),幾乎所有的關(guān)鍵行業(yè)指標(biāo)都創(chuàng)下了歷史新高,新產(chǎn)品類別的出現(xiàn)速度超過了大多數(shù)數(shù)據(jù)團(tuán)隊(duì)可以合理追蹤的速度。為了幫助數(shù)據(jù)團(tuán)隊(duì)緊跟行業(yè)內(nèi)發(fā)生的變化,我們最近又發(fā)布了一套最新的數(shù)據(jù)基礎(chǔ)設(shè)施架構(gòu)。它們展示了我們過去一年中從眾多企業(yè)那里收集到的、跨越分析和運(yùn)營(yíng)系統(tǒng)的最佳技術(shù)。每個(gè)架構(gòu)藍(lán)圖都包括自上一版本以來的變化摘要。

我們還試圖解釋為什么會(huì)發(fā)生這些變化。我們認(rèn)為,核心數(shù)據(jù)處理系統(tǒng)在過去一年中保持相對(duì)穩(wěn)定,而支持類的工具和應(yīng)用則迅速激增。我們探討的假設(shè)是,平臺(tái)開始在數(shù)據(jù)生態(tài)系統(tǒng)中出現(xiàn)。這一假設(shè)有助于解釋我們?cè)跀?shù)據(jù)棧的演變中看到的特殊模式。

為了更新參考架構(gòu),我們?cè)俅握?qǐng)教了幾十位數(shù)據(jù)專家的意見。以下為更新后的架構(gòu),以及架構(gòu)變化背后的原因。

03.

數(shù)據(jù)基礎(chǔ)設(shè)施架構(gòu)

在我們深入了解細(xì)節(jié)之前,先看看最新的架構(gòu)圖。這些是在領(lǐng)先的數(shù)據(jù)從業(yè)者的幫助下,根據(jù)他們內(nèi)部運(yùn)行的情況和他們對(duì)新部署的建議而編制的。

第一張架構(gòu)圖展示的是與所有數(shù)據(jù)基礎(chǔ)設(shè)施用例相關(guān)的統(tǒng)一概述。

圖片

注:不包括 OLTP(On-Line Transaction Processing,聯(lián)機(jī)事務(wù)處理過程)、日志分析和 SaaS 分析應(yīng)用。

圖片

第二張架構(gòu)圖強(qiáng)調(diào)了機(jī)器學(xué)習(xí),它是一個(gè)復(fù)雜的、越來越獨(dú)立的工具鏈。

圖片
圖片

04.

數(shù)據(jù)基礎(chǔ)設(shè)施藍(lán)圖

在此背景下,我們將對(duì)每個(gè)主要的數(shù)據(jù)基礎(chǔ)設(shè)施藍(lán)圖進(jìn)行詳細(xì)介紹。下面的每一節(jié)都顯示了一個(gè)更新的圖表(與第一版架構(gòu)進(jìn)行比較)和對(duì)關(guān)鍵變化的分析。這部分主要為實(shí)施堆棧的數(shù)據(jù)團(tuán)隊(duì)提供參考。

藍(lán)圖 1:現(xiàn)代商業(yè)智能

為各種規(guī)模的公司提供云原生商業(yè)智能。

圖片

注:深黑色方框是新的或自 年2020架構(gòu)的第 1 版以來顯著的變化;淺黑色方框?yàn)榛颈3植蛔儯换疑娇虮徽J(rèn)為與此藍(lán)圖不太相關(guān)。

什么沒變

  • 數(shù)據(jù)復(fù)制(如 Fivetran )、云數(shù)據(jù)倉(cāng)庫(如 Snowflake)和基于 SQL 的數(shù)據(jù)建模(與 dbt)的組合繼續(xù)構(gòu)成這一模式的核心。這些技術(shù)的應(yīng)用已經(jīng)有了很大的增長(zhǎng),也使新競(jìng)爭(zhēng)者(如 Airbyte 和 Firebolt)獲得了資金和早期增長(zhǎng)。

  • 看板仍然是輸出層中最常見的應(yīng)用,包括 Looker、Tableau、PowerBI 以及像 Superset 這樣的新入局者。

有什么新變化

  • 人們對(duì)指標(biāo)層(metrics layers)的興趣大增,這是一個(gè)在數(shù)據(jù)倉(cāng)庫之上提供標(biāo)準(zhǔn)定義的系統(tǒng)。這方面的爭(zhēng)論很激烈,包括它應(yīng)該有什么功能,哪些企業(yè)應(yīng)該開發(fā)和擁有它,以及它應(yīng)該遵循什么規(guī)范。到目前為止,我們已經(jīng)看到幾個(gè)可靠的產(chǎn)品(如 Transform 和 Supergrain),并通過 dbt 拓展到這一類別。

  • 反向 ETL 供應(yīng)商已經(jīng)有了顯著的增長(zhǎng),特別是 Hightouch 和 Census。這些產(chǎn)品的目的是更新運(yùn)營(yíng)系統(tǒng),如 CRM 或 ERP,以及從數(shù)據(jù)倉(cāng)庫中獲得產(chǎn)出和洞察。

注:

反向 ETL,指將數(shù)據(jù)流程反轉(zhuǎn),傳統(tǒng)流程為“業(yè)務(wù)系統(tǒng)-ETL-數(shù)據(jù)中心存儲(chǔ)”,反向 ETL 流程則是“數(shù)據(jù)中心存儲(chǔ)-ETL-業(yè)務(wù)系統(tǒng)”。通過反向 ETL,可以將處理后的用戶或產(chǎn)品數(shù)據(jù)從中心存儲(chǔ)(如數(shù)據(jù)倉(cāng)庫或數(shù)據(jù)庫中)同步到業(yè)務(wù)所在的工具和平臺(tái)上。

  • 數(shù)據(jù)團(tuán)隊(duì)對(duì)新的應(yīng)用程序表現(xiàn)出更大的興趣,以強(qiáng)化他們的標(biāo)準(zhǔn)看板,尤其是數(shù)據(jù)工作空間(如 Hex)。廣義上講,新的應(yīng)用程序可能是云數(shù)據(jù)倉(cāng)庫日益標(biāo)準(zhǔn)化的結(jié)果。一旦數(shù)據(jù)結(jié)構(gòu)清晰且易于訪問,數(shù)據(jù)團(tuán)隊(duì)自然希望對(duì)其做更多的處理。

  • 數(shù)據(jù)發(fā)現(xiàn)和可觀測(cè)公司激增,并且籌集了大量資金(尤其是 Monte Carlo 和 Bigeye)。雖然這些產(chǎn)品的好處很明顯,即更可靠的數(shù)據(jù)管道和更好的協(xié)作,但產(chǎn)品的采用依然處于早期,因?yàn)榭蛻粢矔?huì)關(guān)注相關(guān)的案例和預(yù)算。(說明:盡管在數(shù)據(jù)發(fā)現(xiàn)方面有幾個(gè)可靠的新供應(yīng)商,例如 Select Star, Metaphor, Stemma, Secoda, Castor,但我們的圖表中一般不包括處于種子階段的公司。)

藍(lán)圖 2:多模態(tài)數(shù)據(jù)處理

進(jìn)化的數(shù)據(jù)湖支持分析和運(yùn)營(yíng)案例,這也被稱為 Hadoop 難民的現(xiàn)代基礎(chǔ)設(shè)施。

注:Hadoop 是一個(gè)由 Apache 基金會(huì)所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開發(fā)分布式程序。Hadoop 作為一項(xiàng)技術(shù)正在衰退。

圖片

注:深黑色方框是新的或自 年2020架構(gòu)的第 1 版以來顯著的變化;淺黑色方框?yàn)榛颈3植蛔儯换疑娇虮徽J(rèn)為與本藍(lán)圖不太相關(guān)。

什么沒變

  • 數(shù)據(jù)處理(如 Databricks 、Starburst 和 Dremio)、傳輸(如 Confluent 和 Airflow)和存儲(chǔ)(AWS)方面的核心系統(tǒng)繼續(xù)高速增長(zhǎng),并構(gòu)成本藍(lán)圖的主干。

  • 多模態(tài)數(shù)據(jù)處理在設(shè)計(jì)上仍然是多樣化的,使公司可以在分析和運(yùn)營(yíng)數(shù)據(jù)應(yīng)用中采用最適合其特定需求的系統(tǒng)。

有什么新變化

  • 人們對(duì)湖倉(cāng)一體架構(gòu)的認(rèn)識(shí)越來越清晰。我們已經(jīng)看到這種方法得到了眾多供應(yīng)商(包括 AWS、Databricks 、Google Cloud、Starburst 和 Dremio)和數(shù)據(jù)倉(cāng)先鋒的支持。湖倉(cāng)一體的基本價(jià)值是將強(qiáng)大的存儲(chǔ)層與一系列強(qiáng)大的數(shù)據(jù)處理引擎(如 Spark、Presto、Druid/Clickhouse、Python 庫等)配對(duì)。

  • 存儲(chǔ)層本身正在升級(jí)。雖然像 Delta、Iceberg 和 Hudi 這樣的技術(shù)并不新鮮,但它們正被加速采用,并被構(gòu)建到商業(yè)產(chǎn)品中。其中一些技術(shù)(特別是 Iceberg)也與云數(shù)據(jù)倉(cāng)庫(如 Snowflake)進(jìn)行了交互操作。如果異質(zhì)性仍然存在,這可能會(huì)成為多模態(tài)數(shù)據(jù)堆棧的一個(gè)關(guān)鍵部分。

  • 流處理(即,實(shí)時(shí)分析數(shù)據(jù)處理)的采用可能會(huì)上升。雖然像 Flink 這樣的第一代技術(shù)仍未成為主流,但具有更簡(jiǎn)單編程模型的新進(jìn)入者(如 Materialize 和 Upsolver)正在獲得早期用戶,而且,據(jù)說現(xiàn)有的 Databricks 和 Confluent 公司的流處理產(chǎn)品的使用也開始加速。

藍(lán)圖 3:人工智能和機(jī)器學(xué)習(xí)

用于機(jī)器學(xué)習(xí)模型的強(qiáng)大開發(fā)、測(cè)試和操作的堆棧。

圖片

注:深黑色方框是新的或自 年2020架構(gòu)的 V1 以來有意義的變化;淺黑色方框?yàn)榛颈3植蛔?;灰色方框被認(rèn)為與本藍(lán)圖不太相關(guān)。

什么沒變

  • 今天的模型開發(fā)工具與 年2020基本相似,包括主要的云供應(yīng)商(如 Databricks 和 AWS)、ML 框架(如 XGBoost 和 PyTorch)和實(shí)驗(yàn)管理工具(如 Weights & Biases 和 Comet)。

    • 實(shí)驗(yàn)管理已經(jīng)有效地將模型的可視化和調(diào)整,歸為了獨(dú)立的類別。

  • 構(gòu)建和運(yùn)行一個(gè)機(jī)器學(xué)習(xí)堆棧是復(fù)雜的,需要專業(yè)知識(shí)。這個(gè)藍(lán)圖不適合膽小的人——對(duì)于許多數(shù)據(jù)團(tuán)隊(duì)來說,人工智能的實(shí)際應(yīng)用仍然是一個(gè)挑戰(zhàn)。

有什么新變化

  • ML 行業(yè)正在圍繞以數(shù)據(jù)為中心的方法進(jìn)行整合,強(qiáng)調(diào)復(fù)雜數(shù)據(jù)的管理,而不是增量的建模改進(jìn)。有這幾個(gè)影響:

    • 數(shù)據(jù)標(biāo)簽(data labeling)的快速增長(zhǎng)(如 Scale 和 Labelbox)以及對(duì)閉環(huán)數(shù)據(jù)引擎(closed-loop data engines)興趣的不斷增加,主要是仿照特斯拉的自動(dòng)駕駛數(shù)據(jù)管道。

    • 批量處理和實(shí)時(shí)使用的情況下,特征存儲(chǔ)(feature stores)(如 Tecton)的使用率增加,作為以協(xié)作方式開發(fā)生產(chǎn)級(jí) ML 數(shù)據(jù)的一種手段。

注:特征存儲(chǔ),是一個(gè)用于管理機(jī)器學(xué)習(xí)特征的數(shù)據(jù)管理系統(tǒng),包括特征工程代碼和特征數(shù)據(jù),目標(biāo)是使數(shù)據(jù)科學(xué)家能夠縮短從數(shù)據(jù)攝取到ML模型訓(xùn)練和推理的時(shí)間。

    • 對(duì)低代碼 ML 解決方案(如 Continual 和 MindsDB)的興趣再度產(chǎn)生,這些解決方案至少可以部分實(shí)現(xiàn) ML 建模過程的自動(dòng)化。這些較新的解決方案專注于將新用戶(即分析師和軟件開發(fā)人員)帶入 ML 市場(chǎng)。

  • 預(yù)訓(xùn)練模型的使用正在成為默認(rèn)選項(xiàng),特別是在 NLP 中。并為 OpenAI 和 Hugging Face 等公司提供了助力。這里仍有圍繞微調(diào)、成本和擴(kuò)展的,有意義的問題需要解決。

  • ML 的運(yùn)營(yíng)工具(有時(shí)被稱為 MLops)正變得越來越成熟,它是圍繞著 ML 監(jiān)控,作為最需要的用例和即時(shí)預(yù)算而構(gòu)建的。同時(shí),一系列新的運(yùn)營(yíng)工具正在出現(xiàn),功能包括驗(yàn)證和審計(jì),最終市場(chǎng)仍有待確定。

  • 人們?cè)絹碓疥P(guān)注開發(fā)者如何將 ML 模型無縫集成到應(yīng)用程序中,包括通過預(yù)構(gòu)建的 API(如 OpenAI)、矢量數(shù)據(jù)庫(如 Pinecone)和更多有指導(dǎo)意義的框架。 

05.

數(shù)據(jù)基礎(chǔ)設(shè)施變化洞察

數(shù)據(jù)棧

數(shù)據(jù)棧內(nèi)核穩(wěn)定

盡管在過去的一年中,數(shù)據(jù)基礎(chǔ)設(shè)施領(lǐng)域的活動(dòng)非??駸幔承┓矫孀兓×钊梭@訝,例如數(shù)據(jù)棧內(nèi)核的穩(wěn)定。

在我們的第一版架構(gòu)中,我們區(qū)分了支持?jǐn)?shù)據(jù)驅(qū)動(dòng)決策的分析系統(tǒng),和支持?jǐn)?shù)據(jù)驅(qū)動(dòng)產(chǎn)品的運(yùn)營(yíng)系統(tǒng)。然后,我們將這些類別映射到三種模式或藍(lán)圖中,這些通常由領(lǐng)先的數(shù)據(jù)團(tuán)隊(duì)實(shí)施。

圖片

其中一個(gè)關(guān)鍵問題是這些架構(gòu)模式是否會(huì)融合。一年后,這似乎并沒有發(fā)生。

尤其是分析和運(yùn)營(yíng)的生態(tài)系統(tǒng)都在持續(xù)蓬勃發(fā)展。像 Snowflake 這樣的云數(shù)據(jù)倉(cāng)庫已經(jīng)迅速增長(zhǎng),主要集中在 SQL 用戶和商業(yè)智能用例。但其他技術(shù)的采用也在加速發(fā)展,例如,像 Databricks 這樣的數(shù)據(jù)湖倉(cāng)一體,客戶量正在以比以往更快的速度增加。我們采訪的許多數(shù)據(jù)團(tuán)隊(duì)證實(shí),異質(zhì)性很可能在數(shù)據(jù)棧中繼續(xù)存在。

其他核心數(shù)據(jù)系統(tǒng),即獲取和轉(zhuǎn)換,已被證明具有類似的持久性。這在現(xiàn)代商業(yè)智能模式中尤其明顯,其中 Fivetran 和 dbt(或類似技術(shù))的結(jié)合已經(jīng)變得幾乎無處不在。這在某種程度上也適用于運(yùn)營(yíng)系統(tǒng),那里已經(jīng)出現(xiàn)了Databricks /Spark、Confluent/Kafka 和 Astronomer/Airflow 等事實(shí)標(biāo)準(zhǔn)。

數(shù)據(jù)棧新變化

圍繞著穩(wěn)定的內(nèi)核,數(shù)據(jù)棧在過去的一年里迅速發(fā)展,變化主要發(fā)生在以下兩個(gè)領(lǐng)域:

  • 支持關(guān)鍵數(shù)據(jù)流和工作流的新工具,如數(shù)據(jù)發(fā)現(xiàn)、數(shù)據(jù)可觀測(cè)性或 ML 模型審計(jì)。

  • 讓數(shù)據(jù)團(tuán)隊(duì)和商業(yè)用戶以更新、更強(qiáng)大的方式從數(shù)據(jù)中挖掘價(jià)值的新應(yīng)用,如數(shù)據(jù)工作區(qū)、反向 ETL 和 ML 應(yīng)用框架。

我們還看到一些旨在加強(qiáng)核心數(shù)據(jù)處理系統(tǒng)的新技術(shù)的引入。值得注意的是,我們圍繞著分析生態(tài)系統(tǒng)中的指標(biāo)層以及運(yùn)營(yíng)系統(tǒng)的湖倉(cāng)一體化模式展開了積極的討論,這兩者都在向有益的定義和架構(gòu)靠攏。

數(shù)據(jù)平臺(tái)

上文提到,在過去的一年里,數(shù)據(jù)基礎(chǔ)設(shè)施堆棧的核心系統(tǒng)有了很大的穩(wěn)定性,而支持工具和應(yīng)用程序數(shù)量激增。為了解釋為什么會(huì)發(fā)生這種情況,我們?cè)诖私榻B平臺(tái)的概念。

什么是平臺(tái)

在數(shù)據(jù)生態(tài)系統(tǒng)中,"平臺(tái) "這個(gè)詞已經(jīng)被過度使用了,經(jīng)常被內(nèi)部團(tuán)隊(duì)用來描述他們的整個(gè)技術(shù)堆棧,或者被供應(yīng)商用來銷售松散連接的產(chǎn)品套件。

在更廣泛的軟件領(lǐng)域,平臺(tái)是其他開發(fā)者可以在上面“搭建”的東西。平臺(tái)本身提供的價(jià)值通常是有限的。例如,大多數(shù)用戶對(duì)訪問 Windows 或 iOS 的內(nèi)部結(jié)構(gòu)沒有興趣。但它們提供了一系列好處,如通用的編程接口和龐大的安裝基礎(chǔ),使開發(fā)者能夠建立和發(fā)布用戶最終關(guān)心的應(yīng)用程序。

從行業(yè)的角度來看,平臺(tái)的決定性特征是“相互依賴”,即有影響力的平臺(tái)供應(yīng)商和大量第三方開發(fā)者之間在技術(shù)上和經(jīng)濟(jì)上的相互依賴。

圖片

什么是數(shù)據(jù)平臺(tái)

從歷史上看,數(shù)據(jù)棧并不適合平臺(tái)的定義。例如,ETL、數(shù)據(jù)倉(cāng)庫和報(bào)告供應(yīng)商之間存在著相互依賴,但整合模式往往是一對(duì)一的,而不是一對(duì)多的,且由專業(yè)服務(wù)來大量補(bǔ)充。

根據(jù)我們采訪的一些數(shù)據(jù)專家的說法來看,這種情況可能會(huì)開始改變。

數(shù)據(jù)平臺(tái)假說認(rèn)為,數(shù)據(jù)堆棧的 "后端",大致定義為數(shù)據(jù)獲取、存儲(chǔ)、處理和轉(zhuǎn)換?!昂蠖恕币呀?jīng)開始圍繞一組相對(duì)較小的基于云的供應(yīng)商進(jìn)行整合。因此,客戶數(shù)據(jù)被收集在一套標(biāo)準(zhǔn)的系統(tǒng)中,而且供應(yīng)商正在大力投資,以使這些數(shù)據(jù)更易于被其他開發(fā)者訪問。客戶數(shù)據(jù)也是 Databricks 等系統(tǒng)的基本設(shè)計(jì)原則,并且是通過 SQL 標(biāo)準(zhǔn),以及 Snowflake 等系統(tǒng)的定制計(jì)算 API 的。

反過來,"前端 "開發(fā)人員已經(jīng)利用這種單一的集成點(diǎn),建立了一系列新的應(yīng)用程序。他們依靠數(shù)據(jù)倉(cāng)庫/湖倉(cāng)的干凈、連接的數(shù)據(jù),無需擔(dān)心它如何實(shí)現(xiàn)基本細(xì)節(jié)。一個(gè)客戶可以在一個(gè)核心數(shù)據(jù)系統(tǒng)的基礎(chǔ)上購(gòu)買和建立許多應(yīng)用程序。我們甚至開始看到傳統(tǒng)的企業(yè)系統(tǒng),如財(cái)務(wù)或產(chǎn)品分析,正在以 "倉(cāng)庫原生 "的架構(gòu)進(jìn)行重建。

這畫面可能看起來像這樣:

圖片

要清楚的是,這并不意味著 OLTP 數(shù)據(jù)庫或其他重要的后端技術(shù)將在不久的將來消失。但是,與 OLAP 系統(tǒng)的原生集成可能會(huì)成為應(yīng)用開發(fā)的一個(gè)重要組成部分。隨著時(shí)間的推移,越來越多的業(yè)務(wù)邏輯和應(yīng)用功能可能會(huì)過渡到這種模式。我們可能會(huì)看到一大類新產(chǎn)品建立在這個(gè)數(shù)據(jù)平臺(tái)上。

數(shù)據(jù)應(yīng)用

數(shù)據(jù)平臺(tái)假說仍有待商榷。然而,我們看到復(fù)雜的垂直 SaaS 解決方案在數(shù)據(jù)平臺(tái)上以水平層的形式實(shí)施。因此,雖然是早期,我們認(rèn)為在數(shù)據(jù)堆棧中發(fā)生的變化至少與平臺(tái)的想法是一致的。

這是由很多原因?qū)е碌摹@?,?Snowflake 和 Databricks 這樣的公司已經(jīng)成為數(shù)據(jù)棧的穩(wěn)定部分,包括偉大的產(chǎn)品,有能力的銷售團(tuán)隊(duì)和低摩擦的部署模式。但也有一種情況是,他們的粘性被平臺(tái)的動(dòng)力所加強(qiáng)—— 一旦客戶用其中一個(gè)系統(tǒng)構(gòu)建和/或集成了一系列數(shù)據(jù)應(yīng)用程序,通常就沒有必要再過渡了。

類似的觀點(diǎn)也可以支持近年來新型數(shù)據(jù)基礎(chǔ)設(shè)施產(chǎn)品激增這一事實(shí),這一趨勢(shì)與海量的數(shù)據(jù)、不斷增加的企業(yè)預(yù)算和過剩的風(fēng)投資金有關(guān)。我們現(xiàn)在看到這么多新產(chǎn)品的出現(xiàn),原因可能與平臺(tái)有關(guān)——也就是說,一個(gè)新的數(shù)據(jù)應(yīng)用程序從未像現(xiàn)在這樣容易被采用,而正確維護(hù)平臺(tái)也從未像現(xiàn)在這樣重要。

平臺(tái)假說在競(jìng)爭(zhēng)態(tài)勢(shì)方面提供了一些預(yù)測(cè)能力。從規(guī)模上看,平臺(tái)可能非常有價(jià)值。如今,核心數(shù)據(jù)系統(tǒng)供應(yīng)商的競(jìng)爭(zhēng)可能不僅僅是為了當(dāng)前的預(yù)算,更是為了長(zhǎng)期的平臺(tái)地位。如果你相信數(shù)據(jù)獲取和轉(zhuǎn)換、指標(biāo)層應(yīng)用或反向 ETL 是新興數(shù)據(jù)平臺(tái)的核心部分,那么它們那令人瞠目結(jié)舌的估值以及各方的激烈辯論也將更有意義。

06.

未來

我們?nèi)蕴幱诙x數(shù)據(jù)平臺(tái)的早期階段,平臺(tái)的各個(gè)部分也在不斷變化。因此,把它當(dāng)作一個(gè)類比,可能比當(dāng)作一個(gè)嚴(yán)格的定義更好。它可能是一個(gè)有用的工具,可以幫助人們過濾噪音中的信號(hào),培養(yǎng)對(duì)市場(chǎng)發(fā)展方式的認(rèn)知。數(shù)據(jù)團(tuán)隊(duì)現(xiàn)在擁有更多的工具、資源和組織動(dòng)力,比數(shù)據(jù)庫發(fā)明以來的任何時(shí)候(可能)都多。我們非常期待看到應(yīng)用層在新興平臺(tái)之上的發(fā)展。

我們相信,未來 10 年將是數(shù)據(jù)的 10 年,包括企業(yè)基礎(chǔ)設(shè)施、應(yīng)用程序以及介于兩者之間的一切。


    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多