小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

2021 年 Elasticsearch 生態(tài)和技術(shù)峰會(huì)干貨總結(jié)

 銘毅天下 2021-12-24

1、引言

2021年 Elasticsearch 生態(tài)和技術(shù)峰會(huì)已完美閉幕,本次峰會(huì)可謂大咖云集,精彩紛呈。

本文僅就下午場(chǎng)技術(shù)部分做一下梳理、提煉、總結(jié),希望對(duì)沒有來得及參加線上技術(shù)峰會(huì)的廣大 Elastic 愛好者提供幫助。錯(cuò)過直播,但依然收獲技術(shù)干貨!

2、峰會(huì)技術(shù)關(guān)鍵詞詞云

3、技術(shù)會(huì)議主題

  • 吳斌老師(Elastic中文社區(qū)副主席):基于流式計(jì)算平臺(tái)搭建實(shí)時(shí)分析應(yīng)用

  • 李猛老師(力萌科技數(shù)據(jù)專家):Elasticsearch 基于 Pipeline 窗口函數(shù)實(shí)現(xiàn)實(shí)時(shí)聚合計(jì)算

  • 白凡老師(尚德機(jī)構(gòu)資深工程師):基于 Elasticsearch 的容器化編排實(shí)踐

  • 劉征老師(Elastic社區(qū)布道師):如何規(guī)劃和執(zhí)行威脅狩獵

  • 魏子珺老師(阿里巴巴技術(shù)專家):Elasticsearch云原生內(nèi)核建設(shè)之路

4、基于流式計(jì)算平臺(tái)搭建實(shí)時(shí)分析應(yīng)用(吳斌)

4.1 為什么要面向開源進(jìn)行架構(gòu)設(shè)計(jì)?

  • 輕松定制化、業(yè)務(wù)專注、低學(xué)習(xí)成本。

  • 由于代碼公開,所以安全、合規(guī)、透明。

  • 高度靈活性,無平臺(tái)綁定。

4.2 流式計(jì)算平臺(tái)架構(gòu)剖析

如圖所示,流式計(jì)算平臺(tái)主要由分布式消息隊(duì)列、分布式計(jì)算引擎、數(shù)據(jù)引擎三部分構(gòu)成。

4.2.1 分布式消息隊(duì)列

  • 數(shù)據(jù)采集,支持消息分發(fā)、消息緩存

  • 高可用,削峰填谷

4.2.2 分布式計(jì)算引擎

  • 早期:MapReduce、Storm

  • 當(dāng)下主流:Flink、Storm2.0

  • 支持熱更新 / 彈性伸縮

計(jì)算引擎核心任務(wù):

  • 數(shù)據(jù)校驗(yàn)(數(shù)據(jù)格式、合法性、臟數(shù)據(jù)等)

  • 數(shù)據(jù)清洗(數(shù)據(jù) ETL 轉(zhuǎn)換)

  • 數(shù)據(jù)豐富(多維數(shù)據(jù)Join,以輔助數(shù)據(jù)分析)

4.2.3 數(shù)據(jù)引擎

  • 熱數(shù)據(jù)存儲(chǔ)在 Elasticsearch、HBase。

  • 其中 HBase 存儲(chǔ)熱數(shù)據(jù)非完全必要,除非高 IO 存儲(chǔ)需要引入。

  • 一般情況下,數(shù)據(jù)的分析:Elasticsearch 就能搞定。

  • 溫?cái)?shù)據(jù)(超過 7天的數(shù)據(jù))存儲(chǔ)選型:
    1)MPP
    2)Hive,GreenPlum

4.2.4 分布式存儲(chǔ)

  • 云端的對(duì)象存儲(chǔ)

  • 文件輸出、明細(xì)錯(cuò)誤數(shù)據(jù)落地

  • 快照 snapshot 等

1)數(shù)據(jù)來源(server Application):服務(wù)器日志、監(jiān)控、業(yè)務(wù)數(shù)據(jù)采集(如用戶行為、購(gòu)買記錄、社交記錄)。
2)數(shù)據(jù)發(fā)送到消息隊(duì)列 (MSG G)。
3)消息隊(duì)列數(shù)據(jù)寫入 Beam Streaming 開源驅(qū)動(dòng)引擎框架。

  • 批流一體引擎。

  • Beam 能驅(qū)動(dòng):Flink、Spark Stream、 Strom 去做流式數(shù)據(jù)、batch 數(shù)據(jù)處理。

4)拉取RDB業(yè)務(wù)維表與實(shí)時(shí)數(shù)據(jù)Join。
5)對(duì)有問題數(shù)據(jù)輸出到 Object 對(duì)象 / File 文件系統(tǒng)備份。
6)實(shí)時(shí)數(shù)據(jù)注入 Elasticsearch。
7)高 IO 數(shù)據(jù)寫入 HBase(KV引擎)。
8)Beam Batch 批量處理。

核心Tips: 

HBase  +  Elasticsearch 組合使用,以打車場(chǎng)景為例:

  • 當(dāng)打車訂單未完成時(shí)候,明細(xì)數(shù)據(jù)(實(shí)時(shí)高 IO)錄入HBase:

  • Session (訂單)結(jié)束后,一個(gè)打車訂單歸攏為一條數(shù)據(jù),放到 Elasticsearch,在 ES 中做實(shí)時(shí)訂單分析、軌跡查詢、客服查詢等處理。

4.3 Elasticsearch 在流式平臺(tái)中的角色功能

(1)文本檢索

  • 日志

  • 場(chǎng)景:運(yùn)維、開發(fā)、測(cè)試、客服。

(2)已知數(shù)據(jù)計(jì)算

  • 已知數(shù)據(jù)定義:Mapping是我們自定義的。

  • 實(shí)時(shí)指標(biāo)計(jì)算。

  • 場(chǎng)景:固定報(bào)表、大屏展示。

(3)未知線索探索

  • 指標(biāo)計(jì)算

  • 復(fù)雜過濾條件

  • adhoc 查詢

  • 關(guān)聯(lián)性、歸因等

4.4 云原生與k8s集群管理經(jīng)驗(yàn)分享(核心)

  • lass / On-prem:自己部署(實(shí)體機(jī)、虛擬機(jī))大集群:維護(hù)升級(jí)麻煩,出錯(cuò)恢復(fù)周期非常長(zhǎng)。

  • Sass:運(yùn)維簡(jiǎn)單,具備彈性;缺點(diǎn):細(xì)節(jié)不透明,網(wǎng)絡(luò)拓?fù)涫芟?,入?網(wǎng)關(guān)性能、靈活性差,升級(jí)麻煩。

  • Pass (平臺(tái)服務(wù)) / K8s
    (1)優(yōu)點(diǎn):運(yùn)維簡(jiǎn)單、yaml文件決定部署、彈性好、獨(dú)享資源、官方operator。
    (2)
    缺點(diǎn):受限于K8s、開源版本,官方未來會(huì)推出商業(yè)版本。

    推薦:基于云托管K8s搭建ES集群。

為 Elasticsearch 量身定制的網(wǎng)關(guān)產(chǎn)品——極限網(wǎng)關(guān)

極限網(wǎng)關(guān)特性:

  • 轉(zhuǎn)發(fā)性能好。

  • 支持多集群之間數(shù)據(jù)分流、同步。

  • 支持網(wǎng)關(guān)級(jí)限流。

4.5 相關(guān)資源

  • Elasticsearch  on K8s(Elastic 中文社區(qū)維護(hù))

https://github.com/elasticsearch-cn/elastic-on-gke/

  • 流式分析平臺(tái)框架(Beam)

https://github.com/cloudymoma/raycom

  • 極限網(wǎng)關(guān)(持續(xù)完善中)

http://gateway./

https://github.com/medcl/infini-gateway

5、Elasticsearch 基于 Pipeline 窗口函數(shù)實(shí)現(xiàn)實(shí)時(shí)聚合計(jì)算(李猛)

5.1 Pipeline 實(shí)時(shí)計(jì)算模型

pipeline 管道——輸入、處理、輸出。

類似:logstash 中的三個(gè)核心:input、filter、output。

現(xiàn)有流計(jì)算的問題:

  • Kafka:上游。

  • Flink:中間實(shí)時(shí)計(jì)算。

  • Storage:下游實(shí)時(shí)存儲(chǔ)。

現(xiàn)有流計(jì)算架構(gòu)問題總結(jié)如下:

  • 每增加一個(gè)環(huán)節(jié)(一個(gè)新架構(gòu)選型),系統(tǒng)復(fù)雜性增加數(shù)倍。

  • 架構(gòu)可靠性降低。

  • 會(huì)增加學(xué)習(xí)、運(yùn)維成本高。

現(xiàn)有產(chǎn)品架構(gòu)體系不夠簡(jiǎn)化,能不能不是三件套,而是單件套?

5.2 ES - Pipeline 實(shí)時(shí)計(jì)算能力

  • ES Ingest pipeline

使用 Ingest pipeline 解決數(shù)據(jù)預(yù)處理問題。

前提:業(yè)務(wù)場(chǎng)景不復(fù)雜。

思考:Kafka、Flink 合并到用 Elasticsearch 實(shí)現(xiàn)。

  • ES Rollup pipeline

Rollup 核心:基于時(shí)間維度實(shí)現(xiàn)數(shù)據(jù)轉(zhuǎn)換、壓縮、折疊。

  • ES Transform pipeline

Transform:自己定義腳本或者函數(shù)實(shí)現(xiàn)數(shù)據(jù)轉(zhuǎn)換。

  • ES Aggregations Pipeline

聚合 + pipeline 二次聚合,可以將結(jié)果寫回到:索引。

  • Moving_avg: 移動(dòng)平均值。

  • Moving_fn:自定義計(jì)算函數(shù),自定義腳本。

  • Moving_percentles: 計(jì)算百分位占比。

5.3 ES + X實(shí)時(shí)計(jì)算暢想

認(rèn)知前提:ES 具備一定的實(shí)時(shí)計(jì)算能力。

ALL in One(大白話意思:“Elasticsearch 一統(tǒng)江湖”)。

6、基于 Elasticsearch 的容器化編排實(shí)踐(白凡)

6.1、為什么使用容器?

  • 業(yè)務(wù)方使用 ES 需求不一樣。

  • 資源隔離。

  • 較虛擬機(jī)相對(duì)輕量級(jí)。

敏感業(yè)務(wù)數(shù)據(jù):物理機(jī)集群存儲(chǔ)。
不敏感業(yè)務(wù)數(shù)據(jù):容器集群存儲(chǔ)。

6.2、容器化優(yōu)點(diǎn)

  • 容易構(gòu)建、遷移、部署。

  • 工具鏈的標(biāo)準(zhǔn)化和快速部署。

  • 開發(fā)、測(cè)試、生產(chǎn) ES 版本統(tǒng)一化。

  • 底層參數(shù)以及 ES配置 標(biāo)準(zhǔn)化。

  • 輕量 + 高效。

6.3、由代碼到上線的可追溯流程

使用了:

  • Gerrit 代碼審查工具。

  • Jenkins 自動(dòng)化打包工具。

6.4、容器化中常見問題及解決方案

7、如何規(guī)劃和執(zhí)行威脅狩獵?(劉征)

威脅狩獵本質(zhì):安全分析中高階、頂層威脅情報(bào)集成、管理工作。

7.1 安全問題無處不在

  • 攻擊充滿了盲點(diǎn)

  • 每個(gè)人都是目標(biāo)

  • 安全分析師不堪重負(fù)

7.2 基于現(xiàn)有模塊構(gòu)建 Elastic 安全體系

Elastic 內(nèi)置了監(jiān)測(cè)規(guī)則、監(jiān)測(cè)引擎、監(jiān)測(cè)告警等。

7.3 安全威脅建模四個(gè)步驟組成:

在 kibana SIEM 中創(chuàng)建監(jiān)測(cè)規(guī)則,形成基于 KQL的威脅探測(cè)規(guī)則。

7.4 安全狩獵核心步驟

第一步:通過 beats 收集日志。

第二步:通過數(shù)據(jù)豐富提高威脅情報(bào)的質(zhì)量。

第三步:通過 Elastic SIEM 工具實(shí)現(xiàn)安全狩獵。

以上,人為對(duì)已知攻擊的分析、判斷。

可不可以對(duì)未知隱患發(fā)現(xiàn)?可以的,人工 + 機(jī)器學(xué)習(xí)實(shí)現(xiàn)。

7.5 推薦使用:MITRE ATTCK (內(nèi)置于:Elastic SIEM)的全方位防護(hù)。

上面一句話很簡(jiǎn)練,是為總結(jié)。

8、阿里云 Elasticsearch 云原生內(nèi)核建設(shè)之路(魏子珺)

8.1 阿里云 Elasticsearch 內(nèi)核概覽

8.1.1 阿里云Elasticsearch內(nèi)核優(yōu)勢(shì)

阿里云內(nèi)核 VS 開源內(nèi)核:

  • 針對(duì)阿里云基礎(chǔ)設(shè)施深度定制的內(nèi)核,可最大發(fā)揮阿里云基礎(chǔ)設(shè)施性能及成本優(yōu)勢(shì)。

  • 做場(chǎng)景化優(yōu)化和功能增強(qiáng)。

  • 成本、性能、穩(wěn)定性、功能較開源都有優(yōu)勢(shì)。

8.1.2 阿里云 Elasticsearch 內(nèi)核需求

  • 簡(jiǎn)單:支持動(dòng)態(tài)擴(kuò)容、彈性計(jì)算,用戶不用擔(dān)心資源問題。

  • 好用:開箱即用,根據(jù)場(chǎng)景提供最優(yōu)配置。

  • 性價(jià)比:價(jià)格低、性能好、足夠穩(wěn)定。

8.1.3 阿里云 Elasticsearch 內(nèi)核成果

  • 成本節(jié)約:計(jì)算存儲(chǔ)分離、冷熱分離、Indexing service、索引數(shù)據(jù)壓縮。

  • 性能優(yōu)化:ElasticBuild、物理復(fù)制、 bulk 聚合插件、時(shí)序查詢剪枝。

  • 穩(wěn)定性提升:集群Qos限流、慢查詢隔離池、協(xié)調(diào)節(jié)點(diǎn)流控、kmonitor全方位監(jiān)控。

  • 功能增強(qiáng):向量檢索插件、NLP分詞插件(1GB 海量詞庫(kù)),OSS Snapshot 插件,場(chǎng)景化推薦模板。

8.2、云原生 Elasticsearch 如何定義?

  • Elasticsearch 云服務(wù),開行即用,API 自動(dòng)化部署和運(yùn)維。

  • 計(jì)算存儲(chǔ)分離,彈性可伸縮。

  • 充分利用云基礎(chǔ)設(shè)施,網(wǎng)絡(luò)、存儲(chǔ)和算力。

8.3、云原生 Elasticsearch 內(nèi)核如何設(shè)計(jì)?

8.3.1 熱節(jié)點(diǎn)計(jì)算存儲(chǔ)分離——分布式文件系統(tǒng)

挑戰(zhàn)1:分布式文件系統(tǒng)自身的穩(wěn)定性。
挑戰(zhàn)2:ES 一寫多讀,如何防止出現(xiàn)多讀情況。
挑戰(zhàn)3:讀寫分片內(nèi)存狀態(tài),如何保障數(shù)據(jù)一致性?

8.3.2 冷熱分離——冷節(jié)點(diǎn)對(duì)象存儲(chǔ)

挑戰(zhàn)1:冷節(jié)點(diǎn)使用對(duì)象存儲(chǔ),只有http接口,無 POSIX 接口,需要 Lucene 底層適配。

挑戰(zhàn)2:?jiǎn)未蜪O的延時(shí)非常高。

挑戰(zhàn)3:無法使用操作系統(tǒng) pagecache 和預(yù)讀能力。

8.3.3 Serverless:讓用戶關(guān)心從集群下沉到索引。

挑戰(zhàn)1:如何解決多租戶共享和平衡隔離問題。

挑戰(zhàn)2:如何實(shí)現(xiàn)與原生ES一致的體驗(yàn)。

挑戰(zhàn)3:如何評(píng)估索引的使用資源。

8.4 、阿里云云原生 Elasticsearch 實(shí)踐

8.4.1 熱節(jié)點(diǎn)計(jì)算存儲(chǔ)分離

核心訴求:徹底彈性。不止是原生的動(dòng)態(tài)添加節(jié)點(diǎn)、動(dòng)態(tài)分片數(shù)據(jù)遷移。

核心需求:

  • 分片秒級(jí)搬遷

  • 秒級(jí)擴(kuò)容副本

徹底彈性的本質(zhì):分片的搬遷、副本的擴(kuò)充,底層數(shù)據(jù)都是不動(dòng)的,只需要調(diào)整的是 DataNode 到分片的映射。

熱節(jié)點(diǎn)計(jì)算存儲(chǔ)分離的本質(zhì)是:不再需要分片的副本保證數(shù)據(jù)的高可靠性(原生 ES 需要),而是借助:分布式文件系統(tǒng)保障數(shù)據(jù)的可靠性。

核心技術(shù)之一:內(nèi)存物理復(fù)制,實(shí)現(xiàn) replica 的近實(shí)時(shí)訪問。

核心技術(shù)之二:兩階段 io fence,主備切換數(shù)據(jù)一致性保證以及防止網(wǎng)絡(luò)異常時(shí)的數(shù)據(jù)多寫。

計(jì)算存儲(chǔ)分離優(yōu)勢(shì)

  • 秒級(jí)彈性擴(kuò)縮容。

  • 寫入性能提升 100%(免去了副本寫入的CPU開銷)。

  • 存儲(chǔ)成本倍數(shù)降低(數(shù)據(jù)在共享存儲(chǔ)中存儲(chǔ)一份,一寫多讀)

8.4.2  Serverless——Indexing service

2021 年 2 月上線。

  • 功能:提供寫入托管服務(wù),滿足高并發(fā)時(shí)序數(shù)據(jù)寫入,降低業(yè)務(wù)集群 CPU 開銷。

  • 適用場(chǎng)景:日志、監(jiān)控、APM 等時(shí)序場(chǎng)景。

  • 解決痛點(diǎn):

    • 寫多讀少。

    • 消耗大量計(jì)算資源 用于寫入。

一句話概括Indexing Service 本質(zhì):寫入托管服務(wù),也就是說:針對(duì)時(shí)序、日志場(chǎng)景數(shù)據(jù),用戶無需再關(guān)系寫入細(xì)節(jié)、寫入優(yōu)化、運(yùn)維等操作,全權(quán)由阿里云托管搞定。

9、小結(jié)

各位分享大咖的視頻都值得看,建議大家結(jié)合自己的業(yè)務(wù)場(chǎng)景去看。

更多細(xì)節(jié)內(nèi)容,推薦大家看視頻,視頻地址:

https://developer.aliyun.com/topic/esanniv3rd?userCode=qzgc9fkf

推薦:

  1. Elasticsearch, 你值得擁有!—— 云棲大會(huì) Elasticsearch 場(chǎng)景化應(yīng)用全景回顧

  2. Elastic中國(guó)開發(fā)者大會(huì)2019干貨分享

  3. 干貨 | 2018 Elastic 中國(guó)開發(fā)者大會(huì)筆記


中國(guó)最大的 Elastic 非官方公眾號(hào)

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多