小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

Hermes實時檢索分析平臺

 株野 2016-01-07

一、序言

        隨著TDW的發(fā)展,公司在大數(shù)據(jù)離線分析方面已經(jīng)具備了行業(yè)領先的能力。但是,很多應用場景往往要求在數(shù)秒內(nèi)完成對幾億、幾十億甚至幾百上千億的數(shù)據(jù)分析,從而達到不影響用戶體驗的目的。如何能夠及時有效的獲取分析結(jié)果提高工作效率,這是許多分析人員在面對大數(shù)據(jù)所不得不面臨的問題。要滿足這樣的需求,可以采用精心設計的傳統(tǒng)關系型數(shù)據(jù)庫組成并行處理集群,或者采用一些內(nèi)存計算平臺,或者采用HDD的架構(gòu),但是這些都無疑需要比較高的軟硬件成本。海量數(shù)據(jù)的今天,堆機器不是每個業(yè)務都愿意去做的。

        實時檢索分析平臺(Hermes),旨在為公司大數(shù)據(jù)分析業(yè)務提供一套實時的、多維的、交互式的查詢、統(tǒng)計、分析系統(tǒng),為公司各個產(chǎn)品在大數(shù)據(jù)的統(tǒng)計分析方面提供完整的解決方案,讓萬級維度、千億級數(shù)據(jù)下的秒級統(tǒng)計分析變?yōu)楝F(xiàn)實。

        本文將粗略介紹系統(tǒng)的應用場景、設計架構(gòu)以及相關業(yè)務接入情況。

二、Hermes實時檢索分析場景

0

營銷分析

1

        作為營銷人員,首先你需要確認營銷目標群體,并且在什么時間以什么形式,開展什么營銷活動效果最好?你首先需要找到目標群體號碼包,通過指定條件(如性別、年齡、興趣愛好,曾經(jīng)有過類似行為)提取號碼包;通過大數(shù)據(jù)分析,得知在某個時間段參與人數(shù)較多,哪種類型的活動效果更受歡迎,目標用戶群體有哪些共同特征。掌握這些,你的營銷活動效果更加好;

系統(tǒng)運營分析

3

        一個產(chǎn)品的后臺有著成千上萬個接口,各個接口的性能指標是開發(fā)人員、運維人員特別關注的,每個接口可能都有不同的版本號,要判斷系統(tǒng)是否穩(wěn)定不是某個時間點的數(shù)據(jù)能體現(xiàn)出來的,需要對比分析歷史數(shù)據(jù)才能發(fā)現(xiàn)潛在的問題。也許問題只出現(xiàn)在某個接口的某個版本中,并且只有特定版本的接口發(fā)送到特定接口才會重現(xiàn)這種問題,開發(fā)人員除了大量的日志外,沒有很直觀的途徑能指導開發(fā)人員有針對性的定位問題。

        如果對這些性能數(shù)據(jù)進行實時的多維度的數(shù)據(jù)分析,只需要根據(jù)問題的表象分析對應的版本號、對應的接口就能查看到對應的性能數(shù)據(jù)指標,從而快速縮小問題發(fā)生范圍,為問題定位提供高效的解決途徑。

        此外不同版本性能的周期性對比、新版本上線性能跟蹤等都是系統(tǒng)運營分析所不可或缺的。

趨勢分析

4

        當面對每天幾百幾千萬的數(shù)據(jù),mysql等傳統(tǒng)的數(shù)據(jù)庫能幫你搞定,但是當你要分析周期性數(shù)據(jù), 比如最近三十天,這個數(shù)據(jù)量,也許你沒瘋mysql就已經(jīng)"瘋"了。

        當要分析的數(shù)據(jù)按月按年計算呢?肯定很多人考慮hadoop,沒錯,它是能幫你解決這么大的數(shù)據(jù)量的分析工作,但是hadoop不能讓你即查即所見?一個分析人員效率高低,很多時候取決于工具的時效性,這直接影響著分析人員、運營人員的分析思維連貫性。

探索性分析

5

        很多分析人員分析的目的是驗證性的、是探索性的,在不斷的調(diào)整驗證自己的猜想最終發(fā)掘有效信息從而為產(chǎn)品發(fā)展找到?jīng)Q策性數(shù)據(jù)依據(jù)。

        假設你有10億的數(shù)據(jù)量,字段數(shù)達到上百個,分析人員任何一個YY分析需求都有可能是這上百個字段其中的組合,假設我們從中取5個字段做組合分析,100個字段中取五個字段的組合數(shù)能達到75287520,每次查詢就算耗時500毫秒,預處理也要430多天??梢?,任意組合的查詢分析、即查即所見的多維組合分析是探索性分析必需具備的”硬件”條件。

全文檢索

        很多場景需要根據(jù)關鍵字對數(shù)據(jù)進行實時檢索服務, 目前我們支持數(shù)據(jù)的實時接入,也支持數(shù)據(jù)的批量導入。除此高效的毫秒級檢索分析服務外,我們還支持用戶對結(jié)果集的導出。

三、Hermes設計概要

架構(gòu)描述

6

        系統(tǒng)核心進程均采用分散化設計,根據(jù)業(yè)務發(fā)展需求,可隨意擴縮容機器;

        周期性數(shù)據(jù)直接通過tdw處理落地到分布式文件系統(tǒng); 實時數(shù)據(jù)加載采用先落地本地磁盤,最終落地到分布式文件系統(tǒng),最終都由調(diào)度進程分發(fā)到計算層;

分析引擎設計

        基于單個實例數(shù)據(jù)的分析處理,datasource主要包含兩類數(shù)據(jù):用戶導入的數(shù)據(jù)(位圖文件)以及源數(shù)據(jù)(索引文件),內(nèi)核主要根據(jù)用戶請求邏輯處理索引文件以及位圖文件。

7

內(nèi)核設計

8

        整個數(shù)據(jù)對應多份,按照不同規(guī)則均勻分布在各個分析實例中,數(shù)據(jù)的merge服務在其中的一個分片中進行,每次請求將根據(jù)機器負載情況選擇負載輕的作為merge服務器。

存儲設計

        通過對數(shù)據(jù)結(jié)構(gòu)的重新組織,結(jié)合分析系統(tǒng)的特點,實現(xiàn)嵌套列存儲,充分避開隨機讀,采用塊讀取+位圖計算大幅度降低耗時弊病,使大數(shù)據(jù)的統(tǒng)計分析計算耗時縮短至秒級;

        在詞條文件中采用字典排序,并在此基礎上實現(xiàn)前綴壓縮;

        在序列文件中采用遞增排序,并對序列號采用可變長類型,有效壓縮存儲空間,便于計算位圖的構(gòu)建;

存儲格式

存儲格式主要包含四類文件

        meta文件: 描述表結(jié)構(gòu),內(nèi)存文件;

        詞條文件: 描述各個字段的詞條集信息,磁盤文件;

        詞條索引文件: 詞條文件的跳表映射文件,用于加速定位目標詞條,內(nèi)存文件;

        序列號文件: 詞條出現(xiàn)的序列集,采用可變長類型存儲序列號, 每個詞條對應的序列號集又包含跳表映射數(shù)據(jù)塊,用于加速具體序列的定位,磁盤文件;

9

存儲分析過程示例

1011流程設計

12

        數(shù)據(jù)容災:根據(jù)業(yè)務特點,采用分布式文件系統(tǒng)或冗余存儲解決。

        進程容災:根據(jù)進程的特殊性,采用Master-Slave或者冗余解決進程容災問題。

        數(shù)據(jù)加載支持實時和周期性兩種方式。

數(shù)據(jù)接入

13

        實時數(shù)據(jù)服務:提供數(shù)據(jù)實時接入,保證數(shù)據(jù)即入即所查。

        歷史數(shù)據(jù)服務:提供T+1數(shù)據(jù)以及數(shù)據(jù)補錄等場景,保證數(shù)據(jù)有效周期。

四、Hermes應用案例

微信數(shù)據(jù)門戶多維分析 (約370億)

        提供系統(tǒng)各個性能指標數(shù)據(jù)的實時分析。

信息安全部回溯項目(目前接入約2300億)

        基于全文檢索查詢、分析、統(tǒng)計并導出相關記錄。

        結(jié)果秒級返回。

五、Hermes性能數(shù)據(jù)

pic

六、結(jié)束語

        數(shù)據(jù)的不斷膨脹給數(shù)據(jù)分析帶來了很多挑戰(zhàn),多維分析則是為了解決在數(shù)據(jù)不斷膨脹的情況下數(shù)據(jù)分析時效性的問題,為數(shù)據(jù)分析平臺提供即席的數(shù)據(jù)分析支持。

        在業(yè)務實踐的同時,我們?nèi)栽诓粩嗤晟?,使Hermes平臺支持更多的應用場景,為提高開發(fā)人員、營銷人員和數(shù)據(jù)分析人員數(shù)據(jù)分析效率,從海量的業(yè)務數(shù)據(jù)中挖掘有價值的金礦而努力。

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多