小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

一圖看懂大數(shù)據(jù)關(guān)鍵技術(shù)(一)——數(shù)據(jù)獲取

 youxd 2016-06-24

編輯:西和西 校對排版:吳雙

大數(shù)據(jù)關(guān)鍵技術(shù)涵蓋從數(shù)據(jù)存儲、處理、應(yīng)用等多方面的技術(shù)。如下圖所示,根據(jù)大數(shù)據(jù)的處理過程,可將其分為數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲與管理、數(shù)據(jù)檢索與分析、數(shù)據(jù)呈現(xiàn)與應(yīng)用、數(shù)據(jù)安全等環(huán)節(jié)。由于大數(shù)據(jù)具有大規(guī)模、異構(gòu)、多源等特點,大數(shù)據(jù)技術(shù)與傳統(tǒng)的數(shù)據(jù)處理技術(shù)也有所不同。在大數(shù)據(jù)處理的每個環(huán)節(jié)中,都出現(xiàn)了許多針對大數(shù)據(jù)獨特需求的新興技術(shù)。

一圖看懂大數(shù)據(jù)關(guān)鍵技術(shù)(一)——數(shù)據(jù)獲取

數(shù)據(jù)采集處于大數(shù)據(jù)生命周期中第一個環(huán)節(jié),它通過RFID射頻數(shù)據(jù)、傳感器數(shù)據(jù)、社交網(wǎng)絡(luò)數(shù)據(jù)、移動互聯(lián)網(wǎng)數(shù)據(jù)等方式獲得各種類型的結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化的海量數(shù)據(jù)。由于可能有成千上萬的用戶同時進行并發(fā)訪問和操作,因此,必須采用專門針對大數(shù)據(jù)的采集方法,其主要包括以下三種:

一圖看懂大數(shù)據(jù)關(guān)鍵技術(shù)(一)——數(shù)據(jù)獲取

一、系統(tǒng)日志采集

許多公司的業(yè)務(wù)平臺每天都會產(chǎn)生大量的日志數(shù)據(jù)。日志收集系統(tǒng)要做的事情就是收集業(yè)務(wù)日志數(shù)據(jù)供離線和在線的分析系統(tǒng)使用。

高可用性、高可靠性、可擴展性是日志收集系統(tǒng)所具有的基本特征。

目前常用的開源日志收集系統(tǒng)有Flume、Scribe等。Flume是Cloudera提供的一個高可用的、高可靠的、分布式的海量日志采集、聚合和傳輸系統(tǒng),目前是Apache的一個子項目。Scribe是Facebook開源日志收集系統(tǒng),它為日志的分布式收集、統(tǒng)一處理提供一個可擴展的、高容錯的解決方案。

一圖看懂大數(shù)據(jù)關(guān)鍵技術(shù)(一)——數(shù)據(jù)獲取

二、網(wǎng)絡(luò)數(shù)據(jù)采集

網(wǎng)絡(luò)數(shù)據(jù)采集是指通過網(wǎng)絡(luò)爬蟲或網(wǎng)站公開API等方式從網(wǎng)站上獲取數(shù)據(jù)信息的過程。這樣可將非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)從網(wǎng)頁中提取出來,并以結(jié)構(gòu)化的方式將其存儲為統(tǒng)一的本地數(shù)據(jù)文件。它支持圖片、音頻、視頻等文件的采集,且附件與正文可自動關(guān)聯(lián)。對于網(wǎng)絡(luò)流量的采集則可使用DPI或DFI等帶寬管理技術(shù)進行處理。

一圖看懂大數(shù)據(jù)關(guān)鍵技術(shù)(一)——數(shù)據(jù)獲取

三、數(shù)據(jù)庫采集

一些企業(yè)會使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫MySQL和Oracle等來存儲數(shù)據(jù)。除此之外,Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫也常用于數(shù)據(jù)的采集。這種方法通常在采集端部署大量數(shù)據(jù)庫,并對如何在這些數(shù)據(jù)庫之間進行負載均衡和分片進行深入的思考和設(shè)計。

近年來,各類大數(shù)據(jù)公司在互聯(lián)網(wǎng)時代下如雨后春筍般涌現(xiàn)。不論規(guī)模大小,是否能持續(xù)地獲取可供挖掘的數(shù)據(jù)是判斷某公司是否有前景和價值的標(biāo)準(zhǔn)之一。互聯(lián)網(wǎng)企業(yè)巨頭存在規(guī)模龐大的用戶,通過對用戶的電商交易、社交、搜索等數(shù)據(jù)進行充分挖掘后,擁有了穩(wěn)定且安全的數(shù)據(jù)資源。

一圖看懂大數(shù)據(jù)關(guān)鍵技術(shù)(一)——數(shù)據(jù)獲取

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多