|
大數(shù)據(jù)概念: 大數(shù)據(jù)究竟是什么?很多人可能仍然有些混淆,本文讓我們來看看大數(shù)據(jù)的一些主要的定義。首先要注意的是,行業(yè)內(nèi)的所有人都普遍認同,大數(shù)據(jù)不只是更多的數(shù)據(jù)。 (1)最初的大數(shù)據(jù) 大數(shù)據(jù)的特征可以用很多詞來描述。2001年Doug Laney最先提出“3V”模型, 包括數(shù)量 (Volume)、速度(Velocity)和種類(Variety)。在那以后,業(yè)界很多人把3V擴展到了11V,還包括有效性、真實性、價值和可見性等。 (2)大數(shù)據(jù):技術(shù) 為什么12年前的老術(shù)語突然被放在聚光燈下?這不僅是因為我們現(xiàn)在擁有比十年前更多的數(shù)量、速度和種類。而是因為大數(shù)據(jù)受到新技術(shù)的推動,特別是快速發(fā)展的開源技術(shù),例如Hadoop和其他存儲和處理數(shù)據(jù)的NoSQL方式。 這些新技術(shù)的用戶需要一個術(shù)語來將它們區(qū)別于以前的技術(shù),于是大數(shù)據(jù)成了他們的最佳選擇。如果你去參加大數(shù)據(jù)會議,你肯定會發(fā)現(xiàn),涉及關(guān)系型數(shù)據(jù)庫的會議會很少,無論他們鼓吹多少個V。 (3)大數(shù)據(jù)與數(shù)據(jù)的區(qū)別 大數(shù)據(jù)技術(shù)的問題是,大數(shù)據(jù)有些含糊不清,以至于行業(yè)中的每個供應(yīng)商都可以跳進來聲稱自己的技術(shù)是大數(shù)據(jù)技術(shù)。以下是兩種很好的方法來幫助企業(yè)理解現(xiàn)在的大數(shù)據(jù)與過去單純的大數(shù)據(jù)的區(qū)別。 交易、交互和觀察:這是由Hortonworks公司負責企業(yè)戰(zhàn)略的副總裁Shaun Connolly提出的。交易是我們過去收集、存儲和分析的主要數(shù)據(jù)。交互是人們點擊網(wǎng)頁等操作得到的數(shù)據(jù)。觀察是自動收集的數(shù)據(jù)。 (4)大數(shù)據(jù):信號 SAP公司的Steve Lucas認為,應(yīng)該根據(jù)意圖和時機來劃分這個世界,而不是根據(jù)數(shù)據(jù)的類型。“舊世界”主要是關(guān)于交易,當這些交易被記錄時,我們已經(jīng)無法對它們采取任何行動:企業(yè)都在不斷管理“失效的數(shù)據(jù)”。而在“新世界”,企業(yè)可以使用新的“信號”數(shù)據(jù)來預(yù)測將會發(fā)生什么,并進行干預(yù)來改善情況。 相關(guān)的案例有,追蹤社交媒體上人們對品牌的態(tài)度,以及預(yù)測性維護(用復(fù)雜的算法幫助你決定何時需要更換零部件)。 (5)大數(shù)據(jù):機會 這是來自451 Research的Matt Aslett,他將大數(shù)據(jù)定位為“之前因為技術(shù)限制而被忽略的數(shù)據(jù)”。(雖然在技術(shù)上,Matt使用了“暗數(shù)據(jù)”,而不是大數(shù)據(jù),但已經(jīng)非常接近)。這是筆者最喜歡的定義,因為它符合大部分文章和討論中的說法。 (6)大數(shù)據(jù):隱喻 Rick Smolan在其書中寫道,大數(shù)據(jù)是“幫助這個星球生成神經(jīng)系統(tǒng)的過程,其中我們?nèi)祟愔皇橇硪环N類型的傳感器”。很深奧吧? (7)大數(shù)據(jù):新瓶裝舊酒 很多項目基本上是使用以前的技術(shù),這些過去被稱為BI或者分析的技術(shù)突然跳入大數(shù)據(jù)的行列中。 底線:盡管大家對大數(shù)據(jù)的定義有很多爭議,但所有人都同意這個事實:大數(shù)據(jù)是一個大事件,在未來幾年將帶來巨大的機遇。 如何玩轉(zhuǎn)大數(shù)據(jù): 隨著科技的不斷進步,日常工作、生活中的數(shù)據(jù)量也是節(jié)節(jié)攀升,我們迎來了大數(shù)據(jù)時代。 以大數(shù)據(jù)為代表的數(shù)據(jù)密集型科學將成為新一次技術(shù)變革的基石。隨著數(shù)據(jù)的進一步集中和數(shù)據(jù)量的增大,對海量數(shù)據(jù)進行安全防護變得更加困難,數(shù)據(jù)的分布式處理也加大了數(shù)據(jù)泄露的風險。 物聯(lián)網(wǎng)、云計算、移動互聯(lián)網(wǎng)等新技術(shù)的發(fā)展,使得手機、平板電腦、PC及遍布地球各個角落的傳感器,成為數(shù)據(jù)來源和承載方式,BYOD也隨之誕生。 (1)何為大數(shù)據(jù) 據(jù)有關(guān)分析公司預(yù)測,到2013年,互聯(lián)網(wǎng)承載的數(shù)據(jù)量將會達到每年667EB,這是什么概念?1EB=230GB,數(shù)據(jù)量之大顯而易見,這些數(shù)據(jù)絕大多數(shù)是“非結(jié)構(gòu)化數(shù)據(jù)”,通常不能為傳統(tǒng)的數(shù)據(jù)庫所用,但是大數(shù)據(jù)技術(shù)革新將會給我們的生活帶來巨大變化。 (2)四大特點組成大數(shù)據(jù) 數(shù)據(jù)量巨大:人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量是200PB(1PB=210TB),而歷史上全人類說過的所有的話的數(shù)據(jù)量大約5EB(1EB=210PB)。當前,典型個人計算機硬盤的容量為TB量級,而一些大企業(yè)的數(shù)據(jù)量已經(jīng)接近EB量級,如此龐大的數(shù)據(jù)量群,分析它們的難度可想而知,因此需要大量的大數(shù)據(jù)解決方案。 價值密度低:這也是當今大數(shù)據(jù)背景下需要解決的一個難題,價值密度的高低與數(shù)據(jù)總量的大小成反比,如果看一小時視頻,在連續(xù)不間斷的監(jiān)控中有用數(shù)據(jù)的時間可能會很短,甚至是幾秒鐘,那么強大的數(shù)據(jù)計算機的算法就需要非常迅速地完成對數(shù)據(jù)的“提純”。 數(shù)據(jù)類型多:這點不用多解釋,數(shù)據(jù)類型的多樣性也讓數(shù)據(jù)被分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。相對于以往便于存儲的以文本為主的結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)越來越多,包括網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等。 處理速度快:據(jù)IDC研究機構(gòu)報告顯示,預(yù)計到2020年,全球數(shù)據(jù)使用量將達到35.2ZB(1ZB=210EB),分析這么大的數(shù)據(jù),就需要設(shè)備對數(shù)據(jù)的處理速度有很大的提升。 (3)大數(shù)據(jù)給企業(yè)謀福利 2012年3月,美國宣布投資2億美元啟動“大數(shù)據(jù)研究和發(fā)展計劃”,借以增強收集海量數(shù)據(jù)、分析萃取信息的能力。2012年瑞士達沃斯論壇上發(fā)布的《大數(shù)據(jù)大影響》報告稱,數(shù)據(jù)已成為一種新的經(jīng)濟資產(chǎn)類別,就像貨幣或黃金一樣,許多國家政府更是把大數(shù)據(jù)上升到戰(zhàn)略層面。 (4)全球大數(shù)據(jù)市場發(fā)展趨勢 對企業(yè)來講,在大數(shù)據(jù)背景下數(shù)據(jù)資產(chǎn)將會取代人才成為各個公司和行業(yè)的重要載體,可以有效地幫助企業(yè)完成業(yè)務(wù)的操作、流程的制定以及公司各項工作的運營和監(jiān)督,通過對數(shù)據(jù)的分析,幫助企業(yè)領(lǐng)導(dǎo)者進行各項決策。 大數(shù)據(jù)對企業(yè)的核心資產(chǎn)也進行了重塑,企業(yè)必須熟悉和用好海量的數(shù)據(jù),而互聯(lián)網(wǎng)行業(yè)已提早感受到了大數(shù)據(jù)帶來的深切變化。一些互聯(lián)網(wǎng)企業(yè)已經(jīng)完成了核心競爭力的重新定義。 (5)信息安全不容小視 大數(shù)據(jù)成為網(wǎng)絡(luò)攻擊的顯著目標,在網(wǎng)絡(luò)空間,大數(shù)據(jù)是更容易被“發(fā)現(xiàn)”的大目標。一方面,大數(shù)據(jù)意味著海量的數(shù)據(jù),也意味著更復(fù)雜、更敏感的數(shù)據(jù),這些數(shù)據(jù)會吸引更多的潛在攻擊者。另一方面,數(shù)據(jù)的大量匯集,使得黑客成功攻擊一次就能獲得更多數(shù)據(jù),無形中降低了黑客的進攻成本,增加了“收益率”。 如此龐大的數(shù)據(jù)中包含了很多個人信息,甚至是隱私信息,數(shù)據(jù)的集中存儲就勢必帶來大量數(shù)據(jù)丟失和破壞的風險,一些敏感數(shù)據(jù)的所有權(quán)和使用權(quán)并沒有明確界定,很多基于大數(shù)據(jù)的分析都未考慮到其中涉及的個體隱私問題。 許多企業(yè)對大數(shù)據(jù)的認知程度不同,因此致使企業(yè)在大數(shù)據(jù)管理和運營中會出現(xiàn)不妥之處,安全防護手段的更新升級速度無法跟上數(shù)據(jù)量非線性增長的步伐,就會暴露大數(shù)據(jù)安全防護的漏洞。 大數(shù)據(jù)技術(shù)很容易成為黑客的攻擊手段,在企業(yè)用數(shù)據(jù)挖掘和數(shù)據(jù)分析等大數(shù)據(jù)技術(shù)獲取商業(yè)價值的同時,黑客也在利用這些大數(shù)據(jù)技術(shù)向企業(yè)發(fā)起攻擊。黑客會最大限度地收集更多有用信息。 傳統(tǒng)的檢測是基于單個時間點進行的基于威脅特征的實時匹配檢測,而高級可持續(xù)攻擊是一個實施過程,無法被實時檢測。此外,大數(shù)據(jù)的價值低密度性,使得安全分析工具很難聚焦在價值點上,黑客可以將攻擊隱藏在大數(shù)據(jù)中。 (6)切忌一哄而上 中國工程院院士鄔賀銓曾建議,中國發(fā)展大數(shù)據(jù)需要盡快制定信息保護法與信息公開法,既要鼓勵面向群體而且服務(wù)于社會的數(shù)據(jù)挖掘,又要防止針對個體侵犯隱私的行為,既要提倡數(shù)據(jù)共享又要防止數(shù)據(jù)被濫用。 據(jù)了解,2010年中國新存儲的數(shù)據(jù)為250PB,僅為日本的60%,北美的7%。我國還并未重視對大數(shù)據(jù)的利用和存儲,一些數(shù)據(jù)在一定時間內(nèi)白白浪費了。一些部門和機構(gòu)擁有大量數(shù)據(jù),但以鄰為壑,寧愿自己不用也不愿提供與有關(guān)部門共享,導(dǎo)致信息不完整或重復(fù)投資。 (7)國內(nèi)大數(shù)據(jù)發(fā)展 鄔賀銓說,我國對大數(shù)據(jù)的信息安全保護也不夠重視。2012年中國的數(shù)據(jù)存儲量達到364EB,其中55%的數(shù)據(jù)需要一定程度的保護,然而目前只有不到一半的數(shù)據(jù)得到保護。 在制造行業(yè),企業(yè)通過對網(wǎng)上大數(shù)據(jù)分析了解客戶需求和掌握市場動向,并對大數(shù)據(jù)進行分析后,就可以有效實現(xiàn)對采購和合理庫存量的管理,大大減少因盲目進貨而導(dǎo)致銷售損失,大數(shù)據(jù)是一個應(yīng)用驅(qū)動性很強的服務(wù),其標準和產(chǎn)業(yè)格局尚未形成,這是我國跨越發(fā)展的機會,但切忌一哄而起。 |
|
|