|
大數(shù)據(jù)–big data
大數(shù)據(jù)–開啟全新商業(yè)模式
大數(shù)據(jù)(英語:Big data),或稱巨量數(shù)據(jù)、海量數(shù)據(jù)、大資料,指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過人工,在合理時(shí)間內(nèi)達(dá)到截取、管理、處理、并整理成為人類所能解讀的信息。網(wǎng)絡(luò)上每一筆搜索,網(wǎng)站上每一筆交易、每一筆輸入都是數(shù)據(jù),通過計(jì)算機(jī)做篩選、整理、分析,所得出的結(jié)果可不僅僅止得到簡(jiǎn)單、客觀的結(jié)論,更能用于幫助企業(yè)經(jīng)營(yíng)決策,搜集起來的數(shù)據(jù)還可以被規(guī)畫,引導(dǎo)開發(fā)更大的消費(fèi)力量。
大數(shù)據(jù)的常見特點(diǎn)是4V:Volume、Velocity、Variety、Veracity(數(shù)據(jù)量大、輸入和處理速度快、數(shù)據(jù)多樣性、真實(shí)性)。 定義:
“大數(shù)據(jù)”是由數(shù)量巨大、結(jié)構(gòu)復(fù)雜、類型眾多數(shù)據(jù)構(gòu)成的數(shù)據(jù)集合,是基于云計(jì)算的數(shù)據(jù)處理與應(yīng)用模式,通過數(shù)據(jù)的集成共享,交叉復(fù)用形成的智力資源和知識(shí)服務(wù)能力。 大數(shù)據(jù)由巨型數(shù)據(jù)集(英語:Data set)組成,這些數(shù)據(jù)集大小常超出人類在可接受時(shí)間下的收集(英語:data acquisition)、庋用(英語:data curation)、管理和處理能力,大數(shù)據(jù)必須借由計(jì)算機(jī)對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)、比對(duì)、解析方能得出客觀結(jié)果。美國(guó)在2012年就開始著手大數(shù)據(jù),奧巴馬更在同年投入2億美金在大數(shù)據(jù)的開發(fā)中,更強(qiáng)調(diào)大數(shù)據(jù)會(huì)是之后的未來石油。 數(shù)據(jù)挖掘(Data Mining)則是在探討用以解析大數(shù)據(jù)的方法。 數(shù)據(jù)的可視化 在一份2001年的研究與相關(guān)的演講中,當(dāng)時(shí)麥塔集團(tuán)(英語:META Group,現(xiàn)被高德納咨詢公司收購)的分析員道格·萊尼(Doug Laney)指出數(shù)據(jù)增長(zhǎng)有三個(gè)方向的挑戰(zhàn)和機(jī)遇:量(Volume,數(shù)據(jù)大?。⑺伲╒elocity,數(shù)據(jù)輸入輸出的速度)與多變(Variety,多樣性),合稱“3V”或“3Vs”。高德納與現(xiàn)在大部份大數(shù)據(jù)產(chǎn)業(yè)中的公司,都繼續(xù)使用這3個(gè)V去描述大數(shù)據(jù)。于2012年,高德納修改了對(duì)大數(shù)據(jù)的定義:“大數(shù)據(jù)是大量、高速、及/或多變的信息資產(chǎn),它需要新型的處理方式去促成更強(qiáng)的決策能力、洞察力與優(yōu)化處理?!绷硗?,有機(jī)構(gòu)在3V之外定義第4個(gè)V,真實(shí)性(Veracity)為第四特點(diǎn)(也有稱第四點(diǎn)為Veracity,價(jià)值密度低)。 看到數(shù)據(jù)之變化 代表性人物與分析方法
分析大數(shù)據(jù)本身,以及數(shù)據(jù)之間的交互關(guān)系,人類通常使用多媒體的方式呈現(xiàn)視覺效果,以下舉出代表性的人士、以及分析工具。
應(yīng)用示例
開源工具
以上二則常被誤認(rèn)為是大數(shù)據(jù)以及數(shù)據(jù)挖掘的應(yīng)用,乃因其一仍然以人工比對(duì)、費(fèi)時(shí)費(fèi)力,其二并非從一無法管理之龐大數(shù)據(jù)中解析所需信息。
商業(yè)大數(shù)據(jù)工具
IBM Netezza, Oracle Exadata, SAP Hana等等
Amazon Redshift, Teradata AsterData, EMC GreenPlum, HP Vertica等等
Fongrai, QlikView, Tableau, Yonghong Data Mart等等 via:探索發(fā)現(xiàn) |
|
|