2014-05-29 14:03:53 | 作者: phpcms | 查看:16 | 評論:0摘要:大數(shù)據(jù)從收集、處理、到最終落地為可商業(yè)化、可以惠及普羅大眾的解決方案、產品的閉環(huán)鏈條。所謂從群眾中來,到群眾中去。正是這個鏈條的關閉、完成了大數(shù)據(jù)的工業(yè)化。
![]() 之所以大數(shù)據(jù)概念能夠在近3年突然引爆,恰恰就是因為現(xiàn)階段處理和收集大數(shù)據(jù)的能力發(fā)生了質變,使得人類社會走進了大數(shù)據(jù)應用普及的時代:
1、大數(shù)據(jù)的收集
兩個技術使得大數(shù)據(jù)的收集開始變得容易:
各種傳感器的廉價化和部署覆蓋率的大大提高。比如我們最熟悉的就是遍布身邊的攝像頭,不到10年的時間,城市里的任何一個角落放眼望去就全部是攝像頭了。
互聯(lián)網技術的發(fā)展。其實電腦也是一種傳感器,只不過其記錄的數(shù)據(jù)格式更加不規(guī)范和多樣化。隨著互聯(lián)網技術的大發(fā)展,能夠接入互聯(lián)網的終端越來越便宜、在人群中覆蓋率不斷提高,以致于我們擁有了一個可以覆蓋大部分人口的傳感器網絡。比如我所在的淘寶網,每天有億級別的用戶訪問、購物。在傳統(tǒng)的工業(yè)時代,我們永遠無法知道一個人在超市做了什么、也很難分析每個人在超市買了什么東西(盡管你有收銀數(shù)據(jù))。而在互聯(lián)網這個每個人都帶著傳感器的時代、一切行為都可能被記錄、分析、用于優(yōu)化你未來的體驗(當然也可能被壞人用于作惡,就好比火藥可以用于開山修壩也可用于殺人作惡,技術本身是與道德無關的)。
2、大數(shù)據(jù)的處理
廉價的并行計算解決方案,如mapreduce框架、MPI框架、GPU計算。新的高性能并行計算方法層出不窮。以往在實驗室和國家級項目中才能使用的海量數(shù)據(jù)存儲、計算能力如今可以被以廉價、可擴展、易維護、可租賃(云計算)得方式獲得。
像@李搏揚提到的巨型粒子對撞機、實際代表的是大數(shù)據(jù)的實驗室形態(tài),那個時代我們?yōu)榱俗鲆粋€大數(shù)據(jù)分析要首先搭建一個海量傳感器集群、然后需要非常懂計算機的人利用很昂貴的計算機集群寫一系列很少有人能看懂的(所以幾乎沒有復用性)代碼來進行分析。而這樣的分析和實驗,只是為了一個或者一系列比較局限的目的和用途。(當然我不是對探索希格斯粒子表示任何不敬,這是一個偉大的事業(yè))而大數(shù)據(jù)的工業(yè)化時代,意味著模塊化、流水線、高復用性。
傳感器集群就在那里,大量的用戶日志可以被淘寶、百度、騰訊、豆瓣、知乎、任何一個稍微投入幾百萬(或者等價的資源)的公司所獲得、處理、分析。
數(shù)據(jù)庫有大量現(xiàn)成的實現(xiàn)、框架;封裝好的數(shù)據(jù)可以被不太難于學習的計算機腳本語言和封裝好的分析工具進行分析(比如SAS、R、HiveSQL、Hadoop等等)。而又有同時熟悉業(yè)務和數(shù)據(jù)分析方法的分析師、產品經理、開發(fā)把他們很快應用到業(yè)務、項目的開發(fā)中去。
這樣就形成了一個大數(shù)據(jù)從收集、處理、到最終落地為可商業(yè)化、可以惠及普羅大眾的解決方案、產品的閉環(huán)鏈條。所謂從群眾中來,到群眾中去。正是這個鏈條的關閉、完成了大數(shù)據(jù)的工業(yè)化。 |
|
|