| 要成為數(shù)據(jù)科學(xué)家,必須理解大數(shù)據(jù)的理念和方法論,并掌握數(shù)據(jù)分析和挖掘的技能,以從大數(shù)據(jù)中抽取價值。這些能力需要在實踐中鍛煉,還可以通過參加相關(guān)課程的培訓(xùn)獲得提升。 百度公司是一個典型的大數(shù)據(jù)公司,公司幾乎所有的業(yè)務(wù)都與大數(shù)據(jù)密切相關(guān),比如搜索引擎、廣告等。在百度公司大數(shù)據(jù)首席架構(gòu)師林仕鼎看來,大數(shù)據(jù)業(yè)務(wù)的發(fā)展需要多種人才,包括數(shù)據(jù)科學(xué)家、數(shù)據(jù)架構(gòu)師以及數(shù)據(jù)工程師等。 在這里,數(shù)據(jù)科學(xué)家是一種狹義上的定義,指的是那些具有數(shù)據(jù)分析能力,精通各類算法,直接處理數(shù)據(jù)的人員。經(jīng)數(shù)據(jù)科學(xué)家加工和分析后得到的信息可以作為業(yè)務(wù)處理流程的輸入數(shù)據(jù),用來驅(qū)動業(yè)務(wù)的發(fā)展。 數(shù)據(jù)架構(gòu)師則要精通業(yè)務(wù),了解業(yè)務(wù)的需求和業(yè)務(wù)系統(tǒng)的架構(gòu),這樣才可能把數(shù)據(jù)和業(yè)務(wù)進(jìn)行對接。 還有一類大數(shù)據(jù)人才是數(shù)據(jù)工程師,他們具有很強(qiáng)的編程能力特別是系統(tǒng)級編程能力。他們的工作是搭建數(shù)據(jù)存儲、管理以及處理的平臺,支撐數(shù)據(jù)科學(xué)家提出的數(shù)學(xué)模型或算法的運行。 大數(shù)據(jù)大不同 大數(shù)據(jù)一定是那些用傳統(tǒng)的數(shù)據(jù)處理技術(shù)和方法沒法處理、管理和使用的數(shù)據(jù)。大數(shù)據(jù)的“4V”特征簡而言之,就是需要對多源多樣的動態(tài)數(shù)據(jù)做實時的關(guān)聯(lián)分析和挖掘。這也決定了傳統(tǒng)的商業(yè)智能、數(shù)據(jù)庫技術(shù)等已無法發(fā)揮其作用。舉例來說,傳統(tǒng)數(shù)據(jù)庫面對的數(shù)據(jù)容量通常是TB級,而現(xiàn)在互聯(lián)網(wǎng)行業(yè)需要處理的數(shù)據(jù)一般都是PB級甚至是EB級。不僅如此,數(shù)據(jù)的來源正變得多樣化,而且不是靜態(tài)的,這些都給數(shù)據(jù)的處理帶來了新挑戰(zhàn)。大數(shù)據(jù)要求將這些不同來源、不同結(jié)構(gòu)的數(shù)據(jù)全部結(jié)合在一起進(jìn)行關(guān)聯(lián)分析,并從中提取所需的價值。因此,大數(shù)據(jù)需要全新的大數(shù)據(jù)處理系統(tǒng),也需要專業(yè)的大數(shù)據(jù)人才。 一個企業(yè)的大數(shù)據(jù)業(yè)務(wù)通常涉及系統(tǒng)、數(shù)據(jù)和業(yè)務(wù)三個層面的問題。 系統(tǒng)是一個提供數(shù)據(jù)管理和服務(wù)并支持模型和算法的基礎(chǔ)架構(gòu),數(shù)據(jù)工程師的主要工作就是負(fù)責(zé)搭建這樣一個運行平臺。 數(shù)據(jù)是指數(shù)據(jù)處理和分析,這是數(shù)據(jù)科學(xué)家的工作職責(zé)。 業(yè)務(wù)是指企業(yè)的業(yè)務(wù)需求、流程等,數(shù)據(jù)架構(gòu)師要熟悉本行業(yè)的業(yè)務(wù)需求,并且要知道如何讓大數(shù)據(jù)服務(wù)于業(yè)務(wù)。 “數(shù)據(jù)科學(xué)家必須了解數(shù)據(jù)意味著什么,并且能夠通過提供一定的算法或模型將數(shù)據(jù)的價值挖掘出來?!绷质硕ρa(bǔ)充說,“以前,企業(yè)通常是采購成熟的IT解決方案,比如OA、ERP或CRM系統(tǒng)等,企業(yè)的技術(shù)人員做一些二次開發(fā)然后管理和維護(hù)這些系統(tǒng)即可。但是現(xiàn)在,市場上沒有成熟的完全適合企業(yè)需求的大數(shù)據(jù)解決方案。因此,企業(yè)迫切需要像數(shù)據(jù)科學(xué)家、數(shù)據(jù)架構(gòu)師甚至數(shù)據(jù)工程師這樣的專業(yè)技術(shù)人才?!?/span> 數(shù)據(jù)科學(xué)家注重實踐 現(xiàn)在,社會上關(guān)于Hadoop技術(shù)培訓(xùn)的消息鋪天蓋地。掌握Hadoop技術(shù)的人才實際上屬于數(shù)據(jù)工程師這一類,但是僅僅掌握了Hadoop這一工具,距離實施大數(shù)據(jù)項目所應(yīng)具備的技能還有很大差距。 如果你想要學(xué)習(xí)大數(shù)據(jù),但對于海文及其大數(shù)據(jù)課程并不是很了解,可以在線咨詢客服,進(jìn)行實地參觀,與咨詢老師面對面交流,當(dāng)然還可以免費試聽,親身體驗海文大數(shù)據(jù)課程。 | 
|  |