小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

數(shù)據(jù)分析工具怎么選?10大諫言!

 kelvin_huang 2019-04-23

數(shù)據(jù)分析有三大問:

  • 如何入門數(shù)據(jù)分析?
  • 數(shù)據(jù)分析有哪些工具?
  • 怎么做數(shù)據(jù)分析?

關(guān)于第一問,想必讀完我公眾號《10周入門系列文章》的同學(xué),應(yīng)該有大致的認(rèn)識。

今天開始講第二大問題——數(shù)據(jù)分析工具!

對于數(shù)據(jù)分析,我一直強(qiáng)調(diào)核心是業(yè)務(wù),通過業(yè)務(wù)的分析邏輯影射到數(shù)據(jù)分析的處理邏輯,而數(shù)據(jù)分析工具則是幫助我們實現(xiàn)結(jié)果的手段。

但是,你說工具不重要吧,他又很重要,就像什么樣的路選擇什么樣的交通工具,合適的工具能幫我們更快的達(dá)到終點。對應(yīng)數(shù)據(jù)分析的不同環(huán)節(jié),也要選擇不同的工具,甚至選擇更容易上手。

今天這篇文章,就是來掃盲工具的。

PS:估計網(wǎng)上沒有比這個更全面的了

一、從工具屬性和分析師需求來劃分

在企業(yè)中,數(shù)據(jù)分析師往往分為業(yè)務(wù)和技術(shù)兩類,兩者能力和工作內(nèi)容有較大區(qū)別,對于工具的要求也各有側(cè)重。

業(yè)務(wù) or 技術(shù)

業(yè)務(wù)類分析師,往往在營運部,市場部,銷售部等,根據(jù)服務(wù)的業(yè)務(wù)部門的不同,可能叫數(shù)據(jù)運營,經(jīng)營分析,會員分析,商業(yè)分析師等名字。因為各個業(yè)務(wù)線具體考慮的問題不同,分析思路與體系均有不同,所以會有這種區(qū)別。日常的工作更多是整理業(yè)務(wù)報表,針對特定業(yè)務(wù)做專題分析,圍繞業(yè)務(wù)增長做需要用到數(shù)據(jù)的測算、規(guī)劃、方案等。

技術(shù)類分析師,往往在IT部、數(shù)據(jù)中心。根據(jù)從事的工作環(huán)節(jié)不同,被分成數(shù)據(jù)庫工程師,ETL工程師,爬蟲工程師,算法工程師等角色。在中小企業(yè),往往一個技術(shù)小哥通吃這些流程。在大企業(yè),一個標(biāo)準(zhǔn)的數(shù)據(jù)中心,一般都有數(shù)據(jù)倉庫、專題分析、建模分析等組來完成數(shù)據(jù)開發(fā)工作,再大的公司,還有專門負(fù)責(zé)數(shù)據(jù)治理的小組。之所以有這個區(qū)分,是因為生產(chǎn)數(shù)據(jù),需要一個多層次的復(fù)雜的數(shù)據(jù)系統(tǒng)。一個數(shù)據(jù)系統(tǒng),需要數(shù)據(jù)采集、數(shù)據(jù)集成、數(shù)據(jù)庫管理、數(shù)據(jù)算法開發(fā)、報表設(shè)計幾個環(huán)節(jié)組合。這樣才能把分散在各處的一點一滴的數(shù)據(jù)集中起來,計算成常用的指標(biāo),展示成各種炫酷的圖表。這里每一個環(huán)節(jié)都需要對應(yīng)的技術(shù)支持和人員工作,因此有了不同的崗位。

PS:大家在找數(shù)據(jù)分析崗時,一定要區(qū)分是技術(shù)還是業(yè)務(wù),和自己的職業(yè)傾向是否匹配。

分析師有技術(shù)和業(yè)務(wù)之分,那對應(yīng)工具也有這樣的屬性側(cè)重。

分析類工具

對于初級數(shù)據(jù)分析師,玩轉(zhuǎn)Excel是必須的,數(shù)據(jù)透視表和公式使用必須熟練,VBA是加分。另外,還要學(xué)會一個統(tǒng)計分析工具,SPSS作為入門是比較好的。

對于高級數(shù)據(jù)分析師,使用分析工具是核心能力,VBA基本必備,SPSS/SAS/R至少要熟練使用其中之一,其他分析工具(如Matlab)視情況而定。

對于數(shù)據(jù)挖掘工程師……嗯,R和Python必備,要靠寫代碼來解決。

代碼類工具

對于初級數(shù)據(jù)分析師,會寫SQL查詢,有需要的話寫寫Hadoop和Hive查詢,基本就OK了。

對于高級數(shù)據(jù)分析師,除了SQL以外,學(xué)習(xí)Python是很有必要的,用來獲取和處理數(shù)據(jù)都是事半功倍。當(dāng)然其他編程語言也是可以的。

對于數(shù)據(jù)挖掘工程師,Hadoop得熟悉,Python/Java/C++至少得熟悉一門,Shell得會用……總之編程語言絕對是數(shù)據(jù)挖掘工程師的最核心能力。

一圖說明問題:

數(shù)據(jù)分析工具怎么選?10大諫言!

二、從企業(yè)數(shù)據(jù)應(yīng)用架構(gòu)來劃分

工具的使用還要看企業(yè)的需求和環(huán)境。為什么小企業(yè)招數(shù)據(jù)分析師其實就是Excel做報表,大企業(yè)找數(shù)據(jù)分析是卻是把玩高大上的Python、R?這就要看企業(yè)的數(shù)據(jù)架構(gòu)。

站在IT的角度,實際應(yīng)用中可以把數(shù)據(jù)工具分為兩個維度:

第一維度:數(shù)據(jù)存儲層——數(shù)據(jù)報表層——數(shù)據(jù)分析層——數(shù)據(jù)展現(xiàn)層

第二維度:用戶級——部門級——企業(yè)級——BI級

1、數(shù)據(jù)存儲層

數(shù)據(jù)存儲設(shè)計到數(shù)據(jù)庫的概念和數(shù)據(jù)庫語言,這方面不一定要深鉆研,畢竟有專業(yè)的DBA。但至少要理解數(shù)據(jù)的存儲方式,數(shù)據(jù)的基本結(jié)構(gòu)和數(shù)據(jù)類型。SQL查詢語言必不可少,精通最好??蓮某S玫膕elece查詢,update修改,delete刪除,insert插入的基本結(jié)構(gòu)和讀取入手。

Access這是最基本的個人數(shù)據(jù)庫,經(jīng)常用于個人或部分基本的數(shù)據(jù)存儲;MySQL數(shù)據(jù)庫,這個對于部門級或者互聯(lián)網(wǎng)的數(shù)據(jù)庫應(yīng)用是必要的,這個時候關(guān)鍵掌握數(shù)據(jù)庫的庫結(jié)構(gòu)和SQL語言的數(shù)據(jù)查詢能力。SQL Server2005或更高版本,對中小企業(yè),一些大型企業(yè)也可以采用SQL Server數(shù)據(jù)庫,其實這個時候本身除了數(shù)據(jù)存儲,也包括了數(shù)據(jù)報表和數(shù)據(jù)分析了。

DB2,Oracle數(shù)據(jù)庫都是大型數(shù)據(jù)庫,主要是企業(yè)級,特別是大型企業(yè)或者對數(shù)據(jù)海量存儲需求的就是必須的了,一般大型數(shù)據(jù)庫公司都提供非常好的數(shù)據(jù)整合應(yīng)用平臺。

BI級別,實際上這個不是數(shù)據(jù)庫,而是建立在前面數(shù)據(jù)庫基礎(chǔ)上的,企業(yè)級應(yīng)用的數(shù)據(jù)倉庫。Data Warehouse,建立在DW機(jī)上的數(shù)據(jù)存儲基本上都是商業(yè)智能平臺,整合了各種數(shù)據(jù)分析,報表、分析和展現(xiàn)。

2、報表/BI層

企業(yè)存儲了數(shù)據(jù)需要讀取,需要展現(xiàn),報表工具則是最普遍應(yīng)用的工具,尤其是在國內(nèi)。過去傳統(tǒng)報表大多解決的是展現(xiàn)問題,如今衍生了一些分析型報表工具,也會和其他應(yīng)用交叉,做數(shù)據(jù)分析報表,通過接口開放功能、填報、決策報表功能,能夠做到打通數(shù)據(jù)的進(jìn)出,涵蓋了早期商業(yè)智能的功能。

像Tableau、PowerBI、FineBI、Qlikview這類BI(商業(yè)智能)工具,涵蓋了報表、數(shù)據(jù)分析、可視化等多層。底層還可于數(shù)據(jù)倉庫銜接,構(gòu)建OLAP分析模型。

3、數(shù)據(jù)分析層

這個層其實有很多分析工具,當(dāng)然我們最常用的就是Excel。

Excel軟件,首先版本越高越好用這是肯定的。當(dāng)然對excel來講很多人只是掌握了5%Excel功能,Excel功能非常強(qiáng)大,甚至可以完成所有的統(tǒng)計分析工作!但是我也常說,有能力把Excel玩成統(tǒng)計工具不如專門學(xué)會統(tǒng)計軟件。

SPSS軟件:當(dāng)前版本是18,名字也改成了PASW Statistics;我從3.0開始Dos環(huán)境下編程分析,到現(xiàn)在版本的變遷也可以看出SPSS社會科學(xué)統(tǒng)計軟件包的變化,從重視醫(yī)學(xué)、化學(xué)等開始越來越重視商業(yè)分析,現(xiàn)在已經(jīng)成為了預(yù)測分析軟件。

SAS軟件:SAS相對SPSS其實功能更強(qiáng)大,SAS是平臺化的,EM挖掘模塊平臺整合,相對來講,SAS比較難學(xué)些,但如果掌握了SAS會更有價值,比如離散選擇模型,抽樣問題,正交實驗設(shè)計等還是SAS比較好用,另外,SAS的學(xué)習(xí)材料比較多。

其他還有Python和R,后面還會詳細(xì)講。

4、表現(xiàn)層

表現(xiàn)層也叫數(shù)據(jù)可視化,以上每種工具都幾乎提供了一點展現(xiàn)功能。但要說企業(yè)級最常應(yīng)用的還是BI,做分析做報告。

數(shù)據(jù)分析工具怎么選?10大諫言!

PS:需要說明的是,這樣的分類并不是區(qū)分軟件,只是想說明軟件的應(yīng)用。有時候我們把數(shù)據(jù)庫就用來進(jìn)行報表分析,有時候報表就是分析,有時候分析就是展現(xiàn);當(dāng)然有時候展現(xiàn)就是分析,分析也是報表,報表就是數(shù)據(jù)存儲了!

三、4大工具盤點

以上啰嗦了那么多,具體講講Excel、R、Python、BI吧。

>>>>Excel

適用場景:

1.一般的辦公需求下的數(shù)據(jù)處理工作;

2.中小公司數(shù)據(jù)管理,存儲(很多國有企業(yè)都用);

3.學(xué)校學(xué)生,老師做簡單的統(tǒng)計分析(如方差分析,回歸分析);

4.結(jié)合Word,PowerPoint制作數(shù)據(jù)分析報告;

5.數(shù)據(jù)分析師的主力分析工具(部分?jǐn)?shù)據(jù)分析師的輔助工具);

6.部分商業(yè)雜志,報刊圖表制作(數(shù)據(jù)可視化);

優(yōu)點:

1.容易上手;

2.學(xué)習(xí)資源十分豐富;

3.可以用Excel做很多事情,建模,可視化,報表,動態(tài)圖表;

4.幫助你在進(jìn)一步學(xué)習(xí)其它工具之前(比如Python,R),理解很多操作的含義;

缺點:

1.深入學(xué)習(xí)需要掌握VBA,難度還是很高;

2.當(dāng)數(shù)據(jù)量較大時,會出現(xiàn)卡頓的情況;

3.到Excel2016版,在不借助其它工具的情況下,Excel數(shù)據(jù)文件本身能夠容納的數(shù)據(jù)僅有108萬行,不適合處理大規(guī)模數(shù)據(jù)集;

4.內(nèi)置統(tǒng)計分析種類太簡單,實用價值不大;

5.不像Python,R語言等開源軟件,正版Excel需要付費,比如我用office365.每年需要支付300多塊錢(不過也值了)

>>>>R

使用場景:

通過擴(kuò)展的第三方R包,R能夠做的事情幾乎涵蓋了任何需要數(shù)據(jù)的領(lǐng)域。就我們一般的數(shù)據(jù)分析或者學(xué)術(shù)數(shù)據(jù)分析工作而言,R能做的事情包括但不限于如下方面:

1.數(shù)據(jù)清洗與整理;

2.網(wǎng)絡(luò)爬蟲;

3.數(shù)據(jù)可視化;

4.統(tǒng)計假設(shè)檢驗(t檢驗,方差分析,卡方檢驗等);

5.統(tǒng)計建模(線性回歸,邏輯回歸,樹模型,神經(jīng)網(wǎng)絡(luò)等);

6.數(shù)據(jù)分析報告輸出(Rmarkdown);

R容易學(xué)嗎?

從我個人來看,想要入門R是非常簡單的,10天的集中學(xué)習(xí),對于掌握R的基本使用,基本數(shù)據(jù)結(jié)構(gòu),數(shù)據(jù)導(dǎo)入導(dǎo)出,簡單的數(shù)據(jù)可視化,是完全沒有問題的。有了這些基礎(chǔ),在遇到實際的問題時,去找到需要使用的R包,通過閱讀R的幫助文檔,以及網(wǎng)絡(luò)上的資料,就能夠相對快速的解決具體問題了。

>>>>Python

R語言和Python同為需要編程的數(shù)據(jù)分析工具,所不同的是,R專門用于數(shù)據(jù)分析領(lǐng)域,而科學(xué)計算與數(shù)據(jù)分析只是Python的一個應(yīng)用分支,Python還可以用來開發(fā)web頁面,開發(fā)游戲,做系統(tǒng)的后端開發(fā),以及運維工作。

現(xiàn)在的一個趨勢是,Python在數(shù)據(jù)分析領(lǐng)域正在追趕R,在某些方面已經(jīng)超越了R,比如機(jī)器學(xué)習(xí),文本挖掘等偏編程的領(lǐng)域,但R語言在偏統(tǒng)計的領(lǐng)域仍然保持優(yōu)勢。Python在數(shù)據(jù)分析方面的發(fā)展,很多地方借鑒了R語言中的一些特色。所以,如果你現(xiàn)在還是一片空白,還沒開始學(xué)習(xí),要做決定學(xué)習(xí)R還是Python的話,建議從Python入手。

Python和R都比較容易學(xué)習(xí),但是如果你同時學(xué)習(xí)兩者,由于在很多地方它們非常相似,就會很容易混淆,所以建議不要同時學(xué)習(xí)它們。等其中一個掌握到一定的程度,再著手學(xué)習(xí)另外一個。

Python能做什么?

1.網(wǎng)絡(luò)數(shù)據(jù)爬取,使用Python能夠很容易的編寫強(qiáng)大的爬蟲,抓取網(wǎng)絡(luò)數(shù)據(jù);

2.數(shù)據(jù)清洗;

3.數(shù)據(jù)建模;

4.根據(jù)業(yè)務(wù)場景和實際問題構(gòu)造數(shù)據(jù)分析算法;

5.數(shù)據(jù)可視化(個人感覺不如R好用);

6.機(jī)器學(xué)習(xí),文本挖掘等高級數(shù)據(jù)挖掘與分析領(lǐng)域;

應(yīng)該學(xué)習(xí)R還是Python?

如果因為時間有限,只能選擇其中的一種來學(xué)習(xí)的話,我建議使用Python。但我仍然建議兩者都了解一下,畢竟每個人都不一樣??赡苣阍谀承┑胤铰犝f,Python在工作中更加常用,但是工作中,解決問題才是最重要的,如果你能夠用R高效的解決問題,那就用R。實際上,Python很多數(shù)據(jù)分析方面的特色,是模仿R來實現(xiàn)的,比如pandas的數(shù)據(jù)框,正在開發(fā)中的ggplot可視化包模仿的是R語言中非常著名的ggplot2.

>>>>BI

多數(shù)分析師日常的工作就是做報表,而數(shù)據(jù)分析師更多用到的報表是BI。

BI全稱商業(yè)智能,在傳統(tǒng)企業(yè)中,它是一套完整的解決方案。將企業(yè)的數(shù)據(jù)有效整合,快速制作出報表以作出決策。涉及數(shù)據(jù)倉庫,ETL,OLAP,權(quán)限控制等模塊。

BI工具主要有兩種用途。一種是利用BI制作自動化報表,數(shù)據(jù)類工作每天都會接觸大量數(shù)據(jù),并且需要整理匯總,這是一塊很大的工作量。這部分工作可以交給BI自動化完成,從數(shù)據(jù)規(guī)整、建模到下載。

另外一種是使用其可視化功能進(jìn)行分析,BI的優(yōu)點在于它提供比Excel更豐富的可視化功能,操作簡單上手,而且美觀,如果大家每天作圖需要兩小時,BI會縮短一半時間。

BI作為企業(yè)級應(yīng)用,可以通過它連接公司數(shù)據(jù)庫,實現(xiàn)企業(yè)級報表的制作。這塊涉及數(shù)據(jù)架構(gòu),就不深入講了。

關(guān)于BI,像Tableau、PowerBI、FineBI、Qlikview這類BI(商業(yè)智能)工具,涵蓋了報表、數(shù)據(jù)分析、可視化等多層。底層還可于數(shù)據(jù)倉庫銜接,構(gòu)建OLAP分析模型。

個人覺得,要想快速上手?jǐn)?shù)據(jù)分析,前期數(shù)據(jù)思維的養(yǎng)成,BI工具無疑是最容易上手的。下一篇文章,就要教大家動手搭建BI分析平臺,并學(xué)會操作一款BI工具!

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多