小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

操作教程貼:從0開始,教你如何做數(shù)據(jù)分析#中階#第七篇

 昵稱535749 2013-11-23

零一 2:27 872 10

 HI~!最近過得好嗎?零一可是忙死了,呵呵。今天繼續(xù)跟大家分享。我的微信號是start_data。

上次跟大家說過數(shù)據(jù)分析的4個(gè)任務(wù),今天講第一個(gè)任務(wù),預(yù)測。

預(yù)測這個(gè)任務(wù)在很多場景可以應(yīng)用到。比如

預(yù)測某行業(yè)未來的市場走勢

預(yù)測買家會(huì)不會(huì)響應(yīng)我們的營銷主張

預(yù)測股票走勢/預(yù)測福利彩票開獎(jiǎng)號碼

預(yù)測我們自己的體重/身高

大家可以發(fā)現(xiàn),無論是商業(yè)還是生活都可以應(yīng)用到,作為一名【業(yè)務(wù)】數(shù)據(jù)分析師而言(以下簡稱數(shù)據(jù)分析師,但特指業(yè)務(wù)數(shù)據(jù)分析師),當(dāng)然不會(huì)什么事情都去做分析,那么,是什么因素決定了我們要去做分析呢?


答案是【商業(yè)價(jià)值】。 

作為一名數(shù)據(jù)分析師應(yīng)該以【商業(yè)價(jià)值】作為導(dǎo)向,我們的分析產(chǎn)生了商業(yè)價(jià)值,那么我們作為一名數(shù)據(jù)分析師才能有相應(yīng)的價(jià)值。數(shù)據(jù)分析師的身價(jià)也因此而來。 

數(shù)據(jù)分析師必不可少的4要素是 

【思維】+【業(yè)務(wù)】+【工具】+【數(shù)據(jù)】

【思維】指分析思維,大家可以發(fā)現(xiàn)我正在一點(diǎn)一滴地傳播給大家。

【業(yè)務(wù)】指業(yè)務(wù)能力,只有深入了解企業(yè)或者我們自己的業(yè)務(wù)需求,才能【點(diǎn)數(shù)成金】,如果今天我不小心請了一個(gè)完全不懂電商的數(shù)據(jù)分析師來幫我分析,那結(jié)果是堪憂的。因?yàn)樗赡懿恢朗裁词荱V,什么是PV,什么是ROI,什么是直通車/鉆展。

如果把數(shù)據(jù)分析師比喻成劍客,那【思維】和【業(yè)務(wù)】就是這個(gè)劍客的任督二脈了。

【工具】古人有云:工欲善其事,必先利其器,有工具才能高效丶精準(zhǔn)地做出分析?!竟ぞ摺烤拖駝褪种械膶殑σ粯?。

【數(shù)據(jù)】數(shù)據(jù)分析師手里沒有數(shù)據(jù),也就不存在數(shù)據(jù)分析師了?!緮?shù)據(jù)】就像劍客身體中的血液,連血液都木有,就活不下去了。

在Excel中,結(jié)合數(shù)據(jù)挖掘套件,可以非常簡單地完成【預(yù)測】這個(gè)任務(wù)。 

雖然鼠標(biāo)點(diǎn)幾下就可以完成【預(yù)測】,但是做【預(yù)測】的方法有好幾種,分別是在不同的情況下應(yīng)用的。如果用錯(cuò)了方法,可能程序就會(huì)報(bào)錯(cuò)。哪怕不報(bào)錯(cuò),出來的結(jié)果也可能是差強(qiáng)人意的。 

具體用哪種方法,我們根據(jù)的是什么呢? 

答案是【數(shù)據(jù)類型】 

數(shù)據(jù)分成3種類型,當(dāng)然你們?nèi)タ匆恍?shù)據(jù)分析丶數(shù)據(jù)挖掘的書籍里面的分法可能會(huì)跟我的不一樣。 

【數(shù)據(jù)類型】分為【定量】,【定性】和【時(shí)間序列】。 

【定量】就是我們的數(shù)字,1,2,3,4,5,6,7,8,9,0組成的數(shù)值,當(dāng)數(shù)據(jù)是這種數(shù)值的時(shí)候,我們就可以把他歸類為【定量】數(shù)據(jù)類型。 

【定性】一般是字符型的數(shù)據(jù),比如,中文丶英文就是一種字符型的數(shù)據(jù)。 

【時(shí)間序列】跟定量非常接近,但不同的就是時(shí)間序列是時(shí)間格式的數(shù)據(jù),那么我們看下電腦系統(tǒng)的時(shí)間,就是時(shí)間格式的數(shù)據(jù),稱之為【時(shí)間序列】。

對應(yīng)的分析方法(不局限以下方法) 

【定量】-【線性回歸】

【定性】-【邏輯回歸】

【時(shí)間序列】-【時(shí)間序列預(yù)測】 

怎么選擇就看我們要預(yù)測的維度,是根據(jù)哪種數(shù)據(jù)的變化來預(yù)測的。 

比如,我們已知時(shí)間和銷量,要預(yù)測未來的銷量。只要維度里面有一個(gè)維度是時(shí)間,就應(yīng)該選擇【時(shí)間序列預(yù)測】。 

如果已知高質(zhì)寶貝數(shù)和成交量,要根據(jù)高質(zhì)寶貝數(shù)啦預(yù)測成交量,就是通過【定量】預(yù)測【定量】,因而選擇【線性回歸】。 

如果已知買家的地域,下單金額和購買件數(shù),來預(yù)測買家會(huì)不會(huì)響應(yīng)我的促銷活動(dòng),我們預(yù)測的就是買家是否會(huì)重復(fù)購買,那就是會(huì)或不會(huì)的問題,是通過【定量】預(yù)測【定性】,類似這種預(yù)測結(jié)果是A或B或C……這種分類情況,就應(yīng)該選擇【邏輯回歸】

下面3個(gè)例子來幫助大家掌握【預(yù)測】 

1丶已知時(shí)間和成交量,要預(yù)測未來幾個(gè)月的成交量 

源數(shù)據(jù)如下 

 

源數(shù)據(jù)挺多,僅截圖一部分。 

 

 

源數(shù)據(jù)可以是表也可以是我們選擇的區(qū)域也是可以外部數(shù)據(jù)源,這里我們直接在表內(nèi)選擇數(shù)據(jù)區(qū)域。 

 

時(shí)間戳?xí)詣?dòng)識(shí)別,前提是數(shù)據(jù)必須是日期格式的。(excel里面時(shí)間序列是日期格式) 

   

查看模型結(jié)果 

 

可以指定要預(yù)測多少個(gè)單位時(shí)間。 

 

可以看到使用的是ARIMA算法,其實(shí)算法我們還可以在建立模型的時(shí)候進(jìn)行設(shè)置,這里不解釋太多。 

 

模型建立后,可以用查詢工具 

 

 

 

 

 

結(jié)果如下圖所示,給出時(shí)間戳丶預(yù)測的成交量和標(biāo)準(zhǔn)偏差。 

 

2丶手上有高質(zhì)寶貝數(shù)和成交量兩個(gè)數(shù)據(jù),假如現(xiàn)在已知未來幾個(gè)月的高質(zhì)寶貝數(shù),通過這個(gè)來預(yù)測成交量。 

數(shù)據(jù)源如下 

 

 

 

 

 

參數(shù)中,我們可以選擇算法還可以配置參數(shù),這里我們選擇線性回歸即可,參數(shù)不解釋。 

 

定性集(國內(nèi)翻譯叫訓(xùn)練集)和測試集是數(shù)據(jù)挖掘中非常重要的一個(gè)概念。也是別于統(tǒng)計(jì)學(xué)的一個(gè)思想。統(tǒng)計(jì)學(xué)中是用統(tǒng)計(jì)方法來檢驗(yàn)?zāi)P褪欠窨孔V,而數(shù)據(jù)挖掘中,是將數(shù)據(jù)源拆分成兩部分,一部分用來建立模型,這一部分?jǐn)?shù)據(jù)稱之為訓(xùn)練集。另一部分在模型建立后,回代入模型中,進(jìn)行測試,看模型的準(zhǔn)確率有高,這一部分?jǐn)?shù)據(jù)稱之為測試集?,F(xiàn)在數(shù)據(jù)量很少,而且作為示例,可以把測試集的百分比設(shè)置為0,也就是不拆分?jǐn)?shù)據(jù),將所有的數(shù)據(jù)都用在建立模型上面。 

 

 

在模型的窗口中會(huì)看到回歸方程,如果不懂回歸方程的,可以找一本高等數(shù)學(xué)的教材看看或者直接度娘。 

 

打開查詢工具,讓模型做出預(yù)測。 

 

下圖中看到的高質(zhì)寶貝數(shù)是已知條件,已知高質(zhì)寶貝數(shù),但成交量未知,這時(shí)模型會(huì)做出預(yù)測。 

 

 

predict是預(yù)測的意思。這里是添加預(yù)測值作為輸出。 

 

 

 

輸出結(jié)果如下,輸出 1這個(gè)字段就是模型預(yù)測出來的結(jié)果。 

 

3丶手頭上有歷史買家訂單數(shù)據(jù),買家的地域,下單金額和購買件數(shù)(只要處理下源數(shù)據(jù),就可以得到是否重復(fù)購買這個(gè)數(shù)據(jù),1表示會(huì)重復(fù)購買,0表示不會(huì))

 

模型瀏覽中可以看到會(huì)重復(fù)購買的買家的特性,和不會(huì)重復(fù)購買的買家的特性。 

 

假設(shè)下面是新的買家數(shù)據(jù),那么我們要來預(yù)測下,這4位新的買家是否會(huì)重復(fù)購買,成為回頭客。 

 

結(jié)果如下,模型判定只有王六會(huì)重復(fù)購買。 

 

第三個(gè)例子中有非常嚴(yán)重的問題,就是數(shù)據(jù)源太少,這里僅作為示例,數(shù)據(jù)源太少是做數(shù)據(jù)分析的一個(gè)大忌(當(dāng)然某些時(shí)候不是) 

講到這里第七篇預(yù)測還沒有講完,會(huì)有第七篇的續(xù)篇。 

看下時(shí)間,又是凌晨2點(diǎn)多。這個(gè)星期只睡了十幾個(gè)小時(shí),周末補(bǔ)眠。 

這是中階的內(nèi)容,我發(fā)現(xiàn)如果要細(xì)講,是講不完的。。。大家跟上。 

文中用到的工具下載地址和教程:http://pan.baidu.com/share/link?shareid=1490988699&uk=2164472865

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多