|
零一 2:27 872 10 HI~!最近過得好嗎?零一可是忙死了,呵呵。今天繼續(xù)跟大家分享。我的微信號是start_data。 上次跟大家說過數(shù)據(jù)分析的4個(gè)任務(wù),今天講第一個(gè)任務(wù),預(yù)測。 預(yù)測這個(gè)任務(wù)在很多場景可以應(yīng)用到。比如 預(yù)測某行業(yè)未來的市場走勢 預(yù)測買家會(huì)不會(huì)響應(yīng)我們的營銷主張 預(yù)測股票走勢/預(yù)測福利彩票開獎(jiǎng)號碼 預(yù)測我們自己的體重/身高 大家可以發(fā)現(xiàn),無論是商業(yè)還是生活都可以應(yīng)用到,作為一名【業(yè)務(wù)】數(shù)據(jù)分析師而言(以下簡稱數(shù)據(jù)分析師,但特指業(yè)務(wù)數(shù)據(jù)分析師),當(dāng)然不會(huì)什么事情都去做分析,那么,是什么因素決定了我們要去做分析呢?
作為一名數(shù)據(jù)分析師應(yīng)該以【商業(yè)價(jià)值】作為導(dǎo)向,我們的分析產(chǎn)生了商業(yè)價(jià)值,那么我們作為一名數(shù)據(jù)分析師才能有相應(yīng)的價(jià)值。數(shù)據(jù)分析師的身價(jià)也因此而來。 數(shù)據(jù)分析師必不可少的4要素是 【思維】+【業(yè)務(wù)】+【工具】+【數(shù)據(jù)】 【思維】指分析思維,大家可以發(fā)現(xiàn)我正在一點(diǎn)一滴地傳播給大家。 【業(yè)務(wù)】指業(yè)務(wù)能力,只有深入了解企業(yè)或者我們自己的業(yè)務(wù)需求,才能【點(diǎn)數(shù)成金】,如果今天我不小心請了一個(gè)完全不懂電商的數(shù)據(jù)分析師來幫我分析,那結(jié)果是堪憂的。因?yàn)樗赡懿恢朗裁词荱V,什么是PV,什么是ROI,什么是直通車/鉆展。 如果把數(shù)據(jù)分析師比喻成劍客,那【思維】和【業(yè)務(wù)】就是這個(gè)劍客的任督二脈了。 【工具】古人有云:工欲善其事,必先利其器,有工具才能高效丶精準(zhǔn)地做出分析?!竟ぞ摺烤拖駝褪种械膶殑σ粯?。 【數(shù)據(jù)】數(shù)據(jù)分析師手里沒有數(shù)據(jù),也就不存在數(shù)據(jù)分析師了?!緮?shù)據(jù)】就像劍客身體中的血液,連血液都木有,就活不下去了。 在Excel中,結(jié)合數(shù)據(jù)挖掘套件,可以非常簡單地完成【預(yù)測】這個(gè)任務(wù)。 雖然鼠標(biāo)點(diǎn)幾下就可以完成【預(yù)測】,但是做【預(yù)測】的方法有好幾種,分別是在不同的情況下應(yīng)用的。如果用錯(cuò)了方法,可能程序就會(huì)報(bào)錯(cuò)。哪怕不報(bào)錯(cuò),出來的結(jié)果也可能是差強(qiáng)人意的。 具體用哪種方法,我們根據(jù)的是什么呢? 答案是【數(shù)據(jù)類型】 數(shù)據(jù)分成3種類型,當(dāng)然你們?nèi)タ匆恍?shù)據(jù)分析丶數(shù)據(jù)挖掘的書籍里面的分法可能會(huì)跟我的不一樣。 【數(shù)據(jù)類型】分為【定量】,【定性】和【時(shí)間序列】。 【定量】就是我們的數(shù)字,1,2,3,4,5,6,7,8,9,0組成的數(shù)值,當(dāng)數(shù)據(jù)是這種數(shù)值的時(shí)候,我們就可以把他歸類為【定量】數(shù)據(jù)類型。 【定性】一般是字符型的數(shù)據(jù),比如,中文丶英文就是一種字符型的數(shù)據(jù)。 【時(shí)間序列】跟定量非常接近,但不同的就是時(shí)間序列是時(shí)間格式的數(shù)據(jù),那么我們看下電腦系統(tǒng)的時(shí)間,就是時(shí)間格式的數(shù)據(jù),稱之為【時(shí)間序列】。 對應(yīng)的分析方法(不局限以下方法) 【定量】-【線性回歸】 【定性】-【邏輯回歸】 【時(shí)間序列】-【時(shí)間序列預(yù)測】 怎么選擇就看我們要預(yù)測的維度,是根據(jù)哪種數(shù)據(jù)的變化來預(yù)測的。 比如,我們已知時(shí)間和銷量,要預(yù)測未來的銷量。只要維度里面有一個(gè)維度是時(shí)間,就應(yīng)該選擇【時(shí)間序列預(yù)測】。 如果已知高質(zhì)寶貝數(shù)和成交量,要根據(jù)高質(zhì)寶貝數(shù)啦預(yù)測成交量,就是通過【定量】預(yù)測【定量】,因而選擇【線性回歸】。 如果已知買家的地域,下單金額和購買件數(shù),來預(yù)測買家會(huì)不會(huì)響應(yīng)我的促銷活動(dòng),我們預(yù)測的就是買家是否會(huì)重復(fù)購買,那就是會(huì)或不會(huì)的問題,是通過【定量】預(yù)測【定性】,類似這種預(yù)測結(jié)果是A或B或C……這種分類情況,就應(yīng)該選擇【邏輯回歸】 下面3個(gè)例子來幫助大家掌握【預(yù)測】 1丶已知時(shí)間和成交量,要預(yù)測未來幾個(gè)月的成交量 源數(shù)據(jù)如下
源數(shù)據(jù)挺多,僅截圖一部分。
源數(shù)據(jù)可以是表也可以是我們選擇的區(qū)域也是可以外部數(shù)據(jù)源,這里我們直接在表內(nèi)選擇數(shù)據(jù)區(qū)域。
時(shí)間戳?xí)詣?dòng)識(shí)別,前提是數(shù)據(jù)必須是日期格式的。(excel里面時(shí)間序列是日期格式) 查看模型結(jié)果
可以指定要預(yù)測多少個(gè)單位時(shí)間。
可以看到使用的是ARIMA算法,其實(shí)算法我們還可以在建立模型的時(shí)候進(jìn)行設(shè)置,這里不解釋太多。
模型建立后,可以用查詢工具
結(jié)果如下圖所示,給出時(shí)間戳丶預(yù)測的成交量和標(biāo)準(zhǔn)偏差。
2丶手上有高質(zhì)寶貝數(shù)和成交量兩個(gè)數(shù)據(jù),假如現(xiàn)在已知未來幾個(gè)月的高質(zhì)寶貝數(shù),通過這個(gè)來預(yù)測成交量。 數(shù)據(jù)源如下
參數(shù)中,我們可以選擇算法還可以配置參數(shù),這里我們選擇線性回歸即可,參數(shù)不解釋。
定性集(國內(nèi)翻譯叫訓(xùn)練集)和測試集是數(shù)據(jù)挖掘中非常重要的一個(gè)概念。也是別于統(tǒng)計(jì)學(xué)的一個(gè)思想。統(tǒng)計(jì)學(xué)中是用統(tǒng)計(jì)方法來檢驗(yàn)?zāi)P褪欠窨孔V,而數(shù)據(jù)挖掘中,是將數(shù)據(jù)源拆分成兩部分,一部分用來建立模型,這一部分?jǐn)?shù)據(jù)稱之為訓(xùn)練集。另一部分在模型建立后,回代入模型中,進(jìn)行測試,看模型的準(zhǔn)確率有高,這一部分?jǐn)?shù)據(jù)稱之為測試集?,F(xiàn)在數(shù)據(jù)量很少,而且作為示例,可以把測試集的百分比設(shè)置為0,也就是不拆分?jǐn)?shù)據(jù),將所有的數(shù)據(jù)都用在建立模型上面。
在模型的窗口中會(huì)看到回歸方程,如果不懂回歸方程的,可以找一本高等數(shù)學(xué)的教材看看或者直接度娘。
打開查詢工具,讓模型做出預(yù)測。
下圖中看到的高質(zhì)寶貝數(shù)是已知條件,已知高質(zhì)寶貝數(shù),但成交量未知,這時(shí)模型會(huì)做出預(yù)測。
predict是預(yù)測的意思。這里是添加預(yù)測值作為輸出。
輸出結(jié)果如下,輸出 1這個(gè)字段就是模型預(yù)測出來的結(jié)果。
3丶手頭上有歷史買家訂單數(shù)據(jù),買家的地域,下單金額和購買件數(shù)(只要處理下源數(shù)據(jù),就可以得到是否重復(fù)購買這個(gè)數(shù)據(jù),1表示會(huì)重復(fù)購買,0表示不會(huì))
模型瀏覽中可以看到會(huì)重復(fù)購買的買家的特性,和不會(huì)重復(fù)購買的買家的特性。
假設(shè)下面是新的買家數(shù)據(jù),那么我們要來預(yù)測下,這4位新的買家是否會(huì)重復(fù)購買,成為回頭客。
結(jié)果如下,模型判定只有王六會(huì)重復(fù)購買。
第三個(gè)例子中有非常嚴(yán)重的問題,就是數(shù)據(jù)源太少,這里僅作為示例,數(shù)據(jù)源太少是做數(shù)據(jù)分析的一個(gè)大忌(當(dāng)然某些時(shí)候不是) 講到這里第七篇預(yù)測還沒有講完,會(huì)有第七篇的續(xù)篇。 看下時(shí)間,又是凌晨2點(diǎn)多。這個(gè)星期只睡了十幾個(gè)小時(shí),周末補(bǔ)眠。 這是中階的內(nèi)容,我發(fā)現(xiàn)如果要細(xì)講,是講不完的。。。大家跟上。 文中用到的工具下載地址和教程:http://pan.baidu.com/share/link?shareid=1490988699&uk=2164472865 |
|
|