小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

數(shù)據(jù)挖掘模型和挖掘步驟

 shawnsun007 2016-07-22

隨著中國電信的改革重組,中國通信業(yè)取得了跨越式的發(fā)展,成為國民經(jīng)濟中發(fā)展速度最快的行業(yè)之一,中國通信業(yè)總規(guī)?,F(xiàn)已在世界排名第一。與此同時,中國通信市場競爭也日趨激烈。通信運營商的經(jīng)營觀念逐漸從'技術(shù)質(zhì)量第一'向'服務(wù)客戶第一'轉(zhuǎn)化。以前的營銷模式已經(jīng)無法滿足客戶的多樣化、層次化、個性化的需求。長期以來,通信單位大量詳盡的業(yè)務(wù)數(shù)據(jù)也只是被簡單地應(yīng)用在各種業(yè)務(wù)系統(tǒng)中,沒有被更有效地開發(fā)利用。如何利用這些數(shù)據(jù)進一步拓寬通信業(yè)務(wù),促進通信業(yè)務(wù)發(fā)展,從而為通信業(yè)提供決策支持服務(wù),已經(jīng)成為各個通信單位的當(dāng)務(wù)之急。

近幾年迅速崛起的數(shù)據(jù)挖掘技術(shù)成為實現(xiàn)這些目標(biāo)的有效手段。它可以深入分析客戶信息、客戶價值和行為,從而使?fàn)I銷具有洞察力、精確化,并通過從數(shù)據(jù)中挖掘價值來減少營銷成本、提高營銷效益。

客戶細(xì)分模型和挖掘算法選擇

構(gòu)建客戶分類模型需要用到第2章所介紹的一些技術(shù)。其中聚類技術(shù)就是其中之一。在前面的章節(jié)中我們曾了解到聚類和分類有著很大的區(qū)別:分類時,我們事先選擇一些屬性作為分類標(biāo)準(zhǔn),通信企業(yè)總是會將重要的、有影響力的屬性作為分類的依據(jù);而在實際應(yīng)用當(dāng)中,通信企業(yè)事先根本不知道哪些屬性會起到作用。而找到那些起關(guān)鍵作用的屬性是聚類技術(shù)的任務(wù)之一。在通信客戶分析中,聚類分析能夠幫助我們發(fā)現(xiàn)特征迥異的不同客戶群和對客戶分類起關(guān)鍵作用的指標(biāo)變量,并輔助運營商對各客戶類別的特征進行深刻觀察。通信客戶從營銷屬性方面分為三類:普通客戶、價值客戶和黃金客戶,其中普通客戶消費行為有較大的隨機性,分布較廣,規(guī)律難尋,比較適于聚類分析。

本數(shù)據(jù)挖掘?qū)嵗捎猛ㄔ捫袨?、?shù)據(jù)業(yè)務(wù)使用情況等作為客戶分類變量,把通信行為相似的人群聚為一組。數(shù)據(jù)挖掘方法論選用CRISP- DM(Cross-Industry Process for Data Mining)過程模型。即交叉行業(yè)數(shù)據(jù)挖掘過程標(biāo)準(zhǔn)。它從數(shù)據(jù)挖掘技術(shù)應(yīng)用的角度來劃分挖掘任務(wù),將數(shù)據(jù)挖掘技術(shù)和實際應(yīng)用緊密結(jié)合。CRISP-DM 過程模型的主要步驟有商業(yè)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、建立模型、數(shù)據(jù)挖掘、評價和實施以及結(jié)果發(fā)布,如圖3-9所示。該過程的各個環(huán)節(jié)按順序進行,但需要不斷地循環(huán)往復(fù)進行數(shù)據(jù)探索和模型的調(diào)優(yōu)。這里為了簡化說明問題,先不考慮循環(huán)往復(fù)的探索和調(diào)優(yōu)過程,直接順序考察各個環(huán)節(jié)。

數(shù)據(jù)挖掘模型和挖掘步驟

在各種硬件條件和軟件條件都具備的情況下,就可以開始進行挖掘的工作了。

1.?dāng)?shù)據(jù)準(zhǔn)備

數(shù)據(jù)準(zhǔn)備過程如下:

(1)確定項目目標(biāo),制定挖掘計劃。

(2)分析變量的獲取。

(3)數(shù)據(jù)收集和獲取。(4)數(shù)據(jù)集成。

依據(jù)CRISP-DM流程,第一要確定項目目標(biāo),之后制定挖掘計劃。首先必須明確項目的商業(yè)目標(biāo),這個目標(biāo)應(yīng)該是適于用選取的聚類分析方法來達(dá)到的。所定義的客戶細(xì)分的商業(yè)目標(biāo)是'對某地方數(shù)十萬普通客戶,從客戶行為的角度進行客戶分類,以了解不同客戶群的消費行為特征,為發(fā)展新業(yè)務(wù)、原有客戶挽留、對其他通信公司用戶爭奪的針對性策略的制訂提供依據(jù),并實現(xiàn)企業(yè)穩(wěn)定現(xiàn)有客戶量、提高客戶增長量的戰(zhàn)略目標(biāo)'。

之后就應(yīng)該對分析變量進行全面獲取,在保證數(shù)據(jù)的一致性、完整性、有效性和層次性的基礎(chǔ)上,數(shù)據(jù)指標(biāo)具有較高的完備性,應(yīng)該覆蓋全部經(jīng)營分析與數(shù)據(jù)挖掘的需求。我們選擇的數(shù)據(jù)來源主要有客戶檔案記錄、客戶營銷記錄、銷售單主表、銷售退貨主表、銷售付款表、客戶聯(lián)系記錄、客戶投訴記錄和客戶關(guān)懷記錄等。變量準(zhǔn)備的結(jié)構(gòu)如圖3-10所示。

(點擊查看大圖)圖3-10 變量準(zhǔn)備的結(jié)構(gòu)

客戶的消費行為和需求通過調(diào)查問卷以及訪談的方式來實現(xiàn)。

客戶的通信行為以及需求特征類別見表3-1。

表3-1 客戶行為特征信息表

客戶的通信行為

客戶的需求特征類別

短消息使用次數(shù)

移動夢網(wǎng)使用次數(shù)

WAP 上網(wǎng)時間

GPRS 數(shù)據(jù)流量

方便性及信息實時性的需求

IP 長途使用次數(shù)

優(yōu)惠時段通話次數(shù)

套餐定制和使用次數(shù)

撥打 10086 次數(shù)

對資費的敏感程度

本地、長途、漫游呼叫時長

本地、長途、漫游呼叫次數(shù)

呼叫時間、次數(shù)(繁忙 / 非繁忙時段、

工作 / 休息時段、優(yōu)惠 / 非優(yōu)惠時段)

呼叫類型(主叫、被叫、呼叫轉(zhuǎn)移)

對通話的多層次需求

服務(wù)種類

對個性化服務(wù)的需求程度

數(shù)據(jù)是數(shù)據(jù)挖掘的根基,在確定了分析目標(biāo)和執(zhí)行方案后,需要對各個數(shù)據(jù)源的數(shù)據(jù)進行清洗、整理并集成,以確定這次分析需要哪些方面的數(shù)據(jù),然后將它們匯總起來,形成這次分析任務(wù)的數(shù)據(jù)庫(數(shù)據(jù)倉庫)。在此實例中,數(shù)據(jù)來源于移動公司自己的CRM系統(tǒng)、客戶計費系統(tǒng),客戶服務(wù)系統(tǒng)、營銷系統(tǒng)以及業(yè)務(wù)結(jié)算系統(tǒng)等。

基于客戶需求和上述行為特征信息表,定義了幾組細(xì)分變量,d_代表時常,t_代表頻率,見表3-2。在這里只列出通話形式和通話比例表。

表3-2 細(xì)分變量表(簡表)

通話形式

市話

d_local

t_local

省內(nèi)長途

d_toll_InProvince

t_toll_InProvince

跨省長途

d_toll_BetweenProvince

t_toll_BetweenProvince

國際長途

d_toll_htm

t_toll_htm

通話比例

網(wǎng)內(nèi)通話

d_mob_Ttl

t_ mob_Ttl

聯(lián)通通話

d_uni_Ttl

t_uni_Ttl

小靈通通話

d_phs_Ttl

t_phs_Ttl

固定電話通話

d_fix_Ttl

t_fix_Ttl

2.?dāng)?shù)據(jù)準(zhǔn)備

數(shù)據(jù)準(zhǔn)備包括所有從原始的未加工的數(shù)據(jù)構(gòu)造最終分析數(shù)據(jù)集的活動,是數(shù)據(jù)挖掘過程中最耗時的環(huán)節(jié),甚至要占據(jù)整個數(shù)據(jù)挖掘項目一半以上的工作量。數(shù)據(jù)準(zhǔn)備工作的流程如圖3-11所示。

(點擊查看大圖)圖3-11 數(shù)據(jù)準(zhǔn)備工作的流程

數(shù)據(jù)準(zhǔn)備的過程和數(shù)據(jù)挖掘的過程請參考第1章相關(guān)內(nèi)容,這里不再贅述。

3.建立模型

在生成最終的數(shù)據(jù)集后,就可以在此基礎(chǔ)上建立模型來進行聚類分析了。建立模型階段主要是選擇和應(yīng)用各種建模技術(shù),同時對它們的參數(shù)進行校準(zhǔn)以達(dá)到最優(yōu)值。在明確建模技術(shù)和算法后需要確定模型參數(shù)和輸入變量。模型參數(shù)包括類的個數(shù)和最大迭代步數(shù)等。

在建模過程中,我們采用多種技術(shù)手段,并將建模效果進行對比。需要挑選合適的變量參與建模。參與建模的變量太多會削弱主要業(yè)務(wù)屬性的影響,并給理解分群結(jié)果帶來困難;變量太少則不能全面覆蓋需要考察的各方面屬性,可能會遺漏一些重要的屬性關(guān)系。輸入變量的選擇對建立滿意的模型至關(guān)重要。應(yīng)結(jié)合此次分析任務(wù)的目標(biāo),選擇有重要業(yè)務(wù)意義并與數(shù)據(jù)挖掘目標(biāo)密切相關(guān)的變量;被選擇的變量應(yīng)具備較好的數(shù)據(jù)質(zhì)量,并且被選變量之間相關(guān)性不宜太強。

不同的技術(shù)方案產(chǎn)生的模型結(jié)果有很大不同,而且模型結(jié)果的可理解性也存在較大差異。另外,對結(jié)果的分析和描述也很關(guān)鍵,不恰當(dāng)?shù)拿枋鰰斐烧`導(dǎo)。需要指出的是,不同的商業(yè)問題和不同的數(shù)據(jù)分布屬性會影響模型建立與調(diào)整的策略,而且在建模過程中還會使用多種近似算法來簡化模型的優(yōu)化過程。因此還需要業(yè)務(wù)專家參與調(diào)整策略的制定,以避免不適當(dāng)?shù)膬?yōu)化造成業(yè)務(wù)信息丟失。

建立模型是一個螺旋上升,不斷優(yōu)化的過程,在每一次聚類結(jié)束后,需要判斷聚類結(jié)果在業(yè)務(wù)上是否有意義,其各群特征是否明顯。如果結(jié)果不理想,則需要調(diào)整聚類模型,對模型進行優(yōu)化,稱之為聚類優(yōu)化。聚類優(yōu)化可通過調(diào)整聚類個數(shù)及調(diào)整聚類變量輸入來實現(xiàn),也可以通過多次運行,選擇滿意的結(jié)果。通??梢砸罁?jù)以下原則判斷聚類結(jié)果是否理想:類間特征差異是否明顯;群內(nèi)特征是否相似;聚類結(jié)果是否易于管理及是否具有業(yè)務(wù)指導(dǎo)意義。

4.模型評估

通過上面的處理,就會得到一系列的分析結(jié)果和模式,它們是對目標(biāo)問題多側(cè)面的描述,這時需要對它們進行驗證和評價,以得到合理的,完備的決策信息。對產(chǎn)生的模型結(jié)果需要進行對比驗證、準(zhǔn)確度驗證、支持度驗證等檢驗以確定模型的價值。在這個階段需要引入更多層面和背景的用戶進行測試和驗證,通過對幾種模型的綜合比較,產(chǎn)生最后的優(yōu)化模型。

模型評估階段需要對數(shù)據(jù)挖掘過程進行一次全面的回顧,從而決定是否存在重要的因素或任務(wù)由于某些原因而被忽視,此階段關(guān)鍵目的是決定是否還存在一些重要的商業(yè)問題仍未得到充分的考慮。驗證模型是處理過程中的關(guān)鍵步驟,可以確定是否成功地進行了前面的步驟。模型的驗證需要利用未參與建模的數(shù)據(jù)進行,這樣才能得到比較準(zhǔn)確的結(jié)果??梢圆捎玫姆椒ㄓ兄苯邮褂迷瓉斫⒛P偷臉颖緮?shù)據(jù)進行檢驗,或另找一批數(shù)據(jù)對其進行檢驗,也可以在實際運行中取出新的數(shù)據(jù)進行檢驗。檢驗的方法是對已知客戶狀態(tài)的數(shù)據(jù)利用模型進行挖掘,并將挖掘結(jié)果與實際情況進行比較。在此步驟中若發(fā)現(xiàn)模型不夠優(yōu)化,還需要回到前面的步驟進行調(diào)整。

原文鏈接:http://book.51cto.com/art/200907/135009.htm

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多