數(shù)據(jù)挖掘的10個常見問題

ShangShujie 2007-04-03

展開全文

數(shù)據(jù)挖掘的10個常見問題

2007-01-02　14:03:01

大中小

Q1. Data Mining 和統(tǒng)計(jì)分析有什么不同？
硬要去區(qū)分Data Mining和Statistics的差異其實(shí)是沒有太大意義的。一般將之定義為Data Mining技術(shù)的CART、CHAID或模糊計(jì)算等等理論方法，也都是由統(tǒng)計(jì)學(xué)者根據(jù)統(tǒng)計(jì)理論所發(fā)展衍生，換另一個角度看，Data Mining有相當(dāng)大的比重是由高等統(tǒng)計(jì)學(xué)中的多變量分析所支撐。但是為什么Data Mining的出現(xiàn)會引發(fā)各領(lǐng)域的廣泛注意呢？主要原因在相較于傳統(tǒng)統(tǒng)計(jì)分析而言，Data Mining有下列幾項(xiàng)特性：
1.處理大量實(shí)際資料更強(qiáng)勢，且無須太專業(yè)的統(tǒng)計(jì)背景去使用Data Mining的工具；
2.資料分析趨勢為從大型數(shù)據(jù)庫抓取所需資料并使用專屬計(jì)算機(jī)分析軟件，Data Mining的工具更符合企業(yè)需求；
3. 純就理論的基礎(chǔ)點(diǎn)來看，Data Mining和統(tǒng)計(jì)分析有應(yīng)用上的差別，畢竟Data Mining目的是方便企業(yè)末端用者使用而非給統(tǒng)計(jì)學(xué)家檢測用的。

Q2. Data Warehousing 和 Data Mining 的關(guān)系為何？
若將Data Warehousing（資料倉儲）比喻作礦坑，Data Mining就是深入礦坑采礦的工作。畢竟Data Mining不是一種無中生有的魔術(shù)，也不是點(diǎn)石成金的煉金術(shù)，若沒有夠豐富完整的資料，是很難期待Data Mining能挖掘出什么有意義的信息的。
要將龐大的資料轉(zhuǎn)換成為有用的信息，必須先有效率地收集信息。隨著科技的進(jìn)步，功能完善的數(shù)據(jù)庫系統(tǒng)就成了最好的收集資料的工具?！纲Y料倉儲」，簡單地說，就是搜集來自其它系統(tǒng)的有用資料，存放在一整合的儲存區(qū)內(nèi)。所以其實(shí)就是一個經(jīng)過處理整合，且容量特別大的關(guān)系型數(shù)據(jù)庫，用以儲存決策支持系統(tǒng)（Design Support System）所需的資料，供決策支持或資料分析使用。從信息技術(shù)的角度來看，資料倉儲的目標(biāo)是在組織中，在正確的時間，將正確的資料交給正確的人。
許多人對于Data Warehousing和Data Mining時?；煜?，不知如何分辨。其實(shí)，資料倉儲是數(shù)據(jù)庫技術(shù)的一個新主題，在資料科技日漸普及下，利用計(jì)算機(jī)系統(tǒng)幫助我們操作、計(jì)算和思考，讓作業(yè)方式改變，決策方式也跟著改變。
資料倉儲本身是一個非常大的數(shù)據(jù)庫，它儲存著由組織作業(yè)數(shù)據(jù)庫中整合而來的資料，特別是指從線上交易系統(tǒng)OLTP（On-Line Transactional Processing）所得來的資料。將這些整合過的資料置放于資料倉儲中，而公司的決策者則利用這些資料作決策；但是，這個轉(zhuǎn)換及整合資料的過程，是建立一個資料倉儲最大的挑戰(zhàn)。因?yàn)閷⒆鳂I(yè)中的資料轉(zhuǎn)換成有用的的策略性信息是整個資料倉儲的重點(diǎn)。綜上所述，資料倉儲應(yīng)該具有這些資料：整合性資料（integrated data）、詳細(xì)和匯總性的資料(detailed and summarized data)、歷史資料、解釋資料的資料。從資料倉儲挖掘出對決策有用的信息與知識，是建立資料倉儲與使用Data Mining的最大目的，兩者的本質(zhì)與過程是兩碼子事。換句話說，資料倉儲應(yīng)先行建立完成，Data mining才能有效率的進(jìn)行，因?yàn)橘Y料倉儲本身所含資料是干凈(不會有錯誤的資料參雜其中）、完備，且經(jīng)過整合的。因此兩者關(guān)系或許可解讀為「Data Mining是從巨大資料倉儲中找出有用信息的一種過程與技術(shù)」。

Q3. OLAP 能不能代替 Data Mining？
所謂OLAP（Online Analytical Process）意指由數(shù)據(jù)庫所連結(jié)出來的線上查詢分析程序。有些人會說：「我已經(jīng)有OLAP的工具了，所以我不需要Data Mining?！故聦?shí)上兩者間是截然不同的，主要差異在于Data Mining用在產(chǎn)生假設(shè)，OLAP則用于查證假設(shè)。簡單來說，OLAP是由使用者所主導(dǎo)，使用者先有一些假設(shè)，然后利用OLAP來查證假設(shè)是否成立；而Data Mining則是用來幫助使用者產(chǎn)生假設(shè)。所以在使用OLAP或其它Query的工具時，使用者是自己在做探索（Exploration），但Data Mining是用工具在幫助做探索。
舉個例子來看，一市場分析師在為超市規(guī)劃貨品架柜擺設(shè)時，可能會先假設(shè)嬰兒尿布和嬰兒奶粉會是常被一起購買的產(chǎn)品，接著便可利用OLAP的工具去驗(yàn)證此假設(shè)是否為真，又成立的證據(jù)有多明顯；但Data Mining則不然，執(zhí)行Data Mining的人將龐大的結(jié)帳資料整理后，并不需要假設(shè)或期待可能的結(jié)果，透過Mining技術(shù)可找出存在于資料中的潛在規(guī)則，于是我們可能得到例如尿布和啤酒常被同時購買的意料外之發(fā)現(xiàn)，這是OLAP所做不到的。
Data Mining常能挖掘出超越歸納范圍的關(guān)系，但OLAP僅能利用人工查詢及可視化的報表來確認(rèn)某些關(guān)系，是以Data Mining此種自動找出甚或不會被懷疑過的資料型樣與關(guān)系的特性，事實(shí)上已超越了我們經(jīng)驗(yàn)、教育、想象力的限制，OLAP可以和Data Mining互補(bǔ)，但這項(xiàng)特性是Data Mining無法被OLAP取代的。

Q4. 完整的Data Mining 包含哪些步驟？
以下提供一個Data Mining的進(jìn)行步驟以為參考：
1. 厘清目標(biāo)與理解資料；
2. 獲取相關(guān)技術(shù)與知識；
3. 整合與查核資料；
4. 去除錯誤或不一致及不完整的資料；
5. 由數(shù)據(jù)選取樣本先行試驗(yàn)；
6. 研發(fā)模式（model）與型樣（pattern）；
7. 實(shí)際Data Mining的分析工作；
8. 測試與檢核；
9. 找出假設(shè)并提出解釋；
10. 持續(xù)應(yīng)用于企業(yè)流程中。
由上述步驟可看出，Data Mining牽涉了大量的準(zhǔn)備工作與規(guī)劃過程，事實(shí)上許多專家皆認(rèn)為整套Data Mining的進(jìn)行有80﹪的時間精力是花費(fèi)在資料前置作業(yè)階段，其中包含資料的凈化與格式轉(zhuǎn)換甚或表格的連結(jié)。由此可知Data Mining只是信息挖掘過程中的一個步驟而已，在進(jìn)行此步驟前還有許多的工作要先完成。

Q5. Data Mining 運(yùn)用了哪些理論與技術(shù)？
Data Mining是近年來數(shù)據(jù)庫應(yīng)用技術(shù)中相當(dāng)熱門的議題，看似神奇、聽來時髦，實(shí)際上卻也不是什么新東西，因其所用之諸如預(yù)測模式、資料分割，連結(jié)分析（Link Analysis）、偏差偵測（Deviation Detection）等，美國早在二次世界大戰(zhàn)前就已應(yīng)用運(yùn)用在人口普查及軍事等方面。
隨著信息科技超乎想象的進(jìn)展，許多新的計(jì)算機(jī)分析工具問世，例如關(guān)系型數(shù)據(jù)庫、模糊計(jì)算理論、基因算法則以及類神經(jīng)網(wǎng)絡(luò)等，使得從資料中發(fā)掘?qū)毑爻蔀橐环N系統(tǒng)性且可實(shí)行的程序。
一般而言，Data Mining的理論技術(shù)可分為傳統(tǒng)技術(shù)與改良技術(shù)兩支。傳統(tǒng)技術(shù)以統(tǒng)計(jì)分析為代表，舉凡統(tǒng)計(jì)學(xué)內(nèi)所含之?dāng)⑹鼋y(tǒng)計(jì)、機(jī)率論、回歸分析、類別資料分析等皆屬之，尤其 Data Mining 對象多為變量繁多且筆數(shù)龐大的數(shù)據(jù)，是以高等統(tǒng)計(jì)學(xué)里所含括之多變量分析中用來精簡變量的因素分析（Factor Analysis）、用來分類的判別分析（Discriminant Analysis），以及用來區(qū)隔群體的分群分析（Cluster Analysis）等，在Data Mining過程中特別常用。
在改良技術(shù)方面，應(yīng)用較普遍的有決策樹理論（Decision Trees）、類神經(jīng)網(wǎng)絡(luò)（Neural Network）以及規(guī)則歸納法（Rules Induction）等。決策樹是一種用樹枝狀展現(xiàn)資料受各變量的影響情形之預(yù)測模型，根據(jù)對目標(biāo)變量產(chǎn)生之效應(yīng)的不同而建構(gòu)分類的規(guī)則，一般多運(yùn)用在對顧客資料的區(qū)隔分析上，例如針對有回函與未回含的郵寄對象找出影響其分類結(jié)果的變量組合，常用分類方法為CART（Classification and Regression Trees）及CHAID（Chi-Square Automatic Interaction Detector）兩種。
類神經(jīng)網(wǎng)絡(luò)是一種仿真人腦思考結(jié)構(gòu)的資料分析模式，由輸入之變量與數(shù)值中自我學(xué)習(xí)并根據(jù)學(xué)習(xí)經(jīng)驗(yàn)所得之知識不斷調(diào)整參數(shù)以期建構(gòu)資料的型樣(patterns)。類神經(jīng)網(wǎng)絡(luò)為非線性的設(shè)計(jì)，與傳統(tǒng)回歸分析相比，好處是在進(jìn)行分析時無須限定模式，特別當(dāng)資料變量間存有交互效應(yīng)時可自動偵測出；缺點(diǎn)則在于其分析過程為一黑盒子，故常無法以可讀之模型格式展現(xiàn)，每階段的加權(quán)與轉(zhuǎn)換亦不明確，是故類神經(jīng)網(wǎng)絡(luò)多利用于資料屬于高度非線性且?guī)в邢喈?dāng)程度的變量交感效應(yīng)時。
規(guī)則歸納法是知識發(fā)掘的領(lǐng)域中最常用的格式，這是一種由一連串的「如果…/則…（If / Then）」之邏輯規(guī)則對資料進(jìn)行細(xì)分的技術(shù)，在實(shí)際運(yùn)用時如何界定規(guī)則為有效是最大的問題，通常需先將資料中發(fā)生數(shù)太少的項(xiàng)目先剔除，以避免產(chǎn)生無意義的邏輯規(guī)則。

Q6. Data Mining包含哪些主要功能？
Data Mining實(shí)際應(yīng)用功能可分為三大類六分項(xiàng)來說明：Classification和Clustering屬于分類區(qū)隔類；Regression和Time-series屬于推算預(yù)測類；Association和Sequence則屬于序列規(guī)則類。
Classification是根據(jù)一些變量的數(shù)值做計(jì)算，再依照結(jié)果作分類。（計(jì)算的結(jié)果最后會被分類為幾個少數(shù)的離散數(shù)值，例如將一組資料分為 "可能會響應(yīng)" 或是 "可能不會響應(yīng)" 兩類）。Classification常被用來處理如前所述之郵寄對象篩選的問題。我們會用一些根據(jù)歷史經(jīng)驗(yàn)已經(jīng)分類好的資料來研究它們的特征，然后再根據(jù)這些特征對其他未經(jīng)分類或是新的數(shù)據(jù)做預(yù)測。這些我們用來尋找特征的已分類資料可能是來自我們的現(xiàn)有的客戶資料，或是將一個完整數(shù)據(jù)庫做部份取樣，再經(jīng)由實(shí)際的運(yùn)作來測試；譬如利用一個大型郵寄對象數(shù)據(jù)庫的部份取樣來建立一個Classification Model，再利用這個Model來對數(shù)據(jù)庫的其它資料或是新的資料作分類預(yù)測。
Clustering用在將資料分群，其目的在于將群間的差異找出來，同時也將群內(nèi)成員的相似性找出來。Clustering與Classification不同的是，在分析前并不知道會以何種方式或根據(jù)來分類。所以必須要配合專業(yè)領(lǐng)域知識來解讀這些分群的意義。
Regression是使用一系列的現(xiàn)有數(shù)值來預(yù)測一個連續(xù)數(shù)值的可能值。若將范圍擴(kuò)大亦可利用Logistic Regression來預(yù)測類別變量，特別在廣泛運(yùn)用現(xiàn)代分析技術(shù)如類神經(jīng)網(wǎng)絡(luò)或決策樹理論等分析工具，推估預(yù)測的模式已不在止于傳統(tǒng)線性的局限，在預(yù)測的功能上大大增加了選擇工具的彈性與應(yīng)用范圍的廣度。
Time-Series Forecasting與Regression功能類似，只是它是用現(xiàn)有的數(shù)值來預(yù)測未來的數(shù)值。兩者最大差異在于Time-Series所分析的數(shù)值都與時間有關(guān)。Time-Series Forecasting的工具可以處理有關(guān)時間的一些特性，譬如時間的周期性、階層性、季節(jié)性以及其它的一些特別因素（如過去與未來的關(guān)連性）。
Association是要找出在某一事件或是資料中會同時出現(xiàn)的東西。舉例而言，如果A是某一事件的一種選擇，則B也出現(xiàn)在該事件中的機(jī)率有多少。（例如：如果顧客買了火腿和柳橙汁，那么這個顧客同時也會買牛奶的機(jī)率是85%。）
Sequence Discovery與Association關(guān)系很密切，所不同的是Sequence Discovery中事件的相關(guān)是以時間因素來作區(qū)隔（例如：如果A股票在某一天上漲12%，而且當(dāng)天股市加權(quán)指數(shù)下降，則B股票在兩天之內(nèi)上漲的機(jī)率是 68%）。

Q7. Data Mining在各領(lǐng)域的應(yīng)用情形為何？
Data Mining在各領(lǐng)域的應(yīng)用非常廣泛，只要該產(chǎn)業(yè)擁有具分析價值與需求的資料倉儲或數(shù)據(jù)庫，皆可利用Mining工具進(jìn)行有目的的挖掘分析。一般較常見的應(yīng)用案例多發(fā)生在零售業(yè)、直效行銷界、制造業(yè)、財務(wù)金融保險、通訊業(yè)以及醫(yī)療服務(wù)等。
于銷售資料中發(fā)掘顧客的消費(fèi)習(xí)性，并可藉由交易紀(jì)錄找出顧客偏好的產(chǎn)品組合，其它包括找出流失顧客的特征與推出新產(chǎn)品的時機(jī)點(diǎn)等等都是零售業(yè)常見的實(shí)例；直效行銷強(qiáng)調(diào)的分眾概念與數(shù)據(jù)庫行銷方式在導(dǎo)入Data Mining的技術(shù)后，使直效行銷的發(fā)展性更為強(qiáng)大，例如利用Data Mining分析顧客群之消費(fèi)行為與交易紀(jì)錄，結(jié)合基本資料，并依其對品牌價值等級的高低來區(qū)隔顧客，進(jìn)而達(dá)到差異化行銷的目的；制造業(yè)對Data Mining的需求多運(yùn)用在品質(zhì)控管方面，由制造過程中找出影響產(chǎn)品品質(zhì)最重要的因素，以期提高作業(yè)流程的效率。
近來電話公司、信用卡公司、保險公司以及股票交易商對于詐欺行為的偵測（Fraud Detection）都很有興趣，這些行業(yè)每年因?yàn)樵p欺行為而造成的損失都非常可觀，Data Mining可以從一些信用不良的客戶資料中找出相似特征并預(yù)測可能的詐欺交易，達(dá)到減少損失的目的。財務(wù)金融業(yè)可以利用 Data Mining來分析市場動向，并預(yù)測個別公司的營運(yùn)以及股價走向。Data Mining的另一個獨(dú)特的用法是在醫(yī)療業(yè)，用來預(yù)測手術(shù)、用藥、診斷、或是流程控制的效率。

Q8. Web Mining 和Data Mining有什么不同？
如果將Web視為CRM的一個新的Channel，則Web Mining便可單純看做Data Mining應(yīng)用在網(wǎng)絡(luò)資料的泛稱。
該如何測量一個網(wǎng)站是否成功？哪些內(nèi)容、優(yōu)惠、廣告是人氣最旺的？主要訪客是哪些人？什么原因吸引他們前來？如何從堆積如山之大量由網(wǎng)絡(luò)所得資料中找出讓網(wǎng)站運(yùn)作更有效率的操作因素？以上種種皆屬Web Mining 分析之范疇。Web Mining 不僅只限于一般較為人所知的log file分析，除了計(jì)算網(wǎng)頁瀏覽率以及訪客人次外，舉凡網(wǎng)絡(luò)上的零售、財務(wù)服務(wù)、通訊服務(wù)、政府機(jī)關(guān)、醫(yī)療咨詢、遠(yuǎn)距教學(xué)等等，只要由網(wǎng)絡(luò)連結(jié)出的數(shù)據(jù)庫夠大夠完整，所有Off-Line可進(jìn)行的分析，Web Mining都可以做，甚或更可整合Off-Line及On-Line的數(shù)據(jù)庫，實(shí)施更大規(guī)模的模型預(yù)測與推估，畢竟憑借網(wǎng)際網(wǎng)絡(luò)的便利性與滲透力再配合網(wǎng)絡(luò)行為的可追蹤性與高互動特質(zhì)，一對一行銷的理念是最有機(jī)會在網(wǎng)絡(luò)世界里完全落實(shí)的。
整體而言，Web Mining具有以下特性：1. 資料收集容易且不引人注意，所謂凡走過必留下痕跡，當(dāng)訪客進(jìn)入網(wǎng)站后的一切瀏覽行為與歷程都是可以立即被紀(jì)錄的；2. 以交互式個人化服務(wù)為終極目標(biāo)，除了因應(yīng)不同訪客呈現(xiàn)專屬設(shè)計(jì)的網(wǎng)頁之外，不同的訪客也會有不同的服務(wù)；3. 可整合外部來源資料讓分析功能發(fā)揮地更深更廣，除了log file、cookies、會員填表資料、線上調(diào)查資料、線上交易資料等由網(wǎng)絡(luò)直接取得的資源外，結(jié)合實(shí)體世界累積時間更久、范圍更廣的資源，將使分析的結(jié)果更準(zhǔn)確也更深入。
利用Data Mining技術(shù)建立更深入的訪客資料剖析，并賴以架構(gòu)精準(zhǔn)的預(yù)測模式，以期呈現(xiàn)真正智能型個人化的網(wǎng)絡(luò)服務(wù)，是Web Mining努力的方向。

Q9. Data Mining 在 CRM 中扮演的角色為何？
CRM（Customer Relationship Management）是近來引起熱烈討論與高度關(guān)切的議題，尤其在直效行銷的崛起與網(wǎng)絡(luò)的快速發(fā)展帶動下，跟不上CRM的腳步如同跟不上時代。事實(shí)上CRM并不算新發(fā)明，奧美直效行銷推動十?dāng)?shù)年的CO（Customer Ownership）就是現(xiàn)在大家談的CRM—客戶關(guān)系管理。
Data Mining應(yīng)用在CRM的主要方式可對應(yīng)在Gap Analysis之三個部分：
針對Acquisition Gap，可利用Customer Profiling找出客戶的一些共同的特征，希望能藉此深入了解客戶，藉由Cluster Analysis對客戶進(jìn)行分群后再透過Pattern Analysis預(yù)測哪些人可能成為我們的客戶，以幫助行銷人員找到正確的行銷對象，進(jìn)而降低成本，也提高行銷的成功率。
針對Sales Gap，可利用Basket Analysis幫助了解客戶的產(chǎn)品消費(fèi)模式，找出哪些產(chǎn)品客戶最容易一起購買，或是利用Sequence Discovery預(yù)測客戶在買了某一樣產(chǎn)品之后，在多久之內(nèi)會買另一樣產(chǎn)品等等。利用 Data Mining可以更有效的決定產(chǎn)品組合、產(chǎn)品推薦、進(jìn)貨量或庫存量，甚或是在店里要如何擺設(shè)貨品等，同時也可以用來評估促銷活動的成效。
針對Retention Gap，可以由原客戶后來卻轉(zhuǎn)成競爭對手的客戶群中，分析其特征，再根據(jù)分析結(jié)果到現(xiàn)有客戶資料中找出可能轉(zhuǎn)向的客戶，然后設(shè)計(jì)一些方法預(yù)防客戶流失；更有系統(tǒng)的做法是藉由Neural Network根據(jù)客戶的消費(fèi)行為與交易紀(jì)錄對客戶忠誠度進(jìn)行Scoring的排序，如此則可區(qū)隔流失率的等級進(jìn)而配合不同的策略。
CRM不是設(shè)一個（080）客服專線就算了，更不僅只是把一堆客戶基本資料輸入計(jì)算機(jī)就夠，完整的CRM運(yùn)作機(jī)制在相關(guān)的硬軟件系統(tǒng)能健全的支持之前，有太多的資料準(zhǔn)備工作與分析需要推動。企業(yè)透過Data Mining可以分別針對策略、目標(biāo)定位、操作效能與測量評估等四個切面之相關(guān)問題，有效率地從市場與顧客所搜集累積之大量資料中挖掘出對消費(fèi)者而言最關(guān)鍵、最重要的答案，并賴以建立真正由客戶需求點(diǎn)出發(fā)的客戶關(guān)系管理。

Q10. 目前業(yè)界有哪些常用的Data Mining分析工具？
Data Mining工具市場大致可分為三類：
1. 一般分析目的用的軟件包
SAS Enterprise Miner
IBM Intelligent Miner
Unica PRW
SPSS Clementine
SGI MineSet
Oracle Darwin
Angoss KnowledgeSeeker
2. 針對特定功能或產(chǎn)業(yè)而研發(fā)的軟件
KD1（針對零售業(yè)）
Options & Choices（針對保險業(yè)）
HNC（針對信用卡詐欺或呆帳偵測）
Unica Model 1（針對行銷業(yè)）
3. 整合DSS（Decision Support Systems）/OLAP/Data Mining的大型分析系統(tǒng)
Cognos Scenario and Business Objects

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報。

小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

數(shù)據(jù)挖掘的10個常見問題