數(shù)據(jù)挖掘的道、法、術(shù)、器

讀書與思考001 2017-05-17

展開全文

wen 文/ Mr.Wang 來(lái)源：嘉數(shù)匯（ID：datahui）

數(shù)據(jù)挖掘已經(jīng)有20多年歷史了，20年前，“尿布和啤酒的故事”像童話一樣被許多應(yīng)用領(lǐng)域的信息主管認(rèn)為是不靠譜的幻想（很多地方稱為營(yíng)銷神話）。如今，我們處處能夠看到數(shù)據(jù)挖掘的影子，Target 百貨分析16歲的少女買無(wú)香型沐浴露之后，判斷她懷孕了；語(yǔ)言學(xué)家通過記錄自己孩子出生到3歲每天每秒鐘的狀態(tài)數(shù)據(jù)，發(fā)現(xiàn)語(yǔ)言記憶和周遭環(huán)境相關(guān)性更大；調(diào)查局通過數(shù)據(jù)分析和挖掘發(fā)現(xiàn)改善公共環(huán)境有助于降低犯罪率。

這篇文章我們就從道、法、術(shù)、器這四個(gè)層面上看看究竟什么是數(shù)據(jù)挖掘。

1. 道以明向

道，是放在最上層的東西，不管是什么學(xué)問。對(duì)于數(shù)據(jù)挖掘來(lái)說(shuō)，道就是數(shù)據(jù)挖掘的定義、特點(diǎn)和任務(wù)三者的結(jié)合。

1.1 數(shù)據(jù)挖掘的定義

關(guān)于數(shù)據(jù)挖掘有很多相近的術(shù)語(yǔ)，如：數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)（Knowledge Discovery inDatabase，KDD））、知識(shí)挖掘、知識(shí)提取、數(shù)據(jù)／模式分析、數(shù)據(jù)考古、數(shù)據(jù)融合等。其中，最常使用的是數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)，并且兩者在使用中常常不加區(qū)分。就術(shù)語(yǔ)的使用情況看，在2012年大數(shù)據(jù)尚未被廣泛關(guān)注之前，人工智能領(lǐng)域主要使用知識(shí)發(fā)現(xiàn)，而數(shù)據(jù)庫(kù)領(lǐng)域和工業(yè)界主要使用數(shù)據(jù)挖掘，市場(chǎng)上的絕大部分產(chǎn)品也稱為數(shù)據(jù)挖掘工具，而非知識(shí)發(fā)現(xiàn)工具。在大數(shù)據(jù)受到廣泛關(guān)注之后，數(shù)據(jù)挖掘被更加廣泛地使用，其他術(shù)語(yǔ)的使用越來(lái)越少。

1996年，F(xiàn)ayaad等人對(duì)數(shù)據(jù)挖掘定義進(jìn)行了詳細(xì)闡述，將數(shù)據(jù)挖掘看作是KDD的一個(gè)過程。定義數(shù)據(jù)挖掘是一個(gè)確定數(shù)據(jù)中有效的、新穎的、潛在可用的且最終可理解的模式的重要過程。隨后，著名的數(shù)據(jù)挖掘研究學(xué)者Jiawei Han也給出了自己的定義：從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中，提取隱含在其中的、人們事先不知道的但又是潛在有用信息和知識(shí)的過程。

綜上，可以認(rèn)為：數(shù)據(jù)挖掘是通過分析每個(gè)數(shù)據(jù)從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù)。

相較于其他數(shù)據(jù)挖掘定義，該定義給出了數(shù)據(jù)挖掘的核心“大量”和“尋找”，而對(duì)挖掘到的“規(guī)律”沒有做任何描述或限制，即沒有要求“規(guī)律”是“有用的”。事實(shí)上，一個(gè)規(guī)律有用與否是由用戶的需求決定的。挖掘算法本身很難保證挖掘結(jié)果的有用性，一般需要用戶在挖掘過程中不斷調(diào)整相關(guān)參數(shù)（如支持度、置信度等）來(lái)獲得有用的結(jié)果。有時(shí)，一些被認(rèn)為是“無(wú)用”的結(jié)果經(jīng)過評(píng)價(jià)后可能是意外的好結(jié)果。

數(shù)據(jù)隱含價(jià)值，技術(shù)發(fā)現(xiàn)價(jià)值，應(yīng)用實(shí)現(xiàn)價(jià)值。數(shù)據(jù)、技術(shù)和應(yīng)用是大數(shù)據(jù)的三個(gè)內(nèi)涵。大數(shù)據(jù)環(huán)境下，數(shù)據(jù)挖掘的對(duì)象（即數(shù)據(jù)）有了新的特征，這決定了大數(shù)據(jù)挖掘?qū)⒈毁x予新的含義，相應(yīng)的，也產(chǎn)生了新的挖掘算法和模型。

因此，大數(shù)據(jù)挖掘可以定義為：從大數(shù)據(jù)集中尋找其規(guī)律的技術(shù)。將“大數(shù)據(jù)集”強(qiáng)調(diào)為大數(shù)據(jù)挖掘的對(duì)象。

需要注意的是，在大數(shù)據(jù)挖掘中，“尋找”變得更具挑戰(zhàn)性，因?yàn)?，大?shù)據(jù)具有高價(jià)值、低密度的特性，即規(guī)律不是顯而易見的，而是隱含在大數(shù)據(jù)之中，需要用新的方法和技術(shù)去尋找。同樣的，對(duì)挖掘到的“規(guī)律”沒有做任何描述或限制，大數(shù)據(jù)的價(jià)值是更加難以估量的，需要在大數(shù)據(jù)的應(yīng)用中去實(shí)現(xiàn)。

1.2 數(shù)據(jù)挖掘的特點(diǎn)

“大量”、“多源、異質(zhì)、復(fù)雜”、“動(dòng)態(tài)”、“價(jià)值高但價(jià)值密度低”的數(shù)據(jù)特征決定了當(dāng)前的數(shù)據(jù)挖掘技術(shù)具有如下技術(shù)特征：

高性能計(jì)算支持的分布式；
并行數(shù)據(jù)挖掘技術(shù)；
面向多源、不完整數(shù)據(jù)的不確定數(shù)據(jù)挖掘技術(shù)；
面向復(fù)雜數(shù)據(jù)組織形式的圖數(shù)據(jù)挖掘技術(shù)；
面向非結(jié)構(gòu)化稀疏性的超高維數(shù)據(jù)挖掘技術(shù)；
面向價(jià)值高但價(jià)值密度低特征的特異群組挖掘技術(shù)；
面向動(dòng)態(tài)數(shù)據(jù)的實(shí)時(shí)、增量數(shù)據(jù)挖掘技術(shù)等。

（1）“大量的”與并行分布式數(shù)據(jù)挖掘算法研究

數(shù)據(jù)的“大”通常是指PB級(jí)以上的。這一特征需要更高性能的計(jì)算平臺(tái)支持，考慮大規(guī)模數(shù)據(jù)的分布式、并行處理，對(duì)數(shù)據(jù)挖掘技術(shù)帶來(lái)的挑戰(zhàn)是I/O交換、數(shù)據(jù)移動(dòng)的代價(jià)高，還需要在不同站點(diǎn)間分析數(shù)據(jù)挖掘模型間的關(guān)系。雖然以往已有并行分布式數(shù)據(jù)挖掘算法的相關(guān)研究，但是，大數(shù)據(jù)環(huán)境下，需要新的云計(jì)算基礎(chǔ)架構(gòu)支撐（例如，Hadoop、Spark等）。

（2）“多源的”與不確定數(shù)據(jù)挖掘算法研究

大數(shù)據(jù)時(shí)代，收集和獲取各種數(shù)據(jù)倍受關(guān)注，更多方式、更多類型、更多領(lǐng)域的數(shù)據(jù)被收集。不同數(shù)據(jù)源的數(shù)據(jù)由于數(shù)據(jù)獲取的方式不同、收集數(shù)據(jù)的設(shè)備不同，大數(shù)據(jù)下，挖掘的數(shù)據(jù)對(duì)象常常具有不確定、不完整的特點(diǎn)，這要求大數(shù)據(jù)挖掘技術(shù)能夠處理不確定、不完整的數(shù)據(jù)集，并且考慮多源數(shù)據(jù)挖掘模型和決策融合。

數(shù)據(jù)挖掘一直以來(lái)重視數(shù)據(jù)質(zhì)量。數(shù)據(jù)的質(zhì)量決定數(shù)據(jù)挖掘結(jié)果的價(jià)值。然而，大數(shù)據(jù)環(huán)境下，數(shù)據(jù)獲取能力逐漸高于數(shù)據(jù)分析能力。數(shù)據(jù)獲取過程中數(shù)據(jù)缺失、含有噪音難以避免，更值得注意的是，數(shù)據(jù)獲取的目標(biāo)也與以前不同，并不是針對(duì)某個(gè)特定應(yīng)用或特定任務(wù)收集的。數(shù)據(jù)填充、補(bǔ)全是困難的。因此，大數(shù)據(jù)挖掘技術(shù)要有更強(qiáng)地處理不確定、不完整數(shù)據(jù)集的能力。

（3）“復(fù)雜的”與非結(jié)構(gòu)化、超高維、稀疏數(shù)據(jù)挖掘算法研究

大數(shù)據(jù)下，來(lái)自網(wǎng)絡(luò)文本（用戶評(píng)論文本數(shù)據(jù)）、圖像、視頻的數(shù)據(jù)挖掘應(yīng)用更加廣泛，非結(jié)構(gòu)化數(shù)據(jù)給數(shù)據(jù)挖掘技術(shù)帶來(lái)了新的要求，特征抽取是非結(jié)構(gòu)化數(shù)據(jù)挖掘的重要步驟，大數(shù)據(jù)挖掘算法設(shè)計(jì)要考慮超高維特征和稀疏性。也需要新型非關(guān)系型數(shù)據(jù)庫(kù)技術(shù)的支持，通常表現(xiàn)為關(guān)系型數(shù)據(jù)庫(kù)和非關(guān)系型數(shù)據(jù)庫(kù)互為補(bǔ)充。

超高維特征分析的需求使得深度學(xué)習(xí)技術(shù)成為熱點(diǎn)。數(shù)據(jù)挖掘技術(shù)一直將統(tǒng)計(jì)學(xué)習(xí)、機(jī)器學(xué)習(xí)、人工智能等算法和技術(shù)與數(shù)據(jù)庫(kù)技術(shù)結(jié)合應(yīng)用，發(fā)現(xiàn)數(shù)據(jù)中的規(guī)律。大數(shù)據(jù)環(huán)境下，深度學(xué)習(xí)與大數(shù)據(jù)的結(jié)合，也將成為尋找大數(shù)據(jù)其中規(guī)律的重要支撐技術(shù)之一。

（4）“動(dòng)態(tài)的、演變的”與實(shí)時(shí)、增量數(shù)據(jù)挖掘算法研究

時(shí)序數(shù)據(jù)挖掘是數(shù)據(jù)挖掘領(lǐng)域的一個(gè)研究主題。然而，大數(shù)據(jù)環(huán)境下，數(shù)據(jù)的獲取更加高速，關(guān)鍵是處理數(shù)據(jù)的需求在實(shí)時(shí)性方面的要求更高。早期的數(shù)據(jù)挖掘總是能容忍分鐘級(jí)別，甚至更長(zhǎng)時(shí)延的響應(yīng)?，F(xiàn)在，許多領(lǐng)域已經(jīng)使用數(shù)據(jù)挖掘技術(shù)分析本領(lǐng)域數(shù)據(jù)，各個(gè)領(lǐng)域?qū)?shù)據(jù)挖掘結(jié)果響應(yīng)需求存在差異，不少領(lǐng)域需要有更到的響應(yīng)度，例如實(shí)時(shí)在線精準(zhǔn)廣告投放、證券市場(chǎng)高頻交易等。

（5）“高價(jià)值低密度”與聚類、不平衡分類、異常挖掘算法研究

大數(shù)據(jù)環(huán)境下，產(chǎn)生了新的數(shù)據(jù)挖掘任務(wù)。其中，特異群組是一類低密度高價(jià)值的數(shù)據(jù)，特異群組是指在眾多行為對(duì)象中，少數(shù)對(duì)象群體具有一定數(shù)量的相同或相似的行為模式，表現(xiàn)出相異于大多數(shù)對(duì)象而形成異常的組群。特異群組挖掘問題既不是異常點(diǎn)挖掘（只發(fā)現(xiàn)孤立點(diǎn)）問題也不是聚類問題（將大部分?jǐn)?shù)據(jù)分組），是一類全新的問題。

1.3 數(shù)據(jù)挖掘的任務(wù)

下面給出典型數(shù)據(jù)挖掘任務(wù)的簡(jiǎn)要描述。

（1）關(guān)聯(lián)分析：尋找數(shù)據(jù)項(xiàng)之間的關(guān)聯(lián)關(guān)系。例如：我們可以通過對(duì)交易數(shù)據(jù)的分析可能得出“86％買‘啤酒’的人同時(shí)也買‘尿布’”這樣一條“啤酒”和“尿布”之間的關(guān)聯(lián)規(guī)則。

（2）聚類分析：根據(jù)最大化簇內(nèi)的相似性、最小化簇間的相似性的原則將數(shù)據(jù)對(duì)象集合劃分成若干個(gè)簇的過程。例如：我們可以通過對(duì)電子商務(wù)網(wǎng)站用戶的注冊(cè)數(shù)據(jù)和購(gòu)買行為數(shù)據(jù)的分析，劃分消費(fèi)者的消費(fèi)層次為節(jié)約時(shí)間型消費(fèi)等。

（3）分類分析：找出描述并區(qū)分?jǐn)?shù)據(jù)類的模型（可以是顯式或隱式），以便能夠使用模型預(yù)測(cè)給定數(shù)據(jù)所屬的數(shù)據(jù)類。例如：P2P網(wǎng)貸平臺(tái)可以將貸款人的信用等級(jí)分類為：AA（信用水平最高級(jí)，代表極低的違約率）、A、B、C、D、E、HR（低信用水平，潛在的違約風(fēng)險(xiǎn)最高級(jí)）。分類分析通過對(duì)這些數(shù)據(jù)及其類標(biāo)簽的分析給出一個(gè)信用等級(jí)的顯式模型，例如：“AA級(jí)貸款者是年收入在××元到×××元，年齡在×××至×××，居住面積達(dá)×××平方米以上的人”。這樣，對(duì)于一個(gè)新提交信用審核申請(qǐng)的貸款人，就可以根據(jù)他的特征預(yù)測(cè)其信用等級(jí)。

（4）異常分析：一個(gè)數(shù)據(jù)集中往往包含一些特別的數(shù)據(jù)，其行為和模式與一般的數(shù)據(jù)不同，這些數(shù)據(jù)稱為“異?！?。對(duì)“異?！睌?shù)據(jù)的分析稱為“異常分析”。例如，在對(duì)銀行客戶信用卡刷卡記錄數(shù)據(jù)進(jìn)行監(jiān)測(cè)的過程中，發(fā)現(xiàn)某一筆交易明顯不同于以往的消費(fèi)模式。

（5）演變分析：描述時(shí)間序列數(shù)據(jù)隨時(shí)間變化的數(shù)據(jù)的規(guī)律或趨勢(shì)，并對(duì)其建模。包括時(shí)間序列趨勢(shì)分析、周期模式匹配等。例如：通過對(duì)交易數(shù)據(jù)的演變分析，可能會(huì)得到89％的情況下，股票X上漲一周左右后，股票Y會(huì)上漲”這樣一條序列知識(shí)，或者通過對(duì)股票某一歷史交易時(shí)間區(qū)間的價(jià)格變化情況，可以預(yù)測(cè)出下一交易日的價(jià)格。

（6）特異群組分析：發(fā)現(xiàn)數(shù)據(jù)對(duì)象集中明顯不同于大部分?jǐn)?shù)據(jù)對(duì)象（不具有相似性）的數(shù)據(jù)對(duì)象（稱為特異對(duì)象）的過程。一個(gè)數(shù)據(jù)集中大部分?jǐn)?shù)據(jù)對(duì)象不相似，而每個(gè)特異群組中的對(duì)象是相似的。這是一種大數(shù)據(jù)環(huán)境下的新型數(shù)據(jù)挖掘任務(wù)。

2. 法以立本

法就是數(shù)據(jù)挖掘的流程與標(biāo)準(zhǔn)化步驟。

數(shù)據(jù)挖掘不是一個(gè)從數(shù)據(jù)到模型、再到結(jié)果的簡(jiǎn)單過程，而是一個(gè)循環(huán)往復(fù)逐步求精的過程。該過程從大型數(shù)據(jù)庫(kù)中挖掘先前未知的，有效的，可實(shí)用的信息，并使用這些信息做出決策或豐富知識(shí)。在實(shí)施數(shù)據(jù)挖掘之前，先決定采取什么樣的步驟，每一步都做什么，確定目標(biāo)和實(shí)施方案。一般地，數(shù)據(jù)挖掘在具體應(yīng)用時(shí)，大體分為以下幾個(gè)階段：

數(shù)據(jù)選擇。數(shù)據(jù)選擇的目的是確定發(fā)現(xiàn)任務(wù)的操作對(duì)象，即目標(biāo)數(shù)據(jù)，是根據(jù)用戶的需求從數(shù)據(jù)庫(kù)中提取與數(shù)據(jù)挖掘相關(guān)的數(shù)據(jù)。在此過程中，可以利用一些數(shù)據(jù)庫(kù)操作對(duì)數(shù)據(jù)進(jìn)行處理，形成真正有效的數(shù)據(jù)庫(kù)。
數(shù)據(jù)預(yù)處理。主要是對(duì)前面階段所產(chǎn)生的數(shù)據(jù)進(jìn)行加工，檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性，對(duì)其中的噪聲數(shù)據(jù)進(jìn)行處理，對(duì)丟失的數(shù)據(jù)利用統(tǒng)計(jì)方法進(jìn)行填補(bǔ)，形成有待挖掘的數(shù)據(jù)庫(kù)。當(dāng)數(shù)據(jù)挖掘的對(duì)象是數(shù)據(jù)倉(cāng)庫(kù)時(shí)，一般地，數(shù)據(jù)預(yù)處理在生成數(shù)據(jù)倉(cāng)庫(kù)時(shí)就已經(jīng)完成了。
數(shù)據(jù)挖掘。根據(jù)用戶需求，確定數(shù)據(jù)挖掘的目的是發(fā)現(xiàn)何種類型的知識(shí)，因?yàn)閷?duì)數(shù)據(jù)挖掘的不同要求會(huì)在具體的知識(shí)發(fā)現(xiàn)過程中采用不同的數(shù)據(jù)挖掘算法。算法包括選取合適的模型和參數(shù)，并使得數(shù)據(jù)挖掘算法與整個(gè)KDD的評(píng)判標(biāo)準(zhǔn)相一致。然后，運(yùn)用選定的知識(shí)發(fā)現(xiàn)算法，從數(shù)據(jù)庫(kù)中提取出用戶所需要的知識(shí)，這些知識(shí)可以用一種特定的方式表示或使用一些常用的表示方式，如產(chǎn)生式規(guī)則等。
知識(shí)評(píng)價(jià)。該過程主要用于對(duì)所獲得的規(guī)則進(jìn)行價(jià)值評(píng)定，以決定所得到的規(guī)則是否存入基礎(chǔ)知識(shí)庫(kù)，主要通過人機(jī)交互界面由專家依靠經(jīng)驗(yàn)來(lái)評(píng)價(jià)。數(shù)據(jù)挖掘階段發(fā)現(xiàn)出來(lái)的模式，經(jīng)過評(píng)估，可能存在冗余或無(wú)關(guān)的模式，這時(shí)需要將其剔除；也有可能模式不滿足用戶要求，這時(shí)需要退回前面的步驟。該階段還需要對(duì)挖掘出的模式進(jìn)行解釋，使得用戶更容易理解和應(yīng)用。

數(shù)據(jù)挖掘全過程的幾個(gè)步驟可以進(jìn)一步歸納為3個(gè)步驟：數(shù)據(jù)挖掘預(yù)處理、數(shù)據(jù)挖掘和數(shù)據(jù)挖掘后處理。數(shù)據(jù)挖掘質(zhì)量的好壞有兩個(gè)影響因素：一是所采用的數(shù)據(jù)挖掘技術(shù)的有效性；二是用于挖掘的數(shù)據(jù)的質(zhì)量和數(shù)量。

整個(gè)挖掘過程是一個(gè)不斷反饋的過程。比如，用戶在挖掘途中發(fā)現(xiàn)選擇的數(shù)據(jù)不太好，或使用的挖掘技術(shù)產(chǎn)生不了期望的結(jié)果，這時(shí)用戶需要重復(fù)先前的過程，甚至從頭開始。

以上的數(shù)據(jù)挖掘過程模型主要是從數(shù)據(jù)挖掘技術(shù)角度來(lái)闡述的，還可以從另外一個(gè)角度來(lái)敘述數(shù)據(jù)挖掘與具體業(yè)務(wù)之間緊密聯(lián)系，即數(shù)據(jù)挖掘的建模標(biāo)準(zhǔn)──CRISP-DM。

CRISP-DM (Cross-Industry StandardProcess for Data Mining) 意為“跨行業(yè)數(shù)據(jù)挖掘的標(biāo)準(zhǔn)化過程”。在CRISP-DM規(guī)劃中，數(shù)據(jù)挖掘過程中每個(gè)必要的步驟均被標(biāo)準(zhǔn)化，它主要倡導(dǎo)的理念是：提倡標(biāo)準(zhǔn)過程行業(yè)內(nèi)共享；建立應(yīng)用與背景無(wú)關(guān)的標(biāo)準(zhǔn)過程；建立與所用數(shù)據(jù)挖掘工具無(wú)關(guān)的標(biāo)準(zhǔn)過程；建立具有普遍指導(dǎo)意義的標(biāo)準(zhǔn)化過程；從方法學(xué)的角度強(qiáng)調(diào)實(shí)施數(shù)據(jù)挖掘項(xiàng)目的方法和步驟。具體的，CRISP-DM分為以下6個(gè)步驟：

業(yè)務(wù)理解。業(yè)務(wù)理解是從業(yè)務(wù)角度來(lái)理解數(shù)據(jù)挖掘的目標(biāo)和要求，再轉(zhuǎn)化為數(shù)據(jù)挖掘問題。
數(shù)據(jù)理解。數(shù)據(jù)理解的任務(wù)是對(duì)原始數(shù)據(jù)進(jìn)行收集和熟悉，檢查數(shù)據(jù)質(zhì)量，對(duì)數(shù)據(jù)進(jìn)行初步探索，并發(fā)現(xiàn)可能存在的、有分析價(jià)值的數(shù)據(jù)特征，以形成對(duì)隱藏信息的假設(shè)。
數(shù)據(jù)準(zhǔn)備。數(shù)據(jù)準(zhǔn)備階段初步完成變量的選擇和導(dǎo)出變量的生成，同時(shí)對(duì)一些存在數(shù)據(jù)質(zhì)量問題的字段進(jìn)行相應(yīng)的處理。
建立模型。建立預(yù)測(cè)模型，如回歸模型、決策樹、神經(jīng)網(wǎng)絡(luò)等。
模型評(píng)估。選擇最好的最終模型，需要快速簡(jiǎn)單地應(yīng)用和比較不同方法，比較產(chǎn)生的結(jié)果，然后對(duì)得到的不同規(guī)則給予商業(yè)評(píng)價(jià)。從可用的統(tǒng)計(jì)和非統(tǒng)計(jì)模型中找到最好的分析模型，對(duì)于產(chǎn)生最終決策是必需的。
應(yīng)用部署。應(yīng)用部署的目標(biāo)是將預(yù)測(cè)模型生成的結(jié)果以一定的形式展現(xiàn)給業(yè)務(wù)人員使用。因此，應(yīng)當(dāng)從業(yè)務(wù)的角度來(lái)關(guān)注模型發(fā)布的形式。

3. 術(shù)以立策

術(shù)就是數(shù)據(jù)挖掘的具體方法。

（1）關(guān)聯(lián)分析

自然界中某種事情發(fā)生時(shí)其他時(shí)間也常常會(huì)發(fā)生，這樣一種練習(xí)稱為關(guān)聯(lián)。這種反映事件之間互相關(guān)聯(lián)的知識(shí)稱為關(guān)聯(lián)型知識(shí)。例如，在某超市的交易記錄中，發(fā)現(xiàn)“86%購(gòu)買啤酒的人同時(shí)也購(gòu)買尿布”，這種規(guī)律成為指導(dǎo)超市銷售決策和管理的有效輔助性知識(shí)。關(guān)聯(lián)分析（Association analysis）技術(shù)就是在諸如商場(chǎng)交易這樣的大規(guī)模數(shù)據(jù)中分析并找到有價(jià)值的關(guān)聯(lián)型知識(shí)。最著名的應(yīng)用是沃爾瑪（Wal-Mart）公司通過收集消費(fèi)者購(gòu)買其產(chǎn)品的歷史數(shù)據(jù)，形成消費(fèi)者的消費(fèi)檔案，并對(duì)這些歷史數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析而了解消費(fèi)者的購(gòu)買模式。

關(guān)聯(lián)分析的目的是找到用戶感興趣的關(guān)聯(lián)規(guī)則，輔助用戶管理決策。頻繁模式挖掘是關(guān)聯(lián)分析的關(guān)鍵步驟，比較經(jīng)典的頻繁模式挖掘算法包括：Apriori算法和FP-Growth算法。

（2）聚類分析

聚類分析是人類一向基本的認(rèn)知活動(dòng)（如區(qū)分動(dòng)物和植物），通過適當(dāng)?shù)木垲惙治?，人們更容易掌握事物的?nèi)部規(guī)律。聚類分析已經(jīng)被廣泛應(yīng)用于社會(huì)學(xué)、經(jīng)濟(jì)學(xué)、電子商務(wù)等多個(gè)領(lǐng)域，如在市場(chǎng)營(yíng)銷中，根據(jù)客戶的購(gòu)物積分卡記錄中的購(gòu)物次數(shù)、時(shí)間、性別、年齡、職業(yè)、購(gòu)物種類、金額等信息，進(jìn)行聚類分析，幫助市場(chǎng)分析人員從交易數(shù)據(jù)庫(kù)中發(fā)現(xiàn)不同的客戶群，針對(duì)不同群體制定營(yíng)銷策略，提高客戶對(duì)商場(chǎng)商業(yè)活動(dòng)的響應(yīng)率。此外，聚類分析在生物學(xué)領(lǐng)域應(yīng)用日益突出，如通過對(duì)基因的聚類分析，獲得對(duì)種群的認(rèn)識(shí)等。

聚類分析是根據(jù)最大化類內(nèi)的相似性、最小化類間的相似性的原則將數(shù)據(jù)對(duì)象聚類或分組，所形成的每個(gè)簇可以看作一個(gè)數(shù)據(jù)對(duì)象類，用顯示或隱式的方法描述它們。

相似度用于判斷兩個(gè)樣本之間的差異程度，它是定義一個(gè)簇的基礎(chǔ)，聚類分析過程的質(zhì)量取決于對(duì)相似度度量標(biāo)準(zhǔn)的選擇。通常使用“距離”來(lái)描述數(shù)據(jù)之間的相似程度。常用的距離度量標(biāo)準(zhǔn)有歐幾里得距離、Minkowski距離等。常用的聚類算法包括：基于層次的最領(lǐng)近算法、BIRCH算法、k-medoids算法、基于密度的OPTICS算法等。

（3）分類分析

“啤酒尿布”的故事啟發(fā)銷售商采用關(guān)聯(lián)分析了解客戶的購(gòu)買習(xí)慣，進(jìn)而選擇更優(yōu)的營(yíng)銷方案，但僅由這種技術(shù)來(lái)制定營(yíng)銷方案任然是不夠的，銷售商還要考慮需要對(duì)哪些客戶采用哪種營(yíng)銷方案，這需要分類技術(shù)，將諸如客戶或營(yíng)銷方案等分門別類，為各類客戶提供個(gè)性化方案。分類技術(shù)已經(jīng)在各個(gè)行業(yè)得到了廣泛應(yīng)用。例如，在醫(yī)療診斷中，用分類預(yù)測(cè)申請(qǐng)者的信用等級(jí)等。

分類是根據(jù)已有的數(shù)據(jù)樣本集的特點(diǎn)建立一個(gè)能夠把數(shù)據(jù)集中的數(shù)據(jù)項(xiàng)映射到某一個(gè)給定類別的分類函數(shù)或構(gòu)造一個(gè)分類模型（或分類器classifier）的技術(shù)，從而對(duì)未知類別的樣本賦予類別，以更好的輔助決策。

分類器的構(gòu)造分為模型訓(xùn)練階段（分析輸入數(shù)據(jù)，通過在訓(xùn)練數(shù)據(jù)集中的數(shù)據(jù)表現(xiàn)出來(lái)的特性，為每一個(gè)類找到一種準(zhǔn)確的描述或模型）和測(cè)試階段（使用模型分類的階段，利用類別的描述或模型對(duì)測(cè)試數(shù)據(jù)進(jìn)行分類）。

常見的分類模型的構(gòu)造方法有決策樹方法、統(tǒng)計(jì)方法、神經(jīng)網(wǎng)絡(luò)方法等。不同分類模型有不同特點(diǎn)，數(shù)據(jù)樣本分類的結(jié)果也不同，評(píng)價(jià)分類模型的尺度主要包括：預(yù)測(cè)準(zhǔn)確度、計(jì)算復(fù)雜度、模型描述的簡(jiǎn)潔度等。

（4）異常分析

前面討論的關(guān)聯(lián)、分類、聚類分析等數(shù)據(jù)挖掘技術(shù)研究的問題主要是針對(duì)數(shù)據(jù)集中的大部分對(duì)象，而數(shù)據(jù)集中小部分明顯不同于其他數(shù)據(jù)的對(duì)象（異常對(duì)象）常常被人們忽略或作為噪音消除。事實(shí)上，一些應(yīng)用中，這些異常對(duì)象可能包含比正常數(shù)據(jù)更優(yōu)價(jià)值的信息，比如信用卡欺詐檢測(cè)問題中，相對(duì)被竊前的使用模式而言，被竊后的使用模式很可能是個(gè)異常點(diǎn)，因此可通過識(shí)別這個(gè)異常點(diǎn)檢測(cè)信用卡是否被竊。異常分析已經(jīng)成為數(shù)據(jù)挖掘中的一個(gè)重要方面，它是在諸如信用卡使用模式這樣的大量數(shù)據(jù)中發(fā)現(xiàn)明顯不同于其他數(shù)據(jù)的異常對(duì)象的技術(shù)。

一個(gè)數(shù)據(jù)集中包含的一些特別的數(shù)據(jù)稱為“異常”，它們的行為和模式與一般的數(shù)據(jù)不同，它們又不同于聚類算法中的“噪音”，不依賴于是否存在簇。異常分析算法主要包括基于統(tǒng)計(jì)的異常分析方法、基于偏差的異常分析方法、基于距離的異常分析方法以及基于密度的異常分析方法等。

（5）特異群組挖掘

特異群組挖掘在證券金融、醫(yī)療保險(xiǎn)、智能交通、社會(huì)網(wǎng)絡(luò)和生命科學(xué)等研究領(lǐng)域具有重要應(yīng)用價(jià)值。特異群組挖掘與聚類、異常挖掘都屬于根據(jù)數(shù)據(jù)對(duì)象的相似性來(lái)劃分?jǐn)?shù)據(jù)集的數(shù)據(jù)挖據(jù)任務(wù)，但是，特異群組挖掘在問題定義、算法設(shè)計(jì)和應(yīng)用效果方面不同于聚類和異常等挖掘任務(wù)。

挖掘高價(jià)值、低密度的數(shù)據(jù)對(duì)象是大數(shù)據(jù)的一項(xiàng)重要工作，甚至高價(jià)值、低密度常常被用于描述大數(shù)據(jù)的特征。將大數(shù)據(jù)集中的少部分具有相似性的對(duì)象劃分到若干個(gè)組中，而大部分?jǐn)?shù)據(jù)對(duì)象不在任何組中，也不和其他對(duì)象相似，將這樣的組群稱為特異群組，實(shí)現(xiàn)這一挖掘需求的數(shù)據(jù)挖掘任務(wù)被稱為特異群組挖掘。需要強(qiáng)調(diào)的是，特異群組是指由給定大數(shù)據(jù)集里面少數(shù)相似的數(shù)據(jù)對(duì)象組成的、表現(xiàn)出相異于大多數(shù)數(shù)據(jù)對(duì)象而形成異常的群組，是一種高價(jià)值、低密度的數(shù)據(jù)形態(tài)。

大數(shù)據(jù)的特異群組挖掘具有廣泛的應(yīng)用背景。例如，在證券市場(chǎng)中，特異群組常常表現(xiàn)為合謀操縱（多帳戶聯(lián)合操縱）、基金“老鼠倉(cāng)”等。

（6）演變分析

描述發(fā)展規(guī)律和趨勢(shì)是一種重要的預(yù)測(cè)形式，演變分析（Evolution analysis）是一種用于描述對(duì)象行為隨時(shí)間變化的規(guī)律或趨勢(shì)，并對(duì)其建模，以預(yù)測(cè)對(duì)象行為的未來(lái)形式的技術(shù)。例如，通過對(duì)股票交易數(shù)據(jù)的演變分析，可能會(huì)得到“89%情況下，股票X上漲一周左右后，股票Y會(huì)上漲”的一條知識(shí)。演變分析主要包括因果分析、時(shí)間序列分析等。

因果分析方法是研究當(dāng)某個(gè)或某些因素發(fā)生變化時(shí)，對(duì)其他因素的影響?；貧w分析是一類重要的因果分析方法，它是從各變量的互相關(guān)系出發(fā)，通過分析與被預(yù)測(cè)變量有聯(lián)系的現(xiàn)象的動(dòng)態(tài)趨勢(shì)，推算出被預(yù)測(cè)變量未來(lái)狀態(tài)的一種預(yù)測(cè)法?；貧w分析預(yù)測(cè)法以來(lái)一個(gè)假設(shè)，即要預(yù)測(cè)的變量與其他一個(gè)或多個(gè)變量之間存在因果關(guān)系。

時(shí)間序列分析是通過分析調(diào)查收集的已知?dú)v史和現(xiàn)狀方面的資料，研究其演變規(guī)律，據(jù)此預(yù)測(cè)對(duì)象的未來(lái)發(fā)展趨勢(shì)。使用時(shí)間序列分析法基于一個(gè)假設(shè)，即事物在過去如何隨時(shí)間變化，那么在今后也會(huì)同樣的方式繼續(xù)變化下去。

ICDM（國(guó)際數(shù)據(jù)挖掘大會(huì)）2006年從18種提名的數(shù)據(jù)挖掘算法中投票選出了十大算法。這18中提名數(shù)據(jù)挖掘算法分屬10大數(shù)據(jù)挖掘主題，高亮部分即為最終選出的十大算法：

分類（Classification）

C4.5
CART
K Nearest Neighbours
Naive Bayes

統(tǒng)計(jì)學(xué)習(xí)（Statistical Learning）

關(guān)聯(lián)分析（Association Analysis）

Apriori
FP-Tree

鏈接挖掘（Link Mining）

PageRank
HITS

聚類（Clustering）

K-Means
BIRCH

Bagging and Boosting

AdaBoost

序列模式（Sequential Patterns）

GSP
Prefix Span

集成挖掘（Integrated Mining）

粗糙集（Rough Sets）

Finding Reduct

圖挖掘（Graph Mining）

gSpan

4. 器以成事

器就是數(shù)據(jù)挖掘的具體工具。例如，傳統(tǒng)商業(yè)分析工具有Matlab、SAS和SPSS，開源的數(shù)據(jù)挖掘工具有R、python、Weka等。

具體可以參見：《數(shù)據(jù)分析中的Excel、R、Python、SPSS、SAS和SQL》。

參考文獻(xiàn)

Jiawei Han，Micheling Kamber, 數(shù)據(jù)挖掘概念與技術(shù)（原書第3版） [Data Mining Concepts and Techniques Third Edition], 機(jī)械工業(yè)出版社, 2012.
賈雙成, 王奇, 數(shù)據(jù)挖掘核心技術(shù)揭秘, 機(jī)械工業(yè)出版社, 2015.
熊赟, 朱揚(yáng)勇, 陳志淵, 大數(shù)據(jù)挖掘, 上?？茖W(xué)技術(shù)出版社, 2016.

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：讀書與思考001 > 《未來(lái)》

舉報(bào)/認(rèn)領(lǐng)