|
0 引言 知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database,KDD)、數(shù)據(jù)挖掘(Data Mining,DM,又稱數(shù)據(jù)開(kāi)采),是一種以計(jì)算機(jī)為工具,將人工智能、統(tǒng)計(jì)、計(jì)算機(jī)及數(shù)據(jù)庫(kù)等技術(shù)相結(jié)合,旨在從數(shù)據(jù)中提取總結(jié)出新信息的技術(shù)。知識(shí)發(fā)現(xiàn)這個(gè)詞是1989年8月美國(guó)底特律的第一屆KDD國(guó)際學(xué)術(shù)會(huì)議上正式形成的。1995年在加拿大召開(kāi)了第一屆知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘國(guó)際學(xué)術(shù)會(huì)議,此后,知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘開(kāi)始流行起來(lái)。。 顧名思義,知識(shí)發(fā)現(xiàn)的目的是從數(shù)據(jù)中發(fā)現(xiàn)知識(shí)。而數(shù)據(jù)挖掘則是知識(shí)發(fā)現(xiàn)中的一個(gè)特定步驟。二者都是從數(shù)據(jù)中發(fā)現(xiàn)知識(shí),它們的區(qū)別可以這樣來(lái)理解:知識(shí)發(fā)現(xiàn)比數(shù)據(jù)挖掘更廣義,而數(shù)據(jù)挖掘則是更具體、更深入的概念。 現(xiàn)在的科學(xué)技術(shù)已越來(lái)越體現(xiàn)出這樣一個(gè)特點(diǎn):傳統(tǒng)學(xué)科之間相互滲透整合而形成新的研究領(lǐng)域或?qū)W科,這種現(xiàn)象越來(lái)越普遍。知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘在一定程度上可以作為這方面的一個(gè)例子。 企業(yè)在長(zhǎng)期的業(yè)務(wù)過(guò)程中積攢了大量的數(shù)據(jù),人們希望這些數(shù)據(jù)能夠提供更深入的信息,以輔助業(yè)務(wù)決策。同時(shí),由于計(jì)算機(jī)技術(shù)的廣泛運(yùn)用,對(duì)企業(yè)已經(jīng)積累起來(lái)的越來(lái)越多的數(shù)據(jù),通過(guò)運(yùn)用計(jì)算機(jī)來(lái)進(jìn)行分析、發(fā)現(xiàn)規(guī)律、發(fā)現(xiàn)知識(shí)已經(jīng)成為可能的事。但是,我們并不一定知道這些有價(jià)值的信息是什么,結(jié)論是什么。當(dāng)今市場(chǎng)上大多數(shù)分析工具都只能驗(yàn)證假設(shè),這些假設(shè)局限于分析者自身的經(jīng)驗(yàn)、知識(shí)背景,甚至是想象。如何克服以驗(yàn)證假設(shè)為主的分析方法的局限性,從大量數(shù)據(jù)中提取過(guò)去不知道、但可以理解的、可以采取行動(dòng)帶來(lái)效益的知識(shí),從而指導(dǎo)今后的行動(dòng),是目前存在的一個(gè)巨大需求。在這個(gè)背景下,以IBM為代表的一些機(jī)構(gòu)經(jīng)過(guò)數(shù)年研究,首先推出了相應(yīng)軟件,并將其產(chǎn)品冠予數(shù)據(jù)挖掘這個(gè)名字。 數(shù)據(jù)挖掘的目的是從巨大的信息寶庫(kù)中揭示出未被人知的關(guān)系和模式,通過(guò)對(duì)大量事實(shí)、關(guān)系、趨勢(shì)、模式、例外和異常的分析提煉來(lái)完成。為完成這項(xiàng)工作而開(kāi)發(fā)的一些軟件采用了一系列計(jì)算機(jī)技術(shù)、統(tǒng)計(jì)技術(shù)、人工智能、集合論、信息論、模糊數(shù)學(xué)等方法。而且,幾乎只要一種方法可能會(huì)對(duì)數(shù)據(jù)挖掘有用,就會(huì)被采用到數(shù)據(jù)挖掘中來(lái)。這就使數(shù)據(jù)挖掘成了一個(gè)內(nèi)容龐雜、發(fā)展迅速的技術(shù)領(lǐng)域,據(jù)信大約每3個(gè)月就有一種新技術(shù)進(jìn)入市場(chǎng)。但到目前為止,KDD與DM的主體技術(shù)框架仍然主要是基于人工智能、統(tǒng)計(jì)方法、計(jì)算機(jī)技術(shù)與數(shù)據(jù)庫(kù)技術(shù)的。 1 知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘技術(shù)發(fā)展 簡(jiǎn)史計(jì)算機(jī)的應(yīng)用發(fā)展大致可歸結(jié)為三個(gè)階段:數(shù)值計(jì)算——數(shù)據(jù)處理——知識(shí)處理。數(shù)值計(jì)算偏重于算法研究,實(shí)現(xiàn)數(shù)值計(jì)算的典型語(yǔ)言有FORTRAN、PASCAL、C等。數(shù)據(jù)處理面對(duì)的是大量數(shù)據(jù),典型的語(yǔ)言有數(shù)據(jù)庫(kù)語(yǔ)言。以數(shù)據(jù)庫(kù)為基礎(chǔ),出現(xiàn)了所謂的管理信息系統(tǒng)(MIS),它是一個(gè)由人和計(jì)算機(jī)相結(jié)合的對(duì)管理信息進(jìn)行收集、傳遞、儲(chǔ)存、加工、維護(hù)和使用的系統(tǒng)。可以方便地對(duì)數(shù)據(jù)庫(kù)進(jìn)行查詢、修改、匯總,及時(shí)提供所需要的計(jì)算結(jié)果,提高管理效率。對(duì)于復(fù)雜系統(tǒng),光靠人工提出計(jì)算一些指標(biāo)來(lái)進(jìn)行管理有時(shí)還不夠。而需要建立數(shù)學(xué)模型,通過(guò)計(jì)算機(jī)對(duì)模型進(jìn)行優(yōu)化求解來(lái)尋找最佳方案。典型的例子是運(yùn)籌學(xué)中的線性規(guī)劃、動(dòng)態(tài)規(guī)劃等。運(yùn)用這些手段,合理調(diào)配人力、物力、財(cái)力等資源,以便更好地實(shí)現(xiàn)系統(tǒng)目標(biāo)。這就是所謂決策支持系統(tǒng)(DSS),它由三個(gè)基本部分構(gòu)成:問(wèn)題處理及人機(jī)交互部分+模型庫(kù)+數(shù)據(jù)庫(kù)。 數(shù)據(jù)庫(kù)運(yùn)用的時(shí)間越久,積累的數(shù)據(jù)就越多。隨著數(shù)據(jù)的積累,希望從這些數(shù)據(jù)中提取出有用信息的需求越來(lái)越強(qiáng)烈。1992年Inmon在“建立數(shù)據(jù)倉(cāng)庫(kù)”一書(shū)中提出了數(shù)據(jù)倉(cāng)庫(kù)概念。數(shù)據(jù)倉(cāng)庫(kù)是面向主題的、集成的、穩(wěn)定的歷史數(shù)據(jù)的集合,用于管理決策。它將分散的企業(yè)內(nèi)各種跨平臺(tái)的數(shù)據(jù)經(jīng)過(guò)重新組合和加工,構(gòu)成面向決策的數(shù)據(jù)集合。數(shù)據(jù)倉(cāng)庫(kù)最根本的特點(diǎn)是物理地存放數(shù)據(jù),而且這些數(shù)據(jù)并非是最新的、專有的,而是來(lái)源于許多其它的數(shù)據(jù)庫(kù)。 數(shù)據(jù)倉(cāng)庫(kù)的建立并不是要取代原有的數(shù)據(jù)庫(kù),而是要建立一個(gè)較全面、完善的信息應(yīng)用平臺(tái),用于支持高層決策分析。數(shù)據(jù)倉(cāng)庫(kù)是數(shù)據(jù)庫(kù)技術(shù)的一種新的應(yīng)用,采用數(shù)據(jù)庫(kù)管理系統(tǒng)來(lái)管理其中的數(shù)據(jù)。它有幾個(gè)特點(diǎn):1)面向主題:如保險(xiǎn)公司應(yīng)用數(shù)據(jù)是人壽保險(xiǎn)、車險(xiǎn)、健康險(xiǎn)等,而數(shù)據(jù)倉(cāng)庫(kù)主題可以是:客戶、保險(xiǎn)金、索賠等。2)集成:統(tǒng)一數(shù)據(jù)結(jié)構(gòu)和編碼等。3)穩(wěn)定:一旦數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù),一般不再更新。 4)數(shù)據(jù)量大:10GB、TB級(jí)。另外,它還需要相應(yīng)的前端訪問(wèn)工具,這主要包括可視化工具、聯(lián)機(jī)分析處理等。可視化工具是用圖形的形式展示數(shù)據(jù),以期了解數(shù)據(jù)結(jié)構(gòu)的特點(diǎn)。聯(lián)機(jī)分析處理可以進(jìn)行靈活的在線分析,如多維數(shù)據(jù)的切片切塊。 從這些大量積累的歷史數(shù)據(jù)中提取出有用的信息,這就是知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘的任務(wù)。它們屬于知識(shí)處理的范圍。知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘除了運(yùn)用上述訪問(wèn)工具之外,還廣泛使用人工智能、統(tǒng)計(jì)等技術(shù)。 人工智能始于50年代,人工智能概念是在1956年Dartmouth大學(xué)召開(kāi)的研討會(huì)上首次提出來(lái)的。當(dāng)時(shí)也出現(xiàn)了一批研究成果,例如: Newell等人的邏輯理論程序系統(tǒng),于1956年證明了名著《數(shù)學(xué)原理》第2章52條定理中的38條,并于1963年完成全部52條定理的證明。Samuel研制的跳棋程序,可以積累經(jīng)驗(yàn)自動(dòng)學(xué)習(xí),該程序于1959年擊敗Samuel本人,1962年擊敗一個(gè)州冠軍并因而引起轟動(dòng)。另外還有求解不定積分、三角函數(shù)、代數(shù)方程等問(wèn)題的“通用問(wèn)題求解程序GPS”和“LISP表處理語(yǔ)言”等。但不久,因?yàn)檠芯颗龅搅死щy(例如Samuel的跳棋程序贏了州冠軍后沒(méi)能贏全國(guó)冠軍、機(jī)器翻譯結(jié)果不佳等),人們的熱情降低了,人工智能走向低潮。60年代末70年代專家系統(tǒng)的出現(xiàn),開(kāi)始了人工智能研究的新一輪高潮,出現(xiàn)了大批成功的專家系統(tǒng)應(yīng)用案例。80年代后期,隨著人工神經(jīng)網(wǎng)絡(luò)研究的重新復(fù)蘇,人工智能的研究也獲得長(zhǎng)足發(fā)展。當(dāng)然,人工神經(jīng)網(wǎng)絡(luò)正在逐步成為一個(gè)獨(dú)立學(xué)科。專家系統(tǒng)、機(jī)器學(xué)習(xí)等人工智能的分支學(xué)科也在迅速發(fā)展,它們共同豐富著人工智能技術(shù)。 典型的專家系統(tǒng)由三部分組成:知識(shí)庫(kù)+推理機(jī)+人機(jī)接口,這有點(diǎn)類似前面提到的決策支持系統(tǒng)。目前專家系統(tǒng)的主要應(yīng)用領(lǐng)域有:翻譯、預(yù)測(cè)、診斷、設(shè)計(jì)、控制。專家系統(tǒng)面臨的主要困難包括:知識(shí)表示(規(guī)則形式、謂詞邏輯、語(yǔ)義網(wǎng)絡(luò)……)和知識(shí)獲取。 人工神經(jīng)網(wǎng)絡(luò)是人工智能研究的又一個(gè)成果,它可以完成類似統(tǒng)計(jì)學(xué)中的判別、回歸、聚類等功能。由于它是非線性模型,一般認(rèn)為它比傳統(tǒng)的統(tǒng)計(jì)學(xué)工具更為理想。然而,它在理論上卻遠(yuǎn)不如傳統(tǒng)統(tǒng)計(jì)學(xué)那樣自成一統(tǒng)。人工神經(jīng)網(wǎng)絡(luò)最大的長(zhǎng)處是可以自動(dòng)地從數(shù)據(jù)中學(xué)習(xí),從而形成知識(shí),這些知識(shí)有些是我們過(guò)去所不知道的,因此它具有較大的創(chuàng)新性。與之相比,專家系統(tǒng)則偏重于對(duì)已有知識(shí)的應(yīng)用,而不是形成新知識(shí)。因此有人主張,把人工神經(jīng)網(wǎng)絡(luò)整合到專家系統(tǒng)中,用人工神經(jīng)網(wǎng)絡(luò)來(lái)自動(dòng)地從數(shù)據(jù)中提取模式,然后再在這些模式的基礎(chǔ)上形成知識(shí),改進(jìn)已有的專家系統(tǒng)的功能。 知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘綜合應(yīng)用了上述這些技術(shù),從大量數(shù)據(jù)中發(fā)現(xiàn)規(guī)律,提取模式,形成新的知識(shí)。盡管現(xiàn)在已經(jīng)有了專用軟件,但這項(xiàng)技術(shù)還不能說(shuō)已經(jīng)十分成熟。 2 知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘方法簡(jiǎn)介 到了這里,我們可以理解,知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘所面對(duì)的數(shù)據(jù)一般來(lái)自數(shù)據(jù)倉(cāng)庫(kù),同時(shí),它采用了一系列方法來(lái)多角度地分析數(shù)據(jù),試圖從數(shù)據(jù)中提取模式,形成知識(shí)。 KDD的工作流程如下: 數(shù)據(jù)——目標(biāo)數(shù)據(jù)——預(yù)處理數(shù)據(jù)——變換數(shù)據(jù)——模式——知識(shí)↑ ↑ ↑ ↑ ↑選擇 預(yù)處理 變換 數(shù)據(jù)挖掘 解釋評(píng)價(jià)也有人將它的一般步驟總結(jié)為: ?、俅_定問(wèn)題,已有知識(shí)和目標(biāo)。 ?、诮⒛繕?biāo)數(shù)據(jù)集:一個(gè)或多個(gè)子集。 ③數(shù)據(jù)清理、預(yù)處理:去除噪聲、冗余。 ?、茏儞Q:減少變量數(shù)。 ?、輸?shù)據(jù)挖掘:搜索或產(chǎn)生模式或特定數(shù)據(jù)集。 ?、藿忉?解釋模式,去掉不切題的模式,形成知識(shí)。 ?、咴u(píng)價(jià):檢驗(yàn)或證明知識(shí)。 SAS公司總結(jié)的KDD步驟為“SEMMA”,即: Sample:從數(shù)據(jù)倉(cāng)庫(kù)中選取有關(guān)數(shù)據(jù)。 Explore:探索數(shù)據(jù)特征,可采用可視化方法(統(tǒng)計(jì)、多維、動(dòng)態(tài)、旋轉(zhuǎn)顯示),預(yù)處理。 Modify:問(wèn)題的明確化,調(diào)整數(shù)據(jù)和技術(shù)選擇。 Model:用統(tǒng)計(jì)、人工神經(jīng)網(wǎng)絡(luò)、決策樹(shù)等數(shù)據(jù)挖掘方法建立模型。 Assess:對(duì)模型和知識(shí)進(jìn)行評(píng)價(jià)。 從以上描述可以看出數(shù)據(jù)挖掘在知識(shí)發(fā)現(xiàn)中起到的作用。 |
|
|
來(lái)自: dolphin_xuzhen > 《數(shù)據(jù)挖掘》