小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

數(shù)據(jù)挖掘與統(tǒng)計(jì)學(xué)的關(guān)系

 網(wǎng)絡(luò)螞蟻81 2013-03-09
數(shù)據(jù)挖掘與統(tǒng)計(jì)學(xué)的關(guān)系
1、什么是數(shù)據(jù)挖掘?
     數(shù)據(jù)挖掘(Data Mining)是采用數(shù)學(xué)的、統(tǒng)計(jì)的、人工智能和神經(jīng)網(wǎng)絡(luò)等領(lǐng)域的科學(xué)方法,如記憶推理、聚類分析、關(guān)聯(lián)分析、決策樹(shù)、神經(jīng)網(wǎng)絡(luò)、基因算法等技術(shù),從大量數(shù)據(jù)中挖掘出隱含的、先前未知的、對(duì)決策有潛在價(jià)值的關(guān)系、模式和趨勢(shì),并用這些知識(shí)和規(guī)則建立用于決策支持的模型,提供預(yù)測(cè)性決策支持的方法、工具和過(guò)程。
     數(shù)據(jù)挖掘綜合了各個(gè)學(xué)科技術(shù),有很多的功能,當(dāng)前的主要功能如下:
  (1)、分類:按照分析對(duì)象的屬性、特征,建立不同的組類來(lái)描述事物。例如:銀行部門根據(jù)以前的數(shù)據(jù)將客戶分成了不同的類別,現(xiàn)在就可以根據(jù)這些來(lái)區(qū)分新申請(qǐng)貸款的客戶,以采取相應(yīng)的貸款方案。
   (2)、聚類:識(shí)別出分析對(duì)內(nèi)在的規(guī)則,按照這些規(guī)則把對(duì)象分成若干類。例如:將申請(qǐng)人分為高度風(fēng)險(xiǎn)申請(qǐng)者,中度風(fēng)險(xiǎn)申請(qǐng)者,低度風(fēng)險(xiǎn)申請(qǐng)者。
  (3)、關(guān)聯(lián)規(guī)則:關(guān)聯(lián)是某種事物發(fā)生時(shí)其他事物會(huì)發(fā)生的這樣一種聯(lián)系。例如:每天購(gòu)買啤酒的人也有可能購(gòu)買香煙,比重有多大,可以通過(guò)關(guān)聯(lián)的支持度和可信度來(lái)描述。
    (4)、預(yù)測(cè):把握分析對(duì)象發(fā)展的規(guī)律,對(duì)未來(lái)的趨勢(shì)做出預(yù)見(jiàn)。例如:對(duì)未來(lái)經(jīng)濟(jì)發(fā)展的判斷。
   (5)、偏差的檢測(cè):對(duì)分析對(duì)象的少數(shù)的、極端的特例的描述,揭示內(nèi)在的原因。例如:在銀行的100萬(wàn)筆交易中有500例的欺詐行為,銀行為了穩(wěn)健經(jīng)營(yíng),就要發(fā)現(xiàn)這500例的內(nèi)在因素,減小以后經(jīng)營(yíng)的風(fēng)險(xiǎn)。
    當(dāng)然除了以上所列出的還有時(shí)間序列分析等一些其他的功能,需要注意的是:數(shù)據(jù)挖掘的各項(xiàng)功能不是獨(dú)立存在的,在數(shù)據(jù)挖掘中互相聯(lián)系,發(fā)揮作用。

2、數(shù)據(jù)挖掘與統(tǒng)計(jì)學(xué)的聯(lián)系
    數(shù)據(jù)挖掘技術(shù)是計(jì)算機(jī)技術(shù)、人工智能技術(shù)和統(tǒng)計(jì)技術(shù)等構(gòu)成的一種新學(xué)科。數(shù)據(jù)挖掘來(lái)源于統(tǒng)計(jì)分析,而又不同于統(tǒng)計(jì)分析。數(shù)據(jù)挖掘不是為了替代傳統(tǒng)的統(tǒng)計(jì)分析技術(shù),相反,數(shù)據(jù)挖掘是統(tǒng)計(jì)分析方法的擴(kuò)展和延伸。大多數(shù)的統(tǒng)計(jì)分析技術(shù)都基于完善的數(shù)學(xué)理論和高超的技巧,其預(yù)測(cè)的準(zhǔn)確程度還是令人滿意的,但對(duì)于使用者的知識(shí)要求比較高。而隨著計(jì)算機(jī)能力的不斷發(fā)展,數(shù)據(jù)挖掘可以利用相對(duì)簡(jiǎn)單和固定程序完成同樣的功能。新的計(jì)算算法的產(chǎn)生如神經(jīng)網(wǎng)絡(luò)、決策樹(shù)使人們不需了解到其內(nèi)部復(fù)雜的原理也可以通過(guò)這些方法獲得良好的分析和預(yù)測(cè)效果。
     由于數(shù)據(jù)挖掘和統(tǒng)計(jì)分析根深蒂固的聯(lián)系,通常的據(jù)挖掘工具都能夠通過(guò)可選件或自身提供統(tǒng)計(jì)分析功能。這些功能對(duì)于數(shù)據(jù)挖掘的前期數(shù)據(jù)探索和數(shù)據(jù)挖掘之后對(duì)數(shù)據(jù)進(jìn)行總結(jié)和分析都是十分必要的。統(tǒng)計(jì)分析所提供的諸如方差分析、假設(shè)檢驗(yàn)、相關(guān)性分析、線性預(yù)測(cè)、時(shí)間序列分析等功能都有助于數(shù)據(jù)挖掘前期對(duì)數(shù)據(jù)進(jìn)行探索,發(fā)現(xiàn)數(shù)據(jù)挖掘的題目、找出數(shù)據(jù)挖掘的目標(biāo)、確定數(shù)據(jù)挖掘所需涉及的變量、對(duì)數(shù)據(jù)源進(jìn)行抽樣等等。所有這些前期工作對(duì)數(shù)據(jù)挖掘的效果產(chǎn)生重大影響。而數(shù)據(jù)挖掘的結(jié)果也需要統(tǒng)計(jì)分析的描述功能(最大值、最小值、平均值、方差、四分位、個(gè)數(shù)、概率分配)進(jìn)行具體描述,使數(shù)據(jù)挖掘的結(jié)果能夠被用戶了解。因此,統(tǒng)計(jì)分析和數(shù)據(jù)挖掘是相輔相成的過(guò)程,兩者的合理配合是數(shù)據(jù)挖掘成功的重要條件。
    3、數(shù)據(jù)挖掘與統(tǒng)計(jì)學(xué)的區(qū)別
       統(tǒng)計(jì)學(xué)目前有一種趨勢(shì)是越來(lái)越精確。當(dāng)然,這本身并不是壞事,只有越精確才能避免錯(cuò)誤,發(fā)現(xiàn)真理。統(tǒng)計(jì)學(xué)在采用一個(gè)方法之前先要證明,而不是象計(jì)算機(jī)科學(xué)和機(jī)器學(xué)習(xí)那樣注重經(jīng)驗(yàn)。有時(shí)候同一問(wèn)題的其它領(lǐng)域的研究者提出一個(gè)很明顯有用的方法,但它卻不能被統(tǒng)計(jì)學(xué)家證明(或者現(xiàn)在還沒(méi)有證明)。統(tǒng)計(jì)雜志傾向于發(fā)表經(jīng)過(guò)數(shù)學(xué)證明的方法而不是一些特殊方法。數(shù)據(jù)挖掘作為幾門學(xué)科的綜合,已經(jīng)從機(jī)器學(xué)習(xí)那里繼承了實(shí)驗(yàn)的態(tài)度。這并不意味著數(shù)據(jù)挖掘工作者不注重精確,而只是說(shuō)明如果方法不能產(chǎn)生結(jié)果的話就會(huì)被放棄。
       正是由于統(tǒng)計(jì)學(xué)的數(shù)學(xué)精確性,而且其對(duì)推理的側(cè)重,盡管統(tǒng)計(jì)學(xué)的一些分支也側(cè)重于描述,但是瀏覽一下統(tǒng)計(jì)論文的話就會(huì)發(fā)現(xiàn)這些論文的核心問(wèn)題就是在觀察了樣本的情況下如何去推斷總體。當(dāng)然這也常常是數(shù)據(jù)挖掘所關(guān)注的。下面我們會(huì)提到數(shù)據(jù)挖掘的一個(gè)特定屬性就是要處理的是一個(gè)大數(shù)據(jù)集。這就意味著,傳統(tǒng)統(tǒng)計(jì)學(xué)由于可行性的原因,我們常常得到的只是一個(gè)樣本,但是需要描述樣本取自的那個(gè)大數(shù)據(jù)集。然而,數(shù)據(jù)挖掘問(wèn)題常常可以得到數(shù)據(jù)總體,例如關(guān)于一個(gè)公司的所有職工數(shù)據(jù),數(shù)據(jù)庫(kù)中的所有客戶資料,去年的所有業(yè)務(wù)。在這種情形下,統(tǒng)計(jì)學(xué)的推斷就沒(méi)有價(jià)值了。
       很多情況下,數(shù)據(jù)挖掘的本質(zhì)是很偶然的發(fā)現(xiàn)非預(yù)期但很有價(jià)值的信息。這說(shuō)明數(shù)據(jù)挖掘過(guò)程本質(zhì)上是實(shí)驗(yàn)性的。這和確定性的分析是不同的。(實(shí)際上,一個(gè)人是不能完全確定一個(gè)理論的,只能提供證據(jù)和不確定的證據(jù)。)確定性分析著眼于最適合的模型-建立一個(gè)推薦模型,這個(gè)模型也許不能很好的解釋觀測(cè)到的數(shù)據(jù)。大部分統(tǒng)計(jì)分析提出的是確定性的分析。
      如果數(shù)據(jù)挖掘的主要目的是發(fā)現(xiàn),那它就不關(guān)心統(tǒng)計(jì)學(xué)領(lǐng)域中的在回答一個(gè)特定的問(wèn)題之前,如何很好的搜集數(shù)據(jù),例如實(shí)驗(yàn)設(shè)計(jì)和調(diào)查設(shè)計(jì)。數(shù)據(jù)挖掘本質(zhì)上假想數(shù)據(jù)已經(jīng)被搜集好,關(guān)注的只是如何發(fā)現(xiàn)其中的秘密。
      (另外,統(tǒng)計(jì)學(xué)的核心是模型,數(shù)據(jù)挖掘的更重要的是準(zhǔn)則。這部分沒(méi)看懂,期待有人補(bǔ)充。)

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多