|
數(shù)據(jù)挖掘?qū)嵺`談:哪些算法的使用率較高
美國(guó)2006年機(jī)器學(xué)習(xí)和知識(shí)發(fā)現(xiàn)年會(huì)中的現(xiàn)場(chǎng)投票結(jié)果可以給我們一點(diǎn)線索。下圖是最近12個(gè)月中使用各種算法的人次(共203人投票)。 決策樹(shù) Decision Trees/Rules (127) 62.60% 回歸 Regression (104) 51.20% 聚類 Clustering (102) 50.20% 描述性統(tǒng)計(jì)分析 Statistics (descriptive) (94) 46.30% 可視技術(shù)Visualization (66) 32.50% 關(guān)聯(lián)法則 Association rules (53) 26.10% 時(shí)序 Sequence/Time series analysis (35) 17.20% 神經(jīng)網(wǎng)絡(luò) Neural Nets (35) 17.20% 支持向量機(jī) SVM (32) 15.80% 貝葉斯 Bayesian (32) 15.80% Boosting (30) 14.80% 近鄰 Nearest Neighbor (26) 12.80% 模型合成 Hybrid methods (24) 11.80% 其它 Other (23) 11.30% 遺傳算法Genetic algorithms (23) 11.30% Bagging (22) 10.80% 由于是自愿投票,對(duì)投票人的背景,行業(yè),和工作領(lǐng)域沒(méi)有任何控制,因此這個(gè)結(jié)果在代表性方面當(dāng)然是不夠完整的。但是,我們還是可以通過(guò)這個(gè)調(diào)查粗略了解到目前數(shù)據(jù)挖掘算法的使用態(tài)勢(shì)??偟膩?lái)說(shuō),用于分類和預(yù)測(cè)的決策樹(shù)和回歸算法,以及用于描述的聚類分析占有主導(dǎo)地位。對(duì)于有志于從事數(shù)據(jù)挖掘的畢業(yè)生和專業(yè)人士來(lái)說(shuō),掌握和精通這幾種算法有最廣闊的應(yīng)用前景。 決策樹(shù)和邏輯回歸從技術(shù)角度看,都不是太高深的算法。但是能得到普遍的應(yīng)用,說(shuō)明它們?cè)诮鉀Q不同行業(yè),不同領(lǐng)域中的數(shù)據(jù)挖掘問(wèn)題上都有很好的功效,說(shuō)明企業(yè)的管理人員對(duì)這些算法的接受程度較好;也反映了企業(yè)擁有的數(shù)據(jù)并不是復(fù)雜到非需要高深的算法才可以對(duì)付的程度。此外不可忽略的是,這些算法在計(jì)算速度上有一定優(yōu)勢(shì)。 |
|
|
來(lái)自: 石頭狗 > 《數(shù)據(jù)挖掘》