|
說明:這些問題以及他們的解答來自數據挖掘者的博客http:///blog/blog.asp?name=idmer,由DMman整理,日期截止到2007-6-20。挑選了其中比較有實際應用意義的若干。涉及到數據挖掘的前景、學習數據挖掘需要學什么、如何學習;數據挖掘的算法、應用等技術問題....希望大家能有所得。
身不由己(游客)發(fā)表留言于2007-2-1 10:51:55
我想開始學數據挖掘
1.請問下,什么挖掘工具適合我這樣的初學者,最好是很容易操作,還要是中文的,我英文有點差...希望您能推薦下.
2.能不能發(fā)給我這個您推薦給我的數據挖掘的工具.因為我下的數據挖掘工具都不能用.
謝謝您了 我用數據挖掘來做畢業(yè)設計的,以前沒學過,指導老師也不懂,凡事都靠自己找,我只能4處求教了,希望您能幫我下,3Q
以下為blog主人的回復:
首先,我建議你別著急選工具,先看看數據挖掘的綜述資料,選擇一個合適的課題,再往下深入了解和研究。
對于畢業(yè)設計來說,也許你去找些公開的數據挖掘源程序,并使用這些源碼進行改進或者應用到你要研究的課題上,可能比選擇商用的數據挖掘軟件更合適一些。因為這樣你會了解算法的內幕,而不是簡單地應用。
如果你需要下載一些數據挖掘軟件,我建議你到Kdnuggets網站或數據挖掘研究院網站上找找看。這些網址在我的Blog上有鏈接。
關于數據挖掘軟件的推薦,商用的我推薦SAS Enterprise Miner、SPSS Clementine、KXEN;研究方面的我推薦Weka。
我現(xiàn)在在做一些文本校對相關的一些事情,但是手頭缺乏一些語料庫的資料(主要是語料庫本身以及相關調用代碼),所以我想向您咨詢一下您手頭沒有關于語料庫的資料或者是相關網址等,麻煩您了,謝謝
以下為blog主人的回復:
可以到北京大學計算語言研究所的網站上看看: http://icl.pku.edu.cn/icl_res/ 有人民日報切分/標注語料庫下載
uveil(游客)發(fā)表留言于2006-5-16 10:08:04
有個問題想請教一下,你既然是研究數據挖掘的,肯定對其有關會議比較了解,想問ICMLC這個國際會議怎么樣?它可是被EI檢索的。
以下為blog主人的回復:
請參考:Computer Science Conference Rankings(http://www./blog/more.asp?name=idmer&id=6910) 以及:http://www./meetings/
debby(游客)發(fā)表留言于2006-4-26 11:49:42
我的畢業(yè)設計題目:文本挖掘。首先要在現(xiàn)成的語料庫中提取特征,想用詞頻統(tǒng)計的算法,但是以前沒有接觸過這方面的內容,不知道怎么下手,希望能給與幫助。謝謝!
以下為blog主人的回復:
請參考北京大學自然語言學研究所主頁(http://www.icl.pku.edu.cn/default_cn.asp)。
微軟亞洲研究院-自然語言計算組(http://research.microsoft.com/asia/group/nlc/)
計算語言學和自然語言信息處理研究和應用綜述(http://ling./yingyong/courses/nlpbase.htm)
dmdou(游客)發(fā)表留言于2006-4-14 23:20:46
請教一下,我最近開始學習數據挖掘技術,您能介紹一下這方面的前景嗎?庸俗一點就是找工作是否很有需求?嘿嘿 多謝
以下為blog主人的回復:
現(xiàn)在和以后對數據挖掘人才的需求還是有一些的,不過由于數據挖掘是對數據的深層分析,所以一般除了要求深入了解數據挖掘技術之外,還要求對數據庫(數據倉庫)、行業(yè)業(yè)務、分析等方面的能力和經驗。因此建議你熟悉數據庫技術,同時有機會的話多參與一些實際項目,這樣可以擴大你的擇業(yè)范圍。
jeff(游客)發(fā)表留言于2006-4-4 10:18:15
您好,我是的畢業(yè)設計題目定了,基于分區(qū)的算法的孤立點分析,但是感覺到沒有頭緒,另外也沒有找到合適的數據源.現(xiàn)在我應該應該看那些書呢?從哪個地方下手呢?
以下為blog主人的回復:
關于孤立點分析,我了解得很少。唯一做過的相關工作就是將其應用到數據質量檢查中,根據歷史趨勢發(fā)現(xiàn)新的數據中是否存在異常。除此之外,孤立點分析應該在網絡流量異常檢測中應用得比較多。至于需要看哪些書,象《數據挖掘:概念與技術》等書中只有簡單介紹,深入的內容建議你嘗試一下Google的學術搜索http://scholar.google.com/schhp?hl=zh-CN和www.researchindex.org等等。
歡迎對這方面熟悉的同行給出寶貴意見,謝謝。
hello(游客)發(fā)表留言于2006-3-21 11:15:00
我的方向是遺傳算法進行關聯(lián)規(guī)則挖掘,但是看的不多,還有50天就NDBC2006就截稿了,您能否給我一些建議,比如看什么書,如何準備,
謝謝
以下為blog主人的回復:
遺傳算法我了解得很少,所以無法告訴你去看些什么書,只能給些投稿方面的建議。NDBC(全國數據庫年會)接收的稿件主要分為兩大類:研究報告類和技術報告類,前者側重于科學研究(新的模型、新的思路、算法改進等),后者側重于技術實現(xiàn)(結合具體的應用,一般需要有系統(tǒng)原型、應用效果等)。一般來說,前者比后者的學術價值更高些,稿件的質量也要求較高,所以需要比較長時間的研究和積累才可能做出來。
因此,如果你希望在沒有前期準備的情況下,用50多天來完成論文,可行的方法是向技術報告類的方向靠攏。我建議你首先找到有價值的應用問題(比如商業(yè)或企業(yè)等方面對關聯(lián)分析的應用),然后應用遺傳算法和其它關聯(lián)分析方法(比如Apriori算法)來進行分析,對不同算法的性能效果進行評估比較,總結各種算法的特點及適用范圍。當然,如果能對算法做些有益的改進更好,可以讓論文的學術性更強。最后,描述出應用了關聯(lián)分析的結果能帶來什么效益(比如對貨架位置的調整、對客戶的交叉銷售等到)。
以上是論文的大致思路,但需注意的是,一定要有創(chuàng)新。如果僅僅是對算法的簡單應用,則被錄用的可能性很小。因為你的文章中的內容,在其他人的文章中都可以找到,那么你的文章就失去了存在的意義,也就不會被評委所接受
cathy(游客)發(fā)表留言于2006-3-2 17:12:42
你好,我是一名在校碩士生,方向是數據挖掘,我就要開始寫論文拉,我想請問大俠數據挖掘能否應用在股票市場上?肯請給我些建議!謝拉
以下為blog主人的回復:
我沒有研究過相關內容,你可以在Google中檢索“數據挖掘股票”,或者在Google學術搜索(http://scholar.google.com/schhp?hl=zh-CN) 中檢索亦可。應該有些方向可以研究,不過我對用預測算法來預測股價并不看好,因為一方面無法獲得莊家的內幕消息(而他們對股價變動常常有很大的影響),另一方面一些重要信息難以量化,比如政策面的因素。
青椒(游客)發(fā)表留言于2005-10-31 15:18:51 數據挖掘在國外的應用現(xiàn)狀? 老大,能不能提供一些數據挖掘在國外的行業(yè)應用的資料,先謝謝了!?。?span lang=EN-US>zhouyimm@163.com)
Sunstone:如果你希望了解數據挖掘在行業(yè)應用上的成功案例,可以查看SAS、SPSS等公司網站上的Success stories,例如http://www./success/index.html。 如果想了解具體的實施過程,一般可以參考一些相應的圖書,例如《構建面向CRM的數據挖掘應用》、《Organizational Data Mining - Leveraging Enterprise Data Resources for Optimal Performance》、《Data Mining Techniques For Marketing, Sales, and Customer Relationship Management》等,這些圖書可以提供比較好的導引。 更詳細更具體的技術文檔一般難以獲得,因為大都是各個公司的保密文檔。
一位數據挖掘成功人士 給 數據挖掘在讀研究生 的建議
來自 http:///blog/more.asp?name=idmer&id=15785#53359
關于數據挖掘領域的研究 數據挖掘者 發(fā)表于 2006-6-23 12:26:02 這個是我回復北京某大學一位研究生的eMail,討論數據挖掘領域研究選題的一些個人觀點,歡迎大家批評指正。
原信:(2006-6-7) ====================================
師兄: 你好 我所學專業(yè)為數據挖掘,很想在這方面有所作為,但是一段時間發(fā)現(xiàn)效果不佳,我覺得我對整個領域不是很了解,師兄能否談談如何經過怎樣的努力,才可能在兩年后,三年后有高水平的論文和研究成果出來呢?能否談談您當前學習的方法和數據挖掘領域就業(yè)的想法呢? My honor to have your reading, really. ohmyfuture 北京郵電大學計算機學院 回復:(2006-6-12) ====================================
ohmyfuture, 最近一直很忙,抱歉回信晚了。 關于數據挖掘方面的研究,我原來也走過一些彎路。其實從數據挖掘的起源可以發(fā)現(xiàn),它并不是一門嶄新的科學,而是綜合了統(tǒng)計分析、機器學習、人工智能、數據庫等諸多方面的研究成果而成,同時與專家系統(tǒng)、知識管理等研究方向不同的是,數據挖掘更側重于應用的層面。 因此來說,數據挖掘融合了相當多的內容,試圖全面了解所有的細節(jié)會花費很長的時間。因此我建議你的第一步是用大概三個月的時間了解數據挖掘的幾個常用技術:分類、聚類、預測、關聯(lián)分析、孤立點分析等等。這種了解是比較粗的,目標是明白這些技術是用來干什么的,典型的算法大致是怎樣的,以及在什么情況下應該選用什么樣的技術和算法。 經過初步了解之后,就要進入選題的階段,選擇自己感興趣的某個具體方向,然后通讀該方向的經典論文(綜述、主要發(fā)展方向、應用成果)。選題階段可能會花費較長的時間,比如一年。此時,要逐漸明確突破點,也就是將來你論文的創(chuàng)新點。創(chuàng)新對于研究來說非常重要,一方面該創(chuàng)新的確比原來的方法要好,另一方面該創(chuàng)新的確具有實用的價值。 隨后,就要來實現(xiàn)自己的想法。通常對于碩士論文來說,需要建立原型系統(tǒng),進行試驗,并用試驗結果來支持自己的論文主題。原型系統(tǒng)就是對自己創(chuàng)新點的實現(xiàn),需要很好地設計和開發(fā)。需要注意的是,原型系統(tǒng)的建立和開發(fā)商用系統(tǒng)不同,需要體現(xiàn)比較好的理論基礎。也就是說,原型系統(tǒng)并不是簡單地用于實現(xiàn)功能,而是將你的一整套理論付諸實現(xiàn)。這種理論基礎也將會包含在你的論文中,以體現(xiàn)論文的理論高度。 原型系統(tǒng)的搭建以及產生令人信服試驗結果,這個過程一般需要至少一年的時間。所以要集中精力于核心部分(體現(xiàn)論文創(chuàng)新點的部分),外圍的界面等等不應投入太多的精力,以免進度失控。 最后是論文的整理和寫作了。建議你在之前的階段中逐步先寫出一些篇幅較短的論文(用于發(fā)在期刊、會議上),比如綜述、體系框架、算法內核、應用等等。這樣在最后寫畢業(yè)論文時就有了足夠多的內容,會寫得更好更快一些。 以上只是泛泛而談。其實我覺得其中的關鍵點在于選題,而選題的好壞取決于你對數據挖掘研究現(xiàn)狀的了解、你的興趣和專長、以及該方向在應用上的意義。建議你和導師、同行多交流,能夠讓自己的方向更清晰。 至于數據挖掘領域的就業(yè),應該來說還是前景不錯的。如果你對研究有興趣,象微軟研究院、Google、高校研究所都是不錯的地方;如果你對實際應用有興趣,很多大的公司包括IBM、Accenture、亞信等等都有相應的人力需求,當然一些甲方的單位比如證券、保險、金融等等單位也都需要分析人才。 Best Regards, Sunstone Zhang
|