小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

如何在業(yè)余時間學習數(shù)據(jù)分析?

 shiyiyuting 2016-03-15

我是一個web前端開發(fā)者和rails程序員,計算機專業(yè)出身,掌握Python、Ruby、C、Java編程語言,具有較為扎實的計算機理論基礎。

現(xiàn)在工作之外的時間里想學習一下數(shù)據(jù)分析或者數(shù)據(jù)挖掘?,F(xiàn)在大數(shù)據(jù)這個詞搞得蠻火的,不少公司也有在招聘數(shù)據(jù)分析員。

抱著「技多不壓身」的想法我也想稍微學習一下。說不定以后的工作也會需要。我稍微了解了一下,數(shù)據(jù)分析最基礎就是用excel來工作。不過我計算機專業(yè)出身的人,還是想通過用編程語言的方法來學習。聽說R語言不錯,我也稍微了解了一下。

  • 不過現(xiàn)在要學數(shù)據(jù)分析的話,我可以從哪里著手?

  • 從哪里弄到有分析價值的數(shù)據(jù)?

  • 在開源社區(qū)有沒有開源項目適合用來學習數(shù)據(jù)分析?

  • 可以自己動手做個什么項目來實踐?


事先說一句,Python Rocks, especially for Data scientist! 不是說 R 不好,我個人覺得 R 別別扭扭的,但是現(xiàn)在 R 很多,而且 R 作為數(shù)據(jù)分析是一門好語言。選擇在個人,我只是說 Python Rocks!

回答你的問題:

不過現(xiàn)在要學數(shù)據(jù)分析的話,我可以從哪里著手?

首先,依據(jù)你的情況,最好是有一個你熟悉背景的項目或者例子,不一定是「數(shù)據(jù)分析」項目,只要你能弄到數(shù)據(jù),然后清楚要分析的對象和目的就好。

接下來說方法,現(xiàn)在有很多課程可以幫助你學習這些方法,具體哪個方法好,完全看你的問題是什么,根據(jù)目的選方法。具體有哪些方法,請參考下面的書單。
鑒于你會 Python,推薦機器學習實戰(zhàn)


入門讀物:

  1. 深入淺出數(shù)據(jù)分析 這書挺簡單的,基本的內容都涉及了,說得也比較清楚,最后談到了R是大加分。難易程度:非常易。

  2. 啤酒與尿布 通過案例來說事情,而且是最經典的例子。難易程度:非常易。

  3. 數(shù)據(jù)之美 一本介紹性的書籍,每章都解決一個具體的問題,甚至還有代碼,對理解數(shù)據(jù)分析的應用領域和做法非常有幫助。難易程度:易。

  4. 數(shù)學之美 這本書非常棒啦,入門讀起來很不錯!

數(shù)據(jù)分析:

  1. SciPy and NumPy 這本書可以歸類為數(shù)據(jù)分析書吧,因為numpy和scipy真的是非常強大啊。

  2. Python for Data Analysis 作者是Pandas這個包的作者,看過他在Scipy會議上的演講,實例非常強!

  3. Bad Data Handbook 很好玩的書,作者的角度很不同。

適合入門的教程:

  1. 集體智慧編程 學習數(shù)據(jù)分析、數(shù)據(jù)挖掘、機器學習人員應該仔細閱讀的第一本書。作者通過實際例子介紹了機器學習和數(shù)據(jù)挖掘中的算法,淺顯易懂,還有可執(zhí)行的Python代碼。難易程度:中。

  2. Machine Learning in Action 用人話把復雜難懂的機器學習算法解釋清楚了,其中有零星的數(shù)學公式,但是是以解釋清楚為目的的。而且有Python代碼,大贊!目前中科院的王斌老師(微博: 王斌_ICTIR)已經翻譯這本書了 機器學習實戰(zhàn) 。這本書本身質量就很高,王老師的翻譯質量也很高。難易程度:中。我?guī)У难芯可腴T必看數(shù)目之一!

  3. Building Machine Learning Systems with Python 雖然是英文的,但是由于寫得很簡單,比較理解,又有 Python 代碼跟著,輔助理解。

  4. 數(shù)據(jù)挖掘導論 最近幾年數(shù)據(jù)挖掘教材中比較好的一本書,被美國諸多大學的數(shù)據(jù)挖掘課作為教材,沒有推薦Jiawei Han老師的那本書,因為個人覺得那本書對于初學者來說不太容易讀懂。難易程度:中上。

  5. Machine Learning for Hackers 也是通過實例講解機器學習算法,用R實現(xiàn)的,可以一邊學習機器學習一邊學習R。

稍微專業(yè)些的:

  1. Introduction to Semi-Supervised Learning 半監(jiān)督學習必讀必看的書。

  2. Learning to Rank for Information Retrieval 微軟亞院劉鐵巖老師關于LTR的著作,啥都不說了,推薦!

  3. Learning to Rank for Information Retrieval and Natural Language Processing 李航老師關于LTR的書,也是當時他在微軟亞院時候的書,可見微軟亞院對LTR的研究之深,貢獻之大。

  4. 推薦系統(tǒng)實踐 這本書不用說了,研究推薦系統(tǒng)必須要讀的書,而且是第一本要讀的書。

  5. Graphical Models, Exponential Families, and Variational Inference 這個是Jordan老爺子和他的得意門徒 Martin J Wainwright 在 Foundation of Machine Learning Research上的創(chuàng)刊號,可以免費下載,比較難懂,但是一旦讀通了,graphical model的相關內容就可以踏平了。

  6. Natural Language Processing with Python NLP 經典,其實主要是講 NLTK 這個包,但是啊,NLTK 這個包幾乎涵蓋了 NLP 的很多內容了??!

機器學習教材:

  1. The Elements of Statistical Learning 這本書有對應的中文版:統(tǒng)計學習基礎 。書中配有R包,非常贊!可以參照著代碼學習算法。

  2. 統(tǒng)計學習方法 李航老師的扛鼎之作,強烈推薦。難易程度:難。

  3. Machine Learning 去年出版的新書,作者Kevin Murrphy教授是機器學習領域中年少有為的代表。這書是他的集大成之作,寫完之后,就去Google了,產學研結合,沒有比這個更好的了。

  4. Machine Learning 這書和上面的書不是一本!這書叫:Machine Learning: An Algorithmic Perspective 之前做過我?guī)У难芯可滩模捎谂溆写a,所以理解起來比較容易。

  5. Pattern Recognition And Machine Learning 經典中的經典。

  6. Bayesian Reasoning and Machine Learning 看名字就知道了,徹徹底底的Bayesian學派的書,里面的內容非常多,有一張圖將機器學習中設計算法的關系總結了一下,很棒。

  7. Probabilistic Graphical Models 鴻篇巨制,這書誰要是讀完了告訴我一聲。

  8. Convex Optimization 凸優(yōu)化中最好的教材,沒有之一了。課程也非常棒,Stephen老師拿著紙一步一步推到,圖一點一點畫,太棒了。


從哪里弄到有分析價值的數(shù)據(jù)?

還是上面那句話,依據(jù)問題選方法,有問題了,數(shù)據(jù)其實也不愁了。

  • UCI是最經典的,不過也比較古老

  • 數(shù)據(jù)堂最近異軍突起,非常值得稱贊

  • 國外還有一些網站,比如http://mlcomp.org/,http://mldata.org/你可以看看

  • 另外KDDCUP每年都會針對一個特定的問題進行比賽,數(shù)據(jù)集也是公開的

  • 最近幾年,數(shù)據(jù)挖掘的比賽越來越多了,你可以去PASCAL上看看你感興趣的領域,自己搜索一下

  • http://www.delicious.com/pskomoroch/dataset這個是delicious上面一個人搜集的數(shù)據(jù)集網站書簽,比較雜,或許你能找到你所要的(話說delicious改版之前這個里面的內容比現(xiàn)在的多多了)

  • 再有就是看具體的做的內容,然后看相關學者都用什么數(shù)據(jù)集,除了LDC那種變態(tài)組織,其他很多數(shù)據(jù)都可以通過track論文中的信息或者是作者主頁上的信息下載到的

  • 做數(shù)據(jù)挖掘和數(shù)據(jù)分析都是針對某一個領域或者問題去做,其實也看那個領域會不會有開放的心態(tài)去公開數(shù)據(jù),前兩年在Hans Rosling老先生在TED上公開呼吁之后,很多機構,包括聯(lián)合國都公開了自己的數(shù)據(jù)

補充,在quora上面看到一個問題中的答案涉及這個問題,那個更加全面http://www./Data/Where-can-I-get-large-datasets-open-to-the-public(http://www./Where-can-I-find-large-datasets-open-to-the-public)


在開源社區(qū)有沒有開源項目適合用來學習數(shù)據(jù)分析?

如果你是用python的話,那么numpy, scipy, matplotlib是基礎的,然后就是大名鼎鼎的scikit.learn了。最近pandas也很火,可以提供類似R中dataframe的數(shù)據(jù)結構,pandas的作者 最近出版了一本書 Python for Data Analysis。

Python Rocks! scikit-learn: machine learning in Python scikit.learn 是非常非常棒的機器學習 package,文檔詳盡,更新速度快!你看例子,看源碼,都能學到不少東西!另外,去 github 上搜搜吧,好多好東西!


可以自己動手做個什么項目來實踐

Kaggle Competitions(https://www./competitions) 從最下面的101開始,逐級往上!

Have fun and good luck!




戳“閱讀原文”找數(shù)據(jù)挖掘/ 機器學習資料!
↓↓↓

    本站是提供個人知識管理的網絡存儲空間,所有內容均由用戶發(fā)布,不代表本站觀點。請注意甄別內容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權內容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多