|
數(shù)據(jù)分析和數(shù)據(jù)挖掘的軟件工具很多,有商業(yè)的,如IBM Modeler(即原來(lái)的Clementine)、SAS;有開(kāi)源的如R語(yǔ)言。最近看到不少關(guān)于R的資料,發(fā)現(xiàn)對(duì)R感興趣的人越來(lái)越多。在網(wǎng)上(http://www./article-98-1.html)看到介紹R的學(xué)習(xí)方向,和大家一起分享: 現(xiàn)在對(duì)R感興趣的人越來(lái)越多,很多人都想快速的掌握R語(yǔ)言,然而,由于目前大部分高校都沒(méi)有開(kāi)設(shè)R語(yǔ)言課程,這就導(dǎo)致很多人不知道如何著手學(xué)習(xí)R語(yǔ)言。
對(duì)于初學(xué)R語(yǔ)言的人,最常見(jiàn)的方式是:遇到不會(huì)的地方,就跑到論壇上吼一嗓子,然后欣然or悲傷的離去,一直到遇到下一個(gè)問(wèn)題再回來(lái)。當(dāng)然,這不是最好的學(xué)習(xí)方式,最好的方式是——看書。目前,市面上介紹R語(yǔ)言的書籍很多,中文英文都有。那么,眾多書籍中,一個(gè)生手應(yīng)該從哪一本著手呢?入門之后如何才能把自己練就成某個(gè)方面的高手呢?相信這是很多人心中的疑問(wèn)。有這種疑問(wèn)的人有福了,因?yàn)楣P者將根據(jù)自己的經(jīng)歷總結(jié)一下R語(yǔ)言書籍的學(xué)習(xí)路線圖以使Ruser少走些彎路。
本文分為6個(gè)部分,分別介紹初級(jí)入門,高級(jí)入門,繪圖與可視化,計(jì)量經(jīng)濟(jì)學(xué),時(shí)間序列分析,金融等。
1.初級(jí)入門
《An Introduction to R》,這是官方的入門小冊(cè)子。其有中文版,由丁國(guó)徽翻譯,譯名為《R導(dǎo)論》。《R4Beginners》,這本小冊(cè)子有中文版應(yīng)該叫《R入門》。除此之外,還可以去讀劉思喆的《153分鐘學(xué)會(huì)R》。這本書收集了R初學(xué)者提問(wèn)頻率最高的153個(gè)問(wèn)題。為什么叫153分鐘呢?因?yàn)樽畛踝髡邔懥?53個(gè)問(wèn)題,閱讀一個(gè)問(wèn)題花費(fèi)1分鐘時(shí)間,全局下來(lái)也就是153分鐘了。有了這些基礎(chǔ)之后,要去讀一些經(jīng)典書籍比較全面的入門書籍,比如《統(tǒng)計(jì)建模與R軟件》,國(guó)外還有《R Cookbook》和《R in action》,本人沒(méi)有看過(guò),因此不便評(píng)論。
最后推薦,《R in a Nutshell》。對(duì),“果殼里面的R”!當(dāng)然,是開(kāi)玩笑的,in a Nutshell是俚語(yǔ),意思大致是“簡(jiǎn)單的說(shuō)”。目前,我們正在翻譯這本書的中文版,大概明年三月份交稿!這本書很不錯(cuò),大家可以從現(xiàn)在開(kāi)始期待,并廣而告知一下!
2.高級(jí)入門
讀了上述書籍之后,你就可以去高級(jí)入門階段了。這時(shí)候要讀的書有兩本很經(jīng)典的?!禨tatistics with R》和《The R book》。之所以說(shuō)這兩本書高級(jí),是因?yàn)檫@兩本書已經(jīng)不再限于R基礎(chǔ)了,而是結(jié)合了數(shù)據(jù)分析的各種常見(jiàn)方法來(lái)寫就的,比較系統(tǒng)的介紹了R在線性回歸、方差分析、多元統(tǒng)計(jì)、R繪圖、時(shí)間序列分析、數(shù)據(jù)挖掘等各方面的內(nèi)容,看完之后你會(huì)發(fā)現(xiàn),哇,原來(lái)R能做的事情這么多,而且做起來(lái)是那么簡(jiǎn)潔。讀到這里已經(jīng)差不多了,剩下的估計(jì)就是你要專門攻讀的某個(gè)方面內(nèi)容了。下面大致說(shuō)一說(shuō)。
3.繪圖與可視化
亞里斯多德說(shuō),“較其他感覺(jué)而言,人類更喜歡觀看”。因此,繪圖和可視化得到很多人的關(guān)注和重視。那么,如何學(xué)習(xí)R畫圖和數(shù)據(jù)可視化呢?再簡(jiǎn)單些,如何畫直方圖?如何往直方圖上添加密度曲線呢?我想讀完下面這幾本書你就大致會(huì)明白了。
首先,畫圖入門可以讀《R Graphics》,個(gè)人認(rèn)為這本是比較經(jīng)典的,全面介紹了R中繪圖系統(tǒng)。該書對(duì)應(yīng)的有一個(gè)網(wǎng)站,google之就可以了。更深入的可以讀《Lattice:Multivariate Data Visualization with R》。上面這些都是比較普通的。當(dāng)然,有比較文藝和優(yōu)雅的——ggplot2系統(tǒng),看《ggplot2:Elegant Graphics for Data Analysis》。還有數(shù)據(jù)挖掘方面的書:《Data Mining with Rattle and R》,主要是用Rattle軟件,個(gè)人比較喜歡Rattle!當(dāng)然,Rattle不是最好的,Rweka也很棒!再有就是交互圖形的書了,著名的交互系統(tǒng)是ggobi,這個(gè)我已經(jīng)喜歡兩年多了,關(guān)于ggobi的書有《Interactive and Dynamic Graphics for Data Analysis With R and GGobi》,不過(guò),也只是適宜入門,更多更全面的還是去ggobi的主頁(yè)吧,上面有各種資料以及包的更新信息!
特別推薦一下,中文版繪圖書籍有謝益輝的《現(xiàn)代統(tǒng)計(jì)圖形》。
4.計(jì)量經(jīng)濟(jì)學(xué)
關(guān)于計(jì)量經(jīng)濟(jì)學(xué),首先推薦一本很薄的小冊(cè)子:《Econometrics In R》,做入門用。然后,是《Applied Econometrics with R》,該書對(duì)應(yīng)的R包是AER,可以安裝之后配合使用,效果甚佳。計(jì)量經(jīng)濟(jì)學(xué)中很大一部分是關(guān)于時(shí)間序列分析的,這一塊內(nèi)容在下面的地方說(shuō)。
5.時(shí)間序列分析
時(shí)間序列書籍的書籍分兩類,一種是比較普適的書籍,典型的代表是:《Time Series Analysis and Its Applications :with R examples》。該書介紹了各種時(shí)間序列分析的經(jīng)典方法及實(shí)現(xiàn)各種經(jīng)典方法的R代碼,該書有中文版。如果不想買的話,建議去作者主頁(yè)直接下載,英文版其實(shí)讀起來(lái)很簡(jiǎn)單。時(shí)間序列分析中有一大塊兒是關(guān)于金融時(shí)間序列分析的。這方面比較流行的書有兩本《Analysis of financial time series》,這本書的最初是用的S-plus代碼,不過(guò)新版已經(jīng)以R代碼為主了。這本書適合有時(shí)間序列分析基礎(chǔ)和金融基礎(chǔ)的人來(lái)看,因?yàn)闀嘘P(guān)于時(shí)間序列分析的理論以及各種金融知識(shí)講解的不是特別清楚,將極值理論計(jì)算VaR的部分就比較難看懂。另外一個(gè)比較有意思的是Rmetrics推出的《TimeSeriesFAQ》,這本書是金融時(shí)間序列入門的東西,講的很基礎(chǔ),但是很難懂。對(duì)應(yīng)的中文版有《金融時(shí)間序列分析常見(jiàn)問(wèn)題集》,當(dāng)然,目前還沒(méi)有發(fā)出來(lái)。經(jīng)濟(jì)領(lǐng)域的時(shí)間序列有一種特殊的情況叫協(xié)整,很多人很關(guān)注這方面的理論,關(guān)心這個(gè)的可以看《Analysis of Integrated and Cointegrated Time Series with R》。最后,比較高級(jí)的一本書是關(guān)于小波分析的,看《Wavelet Methods in Statistics with R》。附加一點(diǎn),關(guān)于時(shí)間序列聚類的書籍目前比較少見(jiàn),是一個(gè)處女地,有志之士可以開(kāi)墾之!
6.金融
金融的領(lǐng)域很廣泛,如果是大金融的話,保險(xiǎn)也要被納入此間。用R做金融更多地需要掌握的是金融知識(shí),只會(huì)數(shù)據(jù)分析技術(shù)意義寥寥。我覺(jué)得這些書對(duì)于懂金融、不同數(shù)據(jù)分析技術(shù)的人比較有用,只懂?dāng)?shù)據(jù)分析技術(shù)而不動(dòng)金融知識(shí)的人看起來(lái)肯定如霧里看花,甚至有人會(huì)覺(jué)得金融分析比較低級(jí)。這方面比較經(jīng)典的書籍有:《Advanced Topics in Analysis of Economic and Financial Data Using R》以及《Modelling Financial Time Series With S-plus》。金融產(chǎn)品定價(jià)之類的常常要用到隨機(jī)微分方程,有一本叫《Simulation Inference Stochastic Differential Equations:with R examples》的書是關(guān)于這方面的內(nèi)容的,有實(shí)例,內(nèi)容還算詳實(shí)!此外,是風(fēng)險(xiǎn)度量與管理類。比較經(jīng)典的有《Simulation Techniques in Financial Risk Management》、《Modern Actuarial Risk Theory Using R》和《Quantitative Risk Management:Concepts, Techniques and Tools》。投資組合分析類和期權(quán)定價(jià)類可以分別看《Portfolio Optimization with R》和《Option Pricing and Estimation of Financial Models with R》。
7.數(shù)據(jù)挖掘
這方面的書不多,只有《Data Mining with R:learing with case studies》。不過(guò),R中數(shù)據(jù)挖掘方面的包已經(jīng)足夠多了,參考包中的幫助文檔就足夠了。
8.附注
出于版權(quán)等事宜的考慮,我無(wú)法告知你說(shuō)在“新浪愛(ài)問(wèn)”等地方可以直接免費(fèi)下載到上面提到的這些書,但是,我想你可以發(fā)揮自己的聰明才智去體悟! |
|
|