|
可推導(dǎo)出冪律分布的模型的文獻(xiàn)小結(jié)
看了一些paper后,一直想寫(xiě)一個(gè)關(guān)于冪律分布的文獻(xiàn)綜述,但近年來(lái)研究復(fù)雜系統(tǒng),特別是復(fù)雜網(wǎng)絡(luò)的文獻(xiàn)增長(zhǎng)迅速,而只要是涉及復(fù)雜網(wǎng)絡(luò)的,基本上都談到了類(lèi)冪律分布,因此,這個(gè)計(jì)劃因?yàn)楹臅r(shí)費(fèi)力,就一直被擱置下來(lái)。
一直擱置也不是辦法,就想先做一個(gè)mini版的,有時(shí)間再慢慢擴(kuò)充,就會(huì)越來(lái)越全面。因此,就有了這個(gè)求精不求全的小版本。本文件收錄的主題是冪律分布的數(shù)學(xué)解析模型和冪律分布在實(shí)證數(shù)據(jù)中的擬合,重點(diǎn)在前者,后者僅引用而不展開(kāi)介紹。收錄的都是我看過(guò),覺(jué)得確實(shí)不錯(cuò)的論文,因?yàn)檠劢缬邢?,難免偏狹,有待繼續(xù)完善。
Derek J. de Solla Price. Network of Science Papers. Science 149, 510-515 (1965).
這篇論文最早發(fā)現(xiàn)了科學(xué)論文引文網(wǎng)絡(luò)中的冪律度分布,并提出了一個(gè)平衡態(tài)的鏈接模型,依靠論文平均引文數(shù)保持不變的假說(shuō),作者推出了一個(gè)引文增長(zhǎng)網(wǎng)絡(luò)結(jié)構(gòu),在該種結(jié)構(gòu)下,被引用率高的文獻(xiàn)的被引用次數(shù)會(huì)越來(lái)越多,因此最后形成論文被引用次數(shù)的冪律度分布。實(shí)際上,在這篇論文中,Price并沒(méi)有給出詳細(xì)的數(shù)學(xué)推導(dǎo)過(guò)程,有興趣的同學(xué)可以參考K. K. Tung的Topics in Mathematical Modeiling (Princeton University Press, Cambridge, MA, 2007) 一書(shū)的第二章。
延伸:
科學(xué)論文引用網(wǎng)絡(luò)的冪律度分布,數(shù)十年后,得到了更大規(guī)模數(shù)據(jù)的確認(rèn)??蓞⒖糞. Redner. How popular is your paper? An Empirical Study of the Citation Distribution. The European Physical Journal B 4, 131-134 (1998) 以及 Filippo Radicchi, Santo Fortunato, Benjamin Markines & Alessandro Vespignani. Diffusion of scientific credits and the ranking of scientists. Physical Review E 80, 056103 -056113 (2009). 此外,科學(xué)論文的合作者網(wǎng)絡(luò),也被證明是符合冪律度分布的,可參考 M. E. J. Newman. The structure of scientific collaboration networks. PANS 98, 404-409(2001) 以及 M. E. J. Newman. Coauthorship networks and patterns of scientific collaboration. PNAS 101, 5200-5205(2004). B. Mandelbrot. A Note On a Class of Skew Distribution Functions: Analysis and Critique of a Paper by H. A. Simon. Information and control 2, 90-99 (1959).
1959年到1960年,B. Mandelbrot和H. A. Simon在Information and control上有一場(chǎng)激烈的爭(zhēng)論。兩人都提出了自己的數(shù)學(xué)模型來(lái)解釋語(yǔ)言學(xué)中的Zipf律,并指責(zé)對(duì)方的模型存在問(wèn)題(Mandelbrot 1959,Simon 1960,Mandelbrot 1961a,Simon 1961a,Mandelbrot 1961b,Simon 1961b)。Simon認(rèn)為Mandelbrot的“信息熵”的概念不適用于理解語(yǔ)言學(xué)中的信息概念,Mandelbrot指出自己的模型中的信息熵可以在非平衡態(tài)熱力學(xué)和統(tǒng)計(jì)學(xué)的框架下得到更好的理解,代表的是一種最可能的狀態(tài),而并不局限于語(yǔ)言傳遞的真實(shí)信息,同時(shí),Mandelbrot在這篇文章中指出Simon的Zipf模型只在冪指數(shù)小于-2的情況下成立,而且Simon模型中的“每次增加一個(gè)”的假設(shè)對(duì)于語(yǔ)言學(xué)是適用的,但并不能很好地解釋經(jīng)濟(jì)學(xué)中的財(cái)富分布等情況。
Albert-Laszlo Barabasi & Reka Albert. Emergence of scaling in random networks. Science 286, 509-512(1999).
這篇論文提出了“優(yōu)先鏈接”的模型,在這個(gè)模型中,每次新加入網(wǎng)絡(luò)的節(jié)點(diǎn)傾向于把自己鏈接分配給已有較多鏈接的節(jié)點(diǎn),這樣,一個(gè)隨機(jī)鏈接的初始網(wǎng)絡(luò)最終將演化出具有冪律度分布結(jié)構(gòu)的網(wǎng)絡(luò)。作者提出了“無(wú)標(biāo)度”(scale-free)的思想來(lái)理解冪律分布,并指出許多實(shí)際的網(wǎng)絡(luò),如互聯(lián)網(wǎng)和電力網(wǎng),都是無(wú)標(biāo)度的。
延伸:
互聯(lián)網(wǎng)鏈接的冪律度分布結(jié)構(gòu)的實(shí)證研究,可參考A.-L.Barabasi, R. Albert, H. Jeong, G. Bianconi, Power law distribution of the World Wide Web, Science 287(2000).2115. 通過(guò)和來(lái)自各個(gè)學(xué)科的科學(xué)家合作,A.-L.Barabasi將他的模型迅速推廣到各個(gè)領(lǐng)域,在過(guò)去的十年中掀起了一次復(fù)雜網(wǎng)絡(luò)的研究熱潮。各類(lèi)期刊上出現(xiàn)了滿(mǎn)足冪律度分布的大量實(shí)證網(wǎng)絡(luò)數(shù)據(jù),在此不詳述。 Bernardo A. Huberman, Peter L. T. Pirolli, James E. Pitkow, Rajan M. Lukose. Strong Regularities in World Wide Web Surfing. Science 280, 95-97 (1998).
這篇文章介紹了一個(gè)用戶(hù)隨機(jī)跳轉(zhuǎn)瀏覽網(wǎng)頁(yè),產(chǎn)生類(lèi)multiplicative process(一堆代表系統(tǒng)動(dòng)蕩的隨機(jī)變量相乘的過(guò)程)過(guò)程的互聯(lián)網(wǎng)增長(zhǎng)模型。作者提出網(wǎng)站擁有的網(wǎng)頁(yè)數(shù)的對(duì)數(shù)增長(zhǎng)率滿(mǎn)足對(duì)數(shù)正態(tài)分布,并提出滿(mǎn)足這種分布的增長(zhǎng)最終會(huì)導(dǎo)致整個(gè)互聯(lián)網(wǎng)內(nèi)網(wǎng)站擁有的網(wǎng)頁(yè)數(shù)呈冪律分布。
延伸:
在Bernardo A. Huberman, Lada A. Adamic Growth dynamics of the World-Wide Web Nature, 401, 131(1999)中,作者舉出兩大引擎的網(wǎng)頁(yè)搜索數(shù)據(jù),證明其搜索到的網(wǎng)頁(yè)確實(shí)呈現(xiàn)冪律分布。Bernardo A. Huberman & Lada A. Adamic. Evolutionary Dynamics of the World Wide Web. Arxiv preprint cond-mat/9901071(1999)再次解釋了這個(gè)結(jié)果。 multiplicative process增長(zhǎng)過(guò)程的另外一個(gè)名字叫Gibrat律,在生物學(xué)、地理學(xué)和經(jīng)濟(jì)學(xué)中都有出現(xiàn)。在地理學(xué)中可參考S. Nordbeck, Geografiska Annaler, Urban allometric growth, Series B, Human Geography 53 (1971) 54. 在經(jīng)濟(jì)學(xué)中可參考
D. Canning, L.A.N. Amaral, Y. Lee, M. Meyer, H.E. Stanley, Scaling the volatility of GDP rates, Economic Letters, 60 (1998) 335 以及 Jan Eeckhout. Gibrat’s Law for (All) Cities. the American Economic Review 94, 1429–1451(2004). Ramon Ferrer i Cancho & Ricard V. Solé. Least effort and the origins of scaling in human language. PNAS 100, 788-791(2003).
這篇論文重新詮釋了語(yǔ)言學(xué)中的“最省力”(least effort)原則,并在信息論的框架下給出了這個(gè)概念的具體數(shù)學(xué)定義。其實(shí),least effort這個(gè)概念,本身就是一個(gè)很有潛力的概念,由語(yǔ)言學(xué)家G. K.Zipf在Human behavior and the principle of least effort (Addison-Wesley, Cambridge, MA, 1949)一書(shū)中提出來(lái)。雖然Zipf發(fā)現(xiàn)了語(yǔ)言學(xué),及其他一些數(shù)據(jù)中的Zipf律,并指出其可能是least effort的后果,但并沒(méi)有建立完善的數(shù)學(xué)模型。本論文中,作者提出了一個(gè)Speaker和listeners互相博弈的框架:Speaker傾向于每個(gè)字都相同,這樣在發(fā)音的時(shí)候是最省力的(最小熵),listener則希望每個(gè)字都不同,這樣則最容易識(shí)別出每個(gè)字的意義(最大熵)。博弈的結(jié)果是雙方平均分擔(dān)交流的成本,最后導(dǎo)致存在冪律的語(yǔ)言學(xué)結(jié)構(gòu)。
Michael Mitzenmacher. A Brief History of Generative Models for Power Law and Lognormal Distributions. Internet Math1, 226-251(2003).
這篇論文談?wù)摿丝梢援a(chǎn)生對(duì)數(shù)正態(tài)分布的模型如multiplicative process,以及一些可以產(chǎn)生冪律分布的模型如barabasi的“優(yōu)先連接”網(wǎng)絡(luò)模型,Yule的“遺傳變異”生態(tài)學(xué)模型和Simon的“單詞增長(zhǎng)演化”語(yǔ)言學(xué)模型(這兩個(gè)模型的思想和優(yōu)先連接模型的思想基本是一致的,但提出時(shí)間要早50年),Mandelbrot的“最小信息成本”語(yǔ)言學(xué)模型,Miller的“隨機(jī)打字”語(yǔ)言學(xué)模型。這篇論文一個(gè)獨(dú)特之處在于將對(duì)數(shù)正態(tài)模型和冪律分布模型聯(lián)系在一起,指出了前者向后者轉(zhuǎn)化的條件,并提出了一種混合形式(double pareto distribution);這篇論文的另一個(gè)獨(dú)特之處是引用了大量已有的互聯(lián)網(wǎng)數(shù)據(jù)研究的文獻(xiàn),討論了互聯(lián)網(wǎng)研究者在網(wǎng)絡(luò)流量,文件大小,網(wǎng)絡(luò)連接結(jié)構(gòu)等方面的數(shù)據(jù)分析中對(duì)于對(duì)數(shù)正態(tài)和冪律分布的爭(zhēng)論。
這篇論文對(duì)于從事互聯(lián)網(wǎng)數(shù)據(jù)研究的同學(xué)尤其有參考價(jià)值。 Xavier Gabaix, Parameswaran Gopikrishnan, Vasiliki Plerou & H. Eugene Stanley. A theory of power-law distributions in financial market fluctuations. Nature 423, 267-270 (2003).
這篇文章介紹了金融市場(chǎng)中的若干種冪律分布(股票對(duì)數(shù)收益率、股票交易價(jià)格和股票交易量等)及其相互關(guān)系,并建立了一個(gè)最大化利潤(rùn)的購(gòu)買(mǎi)模型來(lái)推導(dǎo)出冪律分布。在這個(gè)模型中,股票交易員試圖評(píng)估一支股票被低估的程度,并給出一個(gè)溢價(jià)來(lái)向持股者提出一定量的購(gòu)買(mǎi)要求。該溢價(jià)的幅度和購(gòu)買(mǎi)要求得到滿(mǎn)足的時(shí)間成反比。同時(shí)在市場(chǎng)上,股票被低估的價(jià)值隨時(shí)間減少,因此股票交易員者要搶在股票被低估的價(jià)值完全消失前完成買(mǎi)進(jìn)賣(mài)出交易。高溢價(jià)可以使交易員盡快買(mǎi)到股票,但利潤(rùn)也隨之降低;低溢價(jià)雖然保留了大部分利潤(rùn),但要花掉較長(zhǎng)的時(shí)間來(lái)吸引足夠的出售者,因此也冒著股票被低估的價(jià)值消失的危險(xiǎn),也是對(duì)利潤(rùn)的一種損害。通過(guò)最大化整個(gè)過(guò)程中的總利潤(rùn),作者推導(dǎo)出了若干個(gè)冪律模型。值得一提的是,該模型雖然基于正常的理性交易,但諸如1927-1928經(jīng)濟(jì)大蕭條前期這樣的股市大動(dòng)蕩也在模型的預(yù)期范圍內(nèi),因此該模型有較強(qiáng)的解釋力。
M.E.J. Newman. Power laws, Pareto distributions and Zipf's law. Contemporary Physics 46, 323-351 (2005).
這篇論文較詳細(xì)地介紹了冪律分布的特征、列出了十多種類(lèi)冪律分布的數(shù)據(jù),尤其詳細(xì)地介紹了冪律分布的數(shù)學(xué)形式以及它的各種數(shù)學(xué)處理和變形,如切頭、累積分布、rank、最小x值,歸一化等。在文章的后半部分,介紹了指數(shù)、倒數(shù)、隨機(jī)游走、yule過(guò)程、相變與臨界態(tài)、自組織等多個(gè)可以產(chǎn)生冪律的數(shù)學(xué)模型。
Aaron Clauset, Cosma Rohilla Shalizi & M. E. J. Newman. Power-law distributions in empirical data. SIAM Review 51, 661-704 (2009).
這篇論文介紹了如何確認(rèn)和分析實(shí)證數(shù)據(jù)中的冪律分布。主要談了使用雙對(duì)數(shù)坐標(biāo)系下線性回歸擬合求冪指數(shù)可能產(chǎn)生的問(wèn)題及其原因;如何使用最大似然估計(jì)方法擬合冪指數(shù),以及如何使用ks值和likelihood ratios來(lái)確定冪律分布(作者在Santa Fe Institute的網(wǎng)站上公布了可用于擬合和檢驗(yàn)的R和Matlab程序)。
這篇文章對(duì)于從事復(fù)雜系統(tǒng)實(shí)證數(shù)據(jù)分析的同學(xué)尤其有參考價(jià)值。 D. Yu. Manin. Mandelbrot's Model for Zipf's Law: Can Mandelbrot's Model Explain Zipf's Law for Language? Journal of Quantitative Linguistics 16, 274 -285 (2009).
這篇文章詳細(xì)介紹了Mandelbrot的“最小信息成本”語(yǔ)言學(xué)模型,并做了兩處改進(jìn)。一處是重新解釋了信息成本的定義,指出Mandelbrot的為解釋公式的數(shù)學(xué)形式而做出的“單詞出現(xiàn)的概率與其長(zhǎng)度成負(fù)指數(shù)關(guān)系”的假設(shè)不符合語(yǔ)言學(xué)的實(shí)證數(shù)據(jù),提出以“語(yǔ)言使用者”的“心智內(nèi)存”的假設(shè)來(lái)代替原有假設(shè),可以更好地理解信息成本的數(shù)學(xué)形式;另一處是指出Mandelbrot的數(shù)學(xué)模型中的一個(gè)潛在危險(xiǎn):其推導(dǎo)出的Zipf律的指數(shù)不是趨近于1,而是趨近于無(wú)窮大。作者通過(guò)在原有公式的信息成本部分增添一個(gè)常數(shù)項(xiàng)的辦法解決了這個(gè)問(wèn)題。
本文來(lái)自CSDN博客,轉(zhuǎn)載請(qǐng)標(biāo)明出處:http://blog.csdn.net/cgz_1986/archive/2010/07/20/5747314.aspx |
|
|
來(lái)自: zele > 《我的圖書(shū)館》