小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

張志華:機(jī)器學(xué)習(xí)=統(tǒng)計(jì)與計(jì)算之戀

 葉老師YP 2016-06-28

C新智元推薦  

來(lái)源:統(tǒng)計(jì)之都授權(quán)轉(zhuǎn)載

作者:張志華


【新智元導(dǎo)讀】本文根據(jù)張志華在第九屆中國(guó)R語(yǔ)言會(huì)議和上海交通大學(xué)的兩次講座整理,分為兩部分:第一部分,首先對(duì)機(jī)器學(xué)習(xí)發(fā)展做一個(gè)簡(jiǎn)要的回顧,由此探討機(jī)器學(xué)習(xí)現(xiàn)象所蘊(yùn)含的內(nèi)在本質(zhì),特別是討論它和統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)、運(yùn)籌優(yōu)化等學(xué)科的聯(lián)系,以及它和工業(yè)界、創(chuàng)業(yè)界相輔相成的關(guān)系。在第二部分,試圖用“多級(jí)”、“自適應(yīng)”以及 “平均”等概念來(lái)簡(jiǎn)約紛繁多彩的機(jī)器學(xué)習(xí)模型和計(jì)算方法背后的一些研究思路或思想。


張志華,上海交通大學(xué)計(jì)算機(jī)科學(xué)與工程系教授,上海交通大學(xué)數(shù)據(jù)科學(xué)研究中心兼職教授,計(jì)算機(jī)科學(xué)與技術(shù)和統(tǒng)計(jì)學(xué)雙學(xué)科的博士生指導(dǎo)導(dǎo)師。在加入上海交通大學(xué)之前,曾擔(dān)任浙江大學(xué)計(jì)算機(jī)學(xué)院教授和浙江大學(xué)統(tǒng)計(jì)科學(xué)中心兼職教授,主要從事人工智能、機(jī)器學(xué)習(xí)與應(yīng)用統(tǒng)計(jì)學(xué)領(lǐng)域的教學(xué)與研究,迄今在國(guó)際重要學(xué)術(shù)期刊和重要的計(jì)算機(jī)學(xué)科會(huì)議上發(fā)表70余篇論文,是美國(guó)“數(shù)學(xué)評(píng)論”的特邀評(píng)論員,國(guó)際機(jī)器學(xué)習(xí)旗艦刊物Journal of Machine Learning Research 的執(zhí)行編委。其公開課《機(jī)器學(xué)習(xí)導(dǎo)論》和《統(tǒng)計(jì)機(jī)器學(xué)習(xí)》受到廣泛關(guān)注。



張志華老師和他的學(xué)生們


大家好,今天我演講的主題是 “機(jī)器學(xué)習(xí):統(tǒng)計(jì)與計(jì)算之戀”。我用了一個(gè)很浪漫的名字,但是我的心情是誠(chéng)惶誠(chéng)恐的。一則我擔(dān)心自己沒有能力駕馭這么大的主題,二則我其實(shí)是一個(gè)不解風(fēng)情之人,我的觀點(diǎn)有些可能不符合國(guó)內(nèi)學(xué)術(shù)界的主流聲音。


最近人工智能或者機(jī)器學(xué)習(xí)的強(qiáng)勢(shì)崛起,特別是剛剛過(guò)去的AlphaGo和韓國(guó)棋手李世石九段的人機(jī)大戰(zhàn),再次讓我們領(lǐng)略到了人工智能或機(jī)器學(xué)習(xí)技術(shù)的巨大潛力,同時(shí)也深深地觸動(dòng)了我。面對(duì)這一前所未有的技術(shù)大變革,作為10多年以來(lái)一直從事統(tǒng)計(jì)機(jī)器學(xué)習(xí)一線教學(xué)與研究的學(xué)者,希望借此機(jī)會(huì)和大家分享我個(gè)人的一些思考和反思。



在這場(chǎng)人工智能發(fā)展的盛事里,我突然發(fā)現(xiàn),對(duì)我們中國(guó)的學(xué)者來(lái)說(shuō),好像是一群看熱鬧的旁觀者。不管你承認(rèn)還是不承認(rèn),事實(shí)就是和我一代的或者更早的學(xué)者也只能作為旁觀者了。我們能做的事情是幫助你們---中國(guó)年輕的一代,讓你們?cè)谌斯ぶ悄馨l(fā)展的大潮中有競(jìng)爭(zhēng)力,做出標(biāo)桿性的成就,創(chuàng)造人類文明價(jià)值,也讓我有個(gè)加油歡呼的主隊(duì)。


我的演講主要包含兩部分,在第一部分,首先對(duì)機(jī)器學(xué)習(xí)發(fā)展做一個(gè)簡(jiǎn)要的回顧,由此探討機(jī)器學(xué)習(xí)現(xiàn)象所蘊(yùn)含的內(nèi)在本質(zhì),特別是討論它和統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)、運(yùn)籌優(yōu)化等學(xué)科的聯(lián)系,以及它和工業(yè)界、創(chuàng)業(yè)界相輔相成的關(guān)系。在第二部分,試圖用“多級(jí)”、“自適應(yīng)”以及 “平均”等概念來(lái)簡(jiǎn)約紛繁多彩的機(jī)器學(xué)習(xí)模型和計(jì)算方法背后的一些研究思路或思想。


第一部分:回顧和反思


1、 什么是機(jī)器學(xué)習(xí)


毋庸置疑,大數(shù)據(jù)和人工智能是當(dāng)今是最為時(shí)髦的名詞,它們將為我們未來(lái)生活帶來(lái)深刻的變革。數(shù)據(jù)是燃料,智能是目標(biāo),而機(jī)器學(xué)習(xí)是火箭,即通往智能的技術(shù)途徑。機(jī)器學(xué)習(xí)大師Mike Jordan和Tom Mitchell 認(rèn)為機(jī)器學(xué)習(xí)是計(jì)算機(jī)科學(xué)和統(tǒng)計(jì)學(xué)的交叉,同時(shí)是人工智能和數(shù)據(jù)科學(xué)的核心。


“It is one of today’s rapidly growing technical fields,  lying at the intersection of computer science and statistics, and at the core of artificial intelligence and data science”
                                                               ---M. I. Jordan


通俗地說(shuō),機(jī)器學(xué)習(xí)就是從數(shù)據(jù)里面挖掘出有用的價(jià)值。數(shù)據(jù)本身是死的,它不能自動(dòng)呈現(xiàn)出有用的信息。怎么樣才能找出有價(jià)值的東西呢?第一步要給數(shù)據(jù)一個(gè)抽象的表示,接著基于表示進(jìn)行建模,然后估計(jì)模型的參數(shù),也就是計(jì)算,為了應(yīng)對(duì)大規(guī)模的數(shù)據(jù)所帶來(lái)的問(wèn)題,我們還需要設(shè)計(jì)一些高效的實(shí)現(xiàn)手段。


我把這個(gè)過(guò)程解釋為機(jī)器學(xué)習(xí)等于矩陣+統(tǒng)計(jì)+優(yōu)化+算法。首先,當(dāng)數(shù)據(jù)被定義為一個(gè)抽象的表示時(shí),往往形成一個(gè)矩陣或者一個(gè)圖,而圖其實(shí)也是可以理解為矩陣。統(tǒng)計(jì)是建模的主要工具和途徑,而模型求解大多被定義為一個(gè)優(yōu)化問(wèn)題,特別是,頻率統(tǒng)計(jì)方法其實(shí)就是一個(gè)優(yōu)化問(wèn)題。當(dāng)然,貝葉斯模型的計(jì)算牽涉隨機(jī)抽樣方法。而之前說(shuō)到面對(duì)大數(shù)據(jù)問(wèn)題的具體實(shí)現(xiàn)時(shí),需要一些高效的方法,計(jì)算機(jī)科學(xué)中的算法和數(shù)據(jù)結(jié)構(gòu)里有不少好的技巧可以幫助我們解決這個(gè)問(wèn)題。


借鑒Marr的關(guān)于計(jì)算機(jī)視覺的三級(jí)論定義,我把機(jī)器學(xué)習(xí)也分為三個(gè)層次:初級(jí)、中級(jí)和高級(jí)。初級(jí)階段是數(shù)據(jù)獲取以及特征的提取。中級(jí)階段是數(shù)據(jù)處理與分析,它又包含三個(gè)方面,首先是應(yīng)用問(wèn)題導(dǎo)向,簡(jiǎn)單地說(shuō),它主要應(yīng)用已有的模型和方法解決一些實(shí)際問(wèn)題,我們可以理解為數(shù)據(jù)挖掘;第二,根據(jù)應(yīng)用問(wèn)題的需要,提出和發(fā)展模型、方法和算法以及研究支撐它們的數(shù)學(xué)原理或理論基礎(chǔ)等,我理解這是機(jī)器學(xué)習(xí)學(xué)科的核心內(nèi)容。第三,通過(guò)推理達(dá)到某種智能。最后,高級(jí)階段是智能與認(rèn)知,即實(shí)現(xiàn)智能的目標(biāo)。從這里,我們看到,數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)本質(zhì)上是一樣的,其區(qū)別是數(shù)據(jù)挖掘更接地于數(shù)據(jù)庫(kù)端,而機(jī)器學(xué)習(xí)則更接近于智能端。


2、  機(jī)器學(xué)習(xí)的發(fā)展歷程


我們來(lái)梳理一下機(jī)器學(xué)習(xí)的發(fā)展歷程。上個(gè)世紀(jì)90年代以前,我對(duì)此認(rèn)識(shí)不夠,了解不深,但我覺得當(dāng)時(shí)機(jī)器學(xué)習(xí)處于發(fā)展的平淡期。而1996-2006年是其黃金時(shí)期,主要標(biāo)志是學(xué)術(shù)界涌現(xiàn)出一批重要成果,比如,基于統(tǒng)計(jì)學(xué)習(xí)理論的SVM和boosting等分類方法,基于再生核理論的非線性數(shù)據(jù)分析與處理方法,以lasso為代表的稀疏學(xué)習(xí)模型及應(yīng)用等等。這些成果應(yīng)該是統(tǒng)計(jì)界和計(jì)算機(jī)科學(xué)界共同努力成就的。


然而,機(jī)器學(xué)習(xí)也經(jīng)歷了一個(gè)短暫的徘徊期。這個(gè)我感同身受,因?yàn)槟菚r(shí)我在伯克利的博士后工作結(jié)束,正面臨找工作,因此當(dāng)時(shí)我導(dǎo)師Mike Jordan教授和我進(jìn)行了多次交流,他一方面認(rèn)為機(jī)器學(xué)習(xí)正處于困難期,工作職位已趨于飽滿,另一方面他向我一再?gòu)?qiáng)調(diào),把統(tǒng)計(jì)學(xué)引入到機(jī)器學(xué)習(xí)的思路是對(duì)的,因?yàn)橐越y(tǒng)計(jì)學(xué)為基礎(chǔ)的機(jī)器學(xué)習(xí)作為一個(gè)學(xué)科其地位已經(jīng)被奠定。主要問(wèn)題是機(jī)器學(xué)習(xí)是一門應(yīng)用學(xué)科,它需要在工業(yè)界發(fā)揮出作用,能為他們解決實(shí)際問(wèn)題。幸運(yùn)的是,這個(gè)時(shí)期很快就過(guò)去了??赡茉谧蠖鄶?shù)人對(duì)這個(gè)時(shí)期沒有印象,因?yàn)橹袊?guó)學(xué)術(shù)發(fā)展往往要慢半拍。


現(xiàn)在我們可以理直氣壯地說(shuō)機(jī)器學(xué)習(xí)已經(jīng)成為計(jì)算機(jī)科學(xué)和人工智能的主流學(xué)科。主要體現(xiàn)在下面三個(gè)標(biāo)志性的事件。


首先,2010年2月,伯克利的Mike Jordan教授和CMU的Tom Mitchell教授同時(shí)被選為美國(guó)工程院院士,同年5月份,Mike Jordan和斯坦福的統(tǒng)計(jì)學(xué)家Jerome Friedman又被選為美國(guó)科學(xué)院院士。我們知道許多著名機(jī)器學(xué)習(xí)算法比如CART、MARS 和GBM等是 Friedman教授等提出。



隨后幾年一批在機(jī)器學(xué)習(xí)做出重要貢獻(xiàn)的學(xué)者先后被選為美國(guó)科學(xué)院或工程院院士。比如,人工智能專家的Daphne Koller, Boosting的主要建立者Robert Schapire, Lasso的提出者Robert Tibshirani, 華裔著名統(tǒng)計(jì)學(xué)習(xí)專家郁彬老師,統(tǒng)計(jì)機(jī)器機(jī)器學(xué)習(xí)專家的Larry Wasserman, 著名的優(yōu)化算法專家 Stephen Boyd等。同時(shí),機(jī)器學(xué)習(xí)專家、深度學(xué)習(xí)的領(lǐng)袖Toronto大學(xué)Geoffrey Hinton 以及該校統(tǒng)計(jì)學(xué)習(xí)專家Nancy Reid 今年分別被選為美國(guó)工程院和科學(xué)院的外籍院士。



這是當(dāng)時(shí)Mike給我祝賀他當(dāng)選為院士時(shí)的回信:


Thanks for your congratulations on my election to the National Academy. It's nice to have machine learning recognized in this way.

因此,我理解在美國(guó)一個(gè)學(xué)科能否被接納為主流學(xué)科的一個(gè)重要標(biāo)志是其代表科學(xué)家能否被選為院士。我們知道Tom Mitchell 是機(jī)器學(xué)習(xí)早期建立者和守護(hù)者,而Mike Jordan是統(tǒng)計(jì)機(jī)器學(xué)習(xí)的奠基者和推動(dòng)者。


這個(gè)遴選機(jī)制無(wú)疑是先進(jìn)的,它可以促使學(xué)科良性發(fā)展,適應(yīng)社會(huì)動(dòng)態(tài)發(fā)展和需求。相反,如果某某通過(guò)某種方式被評(píng)選為本國(guó)院士,然后他們就掌握了該國(guó)學(xué)術(shù)話語(yǔ)權(quán)和資源分配權(quán)。這種機(jī)制可能會(huì)造成一些問(wèn)題,比如一些過(guò)剩學(xué)科或者夕陽(yáng)學(xué)科會(huì)得到過(guò)多的發(fā)展資源,而主流學(xué)科則被邊緣化。



其次,2011年的圖靈獎(jiǎng)授予了UCLA的Judea Pearl教授,他主要的研究領(lǐng)域是概率圖模型和因果推理,這是機(jī)器學(xué)習(xí)的基礎(chǔ)問(wèn)題。我們知道,圖靈獎(jiǎng)通常頒給做純理論計(jì)算機(jī)科學(xué)的學(xué)者,或者早期建立計(jì)算機(jī)架構(gòu)的學(xué)者,而把圖靈獎(jiǎng)授予Judea Pearl教授具有方向標(biāo)的意義。


第三,是當(dāng)下的熱點(diǎn),比如說(shuō)深度學(xué)習(xí)、AlphaGo、無(wú)人駕駛汽車、人工智能助理等等對(duì)工業(yè)界的巨大影響。機(jī)器學(xué)習(xí)切實(shí)能被用來(lái)幫助工業(yè)界解決問(wèn)題。工業(yè)界對(duì)機(jī)器學(xué)習(xí)領(lǐng)域的才人有大量的需求,不僅僅需要代碼能力強(qiáng)的工程師,也需要有數(shù)學(xué)建模和解決問(wèn)題的科學(xué)家。


讓我們具體地看看工業(yè)界和機(jī)器學(xué)習(xí)之間的關(guān)系。我之前在谷歌研究院做過(guò)一年的訪問(wèn)科學(xué)家,我有不少同事和以前學(xué)生在IT界工作,平時(shí)實(shí)驗(yàn)室也經(jīng)常接待一些公司的來(lái)訪和交流,因此了解一些IT界情況。


我理解當(dāng)今IT的發(fā)展已從傳統(tǒng)的微軟模式轉(zhuǎn)變到谷歌模式。傳統(tǒng)的微軟模式可以理解為制造業(yè),而谷歌模式則是服務(wù)業(yè)。谷歌搜索完全是免費(fèi)的,服務(wù)社會(huì),他們的搜索做得越來(lái)越極致,同時(shí)創(chuàng)造的財(cái)富也越來(lái)越豐厚。


財(cái)富蘊(yùn)藏在數(shù)據(jù)中,而挖掘財(cái)富的核心技術(shù)則是機(jī)器學(xué)習(xí)。深度學(xué)習(xí)作為當(dāng)今最有活力一個(gè)機(jī)器學(xué)習(xí)方向,在計(jì)算機(jī)視覺、自然語(yǔ)言理解、語(yǔ)音識(shí)別、智力游戲等領(lǐng)域的顛覆性成就。它造就了一批新興的創(chuàng)業(yè)公司。


3、 統(tǒng)計(jì)與計(jì)算


我的重點(diǎn)還是要回到學(xué)術(shù)界。我們來(lái)重點(diǎn)討論統(tǒng)計(jì)學(xué)和計(jì)算機(jī)科學(xué)的關(guān)系。CMU 統(tǒng)計(jì)系教授Larry Wasserman最近剛被選為美國(guó)科學(xué)院院士。他寫了一本名字非常霸道的書,《All of Statistics》。在這本書引言部分關(guān)于統(tǒng)計(jì)學(xué)與機(jī)器學(xué)習(xí)有個(gè)非常有趣的描述。他認(rèn)為原來(lái)統(tǒng)計(jì)是在統(tǒng)計(jì)系,計(jì)算機(jī)是在計(jì)算機(jī)系,這兩個(gè)是不相來(lái)往的,而且互相都不認(rèn)同對(duì)方的價(jià)值。計(jì)算機(jī)學(xué)家認(rèn)為那些統(tǒng)計(jì)理論沒有用,不解決問(wèn)題,而統(tǒng)計(jì)學(xué)家則認(rèn)為計(jì)算機(jī)學(xué)家只是在重新建造輪子,沒有新意。然而,他認(rèn)為這個(gè)情況現(xiàn)在改變了,統(tǒng)計(jì)學(xué)家認(rèn)識(shí)到計(jì)算機(jī)學(xué)家正在做出的貢獻(xiàn),而計(jì)算機(jī)學(xué)家也認(rèn)識(shí)到統(tǒng)計(jì)的理論和方法論的普遍性意義。所以,Larry寫了這本書,可以說(shuō)這是一本為統(tǒng)計(jì)學(xué)者寫的計(jì)算機(jī)領(lǐng)域的書,為計(jì)算機(jī)學(xué)者寫的統(tǒng)計(jì)領(lǐng)域的書。


現(xiàn)在大家達(dá)成了一個(gè)共識(shí): 如果你在用一個(gè)機(jī)器學(xué)習(xí)方法,而不懂其基礎(chǔ)原理,這是一件非??膳碌氖虑?/span>。也是由于這個(gè)原因,目前學(xué)術(shù)界對(duì)深度學(xué)習(xí)還是心存疑慮的。深度學(xué)習(xí)已經(jīng)展示其強(qiáng)大的實(shí)際應(yīng)用的效果,但其中的原理目前大家還不是太清楚。


讓我們進(jìn)一步地來(lái)分析統(tǒng)計(jì)與計(jì)算機(jī)的關(guān)系。計(jì)算機(jī)學(xué)家通常具有強(qiáng)的計(jì)算能力和解決問(wèn)題的直覺,而統(tǒng)計(jì)學(xué)家長(zhǎng)于理論分析,具有強(qiáng)的建模能力,因此,兩者有很好的互補(bǔ)性。

Boosting, SVM 和稀疏學(xué)習(xí)是機(jī)器學(xué)習(xí)界也是統(tǒng)計(jì)界,在近十年或者是近二十年來(lái),最活躍的方向,現(xiàn)在很難說(shuō)誰(shuí)比誰(shuí)在其中做的貢獻(xiàn)更大。比如,SVM的理論其實(shí)很早被Vapnik等提出來(lái)了,但計(jì)算機(jī)界發(fā)明了一個(gè)有效的求解算法,而且后來(lái)又有非常好的實(shí)現(xiàn)代碼被陸續(xù)開源給大家使用,于是SVM就變成分類算法的一個(gè)基準(zhǔn)模型。再比如,KPCA是由計(jì)算機(jī)學(xué)家提出的一個(gè)非線性降維方法,其實(shí)它等價(jià)于經(jīng)典MDS。而后者在統(tǒng)計(jì)界是很早就存在的,但如果沒有計(jì)算機(jī)界從新發(fā)現(xiàn),有些好的東西可能就被埋沒了。


機(jī)器學(xué)習(xí)現(xiàn)在已成為統(tǒng)計(jì)學(xué)的一個(gè)主流方向,許多著名統(tǒng)計(jì)系紛紛招聘機(jī)器學(xué)習(xí)領(lǐng)域的博士為教員。計(jì)算在統(tǒng)計(jì)已經(jīng)變得越來(lái)越重要,傳統(tǒng)多元統(tǒng)計(jì)分析是以矩陣為計(jì)算工具,現(xiàn)代高維統(tǒng)計(jì)則是以優(yōu)化為計(jì)算工具。另一方面,計(jì)算機(jī)學(xué)科開設(shè)高級(jí)統(tǒng)計(jì)學(xué)課程,比如統(tǒng)計(jì)學(xué)中的核心課程“經(jīng)驗(yàn)過(guò)程”。


我們來(lái)看機(jī)器學(xué)習(xí)在計(jì)算機(jī)科學(xué)占什么樣的地位。最近有一本還沒有出版的書 “Foundation of Data Science, by Avrim Blum, John Hopcroft, and Ravindran Kannan,”作者之一John Hopcroft是圖靈獎(jiǎng)得主。在這本書前沿部分,提到了計(jì)算機(jī)科學(xué)的發(fā)展可以分為三個(gè)階段:早期、中期和當(dāng)今。早期就是讓計(jì)算機(jī)可以運(yùn)行起來(lái),其重點(diǎn)在于開發(fā)程序語(yǔ)言、編譯原理、操作系統(tǒng),以及研究支撐它們的數(shù)學(xué)理論。中期是讓計(jì)算機(jī)變得有用,變得高效。重點(diǎn)在于研究算法和數(shù)據(jù)結(jié)構(gòu)。第三個(gè)階段是讓計(jì)算機(jī)具有更廣泛的應(yīng)用,發(fā)展重點(diǎn)從離散類數(shù)學(xué)轉(zhuǎn)到概率和統(tǒng)計(jì)。那我們看到,第三階段實(shí)際上就是機(jī)器學(xué)習(xí)所關(guān)心的。


現(xiàn)在計(jì)算機(jī)界戲稱機(jī)器學(xué)習(xí)“全能學(xué)科”,它無(wú)所不在。一方面,機(jī)器學(xué)習(xí)有其自身的學(xué)科體系;另一方面它還有兩個(gè)重要的輻射功能。一是為應(yīng)用學(xué)科提供解決問(wèn)題的方法與途徑。說(shuō)的通俗一點(diǎn),對(duì)于一個(gè)應(yīng)用學(xué)科來(lái)說(shuō),機(jī)器學(xué)習(xí)的目的就是把一些難懂的數(shù)學(xué)翻譯成讓工程師能夠?qū)懗龀绦虻膫未a。二是為一些傳統(tǒng)學(xué)科,比如統(tǒng)計(jì)、理論計(jì)算機(jī)科學(xué)、運(yùn)籌優(yōu)化等找到新的研究問(wèn)題。


4、 機(jī)器學(xué)習(xí)發(fā)展的啟示


機(jī)器學(xué)習(xí)的發(fā)展歷程告訴我們:發(fā)展一個(gè)學(xué)科需要一個(gè)務(wù)實(shí)的態(tài)度。時(shí)髦的概念和名字無(wú)疑對(duì)學(xué)科的普及有一定的推動(dòng)作用,但學(xué)科的根本還是所研究的問(wèn)題、方法、技術(shù)和支撐的基礎(chǔ)等,以及為社會(huì)產(chǎn)生的價(jià)值。


機(jī)器學(xué)習(xí)是個(gè)很酷的名字,簡(jiǎn)單地按照字面理解,它的目的是讓機(jī)器能像人一樣具有學(xué)習(xí)能力。但在前面我們所看到的,在其10年的黃金發(fā)展期,機(jī)器學(xué)習(xí)界并沒有過(guò)多地炒作“智能”,而是更多地關(guān)注于引入統(tǒng)計(jì)學(xué)等來(lái)建立學(xué)科的理論基礎(chǔ),面向數(shù)據(jù)分析與處理,以無(wú)監(jiān)督學(xué)習(xí)和有監(jiān)督學(xué)習(xí)為兩大主要的研究問(wèn)題,提出和開發(fā)了一系列模型、方法和計(jì)算算法等,切實(shí)地解決工業(yè)界所面臨的一些實(shí)際問(wèn)題。近幾年,因應(yīng)大數(shù)據(jù)的驅(qū)動(dòng)和計(jì)算能力的極大提升,一批面向機(jī)器學(xué)習(xí)的底層架構(gòu)又先后被開發(fā)出來(lái),深度神經(jīng)網(wǎng)絡(luò)的強(qiáng)勢(shì)崛起給工業(yè)界帶來(lái)了深刻的變革和機(jī)遇。


機(jī)器學(xué)習(xí)的發(fā)展同樣詮釋了多學(xué)科交叉的重要性和必要性。然而這種交叉不是簡(jiǎn)單地彼此知道幾個(gè)名詞或概念就可以的,是需要真正的融化貫通。Mike Jordan教授既是一流的計(jì)算機(jī)學(xué)家,又是一流的統(tǒng)計(jì)學(xué)家,所以他能夠承擔(dān)起建立統(tǒng)計(jì)機(jī)器學(xué)習(xí)的重任。而且他非常務(wù)實(shí),從不提那些空洞無(wú)物的概念和框架。他遵循自下而上的方式,即先從具體問(wèn)題、模型、方法、算法等著手,然后一步一步系統(tǒng)化。Geoffrey Hinton教授是世界最著名的認(rèn)知心理學(xué)家和計(jì)算機(jī)科學(xué)學(xué)家。雖然他很早就成就斐然,在學(xué)術(shù)界名聲卓越,但他一直活躍在一線,自己寫代碼。他提出的許多想法簡(jiǎn)單、可行又非常有效,因此被稱為偉大的思想家。正是由于他的睿智和力行,深度學(xué)習(xí)技術(shù)迎來(lái)了革命性的突破。


機(jī)器學(xué)習(xí)這個(gè)學(xué)科同時(shí)是兼容并收。我們可以說(shuō)機(jī)器學(xué)習(xí)是由學(xué)術(shù)界、工業(yè)界、創(chuàng)業(yè)界(或競(jìng)賽界)等合力而造就的。學(xué)術(shù)界是引擎,工業(yè)界是驅(qū)動(dòng),創(chuàng)業(yè)界是活力和未來(lái)。學(xué)術(shù)界和工業(yè)界應(yīng)該有各自的職責(zé)和分工。學(xué)術(shù)界職責(zé)在于建立和發(fā)展機(jī)器學(xué)習(xí)學(xué)科,培養(yǎng)機(jī)器學(xué)習(xí)領(lǐng)域的專門人才;而大項(xiàng)目、大工程更應(yīng)該由市場(chǎng)來(lái)驅(qū)動(dòng),由工業(yè)界來(lái)實(shí)施和完成。


5、國(guó)內(nèi)外發(fā)展現(xiàn)狀 


我們來(lái)看看機(jī)器學(xué)習(xí)在國(guó)際的發(fā)展現(xiàn)狀。我主要看幾所著名大學(xué)的情況。在伯克利,一個(gè)值得深思的舉措是機(jī)器學(xué)習(xí)的教授同時(shí)在計(jì)算機(jī)系和統(tǒng)計(jì)學(xué)都有正式職位,而且據(jù)我所知,他們不是兼職,在兩個(gè)系都有教授課程和研究的任務(wù)的。伯克利是美國(guó)統(tǒng)計(jì)學(xué)的發(fā)源地,可以說(shuō)是當(dāng)今統(tǒng)計(jì)學(xué)的圣地,然而她兼容并蓄、不固步自封。Mike Jordan教授是統(tǒng)計(jì)機(jī)器學(xué)習(xí)的主要建立者和推動(dòng)者,他為機(jī)器學(xué)習(xí)領(lǐng)域培養(yǎng)了一大批優(yōu)秀的學(xué)生。統(tǒng)計(jì)系的主任現(xiàn)在是Mike,然而他早年的教育并沒有統(tǒng)計(jì)或數(shù)學(xué)背景??梢哉f(shuō),Berkeley的統(tǒng)計(jì)系成就了Mike,反過(guò)來(lái)他也為Berkeley的統(tǒng)計(jì)學(xué)發(fā)展創(chuàng)造了新的活力,建立了無(wú)可代替的功勛。


斯坦福和伯克利的統(tǒng)計(jì)是公認(rèn)世界最好的兩個(gè)。我們看到,斯坦福統(tǒng)計(jì)系的主流方向就是統(tǒng)計(jì)學(xué)習(xí),比如我們熟知的《Elements of statistical learning》一書就是統(tǒng)計(jì)系幾位著名教授撰寫的。Stanford計(jì)算機(jī)科學(xué)的人工智能方向一直在世界占主導(dǎo)地位,特別在不確定推理、概率圖模型、概率機(jī)器人等領(lǐng)域成就斐然,他們的網(wǎng)絡(luò)公開課 《機(jī)器學(xué)習(xí)》、《概率圖模型》以及《人工智能》等讓世界受益。





CMU是一個(gè)非常獨(dú)特的學(xué)校,她并不是美國(guó)傳統(tǒng)的常春藤大學(xué)??梢哉f(shuō),它是以計(jì)算機(jī)科學(xué)為立校之本,它是世界第一個(gè)建立機(jī)器學(xué)習(xí)系的學(xué)校。Tom Mitchell 教授是機(jī)器學(xué)習(xí)的早期建立者之一和守護(hù)者,他一直為該校本科生教《機(jī)器學(xué)習(xí)》課程。然而,這個(gè)學(xué)校統(tǒng)計(jì)學(xué)同樣強(qiáng),尤其,她是貝葉斯統(tǒng)計(jì)學(xué)的世界研究中心。


在機(jī)器學(xué)習(xí)領(lǐng)域,多倫多大學(xué)有著舉足輕重的地位,她們機(jī)器學(xué)習(xí)研究組云集了一批世界級(jí)的學(xué)者,在“Science” 和“Nature”發(fā)表多篇論文,實(shí)屬罕見。Geoffrey Hinton 教授是偉大的思想家,但更是踐行者。他是神經(jīng)網(wǎng)絡(luò)的建立者之一,是BP算法和深度學(xué)習(xí)的主要貢獻(xiàn)者。正是由于他的不懈努力,神經(jīng)網(wǎng)絡(luò)迎來(lái)了大爆發(fā)。Radford Neal 教授是Hinton學(xué)生,他在貝葉斯統(tǒng)計(jì)領(lǐng)域,特別是關(guān)于MCMC做出了一系列的重要工作。


國(guó)際發(fā)展現(xiàn)狀



那么我們來(lái)看看國(guó)內(nèi)的現(xiàn)狀。總的來(lái)說(shuō),統(tǒng)計(jì)和計(jì)算機(jī)科學(xué)這兩個(gè)學(xué)科處于Larry所說(shuō)的初期各自為戰(zhàn)的階段。面向大數(shù)據(jù)的統(tǒng)計(jì)學(xué)與計(jì)算機(jī)科學(xué)的交叉研究是機(jī)遇也是挑戰(zhàn)。


我之前在浙江大學(xué)曾經(jīng)參與其統(tǒng)計(jì)交叉學(xué)科中心的組建,由此對(duì)統(tǒng)計(jì)界有所了解。統(tǒng)計(jì)學(xué)在中國(guó)應(yīng)該還是一個(gè)弱勢(shì)學(xué)科,最近才被國(guó)家定為一級(jí)學(xué)科。我國(guó)統(tǒng)計(jì)學(xué)處于兩個(gè)極端,一是它被當(dāng)作數(shù)學(xué)的一個(gè)分支,主要研究概率論、隨機(jī)過(guò)程以及數(shù)理統(tǒng)計(jì)理論等。二是它被劃為經(jīng)濟(jì)學(xué)的分支,主要研究經(jīng)濟(jì)分析中的應(yīng)用。而機(jī)器學(xué)習(xí)在統(tǒng)計(jì)學(xué)界還沒有被深度地關(guān)注。因此,面向于數(shù)據(jù)處理、分析的IT和統(tǒng)計(jì)學(xué)的深度融合有巨大的潛力。


雖然,我并沒有跟國(guó)內(nèi)機(jī)器學(xué)習(xí)或者人工智能學(xué)術(shù)界有深入的接觸,但我在國(guó)內(nèi)計(jì)算機(jī)系工作近8年時(shí)間,一直在一線從事機(jī)器學(xué)習(xí)相關(guān)的教學(xué)與研究,應(yīng)該對(duì)機(jī)器學(xué)習(xí)的現(xiàn)狀有一定的發(fā)言權(quán)。機(jī)器學(xué)習(xí)的確在中國(guó)得到了廣泛的關(guān)注,也取得了一定的成績(jī),但我覺得高品質(zhì)的研究成果稀缺。熱衷于對(duì)機(jī)器學(xué)習(xí)的高級(jí)階段進(jìn)行一些概念炒作,它們通常沒有多大的可執(zhí)行性;偏愛大項(xiàng)目、大集成,這些本更應(yīng)該由工業(yè)界來(lái)實(shí)施;而理論、方法等基礎(chǔ)性的研究不被重視,認(rèn)為理論沒有用處的觀點(diǎn)還大有市場(chǎng)。


計(jì)算機(jī)學(xué)科的培養(yǎng)體系還基本停留在它的早期發(fā)展階段。大多數(shù)學(xué)校都開設(shè)了人工智能與機(jī)器學(xué)習(xí)的課程,但無(wú)論是深度還是前沿性都落后于學(xué)科的發(fā)展,不能適應(yīng)時(shí)代的需要。人才的培養(yǎng)無(wú)論質(zhì)量和數(shù)量都無(wú)法滿足工業(yè)界的需求。這也是國(guó)內(nèi)IT公司與國(guó)際同類公司技術(shù)上有較大差距的關(guān)鍵原因。


第二部分:幾個(gè)簡(jiǎn)單的研究思路


在這部分,我的關(guān)注則回到機(jī)器學(xué)習(xí)的研究本身上來(lái)。機(jī)器學(xué)習(xí)內(nèi)容博大精深,而且新方法、新技術(shù)正源源不斷地被提出、被發(fā)現(xiàn)。這里,我試圖用“多級(jí)”、“自適應(yīng)”以及 “平均”等概念來(lái)簡(jiǎn)約紛繁多彩的機(jī)器學(xué)習(xí)模型和計(jì)算方法背后的一些研究思路和思想。希望這些對(duì)大家理解機(jī)器學(xué)習(xí)已有的一些模型、方法以及未來(lái)的研究有所啟發(fā)。


1. 多級(jí) (Hierarchical)


首先,讓我們來(lái)關(guān)注“多級(jí)”這個(gè)技術(shù)思想。我們具體看三個(gè)例子。


第一個(gè)例子是隱含數(shù)據(jù)模型,它就是一種多級(jí)模型。作為概率圖模型的一種延伸,隱含數(shù)據(jù)模型是一類重要的多元數(shù)據(jù)分析方法。隱含變量有三個(gè)重要的性質(zhì)。第一,可以用比較弱的條件獨(dú)立相關(guān)性代替較強(qiáng)的邊界獨(dú)立相關(guān)性。著名的de Finetti 表示定理支持這點(diǎn)。這個(gè)定理說(shuō),一組可以交換的隨機(jī)變量當(dāng)且僅當(dāng)在某個(gè)參數(shù)給定條件下,它們可以表示成一組條件隨機(jī)變量的混合體。這給出了一組可以交換的隨機(jī)變量的一個(gè)多級(jí)表示。即先從某個(gè)分布抽一個(gè)參數(shù),然后基于這個(gè)參數(shù),獨(dú)立地從某個(gè)分布抽出這組隨機(jī)變量。第二,可以通過(guò)引入隱含變量的技術(shù)來(lái)方便計(jì)算,比如期望最大算法以及更廣義的數(shù)據(jù)擴(kuò)充技術(shù)就是基于這一思想。具體地,一些復(fù)雜分布,比如t-distribution, Laplace distribution 則可以通過(guò)表示成高斯尺度混合體來(lái)進(jìn)行簡(jiǎn)化計(jì)算。第三,隱含變量本身可能具有某種有可解釋的物理意思,這剛好符合應(yīng)用的場(chǎng)景。比如,在隱含狄利克雷分配(LDA)模型,其中隱含變量具有某種主題的意思。


第一個(gè)例子是隱含數(shù)據(jù)模型,它就是一種多級(jí)模型。作為概率圖模型的一種延伸,隱含數(shù)據(jù)模型是一類重要的多元數(shù)據(jù)分析方法。隱含變量有三個(gè)重要的性質(zhì)。第一,可以用比較弱的條件獨(dú)立相關(guān)性代替較強(qiáng)的邊界獨(dú)立相關(guān)性。著名的de Finetti 表示定理支持這點(diǎn)。這個(gè)定理說(shuō),一組可以交換的隨機(jī)變量當(dāng)且僅當(dāng)在某個(gè)參數(shù)給定條件下,它們可以表示成一組條件隨機(jī)變量的混合體。這給出了一組可以交換的隨機(jī)變量的一個(gè)多級(jí)表示。即先從某個(gè)分布抽一個(gè)參數(shù),然后基于這個(gè)參數(shù),獨(dú)立地從某個(gè)分布抽出這組隨機(jī)變量。第二,可以通過(guò)引入隱含變量的技術(shù)來(lái)方便計(jì)算,比如期望最大算法以及更廣義的數(shù)據(jù)擴(kuò)充技術(shù)就是基于這一思想。具體地,一些復(fù)雜分布,比如t-distribution, Laplace distribution 則可以通過(guò)表示成高斯尺度混合體來(lái)進(jìn)行簡(jiǎn)化計(jì)算。第三,隱含變量本身可能具有某種有可解釋的物理意思,這剛好符合應(yīng)用的場(chǎng)景。比如,在隱含狄利克雷分配(LDA)模型,其中隱含變量具有某種主題的意思。


Laten Dirichlet Allocation


第二個(gè)例子,我們來(lái)看多級(jí)貝葉斯模型。在進(jìn)行MCMC抽樣后驗(yàn)估計(jì)時(shí),最上層的超參數(shù)總是需要先人為給定的,自然地,MCMC算法收斂性能是依賴這些給定的超參數(shù)的,如果我們對(duì)這些參數(shù)的選取沒有好的經(jīng)驗(yàn),那么一個(gè)可能做法我們?cè)偌右粚樱瑢訑?shù)越多對(duì)超參數(shù)選取的依賴性會(huì)減弱。



Hierarchical Bayesian Model


第三例子,深度學(xué)習(xí)蘊(yùn)含的也是多級(jí)的思想。如果把所有的節(jié)點(diǎn)全部的放平,然后全連接,就是一個(gè)全連接圖。而CNN深度網(wǎng)絡(luò)則可以看成對(duì)全連接圖的一個(gè)結(jié)構(gòu)正則化。正則化理論是統(tǒng)計(jì)學(xué)習(xí)的一個(gè)非常核心的思想。CNN和RNN是兩大深度神經(jīng)網(wǎng)絡(luò)模型,分別主要用于圖像處理和自然語(yǔ)言處理中。研究表明多級(jí)結(jié)構(gòu)具有更強(qiáng)的學(xué)習(xí)能力。


Deep Learning



2. 自適應(yīng) (Adaptive)


我們來(lái)看自適應(yīng)這個(gè)技術(shù)思路,我們通過(guò)幾個(gè)例子來(lái)看這個(gè)思路的作用。


第一個(gè)例子是自適應(yīng)重要采樣技術(shù)。重要采樣方法通常可以提高均勻采樣的性能,而自適應(yīng)則進(jìn)一步改善重要采樣的性能。


第二個(gè)例子,自適應(yīng)列選擇問(wèn)題。給定一個(gè)矩陣A,我們希望從中選取部分列構(gòu)成一個(gè)矩陣C,然后用CC^+A去近似原矩陣A,而且希望近似誤差盡可能小。這是一個(gè)NP難問(wèn)題。在實(shí)際上,可以通過(guò)一個(gè)自適應(yīng)的方式,先采出非常小一部分C_1,由此構(gòu)造一個(gè)殘差,通過(guò)這個(gè)定義一個(gè)概率,然后用概率再去采一部分C_2, 把C_1 和 C_2 合在一起組成C。


第三個(gè)例子,是自適應(yīng)隨機(jī)迭代算法??紤]一個(gè)帶正則化的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小問(wèn)題,當(dāng)訓(xùn)練數(shù)據(jù)非常多時(shí),批處理的計(jì)算方式非常耗時(shí),所以通常采用一個(gè)隨機(jī)方式。存在的隨機(jī)梯度或者隨機(jī)對(duì)偶梯度算法可以得到參數(shù)的一個(gè)無(wú)偏估計(jì)。而通過(guò)引入自適應(yīng)的技術(shù),可以減少估計(jì)的方差。


第四個(gè)例子,是Boosting分類方法。它自適應(yīng)調(diào)整每個(gè)樣本的權(quán)重,具體地,提高分錯(cuò)樣本的權(quán)重,而降低分對(duì)樣本的權(quán)重。


3. 平均 (Averaging)


其實(shí),boosting 蘊(yùn)含著平均思想,即我最后要談的技術(shù)思路。簡(jiǎn)單地說(shuō),boosting是把一組弱分類器集成在一起,形成一個(gè)強(qiáng)的分類器。第一好處是可以降低擬合的風(fēng)險(xiǎn)。第二,可以降低陷入局部的風(fēng)險(xiǎn)。第三,可以擴(kuò)展假設(shè)空間。Bagging同樣是經(jīng)典的集成學(xué)習(xí)算法,它把訓(xùn)練數(shù)據(jù)分成幾組,然后分別在小數(shù)據(jù)集上訓(xùn)練模型,通過(guò)這些模型來(lái)組合強(qiáng)分類器。另外這是一個(gè)兩層的集成學(xué)習(xí)方式。



經(jīng)典的Anderson 加速技術(shù)則是通過(guò)平均的思想來(lái)達(dá)到加速收斂過(guò)程。具體地,它是一個(gè)疊加的過(guò)程,這個(gè)疊加的過(guò)程通過(guò)求解一個(gè)殘差最小得到一個(gè)加權(quán)組合。這個(gè)技術(shù)的好處,是沒有增加太多的計(jì)算,往往還可以使數(shù)值迭代變得較為穩(wěn)定。


另外一個(gè)使用平均的例子是分布式計(jì)算中。很多情況下分布式計(jì)算不是同步的,是異步的,如果異步的時(shí)候怎么辦?最簡(jiǎn)單的是各自獨(dú)立做,到某個(gè)時(shí)候把所有結(jié)果平均,分發(fā)給各個(gè)worker, 然后又各自獨(dú)立運(yùn)行,如此下去。這就好像一個(gè)熱啟動(dòng)的過(guò)程。


正如我們已經(jīng)看到,這些思想通常是組合在一起使用的,比如boosting模型。我們多級(jí)、自適應(yīng)和平均的思想很直接,但的確也很有用。


在AlphaGo和李世石九段對(duì)弈中,一個(gè)值得關(guān)注的細(xì)節(jié)是,代表Alpha Go方懸掛的是英國(guó)國(guó)旗。我們知道AlphaGo是由deep mind團(tuán)隊(duì)研發(fā)的,deep mind是一家英國(guó)公司,但后來(lái)被google公司收購(gòu)了??茖W(xué)成果是世界人民共同擁有和分享的財(cái)富,但科學(xué)家則是有其國(guó)家情懷和歸屬感。


位低不敢忘春秋大義,我認(rèn)為我國(guó)人工智能發(fā)展的根本出路在于教育。先哲說(shuō):“磨刀不誤砍柴工”。只有培養(yǎng)出一批又一批的數(shù)理基礎(chǔ)深厚、計(jì)算機(jī)動(dòng)手執(zhí)行力極強(qiáng),有真正融合交叉能力和國(guó)際視野的人才時(shí),我們才會(huì)有大作為。


致謝


上述內(nèi)容是根據(jù)我最近在第九屆中國(guó)R語(yǔ)言會(huì)議(http:///bj2016/)和上海交通大學(xué)的兩次講座而整理出來(lái)的,特別是R會(huì)主辦方統(tǒng)計(jì)之都的同學(xué)們幫我做了該次演講的記錄。感謝統(tǒng)計(jì)之都的太云、凌秉和象宇的邀請(qǐng),他們和統(tǒng)計(jì)之都的伙伴們正在做一件意義影響深遠(yuǎn)的學(xué)術(shù)公益,你們的情懷和奉獻(xiàn)給了我信心來(lái)公開宣講自己多年來(lái)的真實(shí)認(rèn)識(shí)和思考。感謝我的學(xué)生們幫助我準(zhǔn)備這個(gè)講演報(bào)告,從主題的選定,內(nèi)容的選取,材料的收集以及幻燈片的制作他們都給了我極大的支持,更重要的是,他們讓我在機(jī)器學(xué)習(xí)領(lǐng)域的求索一直不孤獨(dú)。謝謝大家!


文章來(lái)自微信號(hào)“統(tǒng)計(jì)之都”。











新智元  616 有獎(jiǎng)?wù)鞲辶?/strong>

自5月31日起,新智元開辟【名家專欄】,刊登人工智能專家給新智元的原創(chuàng)稿件。

新智元致力于促進(jìn)人工智能產(chǎn)業(yè)的發(fā)展,技術(shù)研發(fā)與進(jìn)步,在人工智能產(chǎn)業(yè)界、學(xué)術(shù)界有強(qiáng)大的影響力,為了進(jìn)一步繁榮人工智能業(yè)界思想與技術(shù)的交流與分享,特向業(yè)界領(lǐng)袖和名家征稿:

1. 凡產(chǎn)業(yè)、學(xué)術(shù)界領(lǐng)袖、名家向新智元公眾平臺(tái)投稿,新智元標(biāo)識(shí)名家專欄的原創(chuàng)稿件,采用為公眾號(hào)頭條的,稿費(fèi)標(biāo)準(zhǔn)3000元以上;

2. 凡產(chǎn)業(yè)、學(xué)術(shù)界領(lǐng)袖、名家向新智元公眾平臺(tái)投稿,新智元標(biāo)識(shí)名家專欄的原創(chuàng)稿件,采用為公眾號(hào)2-3條的,稿費(fèi)標(biāo)準(zhǔn)千字300元以上

3. 凡產(chǎn)業(yè)、學(xué)術(shù)界精英、骨干向新智元公眾平臺(tái)投稿,新智元標(biāo)識(shí)業(yè)界、學(xué)術(shù)的深度稿件,采用為公眾號(hào)頭條的,稿費(fèi)標(biāo)準(zhǔn)千字300元以上。

4. 凡在其他媒體或個(gè)人博客已經(jīng)發(fā)布的稿件、投稿的專家或研發(fā)機(jī)構(gòu)稿件獲新智元采納轉(zhuǎn)載的,不付稿費(fèi),但可以附上個(gè)人簡(jiǎn)歷、照片或者所在公司、實(shí)驗(yàn)室簡(jiǎn)短介紹或者原文鏈接。

【新智元誠(chéng)聘人工智能領(lǐng)域特約編輯】凡產(chǎn)業(yè)、學(xué)術(shù)界精英、骨干(一般要求為博士)向新智元公眾平臺(tái)投稿,獲聘擔(dān)任欄目或產(chǎn)業(yè)、學(xué)術(shù)大會(huì)特約編輯的,稿費(fèi)標(biāo)準(zhǔn)為千字300元以上。

新智元專家投稿請(qǐng)聯(lián)系:editorial@aiera.com.cn 
新智元專家投稿微信號(hào):X1239828904



    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多