小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

機(jī)器學(xué)習(xí)最流行的模型是什么?

 黃昌易 2019-02-01

機(jī)器學(xué)習(xí)最流行的模型是什么?



在過去幾十年里,機(jī)器學(xué)習(xí)領(lǐng)域發(fā)生了巨變。誠然,有些方法已經(jīng)存在很長一段時間,仍然是該領(lǐng)域的重要方法。例如,最小二乘法的概念早在19世紀(jì)早期就由Legendre 和Gauss提出。其他方法,如神經(jīng)網(wǎng)絡(luò),其最基本的形式是在1958年引入的,在過去的幾十年里得到了很大的發(fā)展,而其他方法,如支持向量機(jī) (SVMs),則是最近才出現(xiàn)的。

由于監(jiān)督學(xué)習(xí)有大量可用的方法,所以人們經(jīng)常提出一個問題:最好的模型是什么?眾所周知,這個問題很難回答,正如George Box所言,所有的模型都是不好的,但也都有一些可取之處。而判斷模型有用與否則取決于手頭上的數(shù)據(jù)。因此,這個問題沒有統(tǒng)一答案。相比而言,下面這個問題要容易回答一些:最流行的模型是什么?這是本文的關(guān)注點(diǎn)所在。

機(jī)器學(xué)習(xí)最流行的模型是什么?


衡量機(jī)器學(xué)習(xí)模型的流行度


本文將采用頻率論的方法來定義流行度。更準(zhǔn)確的說,本文將使用提及個體監(jiān)督學(xué)習(xí)模型的科學(xué)出版物的數(shù)量來反映模型的流行度。當(dāng)然,這個方法有如下局限性:

· 可能有比出版物數(shù)量更準(zhǔn)確的標(biāo)準(zhǔn)來衡量流行度。比如,出版物中對某一模型的批評并非意味該模型是流行的。

· 分析會受到使用的搜索詞的影響。為了確保較高的準(zhǔn)確度,我們沒有使用模型的縮寫,這就有可能導(dǎo)致不能檢索到所有可能的結(jié)果。此外,對于那些在分析中未被考慮的搜索項引用的模型而言,靈敏度可能較低。

· 文獻(xiàn)數(shù)據(jù)庫并不完善:有時,出版物存儲的元數(shù)據(jù)有誤(如年份有誤)或可能存在重復(fù)的出版物,因此,出版頻率中的一些干擾是可以預(yù)測的。

本文將進(jìn)行兩種分析。第一種是對出版頻率的縱向分析;第二種是比較不同領(lǐng)域中涉及機(jī)器學(xué)習(xí)模型的出版總量。

第一種分析通過搜索Google Scholar(收錄科學(xué)出版物的標(biāo)題和摘要)中的數(shù)據(jù)來確定出版物的數(shù)量。而從Google Scholar搜索數(shù)據(jù)是出了名的困難,所以我們借助ScrapeHero提供的實(shí)用建議來收集數(shù)據(jù)。

分析中包括了以下13種監(jiān)督方法:神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)、支持向量機(jī)、隨機(jī)森林、樹形判定分類法、線性回歸、邏輯回歸、泊松回歸、嶺回歸、套索回歸、k-近鄰法、線性判別分析和對數(shù)線性模型。注意,套索回歸考慮了套索回歸術(shù)語和套索模型;k-近鄰法考慮了k近鄰術(shù)語。所得到的數(shù)據(jù)集顯示了從1950年至今與每個監(jiān)督模型有關(guān)的出版物數(shù)量 。

機(jī)器學(xué)習(xí)最流行的模型是什么?


從1950年至今的監(jiān)督模型使用


為了分析縱向數(shù)據(jù),我們將機(jī)器學(xué)習(xí)劃分為兩個階段:早期(1950-1980)——只有少量模型可用;形成期(1980至今)——人們對機(jī)器學(xué)習(xí)的興趣激增,開發(fā)了很多新模型。注意,以下圖像只顯示最相關(guān)的方法。

早期:線性回歸占據(jù)主導(dǎo)地位



機(jī)器學(xué)習(xí)最流行的模型是什么?



從圖1中可以看出,線性回歸是1950 -1980年間的主要方法。相比之下,其他機(jī)器學(xué)習(xí)模型在科學(xué)文獻(xiàn)中極少被提及。然而,從20世紀(jì)60年代開始,神經(jīng)網(wǎng)絡(luò)和樹形判定分類法開始流行起來。還可以看到,邏輯回歸尚未得到廣泛的應(yīng)用,在70年代末被提及的次數(shù)也只是略有增加。

形成期:神經(jīng)網(wǎng)絡(luò)的多樣化和興起


機(jī)器學(xué)習(xí)最流行的模型是什么?



圖2顯示,從上世紀(jì)八十年代末開始,科學(xué)出版物中提到的監(jiān)督模型變得更加多樣化。更重要的是,在2013年之前,機(jī)器學(xué)習(xí)模型在科學(xué)文獻(xiàn)中被提及的比率一直在穩(wěn)步上升。該圖特別展示了線性回歸、邏輯回歸和神經(jīng)網(wǎng)絡(luò)的普及。正如我們所見,線性回歸在1980年以前就已經(jīng)很流行了。然而,在1980年,神經(jīng)網(wǎng)絡(luò)和邏輯回歸的流行度開始迅速增加。盡管邏輯回歸的流行度在2010年達(dá)到頂峰,當(dāng)時幾乎與線性回歸一樣受歡迎,但在2015年,神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)(神經(jīng)網(wǎng)絡(luò)/深度學(xué)習(xí)曲線見圖2)的流行程度甚至超過了線性回歸。

神經(jīng)網(wǎng)絡(luò)之所以大受歡迎,是因為它在圖像識別(ImageNet, 2012)、人臉識別(DeepFace, 2014)和游戲(AlphaGo, 2016)等機(jī)器學(xué)習(xí)應(yīng)用方面取得了突破。Google Scholar的數(shù)據(jù)表明,在過去幾年里,科學(xué)論文中提到神經(jīng)網(wǎng)絡(luò)的頻率略有下降(圖2中未顯示)。這可能是因為深度學(xué)習(xí)術(shù)語(多層神經(jīng)網(wǎng)絡(luò))在一定程度上取代了神經(jīng)網(wǎng)絡(luò)術(shù)語的使用。使用 Google Trends亦可得出同樣的結(jié)論。

剩下的稍微不那么流行的監(jiān)督方法是樹形判定分類法和支持向量機(jī)。與前三種方法相比,這兩種方法被提到的幾率要小得多。但需要注意的是,這兩種方法在文獻(xiàn)中被提到的頻率波動似乎也較小。這與其他方法(如線性回歸和邏輯回歸)形成了鮮明對比,后者被提及的次數(shù)在過去幾年中已大大減少。而在樹形判定分類法和支持向量機(jī)之間,支持向量機(jī)似乎表現(xiàn)出更有利的增長趨勢——在其問世僅15年后就超越了樹形判定分類法。

上述機(jī)器學(xué)習(xí)模型被提及的次數(shù)在2013年達(dá)到頂峰(589,903篇),此后略有下降(2017年為462,045篇)。

機(jī)器學(xué)習(xí)最流行的模型是什么?


監(jiān)督學(xué)習(xí)模型在不同領(lǐng)域的流行度


第二種分析將研究不同的群體是否依賴于不同的機(jī)器學(xué)習(xí)技術(shù)。為此,我們參考了三個科學(xué)出版物資料庫:用于一般出版物的Google Scholar ,用于計算機(jī)科學(xué)出版物的 dblp ,用于生物醫(yī)學(xué)出版物的PubMed。在這個三個資料庫中,我們確定了13個機(jī)器學(xué)習(xí)模型的出現(xiàn)頻率。結(jié)果如圖3所示。


機(jī)器學(xué)習(xí)最流行的模型是什么?



圖3表明,許多方法僅適用于特定領(lǐng)域。下面,我們來分析下每個領(lǐng)域中最流行的模型。

機(jī)器學(xué)習(xí)最流行的模型是什么?


監(jiān)督學(xué)習(xí)模型的總體使用情況


根據(jù)Google Scholar,五種最常用的監(jiān)督模型是:

1. 線性回歸:3,580,000篇論文,占34.3%

2. 邏輯回歸:2,330,000篇論文,占22.3%

3. 神經(jīng)網(wǎng)絡(luò):1,750,000篇論文,占16.8%

4. 樹形判定分類法:875,000篇論文,占8.4%

5. 支持向量機(jī):684,000篇論文,占6.6%

總的來說,線性模型顯然占主導(dǎo)地位,在監(jiān)督模型的出現(xiàn)率中占50%以上。非線性方法緊隨其后:神經(jīng)網(wǎng)絡(luò)以16.8%的論文提及率排名第三,接著是樹形判定分類法(8.4%)和支持向量機(jī)(6.6%)。

機(jī)器學(xué)習(xí)最流行的模型是什么?


生物醫(yī)學(xué)領(lǐng)域的模型使用


根據(jù)PubMed,生物醫(yī)學(xué)領(lǐng)域最流行的五個機(jī)器學(xué)習(xí)模型是:

1. 邏輯回歸:229,956篇論文,占54.5%

2. 線性回歸:84,850篇論文,占20.1%

3. Cox回歸分析:38,801篇論文,占9.2%

4. 神經(jīng)網(wǎng)絡(luò):23,883篇論文,占5.7%

5. 泊松回歸:12,978篇論文,占3.1%

在生物醫(yī)學(xué)中,我們可以看到線性模型被多次提及:五種最流行的方法中有四種都是線性的。這可能有兩個原因。首先,在醫(yī)療學(xué)環(huán)境中,樣本數(shù)量往往太小,無法適應(yīng)復(fù)雜的非線性模型。其次,解釋結(jié)果的能力對醫(yī)學(xué)應(yīng)用而言至關(guān)重要。由于非線性方法通常難以解釋,所以它們不太適合醫(yī)學(xué)應(yīng)用,畢竟僅憑高預(yù)測性能通常是不夠的。

邏輯回歸在PubMed數(shù)據(jù)中的流行可能是因為臨床研究出版物的大量發(fā)行。在這些研究中,分類結(jié)果(即治療成功率)經(jīng)常使用邏輯回歸分析,因為它非常適合解釋特征對結(jié)果的影響。注意,Cox回歸在PubMed數(shù)據(jù)中非常流行,因為它常被用于分析Kaplan-Meier存活數(shù)據(jù)。

機(jī)器學(xué)習(xí)最流行的模型是什么?


計算機(jī)科學(xué)領(lǐng)域的模型使用


從dblp檢索計算機(jī)科學(xué)文獻(xiàn)中最流行的5種模型是:

1. 神經(jīng)網(wǎng)絡(luò):63,695篇論文,占68.3%

2. 深度學(xué)習(xí):10,157篇論文,占10.9%

3. 支持向量機(jī):7,750篇論文,占8.1%

4. 樹形判定分類法:4,074篇論文,占4.4%

5. 最近鄰:3,839篇論文,占2.1%

在計算機(jī)科學(xué)出版物中提到的機(jī)器學(xué)習(xí)模型的分布特點(diǎn)十分明顯:大多數(shù)出版物似乎應(yīng)用最新的非線性方法(例如神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)和支持向量機(jī))。如果將深度學(xué)習(xí)包括在內(nèi),那么檢索結(jié)果中有四分之三以上涉及神經(jīng)網(wǎng)絡(luò)。

群體之間的鴻溝


機(jī)器學(xué)習(xí)最流行的模型是什么?



圖4總結(jié)了文獻(xiàn)中提到的參數(shù)模型(包括半?yún)?shù)模型)和非參數(shù)模型的所占比例。條形圖表明,機(jī)器學(xué)習(xí)研究中所研究的模型(如計算機(jī)科學(xué)出版物所示)與所應(yīng)用的模型類型(如生物醫(yī)學(xué)和綜合出版物所示)之間存在很大差異。

超過90%的計算機(jī)科學(xué)出版物應(yīng)用非參數(shù)模型,而大約90%的生物醫(yī)學(xué)出版物應(yīng)用參數(shù)模型。這表明,機(jī)器學(xué)習(xí)的研究主要集中在最先進(jìn)的方法上,如深度神經(jīng)網(wǎng)絡(luò);而機(jī)器學(xué)習(xí)用戶則往往依賴于更易于解釋的參數(shù)模型。

機(jī)器學(xué)習(xí)最流行的模型是什么?


總結(jié)


通過對科學(xué)文獻(xiàn)中提到的個體監(jiān)督學(xué)習(xí)模型的分析,可以看出人工神經(jīng)網(wǎng)絡(luò)的高度普及。然而,我們也看到不同類型的機(jī)器學(xué)習(xí)模型被用于不同的領(lǐng)域。特別是生物醫(yī)學(xué)研究領(lǐng)域的研究人員仍然非常依賴參數(shù)模型。有趣的是,更復(fù)雜的模型是否會在生物醫(yī)學(xué)領(lǐng)域得到廣泛應(yīng)用,或者這些模型是否不適合該領(lǐng)域的典型應(yīng)用(例如,由于這些模型的可解釋性不足,當(dāng)樣本容量很小時,通用性較低)。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多