小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

人人PyTorch,上A100能奪冠:分析完去年200場數(shù)據(jù)競賽,我悟了

 天承辦公室 2023-03-10 發(fā)布于江蘇
選自
機(jī)器之心編譯
編輯:澤南
完這篇文章,怎樣打比賽應(yīng)該心里有數(shù)了。
2022 年是 AI 領(lǐng)域發(fā)展的重要一年,在數(shù)據(jù)競賽領(lǐng)域也同樣如此,所有平臺的總獎(jiǎng)金超過了 500 萬美元。

近日,機(jī)器學(xué)習(xí)競賽分析平臺 ML Contests 對 2022 年的數(shù)據(jù)競賽進(jìn)行了一次大規(guī)模統(tǒng)計(jì)。新報(bào)告回顧了 2022 年發(fā)生的所有值得關(guān)注的事。以下是對原文的編譯整理。

重點(diǎn)內(nèi)容:

  • 成功參賽者的工具選擇:Python、Pydata、Pytorch 和梯度提高的決策樹。
  • 深度學(xué)習(xí)仍未取代梯度增強(qiáng)的決策樹,盡管在結(jié)識增強(qiáng)方法時(shí),前者通常價(jià)值會有所提升。
  • Transformer 繼續(xù)在 NLP 中占主導(dǎo)地位,并開始在計(jì)算機(jī)視覺中和卷積神經(jīng)網(wǎng)絡(luò)開始競爭。
  • 當(dāng)今數(shù)據(jù)競賽涵蓋了廣泛的研究領(lǐng)域,包括計(jì)算機(jī)視覺、NLP、數(shù)據(jù)分析、機(jī)器人、時(shí)間序列分析等。
  • 大集合模型在獲勝方案中仍然很普遍,一些單模型解決方案也能贏。
  • 有多個(gè)活躍的數(shù)據(jù)競賽平臺存在。
  • 數(shù)據(jù)競賽社區(qū)持續(xù)增長,在學(xué)界也是一樣。
  • 大約有 50%獲獎(jiǎng)?wù)呤且蝗藞F(tuán)隊(duì),50%的獲獎(jiǎng)?wù)呤鞘状蔚锚?jiǎng)。
  • 有人使用了高端硬件,但 Google Colab 這樣的免費(fèi)資源也能贏得比賽。

比賽和趨勢

獎(jiǎng)金數(shù)額最大的比賽是由美國復(fù)墾局贊助 Drivendata 的 Snow Cast Showdown 競賽。參與者可獲得 50 萬美元的獎(jiǎng)金,旨在通過為西部的不同地區(qū)提供準(zhǔn)確的雪水流量估算,以幫助改善供水管理。與往常一樣,Drivendata 詳細(xì)撰寫了比賽情況的文章并有詳細(xì)的解決方案報(bào)告,非常值得一讀。

2022 年最受歡迎的比賽是 Kaggle 的 American Express 默認(rèn)預(yù)測競賽,旨在預(yù)測客戶是否會償還貸款。有超過 4000 支隊(duì)伍參賽,共 10 萬美元獎(jiǎng)金分發(fā)至前四名的隊(duì)伍。今年第一次有首次參賽且單人隊(duì)伍獲得冠軍,其使用了神經(jīng)網(wǎng)絡(luò)和 LightGBM 模型的集合。

最大的獨(dú)立競賽是斯坦福大學(xué)的 AI 審計(jì)挑戰(zhàn),該挑戰(zhàn)為最佳的「模型、解決方案、數(shù)據(jù)集和工具」提供了 7.1 萬美元的獎(jiǎng)勵(lì)池,以尋求方法解決「非法歧視的 AI 審核系統(tǒng)」的問題。

基于金融預(yù)測的三場比賽全部在 Kaggle 上:分別是 JPX 的東京證券交易所預(yù)測,Ubiquant 的市場預(yù)測以及 G-Research 的加密預(yù)測。

在不同方向的對比中,計(jì)算機(jī)視覺占比最高,NLP 位居第二,順序決策問題(強(qiáng)化學(xué)習(xí))正在興起。Kaggle 通過在 2020 年引入模擬競賽來回應(yīng)這種流行的增長。Aicrowd 還舉辦了許多強(qiáng)化學(xué)習(xí)類競賽。在 2022 年,其中有 25 個(gè)互動(dòng)賽的比賽總額超過 30 萬美元。

在 NeurIPS 2022 官方競賽 Real Robot Challenge 中,參與者必須學(xué)會控制三指機(jī)器人,以將立方體移動(dòng)到目標(biāo)位置或?qū)⑵涠ㄎ辉诳臻g的特定點(diǎn)上,且要面朝正確的方向。參與者的策略每周在物理機(jī)器人上運(yùn)行,結(jié)果更新到排行榜上。獎(jiǎng)勵(lì)為 5000 美元的獎(jiǎng)品,以及在 NeurIPS 研討會上演講的學(xué)術(shù)榮譽(yù)。

Image


平臺

雖然人們都知道 Kaggle 和天池,但目前也有很多機(jī)器學(xué)習(xí)競賽平臺組成了活躍的生態(tài)系統(tǒng)。

圖為 2022 平臺比較:

Image


舉一些例子:

  • Kaggle 是最成熟的平臺之一,它在 2017 年被谷歌收購,并擁有最大的社區(qū),最近吸引了 1000 萬用戶。在 Kaggle 上進(jìn)行帶獎(jiǎng)金的比賽可能非常昂貴。除了舉辦比賽外,Kaggle 還允許用戶托管數(shù)據(jù)集,筆記和模型。
  • Codalab 是一個(gè)開源競賽平臺,由巴黎大學(xué) - 薩克萊大學(xué)維護(hù)。任何人都可以注冊,主持或參加比賽。其提供免費(fèi)的 CPU 資源可用于推理,比賽組織者可以用自己的硬件進(jìn)行補(bǔ)充。
  • Zindi 是一個(gè)較小的平臺,具有非?;钴S的社區(qū),專注于將機(jī)構(gòu)與非洲的數(shù)據(jù)科學(xué)家聯(lián)系起來。Zindi 還舉辦面對面的黑客馬拉松和社區(qū)活動(dòng)。
  • Drivendata 專注于具有社會影響的競賽,并為 NASA 和其他組織開展了比賽。競賽總是在深入的研究報(bào)告后跟進(jìn)。
  • Aicrowd 最初是瑞士聯(lián)邦理工學(xué)院(EPFL)的研究項(xiàng)目,現(xiàn)在是前五名競賽平臺之一。它舉辦了幾次 NeurIPS 官方比賽。

Image

學(xué)術(shù)界

在大型平臺上運(yùn)行的比賽的大部分獎(jiǎng)金都來自工業(yè)界,但是機(jī)器學(xué)習(xí)競賽顯然在學(xué)術(shù)界擁有更加豐富的歷史,正如 Isabelle Guyon 今年在 NeurIPS 邀請演講中所討論的那樣。

NeurIPS 是全球最負(fù)盛名的學(xué)術(shù)機(jī)器學(xué)習(xí)會議之一,過去十年中最重要的機(jī)器學(xué)習(xí)論文經(jīng)常會在大會上呈現(xiàn),包括 AlexNet,GAN,Transformer 和 GPT-3。

Image


NeurIPS 在 2014 年首次在機(jī)器學(xué)習(xí)(CIML)研討會方面舉辦了數(shù)據(jù)挑戰(zhàn)賽,自 2017 年以來一直有競賽環(huán)節(jié)。從那時(shí)起,競賽和總獎(jiǎng)金不斷增長,在 2022 年 12 月達(dá)到了接近 40 萬美元。

其他機(jī)器學(xué)習(xí)會議也舉辦了比賽,包括 CVPR、ICPR、IJCAI、ICRA、ECCV、PCIC 和 AutoML。

獎(jiǎng)金

大約一半的機(jī)器學(xué)習(xí)比賽有超過 1 萬美元的獎(jiǎng)池。毫無疑問,許多有趣的比賽獎(jiǎng)金不多,本報(bào)告僅考慮那些有貨幣獎(jiǎng)品或?qū)W術(shù)榮譽(yù)的部分。通常,與享有聲望的學(xué)術(shù)會議相關(guān)的數(shù)據(jù)比賽為獲獎(jiǎng)?wù)咛峁┝寺眯匈浛?,以便他們參加會議。

Image


雖然平均而言,一些比賽平臺確實(shí)傾向于擁有比其他平臺更大的獎(jiǎng)池(見平臺比較圖表),但許多平臺在 2022 年至少舉辦過一場獎(jiǎng)池非常大的比賽 —— 總獎(jiǎng)金排名前十的比賽包括在 DrivenData、Kaggle、CodaLab 和 AIcrowd 上運(yùn)行的。

奪冠方法

該調(diào)查通過問卷和觀察代碼的方式分析獲勝算法使用的技術(shù)。

相當(dāng)一致的是,Python 是競賽獲勝者的首選語言,這對于人們來說可能不是個(gè)預(yù)料之外的結(jié)果。在使用 Python 的人中,大約一半主要使用 Jupyter Notebook,另一半使用標(biāo)準(zhǔn) Python 腳本。

Image


一個(gè)主要使用 R 語言的獲勝解決方案是:Amir Ghazi 贏得了 Kaggle 上預(yù)測 2022 年美國男子大學(xué)籃球錦標(biāo)賽獲勝者的比賽。他通過使用 —— 顯然是逐字復(fù)制 ——2018 年同類競賽獲勝解決方案的代碼來做到這一點(diǎn),該方法由 Kaggle Grandmaster Darius Baru?auskas 撰寫。讓人難以想象的是,Darius 也參加了 2022 年的這場比賽,他使用新的方法,并獲得了第 593 名。

獲獎(jiǎng)?wù)呤褂玫?Python 包

在觀察獲勝解決方案中使用的軟件包時(shí),結(jié)果顯示所有使用 Python 的獲獎(jiǎng)?wù)叨荚谝欢ǔ潭壬鲜褂昧?PyData 堆棧。

將最流行的軟件包分為三類 —— 核心工具包、NLP 類和計(jì)算機(jī)視覺類。

Image


Image


其中,深度學(xué)習(xí)框架 PyTorch 的增長一直穩(wěn)定,其從 2021 年到 2022 年的躍升非常明顯:PyTorch 從獲勝解決方案的 77% 增加到了 96%。

在 46 個(gè)使用深度學(xué)習(xí)的獲獎(jiǎng)解決方案中,44 個(gè)使用 PyTorch 作為他們的主要框架,只有兩個(gè)使用 TensorFlow。更明顯的是,使用 TensorFlow 贏得的兩項(xiàng)比賽之一,Kaggle 的大堡礁競賽,提供額外的 5 萬美元獎(jiǎng)金給使用 TensorFlow 的獲勝團(tuán)隊(duì)。另一個(gè)使用 TensorFlow 獲勝的比賽使用了高級的 Keras API。

Image


雖然有 3 名獲勝者使用 pytorch-lightning 和 1 名使用 fastai—— 兩者都建立在 PyTorch 之上 —— 但絕大多數(shù)人直接使用 PyTorch。

現(xiàn)在或許可以說至少在數(shù)據(jù)競賽上,PyTorch 贏得了機(jī)器學(xué)習(xí)框架之爭。這與更廣泛的機(jī)器學(xué)習(xí)研究趨勢一致。

值得注意的是,我們沒有發(fā)現(xiàn)任何獲勝團(tuán)隊(duì)使用其他神經(jīng)網(wǎng)絡(luò)庫的實(shí)例,例如 JAX(由 Google 構(gòu)建,由 DeepMind 使用)、PaddlePaddle(由百度開發(fā))或 MindSpore(由華為開發(fā))。

計(jì)算機(jī)視覺

工具有一統(tǒng)江湖的趨勢,技術(shù)卻不是。在 CVPR 2022 上,ConvNext 架構(gòu)被介紹為「2020 年代的 ConvNet」,并證明其性能優(yōu)于最近的基于 Transformer 的模型。它被用于至少兩個(gè)贏得比賽的計(jì)算機(jī)視覺解決方案,而 CNN 總體上仍是迄今為止計(jì)算機(jī)視覺競賽獲獎(jiǎng)?wù)咧凶類塾玫纳窠?jīng)網(wǎng)絡(luò)架構(gòu)。

Image


計(jì)算機(jī)視覺與語言建模非常相似的地方在于使用預(yù)訓(xùn)練模型:在公共數(shù)據(jù)集(例如 ImageNet)上訓(xùn)練的易于理解的架構(gòu)。最受歡迎的存儲庫是 Hugging Face Hub,可通過 timm 訪問,這使得加載數(shù)十種不同計(jì)算機(jī)視覺模型的預(yù)訓(xùn)練版本變得極其方便。

使用預(yù)訓(xùn)練模型的優(yōu)勢是顯而易見的:真實(shí)世界的圖像和人類生成的文本都有一些共同的特征,使用預(yù)訓(xùn)練模型可以帶來常識的知識,類似于使用了更大、更通用的訓(xùn)練數(shù)據(jù)集。

通常,預(yù)先訓(xùn)練好的模型會根據(jù)特定任務(wù)的數(shù)據(jù)(例如比賽組織者提供的數(shù)據(jù))進(jìn)行微調(diào) —— 進(jìn)一步訓(xùn)練,但并非總是如此。Image Matching Challenge 的獲勝者使用了預(yù)訓(xùn)練模型,完全沒有任何微調(diào) ——「由于本次比賽中訓(xùn)練和測試數(shù)據(jù)的質(zhì)量(不同),我們沒有使用提供的訓(xùn)練進(jìn)行 fine-tuning,因?yàn)槲覀冋J(rèn)為它會不太有效?!惯@個(gè)決定得到了回報(bào)。

到目前為止,2022 年獲獎(jiǎng)?wù)咧凶钍軞g迎的預(yù)訓(xùn)練計(jì)算機(jī)視覺模型類型是 EfficientNet,顧名思義,它的優(yōu)勢在于比許多其他模型占用資源更少。

Image


自然語言處理

自 2017 年問世以來,基于 Transformer 的模型一直主導(dǎo)著自然語言處理(NLP)領(lǐng)域。Transformer 是 BERT 和 GPT 中的「T」,也是 ChatGPT 中的核心。

因此,自然語言處理競賽中所有獲勝的解決方案都是基于 Transformer 的模型為核心也就不足為奇了。它們都是在 PyTorch 中實(shí)現(xiàn)的,這并不奇怪。他們都使用了預(yù)訓(xùn)練模型,使用 Hugging Face 的 Transformers 庫加載,幾乎所有模型都使用了 Microsoft Research 的 DeBERTa 模型版本 —— 通常是 deberta-v3-large。

它們其中的許多都需要大量的計(jì)算資源。例如,谷歌 AI4Code 獲勝者運(yùn)行 A100(80GB)大約 10 天,以訓(xùn)練單個(gè) deberta-v3-large 用于他們的最終解決方案。這種方法是個(gè)例外(使用單個(gè)主模型和固定的訓(xùn)練 / 評估拆分)—— 所有其他解決方案都大量使用集成模型,并且?guī)缀醵际褂酶鞣N形式的 k-fold 交叉驗(yàn)證。例如,Jigsaw Toxic Comments 比賽的獲勝者使用了 15 個(gè)模型輸出的加權(quán)平均值。

基于 Transformer 的集成有時(shí)會與 LSTM 或 LightGBM 結(jié)合使用,也有至少兩個(gè)偽標(biāo)簽實(shí)例被有效地用于獲勝的解決方案。

XGBoost 曾經(jīng)是 Kaggle 的代名詞。然而,LightGBM 顯然是 2022 年獲獎(jiǎng)?wù)咦钕矚g的 GBDT 庫 —— 獲獎(jiǎng)?wù)咴谒麄兊慕鉀Q方案報(bào)告或問卷中提到 LightGBM 的次數(shù)與 CatBoost 和 XGBoost 的總和相同,CatBoost 位居第二,XGBoost 出人意料地排名第三。

計(jì)算和硬件

Image


正如大致預(yù)期的,大多數(shù)獲勝者使用 GPU 進(jìn)行訓(xùn)練 —— 這可以極大地提高梯度提升樹的訓(xùn)練性能,并且實(shí)際上是深度神經(jīng)網(wǎng)絡(luò)所必需的。相當(dāng)多的獲獎(jiǎng)?wù)呖梢栽L問其雇主或大學(xué)提供的集群,通常包括 GPU。

有點(diǎn)令人驚訝的是,我們沒有發(fā)現(xiàn)任何使用 Google 的張量處理單元 TPU 來訓(xùn)練獲勝模型的實(shí)例。我們也沒有看到任何關(guān)于蘋果 M 系列芯片上訓(xùn)練的獲勝模型,蘋果芯片自 2022 年 5 月以來一直得到 PyTorch 的支持。

谷歌的云筆記本解決方案 Colab 很受歡迎,有一位獲勝者使用免費(fèi)套餐,一位使用 Pro 套餐,另一位使用 Pro+(我們無法確定第四位獲勝者使用 Colab 所使用的套餐)。

本地個(gè)人硬件比云硬件更受歡迎,盡管九名獲獎(jiǎng)?wù)咛岬搅怂麄冇糜谟?xùn)練的 GPU,但沒有具體說明他們使用的是本地 GPU 還是云 GPU。

Image


最受歡迎的 GPU 是最新的高端 AI 加速卡 NVIDIA A100(這里將 A100 40GB 和 A100 80GB 放在一起,因?yàn)楂@勝者并不總能區(qū)分兩者),而且通常使用多塊 A100—— 例如,Zindi 的 Turtle Recall 競賽的獲勝者使用 8 塊 A100(40GB)GPU,另外兩個(gè)獲勝者使用 4 塊 A100。

團(tuán)隊(duì)構(gòu)成

許多比賽允許每個(gè)團(tuán)隊(duì)最多 5 名參賽者,團(tuán)隊(duì)可以由個(gè)人或較小的團(tuán)隊(duì)在成績提交截止日期前的某個(gè) deadline 前「合并」在一起組成。

一些比賽允許更大的團(tuán)隊(duì),例如,Waymo 的開放數(shù)據(jù)挑戰(zhàn)允許每個(gè)團(tuán)隊(duì)最多 10 個(gè)人。

Image


結(jié)論

這是對 2022 年機(jī)器學(xué)習(xí)競賽的大致觀察。希望你可以從中找到一些有用信息。

2023 年有許多激動(dòng)人心的新比賽,我們期待在這些比賽結(jié)束時(shí)發(fā)布更多見解。

原文鏈接:https:///state-of-competitive-machine-learning-2022/?ref=mlc_reddit

探尋隱私計(jì)算最新行業(yè)技術(shù),「首屆隱語開源社區(qū)開放日」報(bào)名啟程

春暖花開之際,誠邀廣大技術(shù)開發(fā)者&產(chǎn)業(yè)用戶相聚活動(dòng)現(xiàn)場,體驗(yàn)數(shù)智時(shí)代的隱私計(jì)算生態(tài)建設(shè)之旅:
高效交流——與眾多技術(shù)專家&社區(qū)KOL面對面深入交流,探討隱私計(jì)算技術(shù)現(xiàn)狀及未來趨勢,一站構(gòu)建隱私計(jì)算產(chǎn)業(yè)體系知識;
最新資訊——隱語開源指導(dǎo)委員會共享未來展望,與開發(fā)者們共話行業(yè)新發(fā)展,共建社區(qū)生態(tài);
精彩發(fā)布——隱語版本更新發(fā)布及開源 Roadmap,了解更多技術(shù)未來趨勢及路徑。
3月29日,北京·798機(jī)遇空間,隱語開源社區(qū)開放日,期待線下面基。

    本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多