小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

大道至簡,何愷明新論文火了:Masked Autoencoders讓計算機視覺通向大模型

 taotao_2016 2021-11-13

機器之心報道

機器之心編輯部

計算機視覺領域的 GPT-3 要有了?

大佬會告訴你,強大的 AI 技術 idea 應該非常簡單,實現起來也很快捷。

什么樣的 AI 論文能剛上 arXiv 不到半天,就成為知乎熱搜?

圖片


圖片


而且熱度還能以肉眼可見的速度上升。

圖片


11 月 12 日,一篇由 Facebook AI 研究院完成、何愷明一作的論文《Masked Autoencoders Are Scalable Vision Learners》成為了計算機視覺圈的熱門話題。

圖片


論文鏈接:https:///abs/2111.06377

社交網絡上已有不止一人說,這篇論文說不定能「預定」CVPR 2022 的最佳。雖然我們還不能武斷地認為它就是近期最重要的研究,但 MAE 研究的確是按照 CVPR 格式上傳的,而且看來已是一個很有質量的工作。11 月 9 日,CVPR 2022 大會剛剛截止論文注冊,論文提交的 Deadline 是太平洋時間 16 號晚 12 點。

這篇論文展示了一種被稱為掩蔽自編碼器(masked autoencoders,MAE)的新方法,可以用作計算機視覺的可擴展自監(jiān)督學習器。MAE 的方法很簡單:掩蔽輸入圖像的隨機區(qū)塊并重建丟失的像素。它基于兩個核心理念:研究人員開發(fā)了一個非對稱編碼器 - 解碼器架構,其中一個編碼器只對可見的 patch 子集進行操作(沒有掩蔽 token),另一個簡單解碼器可以從潛在表征和掩蔽 token 重建原始圖像。

研究人員進一步發(fā)現,掩蔽大部分輸入圖像(例如 75%)會產生重要且有意義的自監(jiān)督任務。結合這兩種設計,我們就能高效地訓練大型模型:提升訓練速度至 3 倍或更多,并提高準確性。

作者認為,這種可擴展方法允許學習泛化良好的高容量模型:例如在僅使用 ImageNet-1K 數據的方法中,vanilla ViT-Huge 模型實現了最佳準確率 (87.8%)。在下游任務中的傳輸性能優(yōu)于有監(jiān)督的預訓練,并顯示出可觀的擴展能力。

用 MAE 做 pre-training 只需 ImageNet-1k 就能達到超過 87% 的 top 1 準確度,超過了所有在 ImageNet-21k pre-training 的 ViT 變體模型。而從方法上看,MAE 選擇直接重建原圖的元素,而且證明了其可行性,改變了人們的認知,又幾乎可以覆蓋 CV 里所有的識別類任務,看起來像是開啟了一個新的方向。

論文概覽

近些年來,深度學習領域出現了一大批能力、容量均不斷增長的架構。在不斷升級的硬件的支持下,今天的模型已經能夠輕松地消化數百萬張圖像,而且開始向數以億計的標記圖像進發(fā)。

在自然語言處理中,這種數據需求已經成功地通過自監(jiān)督預訓練來解決。基于 GPT 自回歸語言建模和 BERT 掩蔽自編碼的解決方案在概念上非常簡單:它們刪除一部分數據,并學習預測刪除的內容。這些方法可以用來訓練包含數千億參數的可泛化 NLP 模型。

掩蔽自編碼器是一種更通用的去噪自編碼器,也適用于計算機視覺。其實,與視覺密切相關的研究早于 BERT。在 BERT 成功之后,人們對這一想法也產生了極大的興趣。但盡管如此,視覺自編碼方法的發(fā)展還是落后于 NLP。何愷明等研究者想知道:是什么造成了這種差異?

他們嘗試從以下幾個角度來回答這一問題:

1、架構差異。在計算機視覺領域,卷積網絡是過去十年的主流架構。不過,隨著 Vision Transformers(ViT)的推出,這種架構上的差異已經逐漸縮小,應該不會再成為障礙。

2、信息密度差異。語言是人類產生的高度語義化信號,信息非常密集。當訓練一個模型來預測每個句子中缺失的寥寥數詞時,這項任務似乎能誘發(fā)復雜的語言理解。但視覺任務就不同了:圖像是自然信號,擁有大量的空間冗余。例如,一個缺失的 patch 可以根據相鄰的 patch 恢復,而不需要對其他部分、對象和場景有很多的高級理解。

為了克服這種差異并鼓勵學習有用的特征,研究者展示了:一個簡單的策略在計算機視覺中也能非常有效:掩蔽很大一部分隨機 patch。這種策略在很大程度上減少了冗余,并創(chuàng)造了一個具有挑戰(zhàn)性的自監(jiān)督任務,該任務需要超越低級圖像統計的整體理解。下圖 2 - 圖 4 展示了這一重建任務的定性結果。

圖片


圖片


圖片


3、自編碼器的解碼器(將潛在表征映射回輸入)在文本和圖像重建任務中起著不同的作用。在計算機視覺任務中,解碼器重建的是像素,因此其輸出的語義水平低于一般的識別任務。這與語言相反,語言任務中的解碼器預測的是包含豐富語義信息的缺失單詞。雖然在 BERT 中,解碼器可能是微不足道的(一個 MLP),但何愷明等研究者發(fā)現,對于圖像,解碼器的設計對于學到的潛在表示的語義水平起著關鍵作用。

基于以上分析,研究者提出了一種簡單、有效且可擴展的掩蔽自編碼器(MAE)用于視覺表征學習。該 MAE 從輸入圖像中掩蔽了隨機 patch 并重建像素空間中缺失的 patch。它具有非對稱的編碼器 - 解碼器設計。其中,編碼器僅對 patch 的可見子集(沒有掩碼 token)進行操作,解碼器則是輕量級的,可以從潛在表征和掩碼 token 中重建輸入(圖 1)。

在這個非對稱編碼器 - 解碼器中,將掩碼 token 轉移到小型解碼器會導致計算量大幅減少。在這種設計下,非常高的掩蔽率(例如 75%)可以實現雙贏:它優(yōu)化了準確性,同時允許編碼器僅處理一小部分(例如 25%)的 patch。這可以將整體預訓練時間減少至原來的 1/3 或更低,同時減少內存消耗,使我們能夠輕松地將 MAE 擴展到大型模型。

圖片


MAE 可以學習非常大容量的模型,而且泛化性能良好。通過 MAE 預訓練,研究者可以在 ImageNet-1K 上訓練 ViT-Large/-Huge 等需要大量數據的模型,提高泛化性能。例如,在 ImageNet-1K 數據集上,原始 ViT-Huge 模型經過微調后可以實現 87.8% 的準確率。這比以前所有僅使用 ImageNet-1K 數據的模型效果都要好。

圖片


研究者還對 MAE 進行了遷移學習方面的評估,具體任務包括目標檢測、實例分割、語義分割等。實驗結果表明,MAE 實現了比監(jiān)督預訓練更好的結果。更重要的是,隨著模型規(guī)模的擴大,MAE 的收益也越來越明顯。這些結果與 NLP 預訓練中觀察到的自監(jiān)督預訓練結果一致。

圖片


圖片


圖片


具有良好擴展性的簡單算法是深度學習的核心。在 NLP 中,簡單的自監(jiān)督學習方法(如 BERT)可以從指數級增大的模型中獲益。在計算機視覺中,盡管自監(jiān)督學習取得了進展,但實際的預訓練范式仍是監(jiān)督學習。在 MAE 研究中,研究人員在 ImageNet 和遷移學習中觀察到自編碼器——一種類似于 NLP 技術的簡單自監(jiān)督方法——提供了可擴展的前景。視覺中的自監(jiān)督學習可能會因此走上與 NLP 類似的軌跡。

MAE 架構細節(jié)

掩蔽

與 ViT 類似,該方法將圖像劃分為規(guī)則的非重疊 patch,然后對 patch 的子集進行采樣,并掩蔽(移除)剩余的 patch。該方法的采樣策略很簡單:不帶替換地隨機采樣 patch,遵循均勻分布。研究者將其稱為「隨機采樣」。具有高掩蔽率(即移除 patch 的比率)的隨機采樣在很大程度上消除了冗余,從而創(chuàng)建了一項無法借助可見相鄰 patch 外推(extrapolation)來輕松解決的任務。均勻分布可以避免出現潛在的中心偏置(center bias,即圖像中心附近有更多的掩蔽 patch)。最后,高度稀疏的輸入有助于設計高效的編碼器。

MAE 編碼器

該方法的編碼器是一個僅適用于可見、未掩蔽 patch 的 ViT。就像在一個標準的 ViT 中一樣,該編碼器通過添加位置嵌入的線性投影嵌入 patch,然后通過一系列 Transformer 塊處理結果集。但該編碼器只對整個集合的一小部分(例如 25%)進行操作。被掩蔽的 patch 被移除;不使用掩蔽 token。這使得該方法能夠僅使用一小部分計算和內存來訓練非常大的編碼器。

MAE 解碼器

MAE 解碼器的輸入是一個完整的 token 集,包括 (i) 已編碼的可見 patch 和 (ii) 掩蔽 token,如上圖 1 所示。每個掩蔽 token 是一個共享的學得向量,指示是否存在需要預測的缺失 patch。該研究為這個完整集合中的所有 token 添加了位置嵌入,否則掩蔽 token 將沒有關于它們在圖像中位置的信息。解碼器也有一系列的 Transformer 塊。

MAE 解碼器僅在預訓練期間用于執(zhí)行圖像重建任務,僅使用編碼器生成用于識別的圖像表征,因此可以以獨立于編碼器設計的方式靈活地設計解碼器的架構。該研究嘗試了非常小的解碼器,比編碼器更窄更淺。例如該方法的默認解碼器每個 token 的計算量僅為編碼器的 10% 以下。通過這種非對稱設計,所有 token 僅用輕量級解碼器處理,顯著減少了預訓練時間。

一作簡介

圖片


何愷明是 AI 領域著名的研究者。2003 年他以標準分 900 分獲得廣東省高考總分第一,被清華大學物理系基礎科學班錄取。在清華物理系基礎科學班畢業(yè)后,他進入香港中文大學多媒體實驗室攻讀博士學位,師從湯曉鷗。

何愷明曾于 2007 年進入微軟亞洲研究院視覺計算組實習,實習導師為孫劍。2011 年博士畢業(yè)后,他加入微軟亞洲研究院工作,任研究員。2016 年,何愷明加入 Facebook 人工智能實驗室,任研究科學家至今。

何愷明曾于 2009 年拿到國際計算機視覺頂會 CVPR 的 Best Paper,2016 年再獲 Best Paper 獎,2021 年有一篇論文是最佳論文的候選。何愷明還因為 Mask R-CNN 獲得過 ICCV 2017 的最佳論文(Marr Prize),同時也參與了當年最佳學生論文的研究。

參考內容:
https://www.zhihu.com/question/498364155
https:///pdf/2111.06377.pdf

第一期:快速搭建基于Python和NVIDIA TAO Toolkit的深度學習訓練環(huán)境

英偉達 AI 框架 TAO(Train, Adapt, and optimization)提供了一種更快、更簡單的方法來加速培訓,并快速創(chuàng)建高度精確、高性能、領域特定的人工智能模型。

11月15日19:30-21:00,英偉達專家?guī)砭€上分享,將介紹:
  • NVIDIA TAO Toolkit 的獨到特性
  • 快速部署 NVIDIA TAO Toolkit

  • 利用 NVIDIA TAO Toolkit 快速搭建深度學習訓練環(huán)境

  • 利用 TAO Toolkit 快速訓練部署目標檢測模型

    本站是提供個人知識管理的網絡存儲空間,所有內容均由用戶發(fā)布,不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息,謹防詐騙。如發(fā)現有害或侵權內容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章