小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

統(tǒng)一檢測(cè)和分割任務(wù)!港科大&清華&IDEA提出基于Transformer統(tǒng)一目標(biāo)檢測(cè)與分割框架Mask DINO,效果SOTA!

 我愛(ài)計(jì)算機(jī)視覺(jué) 2022-07-07 發(fā)布于江蘇
詳細(xì)信息如下:


  • 論文鏈接:https:///abs/2206.02777[1]

  • 項(xiàng)目鏈接:https://github.com/IDEACVR/MaskDINO[2]

      01      

摘要

本文提出了一種統(tǒng)一的目標(biāo)檢測(cè)和分割框架Mask-DINO。Mask DINO通過(guò)添加一個(gè)支持所有圖像分割任務(wù)(實(shí)例、全景和語(yǔ)義)的mask預(yù)測(cè)分支,擴(kuò)展了DINO(DETR with Improved Denoising Anchor Boxes)。它利用DINO的查詢(xún)嵌入對(duì)高分辨率像素嵌入圖進(jìn)行點(diǎn)積來(lái)預(yù)測(cè)一組二進(jìn)制mask。

DINO中的一些關(guān)鍵組件通過(guò)共享架構(gòu)和訓(xùn)練過(guò)程進(jìn)行了擴(kuò)展,以進(jìn)行分割任務(wù)。Mask DINO簡(jiǎn)單、高效、可擴(kuò)展,并且受益于聯(lián)合大規(guī)模檢測(cè)和分割數(shù)據(jù)集。實(shí)驗(yàn)表明,Mask-DINO在ResNet-50主干和帶有SwinL主干的預(yù)訓(xùn)練模型上都顯著優(yōu)于所有現(xiàn)有的專(zhuān)門(mén)分割方法。

此外,Mask DINO在實(shí)例分割(COCO上為54.5 AP)、全景分割(COCO上為59.4 PQ)和語(yǔ)義分割(ADE20K上為60.8 mIoU)方面建立了迄今為止最好的結(jié)果。

      02      

Motivation

目標(biāo)檢測(cè)和圖像分割是計(jì)算機(jī)視覺(jué)的基本任務(wù)。這兩項(xiàng)任務(wù)都與定位圖像中感興趣的對(duì)象有關(guān),但具有不同的focus級(jí)別。目標(biāo)檢測(cè)是定位感興趣的對(duì)象并預(yù)測(cè)其邊界框和類(lèi)別標(biāo)簽,而圖像分割則側(cè)重于不同語(yǔ)義的像素級(jí)分組。此外,圖像分割包括各種任務(wù),包括實(shí)例分割、全景分割和關(guān)于不同語(yǔ)義的語(yǔ)義分割。

為這些任務(wù)開(kāi)發(fā)的基于卷積的經(jīng)典算法具有專(zhuān)門(mén)的結(jié)構(gòu),如用于目標(biāo)檢測(cè)的Faster RCNN,用于實(shí)例分割的Mask RCNN,以及用于語(yǔ)義分割的FCN,取得了顯著的進(jìn)步。雖然這些方法在概念上簡(jiǎn)單有效,但它們是為專(zhuān)門(mén)的任務(wù)定制的,并且缺乏處理其他任務(wù)的泛化能力。目前也催生出了一些能夠聯(lián)合處理多個(gè)任務(wù)的模型,到目前為止,HTC++仍然是COCO目標(biāo)檢測(cè)和實(shí)例分割排行榜上SOTA模型廣泛使用的目標(biāo)檢測(cè)和實(shí)例分割方法。

隨著進(jìn)入基于Transformer的檢測(cè)器的新時(shí)代,檢測(cè)和分割任務(wù)會(huì)分化為不同的模型。DETR首先將Transformer引入到目標(biāo)檢測(cè)中。DETR是一種基于端到端查詢(xún)的目標(biāo)檢測(cè)器,它采用一個(gè)具有二部匹配的集合預(yù)測(cè)目標(biāo)。雖然DETR同時(shí)處理目標(biāo)檢測(cè)和全景分割任務(wù),但其分割性能仍低于經(jīng)典的分割模型。為了提高基于查詢(xún)的模型的檢測(cè)和分割性能,研究人員開(kāi)發(fā)了用于目標(biāo)檢測(cè)、實(shí)例分割、全景分割和語(yǔ)義分割的專(zhuān)用模型。

在改進(jìn)目標(biāo)檢測(cè)的努力中,DINO利用了DAB-DETR的動(dòng)態(tài)錨定框公式和DN-DETR的查詢(xún)?nèi)ピ胗?xùn)練,進(jìn)一步開(kāi)發(fā)了對(duì)比去噪訓(xùn)練、混合查詢(xún)選擇,通過(guò)這兩種方法來(lái)加速訓(xùn)練和提高檢測(cè)性能。因此,DINO作為一個(gè)類(lèi)似DETR的模型,首次在COCO目標(biāo)檢測(cè)排行榜上獲得SOTA結(jié)果。

類(lèi)似地,為了改進(jìn)圖像分割,MaskFormer和Mask2Former提出使用基于查詢(xún)的Transformer架構(gòu)來(lái)統(tǒng)一不同的圖像分割任務(wù),以執(zhí)行mask分類(lèi)。這些方法在多個(gè)分割任務(wù)上取得了顯著的性能改進(jìn)。然而,檢測(cè)和分割模型仍然存在顯著差異,這阻礙了檢測(cè)和分割任務(wù)之間的任務(wù)和數(shù)據(jù)協(xié)作。例如,最先進(jìn)的基于查詢(xún)的實(shí)例分割模型Mask2Former仍然落后于基于HTC++和Swin-V2-G的經(jīng)典模型。

解釋這種性能差距的一個(gè)原因是,基于HTC的模型是在大規(guī)模檢測(cè)數(shù)據(jù)集(即Objects365)上預(yù)訓(xùn)練的,但Mask2Former不能利用檢測(cè)數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練。雖然作者相信檢測(cè)和分割可以在一個(gè)統(tǒng)一的體系結(jié)構(gòu)中相互幫助,但簡(jiǎn)單地使用DINO進(jìn)行分割和使用Mask2Former進(jìn)行檢測(cè)的結(jié)果表明,它們不能很好地完成其他任務(wù)。此外,多任務(wù)訓(xùn)練甚至?xí)绊懺既蝿?wù)的性能。

這自然會(huì)導(dǎo)致兩個(gè)問(wèn)題:1)為什么檢測(cè)和分割任務(wù)在基于查詢(xún)的模型中不能相互幫助?2)是否有可能為所有檢測(cè)和分割任務(wù)開(kāi)發(fā)一個(gè)統(tǒng)一的體系結(jié)構(gòu),以取代專(zhuān)門(mén)的任務(wù)?

為了解決這些問(wèn)題,作者提出了Mask-DINO,它通過(guò)添加一個(gè)與box預(yù)測(cè)分支并行的Mask預(yù)測(cè)分支來(lái)擴(kuò)展DINO。受其他圖像分割統(tǒng)一模型的啟發(fā),作者重用DINO中的內(nèi)容查詢(xún)嵌入,對(duì)所有分割任務(wù)執(zhí)行mask分類(lèi)。由于DINO缺乏用于mask預(yù)測(cè)的高分辨率特征映射,作者遵循MaskFormer和Mask2Former,構(gòu)建了一個(gè)從主干和Transformer編碼器特征獲得的高分辨率像素嵌入映射(輸入圖像分辨率的1/4)。Mask分支通過(guò)簡(jiǎn)單地使用像素嵌入映射點(diǎn)乘每個(gè)內(nèi)容查詢(xún)嵌入來(lái)預(yù)測(cè)二進(jìn)制mask。

雖然DINO不是為像素級(jí)對(duì)齊而設(shè)計(jì)的,但作者發(fā)現(xiàn)重用其內(nèi)容查詢(xún)嵌入進(jìn)行Mask預(yù)測(cè)是非常有效的。這在很大程度上歸因于Transformer解碼器中基于交叉注意力的特征池化,允許查詢(xún)嵌入僅聚合輸入圖像中的相關(guān)特征。除了Mask分支,作者還擴(kuò)展了DINO中Box預(yù)測(cè)的三個(gè)關(guān)鍵組件,以提高分割性能。

首先,提出了統(tǒng)一的查詢(xún)選擇,將Mask查詢(xún)初始化為錨(anchor),從編碼器密集先驗(yàn)中選擇mask。其次,提出了針對(duì)mask的統(tǒng)一去噪訓(xùn)練來(lái)加速分割訓(xùn)練。第三,使用混合的二部匹配來(lái)更精確地匹配box和mask。

Mask DINO在概念上很簡(jiǎn)單,很容易在DINO框架下實(shí)現(xiàn)。mask預(yù)測(cè)的擴(kuò)展被設(shè)計(jì)為盡可能簡(jiǎn)單,以便Mask DINO可以重用DINO中的所有算法改進(jìn),以及可以從更大的檢測(cè)數(shù)據(jù)集預(yù)訓(xùn)練的特征表示。作者還發(fā)現(xiàn),在Mask2Former中,硬約束和密集的mask注意力是不必要的。

Mask DINO表示,簡(jiǎn)單地將Transformer編碼器的多尺度特征concat起來(lái),并使用可變形注意力(deformable attention),可以產(chǎn)生顯著的分割效果。此外,由于本文使用稀疏可變形注意力,Mask DINO在計(jì)算上是高效的。

      03      

方法

Mask DINO是DINO的擴(kuò)展。在內(nèi)容查詢(xún)嵌入之上,DINO有兩個(gè)分支用于框預(yù)測(cè)和標(biāo)簽預(yù)測(cè)。這些框會(huì)動(dòng)態(tài)更新,并用于引導(dǎo)每個(gè)Transformer解碼器中的可變形注意力。Mask DINO為mask預(yù)測(cè)添加了另一個(gè)分支,并最小限度地?cái)U(kuò)展了檢測(cè)中的幾個(gè)關(guān)鍵組件,以適應(yīng)分割任務(wù)。為了更好地理解 Mask DINO,作者首先簡(jiǎn)要回顧DINO,然后介紹Mask DINO。

3.1 Preliminaries: DINO

DINO是一種典型的類(lèi)DETR模型,由主干網(wǎng)、Transformer編碼器和Transformer解碼器組成??蚣苋缟蠄D所示(藍(lán)色陰影部分,無(wú)紅線(xiàn))。DINO將DETR中的每個(gè)位置查詢(xún)表示為4D錨定框(anchor box),該錨定框通過(guò)每個(gè)解碼器層動(dòng)態(tài)更新。DINO使用具有可變形注意力的多尺度特征。

因此,更新后的錨定框也用于以稀疏和柔和的方式約束可變形注意力。DINO采用去噪訓(xùn)練,并進(jìn)一步發(fā)展對(duì)比去噪以加速訓(xùn)練收斂。此外,DINO還提出了一種混合查詢(xún)選擇方案來(lái)初始化解碼器中的位置查詢(xún),并提出了一種look-forward-twice的方法來(lái)改進(jìn)box梯度反向傳播。

3.2 Why a universal model has not replaced the specialized models?

基于Transformer的檢測(cè)器和分割模型已經(jīng)取得了顯著的進(jìn)展。例如,DINO和Mask2Former分別在COCO檢測(cè)和全景分割方面取得了最好的結(jié)果。受這些進(jìn)步的啟發(fā),作者試圖簡(jiǎn)單地將這些專(zhuān)用模型擴(kuò)展到其他任務(wù),但發(fā)現(xiàn)其他任務(wù)的性能大大落后于原始任務(wù)??雌饋?lái),瑣碎的多任務(wù)訓(xùn)練甚至?xí)绊懺既蝿?wù)的性能。然而,在基于卷積的模型中,將檢測(cè)和實(shí)例分割任務(wù)結(jié)合起來(lái)是有效且互利的。例如,HTC++在COCO實(shí)例分割中仍然排名第一。


在這項(xiàng)工作中,作者希望回答兩個(gè)問(wèn)題:1)
為什么檢測(cè)和分割任務(wù)在基于Transformer的模型中不能相互幫助?2)是否有可能為所有檢測(cè)和分割任務(wù)開(kāi)發(fā)一個(gè)統(tǒng)一的結(jié)構(gòu),以取代專(zhuān)門(mén)的任務(wù)?作者將以DINO和Mask2Former為例來(lái)討論上述問(wèn)題。

Why cannot Mask2Former do detection well?

Mask2Former的Transformer解碼器是為分割任務(wù)而設(shè)計(jì)的,由于三個(gè)原因不適合檢測(cè)。

首先,它的查詢(xún)遵循DETR中的設(shè)計(jì),但無(wú)法利用Conditional DETR、Anchor DETR和DAB-DETR中研究的更好的位置先驗(yàn)。例如,它的內(nèi)容查詢(xún)?cè)谡Z(yǔ)義上與Transformer編碼器的特征一致,而它的位置查詢(xún)只是可學(xué)習(xí)的向量,就像在vanilla DETR中一樣。如果去掉它的mask分支,它就變成了DETR的一個(gè)變體,其性能不如最近改進(jìn)的DETR模型。

其次,Mask2Former在Transformer解碼器中采用了masked attention(帶注意力mask的多頭注意力)。從前一層預(yù)測(cè)的注意力mask是密集的和硬約束的,這對(duì)于框預(yù)測(cè)既不有效也不靈活。

第三,Mask2Former無(wú)法逐層顯式執(zhí)行box 細(xì)化。此外,它在解碼器中從粗到細(xì)的mask細(xì)化未能使用編碼器的多尺度特征。

Why cannot DETR/DINO do segmentation well?

DETR在其架構(gòu)中加入了一個(gè)分割頭,以顯示擴(kuò)展到分割任務(wù)的潛力。然而,其性能有限。有三個(gè)原因。首先,它的分割頭不是最優(yōu)的。DETR允許每個(gè)查詢(xún)嵌入具有最小特征圖的點(diǎn)積來(lái)計(jì)算attention map,然后對(duì)其進(jìn)行上采樣以獲得mask預(yù)測(cè)。這種設(shè)計(jì)缺乏查詢(xún)和主干中較大的特征圖之間的交互。

其次,DETR不能在每個(gè)解碼器層中使用mask輔助損失。由于DETR的分割頭很重,因此其結(jié)構(gòu)對(duì)分割效率很低。因此,它只計(jì)算最后一個(gè)解碼器層中的分割損失。第三,它不支持mask細(xì)化,因?yàn)閙ask位置預(yù)測(cè)無(wú)法從一層傳遞到下一層。

The motivation of Mask DINO

使用基于卷積的模型來(lái)統(tǒng)一檢測(cè)和分割任務(wù)已經(jīng)成為一種趨勢(shì),這不僅簡(jiǎn)化了模型設(shè)計(jì),而且促進(jìn)了檢測(cè)和分割之間的相互合作。作者提出Mask DINO主要有三個(gè)動(dòng)機(jī)。

首先,DINO在目標(biāo)檢測(cè)方面取得了SOTA結(jié)果。之前的工作,如Mask RCNN、HTC和DETR已經(jīng)表明,可以擴(kuò)展檢測(cè)模型來(lái)進(jìn)行分割,并幫助設(shè)計(jì)更好的分割模型。其次,檢測(cè)比實(shí)例分割相對(duì)容易。因此,box預(yù)測(cè)可以引導(dǎo)人們關(guān)注更有意義的區(qū)域,并為mask預(yù)測(cè)提取更好的特征。第三,DINO和其他類(lèi)似DETR的模型的新改進(jìn)也有助于分割任務(wù)。

例如,Mask2Former采用可學(xué)習(xí)的解碼器查詢(xún),無(wú)法利用編碼器中選定的前K個(gè)特征中的位置信息來(lái)指導(dǎo)mask預(yù)測(cè)。上圖(a)(b)(c)顯示第0解碼器層中的Mask2Former的輸出與GT mask相差較遠(yuǎn),而mask-DINO作為region proposal輸出更好的mask。Mask2Former還采用專(zhuān)門(mén)的mask注意力來(lái)引導(dǎo)模型關(guān)注感興趣的區(qū)域。

然而,mask注意力是一個(gè)硬約束,它會(huì)忽略所提供mask之外的特征,并可能忽略后續(xù)解碼器層的重要信息。此外,可變形注意力還可以更好地替代其高效性,使注意力可以應(yīng)用于多尺度特征,而無(wú)需太多計(jì)算開(kāi)銷(xiāo)。

上圖(d)(e)顯示了Mask2Former在其第一解碼器層中的預(yù)測(cè)mask和Mask DINO的相應(yīng)輸出。Mask2Former的預(yù)測(cè)只覆蓋了不到一半的GT mask,這意味著注意力無(wú)法在下一個(gè)解碼器層看到整個(gè)實(shí)例。此外,如上圖(f)(g)所示,box還可以將可變形注意力引導(dǎo)到背景的適當(dāng)區(qū)域。

3.3 Our Method: Mask DINO

Mask DINO采用與DINO相同的檢測(cè)架構(gòu)設(shè)計(jì),只需進(jìn)行最小的修改。在Transformer解碼器中,Mask DINO添加了一個(gè)用于分割的Mask分支,并擴(kuò)展了DINO中用于分割任務(wù)的幾個(gè)關(guān)鍵組件。如圖1所示,藍(lán)色陰影部分的框架是原始的DINO模型,分割的附加設(shè)計(jì)用紅線(xiàn)標(biāo)記。

Segmentation branch

按照其他用于圖像分割的統(tǒng)一模型,作者對(duì)所有分割任務(wù)執(zhí)行mask分類(lèi)。DINO不是為像素級(jí)對(duì)齊而設(shè)計(jì)的,因?yàn)樗奈恢貌樵?xún)被表示為錨定框,而它的內(nèi)容查詢(xún)用于預(yù)測(cè)框偏移和類(lèi)別。

為了進(jìn)行mask分類(lèi),作者采用Mask2Former中的一個(gè)關(guān)鍵思想,構(gòu)造一個(gè)從主干和Transformer編碼器特征中獲得的像素嵌入圖。如圖1所示,通過(guò)將來(lái)自主干的1/4分辨率特征映射與來(lái)自Transformer編碼器的上采樣1/8分辨率特征映射融合來(lái)獲得像素嵌入映射。然后將解碼器中的每個(gè)內(nèi)容查詢(xún)嵌入與像素嵌入映射進(jìn)行點(diǎn)積,得到輸出mask 。


其中是分割頭,是一個(gè)卷積層,用于將通道維度映射到Transformer隱藏維度,是一個(gè)簡(jiǎn)單的插值函數(shù),用于執(zhí)行的2x上采樣。這個(gè)分割分支在概念上很簡(jiǎn)單,很容易在DINO框架中實(shí)現(xiàn)。

Unified query selection for mask

作者在DINO中擴(kuò)展了框查詢(xún)選擇方案來(lái)得到Mask DINO。在編碼器中需要預(yù)測(cè)box和mask,并選擇排名靠前的box和mask來(lái)初始化解碼器查詢(xún)。選定的box和mask可以作為解碼器更好的初始化的錨。作者在Mask DINO中初始化內(nèi)容和錨定框查詢(xún),而DINO只初始化錨定框查詢(xún)。

Unified denoising for mask

在目標(biāo)檢測(cè)中,查詢(xún)?nèi)ピ雽?duì)加速收斂和提高性能非常有效。作者還將此技術(shù)擴(kuò)展到Mask DINO,將帶噪的Ground Truth(GT)框及其標(biāo)簽提供給解碼器,并訓(xùn)練模型來(lái)重建GT box和mask。

Hybrid matching

Mask DINO以松散耦合的方式預(yù)測(cè)具有兩個(gè)平行頭的box和mask。因此,兩個(gè)頭可以預(yù)測(cè)一對(duì)相互不一致的box和mask。為了解決這個(gè)問(wèn)題,作者在二部匹配中同時(shí)考慮了box和mask,以鼓勵(lì)獲得更準(zhǔn)確的匹配結(jié)果

Decoupled box prediction

對(duì)于全景分割任務(wù),對(duì)“stuff”類(lèi)別的框預(yù)測(cè)是不必要的,而且直觀上效率很低。例如,許多“stuff”類(lèi)別都是類(lèi)似于“sky”的背景,其GT mask派生的框非常不規(guī)則,通常覆蓋整個(gè)圖像。因此,對(duì)這些類(lèi)別的框預(yù)測(cè)可能會(huì)誤導(dǎo)實(shí)例級(jí)(“thing”)檢測(cè)和分割。

為了解決這個(gè)問(wèn)題,作者刪除了“stuff”類(lèi)別的框損失和框匹配。更具體地說(shuō),框預(yù)測(cè)pipeline對(duì)于“stuff”保持不變,以定位有意義的區(qū)域并提取具有可變形注意力的特征。然而,不計(jì)算他們的預(yù)測(cè)損失。在本文的混合匹配中,“stuff”的框損失設(shè)置為“thing”類(lèi)別的平均值。這種解耦設(shè)計(jì)可以加速訓(xùn)練,并為全景分割帶來(lái)額外收益。


      04      

實(shí)驗(yàn)


上表展示了Mask DINO和目前主流方法的對(duì)比。


在上表中,作者將Mask DINO與其他實(shí)例分割和目標(biāo)檢測(cè)模型進(jìn)行了比較。在相同的設(shè)置下,Mask DINO的性能優(yōu)于Mask2Former和DINO等專(zhuān)用模型以及HTC等混合模型。

特別是,在12個(gè)epoch和50個(gè)epoch設(shè)置下,實(shí)例分割結(jié)果大大超過(guò)強(qiáng)baseline Mask2Former(+2.7 AP和+2.3 AP)。此外,Mask DINO顯著提高了收斂速度,在不到一半的訓(xùn)練周期內(nèi)優(yōu)于Mask2Former(24個(gè)epoch的44.2 AP)。


在上表中,作者將Mask DINO與其他模型進(jìn)行了比較。Mask DINO在12 epoch和50 epoch設(shè)置上分別比以前的所有最佳模型高出1.0 PQ和1.1 PQ。這表明Mask-DINO具有收斂速度快、性能優(yōu)越的優(yōu)點(diǎn)。


在上表,作者展示了使用ResNet-50主干進(jìn)行語(yǔ)義分割的性能。作者對(duì)這些小數(shù)據(jù)集使用100個(gè)查詢(xún)。在ADE20K和Cityscapes方面的表現(xiàn)均優(yōu)于Mask2Former。


在上表中,作者將Mask DINO與SOTA模型在三種圖像分割任務(wù)上進(jìn)行了比較,以顯示其可擴(kuò)展性。作者在Objects365檢測(cè)數(shù)據(jù)集上使用SwinL主干和預(yù)訓(xùn)練DINO。由于Mask-DINO是DINO的一個(gè)擴(kuò)展,因此可以使用預(yù)訓(xùn)練好的DINO模型對(duì)Mask-DINO進(jìn)行微調(diào),以完成分割任務(wù)。在對(duì)相應(yīng)任務(wù)微調(diào)Mask-DINO后,在實(shí)例(54.5 AP)、全景(59.4 PQ)和語(yǔ)義(60.8 mIoU)分割上取得了最好的結(jié)果。


上表顯示了實(shí)例分割的查詢(xún)選擇結(jié)果,其中作者提供了單個(gè)模型中不同解碼器層的性能。


在上表中,Mask DINO表明,在解碼器中使用更多的特征尺度可以持續(xù)提高性能。


在DINO中,將解碼器層數(shù)增加到9層會(huì)降低box的性能。在上表中,結(jié)果表明,增加解碼器層的數(shù)量將有助于Mask DINO中的檢測(cè)和分割。作者認(rèn)為多任務(wù)訓(xùn)練變得更加復(fù)雜,需要更多的解碼器來(lái)學(xué)習(xí)所需的映射函數(shù)。


為了驗(yàn)證Mask-DINO中的任務(wù)協(xié)作,作者使用相同的模型,但訓(xùn)練不同的任務(wù),并報(bào)告了12個(gè)epoch和50個(gè)epoch的結(jié)果。如上表所示,僅訓(xùn)練一項(xiàng)任務(wù)會(huì)導(dǎo)致性能下降。雖然只有訓(xùn)練目標(biāo)檢測(cè)能在box預(yù)測(cè)的早期階段更快地收斂,但最終的性能仍然不如同時(shí)訓(xùn)練兩個(gè)任務(wù)。


在上表中,作者展示了解耦box預(yù)測(cè)對(duì)全景分割的有效性。


在上表中,制作者發(fā)現(xiàn),僅使用box或mask進(jìn)行二部匹配在掩碼DINO中不是最優(yōu)的。統(tǒng)一的匹配目標(biāo)使優(yōu)化更加一致。


在上表中,作者消融每個(gè)算法組件,并顯示每個(gè)組件對(duì)最終性能的貢獻(xiàn)。


      05      

總結(jié)


在本文中,作者提出了Mask DINO作為一個(gè)統(tǒng)一的基于Transformer的框架,用于目標(biāo)檢測(cè)和圖像分割。從概念上講,Mask DINO是DINO從檢測(cè)到分割的自然擴(kuò)展,只需對(duì)一些關(guān)鍵組件進(jìn)行最小的修改。

Mask DINO優(yōu)于以前的專(zhuān)用模型,在所有三個(gè)分割任務(wù)(實(shí)例、全景和語(yǔ)義)上都能獲得最佳結(jié)果。此外,Mask-DINO表明,在基于查詢(xún)的模型中,檢測(cè)和分割可以相互幫助。此外,Mask DINO使語(yǔ)義和全景分割能夠受益于在大規(guī)模檢測(cè)數(shù)據(jù)集上預(yù)訓(xùn)練的更好的視覺(jué)表示。

參考資料

[1]https:///abs/2206.02777
[2]https://github.com/IDEACVR/MaskDINO

END





    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶(hù) 評(píng)論公約

    類(lèi)似文章 更多