国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

目錄
方法
實驗
首頁 科技周邊 人工智能 VPR 2024 滿分論文!Meta提出EfficientSAM:快速分割一切!

VPR 2024 滿分論文!Meta提出EfficientSAM:快速分割一切!

Mar 02, 2024 am 10:10 AM
研究 訓(xùn)練 編碼器

EfficientSAM 這篇工作以5/5/5滿分收錄于CVPR 2024!作者在某社交媒體上分享了該結(jié)果,如下圖所示:

VPR 2024 滿分論文!Meta提出EfficientSAM:快速分割一切!

LeCun 圖靈獎得主也強烈推薦了該工作!

VPR 2024 滿分論文!Meta提出EfficientSAM:快速分割一切!

在近期的研究中,Meta 研究者提出了一種新的改進方法,即使用 SAM 的掩碼圖像預(yù)訓(xùn)練 (SAMI)。這一方法結(jié)合了 MAE 預(yù)訓(xùn)練技術(shù)和 SAM 模型,旨在實現(xiàn)高質(zhì)量的預(yù)訓(xùn)練 ViT 編碼器。通過 SAMI,研究者試圖提高模型的性能和效率,為視覺任務(wù)提供更好的解決方案。這一方法的提出為進一步探索和發(fā)展計算機視覺和深度學(xué)習(xí)領(lǐng)域帶來了新的思路和機遇。通過結(jié)合不同的預(yù)訓(xùn)練技術(shù)和模型結(jié)構(gòu),研究者們不斷


VPR 2024 滿分論文!Meta提出EfficientSAM:快速分割一切!


  • 論文鏈接:https://arxiv.org/pdf/2312.00863
  • 代碼:github.com/yformer/EfficientSAM
  • 主頁:https://yformer.github.io/efficient-sam/

這一方法降低了 SAM 的復(fù)雜性,同時能夠保持良好的性能。具體來說,SAMI 利用 SAM 編碼器 ViT-H 生成特征嵌入,并用輕量級編碼器訓(xùn)練掩碼圖像模型,從而從 SAM 的 ViT-H 而不是圖像補丁重建特征,產(chǎn)生的通用 ViT 骨干可用于下游任務(wù),如圖像分類、物體檢測和分割等。然后,研究者利用 SAM 解碼器對預(yù)訓(xùn)練的輕量級編碼器進行微調(diào),以完成任何分割任務(wù)。

為了驗證這種方法的有效性,研究人員使用了掩碼圖像預(yù)訓(xùn)練的遷移學(xué)習(xí)設(shè)置。具體來說,他們首先在圖像分辨率為224×224的ImageNet數(shù)據(jù)集上,通過重構(gòu)損失對模型進行了預(yù)訓(xùn)練。隨后,他們利用目標任務(wù)的監(jiān)督數(shù)據(jù)對模型進行微調(diào)。這種遷移學(xué)習(xí)方法可以幫助模型在新任務(wù)上快速學(xué)習(xí)并提高性能,因為模型已經(jīng)通過預(yù)訓(xùn)練階段學(xué)會了從原始數(shù)據(jù)中提取特征。這種遷移學(xué)習(xí)策略有效地利用了在大規(guī)模數(shù)據(jù)集上學(xué)到的知識,使模型更容易適應(yīng)不同的任務(wù),同時

通過 SAMI 預(yù)訓(xùn)練,可以在 ImageNet-1K 上訓(xùn)練 ViT-Tiny/-Small/-Base 等模型,并提高泛化性能。對于 ViT-Small 模型,研究者在 ImageNet-1K 上進行 100 次微調(diào)后,其 Top-1 準確率達到 82.7%,優(yōu)于其他最先進的圖像預(yù)訓(xùn)練基線。

研究者在目標檢測、實例分割和語義分割上對預(yù)訓(xùn)練模型進行了微調(diào)。在所有這些任務(wù)中,本文方法都取得了比其他預(yù)訓(xùn)練基線更好的結(jié)果,更重要的是在小模型上獲得了顯著收益。

論文作者 Yunyang Xiong 表示:本文提出的 EfficientSAM 參數(shù)減少了 20 倍,但運行時間快了 20 倍,只與原始 SAM 模型的差距在 2 個百分點以內(nèi),大大優(yōu)于 MobileSAM/FastSAM。

VPR 2024 滿分論文!Meta提出EfficientSAM:快速分割一切!

在 demo 演示中,點擊圖片中的動物,EfficientSAM 就能快速將物體進行分割:

VPR 2024 滿分論文!Meta提出EfficientSAM:快速分割一切!

EfficientSAM 還能準確標定出圖片中的人:

VPR 2024 滿分論文!Meta提出EfficientSAM:快速分割一切!

試玩地址:https://ab348ea7942fe2af48.gradio.live/

方法

EfficientSAM 包含兩個階段:1)在 ImageNet 上對 SAMI 進行預(yù)訓(xùn)練(上);2)在 SA-1B 上微調(diào) SAM(下)。

VPR 2024 滿分論文!Meta提出EfficientSAM:快速分割一切!

EfficientSAM 主要包含以下組件:

交叉注意力解碼器:在 SAM 特征的監(jiān)督下,本文觀察到只有掩碼 token 需要通過解碼器重建,而編碼器的輸出可以在重建過程中充當錨點(anchors)。在交叉注意力解碼器中,查詢來自于掩碼 token,鍵和值源自編碼器的未掩碼特征和掩碼特征。本文將來自交叉注意力解碼器掩碼 token 的輸出特征和來自編碼器的未掩碼 token 的輸出特征進行合并,以進行 MAE 輸出嵌入。然后,這些組合特征將被重新排序到最終 MAE 輸出的輸入圖像 token 的原始位置。

線性投影頭。研究者通過編碼器和交叉注意力解碼器獲得的圖像輸出,接下來將這些特征輸入到一個小型項目頭(project head)中,以對齊 SAM 圖像編碼器中的特征。為簡單起見,本文僅使用線性投影頭來解決 SAM 圖像編碼器和 MAE 輸出之間的特征維度不匹配問題。

重建損失。在每次訓(xùn)練迭代中,SAMI 包括來自 SAM 圖像編碼器的前向特征提取以及 MAE 的前向和反向傳播過程。來自 SAM 圖像編碼器和 MAE 線性投影頭的輸出會進行比較,從而計算重建損失。

VPR 2024 滿分論文!Meta提出EfficientSAM:快速分割一切!

經(jīng)過預(yù)訓(xùn)練,編碼器可以對各種視覺任務(wù)的特征表示進行提取,而且解碼器也會被廢棄。特別是,為了構(gòu)建用于分割任何任務(wù)的高效 SAM 模型,本文采用 SAMI 預(yù)訓(xùn)練的輕量級編碼器(例如 ViT-Tiny 和 ViT-Small)作為 EfficientSAM 的圖像編碼器和 SAM 的默認掩碼解碼器,如圖所示 2(底部)。本文在 SA-1B 數(shù)據(jù)集上對 EfficientSAM 模型進行微調(diào),以實現(xiàn)分割任何任務(wù)。

實驗

圖像分類。為了評估本文方法在圖像分類任務(wù)上的有效性,研究者將 SAMI 思想應(yīng)用于 ViT 模型,并比較它們在 ImageNet-1K 上的性能。

如表 1 將 SAMI 與 MAE、iBOT、CAE 和 BEiT 等預(yù)訓(xùn)練方法以及 DeiT 和 SSTA 等蒸餾方法進行了比較。

VPR 2024 滿分論文!Meta提出EfficientSAM:快速分割一切!

SAMI-B 的 top1 準確率達到 84.8%,比預(yù)訓(xùn)練基線、MAE、DMAE、iBOT、CAE 和 BEiT 都高。與 DeiT 和 SSTA 等蒸餾方法相比,SAMI 也顯示出較大的改進。對于 ViT-Tiny 和 ViT-Small 等輕量級模型,SAMI 結(jié)果與 DeiT、SSTA、DMAE 和 MAE 相比有顯著的增益。

目標檢測和實例分割。本文還將經(jīng)過 SAMI 預(yù)訓(xùn)練的 ViT 主干擴展到下游目標檢測和實例分割任務(wù)上,并將其與在 COCO 數(shù)據(jù)集上經(jīng)過預(yù)訓(xùn)練的基線進行比較。如表 2 所示, SAMI 始終優(yōu)于其他基線的性能。

VPR 2024 滿分論文!Meta提出EfficientSAM:快速分割一切!

這些實驗結(jié)果表明,SAMI 在目標檢測和實例分割任務(wù)中所提供的預(yù)訓(xùn)練檢測器主干非常有效。

語義分割。本文進一步將預(yù)訓(xùn)練主干擴展到語義分割任務(wù),以評估其有效性。結(jié)果如表 3 所示,使用 SAMI 預(yù)訓(xùn)練主干網(wǎng)的 Mask2former 在 ImageNet-1K 上比使用 MAE 預(yù)訓(xùn)練的主干網(wǎng)實現(xiàn)了更好的 mIoU。這些實驗結(jié)果驗證了本文提出的技術(shù)可以很好地泛化到各種下游任務(wù)。

VPR 2024 滿分論文!Meta提出EfficientSAM:快速分割一切!

表 4 將 EfficientSAMs 與 SAM、MobileSAM 和 SAM-MAE-Ti 進行比較。在 COCO 上,EfficientSAM-Ti 的性能優(yōu)于 MobileSAM。EfficientSAM-Ti 具有 SAMI 預(yù)訓(xùn)練權(quán)重,也比 MAE 預(yù)訓(xùn)練權(quán)重表現(xiàn)更好。?

此外, EfficientSAM-S 在 COCO box 僅比 SAM 低 1.5 mIoU,在 LVIS box 上比 SAM 低 3.5 mIoU,參數(shù)減少了 20 倍。本文還發(fā)現(xiàn),與 MobileSAM 和 SAM-MAE-Ti 相比,EfficientSAM 在多次點擊(multiple click)方面也表現(xiàn)出了良好的性能。

VPR 2024 滿分論文!Meta提出EfficientSAM:快速分割一切!

表 5 展示了零樣本實例分割的 AP、APS、APM 和 APL。研究者將 EfficientSAM 與 MobileSAM 和 FastSAM 進行了比較,可以看到,與 FastSAM 相比,EfficientSAM-S 在 COCO 上獲得了超過 6.5 個 AP,在 LVIS 上獲得了 7.8 個 AP。就 EffidientSAM-Ti 而言,仍然遠遠優(yōu)于 FastSAM,在 COCO 上為 4.1 個 AP,在 LVIS 上為 5.3 個 AP,而 MobileSAM 在 COCO 上為 3.6 個 AP,在 LVIS 上為 5.5 個 AP。

而且,EfficientSAM 比 FastSAM 輕得多,efficientSAM-Ti 的參數(shù)為 9.8M,而 FastSAM 的參數(shù)為 68M。

VPR 2024 滿分論文!Meta提出EfficientSAM:快速分割一切!

圖 3、4、5 提供了一些定性結(jié)果,以便讀者對 EfficientSAMs 的實例分割能力有一個補充性了解。

VPR 2024 滿分論文!Meta提出EfficientSAM:快速分割一切!


VPR 2024 滿分論文!Meta提出EfficientSAM:快速分割一切!


VPR 2024 滿分論文!Meta提出EfficientSAM:快速分割一切!

更多研究細節(jié),可參考原論文。

以上是VPR 2024 滿分論文!Meta提出EfficientSAM:快速分割一切!的詳細內(nèi)容。更多信息請關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本站聲明
本文內(nèi)容由網(wǎng)友自發(fā)貢獻,版權(quán)歸原作者所有,本站不承擔(dān)相應(yīng)法律責(zé)任。如您發(fā)現(xiàn)有涉嫌抄襲侵權(quán)的內(nèi)容,請聯(lián)系admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費脫衣服圖片

Undresser.AI Undress

Undresser.AI Undress

人工智能驅(qū)動的應(yīng)用程序,用于創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用于從照片中去除衣服的在線人工智能工具。

Clothoff.io

Clothoff.io

AI脫衣機

Video Face Swap

Video Face Swap

使用我們完全免費的人工智能換臉工具輕松在任何視頻中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的代碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

功能強大的PHP集成開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級代碼編輯軟件(SublimeText3)

開源!超越ZoeDepth! DepthFM:快速且精確的單目深度估計! 開源!超越ZoeDepth! DepthFM:快速且精確的單目深度估計! Apr 03, 2024 pm 12:04 PM

0.這篇文章干了啥?提出了DepthFM:一個多功能且快速的最先進的生成式單目深度估計模型。除了傳統(tǒng)的深度估計任務(wù)外,DepthFM還展示了在深度修復(fù)等下游任務(wù)中的最先進能力。DepthFM效率高,可以在少數(shù)推理步驟內(nèi)合成深度圖。下面一起來閱讀一下這項工作~1.論文信息標題:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

拋棄編碼器-解碼器架構(gòu),用擴散模型做邊緣檢測效果更好,國防科大提出DiffusionEdge 拋棄編碼器-解碼器架構(gòu),用擴散模型做邊緣檢測效果更好,國防科大提出DiffusionEdge Feb 07, 2024 pm 10:12 PM

當前的深度邊緣檢測網(wǎng)絡(luò)通常采用編碼器-解碼器架構(gòu),其中包含上下采樣模塊,以更好地提取多層次的特征。然而,這種結(jié)構(gòu)限制了網(wǎng)絡(luò)輸出準確且細致的邊緣檢測結(jié)果。針對這一問題,一篇AAAI2024上的論文給出了新的解決方案。論文題目:DiffusionEdge:DiffusionProbabilisticModelforCrispEdgeDetection作者:葉云帆(國防科技大學(xué)),徐凱(國防科技大學(xué)),黃雨行(國防科技大學(xué)),易任嬌(國防科技大學(xué)),蔡志平(國防科技大學(xué))論文鏈接:https://ar

通義千問再開源,Qwen1.5帶來六種體量模型,性能超越GPT3.5 通義千問再開源,Qwen1.5帶來六種體量模型,性能超越GPT3.5 Feb 07, 2024 pm 10:15 PM

趕在春節(jié)前,通義千問大模型(Qwen)的1.5版上線了。今天上午,新版本的消息引發(fā)了AI社區(qū)關(guān)注。新版大模型包括六個型號尺寸:0.5B、1.8B、4B、7B、14B和72B。其中,最強版本的性能超越了GPT3.5和Mistral-Medium。該版本包含Base模型和Chat模型,并提供多語言支持。阿里通義千問團隊表示,相關(guān)技術(shù)也已經(jīng)上線到了通義千問官網(wǎng)和通義千問App。除此以外,今天Qwen1.5的發(fā)布還有如下一些重點:支持32K上下文長度;開放了Base+Chat模型的checkpoint;

你好,電動Atlas!波士頓動力機器人復(fù)活,180度詭異動作嚇壞馬斯克 你好,電動Atlas!波士頓動力機器人復(fù)活,180度詭異動作嚇壞馬斯克 Apr 18, 2024 pm 07:58 PM

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛剛「含淚」退出歷史舞臺,今天波士頓動力就宣布:電動Atlas上崗??磥?,在商用人形機器人領(lǐng)域,波士頓動力是下定決心要和特斯拉硬剛一把了。新視頻放出后,短短十幾小時內(nèi),就已經(jīng)有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發(fā)年。網(wǎng)友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?視頻一開始,Atlas平靜地躺在地上,看起來應(yīng)該是仰面朝天。接下來,讓人驚掉下巴

趕超Gemini Pro,提升推理、OCR能力的LLaVA-1.6太強了 趕超Gemini Pro,提升推理、OCR能力的LLaVA-1.6太強了 Feb 01, 2024 pm 04:51 PM

在去年4月,威斯康星大學(xué)麥迪遜分校、微軟研究院和哥倫比亞大學(xué)的研究者們聯(lián)合發(fā)布了LLaVA(LargeLanguageandVisionAssistant)。盡管LLaVA只是用一個小的多模態(tài)指令數(shù)據(jù)集進行訓(xùn)練,但在一些樣本上展現(xiàn)出了與GPT-4非常相似的推理結(jié)果。然后在10月,他們推出了LLaVA-1.5,通過對原始LLaVA進行簡單修改,在11個基準測試中刷新了SOTA。這次升級的結(jié)果非常令人振奮,為多模態(tài)AI助手領(lǐng)域帶來了新的突破。研究團隊宣布推出LLaVA-1.6版本,針對推理、OCR和

大模型也能切片,微軟SliceGPT讓LLAMA-2計算效率大增 大模型也能切片,微軟SliceGPT讓LLAMA-2計算效率大增 Jan 31, 2024 am 11:39 AM

大型語言模型(LLM)通常擁有數(shù)十億參數(shù),經(jīng)過數(shù)萬億token的數(shù)據(jù)訓(xùn)練。然而,這樣的模型訓(xùn)練和部署成本都非常昂貴。為了降低計算需求,人們常常采用各種模型壓縮技術(shù)。這些模型壓縮技術(shù)一般可以分為四類:蒸餾、張量分解(包括低秩因式分解)、剪枝和量化。剪枝方法已經(jīng)存在一段時間,但許多方法需要在剪枝后進行恢復(fù)微調(diào)(RFT)以保持性能,這使得整個過程成本高且難以擴展。蘇黎世聯(lián)邦理工學(xué)院和微軟的研究者提出了一個解決此問題的方法,名為SliceGPT。該方法的核心思想是通過刪除權(quán)重矩陣中的行和列來降低網(wǎng)絡(luò)的嵌

美國空軍高調(diào)展示首個AI戰(zhàn)斗機!部長親自試駕全程未干預(yù),10萬行代碼試飛21次 美國空軍高調(diào)展示首個AI戰(zhàn)斗機!部長親自試駕全程未干預(yù),10萬行代碼試飛21次 May 07, 2024 pm 05:00 PM

最近,軍事圈被這個消息刷屏了:美軍的戰(zhàn)斗機,已經(jīng)能由AI完成全自動空戰(zhàn)了。是的,就在最近,美軍的AI戰(zhàn)斗機首次公開,揭開了神秘面紗。這架戰(zhàn)斗機的全名是可變穩(wěn)定性飛行模擬器測試飛機(VISTA),由美空軍部長親自搭乘,模擬了一對一的空戰(zhàn)。5月2日,美國空軍部長FrankKendall在Edwards空軍基地駕駛X-62AVISTA升空注意,在一小時的飛行中,所有飛行動作都由AI自主完成!Kendall表示——在過去的幾十年中,我們一直在思考自主空對空作戰(zhàn)的無限潛力,但它始終顯得遙不可及。然而如今,

超級智能體生命力覺醒!可自我更新的AI來了,媽媽再也不用擔(dān)心數(shù)據(jù)瓶頸難題 超級智能體生命力覺醒!可自我更新的AI來了,媽媽再也不用擔(dān)心數(shù)據(jù)瓶頸難題 Apr 29, 2024 pm 06:55 PM

哭死啊,全球狂煉大模型,一互聯(lián)網(wǎng)的數(shù)據(jù)不夠用,根本不夠用。訓(xùn)練模型搞得跟《饑餓游戲》似的,全球AI研究者,都在苦惱怎么才能喂飽這群數(shù)據(jù)大胃王。尤其在多模態(tài)任務(wù)中,這一問題尤為突出。一籌莫展之際,來自人大系的初創(chuàng)團隊,用自家的新模型,率先在國內(nèi)把“模型生成數(shù)據(jù)自己喂自己”變成了現(xiàn)實。而且還是理解側(cè)和生成側(cè)雙管齊下,兩側(cè)都能生成高質(zhì)量、多模態(tài)的新數(shù)據(jù),對模型本身進行數(shù)據(jù)反哺。模型是啥?中關(guān)村論壇上剛剛露面的多模態(tài)大模型Awaker1.0。團隊是誰?智子引擎。由人大高瓴人工智能學(xué)院博士生高一釗創(chuàng)立,高

See all articles