最近一段時(shí)間,人工智能技術(shù)呈爆炸式發(fā)展,展現(xiàn)出的能力足以顛覆很多人的想象與世界觀。 4月初,Meta公司發(fā)布的名為“Segment Anything Model”(SAM)的通用AI大模型,號稱可以“零樣本分割一切”。也就是說,SAM能從照片或視頻圖像中對任意對象實(shí)現(xiàn)一鍵分割,并且能夠零樣本遷移到其他任務(wù)中。但是,和大多數(shù)“通用模型”(Foundation Model)一樣,SAM在很多任務(wù)上的表現(xiàn)也不全都完美。
近日,由 魔芯科技、浙江大學(xué)、湖州師范學(xué)院、新加坡科技設(shè)計(jì)大學(xué)(SUTD)、北京航空航天大學(xué)等多單位聯(lián)合發(fā)表國際學(xué)術(shù)論文,發(fā)現(xiàn)了SAM這一通用大模型在部分下游任務(wù)上的性能表現(xiàn)不佳,并首次提出了將任務(wù)特定知識和大模型SAM學(xué)到的通用知識和在下游任務(wù)中結(jié)合,進(jìn)行適應(yīng)調(diào)優(yōu)(而非重新訓(xùn)練)的方法。研究提出了一個(gè)輕量的Adapter框架將這些任務(wù)相關(guān)的知識輸入進(jìn)SAM中,以實(shí)現(xiàn)SAM在下游任務(wù)的針對性應(yīng)用。
這項(xiàng)研究成果開辟了利用大型預(yù)訓(xùn)練圖像模型在不同領(lǐng)域和工業(yè)應(yīng)用中進(jìn)行各種下游分割任務(wù)研究的新時(shí)代。它為研究人員和從業(yè)者提供了有價(jià)值的見解,展示了如何利用內(nèi)部知識和外部控制信號來適應(yīng)預(yù)訓(xùn)練模型,以在具有挑戰(zhàn)性的任務(wù)中實(shí)現(xiàn)最先進(jìn)的性能。該研究成果還為醫(yī)學(xué)圖像處理、自然科學(xué)、農(nóng)牧業(yè)、遙感等領(lǐng)域的應(yīng)用提供了新思路。 圖:魔芯科技攜多單位發(fā)表關(guān)于“分割一切模型SAM”的國際學(xué)術(shù)論文
AI人工智能研究已經(jīng)見證了一個(gè)由大規(guī)模海量數(shù)據(jù)上訓(xùn)練的模型所帶來的范式上的轉(zhuǎn)變。這些模型,或稱為基礎(chǔ)模型,如BERT、DALL-E和GPT-3,已經(jīng)在許多語言或視覺任務(wù)中顯示出有優(yōu)秀的結(jié)果。
在這些基礎(chǔ)模型中,Segment Anything Model(SAM)作為一個(gè)在大型視覺語料庫上訓(xùn)練的通用圖像分割模型取得了顯著的突破。事實(shí)證明,SAM在不同的場景下具有成功的分割能力,這使得它在圖像分割和計(jì)算機(jī)視覺的相關(guān)領(lǐng)域邁出了突破性的一步。
然而,由于計(jì)算機(jī)視覺包含了廣泛的問題,SAM的不完整性是顯而易見的,這與其他基礎(chǔ)模型類似,因?yàn)橛?xùn)練數(shù)據(jù)不能包含整個(gè)語料庫,工作場景也會有變化。在本研究中,作者首先在一些具有挑戰(zhàn)性的低層次結(jié)構(gòu)分割任務(wù)中測試SAM,包括偽裝物體檢測(隱蔽場景)和陰影檢測,作者發(fā)現(xiàn)在一般圖像上訓(xùn)練的SAM模型在這些情況下不能完美地 "分割任何東西",包括影子檢測、偽裝物體檢測等。
因此,一個(gè)關(guān)鍵的研究問題是:如何高效利用大型模型從大規(guī)模語料庫中獲得的能力,并利用它們使下游的任務(wù)受益?
在這項(xiàng)工作中,來自魔芯科技、浙江大學(xué)、新加坡科技設(shè)計(jì)大學(xué)等單位的研究者提出了SAM-Adapter,它是一個(gè)針對上述研究問題的優(yōu)秀解決方案。這項(xiàng)開創(chuàng)性的工作首次嘗試將大型預(yù)訓(xùn)練的圖像分割一切模型SAM適應(yīng)于特定的下游任務(wù),并提高其性能。正如其名,SAM-Adapter是一種非常簡單而有效的適應(yīng)技術(shù),可以同時(shí)利用來自大模型的內(nèi)部知識和針對下游任務(wù)設(shè)定的外部控制信號。在該方法中,信息是通過視覺提示傳達(dá)給網(wǎng)絡(luò)的,這已被證明了在用最少的額外可訓(xùn)練參數(shù),能高效地將一個(gè)凍結(jié)的大基礎(chǔ)模型適應(yīng)到許多下游任務(wù)工作。 圖:SAM-Adapter (Ours) 在偽裝物體檢測上的性能測試
這項(xiàng)工作率先證明了大規(guī)模海量數(shù)據(jù)訓(xùn)練給SAM帶來的特殊能力可以被應(yīng)用到其他數(shù)據(jù)領(lǐng)域。SAM-Adapter可以被用作這樣的遷移。作者在影子檢測、偽裝物體檢測等任務(wù)的數(shù)據(jù)上實(shí)現(xiàn)了超過已有算法的高性能(SOTA)表現(xiàn)。未來,我們相信SAM-Adapter作為一個(gè)通用框架,可以被應(yīng)用于更多不同領(lǐng)域的各種下游分割任務(wù)中,包括在醫(yī)學(xué)影像診斷、農(nóng)業(yè)、工業(yè)檢測等不同領(lǐng)域。 |
你可能喜歡
R460系列:面向終端生產(chǎn)的金屬3D打印設(shè)備
BigRep發(fā)布ONE.5大幅面FDM 3D打印機(jī),突破
產(chǎn)能提升50%!EOS發(fā)布P3 NEXT,一款更高效
Formnext 2024:DyeMansion推出新一代3D打
推薦課程
神奇的3D打印
SLA3D打印工藝全套培訓(xùn)課程 - 軟件篇
3D打印月球燈視頻教程 包括完整貼圖建模流
【原創(chuàng)發(fā)布】Cura軟件修改二次開發(fā)定制視頻