3D重建是計算機視覺中的一個核心問題,應(yīng)用于電影制作、視頻游戲的內(nèi)容制作、虛擬現(xiàn)實和增強現(xiàn)實、3D打印,等等。伯克利大學(xué)的研究團隊提出根據(jù)單張彩色平面圖像重建出高質(zhì)量的3D幾何圖形的新方法,相比其他基線方法效果更好,也就是我們平時說的3d打印照片建模。
從平面圖像重建3D幾何圖形是計算機視覺中的一個核心問題。3D重建有許多應(yīng)用,例如電影制作、視頻游戲的內(nèi)容制作、虛擬現(xiàn)實和增強現(xiàn)實、3D打印,等等。這篇文章探討如何從單一的彩色圖像重建高質(zhì)量的3D幾何圖形,如下圖所示: 人類毫不費勁就能理解物體和場景的形狀,哪怕我們看到的只是一張平面圖像。我們雙眼的結(jié)構(gòu)讓我們能夠感知深度,并不需要理解3D幾何。即使我們只看到一個物體的照片,我們也能對它的形狀有很好的理解。此外,我們還能夠理解例如物體背面的看不見的部分,這是了解物體形狀的重要能力。那么,人類是如何根據(jù)單個圖像推理其幾何形狀的呢?在人工智能方面提出的問題是:我們可以怎樣教會機器這樣的能力? 形狀空間
從不明確的輸入重建幾何形狀的基本原理是,幾何形狀不是任意的,因此有些形狀更可能,有些則非常不可能。一般來說,表面都是光滑的。在人造環(huán)境中,它們通常是分段的平面。例如,飛機通常有一個機身,機身兩側(cè)有兩個主翼,后方有一個垂直尾翼。人類能夠通過眼睛觀察世界,并動手與世界互動來獲取這樣的只是。在計算機視覺中,形狀不是任意的這一事實允許我們將一個對象類或多個對象類的所有可能形狀描述為一個低維的形狀空間(low dimensional shape space),這是從大量示例形狀獲取的。
使用CNN進行體素預(yù)測
3D重建方面的一項最新工作[Choy et al. ECCV 2016, Girdhar et al. ECCV 2016]利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)將物體的形狀預(yù)測為一個3D體積。作為輸出的3D體積被細分為體積元素,稱為體素(voxel),每個體素被確定為被占用或空著(即,分別屬于物體的內(nèi)部或外部)。輸入通常是一張彩色圖片,CNN使用一個上卷積解碼器架構(gòu)來預(yù)測占用體積(occupancy volume)。網(wǎng)絡(luò)被端到端地訓(xùn)練,并且由已知的真實占用體積進行監(jiān)督,這些占用是從合成CAD模型數(shù)據(jù)集中獲取的。使用這種3D表示和CNN,可以學(xué)習(xí)能夠適用各種對象類的模型。
分層進行表面預(yù)測
使用CNN預(yù)測占用體積的主要缺點是輸出的空間是三維的,因此它的分辨率具有指數(shù)函數(shù)級的增長(cubic growth)。這個問題限制了上述工作預(yù)測高質(zhì)量的幾何形狀,因此產(chǎn)生的是分辨率非常粗糙的體素網(wǎng)格( voxel grids),例如32³(上圖)。在我們的工作中,我們認為這是一個不必要的限制因素,因為圖形的表面實際上只是二維的。我們利用表面的二維性質(zhì),通過分層預(yù)測高分辨率體素,根據(jù)低分辨率的預(yù)測結(jié)果來推測表面。這個想法與八叉樹表示(octree representation)密切相關(guān),八叉樹通常用于多視角立體視覺和深度圖融合(depth map fusion)來表示高分辨率的幾何形狀。
方法
基本的3D預(yù)測流程是將一張彩色圖像作為輸入,使用卷積編碼器將其先編碼為低維表示。然后,這個低維表示被解碼稱一個3D占用體積。我們的方法的主要想法被稱為分層表面預(yù)測(hierarchical surface prediction,HSP),是通過預(yù)測低分辨率體素開始解碼。但是,與一般的方法相反,每個體素都被分類為自由空間(free space)或占用空間(occupied space),我們使用3個類:自由空間、占用空間和邊界。這允許我們以低分辨率分析輸出,并且只在有證據(jù)表明該輸出包含表面時預(yù)測該部分體積的更高分辨率。通過迭代這個細化的過程,我們可以分層第預(yù)測高分辨率體素網(wǎng)格(見下圖)。該方法的更多細節(jié),請讀者閱讀技術(shù)論文。實驗
我們的實驗主要是在合成的ShapeNet數(shù)據(jù)集上進行的[Chang et al. arXiv 2015]。我們的研究的主要任務(wù)是根據(jù)單一的彩色圖像預(yù)測出高分辨率的3D圖形。我們將我們的方法與我們稱為low resolution hard(LR hard)和 low resolution soft(LR soft)的兩個基線進行比較。這些基線以相同的低分辨率32³進行預(yù)測,但訓(xùn)練數(shù)據(jù)的生成方式不同。LR hard 基線使用體素的二進制分配。如果相應(yīng)的高分辨率體素中的至少一個被占用,則所有體素被標(biāo)記為被占用。LR soft基線使用分數(shù)賦值,反映相應(yīng)高分辨率體素中占用體素的百分比。我們的HSP方法以256³的分辨率進行預(yù)測。下圖中的結(jié)果顯示了與低分辨率基線相比,在生成3D圖形的表面質(zhì)量和高分辨率預(yù)測的完整性方面的好處。我們的論文中討論了更多實驗和定量結(jié)果。 以上文章轉(zhuǎn)自新智元
|
全部評論1
你可能喜歡
開源3D建模軟件FreeCAD 1.0正式發(fā)布,支持W
人工智能與3D打印技術(shù)結(jié)合,實現(xiàn)小型核反應(yīng)
最新《Nature》:動態(tài)界面3D打印
石墨烯增強混凝土能否推動可持續(xù)建筑? UVA
推薦課程
神奇的3D打印
SLA3D打印工藝全套培訓(xùn)課程 - 軟件篇
3D打印月球燈視頻教程 包括完整貼圖建模流
【原創(chuàng)發(fā)布】Cura軟件修改二次開發(fā)定制視頻