近年來,隨著大規(guī)模訓(xùn)練數(shù)據(jù)和先進(jìn)機(jī)器學(xué)習(xí)、深度學(xué)習(xí)算法的發(fā)展,三維目標(biāo)檢測的整體性能有了巨大的提高,三維目標(biāo)檢測也廣泛應(yīng)用于重建建筑物的建筑模型、自動駕駛、人臉檢測、歷史遺址保留、虛擬現(xiàn)實(shí)游戲等行業(yè)。
三維目標(biāo)檢測的數(shù)據(jù)表示形式有多種,例如RGB圖像、立體像素化圖像、多邊形網(wǎng)格以及點(diǎn)云等。隨著硬件設(shè)備性能的提升與人工智能技術(shù)的飛速發(fā)展,越來越多的領(lǐng)域開始使用激光雷達(dá)采集到的點(diǎn)云進(jìn)行三維空間的場景理解,如自動駕駛、增強(qiáng)現(xiàn)實(shí)等,雷達(dá)點(diǎn)云不易受到外界因素的影響,具有較強(qiáng)的抗干擾能力且測距精度較高。而相機(jī)采集到的RGB圖像卻具有豐富的紋理信息和豐富的色彩,但是圖像是缺乏深度的二維信息,存在由遠(yuǎn)及近的尺度問題,可以看出圖像數(shù)據(jù)與點(diǎn)云數(shù)據(jù)各有優(yōu)劣。
WIMI微美全息(NASDAQ:WIMI)開發(fā)了基于圖像和點(diǎn)云融合的三維目標(biāo)檢測算法系統(tǒng)。以RGB 圖像和含深度信息的點(diǎn)云數(shù)據(jù)為輸入數(shù)據(jù),對三維空間中的目標(biāo)進(jìn)行分類和定位,再經(jīng)過一系列的特征提取、實(shí)例分割、3D框估計(jì)等操作,將圖像和點(diǎn)云融合,利用多任務(wù)的相互增益,,大大提升三維目標(biāo)檢測準(zhǔn)確率。
首先處理圖像和點(diǎn)云數(shù)據(jù),提取各自的特征,將特征輸入到檢測方法的不同階段以進(jìn)行3D邊界框預(yù)測,提取出對應(yīng)的目標(biāo)數(shù)據(jù)。每個物體對應(yīng)一個視錐體點(diǎn)云;其次,將每個物體的視錐體點(diǎn)云做為掩膜預(yù)測的輸入數(shù)據(jù),獲得預(yù)測的物體掩膜,并利用物體掩膜結(jié)果投影至點(diǎn)云空間再形成視錐進(jìn)行3D實(shí)例分與3D框估計(jì),可有效地減小了場景中嘈雜點(diǎn)云對目標(biāo)檢測的影響。然后將最后層的特征連接在一起送入決策層進(jìn)行特征融合和目標(biāo)檢測。為了精確地定位物體的3D位置,可以通過將點(diǎn)云數(shù)據(jù)中的點(diǎn)投影至圖像平面來建立點(diǎn)和像素的關(guān)聯(lián),然后將圖像特征融合入每個點(diǎn)中。將圖像RGB特征融入點(diǎn)云數(shù)據(jù)在一定程度上是能夠起到正向提升的效果,有效提升三維目標(biāo)檢測的精度。
隨著三維數(shù)據(jù)獲取技術(shù)的進(jìn)步、計(jì)算能力的增強(qiáng)、深度學(xué)習(xí)技術(shù)的發(fā)展以及應(yīng)用需求的增加,三維視覺技術(shù)的研究和應(yīng)用受到越來越多的關(guān)注。目前,三維目標(biāo)檢測技術(shù)已經(jīng)成為計(jì)算機(jī)視覺和自動駕駛領(lǐng)域的核心技術(shù)之一,與二維目標(biāo)檢測技術(shù)相比,在三維空間中進(jìn)行目標(biāo)的位姿估計(jì)對于實(shí)際應(yīng)用場景更加重要。三維目標(biāo)檢測與識別是三維場景理解的關(guān)鍵技術(shù),是機(jī)器理解世界并與世界交互的基礎(chǔ),在自動駕駛、智能機(jī)器人、智慧交通、自主導(dǎo)航等領(lǐng)域具有極其廣闊的應(yīng)用前景,WIMI微美全息也將不斷拓展其基于圖像和點(diǎn)云融合的三維目標(biāo)檢測算法的運(yùn)用領(lǐng)域。
請輸入驗(yàn)證碼