AI是構(gòu)建元宇宙的關(guān)鍵底層技術(shù),本文從數(shù)字孿生的角度出發(fā),闡述AI如何賦能物理世界和數(shù)字世界的連接,將物理世界的“人、物、場(chǎng)”映射到數(shù)字世界,實(shí)現(xiàn)實(shí)時(shí)映射、動(dòng)態(tài)交互。我們將映射過程分為宏觀和微觀兩層次,其中物、場(chǎng)等三維環(huán)境為宏觀層面,基于三維重建技術(shù)實(shí)現(xiàn)映射;人的動(dòng)作細(xì)節(jié)為微觀層面,借助動(dòng)捕技術(shù)完成映射。跨過2012深度學(xué)習(xí)元年,計(jì)算機(jī)視覺高速發(fā)展也驅(qū)動(dòng)了基于視覺的三維重建和動(dòng)捕路線的成熟,我們預(yù)計(jì)基于視覺的AI有望降低數(shù)字孿生生態(tài)的門檻,提速虛實(shí)相生進(jìn)程。
摘要
底層技術(shù):計(jì)算機(jī)視覺的進(jìn)步為元宇宙的數(shù)字孿生應(yīng)用打下堅(jiān)實(shí)基礎(chǔ)。計(jì)算機(jī)視覺作為數(shù)字孿生的重要技術(shù)基礎(chǔ),在經(jīng)歷了深度學(xué)習(xí)和Transformer大模型的兩輪潮流后智能程度和可用性大大增強(qiáng),被廣泛應(yīng)用在各種領(lǐng)域。大模型以較高的智能程度和較低的邊際生產(chǎn)成本成為主流趨勢(shì),也強(qiáng)化了基于視覺的三維重建和動(dòng)作捕捉技術(shù),使得數(shù)字孿生趨于成熟。
實(shí)現(xiàn)路徑:深度學(xué)習(xí)與傳統(tǒng)路線實(shí)現(xiàn)互補(bǔ),分別從宏觀和微觀連接物理世界和數(shù)字世界:1)三維重建領(lǐng)域,CNN(卷積神經(jīng)網(wǎng)絡(luò))能從數(shù)據(jù)標(biāo)注和修復(fù)、算法的優(yōu)化等多方面對(duì)模型質(zhì)量進(jìn)行優(yōu)化,解決傳統(tǒng)方法精度和算力不足的問題,商湯等科技企業(yè)正在基于AI的三維重建領(lǐng)域探索商業(yè)化應(yīng)用;2)動(dòng)作捕捉領(lǐng)域,傳統(tǒng)動(dòng)作捕捉方法在電影、游戲制作等工業(yè)級(jí)場(chǎng)景下較為成熟,但存在成本高、環(huán)境要求嚴(yán)苛等問題。AI+光學(xué)式動(dòng)捕近年來逐漸成熟,目前英特爾、商湯等科技企業(yè)已在該領(lǐng)域積極探索低成本的AI動(dòng)捕;國(guó)內(nèi)廠商在該領(lǐng)域百花爭(zhēng)鳴,推動(dòng)著AI+光學(xué)式動(dòng)捕進(jìn)入新的階段,我們認(rèn)為,未來國(guó)內(nèi)廠商在該領(lǐng)域的技術(shù)和應(yīng)用落地方面有望和國(guó)際廠商對(duì)標(biāo)。
未來展望:我們認(rèn)為計(jì)算機(jī)視覺未來有望實(shí)現(xiàn)更高程度的自動(dòng)化、高精度和低功耗,進(jìn)一步豐富元宇宙的內(nèi)容生態(tài),降低進(jìn)入門檻。計(jì)算機(jī)視覺的進(jìn)步引領(lǐng)了三維重建和動(dòng)捕技術(shù)快速成熟,并逐漸在各自的領(lǐng)域積累技術(shù)進(jìn)步。我們認(rèn)為計(jì)算機(jī)視覺未來有望迎來進(jìn)一步發(fā)展:1)更高程度的自動(dòng)化,如AI自動(dòng)合成仿真數(shù)據(jù)以解決長(zhǎng)尾場(chǎng)景問題;2)更高的精度,如AI的智能圖像降噪;3)更低的功耗,逐漸在移動(dòng)端實(shí)現(xiàn)更好的視覺效果,被應(yīng)用在大量下游行業(yè),逐漸邁向連接物理世界和數(shù)字世界的長(zhǎng)期愿景。
風(fēng)險(xiǎn)
AI技術(shù)進(jìn)步不及預(yù)期;動(dòng)作捕捉、三維重建等落地應(yīng)用進(jìn)度不及預(yù)期。
正文
概述:AI助力物理和數(shù)字世界的映射與交互,視覺為基
實(shí)現(xiàn)從物理世界到數(shù)字世界的映射和連接是元宇宙的重要環(huán)節(jié)之一。在《元宇宙系列研究:元宇宙系列之AI+數(shù)字原生:AIGC涌?jī)?nèi)容生成之浪,NLP筑智能交互之基》中,我們圍繞AI賦能數(shù)字世界,以數(shù)字原生為中心,本篇?jiǎng)t從數(shù)字孿生的角度出發(fā),分析AI在物理世界到數(shù)字世界的映射中起到的作用。本篇報(bào)告分為技術(shù)基礎(chǔ)、宏觀、微觀和未來展望四個(gè)部分,希望從宏觀和微觀兩個(gè)部分,分析AI如何助力將物理世界的人、物、場(chǎng)映射到數(shù)字世界,其中“物”和“場(chǎng)”即三維環(huán)境屬于宏觀層面,“人”的細(xì)節(jié)屬于微觀層面。
圖表:AI賦能元宇宙報(bào)告框架比較,本篇立足數(shù)字孿生(三維重建+動(dòng)作捕捉)
資料來源:Google官網(wǎng),OpenAI官網(wǎng),浪潮信息,天智融合,臻圖信息,虛擬主播公司“彩虹社”,Babylon.js,Vfxexpress online media,Digital Spy,中金公司研究部
技術(shù)底層基礎(chǔ):計(jì)算機(jī)視覺(CV)為元宇宙的數(shù)字孿生的底層支撐
高真實(shí)度的三維視覺內(nèi)容與實(shí)時(shí)的交互是元宇宙沉浸感的重要來源。根據(jù)著名心理學(xué)家赤瑞特拉的大量實(shí)驗(yàn),人類獲取的外界信息約80%來源于視覺。我們認(rèn)為,視覺領(lǐng)域是實(shí)現(xiàn)元宇宙的真實(shí)感和沉浸感的關(guān)鍵,元宇宙需要將物理世界的動(dòng)作以視覺內(nèi)容的形式復(fù)現(xiàn)到數(shù)字世界中,進(jìn)而實(shí)現(xiàn)實(shí)時(shí)的交互。
計(jì)算機(jī)視覺連接了真實(shí)世界與數(shù)字世界,AI輔助的數(shù)字孿生或?qū)⑹侵匾肪€。元宇宙需要超大規(guī)模的三維視覺內(nèi)容生產(chǎn),目前視頻領(lǐng)域的PGC、UGC模式效率較低,而全自動(dòng)建模和渲染生產(chǎn)的內(nèi)容暫時(shí)存在真實(shí)度瓶頸,難以直接應(yīng)用到游戲、電影中。借助AI完成三維重建和動(dòng)作捕捉等技術(shù),復(fù)刻現(xiàn)實(shí)世界的環(huán)境和動(dòng)作,我們認(rèn)為或?qū)⑹俏磥淼闹匾肪€。
深度學(xué)習(xí)引領(lǐng)計(jì)算機(jī)視覺高速發(fā)展,Transformer為CV注入通用智能
深度學(xué)習(xí)是人工智能的里程碑,卷積神經(jīng)網(wǎng)絡(luò)(CNN)是計(jì)算機(jī)視覺(CV)的主流技術(shù)。計(jì)算機(jī)視覺起源于上世紀(jì)六十年代,主要被應(yīng)用于圖像分類、對(duì)象檢測(cè)、目標(biāo)跟蹤、語(yǔ)義分割和實(shí)例分割任務(wù)。但依賴“手工特征”+“機(jī)器學(xué)習(xí)分類”來完成識(shí)別、檢測(cè)等任務(wù)的計(jì)算機(jī)視覺方法,其準(zhǔn)確率一直難以提升到商用的標(biāo)準(zhǔn),因此在業(yè)界沉寂了很長(zhǎng)一段時(shí)間。2012年深度學(xué)習(xí)興起后,其效果遠(yuǎn)強(qiáng)于以往的計(jì)算機(jī)視覺模型,從此卷積神經(jīng)網(wǎng)絡(luò)(CNN)成為各類計(jì)算機(jī)視覺任務(wù)的主導(dǎo)模型。
Transformer大模型2017年由谷歌在NLP領(lǐng)域提出,后來跨界進(jìn)入CV領(lǐng)域,樹立新的里程碑。2017年谷歌提出Transformer模型,其并行化的語(yǔ)言處理方式使得并行計(jì)算效率大幅提升,解決了CNN只能依據(jù)詞語(yǔ)順序處理的問題,并在此后推出GPT-3(第三代Transformer模型)這樣的大參數(shù)量模型,利用大數(shù)據(jù)集提升了模型的智能程度。2020年谷歌提出視覺Transformer模型(ViT),其在ImageNet-1K評(píng)測(cè)集上取得了88.55%的準(zhǔn)確率并刷新榜單紀(jì)錄,學(xué)界才逐漸意識(shí)到Transformer不僅適用于NLP領(lǐng)域,也有望在CV領(lǐng)域發(fā)揮作用。
圖表:計(jì)算機(jī)視覺技術(shù)發(fā)展歷史
資料來源:AI科技評(píng)論,京東科技,微軟亞洲研究院,中金公司研究部
技術(shù)細(xì)分領(lǐng)域:三維重建和動(dòng)作捕捉分別提供宏微觀的虛實(shí)連接
數(shù)字孿生興起于工業(yè)領(lǐng)域,指以3D數(shù)字化的方式將物理世界引入數(shù)字世界。目前,數(shù)字孿生這一概念主要指通過數(shù)字化、知識(shí)機(jī)理等技術(shù)構(gòu)建數(shù)字模型,利用物聯(lián)網(wǎng)等技術(shù)從真實(shí)物理世界轉(zhuǎn)換而來的通用數(shù)據(jù),依托AR/VR/MR/GIS等技術(shù)將物理實(shí)體復(fù)現(xiàn)在數(shù)字世界中。憑借創(chuàng)建的虛擬實(shí)體中的歷史數(shù)據(jù)、實(shí)時(shí)數(shù)據(jù)和算法模型等,通過人工智能、云計(jì)算、大數(shù)據(jù)等技術(shù)加持,對(duì)物理實(shí)體進(jìn)行模擬、驗(yàn)證、預(yù)測(cè)、控制全生命周期過程的智能決策,最終賦能于各垂直行業(yè)。
數(shù)字孿生是數(shù)字化的高階階段,人工智能是數(shù)字孿生生態(tài)的底層關(guān)鍵技術(shù)。我們認(rèn)為,隨著人工智能、大數(shù)據(jù)、物聯(lián)網(wǎng)等技術(shù)加速賦能傳統(tǒng)建模仿真技術(shù),在可以想象的未來,數(shù)字孿生將在虛擬世界創(chuàng)建與真實(shí)物理世界實(shí)時(shí)聯(lián)動(dòng)的資源優(yōu)化配置體系,在制造、建筑、醫(yī)療、城市管理等各個(gè)領(lǐng)域發(fā)揮重要作用。人工智能是發(fā)展數(shù)字孿生的底層關(guān)鍵技術(shù)之一,主要貢獻(xiàn)在于海量數(shù)據(jù)的處理以及系統(tǒng)的自我迭代優(yōu)化兩方面,保證整個(gè)數(shù)字孿生系統(tǒng)有序運(yùn)行。
圖表:數(shù)字孿生應(yīng)用于跨江大橋建設(shè)
資料來源:數(shù)據(jù)工匠俱樂部,中金公司研究部
圖表:數(shù)字孿生應(yīng)用于自動(dòng)駕駛測(cè)試
資料來源:清華大學(xué)蘇州汽車研究院,中金公司研究部
在數(shù)字孿生的過程中,三維建模與動(dòng)作捕捉技術(shù)分別從宏觀和微觀兩個(gè)角度建立連接物理與數(shù)字世界的基礎(chǔ)。宏觀層面,建模能將物理世界環(huán)境、系統(tǒng)等的形狀、位置、接口、數(shù)據(jù)、狀態(tài)等搭建為可以運(yùn)行的模型,動(dòng)捕則能在微觀層面將人類或動(dòng)物的實(shí)際運(yùn)動(dòng)轉(zhuǎn)化為計(jì)算機(jī)可識(shí)別分析的數(shù)據(jù)形式并進(jìn)一步體現(xiàn)在虛擬世界中。動(dòng)捕和建模分別將真實(shí)世界中的微觀與宏觀投射到虛擬世界當(dāng)中,是基于現(xiàn)實(shí)世界構(gòu)建元宇宙的技術(shù)基礎(chǔ)。
三維重建:從宏觀上重構(gòu)物理世界的三維空間
技術(shù)基礎(chǔ):三維重建是實(shí)現(xiàn)宏觀層面數(shù)字孿生的重要手段,AI引領(lǐng)技術(shù)突破桎梏
三維重建是數(shù)字孿生的虛實(shí)結(jié)合關(guān)鍵技術(shù),是將物理世界宏觀部分中“場(chǎng)”和“物”的對(duì)象映射到元宇宙實(shí)現(xiàn)數(shù)字孿生的過程。數(shù)字孿生中的建模指的是利用多學(xué)科知識(shí),將真實(shí)世界中的目標(biāo)物體表達(dá)為計(jì)算機(jī)所能識(shí)別的數(shù)字化模型,可以理解為對(duì)真實(shí)物理世界的問題進(jìn)行簡(jiǎn)化和模型化。數(shù)字孿生建??梢詫?shí)現(xiàn)對(duì)目標(biāo)對(duì)象全方面特征的刻畫,從而能夠在虛擬世界中模擬物理世界中的行為,對(duì)未來發(fā)展趨勢(shì)進(jìn)行預(yù)測(cè)和分析。
傳統(tǒng)三維重建路線成熟,人工智能帶來互補(bǔ)優(yōu)勢(shì)
三維重建經(jīng)過數(shù)十年的發(fā)展, 傳統(tǒng)方法已經(jīng)具備成熟路線。基于視覺的三維重建主要指在利用儀器獲得目標(biāo)物體二維圖像數(shù)據(jù)后,通過一系列分析處理,根據(jù)相關(guān)理論重建出真實(shí)物理世界的物體信息。3D建模具有高速、實(shí)時(shí)性等特點(diǎn),在機(jī)器人、VR、3D打印、SLAM (Simultaneous localization and mapping)等領(lǐng)域廣泛應(yīng)用。其分類方法如下圖所示:
圖表:三維重建傳統(tǒng)技術(shù)路徑一覽
資料來源:《基于視覺的三維重建關(guān)鍵技術(shù)研究綜述》(鄭太雄等,2020),中金公司研究部
傳統(tǒng)3D建模的主流路線包括主動(dòng)式的結(jié)構(gòu)光法、TOF技術(shù)、雷達(dá)技術(shù)等和被動(dòng)式的單目/雙目/多目視覺法、區(qū)域/特征視覺法、機(jī)器學(xué)習(xí)法等。傳統(tǒng)3D建模主要分為基于主動(dòng)視覺和基于被動(dòng)視覺兩種路線:1)基于主動(dòng)視覺的3D建模技術(shù)主要是通過傳感器向物體照射不同種類的信號(hào),并根據(jù)返回信號(hào)解析獲得物體信息;2)基于被動(dòng)視覺的3D建模技術(shù)主要是直接依靠周圍光源,根據(jù)多視圖幾何原理進(jìn)行逆向工程建模,從而獲得目標(biāo)物體的三維信息。
圖表:傳統(tǒng)主動(dòng)與被動(dòng)視覺法各有優(yōu)劣勢(shì)與適用場(chǎng)景
資料來源:3D視覺工坊,中金公司研究部
基于計(jì)算機(jī)視覺的3D建模與傳統(tǒng)方法能夠優(yōu)勢(shì)互補(bǔ),并在使用深度學(xué)習(xí)算法改良后取得顯著突破。CNN運(yùn)用于圖像特征匹配具備能夠適用于高維圖像數(shù)據(jù)、高效提取特征、大幅減少參數(shù)等優(yōu)勢(shì),因此這一領(lǐng)域涌現(xiàn)出了諸多研究。
圖表:深度學(xué)習(xí)應(yīng)用于定位與建圖的模型示例
資料來源:A Survey on Deep Learning for Localization and Mapping: Towards the Age of Spatial Machine Intelligence,C Chen,B Wang,CX Lu,N Trigoni,A Markham,2020,中金公司研究部
相比多視圖幾何建模,基于視覺的深度學(xué)習(xí)路線能夠?qū)崿F(xiàn)更高的上限。從原理上來說,與計(jì)算機(jī)幾何建模不同,深度學(xué)習(xí)使用類似人類基于大腦的3D建模方式,基于各類信息直接進(jìn)行三維重建。基于深度學(xué)習(xí)算法的三維重建的數(shù)據(jù)格式目前主要分為三種:1)體素(voxel),與2D中像素相對(duì)應(yīng)的3D體積像素概念;2)點(diǎn)云(point cloud),由含有三維坐標(biāo)、色彩、反射強(qiáng)度信息的點(diǎn)構(gòu)成;3)網(wǎng)格(mesh),一種便于計(jì)算的多邊形網(wǎng)格。
圖表:深度學(xué)習(xí)三維重建的三類輸入信息示意圖
資料來源:CVPR,中金公司研究部
人工智能為三維重建行業(yè)的各個(gè)環(huán)節(jié)均帶來了優(yōu)化提升,包括預(yù)處理、重建和數(shù)據(jù)應(yīng)用。1)預(yù)處理環(huán)節(jié),傳統(tǒng)三維重建受原始數(shù)據(jù)色彩、明暗不均勻的因素影響導(dǎo)致色彩差異大、紋理模糊,AI可以自動(dòng)修復(fù)原始數(shù)據(jù),提升三維模型質(zhì)量;2)傳統(tǒng)三維建模由于對(duì)各種實(shí)體元素用同一種方式處理,會(huì)導(dǎo)致“鬼影”、水面缺失等問題,AI可以對(duì)水面、路標(biāo)等重建難度大的元素智能識(shí)別并采用針對(duì)性的算法重建,以實(shí)現(xiàn)重建模型質(zhì)量提升;3)人工智能能自動(dòng)監(jiān)測(cè)變化的場(chǎng)景區(qū)域,并對(duì)變化趨勢(shì)進(jìn)行分析,將場(chǎng)景要素的變化融入進(jìn)去。
應(yīng)用實(shí)例:頭部軟件廠商布局,國(guó)內(nèi)處落地初期,聚焦建筑和醫(yī)療
AI解決穩(wěn)定性與實(shí)時(shí)性問題,龍頭紛紛布局
AI有望解決三維重建的應(yīng)用過程中的穩(wěn)定性和實(shí)時(shí)性問題。實(shí)際進(jìn)行三維重建的相關(guān)應(yīng)用如SLAM實(shí)時(shí)定位、AR導(dǎo)航的過程中,常常面臨兩大問題,一是穩(wěn)定性,二是實(shí)時(shí)性。SLAM定位能夠在紋理信息豐富的區(qū)域穩(wěn)定工作,但是部分區(qū)域沒有足夠的紋理信息,或者存在相似的重復(fù)紋理,以及光線等外界條件也會(huì)干擾采集到的紋理信息,這會(huì)干擾系統(tǒng)的穩(wěn)定性。此外,在低功耗的移動(dòng)設(shè)備上實(shí)時(shí)計(jì)算、匹配城市級(jí)場(chǎng)景等大規(guī)模數(shù)據(jù)的難度也很高。
圖表:視覺SLAM的關(guān)鍵挑戰(zhàn)以及對(duì)應(yīng)解決思路
資料來源:商湯科技公眾號(hào),中金公司研究部
AI結(jié)合5G、邊緣計(jì)算等技術(shù)有望解決SLAM實(shí)時(shí)定位的精度和穩(wěn)定性問題。以商湯科技研發(fā)的SenseSLAM為例,計(jì)算方式上結(jié)合云、邊、端,通過各類傳感器(各類攝像機(jī)、GPS數(shù)據(jù)、慣性測(cè)量單元等)融合的數(shù)據(jù)預(yù)先完成場(chǎng)景的三維重建,結(jié)合云、邊算力進(jìn)行光照估計(jì)、真實(shí)感渲染、遮擋處理等進(jìn)一步大尺度虛實(shí)融合處理,最后將處理好的高精度地圖儲(chǔ)存在云端。在實(shí)際使用時(shí),再向終端傳輸高精度地圖數(shù)據(jù)以優(yōu)化終端的SLAM結(jié)果,從而實(shí)現(xiàn)低功耗設(shè)備在大空間內(nèi)高精度定位。
圖表:AI結(jié)合5G、邊緣計(jì)算解決SLAM實(shí)時(shí)定位的精度和穩(wěn)定性問題
資料來源:商湯科技公眾號(hào),中金公司研究部
商湯科技自主研發(fā)的SenseMARS火星混合現(xiàn)實(shí)平臺(tái),能基于低成本的AI視覺,實(shí)現(xiàn)室內(nèi)外精準(zhǔn)定位和AR導(dǎo)航。商湯科技SenseMARS能夠?qū)崿F(xiàn)室內(nèi)、室外等多種場(chǎng)景的AR特效、導(dǎo)航、導(dǎo)覽等功能,支持高精度的數(shù)字化地圖3D重構(gòu),可以在安卓、iOS、Web、小程序等多種系統(tǒng)和手機(jī)、平板電腦、XR設(shè)備等多種設(shè)備上實(shí)現(xiàn)三維空間定位。SenseMARS由商湯視覺實(shí)驗(yàn)室和浙江大學(xué)聯(lián)合研發(fā),其地圖數(shù)據(jù)來源于各類傳感器,可以基于單節(jié)點(diǎn)服務(wù)器,在一小時(shí)內(nèi)采集約2萬平方米的場(chǎng)景數(shù)據(jù),并實(shí)現(xiàn)厘米級(jí)精度的三維重建,同時(shí)正確處理遮擋、碰撞等人機(jī)交互場(chǎng)景。
結(jié)合AI對(duì)位置、軌跡、交通、地塊等數(shù)據(jù)進(jìn)行智能分析,騰訊WeMap三維重建引擎融合各類信息,并生成高精度的三維地圖,并廣泛應(yīng)用于城市、交通、商業(yè)、環(huán)境等業(yè)務(wù)場(chǎng)景。過去三維數(shù)據(jù)采集和處理常常遇到分塊接邊處理困難、重建速度慢、各類數(shù)據(jù)融合過程繁雜等問題。騰訊WeMap能夠高效重建大規(guī)模數(shù)據(jù),其通過智能紋理算法避免光照帶來的陰影混亂,使得三維地圖的色彩過渡更加均勻。結(jié)合騰訊過去在地圖領(lǐng)域的案例積累,WeMap能夠構(gòu)建實(shí)時(shí)的三維地圖數(shù)據(jù),并在此基礎(chǔ)上提供各類應(yīng)用和服務(wù)。騰訊WeMap由五大產(chǎn)品構(gòu)成,包括數(shù)據(jù)工廠、數(shù)據(jù)管理平臺(tái)、智能分析平臺(tái)、可視化平臺(tái)、產(chǎn)業(yè)地圖服務(wù)平臺(tái),其中數(shù)據(jù)工廠和數(shù)據(jù)管理平臺(tái)是底座,三大服務(wù)平臺(tái)為客戶提供各種應(yīng)用服務(wù),包括空間分析、時(shí)間模擬、融合位置服務(wù)、路況調(diào)度等。
圖表:騰訊WeMap與三維重建能力
資料來源:全球地理信息開發(fā)者大會(huì),中金公司研究部
三維重建市場(chǎng)廣闊,海外大型軟件公司紛紛切入
三維重建行業(yè)暫時(shí)未進(jìn)入技術(shù)突破帶來的需求爆發(fā)階段,市場(chǎng)規(guī)模較小、增速較慢。根據(jù)知名咨詢機(jī)構(gòu)Market Research Future(MRFR)的估算,2022年全球三維重建行業(yè)市場(chǎng)規(guī)模約為8.4億美元,預(yù)計(jì)2021-2028年CAGR為14.1%,預(yù)計(jì)2028年達(dá)到約18.6億美元,市場(chǎng)增長(zhǎng)的主要驅(qū)動(dòng)力來源于建筑、醫(yī)療保健行業(yè)對(duì)于三維重建技術(shù)的需求增加,此外,三維重建技術(shù)也被應(yīng)用于汽車、國(guó)防、工業(yè)、娛樂等領(lǐng)域。三維重建技術(shù)的主導(dǎo)區(qū)域?yàn)楸泵篮蜌W洲,但中國(guó)也出現(xiàn)了四維時(shí)代、眾趣科技、如視、旭東數(shù)字、EDDA健康科技等頭部企業(yè)。
圖表:三維重建行業(yè)的行業(yè)分類、頭部企業(yè)、市場(chǎng)規(guī)模概況
資料來源:Market Research Future,中金公司研究
海外數(shù)字原生領(lǐng)域龍頭企業(yè)逐漸切入三維重建行業(yè)以豐富產(chǎn)品線:1)Autodesk:如創(chuàng)立于1982年的Autodesk從CAD軟件起家,產(chǎn)品主要下游應(yīng)用領(lǐng)域包括建筑、制造、媒體、教育和娛樂行業(yè),此后切入三維重建領(lǐng)域;2)Bentley:其擁有4,500余名員工,服務(wù)于186個(gè)國(guó)家/地區(qū),年收入逾10億美元。Bentley旗下的ContextCapture軟件將三維重建技術(shù)應(yīng)用于設(shè)計(jì)、施工領(lǐng)域,主要分為ContextCapture、ContextCapture中心、ContextCapture云服務(wù)三種銷售方式進(jìn)行銷售,采用點(diǎn)云的形式進(jìn)行三維重建,直接基于圖像生成三維模型,提升設(shè)計(jì)、施工、運(yùn)營(yíng)等領(lǐng)域效果。
由于局限于工業(yè)級(jí)的應(yīng)用,也沒有類似AI、區(qū)塊鏈領(lǐng)域高速增長(zhǎng)的市場(chǎng)需求,三維重建的一級(jí)企業(yè)的融資呈現(xiàn)輪次多、金額小的特點(diǎn),但這也倒逼了公司的商業(yè)化能力。以Matterport為例,其從2011年創(chuàng)立之初到2022年8月共經(jīng)歷了13輪融資,共從一級(jí)市場(chǎng)融資4.09億美元,根據(jù)其最新公布的2021年財(cái)報(bào),其2021財(cái)年實(shí)現(xiàn)了年化經(jīng)常性收入(ARR)6,610萬美元,總客戶達(dá)到約50萬個(gè),同比2020增長(zhǎng)98%,公司預(yù)計(jì)其2022年年化經(jīng)常性收入有望達(dá)到約8,100萬美元總收入約1.3億美元。而根據(jù)Crunchbase,脫胎于瑞士洛桑聯(lián)邦理工學(xué)院的PIX4D公司只進(jìn)行過五輪融資,融資總金額僅為260萬美元。PIX4D在2011年成立后長(zhǎng)期專注于三維重建,產(chǎn)品被廣泛應(yīng)用于測(cè)繪、農(nóng)業(yè)、建筑、教育、電信等領(lǐng)域。
國(guó)內(nèi)三維重建企業(yè)處于發(fā)展初期,主要從建筑和醫(yī)療領(lǐng)域切入
同海外類似,國(guó)內(nèi)三維重建領(lǐng)域的初創(chuàng)企業(yè)也存在融資較為溫和、變現(xiàn)能力較強(qiáng)的特點(diǎn)。國(guó)內(nèi)三維重建企業(yè)主要從房產(chǎn)建筑、醫(yī)療兩大領(lǐng)域切入進(jìn)行商業(yè)化,主要由于建筑行業(yè)客戶規(guī)模大、付費(fèi)能力強(qiáng),眾趣科技、亦我信息等企業(yè)也分別獲得了廣聯(lián)達(dá)、我愛我家等房地產(chǎn)建筑領(lǐng)域的產(chǎn)業(yè)投資加持。與海外公司類似,由于市場(chǎng)規(guī)模相對(duì)小、需求增速較為平緩,大多三維重建企業(yè)融資頻率和融資金額相對(duì)商湯這類人工智能企業(yè)較低,如四維時(shí)代、亦我信息、非白三維等企業(yè)的融資金額都不超過一億元人民幣,但也倒逼了三維重建的初創(chuàng)企業(yè)的商業(yè)化能力。
圖表:國(guó)內(nèi)部分頭部三維重建企業(yè)融資歷史
資料來源:36氪,眾趣科技官網(wǎng),億歐網(wǎng),中金公司研究
四維時(shí)代(4DAGE)專注于三維重建領(lǐng)域,基于光學(xué)相機(jī)和人工智能算法,大幅降低了三維重建產(chǎn)品的成本。四維時(shí)代成立于2014年,在AI賦能的三維重建領(lǐng)域?qū)嵙π酆瘛?/strong>公司的3D數(shù)字化重建技術(shù)中心的微米級(jí)三維數(shù)字化精細(xì)掃描技術(shù)較傳統(tǒng)三維建模方式在效率上提高200倍以上。公司以四維看看Pro 3D空間相機(jī)、四維看見、四維深時(shí)三大產(chǎn)品為核心,打造了房產(chǎn)營(yíng)銷、線上展會(huì)、數(shù)字文博、VR購(gòu)物、安防勘察五大產(chǎn)品解決方案。四維時(shí)代基于光學(xué)相機(jī)和人工智能算法研發(fā)了四維看看實(shí)景三維相機(jī),可以直接把二維數(shù)據(jù)變成三維數(shù)據(jù)。該技術(shù)難點(diǎn)在于建模速度和精度,四維時(shí)代龐大的數(shù)據(jù)庫(kù)加速建模過程,能克服建模過程中的障礙如反光物體、特征點(diǎn)少,一般設(shè)備根據(jù)120個(gè)點(diǎn)位的照片生成模型需12小時(shí),且需要依賴專業(yè)人員,四維看看僅需要十分鐘自動(dòng)生成模型。
如視科技2017年誕生于貝殼,更擅長(zhǎng)于局部空間三維建模,優(yōu)勢(shì)在于業(yè)務(wù)規(guī)模大、數(shù)據(jù)量大。如視科技四大核心產(chǎn)品涵蓋了專業(yè)級(jí)、輕量級(jí)、消費(fèi)級(jí)三大梯度,包括激光VR掃描儀伽羅華、智能手機(jī)云臺(tái)REALSEE G1、全景相機(jī)采集、手機(jī)采集,提供空間數(shù)字化解決方案和場(chǎng)景營(yíng)銷解決方案。根據(jù)公司官網(wǎng),如視科技200余個(gè)客戶分布在27個(gè)國(guó)家和地區(qū),數(shù)字空間采集量達(dá)到2,200萬套,總面積達(dá)16.86億平方米。公司大客戶以房地產(chǎn)企業(yè)為主,包括貝殼、自如、立邦、日本丸紅、阿根廷Obras-YA等,也包括文旅、零售領(lǐng)域的相關(guān)博物館、美的電器等企業(yè)。
亦我科技(也叫“123看房”)專注于AI+三維重建,主要從房產(chǎn)建筑、大型展覽等領(lǐng)域切入。亦我科技成立于2014年,公司主要將三維重建技術(shù)賦能到各行各業(yè)。根據(jù)公司官網(wǎng),亦我科技是全球首個(gè)通過機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等人工智能算法實(shí)現(xiàn)對(duì)大型空間3D建模并海量應(yīng)用的技術(shù)領(lǐng)導(dǎo)者,目標(biāo)為實(shí)現(xiàn)低成本的3D建模的技術(shù)提供者。目前公司已經(jīng)為全球上百家中大型企業(yè)提供了3D建模的產(chǎn)品和解決方案,包括日本鐵路、紅星美凱龍、碧桂園、新城控股、金僑集團(tuán)、58集團(tuán)、安居客、房天下、我愛我家等眾多政府單位及知名企業(yè)。
EDDA健康科技將三維重建應(yīng)用于醫(yī)療領(lǐng)域,公司成立時(shí)間早、規(guī)模相對(duì)較大。EDDA健康科技成立于2004年,旗下包括醫(yī)軟信息、醫(yī)達(dá)極星和EDDA Technology三家公司,總部分別位于上海、蘇州和美國(guó)普林斯頓。公司業(yè)務(wù)廣泛,以手術(shù)機(jī)器人為核心,產(chǎn)品包括智能化手術(shù)機(jī)器人、精準(zhǔn)手術(shù)規(guī)劃及模擬、術(shù)中導(dǎo)航、智能云平臺(tái)等。EDDA發(fā)揮影像分析領(lǐng)域的核心技術(shù)優(yōu)勢(shì)研發(fā)IQQA?-3D系統(tǒng),可以對(duì)患者胸腹部三維影像進(jìn)行量化解讀,可根據(jù)胸腹部的CT或MR影像在三維與胰腺、肝臟、肺臟等多個(gè)臟器進(jìn)行實(shí)時(shí)交互、智能分析評(píng)估。
動(dòng)作捕捉:從微觀上映射人物的動(dòng)作與表情
動(dòng)作捕捉也是數(shù)字孿生的虛實(shí)結(jié)合的關(guān)鍵技術(shù),是將物理世界人物細(xì)節(jié)的動(dòng)作投射到元宇宙微觀場(chǎng)景中“人”的過程。數(shù)字孿生中的動(dòng)作捕捉指通過各種技術(shù)捕捉人或動(dòng)物的動(dòng)作細(xì)節(jié),并將其轉(zhuǎn)化為數(shù)字信息,以實(shí)現(xiàn)物理世界和數(shù)字世界的交互。動(dòng)作捕捉過去常被用于電影、游戲領(lǐng)域,作為一種數(shù)字內(nèi)容生產(chǎn)方式被廣泛使用。未來在元宇宙中,我們認(rèn)為動(dòng)作捕捉將成為一種重要的交互方式,將物理世界中人的動(dòng)作和表情實(shí)時(shí)映射到元宇宙當(dāng)中,實(shí)現(xiàn)物理世界和數(shù)字世界的實(shí)時(shí)連接、動(dòng)態(tài)交互。
技術(shù)基礎(chǔ):AI大模型削弱標(biāo)注依賴,解決成本+精度雙重痛點(diǎn)
傳統(tǒng)動(dòng)捕技術(shù)復(fù)盤:光學(xué)式動(dòng)捕為主流,落地成熟但具技術(shù)瓶頸
動(dòng)作捕捉技術(shù)自誕生起和計(jì)算機(jī)圖像緊密相連,主要被用于各類電影和游戲中。我們將動(dòng)作捕捉技術(shù)的發(fā)展歷史大致劃分為三個(gè)階段:1)1980年之前,動(dòng)畫電影還主要停留在逐幀轉(zhuǎn)描和定格動(dòng)畫技術(shù),1937年的動(dòng)畫片《白雪公主》就出自轉(zhuǎn)描技術(shù),虛擬人物制作的效率低、成本高、質(zhì)量低;2)1980-2000年之間,計(jì)算機(jī)視覺開始被引入電影特效制作,同時(shí)開始出現(xiàn)機(jī)械式動(dòng)捕、光學(xué)式動(dòng)捕等技術(shù),但這個(gè)階段的動(dòng)作捕捉仍然存在動(dòng)捕動(dòng)畫質(zhì)量低、無法捕捉面部表情、無法進(jìn)行室外動(dòng)捕等缺陷,這段時(shí)間代表作包括1997年《泰坦尼克號(hào)》、1999年《星戰(zhàn)前傳1》等;3)2000年之后,動(dòng)捕技術(shù)逐漸完善,探索出解決室外動(dòng)捕、高質(zhì)量動(dòng)捕角色制作、面部表情的精準(zhǔn)捕捉等難題的方案,2001年《指環(huán)王》、2009年《阿凡達(dá)》等作品是這一時(shí)期的代表作。
目前光學(xué)式動(dòng)作捕捉-標(biāo)記點(diǎn)式是主流技術(shù)。動(dòng)作捕捉技術(shù)可分為光學(xué)式動(dòng)捕-標(biāo)記點(diǎn)式、光學(xué)式動(dòng)捕-無標(biāo)記點(diǎn)式、慣性式動(dòng)捕、電磁式動(dòng)捕、聲學(xué)式動(dòng)捕、機(jī)械式動(dòng)捕。目前光學(xué)式動(dòng)捕與慣性動(dòng)捕是主流技術(shù),光學(xué)動(dòng)捕識(shí)別精度高、動(dòng)捕效果好,但成本也較高,主要用于制作復(fù)雜的電影上,而慣性動(dòng)捕則憑借低廉的成本、較少的后續(xù)處理程序更多被用于流媒體創(chuàng)作者等預(yù)算較少、對(duì)捕捉精度要求低的需求上。
深度學(xué)習(xí)助力動(dòng)捕,降低標(biāo)注需求,實(shí)現(xiàn)更高動(dòng)捕精度
目前基于深度學(xué)習(xí)的開源軟件包能夠基本完成動(dòng)物的動(dòng)作捕捉。深度學(xué)習(xí)出現(xiàn)前,大部分上一代的動(dòng)物動(dòng)作追蹤軟件工具只能大致確認(rèn)質(zhì)心、方向,如果要捕捉更精細(xì)的細(xì)節(jié)則需要其他硬件或?qū)嶒?yàn)環(huán)境的配合。而目前DeepLabCut、LEAP Estimates Animal Pose和DeepFly3D等基于深度學(xué)習(xí)的開源軟件包已經(jīng)能直接根據(jù)視頻信息,確定動(dòng)物身體部位的坐標(biāo),從而完成動(dòng)物的復(fù)雜動(dòng)作捕捉。
圖表:深度學(xué)習(xí)算法DeepLabCut可以實(shí)現(xiàn)較高的動(dòng)作捕捉精度
資料來源:Github,中金公司研究部
動(dòng)作捕捉的門檻的降低將導(dǎo)致數(shù)據(jù)的豐富度迅速提高,加速動(dòng)作捕捉算法效果的提升。我們認(rèn)為DeepLabCut、LEAP Estimates Animal Pose和DeepFly3D等AI開源軟件包的出現(xiàn)能夠使得動(dòng)捕的數(shù)據(jù)豐富度快速提高,因?yàn)檫@些工具包僅需要少量的標(biāo)注數(shù)據(jù),就可以滿足從獵豹運(yùn)動(dòng)到集體斑馬魚行為等各類動(dòng)作捕捉場(chǎng)景的需求。這意味著我們可以將大量運(yùn)動(dòng)動(dòng)作的視頻轉(zhuǎn)化成動(dòng)捕數(shù)據(jù),且存量的海量視頻數(shù)據(jù)都可以用于這類基于計(jì)算機(jī)視覺的動(dòng)捕算法的訓(xùn)練,而大量數(shù)據(jù)又會(huì)帶來模型識(shí)別精度和質(zhì)量的提升,最終有望開啟標(biāo)準(zhǔn)AI模型的時(shí)代。不過目前大部分軟件工具包仍有局限性,比如需要特定的實(shí)驗(yàn)設(shè)置或多目標(biāo)追蹤效果差。
應(yīng)用實(shí)例:AI提升精度與質(zhì)量,動(dòng)捕落地方興未艾
消費(fèi)級(jí)產(chǎn)品:光學(xué)式動(dòng)捕產(chǎn)品尚不成熟
目前市場(chǎng)上暫時(shí)沒有出現(xiàn)門檻低、效果理想的消費(fèi)級(jí)動(dòng)捕產(chǎn)品。以消費(fèi)級(jí)動(dòng)捕產(chǎn)品領(lǐng)域較為成功的微軟為例,微軟2010年發(fā)布消費(fèi)級(jí)動(dòng)捕產(chǎn)品Kinect V1,與Xbox 360捆綁銷售,早期的Kinect V1由于動(dòng)捕技術(shù)不完善、內(nèi)容生態(tài)不豐富退出市場(chǎng)。此后,微軟在2019年重新發(fā)布Azure Kinect DK工具包,其集合了多款A(yù)I傳感器,覆蓋深度,視覺,聲音和方向四大類別,包括100萬像素TOF深度攝像頭、1,200萬像素高清攝像頭、7麥克風(fēng)圓形陣列和方向傳感器,但其主要為開發(fā)人員提供服務(wù)。目前市場(chǎng)暫未出現(xiàn)成熟的消費(fèi)級(jí)動(dòng)捕產(chǎn)品,但是在入門場(chǎng)景如個(gè)人虛擬主播,開始出現(xiàn)便宜好用的消費(fèi)級(jí)動(dòng)捕產(chǎn)品。
圖表:Kinect V1的動(dòng)作捕捉示意圖
資料來源:Zugara,中金公司研究部
工業(yè)級(jí)產(chǎn)品:積極探索基于人工智能的光學(xué)式動(dòng)捕產(chǎn)品
英特爾3DAT系統(tǒng)在2022年北京冬奧會(huì)中大放異彩。以冬奧會(huì)速度滑冰的大場(chǎng)地為例,3DAT系統(tǒng)采集該場(chǎng)地范圍內(nèi)運(yùn)動(dòng)員動(dòng)作僅需三個(gè)普通攝像頭,即使是普通手機(jī)攝像頭拍攝的訓(xùn)練視頻也足以支持完成3DAT系統(tǒng)捕捉運(yùn)動(dòng)員的運(yùn)動(dòng)數(shù)據(jù),且運(yùn)動(dòng)員無需佩戴任何傳感器設(shè)備即可被捕捉到高度運(yùn)動(dòng)時(shí)的所有動(dòng)作。
3DAT技術(shù)能迅速生成被采集者生物力學(xué)數(shù)據(jù)參數(shù)集,實(shí)時(shí)展現(xiàn)動(dòng)捕效果,便于教練進(jìn)行運(yùn)動(dòng)員評(píng)估、指導(dǎo)調(diào)整。依靠英特爾基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法支持,使用通用的推理API,3DAT能從拍攝的訓(xùn)練視頻中精確地提取人體關(guān)鍵骨骼點(diǎn)信息特征,實(shí)時(shí)三維重建運(yùn)動(dòng)軌跡、姿態(tài),最終輸出坐標(biāo)點(diǎn)或者特征圖,為每位運(yùn)動(dòng)員建立獨(dú)立的數(shù)據(jù)庫(kù),從而為教練員評(píng)估運(yùn)動(dòng)員并制定調(diào)整訓(xùn)練計(jì)劃提供科學(xué)參考,上述整體耗時(shí)總共僅需十幾分鐘,大大提高了教練員的指導(dǎo)效率。
圖表:英特爾3DAT系統(tǒng)捕捉速度滑冰動(dòng)作
資料來源:英特爾官網(wǎng),電子工程世界,中金公司研究部
3DAT系統(tǒng)未來有望逐漸滲透到其他動(dòng)作捕捉領(lǐng)域及非專業(yè)領(lǐng)域。3DAT不僅可以用于速度滑冰場(chǎng)景,還包括花樣滑冰、越野滑雪及其他場(chǎng)景的運(yùn)動(dòng)捕捉,只要擁有訓(xùn)練好的模型,就能通過OpenVINO部署。根據(jù)英特爾的相關(guān)專家介紹,每個(gè)場(chǎng)景只要采集5萬張圖像,就能完成對(duì)某一場(chǎng)景的動(dòng)捕AI模型的訓(xùn)練和適配,并且算法還能基于具體需求做出調(diào)整。從更長(zhǎng)期的視角看,我們認(rèn)為類似于3DAT系統(tǒng)這樣的基于深度學(xué)習(xí)的無標(biāo)記光學(xué)動(dòng)捕系統(tǒng)將逐漸應(yīng)用在相關(guān)場(chǎng)景,包括游戲、AR/VR等領(lǐng)域。而一旦這樣的消費(fèi)類場(chǎng)景出現(xiàn)方便好用的動(dòng)捕技術(shù),將會(huì)催化該場(chǎng)景下內(nèi)容生態(tài)的完善,從而帶動(dòng)對(duì)應(yīng)場(chǎng)景AR內(nèi)容的全面繁榮。
人工智能將引領(lǐng)光學(xué)式動(dòng)捕技術(shù)持續(xù)進(jìn)化
以深度學(xué)習(xí)為代表的AI技術(shù)降低動(dòng)作捕捉門檻的同時(shí),也在提高動(dòng)作捕捉的質(zhì)量。通過研究動(dòng)作捕捉相關(guān)算法,我們發(fā)現(xiàn)深度學(xué)習(xí)一方面降低了動(dòng)作捕捉的門檻,也逐漸提高了動(dòng)作捕捉技術(shù)的捕捉效果。以機(jī)器學(xué)習(xí)算法PhysCap為例,其由馬克斯普朗克研究所和Facebook現(xiàn)實(shí)實(shí)驗(yàn)室在2020年聯(lián)合開發(fā),其可以基于每秒25幀的普通單反相機(jī)進(jìn)行人體動(dòng)作捕捉,并且實(shí)現(xiàn)物理上合理、實(shí)時(shí)和無標(biāo)記捕捉。
圖表:PhysCap通過運(yùn)動(dòng)學(xué)重建實(shí)現(xiàn)了動(dòng)捕數(shù)據(jù)的力學(xué)可信、環(huán)境交互可信
資料來源:馬克斯普朗克研究所,F(xiàn)acebook現(xiàn)實(shí)實(shí)驗(yàn)室,中金公司研究部
以強(qiáng)化學(xué)習(xí)為代表的AI技術(shù)可通過設(shè)定目標(biāo)讓機(jī)器求解,使其在這一過程中自主生成和調(diào)整動(dòng)作。采用動(dòng)捕技術(shù)生成的動(dòng)作雖然真實(shí),但幾乎完全固定,面對(duì)陌生任務(wù)或環(huán)境時(shí)難以自主調(diào)整。對(duì)此,DeepMind在2017年采用強(qiáng)化學(xué)習(xí)思路進(jìn)行機(jī)器人的動(dòng)作生成,過程中并未明確為機(jī)器人設(shè)定行動(dòng),而是對(duì)機(jī)器人下達(dá)目標(biāo)指令,機(jī)器人在多次訓(xùn)練后即可通過強(qiáng)化學(xué)習(xí)的反饋機(jī)制自主生成行走、跑步、跳躍等動(dòng)作。騰訊四足機(jī)器人Robotics X Max亦采用相似的思路進(jìn)行動(dòng)作訓(xùn)練,讓機(jī)器人利用強(qiáng)化學(xué)習(xí)算法學(xué)習(xí)動(dòng)捕數(shù)據(jù),根據(jù)外界變化自主生成動(dòng)作及行為,從而使機(jī)器人在面對(duì)陌生障礙物時(shí),也能靈活調(diào)整路線來完成既定目標(biāo)。
圖表:DeepMind利用強(qiáng)化學(xué)習(xí)使機(jī)器自主生成動(dòng)作
資料來源:DeepMind,中金公司研究部
圖表:騰訊采用智能體動(dòng)作生成技術(shù)訓(xùn)練機(jī)器人Robotics X Max
資料來源:騰訊Robotics X,中金公司研究部
隨著以深度學(xué)習(xí)為代表的AI算法的進(jìn)一步探索,動(dòng)作捕捉算法有望持續(xù)進(jìn)化。我們認(rèn)為,近年來以深度學(xué)習(xí)為基礎(chǔ)的動(dòng)作捕捉算法相比以前已經(jīng)有了長(zhǎng)足的進(jìn)步,一方面,門檻大幅降低,包括對(duì)攝影設(shè)備的要求、環(huán)境和算力的要求持續(xù)降低;另一方面,捕捉精度和畫面質(zhì)量也逐漸提高。近年來,大模型等技術(shù)被應(yīng)用于圖像領(lǐng)域,我們預(yù)計(jì)未來也將引領(lǐng)動(dòng)作捕捉算法持續(xù)積累技術(shù)進(jìn)步,繼續(xù)朝著將動(dòng)作捕捉大規(guī)模運(yùn)用的方向努力。
國(guó)內(nèi)布局廠商百家爭(zhēng)鳴,AI賦能下應(yīng)用進(jìn)入第一梯隊(duì)
海外動(dòng)作捕捉技術(shù)探索歷史較長(zhǎng),微軟和英特爾等巨頭方案完善,Leap Motion、Xsens后起新秀也較為領(lǐng)先。海外動(dòng)作捕捉領(lǐng)域,以微軟為主的巨頭開啟了對(duì)動(dòng)作捕捉最早期的探索,盡管受限于時(shí)代原因而存在一些不足,但其Kinect是消費(fèi)級(jí)的動(dòng)作捕捉和體感交互的鼻祖。英特爾則在2014年就推出了體感交互RealSense技術(shù)方案,通過深度攝像頭實(shí)現(xiàn)空間定位和手勢(shì)交互。此外,Leap Motion等后起之秀也不可忽視。如Leap Motion專注于手指動(dòng)作捕捉,其能在150度的視場(chǎng)范圍內(nèi)追蹤手指,追蹤精度達(dá)0.01毫米,遠(yuǎn)超普通的3D運(yùn)動(dòng)掃描技術(shù)。
動(dòng)作捕捉領(lǐng)域,目前已有存在大量中國(guó)企業(yè)積極探索,并得到廣泛關(guān)注。海外專業(yè)媒體BestStartup.Asia在2021年進(jìn)行相關(guān)調(diào)研,從中國(guó)大量的動(dòng)作捕捉公司中評(píng)選出了“10家中國(guó)頂級(jí)動(dòng)作捕捉公司和初創(chuàng)公司”,公司覆蓋各種規(guī)模,包括初創(chuàng)公司和成熟品牌。結(jié)合BestStartup.Asia的調(diào)研,國(guó)內(nèi)動(dòng)作捕捉領(lǐng)域較為領(lǐng)先的企業(yè)包括諾亦騰、相芯科技、中科深智、魔琺科技、輕威科技、幻境科技、云舶科技、度量科技、國(guó)承萬通、瑞立視科技、青瞳視覺等。
諾亦騰在動(dòng)作捕捉和3D運(yùn)動(dòng)測(cè)量方面全球領(lǐng)先,解決方案涵蓋從開發(fā)平臺(tái)到垂直應(yīng)用。諾亦騰創(chuàng)立于2012年,在智能感知和交互技術(shù)方面全球領(lǐng)先,目前公司已經(jīng)能夠在多個(gè)場(chǎng)景下提供全棧解決方案,包括數(shù)字媒體、骨科醫(yī)療器械、智能醫(yī)體融合應(yīng)用等。公司產(chǎn)品及解決方案客戶分布廣闊,包括全球四十多個(gè)國(guó)家和地區(qū),電影、游戲、娛樂、醫(yī)療手術(shù)、運(yùn)動(dòng)測(cè)評(píng)、工業(yè)仿真領(lǐng)域均有應(yīng)用。公司的解決方案早在2015年就參與了美劇《權(quán)力的游戲》的制作,劇中萬人空巷的壯觀場(chǎng)面就來自于諾亦騰的慣性動(dòng)作捕捉系統(tǒng),公司參與了大量影視短片的制作。同時(shí),公司和大眾汽車、通用汽車、奔馳等車企有VR領(lǐng)域的合作。
相芯科技深耕計(jì)算機(jī)圖形技術(shù)與AI技術(shù),提供虛擬人+虛擬物,已收獲全球超千家客戶。相芯科技創(chuàng)立于2016年,公司發(fā)展愿景是成為“元宇宙搭建者”。公司將計(jì)算機(jī)圖形學(xué)和AI的相結(jié)合,根據(jù)公司官網(wǎng),公司自主研發(fā)的“虛擬數(shù)字人引擎”和“超寫實(shí)數(shù)字物平臺(tái)”已經(jīng)在國(guó)內(nèi)外超千家企業(yè)得到了規(guī)?;膽?yīng)用。公司自主研發(fā)了人臉跟蹤、三維重建、物理仿真、語(yǔ)音合成、AR渲染等技術(shù),并且已在計(jì)算機(jī)圖形學(xué)頂級(jí)會(huì)議ACM SIGGRAPH發(fā)表60余篇論文。
中科深智專注XR實(shí)時(shí)影像技術(shù),在身體動(dòng)作捕捉和手勢(shì)動(dòng)作捕捉領(lǐng)域業(yè)內(nèi)領(lǐng)先。中科深智成立于2016年,核心團(tuán)隊(duì)來自于國(guó)內(nèi)著名高校,主要圍繞XR實(shí)時(shí)影像技術(shù)。公司在圖像合成、動(dòng)作捕捉、AI動(dòng)作處理和圖像處理等領(lǐng)域申請(qǐng)了70余項(xiàng)專利,在身體捕捉、手勢(shì)捕捉領(lǐng)域技術(shù)領(lǐng)先。業(yè)務(wù)落地方面,公司聚焦虛擬直播和全棧實(shí)時(shí)動(dòng)畫領(lǐng)域,發(fā)展出虛擬數(shù)字人、數(shù)字文娛、虛擬現(xiàn)實(shí)、高校教育四條解決方案業(yè)務(wù)線。
魔琺科技全棧自研了智能化工業(yè)化虛擬內(nèi)容制作核心技術(shù)、虛擬直播核心技術(shù)及AI虛擬人核心技術(shù),并已完成商業(yè)化落地。魔琺科技創(chuàng)立于2018年,根據(jù)公司官網(wǎng),魔琺科技目前已完成四輪數(shù)億美元融資,其中C輪融資達(dá)到1.1億美元,公司基于全棧自研的智能化工業(yè)化虛擬內(nèi)容制作核心技術(shù)、虛擬直播核心技術(shù)及AI虛擬人核心技術(shù)構(gòu)建了三大虛擬世界關(guān)鍵平臺(tái)化產(chǎn)品線,即三維虛擬內(nèi)容協(xié)同制作智能云平臺(tái)、虛擬直播和線下實(shí)時(shí)互動(dòng)產(chǎn)品、全智能虛擬數(shù)字人能力平臺(tái),三大平臺(tái)化產(chǎn)品線已全面落地到文旅、泛娛樂、消費(fèi)、教育、醫(yī)療、電商、通訊、金融等各行各業(yè)。
未來暢想:技術(shù)行穩(wěn)致遠(yuǎn),應(yīng)用燦若繁星
技術(shù)展望:邁向更高階的自動(dòng)化、高精度、低功耗
計(jì)算機(jī)視覺自上世紀(jì)六十年代起源后,每一次性能的提高都伴隨著自動(dòng)化水平的提高:1)深度學(xué)習(xí)出現(xiàn)前,傳統(tǒng)計(jì)算機(jī)視覺依賴人工識(shí)別圖像特征,需要工程師手寫代碼來提取圖像特征;2)深度學(xué)習(xí)的出現(xiàn)幫助人類解決了復(fù)雜特征刻畫的流程,人類可以使用標(biāo)注數(shù)據(jù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),讓機(jī)器幫助人提取圖像的特征,使得計(jì)算機(jī)視覺的精度取得了一次飛躍。但模型精度嚴(yán)重受到標(biāo)注數(shù)據(jù)精度和數(shù)據(jù)量的制約,標(biāo)注數(shù)據(jù)的生產(chǎn)在很多場(chǎng)景下無法實(shí)現(xiàn),在能實(shí)現(xiàn)的場(chǎng)景下也會(huì)耗費(fèi)大量人力,這也是當(dāng)前計(jì)算機(jī)視覺難以大規(guī)模落地的原因;3)通過使用Transformer、DERT等架構(gòu),進(jìn)行無監(jiān)督的預(yù)訓(xùn)練,使得模型具備較為通用的智能,可以大大減少對(duì)于標(biāo)注數(shù)據(jù)的需求,解決人工標(biāo)注數(shù)據(jù)難以獲取或成本高的問題。
GPT系列模型以無需人工標(biāo)記、無監(jiān)督學(xué)習(xí)的方式學(xué)習(xí)視覺“智能”。Image GPT通過采用密集的連接模式,可以在不對(duì)二維空間結(jié)構(gòu)進(jìn)行編碼的情況下,實(shí)現(xiàn)性能超過采用傳統(tǒng)編碼的方法。在主流的數(shù)據(jù)集上,Image GPT在許多指標(biāo)上超過前人算法的精度,或僅僅是稍遜一籌。Image GPT分為預(yù)訓(xùn)練和微調(diào)兩個(gè)部分,其可以通過自回歸自動(dòng)預(yù)測(cè)圖像像素,即使不知道圖像的二維結(jié)構(gòu)也可以實(shí)現(xiàn)。以下圖為例,Image GPT在圖像被部分遮擋的情況下仍然能對(duì)被遮擋部分給出合理預(yù)測(cè)。
圖表:使用與NLP中GPT-2相同的Transformer架構(gòu)使得圖像生成具備想象力
資料來源:AI公園,中金公司研究部
我們認(rèn)為,下一步可能是自行生成仿真數(shù)據(jù),解決長(zhǎng)尾場(chǎng)景數(shù)據(jù)量少的問題。當(dāng)前預(yù)訓(xùn)練大模型的路線下仍然存在部分極端場(chǎng)景數(shù)據(jù)量少,難以針對(duì)性提高這類場(chǎng)景下模型效果的問題。且視頻數(shù)據(jù)相對(duì)于文本數(shù)據(jù)存在高質(zhì)量的數(shù)據(jù)量較少的問題,大模型最終效果受當(dāng)前數(shù)據(jù)量的制約。因此我們認(rèn)為一種可能的方案是通過計(jì)算機(jī)自行生成仿真數(shù)據(jù),使得模型不斷自我訓(xùn)練提升效果。
以特斯拉為例,特斯拉自動(dòng)駕駛通過模擬迭代生成各類極端場(chǎng)景的數(shù)據(jù)。當(dāng)前自動(dòng)駕駛技術(shù)落地關(guān)鍵在于解決各類長(zhǎng)尾場(chǎng)景,但是各類長(zhǎng)尾場(chǎng)景的數(shù)據(jù)又難以獲得,特斯拉自動(dòng)駕駛團(tuán)隊(duì)一方面通過影子模式從終端收集數(shù)據(jù),另一方面通過計(jì)算機(jī)生成仿真數(shù)據(jù),包括難以溯源的數(shù)據(jù)、難以標(biāo)記的數(shù)據(jù)、閉塞道路數(shù)據(jù)等現(xiàn)實(shí)世界中案例較少的情況,進(jìn)一步提高自動(dòng)駕駛系統(tǒng)應(yīng)對(duì)復(fù)雜情況的能力。
圖表:特斯拉數(shù)據(jù)生產(chǎn)從手動(dòng)標(biāo)記進(jìn)階到自動(dòng)標(biāo)記和模擬迭代階段
資料來源:特斯拉官網(wǎng),中金公司研究部
AI助力合成圖像數(shù)據(jù)的技術(shù)趨于成熟,仿真效果突出。過去,在Github上有很多合成視頻數(shù)據(jù)的項(xiàng)目嘗試,方法包括從統(tǒng)計(jì)原理到基于生成式對(duì)抗網(wǎng)絡(luò)(GAN)的原理,但基本都存在效果不夠逼真、對(duì)使用者編程能力要求較高等問題,但近年來計(jì)算機(jī)生成圖像正在變得越來越逼真。如2021年中科院自動(dòng)化研究所發(fā)布的大規(guī)模計(jì)算機(jī)仿真圖像數(shù)據(jù)集NLPR-LSCGB,其包括超過7萬張生成圖像,且效果逼真,在顏色、亮度、飽和度等指標(biāo)上與真實(shí)圖像接近。
圖表:中科院研究院自動(dòng)化所發(fā)布的大規(guī)模計(jì)算機(jī)圖像數(shù)據(jù)集NLPR-LSCGB
資料來源:IEEE Transactions on Image Processing(TIP)期刊,中金公司研究部
應(yīng)用方向:殊途同源,博采眾長(zhǎng)
計(jì)算機(jī)視覺精度的持續(xù)提高也帶來了越來越多的應(yīng)用領(lǐng)域。隨著近年來,計(jì)算機(jī)視覺精度持續(xù)提高,其也被應(yīng)用在越來越多的領(lǐng)域上,包括運(yùn)輸、醫(yī)療、制造業(yè)、基礎(chǔ)設(shè)施建設(shè)、農(nóng)業(yè)、零售業(yè),更多的場(chǎng)景豐富了可用于訓(xùn)練計(jì)算機(jī)視覺模型的數(shù)據(jù),也讓人們持續(xù)探索將計(jì)算機(jī)視覺模型全面落地到各類場(chǎng)景的方法。
圖表:以計(jì)算機(jī)視覺為基礎(chǔ)的應(yīng)用領(lǐng)域多點(diǎn)開花
資料來源:V7Labs,IBM,MIT Technology Review,中金公司研究部
動(dòng)作捕捉、虛擬現(xiàn)實(shí)、元宇宙等場(chǎng)景的需求使得計(jì)算機(jī)視覺越來越多的被應(yīng)用在三維視覺領(lǐng)域。虛擬現(xiàn)實(shí)、元宇宙等場(chǎng)景改變了人與機(jī)器之間的交互方式,我們認(rèn)為這或?qū)⒂绊懳磥碛?jì)算機(jī)視覺向著三維視覺的方向發(fā)展。三維視覺提供比二維視覺更豐富的信息,包括3D成像、自動(dòng)駕駛、SLAM、三維重建等技術(shù)都涉及三維重建的計(jì)算機(jī)視覺技術(shù)。如汽車智能座艙DMS系統(tǒng)需要分析3D人臉信息來判斷司機(jī)的情緒和精神狀態(tài),AR通過三維重建技術(shù)完成目標(biāo)的重現(xiàn)。
動(dòng)作捕捉領(lǐng)域:為了增加三維重建的訓(xùn)練數(shù)據(jù)并增強(qiáng)3D建模的精度,我們可以利用深度學(xué)習(xí)生成3D模型。以MIT的一項(xiàng)研究為例[1],研究者們運(yùn)用3D生成對(duì)抗網(wǎng)絡(luò)(3D-GAN)網(wǎng)絡(luò)生成三維模型,使用卷積網(wǎng)絡(luò)和生成式對(duì)抗網(wǎng)絡(luò)的進(jìn)展,從概率空間生成三維圖像。由于采用了對(duì)抗網(wǎng)絡(luò),這個(gè)生成器能夠隱含地捕捉對(duì)象特征并生成高品質(zhì)的3D對(duì)象,其可以在無監(jiān)督的情況下學(xué)習(xí),因此可以應(yīng)用在非常多的領(lǐng)域,包括3D打印、三維重建、自動(dòng)駕駛和SLAM等技術(shù)。
視覺增強(qiáng)領(lǐng)域:使用AI軟件進(jìn)行視覺增強(qiáng),可以實(shí)現(xiàn)精美畫面的輸出。手機(jī)攝影需要借助鏡頭、感光CMOS、濾光片、ISP圖像處理芯片等一系列硬件,但是傳統(tǒng)方法在光信號(hào)轉(zhuǎn)化成電信號(hào)過程中會(huì)帶來大量損耗和噪聲干擾,導(dǎo)致成像質(zhì)量低。因此使用AI算法進(jìn)行視覺增強(qiáng),已經(jīng)成為常用方式之一。例如手機(jī)攝像頭中的AI算法,目前市場(chǎng)上很多主流手機(jī)都搭載了商湯科技的SenseME水星智能移動(dòng)終端平臺(tái),其提供AI超分辨率的視覺增強(qiáng)。它通過AI算法實(shí)現(xiàn)遠(yuǎn)距離高清攝影,具體原理是通過自動(dòng)連拍多張照片,將多張照片進(jìn)行智能融合,完成噪聲的降低和照片細(xì)節(jié)的放大,輸出高清圖像。AI超分辨率能夠在高倍放大后捕捉到各種細(xì)節(jié)。
當(dāng)虹科技研發(fā)AI老片修復(fù)系統(tǒng),可結(jié)合AI和手工修復(fù)對(duì)影像資料進(jìn)行快速修復(fù),并通過AI插幀等技術(shù)進(jìn)一步增強(qiáng)畫面流暢性,技術(shù)已較為成熟。當(dāng)虹科技為老片修復(fù)提供全棧解決方案,其包括媒體數(shù)字化處理(將膠片、磁帶等媒體轉(zhuǎn)換成數(shù)字儲(chǔ)存方式),數(shù)字媒體修復(fù)(對(duì)音頻、視頻進(jìn)行修復(fù)),音視頻合成等。當(dāng)虹科技可以對(duì)不同類型老片進(jìn)行修復(fù),并針對(duì)噪點(diǎn)、抖動(dòng)、閃爍等問題提供針對(duì)性解決方案,其通過AI學(xué)習(xí)海量高清素材并持續(xù)迭代技術(shù),對(duì)老片圖像進(jìn)行高精度復(fù)原,修復(fù)效率相對(duì)人工修復(fù)提升上百倍。此外,當(dāng)虹科技開發(fā)了AI增強(qiáng)技術(shù),可以對(duì)修復(fù)后視頻進(jìn)行AI插幀,進(jìn)一步提升老片的畫面流暢性。
圖表:當(dāng)虹科技老片修復(fù)解決方案核心優(yōu)勢(shì)
資料來源:當(dāng)虹科技官網(wǎng),中金公司研究
醫(yī)學(xué)領(lǐng)域:AI+5G可以幫助去噪、模糊、增強(qiáng)邊緣,實(shí)現(xiàn)精準(zhǔn)的遠(yuǎn)程手術(shù):1)AI在圖像去噪領(lǐng)域可以發(fā)揮顯著作用,早在2017年,英偉達(dá)就在OptiX 5.0框架中引入AI助力的去噪,其通過深度卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)噪聲和信號(hào)特征的差異,實(shí)現(xiàn)區(qū)分噪聲與信號(hào);2)在AI+5G心臟手術(shù)領(lǐng)域,可以使用注意力神經(jīng)網(wǎng)絡(luò)對(duì)影響自動(dòng)去噪,使用結(jié)果自動(dòng)建模,從而產(chǎn)生高質(zhì)量的圖像,幫助后續(xù)精準(zhǔn)的3D建模心臟;3)移動(dòng)時(shí)拍攝時(shí)常常導(dǎo)致圖片模糊,這類問題可以使用AI大量學(xué)習(xí)清晰和模糊照片后,自動(dòng)修復(fù)模糊圖片。
圖表:AI被應(yīng)用于中國(guó)首例AI+5G心臟手術(shù)
資料來源:廣東衛(wèi)生信息網(wǎng)站,中金公司研究部
風(fēng)險(xiǎn)提示
深度學(xué)習(xí)等AI技術(shù)進(jìn)步不及預(yù)期。物理世界的“人、物、場(chǎng)”的實(shí)時(shí)映射和動(dòng)態(tài)交互需要AI技術(shù)持續(xù)提升來支持。如果以深度學(xué)習(xí)代表的AI技術(shù)不能持續(xù)突破,以實(shí)現(xiàn)更高程度的自動(dòng)化、更高的精度、更低的功耗,那么基于視覺的三維重建和動(dòng)作捕捉技術(shù)將很難快速成熟,這可能導(dǎo)致:1)三維重建領(lǐng)域基于視覺的算法圖像精度不足、算力需求過大;2)動(dòng)作捕捉領(lǐng)域基于視覺的動(dòng)作捕捉方案成本過高、捕捉精度不足。因此,如果以深度學(xué)習(xí)為主的AI技術(shù)不能持續(xù)突破,基于視覺的動(dòng)作捕捉和三維重建技術(shù)可能會(huì)出現(xiàn)發(fā)展停滯的情況。
動(dòng)作捕捉、三維重建等落地應(yīng)用進(jìn)度不及預(yù)期。基于計(jì)算機(jī)視覺的方案在動(dòng)作捕捉和三維重建領(lǐng)域的應(yīng)用內(nèi)尚處于初級(jí)階段,其商業(yè)化應(yīng)用的數(shù)量較少、應(yīng)用領(lǐng)域較為局限。如果相關(guān)公司由于落地成本高昂、相關(guān)人才稀缺、產(chǎn)品推廣效果差等問題導(dǎo)致沒有順利推進(jìn)先進(jìn)AI技術(shù)的落地,如無法實(shí)現(xiàn)高精度、自動(dòng)化、低功耗的動(dòng)作捕捉和三維重建產(chǎn)品大規(guī)模量產(chǎn),可能會(huì)導(dǎo)致市場(chǎng)關(guān)注度低和消費(fèi)者付費(fèi)意愿不足,使得技術(shù)落地緩慢。
本文選自微信公眾號(hào):中金點(diǎn)晴。智通財(cái)經(jīng)編輯:張計(jì)偉。