華泰證券:Genie開啟可交互AI新場(chǎng)景 關(guān)注AIGC應(yīng)用投資機(jī)會(huì)

Genie在傳媒應(yīng)用領(lǐng)域更適配可交互的游戲場(chǎng)景,建議積極把握相關(guān)投資機(jī)會(huì)。

智通財(cái)經(jīng)APP獲悉,華泰證券發(fā)布研究報(bào)告稱,繼OpenAI的文生視頻大模型Sora的發(fā)布后,谷歌推出AI可交互視頻模型Genie, Genie由潛在動(dòng)作模型、視頻分詞器、動(dòng)態(tài)預(yù)測(cè)模型三大核心組件組成,可通過(guò)文本、合成圖像、照片、草圖等多種方式,描述和生成無(wú)數(shù)個(gè)動(dòng)作“自主可控”的交互式環(huán)境。Genie的推出意味著產(chǎn)業(yè)AI應(yīng)用持續(xù)迭代升級(jí),預(yù)計(jì)隨著海內(nèi)外科技大廠AI模型的不斷進(jìn)步,AI應(yīng)用端有望加速落地,產(chǎn)業(yè)迎來(lái)持續(xù)催化。Genie在傳媒應(yīng)用領(lǐng)域更適配可交互的游戲場(chǎng)景,建議積極把握相關(guān)投資機(jī)會(huì)。

華泰證券主要觀點(diǎn)如下:

Genie可交互可推理可模擬,解鎖“自主可控”的虛擬世界

Genie是一個(gè)110億參數(shù)的基礎(chǔ)世界模型,特點(diǎn)主要體現(xiàn)在:

1)可交互:相較于Sora、Runway等模型,Genie生成的內(nèi)容具備可交互屬性,即用戶可通過(guò)文本提示對(duì)所生成虛擬環(huán)境中的角色動(dòng)作逐幀進(jìn)行操控,使用戶能與生成的虛擬世界進(jìn)行交互。

2)可推理:基于潛在動(dòng)作模型、視頻分詞器、動(dòng)態(tài)模型,Genie不僅能理解并推理每對(duì)幀之間的潛在動(dòng)作,還能對(duì)視頻的下一幀進(jìn)行預(yù)測(cè),并生成符合運(yùn)動(dòng)規(guī)律的序列幀。3)可模擬:由于在模擬機(jī)器人動(dòng)作和學(xué)習(xí)物理規(guī)律方面表現(xiàn)出色,Genie能通過(guò)短視頻模擬物體的動(dòng)態(tài)變化來(lái)訓(xùn)練多功能智能體,如機(jī)械臂。

技術(shù)底座由ViT構(gòu)建,適配于游戲/機(jī)器人等應(yīng)用場(chǎng)景

技術(shù)方面,Genie區(qū)別于Sora最大的特點(diǎn)體現(xiàn)在:核心組件基于空間時(shí)間的Vision Transformer (ViT)構(gòu)建,這種特殊的Transformer可以用于處理視頻等具有時(shí)間和空間維度的數(shù)據(jù),底層數(shù)據(jù)庫(kù)則基于大量游戲視頻建立。

應(yīng)用方面,Genie場(chǎng)景更適配游戲及機(jī)器人等。1)游戲:Genie以用戶提供的現(xiàn)有圖片為起點(diǎn),解析視頻角色,以補(bǔ)充視頻幀的方式生成角色動(dòng)作輸出動(dòng)態(tài)畫面,包括交互性的游戲環(huán)境,讓用戶具有參與感和體驗(yàn)感,使用過(guò)程本身即可被看作是一種游戲。2)機(jī)器人:Genie可以將學(xué)習(xí)的潛在動(dòng)作應(yīng)用于真實(shí)的人類設(shè)計(jì)環(huán)境中,為實(shí)現(xiàn)通用智能體提供了新的視角和方法。

風(fēng)險(xiǎn)提示:競(jìng)爭(zhēng)加劇風(fēng)險(xiǎn),行業(yè)監(jiān)管風(fēng)險(xiǎn),模型技術(shù)進(jìn)展不及預(yù)期等。

智通聲明:本內(nèi)容為作者獨(dú)立觀點(diǎn),不代表智通財(cái)經(jīng)立場(chǎng)。未經(jīng)允許不得轉(zhuǎn)載,文中內(nèi)容僅供參考,不作為實(shí)際操作建議,交易風(fēng)險(xiǎn)自擔(dān)。更多最新最全港美股資訊,請(qǐng)點(diǎn)擊下載智通財(cái)經(jīng)App
分享
微信
分享
QQ
分享
微博
收藏