智通財(cái)經(jīng)APP獲悉,中信證券發(fā)布研究報(bào)告稱,近一周內(nèi),OpenAI和谷歌分別推出了他們的最新AI模型,圍繞視頻多模態(tài)這個(gè)核心關(guān)鍵點(diǎn)雙方不斷加碼。Gemini1.5
Pro基于大語(yǔ)言模型處理視頻模態(tài),上下文長(zhǎng)度超過(guò)百萬(wàn), Sora在技術(shù)上采用了Diffusion
Transformer的路線,OpenAI表示Sora在訓(xùn)練過(guò)程中表現(xiàn)出了與其他模型不同的涌現(xiàn)能力,有望成為真正的“世界模型”。
從投資角度來(lái)看,Sora背后的涌現(xiàn)能力為自動(dòng)駕駛、設(shè)計(jì)等需要現(xiàn)實(shí)世界建模的行業(yè)提供了明確方向。Gemini在短期內(nèi)的部分商業(yè)場(chǎng)景表現(xiàn)可能會(huì)更為出色,尤其是需要結(jié)合圖片與文字的多模態(tài)應(yīng)用場(chǎng)景。除去應(yīng)用端的投資機(jī)會(huì),硬件端的需求也必然會(huì)隨著多模態(tài)的技術(shù)進(jìn)步而不斷提高,該行仍然持續(xù)看好AI算力,尤其是后續(xù)商業(yè)端成熟而帶來(lái)的更多AI推理側(cè)算力的機(jī)會(huì)。
中信證券主要觀點(diǎn)如下:
事件背景:
近一周內(nèi),OpenAI和谷歌分別推出了他們的最新AI模型,展現(xiàn)了各自在人工智能技術(shù)上的最新進(jìn)展。2月16日,OpenAI介紹了其首個(gè)視頻AI模型Sora,這款模型可以根據(jù)文本指令生成最長(zhǎng)60秒的高質(zhì)量視頻,并能夠依據(jù)文字提示進(jìn)行視頻內(nèi)容的調(diào)整。與此同時(shí),谷歌也宣布了其新一代多模態(tài)模型Gemini Pro 1.5的發(fā)布,該模型具有突破性的能力,能夠處理達(dá)到100萬(wàn)tokens的復(fù)雜上下文。
技術(shù)進(jìn)展:圍繞視頻多模態(tài),谷歌與OpenAI在基礎(chǔ)算法領(lǐng)域不斷加碼。
Google推出的Gemini1.5 Pro就架構(gòu)而言,引入了能夠?qū)⑸窠?jīng)網(wǎng)絡(luò)細(xì)分為更小“專家”的MoE架構(gòu)(這也是普遍猜測(cè)中GPT-4采用的架構(gòu)),使其相較傳統(tǒng)的Transformer架構(gòu)更為高效。
就模型能力而言,Gemini 1.5 Pro的最大提升在于支持了100萬(wàn)tokens的Context Window,遠(yuǎn)超前代的3.2萬(wàn)tokens,意味著模型能夠一次性處理更加大量的信息。在演示中,谷歌使用長(zhǎng)視頻作為例子,Gemini最新版本可以處理長(zhǎng)達(dá)1個(gè)小時(shí)的長(zhǎng)視頻,并理解視頻的內(nèi)容進(jìn)行回答,展現(xiàn)出了語(yǔ)言模型的極強(qiáng)的多模態(tài)處理能力。OpenAI的Sora模型相比Gemini1.5 Pro有所區(qū)別,它并不是一個(gè)語(yǔ)言模型,而是一個(gè)純粹的視頻生成模型,更接近于我們以前所知的Dalle、Stable Diffusion、Midjourney等模型。Sora在底層上采用了與文生圖模型相同的Diffusion Model(擴(kuò)散模型)的框架,但采用了Transformer層取代了傳統(tǒng)的Unet層。
具體而言,Sora首先對(duì)視覺(jué)數(shù)據(jù)建模,將視頻壓縮到低位的潛變量空間(Latent Network),然后將其拆解為一個(gè)個(gè)碎片(Patches)。在引入了Transformer的多頭注意力層后,模型將每一個(gè)Patch當(dāng)做語(yǔ)言模型中的文字Token處理,幫助模型學(xué)習(xí)海量視頻中不同碎片間的動(dòng)態(tài)關(guān)聯(lián)。因此我們看到OpenAI將其模型成為Diffusion Transformer,融合了當(dāng)期最熱門(mén)的語(yǔ)言模型與文生圖模型,并且在成果上我們看到了Sora相比于其他視頻生成模型更多的靈活性,以及對(duì)物理世界的理解能力。
后續(xù)影響:Sora的推出帶來(lái)了更大的市場(chǎng)影響力,涌現(xiàn)能力為“世界模型”的誕生提供了基礎(chǔ)。
Gemini1.5 Pro提供了相當(dāng)驚艷的大語(yǔ)言模型處理視頻模態(tài)的綜合能力,但相較之下市場(chǎng)把更多關(guān)注度給到了Sora,這是因?yàn)镚emini的升級(jí)本質(zhì)上是對(duì)過(guò)去模型的繼續(xù)迭代優(yōu)化,而Sora的出現(xiàn)給計(jì)算機(jī)視覺(jué)領(lǐng)域可能提供了一條嶄新而明確的道路。在技術(shù)上Sora采用了Diffusion Transformer的路線,OpenAI表示Sora在訓(xùn)練過(guò)程中表現(xiàn)出了與其他模型不同的涌現(xiàn)能力,通過(guò)涌現(xiàn)學(xué)習(xí)到了物品的時(shí)間與空間相關(guān)性以及與周圍世界的互動(dòng)能力等等。得益于這種基于規(guī)模的涌現(xiàn)能力,如果后續(xù)持續(xù)擴(kuò)大模型以及訓(xùn)練集的規(guī)模,那么將來(lái)以Sora為基礎(chǔ)的模型可能做到模擬整個(gè)物理和數(shù)字世界,成為真正的“世界模型”。長(zhǎng)期以來(lái),計(jì)算機(jī)視覺(jué)領(lǐng)域的研究一直過(guò)于碎片化,直到目前實(shí)際用例中的計(jì)算機(jī)視覺(jué)模型仍根據(jù)不同任務(wù)采取不同的小模型。而Sora的成功以及其背后展現(xiàn)出的涌現(xiàn)能力可能為計(jì)算機(jī)視覺(jué)領(lǐng)域的研究提供了一個(gè)明確的方向,成為未來(lái)視頻與模擬領(lǐng)域(例如自動(dòng)駕駛)的統(tǒng)一范式。
商業(yè)推演:Sora模型受制于能力與成本實(shí)用性較低,Gemini短期商業(yè)化潛力較大。
盡管Sora相較于Gemini引起了更大的轟動(dòng),其本身也是技術(shù)上的進(jìn)一步創(chuàng)新,但我們也無(wú)法忽視Sora目前存在的多種局限性。首先在能力上Sora距離可實(shí)用還有較大距離,OpenAI明確表示Sora雖然能理解部分因果關(guān)系與物理現(xiàn)象,但難以在較長(zhǎng)視頻中準(zhǔn)確模擬復(fù)雜場(chǎng)景中的物理現(xiàn)象、可能無(wú)法理解具體的因果關(guān)系、可能混淆提示的空間細(xì)節(jié)以及可能難以準(zhǔn)確描述隨時(shí)間變化的事件。這與我們觀察到的Sora Demo的表現(xiàn)也較為一致,在視頻時(shí)長(zhǎng)拉長(zhǎng)到10秒以上時(shí),Sora經(jīng)常會(huì)出現(xiàn)在物理定律以及交互過(guò)程中的小錯(cuò)誤。其次成本是Sora無(wú)法忽視的問(wèn)題,Sora采用的Latent空間壓縮,我們進(jìn)行簡(jiǎn)單估算:對(duì)于一個(gè)60幀的視頻(約6-8秒),其需要約6萬(wàn)個(gè)Patches,如果去噪步數(shù)是20的話,相當(dāng)于要生成120萬(wàn)個(gè)Tokens,這是相當(dāng)大的計(jì)算量。同時(shí)考慮到擴(kuò)散模型在實(shí)際使用時(shí)往往需要多次生成的特點(diǎn),實(shí)際計(jì)算量會(huì)遠(yuǎn)超剛剛計(jì)算的120萬(wàn)個(gè)Tokens。相較之下,Gemini是在原有模型上的繼續(xù)迭代,其最大特點(diǎn)是加長(zhǎng)了context window與多模態(tài)能力,這些都是短期內(nèi)更為實(shí)用的更新,在成本可控的條件下,我們更看好Gemini在短期的商業(yè)表現(xiàn)。
風(fēng)險(xiǎn)因素:
AI核心技術(shù)發(fā)展不及預(yù)期風(fēng)險(xiǎn);科技領(lǐng)域政策監(jiān)管持續(xù)收緊風(fēng)險(xiǎn);私有數(shù)據(jù)相關(guān)的政策監(jiān)管風(fēng)險(xiǎn);全球宏觀經(jīng)濟(jì)復(fù)蘇不及預(yù)期風(fēng)險(xiǎn);宏觀經(jīng)濟(jì)波動(dòng)導(dǎo)致歐美企業(yè)IT支出不及預(yù)期風(fēng)險(xiǎn);AI潛在倫理、道德、用戶隱私風(fēng)險(xiǎn);企業(yè)數(shù)據(jù)泄露、信息安全風(fēng)險(xiǎn);行業(yè)競(jìng)爭(zhēng)持續(xù)加劇風(fēng)險(xiǎn)等。
投資策略:
本次谷歌與OpenAI兩家公司的模型更新仍然是圍繞底層算法層面,尤其是模型的視頻多模態(tài)方面進(jìn)行展開(kāi),我們維持多模態(tài)與成本降低將是今年AI算法發(fā)展最核心的兩個(gè)主線的判斷。從技術(shù)角度,Sora所展現(xiàn)出來(lái)的框架能力更為驚艷,背后的涌現(xiàn)能力為自動(dòng)駕駛、設(shè)計(jì)等需要現(xiàn)實(shí)世界建模的行業(yè)提供了明確方向,但其技術(shù)成熟度還處在早期階段,同時(shí)成本開(kāi)銷過(guò)于巨大。相較而言,Gemini在短期內(nèi)的部分商業(yè)場(chǎng)景表現(xiàn)可能會(huì)更為出色,尤其是需要結(jié)合圖片與文字的多模態(tài)應(yīng)用場(chǎng)景。除去應(yīng)用端的投資機(jī)會(huì),硬件端的需求也必然會(huì)隨著多模態(tài)的技術(shù)進(jìn)步而不斷提高,我們?nèi)匀怀掷m(xù)看好AI算力層面,尤其是得益于商業(yè)端成熟而帶來(lái)的更多的AI推理側(cè)算力的機(jī)會(huì)。