中信證券：OpenAI推出視頻生成模型Sora AI產(chǎn)業(yè)圍繞多模態(tài)不斷加碼

作者：智通財(cái)經(jīng) 陳筱亦 2024-02-19 08:56:51

近一周內(nèi)，OpenAI和谷歌分別推出了他們的最新AI模型，圍繞視頻多模態(tài)這個(gè)核心關(guān)鍵點(diǎn)雙方不斷加碼。

智通財(cái)經(jīng)APP獲悉，中信證券發(fā)布研究報(bào)告稱，近一周內(nèi)，OpenAI和谷歌分別推出了他們的最新AI模型，圍繞視頻多模態(tài)這個(gè)核心關(guān)鍵點(diǎn)雙方不斷加碼。Gemini1.5 Pro基于大語(yǔ)言模型處理視頻模態(tài)，上下文長(zhǎng)度超過(guò)百萬(wàn)， Sora在技術(shù)上采用了Diffusion Transformer的路線，OpenAI表示Sora在訓(xùn)練過(guò)程中表現(xiàn)出了與其他模型不同的涌現(xiàn)能力，有望成為真正的“世界模型”。

從投資角度來(lái)看，Sora背后的涌現(xiàn)能力為自動(dòng)駕駛、設(shè)計(jì)等需要現(xiàn)實(shí)世界建模的行業(yè)提供了明確方向。Gemini在短期內(nèi)的部分商業(yè)場(chǎng)景表現(xiàn)可能會(huì)更為出色，尤其是需要結(jié)合圖片與文字的多模態(tài)應(yīng)用場(chǎng)景。除去應(yīng)用端的投資機(jī)會(huì)，硬件端的需求也必然會(huì)隨著多模態(tài)的技術(shù)進(jìn)步而不斷提高，該行仍然持續(xù)看好AI算力，尤其是后續(xù)商業(yè)端成熟而帶來(lái)的更多AI推理側(cè)算力的機(jī)會(huì)。

中信證券主要觀點(diǎn)如下：

事件背景：

近一周內(nèi)，OpenAI和谷歌分別推出了他們的最新AI模型，展現(xiàn)了各自在人工智能技術(shù)上的最新進(jìn)展。2月16日，OpenAI介紹了其首個(gè)視頻AI模型Sora，這款模型可以根據(jù)文本指令生成最長(zhǎng)60秒的高質(zhì)量視頻，并能夠依據(jù)文字提示進(jìn)行視頻內(nèi)容的調(diào)整。與此同時(shí)，谷歌也宣布了其新一代多模態(tài)模型Gemini Pro 1.5的發(fā)布，該模型具有突破性的能力，能夠處理達(dá)到100萬(wàn)tokens的復(fù)雜上下文。

技術(shù)進(jìn)展：圍繞視頻多模態(tài)，谷歌與OpenAI在基礎(chǔ)算法領(lǐng)域不斷加碼。

Google推出的Gemini1.5 Pro就架構(gòu)而言，引入了能夠?qū)⑸窠?jīng)網(wǎng)絡(luò)細(xì)分為更小“專家”的MoE架構(gòu)（這也是普遍猜測(cè)中GPT-4采用的架構(gòu)），使其相較傳統(tǒng)的Transformer架構(gòu)更為高效。

就模型能力而言，Gemini 1.5 Pro的最大提升在于支持了100萬(wàn)tokens的Context Window，遠(yuǎn)超前代的3.2萬(wàn)tokens，意味著模型能夠一次性處理更加大量的信息。在演示中，谷歌使用長(zhǎng)視頻作為例子，Gemini最新版本可以處理長(zhǎng)達(dá)1個(gè)小時(shí)的長(zhǎng)視頻，并理解視頻的內(nèi)容進(jìn)行回答，展現(xiàn)出了語(yǔ)言模型的極強(qiáng)的多模態(tài)處理能力。OpenAI的Sora模型相比Gemini1.5 Pro有所區(qū)別，它并不是一個(gè)語(yǔ)言模型，而是一個(gè)純粹的視頻生成模型，更接近于我們以前所知的Dalle、Stable Diffusion、Midjourney等模型。Sora在底層上采用了與文生圖模型相同的Diffusion Model（擴(kuò)散模型）的框架，但采用了Transformer層取代了傳統(tǒng)的Unet層。

具體而言，Sora首先對(duì)視覺(jué)數(shù)據(jù)建模，將視頻壓縮到低位的潛變量空間（Latent Network），然后將其拆解為一個(gè)個(gè)碎片(Patches)。在引入了Transformer的多頭注意力層后，模型將每一個(gè)Patch當(dāng)做語(yǔ)言模型中的文字Token處理，幫助模型學(xué)習(xí)海量視頻中不同碎片間的動(dòng)態(tài)關(guān)聯(lián)。因此我們看到OpenAI將其模型成為Diffusion Transformer，融合了當(dāng)期最熱門(mén)的語(yǔ)言模型與文生圖模型，并且在成果上我們看到了Sora相比于其他視頻生成模型更多的靈活性，以及對(duì)物理世界的理解能力。

后續(xù)影響：Sora的推出帶來(lái)了更大的市場(chǎng)影響力，涌現(xiàn)能力為“世界模型”的誕生提供了基礎(chǔ)。

Gemini1.5 Pro提供了相當(dāng)驚艷的大語(yǔ)言模型處理視頻模態(tài)的綜合能力，但相較之下市場(chǎng)把更多關(guān)注度給到了Sora，這是因?yàn)镚emini的升級(jí)本質(zhì)上是對(duì)過(guò)去模型的繼續(xù)迭代優(yōu)化，而Sora的出現(xiàn)給計(jì)算機(jī)視覺(jué)領(lǐng)域可能提供了一條嶄新而明確的道路。在技術(shù)上Sora采用了Diffusion Transformer的路線，OpenAI表示Sora在訓(xùn)練過(guò)程中表現(xiàn)出了與其他模型不同的涌現(xiàn)能力，通過(guò)涌現(xiàn)學(xué)習(xí)到了物品的時(shí)間與空間相關(guān)性以及與周圍世界的互動(dòng)能力等等。得益于這種基于規(guī)模的涌現(xiàn)能力，如果后續(xù)持續(xù)擴(kuò)大模型以及訓(xùn)練集的規(guī)模，那么將來(lái)以Sora為基礎(chǔ)的模型可能做到模擬整個(gè)物理和數(shù)字世界，成為真正的“世界模型”。長(zhǎng)期以來(lái)，計(jì)算機(jī)視覺(jué)領(lǐng)域的研究一直過(guò)于碎片化，直到目前實(shí)際用例中的計(jì)算機(jī)視覺(jué)模型仍根據(jù)不同任務(wù)采取不同的小模型。而Sora的成功以及其背后展現(xiàn)出的涌現(xiàn)能力可能為計(jì)算機(jī)視覺(jué)領(lǐng)域的研究提供了一個(gè)明確的方向，成為未來(lái)視頻與模擬領(lǐng)域（例如自動(dòng)駕駛）的統(tǒng)一范式。

商業(yè)推演：Sora模型受制于能力與成本實(shí)用性較低，Gemini短期商業(yè)化潛力較大。

盡管Sora相較于Gemini引起了更大的轟動(dòng)，其本身也是技術(shù)上的進(jìn)一步創(chuàng)新，但我們也無(wú)法忽視Sora目前存在的多種局限性。首先在能力上Sora距離可實(shí)用還有較大距離，OpenAI明確表示Sora雖然能理解部分因果關(guān)系與物理現(xiàn)象，但難以在較長(zhǎng)視頻中準(zhǔn)確模擬復(fù)雜場(chǎng)景中的物理現(xiàn)象、可能無(wú)法理解具體的因果關(guān)系、可能混淆提示的空間細(xì)節(jié)以及可能難以準(zhǔn)確描述隨時(shí)間變化的事件。這與我們觀察到的Sora Demo的表現(xiàn)也較為一致，在視頻時(shí)長(zhǎng)拉長(zhǎng)到10秒以上時(shí)，Sora經(jīng)常會(huì)出現(xiàn)在物理定律以及交互過(guò)程中的小錯(cuò)誤。其次成本是Sora無(wú)法忽視的問(wèn)題，Sora采用的Latent空間壓縮，我們進(jìn)行簡(jiǎn)單估算：對(duì)于一個(gè)60幀的視頻（約6-8秒），其需要約6萬(wàn)個(gè)Patches，如果去噪步數(shù)是20的話，相當(dāng)于要生成120萬(wàn)個(gè)Tokens，這是相當(dāng)大的計(jì)算量。同時(shí)考慮到擴(kuò)散模型在實(shí)際使用時(shí)往往需要多次生成的特點(diǎn)，實(shí)際計(jì)算量會(huì)遠(yuǎn)超剛剛計(jì)算的120萬(wàn)個(gè)Tokens。相較之下，Gemini是在原有模型上的繼續(xù)迭代，其最大特點(diǎn)是加長(zhǎng)了context window與多模態(tài)能力，這些都是短期內(nèi)更為實(shí)用的更新，在成本可控的條件下，我們更看好Gemini在短期的商業(yè)表現(xiàn)。

風(fēng)險(xiǎn)因素：

AI核心技術(shù)發(fā)展不及預(yù)期風(fēng)險(xiǎn)；科技領(lǐng)域政策監(jiān)管持續(xù)收緊風(fēng)險(xiǎn)；私有數(shù)據(jù)相關(guān)的政策監(jiān)管風(fēng)險(xiǎn)；全球宏觀經(jīng)濟(jì)復(fù)蘇不及預(yù)期風(fēng)險(xiǎn)；宏觀經(jīng)濟(jì)波動(dòng)導(dǎo)致歐美企業(yè)IT支出不及預(yù)期風(fēng)險(xiǎn)；AI潛在倫理、道德、用戶隱私風(fēng)險(xiǎn)；企業(yè)數(shù)據(jù)泄露、信息安全風(fēng)險(xiǎn)；行業(yè)競(jìng)爭(zhēng)持續(xù)加劇風(fēng)險(xiǎn)等。

投資策略：

本次谷歌與OpenAI兩家公司的模型更新仍然是圍繞底層算法層面，尤其是模型的視頻多模態(tài)方面進(jìn)行展開(kāi)，我們維持多模態(tài)與成本降低將是今年AI算法發(fā)展最核心的兩個(gè)主線的判斷。從技術(shù)角度，Sora所展現(xiàn)出來(lái)的框架能力更為驚艷，背后的涌現(xiàn)能力為自動(dòng)駕駛、設(shè)計(jì)等需要現(xiàn)實(shí)世界建模的行業(yè)提供了明確方向，但其技術(shù)成熟度還處在早期階段，同時(shí)成本開(kāi)銷過(guò)于巨大。相較而言，Gemini在短期內(nèi)的部分商業(yè)場(chǎng)景表現(xiàn)可能會(huì)更為出色，尤其是需要結(jié)合圖片與文字的多模態(tài)應(yīng)用場(chǎng)景。除去應(yīng)用端的投資機(jī)會(huì)，硬件端的需求也必然會(huì)隨著多模態(tài)的技術(shù)進(jìn)步而不斷提高，我們?nèi)匀怀掷m(xù)看好AI算力層面，尤其是得益于商業(yè)端成熟而帶來(lái)的更多的AI推理側(cè)算力的機(jī)會(huì)。

智通聲明：本內(nèi)容為作者獨(dú)立觀點(diǎn)，不代表智通財(cái)經(jīng)立場(chǎng)。未經(jīng)允許不得轉(zhuǎn)載，文中內(nèi)容僅供參考，不作為實(shí)際操作建議，交易風(fēng)險(xiǎn)自擔(dān)。更多最新最全港美股資訊，請(qǐng)點(diǎn)擊下載智通財(cái)經(jīng)App

2024-02-19 07:28 黃曉冬

OpenAI Sora：“原始版”世界模擬器我們離黑客帝國(guó)還有多遠(yuǎn)？

2024-02-17 20:12 智通轉(zhuǎn)載

AI界一夜變天

2024-02-17 19:00 智通轉(zhuǎn)載

國(guó)泰君安：OpenAI發(fā)布Sora AI生成視頻的里程碑

2024-02-17 10:17 李程

浙商證券：OpenAI&谷歌相繼發(fā)力有望引領(lǐng)多模態(tài)大模型浪潮

2024-02-17 09:01 李程