智通財經(jīng)APP獲悉,OpenAI 發(fā)布文生視頻模型 Sora,可遵循用戶的指示生成長達一分鐘的視頻,并保持視覺質(zhì)量。浙商證券發(fā)布研報稱,OpenAI 發(fā)布 Sora 模型,有望開啟多模態(tài)大模型的新一輪浪潮。
以下為研報摘要:
近日,OpenAI 發(fā)布文生視頻模型 Sora,可遵循用戶的指示生成長達一分鐘的視頻,并保持視覺質(zhì)量;而谷歌發(fā)布 Gemini 1.5 Pro 大模型,可支持超長文本上下文推理,并且多模態(tài)能力表現(xiàn)優(yōu)異,可精確捕捉電影視頻細(xì)節(jié)。我們認(rèn)為在 OpenAI、谷歌的引領(lǐng)下,有望開啟多模態(tài)大模型的新一輪浪潮。
OpenAI 發(fā)布 Sora 文生視頻模型,可生成最長一分鐘視頻
北京時間 2024 年 2 月 16 日,OpenAI 發(fā)布文生視頻模型 Sora,可遵循用戶的指示生成長達一分鐘的視頻,并保持視覺質(zhì)量。Sora 能夠生成包含多個角色、特定類型的動作以及主體和背景的準(zhǔn)確細(xì)節(jié)的復(fù)雜場景。在 OpenAI 官網(wǎng)上可看到多個由 Sora 模型生成的視頻案例,如時尚女子在東京街頭、猛犸象在雪原上行走、在藝術(shù)館中邊走邊欣賞藝術(shù)品等等;
Sora 模型基于 DALL-E 和 GPT 模型研究成果,可實現(xiàn)視頻加工、拼接等功能
除了基于文本生成視頻的能力,Sora
模型也可以接受其他輸入,例如預(yù)先存在的圖像或視頻。Sora
能夠執(zhí)行多種圖像和視頻編輯任務(wù),如創(chuàng)建循環(huán)視頻、為靜態(tài)圖像添加動畫、將視頻向前或向后延伸、將兩段視頻進行拼接等。
OpenAI 官方技術(shù)文檔指出,研究人員探索了生成模型在視頻數(shù)據(jù)上的大規(guī)模訓(xùn)練,并在時長、分辨率和寬高比可變的視頻和圖像上聯(lián)合訓(xùn)練了文本條件下的擴散模型。與大語言模型使用文本 Token 不同的是,Sora 模型使用了視覺補丁(Visual Patches)方法,OpenAI 證明了這種視覺補丁的方法在視頻/圖像生成模型中非常有用。
谷歌發(fā)布 Gemini 1.5 Pro 大模型,長文本及多模態(tài)推理能力出色
美國時間 2024 年 2 月 15 日,谷歌發(fā)布基于 MoE 架構(gòu)的 Gemini 1.5 Pro 大模型,是基于前期發(fā)布的 Gemini 1.0 Pro 的更新版本。大模型在處理 530,000 token 文本時,能夠?qū)崿F(xiàn) 100%的檢索完整性,在處理 1,000,000 token 的文本時也可達到 99.7% 的檢索完整性。在多模態(tài)能力方面,Gemini 1.5 Pro 能夠分別在約 11 小時的音頻資料和大約 3 小時的視頻內(nèi)容中,100%成功檢索到各種隱藏的音頻片段或視覺元素。根據(jù)谷歌官網(wǎng)信息,Gemini 1.5 Pro 可實現(xiàn)對阿波羅 11 號的 402 頁飛行記錄、或是 44 分鐘的無聲電影內(nèi)容的準(zhǔn)確推理。
看好 2024 年多模態(tài)大模型以及大模型在 3D 建模、視頻領(lǐng)域迎來爆發(fā)
我們在 2023 年 11 月 15 日發(fā)布的《大地回春,百花齊放——計算機行業(yè) 2024 年度策略》中提出,2024 年國內(nèi)外廠商有望發(fā)布更加復(fù)雜的多模態(tài)大模型,實現(xiàn)文本、語音、圖像以及音視頻等多模態(tài)數(shù)據(jù)的復(fù)雜處理和交互。我們認(rèn)為 OpenAI 發(fā)布 Sora 模型,有望開啟多模態(tài)大模型的新一輪浪潮。