浙商證券：OpenAI&谷歌相繼發(fā)力有望引領(lǐng)多模態(tài)大模型浪潮

作者：智通財經(jīng) 李程 2024-02-17 09:01:15

浙商證券發(fā)布研報稱，OpenAI 發(fā)布 Sora 模型，有望開啟多模態(tài)大模型的新一輪浪潮。

智通財經(jīng)APP獲悉，OpenAI 發(fā)布文生視頻模型 Sora，可遵循用戶的指示生成長達一分鐘的視頻，并保持視覺質(zhì)量。浙商證券發(fā)布研報稱，OpenAI 發(fā)布 Sora 模型，有望開啟多模態(tài)大模型的新一輪浪潮。

以下為研報摘要：

近日，OpenAI 發(fā)布文生視頻模型 Sora，可遵循用戶的指示生成長達一分鐘的視頻，并保持視覺質(zhì)量;而谷歌發(fā)布 Gemini 1.5 Pro 大模型，可支持超長文本上下文推理，并且多模態(tài)能力表現(xiàn)優(yōu)異，可精確捕捉電影視頻細(xì)節(jié)。我們認(rèn)為在 OpenAI、谷歌的引領(lǐng)下，有望開啟多模態(tài)大模型的新一輪浪潮。

OpenAI 發(fā)布 Sora 文生視頻模型，可生成最長一分鐘視頻

北京時間 2024 年 2 月 16 日，OpenAI 發(fā)布文生視頻模型 Sora，可遵循用戶的指示生成長達一分鐘的視頻，并保持視覺質(zhì)量。Sora 能夠生成包含多個角色、特定類型的動作以及主體和背景的準(zhǔn)確細(xì)節(jié)的復(fù)雜場景。在 OpenAI 官網(wǎng)上可看到多個由 Sora 模型生成的視頻案例，如時尚女子在東京街頭、猛犸象在雪原上行走、在藝術(shù)館中邊走邊欣賞藝術(shù)品等等;

Sora 模型基于 DALL-E 和 GPT 模型研究成果，可實現(xiàn)視頻加工、拼接等功能

除了基于文本生成視頻的能力，Sora 模型也可以接受其他輸入，例如預(yù)先存在的圖像或視頻。Sora 能夠執(zhí)行多種圖像和視頻編輯任務(wù)，如創(chuàng)建循環(huán)視頻、為靜態(tài)圖像添加動畫、將視頻向前或向后延伸、將兩段視頻進行拼接等。

OpenAI 官方技術(shù)文檔指出，研究人員探索了生成模型在視頻數(shù)據(jù)上的大規(guī)模訓(xùn)練，并在時長、分辨率和寬高比可變的視頻和圖像上聯(lián)合訓(xùn)練了文本條件下的擴散模型。與大語言模型使用文本 Token 不同的是，Sora 模型使用了視覺補丁(Visual Patches)方法，OpenAI 證明了這種視覺補丁的方法在視頻/圖像生成模型中非常有用。

谷歌發(fā)布 Gemini 1.5 Pro 大模型，長文本及多模態(tài)推理能力出色

美國時間 2024 年 2 月 15 日，谷歌發(fā)布基于 MoE 架構(gòu)的 Gemini 1.5 Pro 大模型，是基于前期發(fā)布的 Gemini 1.0 Pro 的更新版本。大模型在處理 530,000 token 文本時，能夠?qū)崿F(xiàn) 100%的檢索完整性，在處理 1,000,000 token 的文本時也可達到 99.7% 的檢索完整性。在多模態(tài)能力方面，Gemini 1.5 Pro 能夠分別在約 11 小時的音頻資料和大約 3 小時的視頻內(nèi)容中，100%成功檢索到各種隱藏的音頻片段或視覺元素。根據(jù)谷歌官網(wǎng)信息，Gemini 1.5 Pro 可實現(xiàn)對阿波羅 11 號的 402 頁飛行記錄、或是 44 分鐘的無聲電影內(nèi)容的準(zhǔn)確推理。

看好 2024 年多模態(tài)大模型以及大模型在 3D 建模、視頻領(lǐng)域迎來爆發(fā)

我們在 2023 年 11 月 15 日發(fā)布的《大地回春，百花齊放——計算機行業(yè) 2024 年度策略》中提出，2024 年國內(nèi)外廠商有望發(fā)布更加復(fù)雜的多模態(tài)大模型，實現(xiàn)文本、語音、圖像以及音視頻等多模態(tài)數(shù)據(jù)的復(fù)雜處理和交互。我們認(rèn)為 OpenAI 發(fā)布 Sora 模型，有望開啟多模態(tài)大模型的新一輪浪潮。

智通聲明：本內(nèi)容為作者獨立觀點，不代表智通財經(jīng)立場。未經(jīng)允許不得轉(zhuǎn)載，文中內(nèi)容僅供參考，不作為實際操作建議，交易風(fēng)險自擔(dān)。更多最新最全港美股資訊，請點擊下載智通財經(jīng)App

相關(guān)閱讀

“AI信仰”助臺積電(TSM.US)股價狂飆有望重回全球股市“十幻神”

2024-02-16 18:25 盧梭

AI熱潮席卷全球，蘋果(AAPL.US)欲“后發(fā)制人”! Xcode與iOS融AI蓄勢待發(fā)

2024-02-16 16:59 盧梭

效果炸裂！OpenAI發(fā)布首個視頻生成模型Sora：輸文字出視頻

2024-02-16 10:32 魏昊銘

OpenAI再現(xiàn)“人事地震”：創(chuàng)始成員Andrej Karpathy離職

2024-02-14 20:18 馬火敏

年化收入或已超20億 OpenAI躋身增長最快的一批公司之列

2024-02-11 19:56 智通轉(zhuǎn)載

浙商證券：OpenAI&谷歌相繼發(fā)力 有望引領(lǐng)多模態(tài)大模型浪潮

浙商證券：OpenAI&谷歌相繼發(fā)力有望引領(lǐng)多模態(tài)大模型浪潮