國(guó)金證券:Sora開啟創(chuàng)意領(lǐng)域iPhone時(shí)刻 關(guān)注文生圖/視頻投資機(jī)會(huì)

文生圖和文生視頻是當(dāng)下AI應(yīng)用端落地焦點(diǎn),海外相關(guān)技術(shù)產(chǎn)品迭代迅速。

智通財(cái)經(jīng)APP獲悉,國(guó)金證券發(fā)布研究報(bào)告稱,Sora問世,視頻創(chuàng)作領(lǐng)域迎來“iPhone時(shí)刻”。從本輪AI應(yīng)用端發(fā)展實(shí)踐來看,以文本創(chuàng)作、圖像創(chuàng)作、視頻創(chuàng)意為代表的創(chuàng)意創(chuàng)作領(lǐng)域因其高容錯(cuò)率、高投入度,在AI浪潮之初就被市場(chǎng)廣泛認(rèn)為將會(huì)成為最先被AI深刻賦能的產(chǎn)業(yè)之一。該行認(rèn)為文生圖和文生視頻是當(dāng)下AI應(yīng)用端落地焦點(diǎn),海外相關(guān)技術(shù)產(chǎn)品迭代迅速。國(guó)內(nèi)推薦關(guān)注萬(wàn)興科技(300624.SZ)和美圖公司(01357)等創(chuàng)意軟件龍頭投資機(jī)會(huì)。

國(guó)金證券觀點(diǎn)如下:

Sora問世,視頻創(chuàng)作領(lǐng)域迎來“iPhone時(shí)刻”。

2023年2月15日,OpenAI發(fā)布視頻生成大模型Sora,通過文本指令,Sora可以直接輸出長(zhǎng)達(dá)60秒的高清視頻,包含高度寫實(shí)的背景、復(fù)雜的多角度鏡頭以及富有情感的多角色敘事,更為可貴的是,Sora生成的視頻表現(xiàn)出對(duì)于真實(shí)世界物理常識(shí)的深刻理解。部分媒體報(bào)道驚嘆—“Sora之后,現(xiàn)實(shí)將不再存在”。從本輪AI應(yīng)用端發(fā)展實(shí)踐來看,以文本創(chuàng)作(小說、劇本)、圖像創(chuàng)作(繪畫、平面設(shè)計(jì)、攝影)、視頻創(chuàng)意(廣告、短視頻、傳統(tǒng)影視、游戲)為代表的創(chuàng)意創(chuàng)作領(lǐng)域因其高容錯(cuò)率、高投入度,在AI浪潮之初就被市場(chǎng)廣泛認(rèn)為將會(huì)成為最先被AI深刻賦能的產(chǎn)業(yè)之一;

從本輪AI模型發(fā)展演繹來看,以ChatGPT為代表的文本創(chuàng)作(以Midjourney、Stable Diffusion為代表的圖像創(chuàng)作(以Runway、Sora為代表的視頻創(chuàng)作的發(fā)展速度無疑是極為驚人的。該行認(rèn)為,從文字到圖像到視頻,AI內(nèi)容創(chuàng)作的信息升維越來越考驗(yàn)?zāi)P偷膭?chuàng)作效率與生成結(jié)果的穩(wěn)定性(早期版本的Midjourney存在生成時(shí)間長(zhǎng)、生成結(jié)果違背物理常識(shí)或者“AI感”明顯的問題;Runway Gen-1/2也存在生成視頻時(shí)長(zhǎng)較短且生成視頻邏輯連貫性較弱等缺陷),但正如Midjourney V5/6已逐步廣泛實(shí)現(xiàn)多行業(yè)的商業(yè)化落地,該行認(rèn)為Sora的問世有望推動(dòng)著視頻創(chuàng)作領(lǐng)域的“iPhone時(shí)刻”到來。

Sora取法Tokens文本特征標(biāo)記,是基于Patches視覺特征標(biāo)記的Diffusion Transformer模型。

OpenAI研究團(tuán)隊(duì)從LLM中汲取靈感,認(rèn)為L(zhǎng)LM范式的成功在一定程度上得益于Tokens的使用,故而通過將視頻信息分解為帶有時(shí)空特征的Patches訓(xùn)練了Diffusion Transformer模型。從訓(xùn)練角度而言,基于Patches視覺特征標(biāo)記對(duì)原生視頻進(jìn)行采樣擴(kuò)大了可用樣本的規(guī)模且省去了標(biāo)準(zhǔn)化樣本的步驟。從推理角度而言,基于原生視頻訓(xùn)練的模型在生成新視頻方面改善了構(gòu)圖和取景。OpenAI目前發(fā)布的Sora視頻大模型主要具備文生視頻、視頻編輯、文生圖三類功能,在文生視頻過程中,用戶通過輸入Prompt提示詞(DALL·E生成圖像(Sora生成視頻。

文生圖和文生視頻是當(dāng)下AI應(yīng)用端落地焦點(diǎn),海外相關(guān)技術(shù)產(chǎn)品迭代迅速。

據(jù)Discord,按邀請(qǐng)頁(yè)面流量排序的十大AI應(yīng)用程序中,有5個(gè)是圖片生成應(yīng)用程序,2個(gè)是音頻生成應(yīng)用程序,2個(gè)是視頻生成應(yīng)用程序,其中,Midjourney位列第一,Pika位列第二,圖片約占前10名流量的74%,視頻約占前10名流量的8%。文生圖領(lǐng)域,海外有Adobe(老牌創(chuàng)意軟件巨頭,現(xiàn)已發(fā)布下一代Firefly支持多種文生圖功能)、Midjourney(文生圖模型新銳,現(xiàn)已廣泛實(shí)現(xiàn)商業(yè)化落地)。文生視頻領(lǐng)域,海外有Pika(AI初創(chuàng)公司,支持一鍵生成3秒共計(jì)72幀視頻)、Runway(擁有最早商業(yè)化的T2V模型Runway Gen-2)。

國(guó)內(nèi)推薦關(guān)注萬(wàn)興科技和美圖公司等創(chuàng)意軟件龍頭投資機(jī)會(huì)。

萬(wàn)興于2023年9月宣布即將發(fā)布國(guó)內(nèi)首個(gè)專注于以視頻創(chuàng)意應(yīng)用為核心的百億級(jí)參數(shù)多媒體大模型“天幕”,具備一鍵成片、AI美術(shù)設(shè)計(jì)、文生音樂、音頻增強(qiáng)、音效分析、多語(yǔ)言對(duì)話等核心能力。2022年底至2023全年萬(wàn)興對(duì)旗下T2V/I多款拳頭產(chǎn)品進(jìn)行AI功能更新,AI賦能之下訂閱收入占比及訂閱續(xù)約率取得雙增。美圖公司于2023年12更新視覺大模型MiracleVision 4.0,具備文生視頻、圖生視頻、視頻生視頻等多模態(tài)能力,AI賦能之下訂閱業(yè)務(wù)收入占比逐年增長(zhǎng)。

智通聲明:本內(nèi)容為作者獨(dú)立觀點(diǎn),不代表智通財(cái)經(jīng)立場(chǎng)。未經(jīng)允許不得轉(zhuǎn)載,文中內(nèi)容僅供參考,不作為實(shí)際操作建議,交易風(fēng)險(xiǎn)自擔(dān)。更多最新最全港美股資訊,請(qǐng)點(diǎn)擊下載智通財(cái)經(jīng)App
分享
微信
分享
QQ
分享
微博
收藏