沒有絲毫預(yù)熱和劇透,Open AI深夜直接丟下核彈炸了街,從業(yè)者深感要變天。
2月16日凌晨,Open AI發(fā)布了首個“文生視頻”模型Sora。官方介紹,Sora能根據(jù)文字指令創(chuàng)造出包含豐富細(xì)節(jié)的逼真場景、角色,且能用多角度鏡頭,生成一鏡到底的60秒長視頻。
目前官網(wǎng)上已經(jīng)更新了48個樣片,視頻中人物、背景都具有驚人的一致性。并且借助于對語言的深刻理解,Sora創(chuàng)造出的角色能表達(dá)豐富的情感。
更令業(yè)內(nèi)驚嘆的是,Sora身上似乎開始出現(xiàn)“世界模型”的雛形。通過大量觀察訓(xùn)練,它學(xué)會了許多關(guān)于真實(shí)世界的物理規(guī)律。
要知道,原先動畫影視公司為讓動物的數(shù)百萬根毛發(fā)、皮膚紋理、衣物等細(xì)節(jié)在3D建模中表現(xiàn)得如現(xiàn)實(shí)場景般真實(shí),為此專門成立研究部門,且投入了不菲的成本和時間才得以實(shí)現(xiàn)。而如今,Sora只需要一行描述、幾次提示便能自動完成。
雖然Open AI坦言Sora仍有一些效果上的瑕疵,也因潛在的風(fēng)險暫未對公眾開放。但憑借著極度真實(shí)的視覺效果,這一足以“模糊虛實(shí)”的王炸級技術(shù),正粗暴地沖擊著大眾心智。
事實(shí)上,文生視頻并非Open AI的獨(dú)門,賽道早已涌入大量玩家。去年下半年開始,谷歌、Meta及部分AI創(chuàng)業(yè)公司相繼下場試水,國內(nèi)的字節(jié)跳動也于11月推出了文生視頻模型Pixel Dance,阿里云的Animate Anyone以及百度文心大模型的類似功能同樣在內(nèi)測。
入局者眾多,但各家效果卻未達(dá)預(yù)期,當(dāng)Runway Gen2、Pika、PixVerse等AI視頻工具還在突破數(shù)秒內(nèi)的連貫性時,Sora已經(jīng)將時長拉至1分鐘,大幅度拉高生成視頻的可用性。影眸科技CTO張啟煊評價道,Sora跟Pika、Runway及同類玩家已拉開代差。
顛覆性的效果,伴隨的是顛覆性的思路。360董事長周鴻祎指出,現(xiàn)在所有文生圖、視頻的模型都是在2D平面上對圖形元素進(jìn)行操作,并未適用物理定律。
而Open AI利用了其大語言模型優(yōu)勢,將LLM和Diffusion結(jié)合訓(xùn)練,通過學(xué)習(xí)視頻,理解現(xiàn)實(shí)世界的動態(tài)變化規(guī)律,并模擬、創(chuàng)造出新的視覺內(nèi)容,由此產(chǎn)生的視頻真實(shí)感十足。
回溯來看,文生視頻能蔚然成風(fēng),成為全球新一輪AIGC競賽的焦點(diǎn),因?yàn)榇蠹叶夹岬搅硕桃曨l在全球直播電商、內(nèi)容創(chuàng)作等新興行業(yè)的巨大機(jī)遇。周鴻祎就認(rèn)為,Sora可能給廣告業(yè)、電影預(yù)告片、短視頻行業(yè)帶來巨大顛覆,成為激發(fā)創(chuàng)作力的工具。
AI從業(yè)者更一葉知秋地感受到,Sora在展示視頻制作能力外,更多暗含的是大模型逐漸掌握對真實(shí)世界的理解及模擬能力后,可能會帶來更驚嘆的突破和成果。
有強(qiáng)勁大模型的底座、基于對人類語言的解析、對人類知識和世界模型的了解,再疊加其他技術(shù),周鴻祎認(rèn)為這便可以創(chuàng)造各個領(lǐng)域的超級工具。因?yàn)檫@種“先記憶,再預(yù)測”,正是人類理解并與世界交互的方式。
他舉例稱 ,Sora對物理世界的模擬,就會對智能駕駛領(lǐng)域產(chǎn)生巨大影響。原先智駕“重感知”卻“輕認(rèn)知”,他認(rèn)為人在駕駛時的很多判斷,是基于對這個世界的理解,缺乏這一點(diǎn)很難做出真正的無人駕駛。
行業(yè)專家普遍認(rèn)為,應(yīng)用層面衍化的終局,便是真正通用人工智能(AGI)時代的到來。
Sora的技術(shù)文檔就寫道,“我們的結(jié)果表明,視頻生成模型是有希望向構(gòu)建通用物理世界模擬器邁進(jìn)的路徑”。
“一旦人工智能接上攝像頭,把所有電影、視頻都看一遍,其對世界的理解將遠(yuǎn)超文字學(xué)習(xí)。AGI真的就不遠(yuǎn)了,不是10-20年的問題,可能一兩年就能實(shí)現(xiàn)?!敝茗櫟t如是說道。
“我相信Open AI手里或許還藏著一些秘密武器,無論是GPT-5,還是機(jī)器學(xué)習(xí)自動產(chǎn)生內(nèi)容?!敝茗櫟t稱,“奧特曼是個營銷大師,知道怎樣掌握節(jié)奏”。
這與Sam Altman要籌集7萬億美元,塑全球AI芯片基礎(chǔ)設(shè)施的野心形成閉環(huán),因?yàn)橥ㄍㄓ萌斯ぶ悄艿牡缆飞?,需要極為龐大的算力。
近期有投資界人士透露,Open AI正討論新一輪融資,估值高達(dá)千億美元。作為頭羊,有著獨(dú)霸AI行業(yè)、重塑全球AI芯片行業(yè)的龐大野心的Open AI,勢必要借助資本的助推不斷滾雪球。
回溯來看,在這場AI公司、資本交織的游戲中,技術(shù)迭代一直是跳躍式的,并不會給大家慢慢來的時間。
未來的世界和AI行業(yè)究竟會駛向何方?還難以斷言,但眼下的2024,必將又是刺激的一年。
本文轉(zhuǎn)自" 華爾街見聞",智通財(cái)經(jīng)編輯:葉志遠(yuǎn)。