中信證券:OpenAI推出GPT新模型 端到端加速邊緣側(cè)落地

該行看好GPT-4o代表的多模態(tài)交互革命,建議重點關(guān)注未來1年內(nèi)可能落地的端側(cè)AI的相關(guān)機會,并持續(xù)關(guān)注應(yīng)用在教育、音視頻社交媒體等領(lǐng)域的相關(guān)落地情況。

智通財經(jīng)APP獲悉,中信證券發(fā)布研究報告稱,OpenAI于北京時間2024年5月14日推出了其最新旗艦AI模型GPT-4o,在保持與GPT-4同等智能水平的基礎(chǔ)上,實現(xiàn)了文本、圖像和語音處理的全面提升,尤其是引入了業(yè)界領(lǐng)先的實時語音功能,同時OpenAI宣布將免費開放GPT-4o給所有用戶,plus用戶僅會優(yōu)先體驗部分功能以及享受每天更高的使用限額。GPT-4o作為一個原生多模態(tài)端到端模型,所有輸入輸出均由同一神經(jīng)網(wǎng)絡(luò)處理,同時整體API價格相比于前代也下降了50%,這為將大型語言模型部署到邊緣設(shè)備提供了可行的技術(shù)路徑。

該行認(rèn)為GPT-4o的推出預(yù)示著交互方式的變革,實時語音輸入與反饋將極大提升用戶交互體驗。該行看好GPT-4o代表的多模態(tài)交互革命,建議重點關(guān)注未來1年內(nèi)可能落地的端側(cè)AI的相關(guān)機會,并持續(xù)關(guān)注應(yīng)用在教育、音視頻社交媒體等領(lǐng)域的相關(guān)落地情況。

中信證券主要觀點如下:

事件背景:

北京時間5月14日,OpenAI宣布推出其最新旗艦AI模型GPT-4o,該模型預(yù)計將在未來幾周逐步融入OpenAI的全線產(chǎn)品。據(jù)OpenAI首席技術(shù)官穆里·穆拉蒂介紹,GPT-4o在保持與GPT-4同等智能水平的同時,在文本與圖像處理上實現(xiàn)了顯著提升,并新引入了實時語音功能。測試數(shù)據(jù)表明,GPT-4o已超越谷歌Gemini等競爭對手,成為市場上領(lǐng)先的多模態(tài)模型。雖然GPT-4o將向ChatGPT的免費用戶提供,但使用上會存在一定限制。Plus用戶將享受比免費用戶多5倍的消息限制,而Team和Enterprise用戶則享有更高限制。

模型概況:基礎(chǔ)性能全方位提升,語音TTS成為最大亮點。

OpenAI研究員William Fedus在發(fā)布會中透露,GPT-4o即是此前在大模型競技場進行A/B測試的模型之一,其elo分?jǐn)?shù)較4月9日的GPT-4 turbo版本提升了4.8%,在語音生成與轉(zhuǎn)換方面表現(xiàn)尤為出色。GPT-4o對音頻輸入的響應(yīng)時間縮短至232毫秒,平均為320毫秒,接近人類的反應(yīng)速度。該模型能夠識別并響應(yīng)用戶的語調(diào)和語速,并在多人對話中準(zhǔn)確區(qū)分不同發(fā)言人的語氣風(fēng)格及情感。在英文文本和代碼處理上,GPT-4o與GPT-4 Turbo表現(xiàn)相當(dāng),但在非英語文本處理上取得了明顯進步。此外,GPT-4o運行效率更高,使用成本較之前API降低了50%,在視覺和音頻理解方面展現(xiàn)了更優(yōu)越的性能。

端到端原生多模態(tài):跨文本、視覺和音頻端到端訓(xùn)練的模型,所有輸入和輸出由同一個神經(jīng)網(wǎng)絡(luò)處理。

GPT-4o是一個原生多模態(tài)融合模型,通過端到端訓(xùn)練,能夠處理文本、音頻和圖像的任意組合輸入,并生成相應(yīng)的多模態(tài)輸出。在語音翻譯任務(wù)中,GPT-4o的表現(xiàn)超過了OpenAI的專業(yè)語音模型Whisper-V3以及谷歌和Meta的語音模型。對比此前ChatGPT處理語音信息的流程:首先將通過一個模型將語音轉(zhuǎn)為文本,然后由GPT-4處理并生成文本,最后再由另一個模型將文本生成為語音,GPT-4o是一個完全重新訓(xùn)練的端到端模型,所有輸入輸出均由同一神經(jīng)網(wǎng)絡(luò)處理,模型可能使用了一種基于神經(jīng)網(wǎng)絡(luò)的流式編碼技術(shù),傳輸運動變化的Token。如果這個可能性成立,OpenAI后續(xù)可以在邊緣設(shè)備上部署一個小型神經(jīng)網(wǎng)絡(luò),并通過評定內(nèi)容長短來為邊緣端分配算力,這為后續(xù)可能的邊緣端部署提供了切實可行技術(shù)手段。

交互革命:交互方式改變?yōu)槎藗?cè)部署提供新的想象空間。

GPT-4o的更新預(yù)示著語言模型交互方式的變革,實時語音輸入與反饋將極大提升用戶交互體驗。此前大模型的端側(cè)部署有兩個較大的問題:1)端側(cè)交互模式受限,大多數(shù)端側(cè)用戶并不能接受一個需要打字輸入的交互模式,而三段式的語音大模型延遲較高。2)端側(cè)成本較高,在成本上無法支持頻繁的端側(cè)調(diào)用。而與以往的語音模型相比,GPT-4o真正解決了實時語音延遲問題,使得高性能大語言模型的端側(cè)部署成為可能。同時在成本方面,GPT-4o也繼續(xù)優(yōu)化API價格,相比于前代繼續(xù)降低50%,流式傳輸?shù)纳窠?jīng)網(wǎng)絡(luò)也為更進一步控制成本提供了可能。此外,OpenAI已宣布,Plus用戶將可立即在MacOS桌面端使用GPT-4o,而Windows和手機端的支持將在年內(nèi)后續(xù)推出。

風(fēng)險因素:

AI核心技術(shù)發(fā)展不及預(yù)期風(fēng)險;科技領(lǐng)域政策監(jiān)管持續(xù)收緊風(fēng)險;私有數(shù)據(jù)相關(guān)的政策監(jiān)管風(fēng)險;全球宏觀經(jīng)濟復(fù)蘇不及預(yù)期風(fēng)險;宏觀經(jīng)濟波動導(dǎo)致歐美企業(yè)IT支出不及預(yù)期風(fēng)險;AI潛在倫理、道德、用戶隱私風(fēng)險;企業(yè)數(shù)據(jù)泄露、信息安全風(fēng)險;行業(yè)競爭持續(xù)加劇風(fēng)險等。

投資策略:

OpenAI推出GPT-4o印證了我們年初的判斷,即OpenAI在2024年將重點發(fā)展易于商業(yè)化落地的多模態(tài)能力。GPT-4o的測試評分證明了端到端模型的商業(yè)潛力,我們認(rèn)為這是實現(xiàn)商業(yè)化的最優(yōu)路徑。鑒于GPT-4o在語音轉(zhuǎn)換和圖片模態(tài)融合方面的能力,我們預(yù)計OpenAI將在年底前推出更多相關(guān)功能,并適配端側(cè)AI。GPT-4o在智能度、延遲性和交互便捷度方面均優(yōu)于Siri,其端到端設(shè)計保證了任務(wù)切換的一致性。當(dāng)前挑戰(zhàn)在于模型的進一步縮小以適應(yīng)端側(cè)硬件性能,我們預(yù)計這一過程需要半年到一年的時間。除了端側(cè)機會,我們還建議關(guān)注教育和音視頻社交媒體領(lǐng)域的應(yīng)用落地情況。

智通聲明:本內(nèi)容為作者獨立觀點,不代表智通財經(jīng)立場。未經(jīng)允許不得轉(zhuǎn)載,文中內(nèi)容僅供參考,不作為實際操作建議,交易風(fēng)險自擔(dān)。更多最新最全港美股資訊,請點擊下載智通財經(jīng)App
分享
微信
分享
QQ
分享
微博
收藏