智通財經(jīng)APP獲悉,華泰證券發(fā)布研究報告稱,大模型向智能終端側(cè)部署是模型應用的重要方向之一。從OpenAI官方介紹視頻和文檔看,多模態(tài)ChatGPT已能夠較為全面的覆蓋用戶的生活和工作場景。未來隨著模型多模態(tài)能力的迭代完善,或能賦能機器人、汽車等更加復雜的智能終端,AGI更進一步。
華泰證券主要觀點如下:
新版ChatGPT:落地語音對話和識圖功能
9月25日,OpenAI官宣即將在ChatGPT中推出語音和多模態(tài)功能,支持用戶直接與ChatGPT進行語音對話和多模態(tài)圖像問答。未來兩周,新功能將向ChatGPT Plus和Enterprise用戶開放,其中語音對話(需開啟設(shè)置)將在手機的iOS和Android客戶端推出,識圖功能將面向包含網(wǎng)頁端的所有平臺。OpenAI在3月提出的GPT-4多模態(tài)識圖能力正式落地。安全性上,OpenAI通過Red Team測試模型在極端主義和科學領(lǐng)域的風險,且拒絕對圖片中的人進行分析,從而實現(xiàn)負責任的AI。完整版的多模態(tài)ChatGPT將在手機端率先實現(xiàn),或?qū)㈤_啟智能終端時代。
情理之中:復盤OpenAI的多模態(tài)之路
3月14日,OpenAI官宣GPT-4,并在演示和技術(shù)報告中展示了多模態(tài)識圖能力(僅展示了單圖識別)。9月18日,據(jù)The Information信息,出于視覺功能可能被不良利用等安全原因,多模態(tài)功能早期僅向Be My Eyes公司提供,近期OpenAI正準備將其廣泛推出。9月25日,OpenAI官宣驗證了該信息。值得注意的是,The Information還指出OpenAI正在訓練新的多模態(tài)模型Gobi來抗衡Google即將推出的多模態(tài)模型Gemini,而本次的GPT-4V(ison)并非多模態(tài)的Gobi模型。此外,5月18日,ChatGPT iOS發(fā)布時,已支持語音多模態(tài),即Whisper語音轉(zhuǎn)文本輸入。
意料之外:多圖識別、聚焦分析和語音對話
結(jié)合官方發(fā)布的視頻和博客,該行總結(jié)了新版ChatGPT超預期的多模態(tài)能力:1)支持用戶同時上傳多張圖像,并以自然語言的方式提問,ChatGPT將結(jié)合文字與圖像多模態(tài)進行理解和回答,幫助用戶分析日常生活中的問題和工作中的圖表等復雜數(shù)據(jù)。2)ChatGPT手機App內(nèi)置了繪圖工具,支持用戶標注圖像中的具體對象,讓ChatGPT聚焦性的推理作答。3)賦予了ChatGPT語音輸出能力,結(jié)合之前已集成的Whisper語音識別能力,實現(xiàn)了ChatGPT和用戶的完整語音對話,并支持5種音色。
技術(shù)解析:語音新模型+多模態(tài)涌現(xiàn)能力
語音模態(tài),語音輸出功能基于新的文本到語音模型,能夠從文本和樣本語音中生成人類音頻。圖像模態(tài),OpenAI公開了GPT-4V的system card:1)GPT-4V于2022年訓練完成。2)GPT-4V訓練方式與GPT-4相同,先使用互聯(lián)網(wǎng)圖像和文本數(shù)據(jù)進行混合預訓練,來預測下一個單詞;然后通過InstructGPT沿用至今的RLHF(基于人類反饋的強化學習)技術(shù)來用額外數(shù)據(jù)對模型進行微調(diào),實現(xiàn)與人類的對齊。3)在文本和圖像多模態(tài)的混合,以及大規(guī)模模型提供的智能和推理能力下,模型能夠涌現(xiàn)新的能力。
未來布局:多模態(tài)ChatGPT開啟智能終端時代,AGI更進一步
該行認為,大模型向智能終端側(cè)部署是模型應用的重要方向之一。本次ChatGPT更新,完整的語音和多模態(tài)識圖能力率先在手機端實現(xiàn),而PC端的語音功能將被延后,智能終端對多模態(tài)的支持能力優(yōu)勢開始顯現(xiàn)。從OpenAI官方介紹視頻和文檔看,多模態(tài)ChatGPT已能夠較為全面的覆蓋用戶的生活和工作場景。未來隨著模型多模態(tài)能力的迭代完善,或能賦能機器人、汽車等更加復雜的智能終端,AGI更進一步。
風險提示:宏觀經(jīng)濟波動,技術(shù)進步不及預期。本報告內(nèi)容均基于客觀信息整理,不構(gòu)成投資建議。