智通財經(jīng)APP獲悉,中金公司發(fā)布研究報告稱,OpenAI在北京時間2023年3月15日發(fā)布了多模態(tài)預訓練大模型GPT-4,性能更加出色并支持多模態(tài)輸入。目前,GPT-4已可在ChatGPT Plus和API調(diào)用中使用。本次GPT-4發(fā)布是“文-圖-視頻”多模態(tài)趨勢的向前一步,短期有望催化AI發(fā)展生態(tài),長期關(guān)注應用端更多可能性。
▍中金公司主要觀點如下:
GPT-4開啟多模態(tài)時代,接受包含文本和圖片的輸入,理解能力強大。
GPT-4可以根據(jù)文本和圖片的混合輸入生成文本輸出(包括自然語言和代碼)。在含有文本和照片的文檔、圖表或屏幕截圖等領(lǐng)域中,GPT-4的表現(xiàn)都非常出色,能夠理解“梗圖”、做計算題以及總結(jié)論文。
它也可以通過測試時技術(shù)(Test-Time Techniques)如few-shot和chain-of-thought prompting進一步擴展能力,圖片功能目前仍處研究階段,暫不對外開放。
高難度閾值與GPT-3.5的對比及基于傳統(tǒng)的機器學習基準,GPT-4均效果更佳。
相比前代GPT-3.5,GPT-4在處理復雜任務時表現(xiàn)更為出色,在各大面向人類的考試中,GPT-4展示出了更高的準確性、可靠性、創(chuàng)造力和理解能力,比如在Uniform Bar Exam中,ChatGPT的成績排名在后10%,而GPT-4的百分位在前10%。
在傳統(tǒng)機器學習的基準測試上,GPT-4比包括SOTA在內(nèi)的其他大型語言模型表現(xiàn)更優(yōu)異,MMLU的基準上高出11.2%。在測試的26種語言的24種中,GPT-4優(yōu)于其他大語言模型的英語性能。
GPT-4也已被應用在了在OpenAI內(nèi)部,例如內(nèi)容生成、銷售和編程,并在模型訓練的第二階段負責輸出評估、對齊工作。
此外,OpenAI開源了用于評價大語言模型的開源框架OpenAI Evals。這個框架可以幫助研究人員和開發(fā)者評估他們的模型,并提供更好的指導。
GPT-4進一步重視安全性,生成回復的正確性得到了重點優(yōu)化。
OpenAI強調(diào)對模型進行評估和監(jiān)控的重要性,以避免潛在的安全隱患。在OpenAI內(nèi)部的對抗性真實性評估中,GPT-4的得分比GPT-3.5模型高出40%、對不允許內(nèi)容的請求響應傾向降低了82%、對敏感請求(如醫(yī)療建議和自我傷害)的響應相符合政策的程度提高了29%。
不足之處在于,GPT-4仍缺乏對其數(shù)據(jù)截止日期(2021年9月)之后事件的了解,也難以從經(jīng)驗中學習,經(jīng)過后訓練的GPT-4的校準率低于基礎(chǔ)預訓練模型。
綜合來看,GPT-4是大模型進軍多模態(tài)的重要突破,有望打開應用天花板。
該行認為,本次GPT-4發(fā)布是“文-圖-視頻”多模態(tài)趨勢的向前一步,短期有望催化AI發(fā)展生態(tài),長期關(guān)注應用端更多可能性。
風險
技術(shù)進展不及預期,行業(yè)競爭加劇,商業(yè)化落地節(jié)奏不及預期。