智通財經(jīng)APP獲悉,天風證券發(fā)布研報認為,GPT-4o的發(fā)布代表了OpenAI模型作為智能代理的初次亮相,即它展示了更強的交互的能力,包括數(shù)據(jù)理解和分析能力、視覺理解能力、情感識別和輸入、更流暢的交流體驗。隨著跨越文本、音頻和視頻的端到端模型GPT-4o的推出,預(yù)計OpenAI未來模型將在多模態(tài)能力方面不斷提升。同時,Google在發(fā)布會上展示了其Gemini1.5模型的出色能力。從長期來看,該團隊認為今年最值得關(guān)注的是模型架構(gòu)和算力結(jié)構(gòu)的變化,特別是大模型加上數(shù)量價值的變化。
GPT-4o:5月14日凌晨,美國OpenAI公司推出可免費使用的全新旗艦AI模型GPT-4o。1)多模態(tài):接受任何文本、音頻、圖像和視頻的組合作為輸入,并生成任何文本、音頻和圖像輸出的組合。2)響應(yīng)速度快:可以在短至232毫秒、平均320毫秒的時間內(nèi)響應(yīng)音頻輸入,與人類在對話中的反應(yīng)速度一致。3)語言和代碼能力出色:在英文文本和代碼上與GPT-4 Turbo的性能相匹配,在非英文文本上有了顯著提升。4)使用成本低:在API使用方面,GPT-4o較之前版本價格降低一半且速度有所提升。
谷歌I/O開發(fā)者大會:5月15日凌晨,谷歌在2024年I/O開發(fā)者大會上發(fā)布了一系列AI產(chǎn)品,重磅級的發(fā)布包括輕量化的模型Gemini 1.5 Flash、AI智能代理Project Astra、視頻生成大模型VEO、強大的AI搜索、視頻生成模型Veo、第六代TPU Trillium等,Gemini 1.5 Pro的上下文窗口也從100萬tokens升級到200萬。
GPT-4o模型的多模態(tài)能力為AI交互體驗帶來了革命性的變化,能夠同時處理和生成文本、音頻和圖像,同時谷歌發(fā)布會GoogleI/O 2024發(fā)布會推出了多款重磅AI相關(guān)產(chǎn)品,AI技術(shù)迭代將在多個領(lǐng)域為用戶帶來更好的體驗感:1)教育:GPT-4o 可以提供更加個性化、深入的教學輔助,為學生提供更豐富的學習資源和定制化的學習體驗。2)AI助手:GPT-4o的智能程度更高,能夠更準確地理解用戶需求,理解用戶的情感,提供更加智能、自然的對話交互,并且能夠更好地處理復(fù)雜任務(wù)和多輪對話。3)數(shù)據(jù)分析:GPT-4o能夠更快速地處理大規(guī)模數(shù)據(jù),并且具備更深層次的理解和推理能力,可以更快地發(fā)現(xiàn)數(shù)據(jù)中的模式和趨勢,提供更加精準的數(shù)據(jù)分析和預(yù)測。4)AR/VR領(lǐng)域:為AR/VR應(yīng)用提供更加智能、自然的交互體驗,使用戶感受到更加沉浸式的虛擬世界,并且能夠根據(jù)用戶的反饋和環(huán)境變化實時調(diào)整交互內(nèi)容。
風險提示:AI發(fā)展不及預(yù)期、AI商業(yè)化不及預(yù)期、AI競爭加劇