信達(dá)證券：OpenAI推出最新模型GPT-4o 谷歌(GOOGL.US)推出多款新模型

作者：智通財經(jīng) 劉璇 2024-05-17 15:28:20

北京時間5月14日凌晨，OpenAI 發(fā)布了最新模型 GPT-4o，GPT-4o接受文本、音頻和圖像的任意組合作為輸入，并生成文本、音頻和圖像的任意組合輸出。次日凌晨，Google I/O 開發(fā)者大會正式開幕。公司更新Gemini1.5Pro，引入了 1.5Flash 較小型號的 Gemini 版本，同時也增加了兩個新的 Gemma 模型。

智通財經(jīng)APP獲悉，北京時間5月14日凌晨，OpenAI 發(fā)布了最新模型 GPT-4o;次日凌晨，Google I/O 開發(fā)者大會正式開幕，推出多款新模型。信達(dá)證券認(rèn)為，根據(jù)傳統(tǒng)基準(zhǔn)測試，GPT-4o 在文本、推理和編碼智能方面實現(xiàn)了 GPT-4 Turbo 級別的性能，同時在多語言、音頻和視覺功能上設(shè)置了新的高水位線；在生成式人工智能 AI 競爭中，從谷歌在本次開發(fā)者大會上發(fā)布的內(nèi)容可以看出其在 AI 領(lǐng)域的積淀和步伐愈發(fā)穩(wěn)健深厚。

事件：

北京時間5月14日凌晨，OpenAI 發(fā)布了最新模型 GPT-4o，GPT-4o(“o”代表“omni”)接受文本、音頻和圖像的任意組合作為輸入，并生成文本、音頻和圖像的任意組合輸出。GPT-4o可以在短至 232 毫秒的時間內(nèi)響應(yīng)音頻輸入，平均為 320 毫秒，與人類的響應(yīng)時間相似。它在英語文本和代碼上的性能與 GPT-4 Turbo 的性能相匹配，在非英語文本上的性能顯著提高。與現(xiàn)有模型相比，GPT-4o 在視覺和音頻理解方面尤其出色。

GPT-4o 的文本和圖像功能 5 月 14 日已經(jīng)開始在 ChatGPT 中推出。OpenAI正在免費套餐中提供 GPT-4o，并向 Plus 用戶提供高達(dá) 5 倍的消息限制，未來幾周將在 ChatGPT Plus 中推出新版語音模式 GPT-4o 的 alpha 版。開發(fā)人員現(xiàn)在還可以在 API 中訪問 GPT-4o 作為文本和視覺模型。與 GPT-4 Turbo 相比，GPT-4o 速度提高 2 倍，價格降低一半，速率限制提高 5 倍。OpenAI 計劃在未來幾周內(nèi)在 API 中向一小部分值得信賴的合作伙伴推出對GPT-4o 新音頻和視頻功能的支持。

在 OpenAI 發(fā)布會上，團(tuán)隊展示了 GPT-4o 的多個功能。包括實時語音交流能力，幾乎無延遲，達(dá)到真人聊天的水平;可以識別用戶的語音情緒，語音有情感;可以使用不同語言(英語、意大利語)和多人同時交互;在語音的同時可以與視頻實時交互;實時交流，協(xié)助閱讀代碼，指導(dǎo)編程;實時視頻聊天, 并識別情緒等。

北京時間5月15日凌晨，Google I/O 開發(fā)者大會正式開幕。公司更新了Gemini1.5Pro，引入了 1.5Flash 較小型號的 Gemini 版本，同時也增加了兩個新的 Gemma 模型。Gemini 1.5 Pro：普通版本配備了 100 萬 token 上下文窗口，而 Gemini 1.5 Pro 將在 Google AI Studio 或適用于 Google Cloud 客戶的 Vertex AI 中的候補(bǔ)名單中擁有 200 萬個代幣上下文窗口。在智能代理領(lǐng)域，谷歌展示了其最新的人工智能代理 Google Astra 項目，可與用戶實現(xiàn)多模態(tài)交互。

多模態(tài)領(lǐng)域，谷歌推出全新視頻生成模型 Veo，可生成各種電影和視覺風(fēng)格的高質(zhì)量 1080p 分辨率視頻，時間可以超過一分鐘;升級了文生圖新模型Imagen3，對圖像細(xì)節(jié)的把控度更高;發(fā)布了人工智能音樂生成模型 Lyria。以及在 AI 搜索功能、照片問詢功能均實現(xiàn)了一定程度的升級迭代。

點評：

OpenAI 打造全新多模態(tài)融合、高擬人情感、實時低延遲交互的“個人超級 AI 語音助手”，推出 GPT-4o 全新旗艦人工智能模型。根據(jù)傳統(tǒng)基準(zhǔn)測試，GPT-4o 在文本、推理和編碼智能方面實現(xiàn)了 GPT-4 Turbo 級別的性能，同時在多語言、音頻和視覺功能上設(shè)置了新的高水位線。GPT-4o 能夠接受文本、音頻和圖像的任意組合作為輸入，并生成文本、音頻和圖像的任意組合輸出，輸入輸出均由同一神經(jīng)網(wǎng)絡(luò)處理。同時，在用戶情緒感知和語義理解上，GPT-4o 也展現(xiàn)得較為出色，用戶可以在對話中隨時打斷，并且可以根據(jù)用戶需要改變語音語調(diào)來滿足用戶的情緒變化，有望逐漸成為個人用戶在終端設(shè)備上的具備強(qiáng)擬人化、可交互性高、高智商、高情商的私人助理管家。

免費提供給所有用戶使用，付費用戶享受 5 倍調(diào)用額度，大模型本身的技術(shù)迭代帶來的成本降低有望使個人或企業(yè)用戶深度受益。每周都有超過一億人使用 ChatGPT。OpenAI 將在未來幾周內(nèi)開始向 ChatGPT免費用戶推出更多智能和高級工具。使用 GPT-4o 時，ChatGPT 免費用戶現(xiàn)在可以訪問以下功能：體驗 GPT-4 大模型的回答;獲取來自模型和互聯(lián)網(wǎng)的回復(fù);分析數(shù)據(jù)并創(chuàng)建圖表;聊聊用戶拍攝的圖片;上傳文件并提供幫助、總結(jié)、寫作或分析;發(fā)現(xiàn)并使用 GPT 和 GPT 商店;使用 Memory 打造更有幫助的體驗。

OpenAI 推出新的桌面應(yīng)用程序，簡化用戶的工作流程。對于免費和付費用戶，OpenAI 推出了適用于 macOS 的新 ChatGPT 桌面應(yīng)用程序，該應(yīng)用程序旨在無縫集成到用戶在計算機(jī)上執(zhí)行的任何操作。通過簡單的鍵盤快捷鍵(Option+Space)，用戶既可向 ChatGPT 提問，還可以直接在應(yīng)用程序中截取屏幕截圖并進(jìn)行討論。同時，用戶可以直接從計算機(jī)與 ChatGPT 進(jìn)行語音對話，目前暫時提供 ChatGPT 發(fā)布時提供的語音模式，新的音頻和視頻功能將在未來推出。同時，從發(fā)布會當(dāng)日開始，OpenAI 將向 Plus 用戶推出適配于 macOS 的應(yīng)用程序，并將在未來幾周內(nèi)更廣泛地提供該應(yīng)用程序，Windows 版本計劃在今年晚些時候推出。應(yīng)用程序簡化了 ChatGPT 的界面外觀，整體 UI 設(shè)計更加友好具備交互性。

北京時間 5 月 15 日凌晨，Google I/O 開發(fā)者大會正式開幕，在生成式人工智能 AI 競爭中，從谷歌在本次開發(fā)者大會上發(fā)布的內(nèi)容可以看出其在 AI 領(lǐng)域的積淀和步伐愈發(fā)穩(wěn)健深厚。2023 年 12 月，谷歌發(fā)布了 Gemini1.0;2024年 2 月，谷歌發(fā)布了 Gemini1.5 Pro，是第一個具有 100 萬 tokens 的模型，同時也推出了輕量級的開源模型 Gemma。在本次谷歌開發(fā)者大會上，公司更新了 Gemini1.5Pro，引入了 1.5Flash 較小型號的 Gemini 版本，同時也增加了兩個新的 Gemma 模型。

Gemini 1.5 Pro：普通版本配備了 100 萬 token 上下文窗口，而 Gemini 1.5 Pro 將在 Google AI Studio 或適用于 Google Cloud 客戶的 Vertex AI 中的候補(bǔ)名單中擁有 200 萬個代幣上下文窗口。Gemini 1.5Flash 針對較窄或高頻的任務(wù)進(jìn)行了優(yōu)化，達(dá)到較快的響應(yīng)時間速度，更具備成本效益，同時上下文窗口也突破到了 100 萬 token。

谷歌即將于 2024 年 6 月推出 Gemma2 大模型，模型參數(shù)量提高至 270 億，其性能優(yōu)于一些尺寸超過其兩倍的模型，并且可以在 GPU 或 Vertex AI 中的單個 TPU 主機(jī)上高效運行。

人工智能代理 Google Astra 項目：作為智能體，需要像人類一樣理解和響應(yīng)復(fù)雜且動態(tài)的世界，并吸收并記住所看到和聽到的內(nèi)容，以了解上下文并采取行動。它還需要主動、可教和個性化，以便用戶可以自然地與它交談，沒有滯后或延遲。2024 年谷歌開發(fā)者大會上，DeepMind 團(tuán)隊展示了多模態(tài)理解和實時對話的能力，希望構(gòu)建一個在日常生活中有用的通用代理。和OpenAI 剛發(fā)布的 AI 語音助手 GPT-4o 相比，Astra 在相應(yīng)的延時、語氣情緒的感知以及可打斷性來看還有提升空間。

谷歌推出全新視頻生成模型 Veo。可生成各種電影和視覺風(fēng)格的高質(zhì)量1080p 分辨率視頻，時間可以超過一分鐘，在視頻細(xì)節(jié)上更能清晰把握創(chuàng)作者的意圖。提供了較強(qiáng)的創(chuàng)意控制水平，并理解“延時拍攝”或“風(fēng)景空中拍攝”等電影術(shù)語。Veo 創(chuàng)建一致且連貫的鏡頭，因此人物、動物和物體在整個鏡頭中移動逼真。Veo 以谷歌多年的生成視頻模型工作為基礎(chǔ)，包括生成查詢網(wǎng)絡(luò)(GQN)、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet 和 Lumiere — 結(jié)合架構(gòu)、縮放法則和其他新穎技術(shù)來提高質(zhì)量和輸出分辨率。谷歌升級了文生圖新模型 Imagen3。Imagen3 在圖像生成的細(xì)節(jié)、光照等方面表現(xiàn)較優(yōu)，和之前的文生圖模型相比，其分散注意力的視覺偽影要少很多，Imagen3 可以更好理解自然語言、提示背后的意圖并融合較長提示中的微小細(xì)節(jié)，同時更好控制圖像一致性。

谷歌發(fā)布了人工智能音樂生成模型 Lyria。與 YouTub 以及一些出色的音樂家、歌曲作者和制作人合作去開發(fā)一套名為 Music AI Sandbox 的音樂 AI 工具。這些工具旨在為創(chuàng)造力開辟一個新的游樂場，讓人們從頭開始創(chuàng)建新的樂器部分，以新的方式改變聲音等。

同時，谷歌針對谷歌搜索、Ask Photo 等功能均做出了一定程度的升級更新。從發(fā)布會后開始，谷歌將在美國向用戶推出經(jīng)過全面改造的“AI 概覽”的搜索體驗，即在搜索框下面單獨展現(xiàn)出 AI Overview 的內(nèi)容來給用戶更好的服務(wù)響應(yīng)，滿足用戶提出新類型的問題、更長、更復(fù)雜的查詢，甚至使用照片進(jìn)行搜索，并獲得網(wǎng)絡(luò)所提供的最佳信息。以及將在 24 年夏天推出“詢問照片”功能，滿足用戶搜索照片信息的需求。

建議關(guān)注：1)AI 陪伴+IP：湯姆貓、上海電影、奧飛娛樂、華策影視、中文在線;2)AI+搜索：昆侖萬維、三六零等;3)AI+影視：華策影視、慈文傳媒、上海電影;4)AI+IP(涉及版權(quán)、算料等)：芒果超媒、中廣天擇、華數(shù)傳媒、中文在線等;5)AI+出版/教育：南方傳媒、皖新傳媒等;6)AI+游戲：巨人網(wǎng)絡(luò)、愷英網(wǎng)絡(luò)、神州泰岳、三七互娛、姚記科技、盛天網(wǎng)絡(luò)等;7)特別提示：微軟系/語音助手類標(biāo)的，紫天科技、易點云、萬興科技、視覺中國、科大訊飛、商湯(港股)等。

風(fēng)險因素：生成式人工智能模型進(jìn)展迭代不及預(yù)期、AI 應(yīng)用進(jìn)展不及預(yù)期

智通聲明：本內(nèi)容為作者獨立觀點，不代表智通財經(jīng)立場。未經(jīng)允許不得轉(zhuǎn)載，文中內(nèi)容僅供參考，不作為實際操作建議，交易風(fēng)險自擔(dān)。更多最新最全港美股資訊，請點擊下載智通財經(jīng)App

相關(guān)閱讀

華創(chuàng)證券：OpenAI發(fā)布GPT-4o AI 應(yīng)用或加速落地

2024-05-17 13:42 李程

國盛證券：網(wǎng)絡(luò)成為 AI 時代的全新“C 位” 降本開放和算力規(guī)模三項平衡引領(lǐng)創(chuàng)新

2024-05-17 10:34 劉璇

盤后一度漲近15%！Reddit(RDDT.US)宣布與OpenAI建立合作伙伴關(guān)系

2024-05-17 08:31 趙錦彬

國泰君安證券：GPT-4o 發(fā)布關(guān)注教育、情感陪伴、虛擬人賽道

2024-05-16 13:59 劉璇

中信建投：OpenAI發(fā)布GPT-4o大模型重點發(fā)力多模態(tài)領(lǐng)域

2024-05-16 07:55 陳筱亦