信達(dá)證券:OpenAI推出最新模型GPT-4o 谷歌(GOOGL.US)推出多款新模型

北京時間5月14日凌晨,OpenAI 發(fā)布了最新模型 GPT-4o,GPT-4o接受文本、音頻和圖像的任意組合作為輸入,并生成文本、音頻和圖像的任意組合輸出。次日凌晨,Google I/O 開發(fā)者大會正式開幕。公司更新Gemini1.5Pro,引入了 1.5Flash 較小型號的 Gemini 版本,同時也增加了兩個新的 Gemma 模型。

智通財經(jīng)APP獲悉,北京時間5月14日凌晨,OpenAI 發(fā)布了最新模型 GPT-4o;次日凌晨,Google I/O 開發(fā)者大會正式開幕,推出多款新模型。信達(dá)證券認(rèn)為,根據(jù)傳統(tǒng)基準(zhǔn)測試,GPT-4o 在文本、推理和編碼智能方面實現(xiàn)了 GPT-4 Turbo 級別的性能,同時在多語言、音頻和視覺功能上設(shè)置了新的高水位線;在生成式人工智能 AI 競爭中,從谷歌在本次開發(fā)者大會上發(fā)布的內(nèi)容可以看出其在 AI 領(lǐng)域的積淀和步伐愈發(fā)穩(wěn)健深厚。

事件:

北京時間5月14日凌晨,OpenAI 發(fā)布了最新模型 GPT-4o,GPT-4o(“o”代表“omni”)接受文本、音頻和圖像的任意組合作為輸入,并生成文本、音頻和圖像的任意組合輸出。GPT-4o可以在短至 232 毫秒的時間內(nèi)響應(yīng)音頻輸入,平均為 320 毫秒,與人類的響應(yīng)時間相似。它在英語文本和代碼上的性能與 GPT-4 Turbo 的性能相匹配,在非英語文本上的性能顯著提高。與現(xiàn)有模型相比,GPT-4o 在視覺和音頻理解方面尤其出色。

GPT-4o 的文本和圖像功能 5 月 14 日已經(jīng)開始在 ChatGPT 中推出。OpenAI正在免費套餐中提供 GPT-4o,并向 Plus 用戶提供高達(dá) 5 倍的消息限制,未來幾周將在 ChatGPT Plus 中推出新版語音模式 GPT-4o 的 alpha 版。開發(fā)人員現(xiàn)在還可以在 API 中訪問 GPT-4o 作為文本和視覺模型。與 GPT-4 Turbo 相比,GPT-4o 速度提高 2 倍,價格降低一半,速率限制提高 5 倍。OpenAI 計劃在未來幾周內(nèi)在 API 中向一小部分值得信賴的合作伙伴推出對GPT-4o 新音頻和視頻功能的支持。

在 OpenAI 發(fā)布會上,團(tuán)隊展示了 GPT-4o 的多個功能。包括實時語音交流能力,幾乎無延遲,達(dá)到真人聊天的水平;可以識別用戶的語音情緒,語音有情感;可以使用不同語言(英語、意大利語)和多人同時交互;在語音的同時可以與視頻實時交互;實時交流,協(xié)助閱讀代碼,指導(dǎo)編程;實時視頻聊天, 并識別情緒等。

北京時間5月15日凌晨,Google I/O 開發(fā)者大會正式開幕。公司更新了Gemini1.5Pro,引入了 1.5Flash 較小型號的 Gemini 版本,同時也增加了兩個新的 Gemma 模型。Gemini 1.5 Pro:普通版本配備了 100 萬 token 上下文窗口,而 Gemini 1.5 Pro 將在 Google AI Studio 或適用于 Google Cloud 客戶的 Vertex AI 中的候補(bǔ)名單中擁有 200 萬個代幣上下文窗口。在智能代理領(lǐng)域,谷歌展示了其最新的人工智能代理 Google Astra 項目,可與用戶實現(xiàn)多模態(tài)交互。

多模態(tài)領(lǐng)域,谷歌推出全新視頻生成模型 Veo,可生成各種電影和視覺風(fēng)格的高質(zhì)量 1080p 分辨率視頻,時間可以超過一分鐘;升級了文生圖新模型Imagen3,對圖像細(xì)節(jié)的把控度更高;發(fā)布了人工智能音樂生成模型 Lyria。以及在 AI 搜索功能、照片問詢功能均實現(xiàn)了一定程度的升級迭代。

點評:

OpenAI 打造全新多模態(tài)融合、高擬人情感、實時低延遲交互的“個人超級 AI 語音助手”,推出 GPT-4o 全新旗艦人工智能模型。根據(jù)傳統(tǒng)基準(zhǔn)測試,GPT-4o 在文本、推理和編碼智能方面實現(xiàn)了 GPT-4 Turbo 級別的性能,同時在多語言、音頻和視覺功能上設(shè)置了新的高水位線。GPT-4o 能夠接受文本、音頻和圖像的任意組合作為輸入,并生成文本、音頻和圖像的任意組合輸出,輸入輸出均由同一神經(jīng)網(wǎng)絡(luò)處理。同時,在用戶情緒感知和語義理解上,GPT-4o 也展現(xiàn)得較為出色,用戶可以在對話中隨時打斷,并且可以根據(jù)用戶需要改變語音語調(diào)來滿足用戶的情緒變化,有望逐漸成為個人用戶在終端設(shè)備上的具備強(qiáng)擬人化、可交互性高、高智商、高情商的私人助理管家。

免費提供給所有用戶使用,付費用戶享受 5 倍調(diào)用額度,大模型本身的技術(shù)迭代帶來的成本降低有望使個人或企業(yè)用戶深度受益。每周都有超過一億人使用 ChatGPT。OpenAI 將在未來幾周內(nèi)開始向 ChatGPT免費用戶推出更多智能和高級工具。使用 GPT-4o 時,ChatGPT 免費用戶現(xiàn)在可以訪問以下功能:體驗 GPT-4 大模型的回答;獲取來自模型和互聯(lián)網(wǎng)的回復(fù);分析數(shù)據(jù)并創(chuàng)建圖表;聊聊用戶拍攝的圖片;上傳文件并提供幫助、總結(jié)、寫作或分析;發(fā)現(xiàn)并使用 GPT 和 GPT 商店;使用 Memory 打造更有幫助的體驗。

OpenAI 推出新的桌面應(yīng)用程序,簡化用戶的工作流程。對于免費和付費用戶,OpenAI 推出了適用于 macOS 的新 ChatGPT 桌面應(yīng)用程序,該應(yīng)用程序旨在無縫集成到用戶在計算機(jī)上執(zhí)行的任何操作。通過簡單的鍵盤快捷鍵(Option+Space),用戶既可向 ChatGPT 提問,還可以直接在應(yīng)用程序中截取屏幕截圖并進(jìn)行討論。同時,用戶可以直接從計算機(jī)與 ChatGPT 進(jìn)行語音對話,目前暫時提供 ChatGPT 發(fā)布時提供的語音模式,新的音頻和視頻功能將在未來推出。同時,從發(fā)布會當(dāng)日開始,OpenAI 將向 Plus 用戶推出適配于 macOS 的應(yīng)用程序,并將在未來幾周內(nèi)更廣泛地提供該應(yīng)用程序,Windows 版本計劃在今年晚些時候推出。應(yīng)用程序簡化了 ChatGPT 的界面外觀,整體 UI 設(shè)計更加友好具備交互性。

北京時間 5 月 15 日凌晨,Google I/O 開發(fā)者大會正式開幕,在生成式人工智能 AI 競爭中,從谷歌在本次開發(fā)者大會上發(fā)布的內(nèi)容可以看出其在 AI 領(lǐng)域的積淀和步伐愈發(fā)穩(wěn)健深厚。2023 年 12 月,谷歌發(fā)布了 Gemini1.0;2024年 2 月,谷歌發(fā)布了 Gemini1.5 Pro,是第一個具有 100 萬 tokens 的模型,同時也推出了輕量級的開源模型 Gemma。在本次谷歌開發(fā)者大會上,公司更新了 Gemini1.5Pro,引入了 1.5Flash 較小型號的 Gemini 版本,同時也增加了兩個新的 Gemma 模型。

Gemini 1.5 Pro:普通版本配備了 100 萬 token 上下文窗口,而 Gemini 1.5 Pro 將在 Google AI Studio 或適用于 Google Cloud 客戶的 Vertex AI 中的候補(bǔ)名單中擁有 200 萬個代幣上下文窗口。Gemini 1.5Flash 針對較窄或高頻的任務(wù)進(jìn)行了優(yōu)化,達(dá)到較快的響應(yīng)時間速度,更具備成本效益,同時上下文窗口也突破到了 100 萬 token。

谷歌即將于 2024 年 6 月推出 Gemma2 大模型,模型參數(shù)量提高至 270 億,其性能優(yōu)于一些尺寸超過其兩倍的模型,并且可以在 GPU 或 Vertex AI 中的單個 TPU 主機(jī)上高效運行。

人工智能代理 Google Astra 項目:作為智能體,需要像人類一樣理解和響應(yīng)復(fù)雜且動態(tài)的世界,并吸收并記住所看到和聽到的內(nèi)容,以了解上下文并采取行動。它還需要主動、可教和個性化,以便用戶可以自然地與它交談,沒有滯后或延遲。2024 年谷歌開發(fā)者大會上,DeepMind 團(tuán)隊展示了多模態(tài)理解和實時對話的能力,希望構(gòu)建一個在日常生活中有用的通用代理。和OpenAI 剛發(fā)布的 AI 語音助手 GPT-4o 相比,Astra 在相應(yīng)的延時、語氣情緒的感知以及可打斷性來看還有提升空間。

谷歌推出全新視頻生成模型 Veo。可生成各種電影和視覺風(fēng)格的高質(zhì)量1080p 分辨率視頻,時間可以超過一分鐘,在視頻細(xì)節(jié)上更能清晰把握創(chuàng)作者的意圖。提供了較強(qiáng)的創(chuàng)意控制水平,并理解“延時拍攝”或“風(fēng)景空中拍攝”等電影術(shù)語。Veo 創(chuàng)建一致且連貫的鏡頭,因此人物、動物和物體在整個鏡頭中移動逼真。Veo 以谷歌多年的生成視頻模型工作為基礎(chǔ),包括生成查詢網(wǎng)絡(luò)(GQN)、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet 和 Lumiere — 結(jié)合架構(gòu)、縮放法則和其他新穎技術(shù)來提高質(zhì)量和輸出分辨率。谷歌升級了文生圖新模型 Imagen3。Imagen3 在圖像生成的細(xì)節(jié)、光照等方面表現(xiàn)較優(yōu),和之前的文生圖模型相比,其分散注意力的視覺偽影要少很多,Imagen3 可以更好理解自然語言、提示背后的意圖并融合較長提示中的微小細(xì)節(jié),同時更好控制圖像一致性。

谷歌發(fā)布了人工智能音樂生成模型 Lyria。與 YouTub 以及一些出色的音樂家、歌曲作者和制作人合作去開發(fā)一套名為 Music AI Sandbox 的音樂 AI 工具。這些工具旨在為創(chuàng)造力開辟一個新的游樂場,讓人們從頭開始創(chuàng)建新的樂器部分,以新的方式改變聲音等。

同時,谷歌針對谷歌搜索、Ask Photo 等功能均做出了一定程度的升級更新。從發(fā)布會后開始,谷歌將在美國向用戶推出經(jīng)過全面改造的“AI 概覽”的搜索體驗,即在搜索框下面單獨展現(xiàn)出 AI Overview 的內(nèi)容來給用戶更好的服務(wù)響應(yīng),滿足用戶提出新類型的問題、更長、更復(fù)雜的查詢,甚至使用照片進(jìn)行搜索,并獲得網(wǎng)絡(luò)所提供的最佳信息。以及將在 24 年夏天推出“詢問照片”功能,滿足用戶搜索照片信息的需求。

建議關(guān)注:1)AI 陪伴+IP:湯姆貓、上海電影、奧飛娛樂、華策影視、中文在線;2)AI+搜索:昆侖萬維、三六零等;3)AI+影視:華策影視、慈文傳媒、上海電影;4)AI+IP(涉及版權(quán)、算料等):芒果超媒、中廣天擇、華數(shù)傳媒、中文在線等;5)AI+出版/教育:南方傳媒、皖新傳媒等;6)AI+游戲:巨人網(wǎng)絡(luò)、愷英網(wǎng)絡(luò)、神州泰岳、三七互娛、姚記科技、盛天網(wǎng)絡(luò)等;7)特別提示:微軟系/語音助手類標(biāo)的,紫天科技、易點云、萬興科技、視覺中國、科大訊飛、商湯(港股)等。

風(fēng)險因素:生成式人工智能模型進(jìn)展迭代不及預(yù)期、AI 應(yīng)用進(jìn)展不及預(yù)期


智通聲明:本內(nèi)容為作者獨立觀點,不代表智通財經(jīng)立場。未經(jīng)允許不得轉(zhuǎn)載,文中內(nèi)容僅供參考,不作為實際操作建議,交易風(fēng)險自擔(dān)。更多最新最全港美股資訊,請點擊下載智通財經(jīng)App
分享
微信
分享
QQ
分享
微博
收藏