中信證券:LLaMA3開源發(fā)布 喂入海量訓練數據效果遠超預期

LLaMA-3打破了業(yè)界對Chinchilla定律的認知,證實了通過持續(xù)喂入海量優(yōu)質數據,即使是8B和70B的小模型也能獲得超出預期的能力提升。

智通財經APP獲悉,中信證券發(fā)布研報稱,Meta于北京時間2024年4月18日開源了最新的大語言模型LLaMA-3,提供了8B、70B和400B+三個版本的Dense模型。其中70B版本的性能已達GPT-3.5+水平,逼近GPT-4,而400B+版本有望進一步縮小與GPT-4的差距。LLaMA-3打破了業(yè)界對Chinchilla定律的認知,證實了通過持續(xù)喂入海量優(yōu)質數據,即使是8B和70B的小模型也能獲得超出預期的能力提升。這為通過小模型+大數據的模式在性能和效率間取得更好平衡提供了新思路。

LLaMA-3創(chuàng)新性地使用LLaMA-2模型對訓練數據進行質量把控,但代價在于更加高昂的成本。在明確增加訓練數據量是提升性能的最好方法的前提下,合成數據或將成為高質量數據獲取的主要途徑,其發(fā)展情況將直接影響開源與閉源模型的差距。商業(yè)化方面,Meta已將LLaMA-3應用于全新AI助手,并將通過Facebook、Instagram等平臺和AR眼鏡推出服務。國內廠商可通過中文化微調迅速獲得接近GPT-4水準的基礎模型。

綜上,看好LLaMA-3引領的從應用層到算力層的認知智能變革,建議未來兩個季度內年重點配置高質量訓練數據構建、多模態(tài)大模型研發(fā)、MoE等新型架構創(chuàng)新、算力基礎設施升級等領域的優(yōu)質標的。

中信證券主要觀點如下:

技術迭代:架構小幅更新,性能顯著提升

LLaMA-3在總體架構上延續(xù)了前代的Transformer結構,主要改進包括:1)Token詞典從32K擴展到128K,增強編碼效率2)支持長達8K tokens的上下文輸入,但仍不及競品3)引入Grouped Query Attention (GQA),提高推理效率。根據在MMLU、GPQA、HumanEval等數據集上的評測,LLaMA-3-70B的分數分別達到了82.0分、39.5分、81.7分表現已經超越了Claude-Sonnet、Mistral-Medium等同級別模型,基本達到GPT-3.5+的水平,逼近GPT-4。隨后的LLaMA-3-400B+版本有望進一步縮小與GPT-4的差距,對標Gemini Ultra以及Claude3等模型。

重要突破:打破Chinchilla定律,小模型高效利用海量數據

LLaMA-3顛覆了業(yè)界對Chinchilla定律的認知。其8B、70B版本的訓練數據規(guī)模分別高達15T和50T tokens,遠超Chinchilla定律預測的8B規(guī)模最優(yōu)數據量160B和70B規(guī)模最優(yōu)數據量(1.4T)。這意味著,即使是固定規(guī)模的小模型,只要持續(xù)喂入優(yōu)質數據也能獲得類似對數線性的能力提升。這為性價比優(yōu)化和開源生態(tài)發(fā)展開辟了新的思路,即通過小模型+海量數據的模式,也有望實現性能和效率的兼顧。在有足夠優(yōu)質數據喂養(yǎng)的前提下,中小模型未來的上限可能遠超預期。

數據處理:創(chuàng)新性使用前代模型做質量把關,但成本高昂

LLaMA-3的訓練數據來自Meta內部和外部,并經過了極其縝密的篩選、清洗流程,尤其創(chuàng)新性地使用了LLaMA-2模型本身作為數據質量分類器進行再次清洗。以LLaMA-2-70B的推理成本$1/1M tokens估算,光是對15T規(guī)模的數據進行質量把控,就需要耗資1500萬美元。

可以預見,隨著后續(xù)參數的急劇增長,傳統(tǒng)的人工數據采集和清洗方式將難以為繼,在高昂成本的推動下利用模型合成與清洗新數據是最有效的手段。LLaMA-3已經向我們表明對于當前的參數規(guī)模,不斷擴大訓練集大小仍然是最有效的Scaling手段,因此后續(xù)合成數據技術的發(fā)展情況直接決定了開源模型與閉源模型的差距。如果合成數據技術快速成熟,閉源模型公司能夠通過資源與資本的優(yōu)勢不斷擴充自己的數據集,在高質量合成數據方面與普通的開源模型拉開差距。

商業(yè)化落地:結合LLaMA-3發(fā)布新一代AI助手Meta AI

Meta已經將LLaMA-3應用到了其最新的AI助手產品Meta AI中。用戶可以通過Facebook、Instagram等平臺,以及即將推出的AR眼鏡Ray-Ban,體驗由LLaMA-3驅動的智能對話與任務協助服務。參考LLaMA3 8B模型對于同業(yè)其他小模型的顯著優(yōu)勢,我們認為對于Meta在邊緣端的布局可以投入更高的期待。對于國內廠商而言,LLaMA-3的開源無疑將是重大利好。通過對模型進行中文化微調改造,有望在較短時間內獲得一個接近GPT-4水準的基礎模型,用于支撐面向企業(yè)和個人用戶的大模型應用。

投資策略:

LLaMA-3的發(fā)布打破了業(yè)界對Chinchilla定律的認知,證實了固定規(guī)模小模型也能通過增大優(yōu)質數據量實現顯著性能提升。這意味著高質量訓練數據的獲取成為后續(xù)大模型發(fā)展的關鍵。建議關注在合成數據、自動化數據優(yōu)化等前沿技術領域有突破潛力的企業(yè)。

隨著大模型體量增長,多模態(tài)能力和推理效率成為業(yè)界競爭新焦點。Dense架構在處理圖像、視頻等非結構化數據時效率較低,預計未來1-2年MoE等新型架構將成為主流??春迷谶@一方向有先發(fā)優(yōu)勢的廠商。此外,大模型推理成本和工程效率也是掣肘,建議關注算力芯片、加速卡、大算力平臺等領域的科技公司。

商業(yè)化方面,Meta已將LLaMA-3應用于最新AI助手產品,成熟小模型與垂直場景結合有望催生新增長點。綜上,看好LLaMA-3引領的大模型技術變革,從應用層到模型層再到算力層,認知智能提升將帶來新一輪行業(yè)增長機會。未來3-5年,建議重點配置高質量訓練數據構建、多模態(tài)大模型研發(fā)、MoE等新型架構創(chuàng)新、算力基礎設施升級等領域的優(yōu)質標的。

風險因素:

AI核心技術發(fā)展不及預期風險;科技領域政策監(jiān)管持續(xù)收緊風險;私有數據相關的政策監(jiān)管風險;全球宏觀經濟復蘇不及預期風險;宏觀經濟波動導致歐美企業(yè)IT支出不及預期風險;AI潛在倫理、道德、用戶隱私風險;企業(yè)數據泄露、信息安全風險;行業(yè)競爭持續(xù)加劇風險等。

智通聲明:本內容為作者獨立觀點,不代表智通財經立場。未經允許不得轉載,文中內容僅供參考,不作為實際操作建議,交易風險自擔。更多最新最全港美股資訊,請點擊下載智通財經App
分享
微信
分享
QQ
分享
微博
收藏