智通財經(jīng)APP獲悉,東吳證券發(fā)布研究報告稱,GPT產(chǎn)生的重要能力主要來源于海量數(shù)據(jù)為基礎的大模型訓練,未來數(shù)據(jù)將成為AI發(fā)展的勝負手,并有望為中國訓練自己的大模型,走出差異化道路提供重要基礎。公共和垂直行業(yè)數(shù)據(jù)敏感性高,需要具備央國企背景的廠商參與??春萌齻€環(huán)節(jié):1)數(shù)據(jù)運營:該行預計醫(yī)保數(shù)據(jù)將有望成為公共數(shù)據(jù)放開的第一站;2)數(shù)據(jù)基礎設施:有望成為最先放量兌現(xiàn)的環(huán)節(jié)。3)數(shù)據(jù)安全:該行看好具備央國企背景和數(shù)據(jù)安全業(yè)務積累的相關廠商。
東吳證券主要觀點如下:
GPT產(chǎn)生的重要能力主要來源于海量數(shù)據(jù)為基礎的大模型訓練。
GPT-3產(chǎn)生了三個重要能力:語言生成、上下文學習、世界知識,這三個重要能力都源于基于海量數(shù)據(jù)的大模型預訓練:在有3000億單詞的語料上預訓練擁有1750億參數(shù)的模型。海量數(shù)據(jù)為基礎的大模型訓練產(chǎn)生了突現(xiàn)能力(Emergent Ability),帶來了AI研究范式的轉變。只有在訓練數(shù)據(jù)量足夠大時,量變才能引起質(zhì)變。GPT相比于此前模型所具備的“泛化能力”,就是以海量數(shù)據(jù)為基礎產(chǎn)生的。
數(shù)據(jù)是AI的勝負手。
語言包含價值取向,未來想要不被強勢文化壓縮生存空間,中國必須發(fā)展自己的大模型。算法、算力和數(shù)據(jù)是AI發(fā)展的三大重要基礎。展望未來,算法和算力都可以通過挖掘優(yōu)質(zhì)人才、引進優(yōu)秀工程實踐,或者直接購買海外優(yōu)質(zhì)資產(chǎn)追趕,而培養(yǎng)中文環(huán)境的優(yōu)質(zhì)數(shù)據(jù)集、語料庫卻必須長期自我積累沉淀,因此,該行認為未來數(shù)據(jù)將成為AI發(fā)展的勝負手,并有望為中國訓練自己的大模型,走出差異化道路提供重要基礎。
數(shù)據(jù)要素市場建設將提供高質(zhì)量數(shù)據(jù)的基礎。
發(fā)展自己的大模型需要以國內(nèi)數(shù)據(jù)集為重要支撐,而國內(nèi)目前缺乏高質(zhì)量的數(shù)據(jù)集。國家數(shù)據(jù)要素市場建設將為國內(nèi)提供高質(zhì)量的差異化數(shù)據(jù)提供有力支撐。隨著公共數(shù)據(jù)逐步開放運營,垂直行業(yè)數(shù)據(jù)由嚴監(jiān)管向謀發(fā)展轉變,數(shù)據(jù)要素市場化發(fā)展將使得算法廠商能夠獲得質(zhì)量較高的公共和行業(yè)數(shù)據(jù),提高訓練質(zhì)量和效率,進而為國內(nèi)開發(fā)符合自身發(fā)展和價值觀的大模型提供支撐。
投資建議:看好以下三個環(huán)節(jié):1)數(shù)據(jù)運營:該行預計醫(yī)保數(shù)據(jù)將有望成為公共數(shù)據(jù)放開的第一站,重點推薦久遠銀海(002777.SZ),建議關注山大地緯(688579.SH)、中科江南(301153.SZ)等。2)數(shù)據(jù)基礎設施:有望成為最先放量兌現(xiàn)的環(huán)節(jié)。重點推薦深桑達A(000032.SZ),易華錄(300212.SZ),云賽智聯(lián)(600602.SH),建議關注中國電信(601728.SH)。3)數(shù)據(jù)安全:該行看好具備央國企背景和數(shù)據(jù)安全業(yè)務積累的相關廠商。推薦啟明星辰(002439.SZ)、奇安信(688561.SH)、安恒信息(688023.SH)、電科網(wǎng)安(002268.SZ)等。
風險提示:政策推進不及預期;行業(yè)競爭加劇。