智通財經(jīng)APP獲悉,國盛證券發(fā)布研報點評AI
時代的網(wǎng)絡(luò)需求與創(chuàng)新方向。該團隊認為大模型時代,模型體積和單卡上限之間的差距迅速拉大,業(yè)界轉(zhuǎn)而尋求多服務(wù)器集群來解決模型訓(xùn)練問題,這構(gòu)成了 AI
時代網(wǎng)絡(luò)“上位”的基礎(chǔ);現(xiàn)如今,“降本”、“開放”和算力規(guī)模之間的平衡將是網(wǎng)絡(luò)創(chuàng)新的主要議題。
網(wǎng)絡(luò)需求從何而來?
進入大模型時代,模型體積和單卡上限之間的差距迅速拉大,業(yè)界轉(zhuǎn)而尋求多服務(wù)器集群來解決模型訓(xùn)練問題,這也構(gòu)成了 AI 時代網(wǎng)絡(luò)“上位”的基礎(chǔ)。同時,相較于過去單純用于傳輸數(shù)據(jù),如今網(wǎng)絡(luò)更多的用于同步顯卡間的模型參數(shù),對于網(wǎng)絡(luò)的密度,容量都提出了更高要求。
日益龐大的模型體積:(1)訓(xùn)練耗時=訓(xùn)練數(shù)據(jù)規(guī)模 x 模型參數(shù)量/計算速率(2)計算速率=單設(shè)備計算速率 x 設(shè)備數(shù) x 多設(shè)備并行效率。當下,業(yè)界對于訓(xùn)練數(shù)據(jù)規(guī)模和參數(shù)的雙重追求下,唯有加速提升計算效率,才能縮短訓(xùn)練耗時,而單設(shè)備計算速率的更新有其周期和限制,因此如何利用網(wǎng)絡(luò)盡可能的擴大“設(shè)備數(shù)”和“并行效率”直接決定了算力。
多卡同步的復(fù)雜溝通:在大模型訓(xùn)練過程中,將模型切分至單卡后,每經(jīng)過一次計算,單卡之間都需要進行對齊(Reduce、Gather 等),同時,在英偉達的通信原語體系 NCCL 中,All-to-All(即所有節(jié)點都可以互相獲取值并對齊)的操作較為常見,因此對網(wǎng)絡(luò)之間的傳輸和交換提出了更高的要求。
愈發(fā)昂貴的故障成本:大模型的訓(xùn)練往往持續(xù)數(shù)月以上,而中間一旦發(fā)生中斷,需要回到幾小時或者幾天前的斷點進行重新訓(xùn)練。而整個網(wǎng)絡(luò)中某一個軟硬件環(huán)節(jié)的故障,或者過高的延遲,都有可能導(dǎo)致中斷。更多的中斷,代表著落后的進度和愈發(fā)高昂的成本?,F(xiàn)代的 AI 網(wǎng)絡(luò),已經(jīng)漸漸發(fā)展成堪比飛機、航母等的人類系統(tǒng)工程能力的結(jié)晶。
網(wǎng)絡(luò)創(chuàng)新將走向何方?
硬件隨需求而動,經(jīng)過兩年,全球算力投資規(guī)模已經(jīng)膨脹到數(shù)百億美元級別,而模型參數(shù)的擴張,巨頭的慘烈廝殺依然激烈。現(xiàn)如今,“降本”、“開放”和算力規(guī)模之間的平衡將是網(wǎng)絡(luò)創(chuàng)新的主要議題。
通信介質(zhì)的更迭:光、銅與硅是人類傳輸?shù)娜蠼橘|(zhì),在 AI 時代,光模塊追求更高速率的同時,也邁出了 LPO、LRO、硅光等降本之路。在當前時間點,銅纜憑借性價比,故障率等因素占領(lǐng)了機柜內(nèi)連接。而 Chiplet,Wafer-scaling 等新半導(dǎo)體技術(shù),則正在加速探索硅基互聯(lián)的上限。
網(wǎng)絡(luò)協(xié)議的競爭:片間通信協(xié)議與顯卡強綁定,如英偉達的 NV-LINK,AMD的 Infinity Fabric 等等,其決定了單臺服務(wù)器或者單個算力節(jié)點的能力上限,是非常殘酷的巨頭戰(zhàn)場。而 IB 與以太網(wǎng)的斗爭則是節(jié)點間通信的主旋律。
網(wǎng)絡(luò)架構(gòu)的變化:當下節(jié)點間網(wǎng)絡(luò)架構(gòu)普遍采用葉脊架構(gòu),葉脊具有便捷、簡單、穩(wěn)定等特點。但隨著單個集群節(jié)點數(shù)增多,葉脊稍顯冗余的架構(gòu)會給超大集群帶來較大的網(wǎng)絡(luò)成本。當下,如 Dragonfly 架構(gòu),rail-only 架構(gòu)等新架構(gòu)有望成為面向下一代超大集群的演進方向。
投資建議:通信系統(tǒng)核心環(huán)節(jié):中際旭創(chuàng)、新易盛、天孚通信、工業(yè)富聯(lián)、英維克、滬電股份。通信系統(tǒng)創(chuàng)新環(huán)節(jié):長飛光纖、太辰光、源杰科技、盛科通信-U、寒武紀、德科立。
風險提示:AI 需求不及預(yù)期,Scaling law 失效,行業(yè)競爭加劇。