AI芯片領(lǐng)域當(dāng)之無愧的領(lǐng)導(dǎo)者英偉達(dá)連續(xù)兩個季度強(qiáng)勁無比的業(yè)績以及極度樂觀的業(yè)績預(yù)期,很大程度上表明今年第二季度是全球AI技術(shù)全面發(fā)展與擴(kuò)張的開端階段,而不是圍繞科技股的泡沫炒作熱潮。更重要的是英偉達(dá)以強(qiáng)勁的業(yè)績向世界宣布:全球正式踏進(jìn)AI時代,以及“算力為王”趨勢所主導(dǎo)的全新技術(shù)篇章拉開帷幕。
隨著近期AI技術(shù)突破,以及AI與應(yīng)用融合趨于完善,全球各企業(yè)競相布局以人工智能為代表的先進(jìn)技術(shù),幫助企業(yè)實(shí)現(xiàn)賦能新業(yè)務(wù),以及優(yōu)化決策流程和經(jīng)營效率,從而催生出對人工智能更多元的定制化需求。IDC最新數(shù)據(jù)顯示,2022年全球人工智能IT總投資規(guī)模為1288億美元,預(yù)計(jì)2027年增至4236億美元,五年復(fù)合增長率(CAGR)約為26.9%。
隨著全球邁入AI時代以及萬物互聯(lián)進(jìn)程加速,意味著全球算力需求迎來爆炸式增長, 尤其是基于AI訓(xùn)練與推理的各項(xiàng)AI細(xì)分任務(wù)涉及大量的矩陣運(yùn)算、神經(jīng)網(wǎng)絡(luò)的前向和反向傳播等對硬件性能要求極高的計(jì)算密集型高強(qiáng)度操作。然而,這些難題遠(yuǎn)非享受摩爾定律紅利多年的CPU所能夠解決。哪怕大量CPU也無法解決這一問題,畢竟 CPU設(shè)計(jì)初衷是在多種常規(guī)任務(wù)之間進(jìn)行通用型計(jì)算,而不是處理天量級別的并行化計(jì)算模式以及高計(jì)算密度的矩陣運(yùn)算。
更重要的是,隨著全球芯片領(lǐng)域的創(chuàng)新與發(fā)展步入“后摩爾時代”(Post-Moore Era),作為曾推動人類社會發(fā)展主力軍的CPU已經(jīng)無法實(shí)現(xiàn)像22nm-10nm那樣在不到5年間實(shí)現(xiàn)“闊nm”級別的快速突破,后續(xù)nm級別突破面臨量子隧穿等重重阻礙,這也使得CPU性能升級和優(yōu)化層面面臨極大限制。
因此,擁有大量計(jì)算核心、能夠同時執(zhí)行多個高密集型AI任務(wù),并且極度擅長處理并行計(jì)算的GPU近年來成為芯片領(lǐng)域的最核心硬件。GPU在AI訓(xùn)練/推理等高性能計(jì)算領(lǐng)域有著其他類型芯片難以企及的巨大優(yōu)勢,這對于那些極其復(fù)雜的AI任務(wù)非常重要,比如圖像識別、自然語言處理和大量矩陣運(yùn)算等?,F(xiàn)代GPU架構(gòu)更是經(jīng)過AI針對性優(yōu)化,適用于深度學(xué)習(xí)等AI任務(wù)。例如,英偉達(dá)Tensor Cores 可以加速矩陣乘法和卷積計(jì)算等非常關(guān)鍵的高強(qiáng)度操作,從而提高計(jì)算效能。
AI時代越來越龐大的算力需求必然使得終端對于芯片性能和處理效率要求越來越高,這就要求晶圓制造商們不斷縮減柵長—人們所熟知的22nm-10nm跨越指的是柵長越來越短。
然而,隨著摩爾定律逼近極限,5nm以下制程突破面臨重重阻礙,“Chiplet”先進(jìn)封裝技術(shù)正是在這樣的背景下橫空出世。在Chiplet思路下, 芯片被分割成較小的功能塊或核心,然后將這些“ chiplet 芯片粒”以先進(jìn)封裝技術(shù)集成在一起以構(gòu)建性能更強(qiáng)、更復(fù)雜化的芯片系統(tǒng)。這種思路可以提高設(shè)計(jì)和封裝靈活性,使不同類型的芯片塊可以分別進(jìn)行優(yōu)化和制造,然后再通過先進(jìn)封裝技術(shù)集成在一起,以實(shí)現(xiàn)更高的性能和效率。
AI最核心基建——GPU
AI時代算力需求激增,GPU憑借其強(qiáng)大的并行計(jì)算能力,在這個算力需求爆炸的全新篇章一躍成為整個芯片領(lǐng)域的C位。
以ChatGPT為代表的生成式AI,以及支撐其運(yùn)作的GPT-4大語言模型橫空出世以來,全球幾乎所有大型科技公司均參與這波布局AI的熱潮,其中包括微軟、谷歌、亞馬遜、甲骨文以及來自中國的百度、騰訊、阿里巴巴等等科技巨頭。GPT-4等大語言模型的開發(fā)背后基于“數(shù)據(jù)轟炸般”的AI訓(xùn)練和推理,而這一切都離不開最核心的基礎(chǔ)設(shè)施——AI加速芯片,英偉達(dá)A100/H100 GPU則是AI訓(xùn)練和推理領(lǐng)域目前的首選硬件方案。
GPU強(qiáng)勢崛起,體現(xiàn)出在AI熱潮下,GPU和享受摩爾定律紅利多年的通用型處理器(CPU)之間的地位徹底反轉(zhuǎn)。從上世紀(jì)PC步入千家萬戶開始,CPU一直是摩爾定律最大受益者兼芯片制造技術(shù)領(lǐng)導(dǎo)者,其輝煌從PC時代延續(xù)到了云計(jì)算CPU時代,同時也推動了PC、智能手機(jī)芯片等領(lǐng)域的技術(shù)發(fā)展。然而自ChatGPT問世以來,隨著AI對于全球高科技行業(yè)和技術(shù)發(fā)展的影響力度越來越大,專注于單線程性能與通用型計(jì)算的CPU仍是芯片領(lǐng)域不可或缺的一環(huán),但其在芯片領(lǐng)域的地位和重要程度已遠(yuǎn)不及GPU。
從理論層面來看,摩爾定律所預(yù)言的性能指數(shù)級增長趨勢近幾年來并沒有消失,而是從CPU轉(zhuǎn)到了基于大量核心的GPU。近年來GPU性能仍在遵循性能指數(shù)增長規(guī)律,大約2.2年性能就會翻倍。相比之下,英特爾CPU GFLOPs仍呈增長趨勢,但是與GPU GFLOPs相比似乎成了一條直線。
近年來,GPU能夠延續(xù)指數(shù)級增長,主要因在人工智能(AI)和深度學(xué)習(xí)方面,通常需要大規(guī)模的并行計(jì)算,其中深度學(xué)習(xí)模型的訓(xùn)練和推理更是涉及大量矩陣操作,這是GPU強(qiáng)項(xiàng),CPU可謂沒有抗衡之力。GPU的設(shè)計(jì)在于支持大量的計(jì)算核心,這使得它們能夠同時處理多個任務(wù),從而在并行計(jì)算方面表現(xiàn)極其出色。相比之下,通用型CPU設(shè)計(jì)更注重單個任務(wù)的處理性能,這在處理并行任務(wù)時受到的限制非常大。
此外,現(xiàn)代GPU架構(gòu)針對并行計(jì)算進(jìn)行了優(yōu)化,如英偉達(dá)NVIDIA CUDA架構(gòu)和AMD的RDNA架構(gòu)。這些優(yōu)化使GPU能夠更高效地執(zhí)行矩陣計(jì)算和卷積計(jì)算等與AI相關(guān)的任務(wù)。
目前全球性能最佳且最普及的AI服務(wù)器系統(tǒng)使用多達(dá)8個英偉達(dá)GPU和1個AMD或英特爾CPU。英偉達(dá)目前在人工智能GPU市場占據(jù)絕對的主導(dǎo)地位?!耙虼耍珻PU數(shù)量將大幅度減少,而不是數(shù)以百萬計(jì)的CPU,但它們將與數(shù)以百萬計(jì)的GPU相連?!秉S仁勛表示。
英偉達(dá)CEO黃仁勛多次強(qiáng)調(diào),為了充分發(fā)揮人工智能的潛力,客戶越來越多地轉(zhuǎn)向加速計(jì)算GPU,比如英偉達(dá)旗下的GPU產(chǎn)品?!耙c(diǎn)(flashpoint)是生成式人工智能?!庇ミ_(dá)CEO黃仁勛曾表示。“我們知道CPU的算力擴(kuò)展速度已經(jīng)放緩,我們還知道加速計(jì)算是前進(jìn)的道路,然后需要更高算力的殺手級應(yīng)用程序出現(xiàn)了?!?/p>
黃仁勛強(qiáng)調(diào),全球向人工智能的轉(zhuǎn)變現(xiàn)在才剛剛開始。他認(rèn)為,通過將特定任務(wù)分解成更小的部分并且進(jìn)行并行處理來加速特定任務(wù)的加速計(jì)算正在占據(jù)主導(dǎo)地位。他在英偉達(dá)8月業(yè)績會議中表示:“最重要的主題在于,全球計(jì)算機(jī)數(shù)據(jù)中心正在向一種新的模式過渡,從通用計(jì)算轉(zhuǎn)向GPU加速主導(dǎo)的計(jì)算模式?!边@位英偉達(dá)聯(lián)合創(chuàng)始人認(rèn)為,全球價值一萬億美元的數(shù)據(jù)中心基礎(chǔ)設(shè)施必須做出這種改變。
從市場規(guī)模預(yù)期來看,知名市場研究機(jī)構(gòu)Mordor Intelligence最新研究顯示,預(yù)計(jì)GPU市場規(guī)模(涵蓋PC、服務(wù)器、高性能計(jì)算、自動駕駛等應(yīng)用端GPU)預(yù)計(jì)將從2023年的418.2億美元大幅擴(kuò)張至2028年的1720.8億美元,預(yù)測期內(nèi)(2023-2028年)復(fù)合增速(CAGR)高達(dá)32.70%。Mordor Intelligence表示,GPU硬件不僅用于渲染圖像、動畫和電子游戲,還用于一般性的計(jì)算目的,幾乎部署在全球所有計(jì)算型設(shè)備中。個人電腦、筆記本電腦和新興應(yīng)用(例如 AR/VR、高性能計(jì)算、人工智能、機(jī)器學(xué)習(xí)、區(qū)塊鏈、加密貨幣挖掘、自動駕駛和高精度導(dǎo)航(車輛、機(jī)器人)的積極部署趨勢,尤其是人工智能領(lǐng)域,未來將極大力度推動GPU需求。
相比之下,Mordor Intelligence預(yù)測數(shù)據(jù)顯示,涵蓋眾多應(yīng)用端的CPU處理器2023-2028年復(fù)合增速僅僅為5.73%。CPU市場規(guī)模擴(kuò)張同樣是蹭到了AI熱度,該機(jī)構(gòu)表示,基于云計(jì)算平臺的軟件和數(shù)據(jù)中心日益采用服務(wù)器CPU,以及AI帶來的輔助算力需求為主要推動因素。研究機(jī)構(gòu)Acumen Research and Consulting則表示,預(yù)計(jì)到2030年CPU市場規(guī)模將達(dá)到1638 億美元,2022年至2030年復(fù)合年增長率僅僅為4.5% 。
摩爾定律逼近極限,Chiplet先進(jìn)封裝來“救場”
在我們所處的“后摩爾時代”(Post-Moore Era),芯片先進(jìn)制程突破面臨極大難度(如量子隧穿效應(yīng)),加之人類社會步入AI時代以及萬物互聯(lián)趨勢愈發(fā)明顯,多種任務(wù)帶來的算力需求可能暴增,比如深度學(xué)習(xí)任務(wù),以及機(jī)器學(xué)習(xí)、推理、AI驅(qū)動的圖像渲染、識別等。每種任務(wù)對硬件的性能要求都非常高,這意味著像PC那樣單獨(dú)集成的CPU或GPU已經(jīng)無法滿足算力需求。
因此,Chiplet先進(jìn)封裝技術(shù)應(yīng)運(yùn)而生,該技術(shù)允許將不同的“芯片處理單元”,即將不同的“chiplet芯粒”集成在一起,滿足多樣性的計(jì)算需求,從而更好地優(yōu)化性能。此外,由于AI應(yīng)用的多樣性,往往需要針對特定任務(wù)進(jìn)行硬件優(yōu)化。不同的處理單元芯片可以專門用于特定類型的計(jì)算,如圖像處理、語音識別、自然語言處理等,基于Chiplet思路的模塊化設(shè)計(jì)使得能夠針對每種任務(wù)選擇最佳的處理單元。
基于Chiplet先進(jìn)封裝技術(shù),能夠集成更多的GPU或者其他類型芯片來滿足越來越大規(guī)模的算力需求。許多AI任務(wù)涉及大規(guī)模并行計(jì)算,如神經(jīng)網(wǎng)絡(luò)系統(tǒng)訓(xùn)練和推理。GPU等處理器在并行計(jì)算方面表現(xiàn)優(yōu)異,而Chiplet封裝技術(shù)可以使不同的GPU模塊,或者CPU、FPGA、ASIC芯片等在同一個芯片系統(tǒng)中協(xié)同工作,以提供更大規(guī)模的并行計(jì)算能力。
英偉達(dá)所依賴的臺積電CoWoS封裝技術(shù)正是基于Chiplet思路的先進(jìn)封裝技術(shù)。從H100加速系統(tǒng)的拆解圖來看,H100利用臺積電CoWoS封裝技術(shù)集成了SK海力士HBM高性能存儲。 H100 GPU 芯片系統(tǒng)將臺積電4nm工藝和Chiplet封裝技術(shù)融合。英偉達(dá)通過 Chiplet 技術(shù)將HBM3子系統(tǒng)集成到芯片系統(tǒng),提供高達(dá)3TB/s超高顯存帶寬,是上一代產(chǎn)品帶寬的近兩倍。同時借臺積電4nm制程,無論是性能還是數(shù)據(jù)傳輸和存儲容量,相較于上一代A100 GPU 芯片都有大幅度提升。
Chiplet封裝技術(shù)似乎已經(jīng)成為芯片制造商們的新戰(zhàn)場,英特爾、三星電子和臺積電紛紛斥巨資投入這一技術(shù)板塊。從芯片產(chǎn)業(yè)鏈的角度來看,隨著Chiplet封裝技術(shù)越來越普及,將給整個產(chǎn)業(yè)鏈帶來一次革新,尤其是芯片制造設(shè)備商將開拓全新的業(yè)務(wù)方向,為Chiplet封裝提供創(chuàng)新性的制造商支撐。比如,臺積電等芯片制造商的上游設(shè)備商——全球芯片設(shè)備巨頭應(yīng)用材料近日公布了有關(guān)晶圓Hybrid Bonding、硅通孔(Through Silicon Via)的兩大新技術(shù),有助于小芯片2.5D、3D Chiplet封裝工藝的提升,新的解決方案擴(kuò)展了應(yīng)用材料異構(gòu)集成技術(shù)(HI)范圍。
目前,英特爾正在馬來西亞檳城興建最新的封裝廠,強(qiáng)化2.5D/3D封裝布局。這將是繼英特爾新墨西哥州及奧勒岡工廠之后,首座在美國之外采用英特爾Foveros先進(jìn)封裝架構(gòu)的3D封裝廠。英特爾表示,其規(guī)劃到2025年3D Foveros封裝的產(chǎn)能將達(dá)到當(dāng)前水平的四倍。通過多年研究探索,英特爾目前壓注的主要是2.5D EMIB、3D Foveros等多種先進(jìn)封裝,力圖通過2.5D、3D和埋入式等HI技術(shù)形式實(shí)現(xiàn)互連帶寬倍增與功耗減半的目標(biāo)。
有媒體報(bào)道稱,三星電子第四代HBM以及封裝服務(wù)已經(jīng)通過AMD測試。AMD的Instinct MI300系列AI芯片系統(tǒng)計(jì)劃采用三星HBM3及chiplet封裝服務(wù),該芯片將集成中央處理器(CPU)、圖形處理器(GPU)及HBM3,預(yù)計(jì)今年第四季發(fā)布。為了爭奪未來chiplet封裝市場份額,三星正在開發(fā)更先進(jìn)的 I-cube 和 X-cube 封裝技術(shù)。三星電子近日更是宣布,將在2025年推出全球首款使用GAA制程的3D先進(jìn)封裝,提供客戶從代工生產(chǎn)到先進(jìn)封裝的配套完整解決方案。目前,芯片代工行業(yè)尚未嘗試結(jié)合GAA制程與3D先進(jìn)封裝,兩種技術(shù)的復(fù)雜性非常高。
臺積電當(dāng)前憑借其領(lǐng)先業(yè)界的先進(jìn)封裝技術(shù)吃下大量的高端芯片封裝訂單,并且先進(jìn)封裝產(chǎn)能已跟不上需求,英偉達(dá)H100無法滿足需求正是受限于CoWoS先進(jìn)封裝產(chǎn)能。研究機(jī)構(gòu)TrendForce預(yù)計(jì),下半年CoWoS封裝產(chǎn)能仍然較緊迫,強(qiáng)勁需求將延續(xù)至2024年。
英偉達(dá)和AMD的旗艦產(chǎn)品都離不開臺積電制造以及先進(jìn)封裝技術(shù)的支持。臺積電正在研究其新的 Chip-On-Wafer-On-Substrate-L (CoWoS-L) 封裝技術(shù),該技術(shù)將使其能夠構(gòu)建更大的超級載體中介層。針對大約2025年前后的需求,臺積電下一代 CoWoS 技術(shù)將使中介層達(dá)到臺積電最大標(biāo)線片(reticle)的六倍,高于其當(dāng)前中介層的3.3倍。有業(yè)內(nèi)人士表示,這種技術(shù)級別的系統(tǒng)級封裝 (SiP) 旨在供應(yīng)對性能要求極高的數(shù)據(jù)中心和 HPC 芯片。
知名研究機(jī)構(gòu)YOLE Group最新研究報(bào)告顯示,chiplet先進(jìn)封裝正變得越來越重要,預(yù)2022年至2028年間,先進(jìn)封裝市場復(fù)合年增長率將達(dá)到10.6%,至786億美元超越傳統(tǒng)封裝市場。相比之下,隨著chiplet先進(jìn)封裝愈發(fā)普及,預(yù)計(jì) 2022 年至 2028 年傳統(tǒng)封測市場的復(fù)合增速放緩至僅僅 3.2%,期末市場價值約為575億美元,預(yù)計(jì)將全面落后于先進(jìn)封裝規(guī)模。