芯片軍備競(jìng)賽新十年

作者：智通轉(zhuǎn)載 2023-12-03 10:10:09

以銅為鑒，可正衣冠；以古為鑒，可知興替。在這個(gè)人工智能和體系結(jié)構(gòu)風(fēng)起云涌的時(shí)代，在信息洪流的狂轟濫炸下，唯有拉長(zhǎng)時(shí)間尺度濾掉高頻的短期波動(dòng)，才能看清人工智能與計(jì)算產(chǎn)業(yè)的興衰更替。

今天不聊短期的技術(shù)熱點(diǎn)，主要聊聊稍稍長(zhǎng)一些的時(shí)間線上的興替。

過(guò)去十年，是AlexNet引爆深度學(xué)習(xí)算法熱潮的十年，用幾塊GPU就可以完成16000個(gè)CPU核才能完成的事情，也是GPU與NVidia在計(jì)算產(chǎn)業(yè)崛起的十年。AlexNet引爆的深度學(xué)習(xí)并推動(dòng)了計(jì)算產(chǎn)業(yè)對(duì)算力的軍備競(jìng)賽。過(guò)去十年，大家從GFlops卷到TFlops卷到PFlops，甚至卷到EFlops，單位算力的成本也是逐年下降，AlexNet當(dāng)年用的GTX 580才512個(gè)cuda核心，到今天RTX 4090已經(jīng)到了16384個(gè)cuda核心，足足提升了32倍，算力更是提升了上百倍，但售價(jià)也僅僅從500美元增加到了1500美元。老黃甚至喊出了“The more you buy, the more you save”，算力成本的下降也推動(dòng)著深度學(xué)習(xí)模型在計(jì)算量越來(lái)越大的方向上一路狂奔，探索著智能的邊界。

硬件、算法和鈔票三者相互影響，不斷塑造著智能的形態(tài)。市場(chǎng)可以接受的硬件成本受限于算法能力給大家塑造的預(yù)期，硬件成本又限制了給算法提供的最大算力規(guī)格和形態(tài)，算力規(guī)格和形態(tài)則反過(guò)來(lái)篩選了算法模型的規(guī)模和形態(tài)。Google Brain曾經(jīng)提出過(guò)hardware lottery的說(shuō)法。硬件通過(guò)自身形態(tài)在篩選算法的形態(tài)，為更適應(yīng)硬件形態(tài)的算法提供超額的可擴(kuò)展性，從而提高這一類算法在能力上勝出的可能性；算法也在通過(guò)在市場(chǎng)上證明其未來(lái)潛力來(lái)引導(dǎo)著硬件的形態(tài)，而硬件架構(gòu)層面的各種基本原理又進(jìn)一步與算法的引導(dǎo)相互制衡；市場(chǎng)則具有劇烈的波動(dòng)性，當(dāng)算法能力發(fā)生里程碑式的質(zhì)變時(shí)，市場(chǎng)可以接受的硬件成本會(huì)急劇提升，進(jìn)一步強(qiáng)化這種算法和與之匹配的硬件形態(tài)，形成對(duì)其他形態(tài)的進(jìn)一步擠壓，同時(shí)，軟硬件形態(tài)也可以在這個(gè)階段逐漸走向成熟，降低價(jià)格。波峰過(guò)后市場(chǎng)又會(huì)回到相對(duì)更加理性的成本范疇；而圍繞這一切的軟硬件和商業(yè)生態(tài)又會(huì)給整套軟硬件和算法的演進(jìn)賦予非常強(qiáng)的慣性，軟硬件生態(tài)的興衰更替存在巨大的路徑依賴，只存在新增的部分解決新的需求和不再重要的需求被逐漸淘汰，基本不存在直接替換，這背后也是大大小小的軟件生態(tài)位的成長(zhǎng)和衰退。

上一個(gè)十年的起點(diǎn)，表面上是AlexNet讓智能的形態(tài)跨上了一個(gè)新臺(tái)階，背后是老黃多年孕育的CUDA和GPGPU成功篩選出了以大規(guī)模并行計(jì)算為主的深度學(xué)習(xí)范式，而深度學(xué)習(xí)范式形成的16000核CPU和幾張游戲卡的鮮明對(duì)比又進(jìn)一步拉開(kāi)了GPU和CPU在通用計(jì)算方面的巨大差異，讓市場(chǎng)看到了低成本算力帶來(lái)的智能形態(tài)的巨大可能性。但除了算力成本逐年下降這一主要推動(dòng)力外，NVidia的成功還有老黃多方面選擇共同鑄就。

尊重生態(tài)的慣性，生態(tài)才能為你所用，GPU并不是直接取代了CPU，盡管NVidia早就確立了在深度學(xué)習(xí)市場(chǎng)的統(tǒng)治地位，但很長(zhǎng)一段時(shí)間內(nèi)一直作為PCIe卡形態(tài)存在，在Intel的游戲規(guī)則下切入數(shù)據(jù)中心市場(chǎng)，直到把自己做成了Intel塑造的計(jì)算機(jī)形態(tài)下的主角，才借著用戶對(duì)于IO帶寬的巨大訴求，開(kāi)始推廣自己的NVLink以及整機(jī)形態(tài)甚至CPU；軟件上CUDA采用C/C++擴(kuò)展形態(tài)切入早已成為infra層面事實(shí)標(biāo)準(zhǔn)的C/C++世界，骨子里與C/C++的設(shè)計(jì)哲學(xué)類似；雖然投入巨量資源做各個(gè)行業(yè)的上層軟件，但并不爭(zhēng)奪軟件生態(tài)位，只是為了促進(jìn)這些GPU之上的生態(tài)位變得足夠大，至于這些生態(tài)位被誰(shuí)占據(jù)了，老黃其實(shí)并不在乎，更多地是利用生態(tài)的慣性塑造這些生態(tài)位對(duì)CUDA的路徑依賴。

是老黃沒(méi)有能力自己設(shè)計(jì)一套互聯(lián)協(xié)議嗎？是NVidia的軟件工程師寫(xiě)不出一個(gè)深度學(xué)習(xí)框架嗎？無(wú)數(shù)AI芯片競(jìng)爭(zhēng)者和效仿者在降低算力成本這一主干上卷出了無(wú)數(shù)的花活，但敗在了無(wú)數(shù)其他的選擇上。當(dāng)然這些選擇有主動(dòng)的，也有被動(dòng)的，面對(duì)一個(gè)龐然大物，面對(duì)一個(gè)近乎壟斷的生態(tài)，有時(shí)候就是沒(méi)得選。想創(chuàng)造一個(gè)完美符合上述邏輯的選擇本身就是最難的一件事。而這種壯舉，老黃自己就給大家示范過(guò)不止一遍。

其實(shí)放到三十年前NVidia剛成立的時(shí)候，CPU的統(tǒng)治力是驚人的，畢竟這是自計(jì)算機(jī)誕生以來(lái)就存在的唯一形態(tài)，一且軟件世界都是建立在CPU的體系之上的。雖然軟件世界和市場(chǎng)對(duì)計(jì)算機(jī)的需求越來(lái)越強(qiáng)，存在著廣泛專用芯片的需求，但隨著摩爾定律的演進(jìn)，CPU性能也越來(lái)越強(qiáng)，晶體管也越發(fā)富余，這就導(dǎo)致很多專用設(shè)備承載的計(jì)算任務(wù)在變得穩(wěn)定和普遍之后，會(huì)很快集成進(jìn)CPU，與顯卡同時(shí)代的還有聲卡、視頻解碼、加解密的專用設(shè)備，最后都變成了CPU的幾條指令，而相應(yīng)的專用設(shè)備都被掃進(jìn)了歷史的垃圾堆。唯有顯卡活了下來(lái)，因?yàn)槿S圖像領(lǐng)域天花板足夠高，老黃與游戲廠商相互成就，創(chuàng)造了比摩爾定律跑得更快的黃氏定律，卷死了等待圖像領(lǐng)域逐漸收斂的集成顯卡，顯卡不斷消耗越來(lái)越多功耗和晶體管創(chuàng)造出精美的游戲畫(huà)面，也阻擋了CPU吞噬顯卡的腳步。

其實(shí)這也是為什么在過(guò)去幾年里，我一直強(qiáng)調(diào)DSA路線不光要著眼于某一代DSA vs GPU的性能比較，更要去塑造一個(gè)比黃氏曲線更陡峭、能維持?jǐn)?shù)十年的性能提升曲線極其背后穩(wěn)定的方法論，否則，GPU就是新的黑洞。君不見(jiàn)，NVidia毫不猶豫地集成TensorCore、TMA，此情此景，恰如當(dāng)年CPU不斷吞噬各類專用任務(wù)加速卡。而老黃則是在創(chuàng)立NVidia的頭幾年就意識(shí)到這個(gè)問(wèn)題，并且致力于去塑造黃氏曲線來(lái)扼殺了沿著摩爾定律行進(jìn)CPU的吞噬顯卡的企圖。當(dāng)然這只是第一步，讓顯卡作為獨(dú)立的形態(tài)存在，而AI芯片在過(guò)去十年的廝殺中，仍然遵循著和黃氏曲線類似的步伐，甚至還跟不上這個(gè)步伐，也因此很難獲得獨(dú)立形態(tài)的資格。

后面建立CUDA和可編程著色器，更是神來(lái)之筆，展示了尊重生態(tài)慣性下與CPU競(jìng)爭(zhēng)的正確姿勢(shì)。整個(gè)計(jì)算機(jī)產(chǎn)業(yè)在Intel的帶領(lǐng)下，繪制了整個(gè)軟硬件生態(tài)，這種生態(tài)的巨大慣性并非一個(gè)顛覆式創(chuàng)新的全新處理器架構(gòu)所能撼動(dòng)的，數(shù)據(jù)流處理器與經(jīng)典的CPU架構(gòu)的競(jìng)爭(zhēng)就是一個(gè)典型的例子，生態(tài)的慣性最終通過(guò)經(jīng)典CPU架構(gòu)引入亂序發(fā)射，徹底吞噬了數(shù)據(jù)流架構(gòu)的精華而收?qǐng)?。而NVidia在通用計(jì)算領(lǐng)域的競(jìng)爭(zhēng)也是在Intel構(gòu)建的主從架構(gòu)下開(kāi)始萌發(fā)，始終把自己放在一個(gè)PCIe設(shè)備的角色上，并構(gòu)建CUDA技術(shù)棧用于孕育未來(lái)增量的軟件體系，而非試圖顛覆或替換當(dāng)時(shí)已有的軟件體系，然后等待一個(gè)“硬件彩票”，等來(lái)了深度學(xué)習(xí)，從此讓這部分從屬設(shè)備和增量的軟件體系成長(zhǎng)的足夠大，大到一臺(tái)服務(wù)器要配置8張顯卡，大到成為一個(gè)全新的甚至更主要的軟件生態(tài)，這期間Intel也一直卡著PCIe標(biāo)準(zhǔn)的快速升級(jí)，老黃也是一直等著這一塊帶寬的需求以及自己的生態(tài)累積到一個(gè)閾值，才開(kāi)始拋開(kāi)Intel在自己的體系內(nèi)搞NVLink。

今天的計(jì)算機(jī)體系，其實(shí)仍然是Intel一手建立的體系，我們?nèi)匀恍枰狢PU作為中央處理器去運(yùn)行操作系統(tǒng)，處理各種事務(wù)，即使是NVidia DGX整機(jī)，也同樣保留了這個(gè)形態(tài)，只是NVidia自己作為從屬設(shè)備已經(jīng)占據(jù)了90%以上的硬件和軟件價(jià)值。今天這個(gè)時(shí)代和過(guò)去并無(wú)不同，只是CPU變成了GPU，而GPU變成了廣大AI芯片挑戰(zhàn)者，今天我們看到的NVidia體系有多么強(qiáng)大，當(dāng)年老黃看到的CPU的體系就有多么強(qiáng)大，只不過(guò)老黃找到了一條既尊重生態(tài)慣性，又有機(jī)會(huì)漸進(jìn)改造生態(tài)的一套完美的邏輯。

老黃一手建立的CUDA生態(tài)和GPGPU在過(guò)去十年與深度學(xué)習(xí)發(fā)生了愈演愈烈的反應(yīng)，也在深刻得影響著深度學(xué)習(xí)的形態(tài)，這種算法與硬件的螺旋反應(yīng)幾乎是在不斷強(qiáng)化AI的形態(tài)就是NVidia的形態(tài)，可以說(shuō)留給挑戰(zhàn)者的空間幾乎沒(méi)有，CUDA生態(tài)綁定了GPGPU算力，又綁定了深度學(xué)習(xí)框架的生態(tài)，而GPGPU算力又不斷推動(dòng)深度學(xué)習(xí)向著算力黑洞方向演進(jìn)，本身GPGPU在算力方面也是一個(gè)相當(dāng)不錯(cuò)的架構(gòu)，還扮演著DSA黑洞的角色，可以說(shuō)幾乎是沒(méi)有留下多少給挑戰(zhàn)者切入的機(jī)會(huì)。

不過(guò)也不是完全沒(méi)有。老黃在深度學(xué)習(xí)引爆之后，為了劃分計(jì)算和游戲兩個(gè)市場(chǎng)可是在刀法上費(fèi)勁了腦筋。畢竟臭打游戲的都摳摳搜搜，遍地等等黨，定價(jià)沒(méi)法太高；而深度學(xué)習(xí)都是數(shù)據(jù)中心企業(yè)用戶，大把大把的鈔票，定價(jià)低了太過(guò)良心；但無(wú)奈深度學(xué)習(xí)和打游戲?qū)λ懔Φ男枨蠖挤浅８?，很難做出區(qū)分度，游戲卡簡(jiǎn)直就是深度學(xué)習(xí)良心卡，甚至發(fā)布過(guò)公告禁止數(shù)據(jù)中心買便宜又好用的游戲卡。后來(lái)老黃終于找到了合適的刀法，切在內(nèi)存帶寬和內(nèi)存容量上，從此游戲卡是高算力小容量小帶寬，計(jì)算卡是高算力大容量大帶寬，后面再給計(jì)算卡插上NVLink，徹底讓游戲卡和計(jì)算卡變成了兩種形態(tài)。

這精準(zhǔn)的刀法又產(chǎn)生了算法、硬件與鈔票的微妙化學(xué)反應(yīng)。深度學(xué)習(xí)開(kāi)始從視覺(jué)領(lǐng)域，卷積這種只吃算力的形態(tài)上開(kāi)始緩緩遷移，深度學(xué)習(xí)開(kāi)始走向更適應(yīng)大容量大帶寬的形態(tài)，NVLink更是推動(dòng)著深度學(xué)習(xí)模型在大和更大的維度一騎絕塵，不斷探索著智能的邊界。老黃也終于可以在兼顧臭打游戲的同時(shí)大把大把從數(shù)據(jù)中心坑錢(qián)了，顯卡的價(jià)格也一路從幾千塊錢(qián)飆升到了幾十萬(wàn)，老黃還在不斷重新定義什么叫一個(gè)GPU，把DGX賣到了上百萬(wàn)的價(jià)格。

但這也給老黃自己埋下了一些隱患，畢竟CUDA生態(tài)更多綁定的是算力，通過(guò)巧妙地卡在硬件架構(gòu)和軟件編程形態(tài)的中間位置，使得競(jìng)爭(zhēng)對(duì)手難以在算力和硬件形態(tài)貼近現(xiàn)有生態(tài)上取得一個(gè)平衡。而隨著計(jì)算卡形態(tài)對(duì)內(nèi)存和帶寬重要性的放大，算法的需求會(huì)愈發(fā)朝著和CUDA生態(tài)綁定沒(méi)有那么強(qiáng)的內(nèi)存和帶寬方向發(fā)展，事實(shí)上也確實(shí)如此。而這也一定程度上削弱了自己構(gòu)筑的護(hù)城河。

算法、硬件與鈔票的微妙化學(xué)反應(yīng)，微妙就微妙在，其實(shí)沒(méi)有任何人能真正控制它的走向，生態(tài)也是類似。ChatGPT其實(shí)一定程度引爆了上面說(shuō)的隱患，NVidia辛辛苦苦布局?jǐn)?shù)十年，終于伴隨著AI的崛起構(gòu)建了自己的護(hù)城河，但計(jì)算卡引爆的算法新形態(tài)卻極大改變了對(duì)硬件的需求。

一年前前，ChatGPT再次引爆了AI的熱潮，這場(chǎng)面，一如十年前AlexNet一樣，全世界范圍內(nèi)都在購(gòu)置成千上萬(wàn)的GPU來(lái)進(jìn)行大模型上的布局，大模型在老黃的精準(zhǔn)刀法下，搭配算法、硬件與鈔票的微妙化學(xué)反應(yīng)，變成了現(xiàn)在這樣一副對(duì)內(nèi)存容量和帶寬有極致需求的模樣，甚至在很多情況下算力利用率是非常低的。此情此景，與當(dāng)年Google用上千臺(tái)服務(wù)器16000個(gè)CPU核驅(qū)動(dòng)算法識(shí)別貓何其相似，屠龍少年終成惡龍，誰(shuí)又能成為新十年的NVidia呢？

不知不覺(jué)鋪墊了這么多，終于回到標(biāo)題了，ChatGPT和AlexNet是一個(gè)量級(jí)的算法里程碑，AlexNet拉開(kāi)了上一個(gè)十年對(duì)算力的軍備競(jìng)賽，ChatGPT也是為未來(lái)十年芯片軍備競(jìng)賽奠定了基調(diào)。正如我在前一陣提到的那樣，內(nèi)存和帶寬會(huì)成為全新的需求，這件事如果只是單單大模型的需求，確定性還沒(méi)那么高，但隨著NVidia、AMD和Intel今年在內(nèi)存和帶寬上的發(fā)力會(huì)變得確定性更高。硬件的對(duì)內(nèi)存和帶寬的升級(jí)改造會(huì)進(jìn)一步強(qiáng)化模型在內(nèi)存和帶寬上的擴(kuò)展，而ChatGPT又給這方面的擴(kuò)展對(duì)模型能力能達(dá)到的高度帶來(lái)的足夠確定性。算法、硬件與鈔票的微妙化學(xué)反應(yīng)會(huì)不斷強(qiáng)化這個(gè)邏輯，任何一方都沒(méi)法控制這個(gè)走向。

從內(nèi)存和帶寬的角度來(lái)看，NVidia的形態(tài)其實(shí)非常奢侈，這里面不僅有NVidia極高的利潤(rùn)率帶來(lái)的，也有NVidia在這方面的堅(jiān)持，因?yàn)镹Vidia肯定希望自己在數(shù)據(jù)中心中的價(jià)值占比不斷提高，而對(duì)大模型而言，硬件上最有價(jià)值的反而是三星海力士的內(nèi)存和NVLink。而這些都沒(méi)辦法像CUDA之于算力那樣構(gòu)建穩(wěn)固的護(hù)城河，唯有在內(nèi)存和帶寬的規(guī)格升級(jí)速度上塑造增長(zhǎng)曲線，靠曲線的陡峭程度卷。這里面不僅是絕對(duì)規(guī)格的提升，也包含性價(jià)比的提升，也就是老黃所說(shuō)的“The more you buy, the more you save”。而老黃目前的產(chǎn)品尚未呈現(xiàn)出這方面增長(zhǎng)的潛力，目前更多是靠海力士擠的牙膏和NVLink在光模塊層面的突飛猛進(jìn)來(lái)迅速拉升。GH200已經(jīng)堆到了TB/s級(jí)別的網(wǎng)絡(luò)帶寬，但性價(jià)比方面很難說(shuō)有實(shí)質(zhì)性提升。

在今天的大模型用DGX的情況下，成本已經(jīng)偏高的情況下，進(jìn)一步提高算法規(guī)模的動(dòng)力其實(shí)是不足的，畢竟ChatGPT已經(jīng)證明了在目前的規(guī)模下已經(jīng)可以達(dá)到足夠的高度，通過(guò)一個(gè)數(shù)量級(jí)的鈔能力如果不能帶來(lái)算法能力的大幅度提升，邊際效益會(huì)越來(lái)越差。但這一輪芯片軍備競(jìng)賽其實(shí)充滿了太多提升內(nèi)存和帶寬性價(jià)比的方式，我們今天不講短期的技術(shù)趨勢(shì)，更多還是看長(zhǎng)線的興衰更替，NVidia超額的利潤(rùn)也是潛在的提升性價(jià)比的巨大空間，內(nèi)存廠在過(guò)去幾十年里無(wú)數(shù)次把內(nèi)存價(jià)格打下去一個(gè)數(shù)量級(jí)，說(shuō)起來(lái)NVidia自己的第一代產(chǎn)品也是致力于降低昂貴內(nèi)存的使用上，最后死在了內(nèi)存價(jià)格的暴跌上，不過(guò)今天其實(shí)仍然有很多人在這樣的路線上前赴后繼。

大模型的崛起和各方面的需求其實(shí)對(duì)于軟件生態(tài)也帶來(lái)的巨大機(jī)會(huì)，不過(guò)由于巨大的慣性，這種機(jī)會(huì)始終不會(huì)是替換的邏輯，如果不能尊重這種慣性，未來(lái)還是會(huì)不斷走向失敗。CUDA、PyTorch仍然會(huì)長(zhǎng)期占據(jù)其所在的生態(tài)位，正如DGX中仍然保持著CPU的生態(tài)位，只不過(guò)huggingface等一系列與大模型相關(guān)的各種生態(tài)位逐漸出現(xiàn)和成長(zhǎng)壯大，也會(huì)不斷削弱其他生態(tài)位的重要性。正如NVidia不斷削弱CPU在數(shù)據(jù)中心的重要性，直到某一天替換成ARM也不會(huì)對(duì)生態(tài)的慣性造成多大的震動(dòng)，但這個(gè)過(guò)程中的路徑依賴仍然是我們需要尊重和正視的。

愿未來(lái)芯片、大模型和鈔票的螺旋繼續(xù)飛舞，讓大模型最終可以走進(jìn)千家萬(wàn)戶，真正改善我們的生活。

本文轉(zhuǎn)載自“半導(dǎo)體行業(yè)觀察”，作者：mackler；智通財(cái)經(jīng)編輯：汪婕。

智通聲明：本內(nèi)容為作者獨(dú)立觀點(diǎn)，不代表智通財(cái)經(jīng)立場(chǎng)。未經(jīng)允許不得轉(zhuǎn)載，文中內(nèi)容僅供參考，不作為實(shí)際操作建議，交易風(fēng)險(xiǎn)自擔(dān)。更多最新最全港美股資訊，請(qǐng)點(diǎn)擊下載智通財(cái)經(jīng)App

相關(guān)閱讀

汽車芯片大廠各顯神通！未來(lái)汽車芯片市場(chǎng)將更加激烈

2023-12-02 16:55 智通轉(zhuǎn)載

全球經(jīng)濟(jì)“金絲雀”出口連續(xù)兩月增長(zhǎng)! 芯片需求上演觸底反彈

2023-12-01 15:39 盧梭

華泰證券：全球半導(dǎo)體設(shè)備3Q中國(guó)區(qū)銷售創(chuàng)近年來(lái)新高 2024年謹(jǐn)慎樂(lè)觀

2023-11-30 14:40 李佛

受芯片生產(chǎn)疲軟影響韓國(guó)10月工業(yè)產(chǎn)出創(chuàng)10個(gè)月來(lái)最大降幅

2023-11-30 10:26 馬火敏

“AI淘金熱”明年還能炒！除了科技巨頭，這幾家“賣鏟人”也存機(jī)會(huì)

2023-11-27 07:18 魏昊銘