以銅為鑒,可正衣冠;以古為鑒,可知興替。在這個(gè)人工智能和體系結(jié)構(gòu)風(fēng)起云涌的時(shí)代,在信息洪流的狂轟濫炸下,唯有拉長(zhǎng)時(shí)間尺度濾掉高頻的短期波動(dòng),才能看清人工智能與計(jì)算產(chǎn)業(yè)的興衰更替。
今天不聊短期的技術(shù)熱點(diǎn),主要聊聊稍稍長(zhǎng)一些的時(shí)間線上的興替。
過(guò)去十年,是AlexNet引爆深度學(xué)習(xí)算法熱潮的十年,用幾塊GPU就可以完成16000個(gè)CPU核才能完成的事情,也是GPU與NVidia在計(jì)算產(chǎn)業(yè)崛起的十年。AlexNet引爆的深度學(xué)習(xí)并推動(dòng)了計(jì)算產(chǎn)業(yè)對(duì)算力的軍備競(jìng)賽。過(guò)去十年,大家從GFlops卷到TFlops卷到PFlops,甚至卷到EFlops,單位算力的成本也是逐年下降,AlexNet當(dāng)年用的GTX 580才512個(gè)cuda核心,到今天RTX 4090已經(jīng)到了16384個(gè)cuda核心,足足提升了32倍,算力更是提升了上百倍,但售價(jià)也僅僅從500美元增加到了1500美元。老黃甚至喊出了“The more you buy, the more you save”,算力成本的下降也推動(dòng)著深度學(xué)習(xí)模型在計(jì)算量越來(lái)越大的方向上一路狂奔,探索著智能的邊界。
硬件、算法和鈔票三者相互影響,不斷塑造著智能的形態(tài)。市場(chǎng)可以接受的硬件成本受限于算法能力給大家塑造的預(yù)期,硬件成本又限制了給算法提供的最大算力規(guī)格和形態(tài),算力規(guī)格和形態(tài)則反過(guò)來(lái)篩選了算法模型的規(guī)模和形態(tài)。Google Brain曾經(jīng)提出過(guò)hardware lottery的說(shuō)法。硬件通過(guò)自身形態(tài)在篩選算法的形態(tài),為更適應(yīng)硬件形態(tài)的算法提供超額的可擴(kuò)展性,從而提高這一類算法在能力上勝出的可能性;算法也在通過(guò)在市場(chǎng)上證明其未來(lái)潛力來(lái)引導(dǎo)著硬件的形態(tài),而硬件架構(gòu)層面的各種基本原理又進(jìn)一步與算法的引導(dǎo)相互制衡;市場(chǎng)則具有劇烈的波動(dòng)性,當(dāng)算法能力發(fā)生里程碑式的質(zhì)變時(shí),市場(chǎng)可以接受的硬件成本會(huì)急劇提升,進(jìn)一步強(qiáng)化這種算法和與之匹配的硬件形態(tài),形成對(duì)其他形態(tài)的進(jìn)一步擠壓,同時(shí),軟硬件形態(tài)也可以在這個(gè)階段逐漸走向成熟,降低價(jià)格。波峰過(guò)后市場(chǎng)又會(huì)回到相對(duì)更加理性的成本范疇;而圍繞這一切的軟硬件和商業(yè)生態(tài)又會(huì)給整套軟硬件和算法的演進(jìn)賦予非常強(qiáng)的慣性,軟硬件生態(tài)的興衰更替存在巨大的路徑依賴,只存在新增的部分解決新的需求和不再重要的需求被逐漸淘汰,基本不存在直接替換,這背后也是大大小小的軟件生態(tài)位的成長(zhǎng)和衰退。
上一個(gè)十年的起點(diǎn),表面上是AlexNet讓智能的形態(tài)跨上了一個(gè)新臺(tái)階,背后是老黃多年孕育的CUDA和GPGPU成功篩選出了以大規(guī)模并行計(jì)算為主的深度學(xué)習(xí)范式,而深度學(xué)習(xí)范式形成的16000核CPU和幾張游戲卡的鮮明對(duì)比又進(jìn)一步拉開(kāi)了GPU和CPU在通用計(jì)算方面的巨大差異,讓市場(chǎng)看到了低成本算力帶來(lái)的智能形態(tài)的巨大可能性。但除了算力成本逐年下降這一主要推動(dòng)力外,NVidia的成功還有老黃多方面選擇共同鑄就。
尊重生態(tài)的慣性,生態(tài)才能為你所用,GPU并不是直接取代了CPU,盡管NVidia早就確立了在深度學(xué)習(xí)市場(chǎng)的統(tǒng)治地位,但很長(zhǎng)一段時(shí)間內(nèi)一直作為PCIe卡形態(tài)存在,在Intel的游戲規(guī)則下切入數(shù)據(jù)中心市場(chǎng),直到把自己做成了Intel塑造的計(jì)算機(jī)形態(tài)下的主角,才借著用戶對(duì)于IO帶寬的巨大訴求,開(kāi)始推廣自己的NVLink以及整機(jī)形態(tài)甚至CPU;軟件上CUDA采用C/C++擴(kuò)展形態(tài)切入早已成為infra層面事實(shí)標(biāo)準(zhǔn)的C/C++世界,骨子里與C/C++的設(shè)計(jì)哲學(xué)類似;雖然投入巨量資源做各個(gè)行業(yè)的上層軟件,但并不爭(zhēng)奪軟件生態(tài)位,只是為了促進(jìn)這些GPU之上的生態(tài)位變得足夠大,至于這些生態(tài)位被誰(shuí)占據(jù)了,老黃其實(shí)并不在乎,更多地是利用生態(tài)的慣性塑造這些生態(tài)位對(duì)CUDA的路徑依賴。
是老黃沒(méi)有能力自己設(shè)計(jì)一套互聯(lián)協(xié)議嗎?是NVidia的軟件工程師寫(xiě)不出一個(gè)深度學(xué)習(xí)框架嗎?無(wú)數(shù)AI芯片競(jìng)爭(zhēng)者和效仿者在降低算力成本這一主干上卷出了無(wú)數(shù)的花活,但敗在了無(wú)數(shù)其他的選擇上。當(dāng)然這些選擇有主動(dòng)的,也有被動(dòng)的,面對(duì)一個(gè)龐然大物,面對(duì)一個(gè)近乎壟斷的生態(tài),有時(shí)候就是沒(méi)得選。想創(chuàng)造一個(gè)完美符合上述邏輯的選擇本身就是最難的一件事。而這種壯舉,老黃自己就給大家示范過(guò)不止一遍。
其實(shí)放到三十年前NVidia剛成立的時(shí)候,CPU的統(tǒng)治力是驚人的,畢竟這是自計(jì)算機(jī)誕生以來(lái)就存在的唯一形態(tài),一且軟件世界都是建立在CPU的體系之上的。雖然軟件世界和市場(chǎng)對(duì)計(jì)算機(jī)的需求越來(lái)越強(qiáng),存在著廣泛專用芯片的需求,但隨著摩爾定律的演進(jìn),CPU性能也越來(lái)越強(qiáng),晶體管也越發(fā)富余,這就導(dǎo)致很多專用設(shè)備承載的計(jì)算任務(wù)在變得穩(wěn)定和普遍之后,會(huì)很快集成進(jìn)CPU,與顯卡同時(shí)代的還有聲卡、視頻解碼、加解密的專用設(shè)備,最后都變成了CPU的幾條指令,而相應(yīng)的專用設(shè)備都被掃進(jìn)了歷史的垃圾堆。唯有顯卡活了下來(lái),因?yàn)槿S圖像領(lǐng)域天花板足夠高,老黃與游戲廠商相互成就,創(chuàng)造了比摩爾定律跑得更快的黃氏定律,卷死了等待圖像領(lǐng)域逐漸收斂的集成顯卡,顯卡不斷消耗越來(lái)越多功耗和晶體管創(chuàng)造出精美的游戲畫(huà)面,也阻擋了CPU吞噬顯卡的腳步。
其實(shí)這也是為什么在過(guò)去幾年里,我一直強(qiáng)調(diào)DSA路線不光要著眼于某一代DSA vs GPU的性能比較,更要去塑造一個(gè)比黃氏曲線更陡峭、能維持?jǐn)?shù)十年的性能提升曲線極其背后穩(wěn)定的方法論,否則,GPU就是新的黑洞。君不見(jiàn),NVidia毫不猶豫地集成TensorCore、TMA,此情此景,恰如當(dāng)年CPU不斷吞噬各類專用任務(wù)加速卡。而老黃則是在創(chuàng)立NVidia的頭幾年就意識(shí)到這個(gè)問(wèn)題,并且致力于去塑造黃氏曲線來(lái)扼殺了沿著摩爾定律行進(jìn)CPU的吞噬顯卡的企圖。當(dāng)然這只是第一步,讓顯卡作為獨(dú)立的形態(tài)存在,而AI芯片在過(guò)去十年的廝殺中,仍然遵循著和黃氏曲線類似的步伐,甚至還跟不上這個(gè)步伐,也因此很難獲得獨(dú)立形態(tài)的資格。
后面建立CUDA和可編程著色器,更是神來(lái)之筆,展示了尊重生態(tài)慣性下與CPU競(jìng)爭(zhēng)的正確姿勢(shì)。整個(gè)計(jì)算機(jī)產(chǎn)業(yè)在Intel的帶領(lǐng)下,繪制了整個(gè)軟硬件生態(tài),這種生態(tài)的巨大慣性并非一個(gè)顛覆式創(chuàng)新的全新處理器架構(gòu)所能撼動(dòng)的,數(shù)據(jù)流處理器與經(jīng)典的CPU架構(gòu)的競(jìng)爭(zhēng)就是一個(gè)典型的例子,生態(tài)的慣性最終通過(guò)經(jīng)典CPU架構(gòu)引入亂序發(fā)射,徹底吞噬了數(shù)據(jù)流架構(gòu)的精華而收?qǐng)?。而NVidia在通用計(jì)算領(lǐng)域的競(jìng)爭(zhēng)也是在Intel構(gòu)建的主從架構(gòu)下開(kāi)始萌發(fā),始終把自己放在一個(gè)PCIe設(shè)備的角色上,并構(gòu)建CUDA技術(shù)棧用于孕育未來(lái)增量的軟件體系,而非試圖顛覆或替換當(dāng)時(shí)已有的軟件體系,然后等待一個(gè)“硬件彩票”,等來(lái)了深度學(xué)習(xí),從此讓這部分從屬設(shè)備和增量的軟件體系成長(zhǎng)的足夠大,大到一臺(tái)服務(wù)器要配置8張顯卡,大到成為一個(gè)全新的甚至更主要的軟件生態(tài),這期間Intel也一直卡著PCIe標(biāo)準(zhǔn)的快速升級(jí),老黃也是一直等著這一塊帶寬的需求以及自己的生態(tài)累積到一個(gè)閾值,才開(kāi)始拋開(kāi)Intel在自己的體系內(nèi)搞NVLink。
今天的計(jì)算機(jī)體系,其實(shí)仍然是Intel一手建立的體系,我們?nèi)匀恍枰狢PU作為中央處理器去運(yùn)行操作系統(tǒng),處理各種事務(wù),即使是NVidia DGX整機(jī),也同樣保留了這個(gè)形態(tài),只是NVidia自己作為從屬設(shè)備已經(jīng)占據(jù)了90%以上的硬件和軟件價(jià)值。今天這個(gè)時(shí)代和過(guò)去并無(wú)不同,只是CPU變成了GPU,而GPU變成了廣大AI芯片挑戰(zhàn)者,今天我們看到的NVidia體系有多么強(qiáng)大,當(dāng)年老黃看到的CPU的體系就有多么強(qiáng)大,只不過(guò)老黃找到了一條既尊重生態(tài)慣性,又有機(jī)會(huì)漸進(jìn)改造生態(tài)的一套完美的邏輯。
老黃一手建立的CUDA生態(tài)和GPGPU在過(guò)去十年與深度學(xué)習(xí)發(fā)生了愈演愈烈的反應(yīng),也在深刻得影響著深度學(xué)習(xí)的形態(tài),這種算法與硬件的螺旋反應(yīng)幾乎是在不斷強(qiáng)化AI的形態(tài)就是NVidia的形態(tài),可以說(shuō)留給挑戰(zhàn)者的空間幾乎沒(méi)有,CUDA生態(tài)綁定了GPGPU算力,又綁定了深度學(xué)習(xí)框架的生態(tài),而GPGPU算力又不斷推動(dòng)深度學(xué)習(xí)向著算力黑洞方向演進(jìn),本身GPGPU在算力方面也是一個(gè)相當(dāng)不錯(cuò)的架構(gòu),還扮演著DSA黑洞的角色,可以說(shuō)幾乎是沒(méi)有留下多少給挑戰(zhàn)者切入的機(jī)會(huì)。
不過(guò)也不是完全沒(méi)有。老黃在深度學(xué)習(xí)引爆之后,為了劃分計(jì)算和游戲兩個(gè)市場(chǎng)可是在刀法上費(fèi)勁了腦筋。畢竟臭打游戲的都摳摳搜搜,遍地等等黨,定價(jià)沒(méi)法太高;而深度學(xué)習(xí)都是數(shù)據(jù)中心企業(yè)用戶,大把大把的鈔票,定價(jià)低了太過(guò)良心;但無(wú)奈深度學(xué)習(xí)和打游戲?qū)λ懔Φ男枨蠖挤浅8?,很難做出區(qū)分度,游戲卡簡(jiǎn)直就是深度學(xué)習(xí)良心卡,甚至發(fā)布過(guò)公告禁止數(shù)據(jù)中心買便宜又好用的游戲卡。后來(lái)老黃終于找到了合適的刀法,切在內(nèi)存帶寬和內(nèi)存容量上,從此游戲卡是高算力小容量小帶寬,計(jì)算卡是高算力大容量大帶寬,后面再給計(jì)算卡插上NVLink,徹底讓游戲卡和計(jì)算卡變成了兩種形態(tài)。
這精準(zhǔn)的刀法又產(chǎn)生了算法、硬件與鈔票的微妙化學(xué)反應(yīng)。深度學(xué)習(xí)開(kāi)始從視覺(jué)領(lǐng)域,卷積這種只吃算力的形態(tài)上開(kāi)始緩緩遷移,深度學(xué)習(xí)開(kāi)始走向更適應(yīng)大容量大帶寬的形態(tài),NVLink更是推動(dòng)著深度學(xué)習(xí)模型在大和更大的維度一騎絕塵,不斷探索著智能的邊界。老黃也終于可以在兼顧臭打游戲的同時(shí)大把大把從數(shù)據(jù)中心坑錢(qián)了,顯卡的價(jià)格也一路從幾千塊錢(qián)飆升到了幾十萬(wàn),老黃還在不斷重新定義什么叫一個(gè)GPU,把DGX賣到了上百萬(wàn)的價(jià)格。
但這也給老黃自己埋下了一些隱患,畢竟CUDA生態(tài)更多綁定的是算力,通過(guò)巧妙地卡在硬件架構(gòu)和軟件編程形態(tài)的中間位置,使得競(jìng)爭(zhēng)對(duì)手難以在算力和硬件形態(tài)貼近現(xiàn)有生態(tài)上取得一個(gè)平衡。而隨著計(jì)算卡形態(tài)對(duì)內(nèi)存和帶寬重要性的放大,算法的需求會(huì)愈發(fā)朝著和CUDA生態(tài)綁定沒(méi)有那么強(qiáng)的內(nèi)存和帶寬方向發(fā)展,事實(shí)上也確實(shí)如此。而這也一定程度上削弱了自己構(gòu)筑的護(hù)城河。
算法、硬件與鈔票的微妙化學(xué)反應(yīng),微妙就微妙在,其實(shí)沒(méi)有任何人能真正控制它的走向,生態(tài)也是類似。ChatGPT其實(shí)一定程度引爆了上面說(shuō)的隱患,NVidia辛辛苦苦布局?jǐn)?shù)十年,終于伴隨著AI的崛起構(gòu)建了自己的護(hù)城河,但計(jì)算卡引爆的算法新形態(tài)卻極大改變了對(duì)硬件的需求。
一年前前,ChatGPT再次引爆了AI的熱潮,這場(chǎng)面,一如十年前AlexNet一樣,全世界范圍內(nèi)都在購(gòu)置成千上萬(wàn)的GPU來(lái)進(jìn)行大模型上的布局,大模型在老黃的精準(zhǔn)刀法下,搭配算法、硬件與鈔票的微妙化學(xué)反應(yīng),變成了現(xiàn)在這樣一副對(duì)內(nèi)存容量和帶寬有極致需求的模樣,甚至在很多情況下算力利用率是非常低的。此情此景,與當(dāng)年Google用上千臺(tái)服務(wù)器16000個(gè)CPU核驅(qū)動(dòng)算法識(shí)別貓何其相似,屠龍少年終成惡龍,誰(shuí)又能成為新十年的NVidia呢?
不知不覺(jué)鋪墊了這么多,終于回到標(biāo)題了,ChatGPT和AlexNet是一個(gè)量級(jí)的算法里程碑,AlexNet拉開(kāi)了上一個(gè)十年對(duì)算力的軍備競(jìng)賽,ChatGPT也是為未來(lái)十年芯片軍備競(jìng)賽奠定了基調(diào)。正如我在前一陣提到的那樣,內(nèi)存和帶寬會(huì)成為全新的需求,這件事如果只是單單大模型的需求,確定性還沒(méi)那么高,但隨著NVidia、AMD和Intel今年在內(nèi)存和帶寬上的發(fā)力會(huì)變得確定性更高。硬件的對(duì)內(nèi)存和帶寬的升級(jí)改造會(huì)進(jìn)一步強(qiáng)化模型在內(nèi)存和帶寬上的擴(kuò)展,而ChatGPT又給這方面的擴(kuò)展對(duì)模型能力能達(dá)到的高度帶來(lái)的足夠確定性。算法、硬件與鈔票的微妙化學(xué)反應(yīng)會(huì)不斷強(qiáng)化這個(gè)邏輯,任何一方都沒(méi)法控制這個(gè)走向。
從內(nèi)存和帶寬的角度來(lái)看,NVidia的形態(tài)其實(shí)非常奢侈,這里面不僅有NVidia極高的利潤(rùn)率帶來(lái)的,也有NVidia在這方面的堅(jiān)持,因?yàn)镹Vidia肯定希望自己在數(shù)據(jù)中心中的價(jià)值占比不斷提高,而對(duì)大模型而言,硬件上最有價(jià)值的反而是三星海力士的內(nèi)存和NVLink。而這些都沒(méi)辦法像CUDA之于算力那樣構(gòu)建穩(wěn)固的護(hù)城河,唯有在內(nèi)存和帶寬的規(guī)格升級(jí)速度上塑造增長(zhǎng)曲線,靠曲線的陡峭程度卷。這里面不僅是絕對(duì)規(guī)格的提升,也包含性價(jià)比的提升,也就是老黃所說(shuō)的“The more you buy, the more you save”。而老黃目前的產(chǎn)品尚未呈現(xiàn)出這方面增長(zhǎng)的潛力,目前更多是靠海力士擠的牙膏和NVLink在光模塊層面的突飛猛進(jìn)來(lái)迅速拉升。GH200已經(jīng)堆到了TB/s級(jí)別的網(wǎng)絡(luò)帶寬,但性價(jià)比方面很難說(shuō)有實(shí)質(zhì)性提升。
在今天的大模型用DGX的情況下,成本已經(jīng)偏高的情況下,進(jìn)一步提高算法規(guī)模的動(dòng)力其實(shí)是不足的,畢竟ChatGPT已經(jīng)證明了在目前的規(guī)模下已經(jīng)可以達(dá)到足夠的高度,通過(guò)一個(gè)數(shù)量級(jí)的鈔能力如果不能帶來(lái)算法能力的大幅度提升,邊際效益會(huì)越來(lái)越差。但這一輪芯片軍備競(jìng)賽其實(shí)充滿了太多提升內(nèi)存和帶寬性價(jià)比的方式,我們今天不講短期的技術(shù)趨勢(shì),更多還是看長(zhǎng)線的興衰更替,NVidia超額的利潤(rùn)也是潛在的提升性價(jià)比的巨大空間,內(nèi)存廠在過(guò)去幾十年里無(wú)數(shù)次把內(nèi)存價(jià)格打下去一個(gè)數(shù)量級(jí),說(shuō)起來(lái)NVidia自己的第一代產(chǎn)品也是致力于降低昂貴內(nèi)存的使用上,最后死在了內(nèi)存價(jià)格的暴跌上,不過(guò)今天其實(shí)仍然有很多人在這樣的路線上前赴后繼。
大模型的崛起和各方面的需求其實(shí)對(duì)于軟件生態(tài)也帶來(lái)的巨大機(jī)會(huì),不過(guò)由于巨大的慣性,這種機(jī)會(huì)始終不會(huì)是替換的邏輯,如果不能尊重這種慣性,未來(lái)還是會(huì)不斷走向失敗。CUDA、PyTorch仍然會(huì)長(zhǎng)期占據(jù)其所在的生態(tài)位,正如DGX中仍然保持著CPU的生態(tài)位,只不過(guò)huggingface等一系列與大模型相關(guān)的各種生態(tài)位逐漸出現(xiàn)和成長(zhǎng)壯大,也會(huì)不斷削弱其他生態(tài)位的重要性。正如NVidia不斷削弱CPU在數(shù)據(jù)中心的重要性,直到某一天替換成ARM也不會(huì)對(duì)生態(tài)的慣性造成多大的震動(dòng),但這個(gè)過(guò)程中的路徑依賴仍然是我們需要尊重和正視的。
愿未來(lái)芯片、大模型和鈔票的螺旋繼續(xù)飛舞,讓大模型最終可以走進(jìn)千家萬(wàn)戶,真正改善我們的生活。
本文轉(zhuǎn)載自“半導(dǎo)體行業(yè)觀察”,作者:mackler;智通財(cái)經(jīng)編輯:汪婕。