當(dāng)?shù)貢r(shí)間周二(4月4日),谷歌公布了其用于訓(xùn)練人工智能(AI)模型的超級(jí)計(jì)算機(jī)的最新細(xì)節(jié)。該公司稱(chēng),這些系統(tǒng)比英偉達(dá)公司的同期系統(tǒng)更快、更節(jié)能。
目前,谷歌公司90%以上的AI訓(xùn)練工作都是通過(guò)谷歌自主研制的TPU芯片(Tensor Processing Unit)完成的。其AI訓(xùn)練的過(guò)程是:通過(guò)給模型輸入數(shù)據(jù),使其能夠用類(lèi)似人類(lèi)的文本回應(yīng)、并具備生成圖像等功能。
現(xiàn)谷歌TPU芯片已經(jīng)出到第四代(TPU v4)了。谷歌公司周二發(fā)布的一篇論文詳細(xì)闡述了,該公司是如何利用自己定制的光開(kāi)關(guān)將4000多個(gè)芯片組合到一臺(tái)超級(jí)計(jì)算機(jī)中,從而幫助連接一臺(tái)臺(tái)獨(dú)立機(jī)器。
改善芯片間的連接
隨著OpenAI的ChatGPT、谷歌的Bard等AI聊天機(jī)器人的競(jìng)爭(zhēng)愈演愈烈,改善芯片間的連接已成為開(kāi)發(fā)AI超算的科技公司的一個(gè)關(guān)鍵競(jìng)爭(zhēng)點(diǎn)。
由于ChatGPT、Bard等產(chǎn)品背后使用的大型語(yǔ)言模型的規(guī)模太龐大了,無(wú)法存儲(chǔ)在單一芯片上。所以,這些模型必須分散在數(shù)千個(gè)芯片上,然后這些芯片必須同時(shí)工作,花費(fèi)數(shù)周或更長(zhǎng)時(shí)間來(lái)訓(xùn)練語(yǔ)言模型。
谷歌的PaLM是該公司迄今為止公開(kāi)披露的最大的語(yǔ)言模型。其訓(xùn)練方式是:通過(guò)將其分配到兩臺(tái)各包含4000個(gè)芯片的超級(jí)計(jì)算機(jī)中,歷時(shí)50天進(jìn)行訓(xùn)練。
谷歌周二稱(chēng),其超級(jí)計(jì)算機(jī)可以很輕松地在運(yùn)行過(guò)程中重新配置芯片之間的連接,有助于避免問(wèn)題并調(diào)整性能。
該公司的研究員Norm Jouppi和工程師David Patterson在上述論文中寫(xiě)道,“電路切換可以很容易地繞過(guò)故障組件…這種靈活性甚至允許我們改變超級(jí)計(jì)算機(jī)互連的拓?fù)浣Y(jié)構(gòu),以加速機(jī)器學(xué)習(xí)模型的性能?!?/p>
研發(fā)新版本
雖然谷歌直到現(xiàn)在才披露關(guān)于其超級(jí)計(jì)算機(jī)的詳細(xì)信息,不過(guò)事實(shí)上,自2020年以來(lái),該系統(tǒng)已經(jīng)在公司內(nèi)部上線,應(yīng)用于該公司位于俄克拉荷馬州的一個(gè)數(shù)據(jù)中心。
據(jù)悉,初創(chuàng)公司Midjourney使用該系統(tǒng)來(lái)訓(xùn)練其模型,在輸入幾句文字后,模型就會(huì)生成新的圖像。
谷歌在論文中還寫(xiě)道,相比于與TPU v4同時(shí)發(fā)布的英偉達(dá)A100芯片,其芯片速度高達(dá)A100的1.7倍,能耗效率是A100的1.9倍。
不過(guò)谷歌也承認(rèn),并沒(méi)有將TPU v4與英偉達(dá)目前的H100芯片進(jìn)行比較。給出的理由是:H100上市時(shí)間晚于谷歌芯片,并且采用了更新的技術(shù)。
此外,谷歌還暗示,正在研發(fā)一種新版本TPU,以期與英偉達(dá)H100芯片競(jìng)爭(zhēng),但沒(méi)有提供細(xì)節(jié)。
本文來(lái)源于財(cái)聯(lián)社,作者周子意;智通財(cái)經(jīng)編輯:文文。