智通財(cái)經(jīng)APP獲悉,2月11日(周一)美股盤前,截至北京時(shí)間21:38,微軟(MSFT.US)盤前漲1.14%,報(bào)190.85美元,創(chuàng)造股價(jià)歷史新高。
今天,微軟研究院重磅發(fā)布了有史以來最大的基于Transformer架構(gòu)的語言生成模型 Turing-NLG。此模型的參數(shù)高達(dá)170億,是英偉達(dá)(NVDA.US)的Megatron(也就是現(xiàn)在第二大Transformer模型)的兩倍,是OpenAI的GPT-2的十倍。
基于Transformer的架構(gòu),意味著該模型可以生成詞來完成開放式文本任務(wù)。除了填充不完整語句外,它還可以對(duì)輸入文檔的問題和摘要生成答案。
而微軟之所以能夠開發(fā)出 Turing-NLG 這一重磅級(jí)的語言生成模型,實(shí)際上離不開其差不多同一時(shí)間開源的深度學(xué)習(xí)庫——DeepSpeed。
微軟表示,DeepSpeed 能夠讓他們降低模型并行度(從16降低到4),將每個(gè)節(jié)點(diǎn)的批處理大小增加4倍,并將訓(xùn)練時(shí)間減少到原來的1/3。不僅如此,DeepSpeed 使用更少的GPU 就可以提高大型模型的訓(xùn)練效率。