智通財經(jīng)APP獲悉,禮來(LLY.US)一直在使用生成式人工智能發(fā)現(xiàn)藥物分子。數(shù)據(jù)顯示,人工智能在五分鐘內(nèi)發(fā)現(xiàn)的藥物分子數(shù)量相當(dāng)于禮來在傳統(tǒng)實驗室一整年合成的分子數(shù)量,因此測試人工智能在醫(yī)學(xué)領(lǐng)域的極限是有意義的。我們無法知道大量人工智能生成的設(shè)計是否能在現(xiàn)實世界中發(fā)揮作用,而這正是持懷疑態(tài)度的公司高管想要了解更多的東西。
禮來首席信息和數(shù)字官Diogo Rau最近參與了一些由人工智能生成藥物分子的非典型實驗。他描述這些人工智能生成的生物設(shè)計為具有“奇怪結(jié)構(gòu)”的分子,且無法與該公司現(xiàn)有的分子數(shù)據(jù)庫想匹配,但看起來似乎是潛在的強大候選藥物。這些由人工智能生成的藥物分子被交給了禮來的研究科學(xué)家,并讓他們感到驚訝。
據(jù)從事人工智能和醫(yī)療保健交叉領(lǐng)域工作的高管表示,在不久的將來,該領(lǐng)域?qū)⑼耆扇斯ぶ悄苌伤幬?。一些業(yè)內(nèi)人士則表示,最多在幾年內(nèi),它將成為藥物發(fā)現(xiàn)的一種規(guī)范。生成式人工智能正在迅速加速器在新藥物開發(fā)和發(fā)現(xiàn)中的應(yīng)用。此舉不僅將重塑制藥行業(yè),還將重塑幾個世紀(jì)以來已融入科學(xué)方法的基本思想。
谷歌DeepMind成“先行者”
與人工智能相關(guān)的進步發(fā)生在生物領(lǐng)域,這一領(lǐng)域正在以英偉達醫(yī)療保健副總裁Kimberly Powell所描述的“前所未有的規(guī)模和分辨率”日益數(shù)字化。
這一變化實際發(fā)生在OpenAI的ChatGPT在公眾里變得熟悉之前的幾年。2021年,谷歌的DeepMind人工智能部門率先將人工智能大語言模型應(yīng)用于生物學(xué)。Kimberly Powell表示:“我們可以用非常大的數(shù)據(jù)集訓(xùn)練這些變形模型,從氨基酸序列到蛋白質(zhì)結(jié)構(gòu),這是藥物開發(fā)和設(shè)計的核心?!?/p>
這是一場醫(yī)學(xué)革命,包括以3D方式掃描組織內(nèi)數(shù)百萬個細(xì)胞的空間基因組學(xué),以及受益于已經(jīng)以數(shù)字形式存在的化學(xué)物質(zhì)目錄的AI模型構(gòu)建,這允許生成人工智能transformer模型現(xiàn)在對它們進行工作。Kimberly Powell表示:“這種訓(xùn)練可以通過無人監(jiān)督和自我監(jiān)督學(xué)習(xí)來完成,而且不僅可以快速完成,而且可以富有想象力。人工智能可以‘思考’出人類無法做到的藥物模型?!?/p>
ChatGPT的機制可以作為理解人工智能藥物開發(fā)的類比。Kimberly Powell表示:“它基本上是在每一本書、每一個網(wǎng)頁、每一個PDF文件上進行了訓(xùn)練,它以這樣一種方式編碼了世界上的知識,你可以向它提問,它可以為你提供答案?!?/p>
GPT版本的藥物發(fā)現(xiàn)
藥物發(fā)現(xiàn)是一個見證生物行為相互作用和變化的過程,但在實驗室中需要數(shù)月或數(shù)年的時間,可以在模擬傳統(tǒng)生物行為的計算機模型中得到體現(xiàn)。Kimberly Powell表示:“當(dāng)你能模擬它們的行為時,你就能預(yù)測它們是如何協(xié)同工作和相互作用的?!薄拔覀儸F(xiàn)在有能力表現(xiàn)藥物世界——生物學(xué)和化學(xué)——因為我們有人工智能超級計算機,使用人工智能和類似GPT的方法,有了所有的數(shù)字生物學(xué)數(shù)據(jù),我們第一次可以在計算機中表現(xiàn)藥物世界?!?/p>
這與上個世紀(jì)主導(dǎo)藥物發(fā)現(xiàn)的經(jīng)典經(jīng)驗方法截然不同:廣泛的實驗,隨后的數(shù)據(jù)收集,在人類層面上的數(shù)據(jù)分析,然后是基于這些結(jié)果的另一個設(shè)計過程——在公司內(nèi)部進行實驗,然后是幾個決策點,科學(xué)家和高管們希望這些決策點將導(dǎo)致成功的臨床試驗。Kimberly Powell表示:“這是一個非常手工的過程。因此,這是一個失敗率高達90%的藥物發(fā)現(xiàn)過程?!?/p>
人工智能的支持者認(rèn)為,這將節(jié)省時間,提高成功率,將經(jīng)典過程轉(zhuǎn)變?yōu)楦到y(tǒng)化和可重復(fù)的工程,使藥物研究人員能夠建立更高的成功率。Kimberly Powell援引最近發(fā)表在《自然》雜志上的研究結(jié)果指出,安進發(fā)現(xiàn),在人工智能的幫助下,一種藥物的發(fā)現(xiàn)過程原本可能需要數(shù)年時間,現(xiàn)在可以縮短到幾個月。更重要的是,考慮到藥物開發(fā)的成本(每次試驗的成本可能在3000萬至3億美元之間),在早期將人工智能引入這一過程后,成功率大幅提高。經(jīng)過兩年的傳統(tǒng)開發(fā)過程,成功的概率是50%。Kimberly Powell表示,在更快的人工智能增強過程結(jié)束時,成功率上升到90%。
Kimberly Powell表示:“我們預(yù)測,藥物發(fā)現(xiàn)的進展應(yīng)該會大幅提升?!鄙墒饺斯ぶ悄艿囊恍┲档米⒁獾娜毕?,比如它的“幻覺”傾向,可能會在藥物發(fā)現(xiàn)方面發(fā)揮重要作用。Kimberly Powell 補充稱:“在過去的幾十年里,我們一直在尋找相同的目標(biāo),但如果我們可以使用生成方法來開辟新的目標(biāo)呢?”
“幻覺”發(fā)現(xiàn)的新藥
人工智能可以從模型中不存在的蛋白質(zhì)開始工作,這種方法在經(jīng)典的經(jīng)驗?zāi)P椭惺钦静蛔∧_的。從數(shù)字上看,人工智能有更大的發(fā)現(xiàn)需要探索。Kimberly Powell表示,可以作為一種治療方法的蛋白質(zhì)的潛在數(shù)量基本上是無限的——10的160次方,或者10的160次方——現(xiàn)有的利用自然賦予人類的蛋白質(zhì)的限制將被打破。“你可以使用這些模型來產(chǎn)生可能具有我們需要的所有功能和特征的‘幻覺’蛋白質(zhì)。它可以做到人腦無法做到的事情,但計算機可以做到。”
德克薩斯大學(xué)奧斯汀分校最近為其新的生成式人工智能中心購買了最大的英偉達計算集群之一。分子生物科學(xué)教授Andy Ellington表示:“就像ChatGPT能夠從字母串中學(xué)習(xí)一樣,化學(xué)物質(zhì)也可以用字符串來表示,我們可以從中學(xué)習(xí)?!彼硎?,人工智能正在學(xué)習(xí)區(qū)分藥物和非藥物,并創(chuàng)造新的藥物,就像ChatGPT可以創(chuàng)造句子一樣,“隨著這些進步與預(yù)測蛋白質(zhì)結(jié)構(gòu)的持續(xù)努力相結(jié)合,應(yīng)該很快就可以識別出適合關(guān)鍵目標(biāo)的類似藥物的化合物?!?/p>
德州大學(xué)機器學(xué)習(xí)基礎(chǔ)研究所計算機科學(xué)博士后Daniel Diaz表示,目前人工智能在藥物方面的大部分工作都集中在小分子發(fā)現(xiàn)上,但他認(rèn)為,更大的影響將是在新型生物制劑(基于蛋白質(zhì)的藥物)的開發(fā)上,他已經(jīng)看到了人工智能如何加快尋找最佳設(shè)計的過程。
Daniel Diaz的研究小組目前正在進行一種治療乳腺癌的動物實驗,這種治療方法是一種人類蛋白質(zhì)的工程化版本。這種蛋白質(zhì)可以降解乳腺癌所依賴的一種關(guān)鍵代謝物。傳統(tǒng)上,當(dāng)科學(xué)家需要一種蛋白質(zhì)用于治療時,他們會尋找?guī)追N特征,包括不易分解的穩(wěn)定蛋白質(zhì)。這需要科學(xué)家引入基因工程來調(diào)整蛋白質(zhì),這在實驗室工作中是一個繁瑣的過程——繪制結(jié)構(gòu)并從所有可能的基因修飾中識別出最佳選擇。
現(xiàn)在,人工智能模型正在幫助縮小可能性,因此科學(xué)家們可以更快地知道要嘗試的最佳修改。在Daniel Diaz引用的實驗中,使用更穩(wěn)定的人工智能增強版本導(dǎo)致蛋白質(zhì)產(chǎn)量提高了大約七倍,因此研究人員最終有更多的蛋白質(zhì)可供測試和使用。Daniel Diaz 表示:“結(jié)果看起來非常有希望?!倍矣捎谒且环N基于人體的蛋白質(zhì),病人對這種藥物過敏的幾率——對基于蛋白質(zhì)的藥物的過敏反應(yīng)是一個大問題——被降到最低。
英偉達最近發(fā)布了所謂的人工智能醫(yī)療“微服務(wù)”,包括藥物發(fā)現(xiàn)——這是該公司在醫(yī)療領(lǐng)域采用人工智能的雄心壯志的一部分——使研究人員能夠篩選數(shù)萬億種藥物化合物并預(yù)測蛋白質(zhì)結(jié)構(gòu)。計算軟件設(shè)計公司Cadence正在將英偉達AI集成到一個分子設(shè)計平臺中,該平臺允許研究人員使用數(shù)千億化合物生成、搜索和建模數(shù)據(jù)庫。它還提供與DeepMind的AlphaFold-2蛋白質(zhì)模型相關(guān)的研究功能。
最終,人工智能設(shè)計的藥物將取決于藥物開發(fā)的傳統(tǒng)最后一步:人體試驗的表現(xiàn)。Kimberly Powell表示:“你仍然需要拿出確鑿的證據(jù)。”她將目前的進展水平與自動駕駛汽車的訓(xùn)練進行了比較——自動駕駛汽車正在不斷收集數(shù)據(jù),以加強和重新增強模型。Kimberly Powell 表示:“同樣的事情也發(fā)生在藥物發(fā)現(xiàn)領(lǐng)域。你可以用這些方法來探索新的空間……磨練它,磨練它……進行更智能的實驗,獲取實驗數(shù)據(jù)并將其反饋到模型中,循環(huán)往復(fù)。”
但相比之下,在更廣泛的人工智能模型領(lǐng)域中,生物領(lǐng)域的空間仍然很小。在多模態(tài)和自然語言處理領(lǐng)域,人工智能行業(yè)擁有一萬億或更多參數(shù)的模型,相比之下,生物模型的參數(shù)量僅達數(shù)百億。