2017年5月,AlphaGo在中國烏鎮(zhèn)圍棋峰會上以3:0戰(zhàn)勝排名世界第一的圍棋冠軍柯潔后,光榮退役。彼時,AlphaGo的設計團隊、來自谷歌旗下的人工智能企業(yè)DeepMind表示,AlphaGo將不會再參加其他比賽,但是會Alpha會在其他新領域不斷探索并有所開拓。
2018年,DeepMind帶著Alpha家族的新成員AlphaFold來挑戰(zhàn)新領域:通過基因序列預測蛋白質(zhì)三維結構。
12月2日,DeepMind最新的人工智能程序AlphaFold與另外97支隊伍參與了在墨西哥坎昆舉行的全球蛋白質(zhì)結構預測競賽。首次參加國際比賽的AlphaFold在最艱難的“預測蛋白質(zhì)三維結構”的任務中,排名第一。
不僅排名第一,第二名的準確率與AlphaFold相差甚遠。在AlphaFold預測的 43 種蛋白質(zhì)中,有 25 種蛋白質(zhì)的結構最準確,而排名第二的團隊中只有3種。
“于我們而言,這是一個非常關鍵的時刻。對于解決現(xiàn)實世界重要的科學問題,AlphaFold是一個燈塔項目。” DeepMind聯(lián)合創(chuàng)始人兼首席執(zhí)行官戴密斯·哈薩比斯(Demis Hassabis)在比賽結束后旋即發(fā)推特表示。
此次AlphaFold奪第一的全球蛋白質(zhì)結構預測競賽(CASP),由美國科學家約翰·莫爾特(John Moult)于 1994 年發(fā)起,每兩年舉辦一屆,被認為是蛋白質(zhì)結構領域“奧林匹克競賽”。
蛋白質(zhì)(protein)是構成細胞的基本有機物,是所有生命的物質(zhì)基礎。人體組織的細胞需要不斷更新,要求蛋白質(zhì)不斷地提供更新的“原料”。因此可以說沒有蛋白質(zhì),也就沒有生命。
“久攻不下”的蛋白質(zhì)折疊
“一直以來我的夢想就是,利用人工智能幫助科學家解決宏大的問題,并讓我們更好地理解這個世界。”哈薩比斯表示,蛋白質(zhì)是一切生命的物質(zhì)基礎,預測其3D結構是生物學中的重要挑戰(zhàn),這將影響人們對疾病理解和藥物發(fā)現(xiàn)。
蛋白質(zhì)基本的組成單位是氨基酸。整個地球生命系統(tǒng)中僅有的20多種氨基酸,構成了數(shù)萬至數(shù)億種不同的蛋白質(zhì)。蛋白質(zhì)的種類很多,性質(zhì)、功能各異。蛋白質(zhì)的三維結構取決于它所含氨基酸的數(shù)量和類型,結構也決定了蛋白質(zhì)在體內(nèi)的作用。比如,構成免疫系統(tǒng)的抗體蛋白質(zhì)是“Y形”的,類似于一個鉤子。通過鎖定病毒和細菌,抗體蛋白能夠檢測和標記引起疾病的微生物,并進行消滅;而膠原蛋白的形狀像繩索,其在軟骨、韌帶、骨骼和皮膚之間傳遞張力。
此外,蛋白質(zhì)的折疊包含了很多作用,比如蛋白質(zhì)四級結構折疊受到大量包括氫鍵、離子鍵、疏水作用等非共價相互作用的影響。因此想要從分子水平上了解蛋白質(zhì)的作用機制,就需要精確測出蛋白質(zhì)的三維結構。
利用梯度下降方法預測結構目標T1008
從理論上來說,知道了 DNA 序列,就已經(jīng)決定了其能夠翻譯出的氨基酸序列和蛋白質(zhì)結構,但是僅從基因序列中找出蛋白質(zhì)的三維形狀是一項非常艱巨的任務。蛋白質(zhì)越大,模型就越復雜和困難,因為氨基酸之間可能存在很多的相互作用,因此中間涉及的計算難以想象。黎文索爾悖論指出,需要比宇宙形成更長的時間才能計算出蛋白質(zhì)所有的可能結構,從而得到正確的三維結構。
在過去60年間發(fā)展起來的結構生物學,已經(jīng)采用了包括X射線晶體學、核磁共振、冷凍電鏡等技術來解析蛋白質(zhì)結構。但DeepMind團隊認為,這些傳統(tǒng)方法都依賴于大量的實驗和試錯,同時研究每個結構的成本大概需要耗費數(shù)萬美元。這一耗時又費力的任務,最適合用人工智能解決。加之近幾年基因測序成本的快速降低,基因組學領域的數(shù)據(jù)非常豐富。因此,人工智能已經(jīng)具備了通過基因組數(shù)據(jù)進行深度學習從而做出預測的條件。
DeepMind團隊介紹,AlphaFold使用神經(jīng)網(wǎng)絡預測物理特性,這些神經(jīng)網(wǎng)絡經(jīng)過訓練可以從蛋白質(zhì)的基因序列中預測蛋白質(zhì)的特性,比如氨基酸對之間的距離和,以及連接這些氨基酸的化學鍵之間的角度。接著,AlphaFold調(diào)整結構以找到最高效的氨基酸排布。該程序花了兩周時間預測第一個蛋白質(zhì)結構,但現(xiàn)在只需幾個小時就能將其預測出來。
DeepMind團隊訓練了一個神經(jīng)網(wǎng)絡來預測蛋白質(zhì)中每對殘基之間的距離的單獨分布。然后將這些概率組合成一個分數(shù),以評估所設想的蛋白質(zhì)結構有多準確。此外還訓練了一個單獨的神經(jīng)網(wǎng)絡,匯總了所有氨基酸之間的距離和,來估計設想的蛋白質(zhì)結構與正確答案的接近程度。
利用這些評估功能,AlphaFold能夠檢索所有的蛋白質(zhì)圖景,從而找到與研究設想相匹配的結構。DeepMind團隊設計的第一種方法建立在結構生物學常用的技術上,對于蛋白質(zhì)結構中的某一片段反復用新的蛋白質(zhì)片段替換。這樣訓練出來的神經(jīng)網(wǎng)絡就可以發(fā)明新的蛋白質(zhì)片段,從而不斷提高設想的蛋白質(zhì)結構的得分。
第二種方法就是通過梯度下降優(yōu)化得分。這是一種在機器學習中常用的數(shù)學技術,通過進行微小而漸進的改進一步步使結構實現(xiàn)高度精確。這套技術應用于對整個蛋白質(zhì)鏈的預測,而不是用于蛋白質(zhì)結構組裝之前單獨折疊的碎片,因此從技術上來講降低了整個預測過程的復雜性。
對于AlphaFold的首戰(zhàn)告捷,哈薩比斯在激動之余,也提出了自己的期望:“對我們來說,還有很多工作要做。我們還沒有解決蛋白質(zhì)折疊問題,預測只是第一步。”
Alpha家族:從陪人下棋到探索生命
谷歌DeepMind研發(fā)的人工智能Alpha系列,第一次為人們熟知是2016年3月,AlphaGo與圍棋世界冠軍、職業(yè)九段棋手李世石進行圍棋人機大戰(zhàn),最終以4比1的總比分獲勝。2016年末2017年初,AlphaGo在中國棋類網(wǎng)站上以“大師”(Master)的注冊帳號,與中日韓數(shù)十位圍棋高手進行快棋對決,連續(xù)60局無一敗績。
2017年12月,DeepMind團隊公布了“棋類全才”AlphaZero。該程序從零開始訓練,4小時打敗國際象棋的最強程序Stockfish,2小時打敗日本將棋的最強程序Elmo,8小時打敗與李世石對戰(zhàn)的AlphaGo v18。
在“解決了一切棋類”之后,人工智能在更為復雜、甚至讓人類也頭痛不已的問題上是否能取得實質(zhì)性的發(fā)展?
實際上2018年初,神經(jīng)科學家、清華大學教授魯白曾向媒體提到,生命科學領域到目前為止還沒有受到人工智能的影響,而這也將會是產(chǎn)生新機會的沃土。
2018年5月,DeepMind團隊先后在《自然》和《自然-神經(jīng)科學》上發(fā)表論文,其開發(fā)出了一個人工智能程序具有類似哺乳動物一樣的尋路能力,能夠協(xié)助傳統(tǒng)的神經(jīng)科學研究來測試大腦工作原理;此外DeepMind還利用人工智能領域中的元強化學習框架,研究了大腦中多巴胺在人們學習過程中起到的作用。
而AlphaFold作為Alpha家族的新成員,也體現(xiàn)出了DeepMind在人工智能探索上從“腦力運動”向“生命探索”的轉(zhuǎn)變。AlphaFold涉足的蛋白質(zhì)結構領域,能夠通過模擬和模型展示很多關于蛋白質(zhì)的形狀及其運作方式的問題,從而能夠使科學家更有效地設計新的、有效的疾病治療方法,同時也降低了與實驗相關的成本。此外,對蛋白質(zhì)折疊的理解也將進一步幫助進行蛋白質(zhì)的設計。例如,通過蛋白質(zhì)設計可以幫助管理塑料和石油等污染物,生物可降解酶的進步,以對環(huán)境更友好的方式分解廢物。事實上,已經(jīng)有研究人員開始設計細菌來分泌蛋白質(zhì),使廢物可以生物降解并且更容易加工。
“破解圍棋或電子競技從來不是我們的目標,我們的最終目標是發(fā)展出能完全解決像‘蛋白質(zhì)折疊’這類問題的算法。”哈薩比斯表示。
關鍵詞: 人工智能 蛋白質(zhì)結構
質(zhì)檢
推薦