向超算問藥,如何用15個小時計算十億分子?

2020-09-17分类:健康

出品:"格致論道講壇"公眾號(ID:SELFtalks)

以下內容為中國科學院計算機網路資訊中心研究員金鐘的演講實錄:

大家好,非常高興來到“格致論道講壇”。我是來自中國科學院資訊網路中心的金鐘,主要是做高效能運算方面的研究,專業是高效能生物醫藥計算

今天主要是想和大家談一談高效能運算和生物醫藥計算。

今年是非常特殊的一年,大家也都處於新冠疫情中。

疫情來得非常之快,我們和疫情、病毒在賽跑,這也科研和病毒的競賽

當疫情來的時候,我們怎麼辦?

首先,我們可能要想辦法去治療,治療的時候需要有藥物。

在突然疫情來臨的時候,找藥物最重要的是什麼?速度

速度是現在找藥的關鍵,有了超級計算機的幫助,可以使發現藥物的速度比原來快很多

我們一定聽說神農嘗百草的故事。

古人得病的時候沒有藥怎麼辦?只能硬抗。

神農看到大家非常痛苦,於是他去深山裡面嚐遍了百草,最後得到了365種草藥,寫成了非常重要的藥典。

但後來神農非常不幸地在嘗藥過程中,因中毒去世了。

人嘗藥是非常危險的,而且它的效率非常低

現代怎麼辦?

我們現在有了超級計算機的幫助,有了對藥物分子和藥物機理的研究。

研究清楚以後,我們就幸運了,不需要我們親身去試驗,先用計算機幫忙。

思想早餐

已完成;10% //////////

超級計算機

超級計算機是一個龐然大物,非常非常大。

我們現在用的超級計算機可以佔滿一間屋子。超級計算機佔地面積幾百平米,甚至比這更大。

紫杉醇是一種抗腫瘤藥物,下圖右側是我們計算和實驗的對比,做的是紫杉醇搭載在藥物載體上,進入體內不斷緩釋發揮作用的過程。

當它注入到人體後,66分鐘起開始釋放,一直到二三十分鐘後,這個藥才能真正的在體內發揮作用。

超級計算機長什麼樣子?

上圖是中科院超算中心的“元”超級計算機。這臺超級計算機由多個大機櫃組成,非常大,每一個機櫃是一排排稱為計算節點的東西。

一個計算節點跟我們現在用的桌上型電腦、筆記本類似,但是它的計算能力、儲存容量、記憶體比我們的PC大很多

專業的超級計算機的節點不像桌上型電腦做得這麼大,它是非常薄的,就是一個個刀片節點,最終又用高速網路連線起來

機櫃的背面就是高速網路,用網線連線起來,這樣可以使超級計算機的每個計算節點協同工作。

而且,超級計算機的處理器也比一般家用PC的四核、六核以至於八核的處理器更強大,超級計算機用的CPU可能是十幾核、二十多核的超強CPU

問題來了,既然有這麼大的超級計算機,那什麼樣的問題需要用高效能運算呢?

首先就是大。既然超級計算機這麼大,解決的問題也是大的。

如果把普通PC比喻成一個普通家養的小寵物,超級計算機真的就是一個龐然大物,可能比大象還要大很多。

另外,它計算的時候也要去算一些需要算得非常快的問題

其實,我們用的手機也是一臺小型PC。

用手機的時候,很多人都玩過《王者榮耀》。開始玩的時候還好,玩了一段時間後覺得非常卡,那怎麼辦?除了升級硬體可能也沒有太好的辦法。

超級計算機本身的配置和硬體肯定比手機強多了,因此它的計算節點比一般的單臺PC運算的快很多

超級計算機有什麼樣的用處呢?天氣預報。

天氣預報和超級計算機有什麼關係?

天氣預報在資料獲取和數值天氣預報模擬這兩方面都少不了超級計算機的支援。

以颱風為例。颱風有生成和運動的軌跡,怎麼把運動的軌跡、運動的速度計算出來?這就需要在計算機裡解方程。

像中國這麼大的面積,在預報天氣的時候,我們不僅僅是求解一個平面,而是需要計算立體的網格,因為大氣層是有厚度的。

在最新的天氣模式裡面,全中國大概有400萬個網格,這個計算量就非常大了。

如果沒有超級計算機,我們用手工算要算到猴年馬月也沒辦法解決

隨著超級計算機的發展,可以做到高精度的天氣預報了。

什麼概念?現在我們預測天氣預報的尺度是5公里、10公里,將來我們的預測可能到1公里

如果我們騎單車,開啟手機APP的時候,可以看到沿途路線的天氣是什麼樣子的,這就給生活帶來更大的便利。

超級計算機還有一個應用,那就是科幻片的製作

很多人都看過《流浪地球》科幻片,其中很多場景是想象出來的。

舉個例子,其中的火石運輸車就是用超級計算機渲染出來的

先畫一些線條,畫一些框把車的形狀勾勒出來,再畫車身、畫輪胎,再貼上紋理、上色,最後進行打光,就畫出來了一輛火石運輸車。

還有在電影裡看到的下雪場景,這些雪比真實的雪大很多,也不是真實的狀態,是用計算機渲染出來的,採用了實時渲染技術,製作出了在熒幕上看到的《流浪地球》科幻片。

思想早餐

已完成;40% //////////

超級計算機篩選新藥

超級計算機在藥物發現方面有很多的應用。

談到基於結構的新藥篩選,我們首先要對靶標蛋白有一定研究,我們要從化合物的分子庫裡面去選擇一些小分子。

這個化合物庫實際上非常大,可能有成百萬、上千萬甚至上億的分子

我們把這些分子取出來後,採用分子對接軟體根據對接演算法計算。

對接成功後,還要為對接質量進行打分。

從這裡面選擇分高的化合物結構進行聚類分析,再分析它的構象,然後選取大概100個交給實驗科學家做一些分析,最後經歷後續的漫長實驗,得到一些有活性的小分子。

另外,還可以用分子動力學的方法,模擬蛋白的構象變化

分子動力學就是解牛頓第二定律的運動方程,以數值的解法解運動方程,可以模擬蛋白質的動力學過程。

在模擬蛋白質變化的過程中,有的通路形成開環,有的通路形成閉環,會得到不同的模擬結果。

這是我們實際做的複雜分子模擬和新藥篩選的例子。

一個是膜蛋白動力學模擬,體現的是膜蛋白在雙層磷脂分子之間運動的情況。

另一個是甲型H1N1流感防治藥物的小分子對接過程。受體蛋白的表面是坑坑窪窪的,像丘陵一樣。小分子尋找各種低窪地帶進行對接,我們稱這些地方為“口袋”。

小分子運動到“口袋”中,可以和受體蛋白進行結合。

它的基本原理之一是“一把鑰匙開一把鎖”的“鎖匙模型”

這個小分子作為一個配體分子,進入到受體蛋白的“口袋”裡面,到形成最後的複合物。

我們會用打分函式對這個複合物算出一個分數,對複合物結合質量進行定量評估。

就好像從裡面選擇英雄榜,比如說取前一百名,選出一百個分子,最後把這些分子交給實驗科學家去做進一步的實驗。

計算機上到底怎麼做分子對接這件事情?

我們首先準備一個普通文字檔案,包括原子種類、性質、位置,包括連線關係的一些資訊。

然後,我們用視覺化軟體把這個檔案展示出來,展示出蛋白質結構,就是右邊這張受體結構的圖。

科學家可以很直觀地看出來口袋在哪裡,結合位點有可能在哪裡,當然還要經過一些理論的分析。

再用一個比較流行的Autodock Vina對接軟體,把剛才的資訊提交給計算機,經過長時間的運算得到結果,然後再做結構分析。這樣就可以得到實際的對接結果。

實際上,高效能運算在藥物研發的若干環節發揮著重要的作用,包括利用基因測序提供幫助、潛在藥物靶標的研究、苗頭化合物的發現、先導化合物的確定和最佳化等,甚至還能為後續的臨床實驗等工作提供一些支援。

在這些過程中,超級計算機都能夠起到很大的幫助和作用。

思想早餐

已完成;70% //////////

計算的挑戰

在計算方面,這麼大規模的計算有著非常重大的挑戰,下面介紹幾個比較典型的例子。

這麼多的計算機同時工作,好比說一個人工作好辦,自己做就可以了,但是成百上千人同時工作怎麼辦?我們就要協調,需要一個人總體協調任務

同時還要接收指令,互相之間有一些通訊和互相交流的過程,希望大家能夠齊頭並進,只有這樣我們的工作效率才會高。

超級計算機的運算也是同樣的道理,所有計算節點的計算需要齊頭並進

實際上,一個分子就是一個檔案,我們這裡面有十億分子,意味著有十億個檔案

大家可能都有過在筆記本上複製照片的經歷,在我們複製很多很多小照片的時候速度非常慢,看到照片目錄刷刷在跑,但是進度條卻不往前走,怎麼辦?打包。

超級計算機運算過程中不光打一個包,可能要打上百上千的包,形成不同的分割,這樣才能保證高效率

現代超級計算機裡面有兩種處理器,一種就是常說的CPU,還有一種是加速器,最典型的是筆記本的顯示卡,也可以做計算。

加速器的計算能力超強,但是隻能做一些簡單的計算,這時候涉及到的還是協同工作問題。

這兩種不同的處理器,在工作的時候怎麼辦?

兩個人要交流,兩種處理器要交流,當有成千上萬個處理器的時候,交流溝通的網路就非常複雜,這種情況下怎麼辦?

我們只能用一些特殊的硬體通道。就像把公路修得筆直,修的路面更平整一些,讓車的速度更高;把路面修寬,就像網路的頻寬更寬,這樣可以更好的通訊。

我們正是採用這些手段應對高效能運算在生物醫藥研究中面臨的計算挑戰。

經過科學家這麼多年的努力,我們在高效能運算技術應用於新藥研發攻關方面取得了一些進步。

最初的時候我們估算,如果用一個CPU來算十億分子,需要475年,這需要的時間非常長。

在2015年的時候,在“天河2”上採用CPU和加速器協同的工作方式後,可以把這個計算縮短到23天

今年哈佛大學用雲端計算技術,用了16萬臺CPU計算,可以縮短到15小時,但是他們做的是剛性對接的,這是什麼意思?

剛性對接就是對接時保持小分子和蛋白質兩個分子的形狀不變。

實際上,在對接的過程中,兩者的形狀是有變化的。

而我們在這種有限制的條件下計算,更符合實際條件,使得分子形狀有輕微的變化,我們稱之為半柔性對接

還有讓蛋白質自由變化的柔性對接。在現在的計算能力下,要做到柔性對接計算還是非常困難的。

現在用半柔性對接方法,透過GPU圖形加速卡加速,可以縮短到比15小時再短,這樣大大節省了計算資源,也對高速高通量新藥研發攻關起到非常好的效果。

在抗疫情和時間的賽跑中,新藥研發和高效能運算髮揮了很重要的作用。

對於未來的新藥研發,我們現在已經看到了一些苗頭。可是,僅僅拼速度可能是不夠的

可能每個人都有這種體會:同樣的藥治療看起來一樣的病症,兩個人同時吃了,可能治療效果不一樣。

現代醫學和現代生物學也找到了一些原因,因為我們每個人的基因不一樣。

一些研究發現每個人的藥物作用位點、作用基因是不太一樣的

因此,過去我們用一種藥打遍天下,對付一種病症。而如果面向所有人,這種方式現在來看是非常不經濟的。

有統計表明,過去或者現在也好,藥物治療中真正有效的部分可能也就是1/3

我們說“是藥三分毒”,藥吃進去不是開玩笑的事情。

為了使藥物更有效,也更節省資源,並且減少毒副作用,我們必須採用個體化用藥,為每一個人量體裁衣,制定個體化的用藥方案

這種個體化的用藥方案必然帶來個性化藥物研究,我們要針對各種複雜的情況做藥物研究新的模式。

因此,我們要更深入地在分子層面做相關工作。

雖然已經提到了很多高效能運算在生物醫藥計算方面研究的內容,但是我介紹的東西還只是冰山的一角,這個領域是博大精深的,有很多很多深奧和有意思的科學問題以及有趣的現象,有待於我們今後進一步去研究。

我也希望各位如果有興趣,可以深入地瞭解一下生物醫藥的高效能運算領域。如果有願意加入這個行業的人,也希望大家能夠加入。

有了創新藥物的研究、有了高效能運算機的幫助,可以透過藥物研究為我們今後的健康發展做出更大的貢獻,為我們的健康和生活創造絢麗燦爛的明天。

“格致論道”,原稱“SELF格致論道”,是中國科學院全力推出的科學文化講壇,由中國科學院計算機網路資訊中心和中國科學院科學傳播局聯合主辦,中國科普博覽承辦。致力於非凡思想的跨界傳播,旨在以“格物致知”的精神探討科技、教育、生活、未來的發展。獲取更多資訊。本文出品自“格致論道講壇”公眾號(SELFtalks),轉載請註明公眾號出處,未經授權不得轉載。

标签:#資訊

可能感興趣