日前,在德國法蘭克福會展中心舉行的2018國際超算大會(ISC18)上,浪潮分享了面向第三代基因測序組裝軟件的高性能計算系統優化方案。浪潮的FALCON優化方案使得關鍵步驟計算性能提升了20%左右,而浪潮并行優化的MECAT相比原單機版本獲得了近10倍的性能提升,優異的性能表現引發了國際同行的極大關注。
ISC現場,浪潮AI&HPC Dr.朱紅分享第三代基因測序計算優化方案
二代測序和三代測序都屬于高通量測序技術,測序數據產出量很大,需要結合高性能計算技術來進行后續的測序數據處理。相較于二代測序技術,以單分子測序技術為代表的三代基因測序帶來了更長的測序讀長,這使得對更加復雜的物種如各種農作物和植物等的基因研究成為可能,但是相對更高的測序錯誤率(~15%)需要進行數據糾錯,又對高性能計算帶來了新的挑戰。三代基因測序組裝這類應用對于系統的計算性能、網絡和磁盤等方案都有很高的要求。很多用戶在通常的高性能計算平臺來處理測序數據時,性能都不理想。
目前,由Pacbio公司開發的FALCON及中國的中山大學開發的MECAT是第三代基因測序組裝領域的兩款主流軟件。FALCON由于把測序數據(raw data)切割成KB級別的卷來進行糾錯,因而需要頻繁的磁盤I/O,所以在計算過程中,磁盤I/O經常會成為系統瓶頸。浪潮專家優化FALCON軟件的底層參數,優化了軟件架構,降低了系統對于硬件I/O依賴,下圖為處理同一測試用例時,優化前后磁盤I/O強度對比。
優化完成后,FALCON軟件的核心部分性能提升了20%,而且軟件的集群擴展性也有明顯提升。
優化后FALCON核心部分性能提升20%
針對MECAT軟件,浪潮完成了該軟件從單機環境向集群環境的并行優化工作。經測試,新部署的經過浪潮并行優化的集群版本在12個節點上運行時,可以把人類全基因組組裝時間從200多個小時縮短到不足24小時,相比原單節點版本獲得近10倍的加速比,這表明集群版本的擴展線性度非常好。