全基因組測序的數據分析:新進展,新挑戰

【字體: 時間:2019年11月25日 來源:生物通

編輯推薦:

  全基因組測序(WGS)已成為一種稀松平常的工具,可以幫助人們獲得某個生物體或某位患者的完整基因組密碼。然而,數據分析卻好似一堵無形的高墻,阻礙了WGS在生物醫學界的廣泛使用。

全基因組測序(WGS)已成為一種稀松平常的工具,可以幫助人們獲得某個生物體或某位患者的完整基因組密碼。然而,數據分析卻好似一堵無形的高墻,阻礙了WGS在生物醫學界的廣泛使用。WGS生成了海量的數據,讓人們往往不知所措。

為了解釋這些數據,分析人員需要在多個步驟中使用不同的軟件工具,將序列拼接在一起,尋找遺傳代碼中的變異,并將其與參考基因組進行比較。這通常需要幾個星期的時間,但隨著軟件的創新和云計算的出現,WGS的分析速度大大加快,成本也更低。

當然,對大多數實驗室而言,WGS的數據分析仍然困難重重。第一個原因是WGS仍在不斷發展,盡管 “第二代”測序技術被廣泛使用,比如Illumina平臺,但PacBio和Oxford Nanopore Technologies等公司開發的“第三代”測序技術也開始流行起來。第二個原因是,無論是第二代還是第三代的數據,WGS分析所需的軟件都在不斷發展。

如今,開源軟件的數量已經超過了市售軟件,因為研究人員掌握的算法在不斷變化。人們很容易獲取多個分析工具,但是沒有一種軟件方案是普遍適用的。有些研究人員決定自己編寫軟件,有些研究人員則選擇將分析工作外包。下面,我們就來看看這個快速發展的領域有哪些新進展。

一種工具并不夠

哈佛醫學院的助理教授Sek Won Kong就是那個喜歡自己動手的人。他主要對罕見的遺傳病開展轉化基因組學研究和臨床全基因組測序。Kong通常在研究中使用多種方法來分析WGS數據。“沒有任何一種分析管道能夠執行所有的分析,因此我們必須使用多種不同的工具,”他說。

Kong及其同事對全基因組測序的多個分析管道進行比較分析,以減少假陽性結果。他們在《Scientific Reports》上發表了這項成果1。Kong表示:“我通常使用三到四種類型的軟件來分析基因組,這是我在比較分析后選擇的。”

他們分析了罕見遺傳病和神經發育障礙患者的WGS數據,并將此信息與代謝組學和轉錄組學數據相結合。“這類研究沒有現成的工具,因此有時候我必須自己開發工具,以開展某些類型的研究,”他指出,這種狀況在開展WGS分析的研究人員中并不罕見。“有些人與生物信息學家合作開發自己的軟件,以幫助回答他們的問題。”

數據分析的“代溝”

科學家面臨的數據分析挑戰可能有所不同,這取決于他們的數據是第二代還是第三代。人和未來生物科技公司(Genetalks Biotech)的首席技術官宋卓表示:“對于第二代的WGS數據而言,最大的挑戰在于映射和變異檢出的速度,特別是對于大規模群體的數據。”宋卓通常使用“BWA+GATK”來分析二代WGS數據。

BWA(Burrows-Wheeler Aligner)是一種將序列映射到大型參考基因組的軟件2。GATK(Genome Analysis Toolkit)是由Broad研究所開發的,可通過高通量測序數據來分析變異信息3

宋卓通過計算的加速來解決速度問題。他表示:“我們利用自制的FPGA加速芯片來加速軟件運行,就像Edico Genome的DRAGEN一樣。”DRAGEN Bio-IT平臺4利用現場可編程門陣列(FPGA)技術,將NGS數據分析從幾小時縮短到幾分鐘。

去年,Illumina收購了Edico Genome公司,將DRAGEN整合到Illumina的基因組數據分析工具中。據悉,它能夠在25分鐘內以30倍的覆蓋度處理整個人類基因組,并創造了基因組數據分析的兩項吉尼斯世界紀錄。今年9月,Illumina與Broad研究所宣布了一項合作開發開源軟件的計劃,將結合DRAGEN和GATK的優勢。

第三代WGS數據的分析則面臨“成長的煩惱”,因為組裝長序列的算法仍在積極開發中。“最大的挑戰是讓第三代WGS分析結果保持最新,”宋卓談道。“研究人員可能不得不重新計算或組合不同算法的數據。”他使用兩種類型的軟件來組裝第三代WGS數據:wtdbg2 5和CANU 6。據他介紹,wtdbg2是新的,速度很快,而CANU比較舊但廣泛使用。

云端的數據分析

全基因組測序若想應用在臨床研究甚至治療中,那還需要不斷減少分析的時間和成本。一種解決方案是將云計算應用于WGS的大規模計算。宋卓及其同事不久前在《BMC Genomics》上發表了一種名為GT-WGS的工具7

這個工具在國際基因組學大會舉辦的高性能基因組計算比賽中獲得第一名。GT-WGS在短短幾分鐘內即可返回結果,其準確性可與著名的GATK媲美。它利用亞馬遜網絡服務(AWS)的動態定價優勢來大大降低大規模WGS分析的成本。

宋卓及其同事還開發了分析方案的并行云計算版本。基于FPGA的加速系統GTX.one適用于二代WGS數據的分析,而CANU的并行云計算版本可用于三代的WGS數據。他們還開發了GTX.Zip工具8,以協助數據的壓縮和傳輸。

“好消息是,隨著數據量的增加,與規模有關的問題將很快得到解決,”宋卓說。“將生物信息學與高性能計算相結合,才是未來。”

參考文獻

1. Hwang, K., Lee, I., Li, H. et al. Comparative analysis of whole-genome sequencing pipelines to minimize false negative findings. Sci Rep 9, 3219 (2019) doi:10.1038/s41598-019-39108-2
2. Burrows-Wheeler Aligner
3. Genome Analysis Toolkit
4. Illumina DRAGEN Bio-IT Platform
5. Ruan, J, Li, H. Fast and accurate long-read assembly with wtdbg2. bioRxiv. January 26, 2019.
6. Koren, S. et al. Canu: scalable and accurate long-read assembly via adaptive k-mer weighting and repeat separation. Genome res. 2017. 27:722-736.
7. Wang, Y. et al. GT-WGS: an efficient and economic tool for large-scale WGS analysis based on the AWS cloud service. BMC Genomics 2018. 19(Suppl 1): 959.
8. Genetalks/GTZ

我來說兩句
0  條評論    0 人次參與
登錄 注冊發布
最新評論刷新
查看更多評論 > >

訂閱生物通快訊

訂閱快訊:

最新文章

限時促銷

會展信息

關注訂閱號/掌握最新資訊

生物通首頁 | 今日動態 | 生物通商城 | 人才市場 | 核心刊物 | 特價專欄 | 儀器龍虎榜

版權所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

聯系信箱:

粵ICP備09063491號

幸运飞艇最新群二维码