發(fā)布時(shí)間:2017-10-24作者:諾為爾基因瀏覽次數(shù):4168
9月18日,中山大學(xué)中山眼科中心謝志、肖傳樂(lè)、謝尚潛,以及中山大學(xué)數(shù)據(jù)科學(xué)與計(jì)算機(jī)學(xué)院陳穎和克萊姆森大學(xué)羅峰等學(xué)者,在Nature Methods在線發(fā)表了三代基因組測(cè)序數(shù)據(jù)計(jì)算方法,文章題目為 “MECAT: fast mapping, error correction, de novo assembly tool for single-molecule sequencing reads”。這項(xiàng)合作研究的計(jì)算方法解決了該領(lǐng)域的關(guān)鍵技術(shù)難題。
以PacBio和Oxford Nanopore公司為代表的三代測(cè)序技術(shù)能夠產(chǎn)生遠(yuǎn)遠(yuǎn)長(zhǎng)于二代測(cè)序技術(shù)的基因組序列讀長(zhǎng),并且實(shí)現(xiàn)在單分子水平進(jìn)行基因測(cè)序,在動(dòng)植物的基因組組裝、基因組結(jié)構(gòu)變異,DNA修飾檢測(cè)、全長(zhǎng)轉(zhuǎn)錄本測(cè)序中廣泛應(yīng)用。然而,三代測(cè)序數(shù)據(jù)高測(cè)序錯(cuò)誤率(12-15%)給三代測(cè)序基因組數(shù)據(jù)分析帶來(lái)了巨大的挑戰(zhàn),尤其在長(zhǎng)序列局部序列比對(duì)和序列錯(cuò)誤堿基校正過(guò)程中消耗大量的計(jì)算時(shí)間和資源,嚴(yán)重影響了三代測(cè)序技術(shù)的應(yīng)用和發(fā)展。
針對(duì)三代測(cè)序基因組分析耗時(shí)的問(wèn)題,項(xiàng)目負(fù)責(zé)人謝志和主要完成人肖傳樂(lè)等研究人員提出了基于全局種子投票打分的候選匹配序列評(píng)估方法,該方法可以大幅降低三代測(cè)序序列比對(duì),校正和組裝的計(jì)算資源消耗,從而大幅提高計(jì)算效率;并將上述方法開(kāi)發(fā)完成了三代測(cè)序組裝系統(tǒng)MECAT。
首先,為了減少局部序列比對(duì)的候選區(qū)域,MECAT建立了快速測(cè)量?jī)蓚€(gè)序列編輯距離的序列差異因子和全局種子投票打分的計(jì)算模型。該模型中兩個(gè)序列全局種子得分與重疊長(zhǎng)度成線性相關(guān)的重要特征,使兩序列重疊區(qū)域的長(zhǎng)度可以通過(guò)種子全局得分進(jìn)行評(píng)估。全局種子得分模型不僅能獲得候選局部比對(duì)所需要兩序列的準(zhǔn)確起始比對(duì)位置,同時(shí)首次實(shí)現(xiàn)非局部序列比對(duì)的兩兩序列比對(duì)過(guò)程,從而大幅節(jié)約了三代測(cè)序兩兩比對(duì)的計(jì)算時(shí)間。目前,MECAT在人類(lèi)基因組上的兩兩比對(duì)時(shí)間比目前主流軟件快17倍。
其次,在三代測(cè)序基因組組裝另一耗時(shí)的序列校正步驟中,MECAT通過(guò)優(yōu)選一定最高得分的候選匹配序列進(jìn)行局部序列比對(duì),大幅降低進(jìn)入局部序列比對(duì)過(guò)程的候選序列數(shù)量,從而大幅提高三代測(cè)序序列校正時(shí)間。MECAT的序列校正速度是目前軟件的7-8倍。
總的來(lái)說(shuō),集成三代測(cè)序序列比對(duì),校正和組裝為一體的MECAT系統(tǒng),與目前的三代測(cè)序計(jì)算軟件比具有明顯的優(yōu)勢(shì),尤其是人類(lèi)基因組的組裝速度是同類(lèi)軟件(Canu和FALCON)17-23倍,并首次在單個(gè)服務(wù)器上實(shí)現(xiàn)了人類(lèi)基因組組裝工作。MECAT大幅降低了三代測(cè)序計(jì)算硬件平臺(tái)要求,從而加速了三代測(cè)序的發(fā)展和應(yīng)用。
MECAT的研究和開(kāi)發(fā)得到了中山大學(xué)中山眼科中心五個(gè)五計(jì)劃以及中山大學(xué)精準(zhǔn)醫(yī)學(xué)培育項(xiàng)目的支持。
參考資料:
MECAT: fast mapping, error correction, de novo assembly for single-molecule sequencing reads. doi:10.1038/nmeth.4432
MECAT系統(tǒng)下載地址:
https://github.com/xiaochuanle/MECAT