GetOrganelle:細(xì)胞器基因組組裝走向“自動(dòng)化”
真核生物細(xì)胞器基因組主要包括線(xiàn)粒體和質(zhì)體(包括葉綠體、白色體等)所包含的全部DNA分子,是細(xì)胞質(zhì)遺傳的主要載體。隨著DNA測(cè)序技術(shù)出現(xiàn)和發(fā)展,細(xì)胞器基因序列成為了真核生物系統(tǒng)發(fā)育、譜系地理、雜交和物種鑒定等領(lǐng)域研究重要手段。測(cè)序技術(shù)的革新使得成本急劇下降,低覆蓋度的全基因組測(cè)序數(shù)據(jù)可以準(zhǔn)確地組裝得到完整的細(xì)胞器基因組,保障了真核生物細(xì)胞器基因組演化研究,以及基于細(xì)胞器基因系統(tǒng)發(fā)育等下游研究的可靠性和可重復(fù)性。中科院西雙版納熱帶植物園綜合保護(hù)中心生物多樣性研究組郁文彬副研究員和宋鈺副研究員與中科院昆植植物研究所和美國(guó)賓夕法尼亞州立大學(xué)的合作者共同開(kāi)發(fā)了一套全新的細(xì)胞器基因組組裝工具GetOrganelle,實(shí)現(xiàn)了大規(guī)模細(xì)胞器基因組快速、準(zhǔn)確地的“自動(dòng)化”組裝。相關(guān)的軟件文章于2020年9月10日以題為“GetOrganelle: a fast and versatile toolkit for accurate de novo assembly of organelle genomes”正式發(fā)表在國(guó)際遺傳學(xué)/生物技術(shù)權(quán)威期刊Genome Biology雜志上。金建軍博士和郁文彬副研究員為該論文的并列第一作者,李德銖研究員和伊廷雙研究員為該論文的通訊作者。
GetOrganelle工作流程:GetOrganelle組裝細(xì)胞器基因組可以原數(shù)據(jù)reads(fastq/fq文件)開(kāi)始的從頭自動(dòng)組裝和輸出基因組序列,也可以基于已組裝的assembly graph (fastg/gfa文件)自動(dòng)輸出基因序列。從原始開(kāi)始組裝大致分為5個(gè)階段(綠色箭頭):(1)通過(guò)“種子”序列獲得部分目標(biāo)相關(guān)reads;(2)延伸reads獲得所有目標(biāo)相關(guān)reads;(3)對(duì)reads進(jìn)行從頭組裝得到組裝圖形;(4)過(guò)濾組裝圖形;(5)識(shí)別細(xì)胞器組分并自動(dòng)導(dǎo)出所有可能的細(xì)胞器基因組結(jié)構(gòu)(圖1)。如果從組裝圖形開(kāi)始則直接從第四階段開(kāi)始(青色箭頭)。
GetOrganelle創(chuàng)新點(diǎn):(1)GetOrganelle采用了對(duì)reads預(yù)分群算法,比以往的“baiting and iterative mapping”策略顯著加快了延伸獲取目標(biāo)reads的效率。(2)針對(duì)細(xì)胞器基因組的結(jié)構(gòu)特性,提出了估算contigs拷貝數(shù)的算法,該算法綜合了組裝圖信息和測(cè)序深度信息,進(jìn)而實(shí)現(xiàn)自動(dòng)輸出完全的細(xì)胞器基因組序列(圖2)。
GetOrganelle“自動(dòng)化”組裝成功率和準(zhǔn)確性:基于50個(gè)植物物種的公開(kāi)reads原數(shù)據(jù)集的測(cè)試顯示,在計(jì)算資源消耗略高的情況下,GetOrganelle的默認(rèn)參數(shù)的完整成環(huán)率(78%)遠(yuǎn)高于目前使用最廣泛的工具NOVOPlasty的最好參數(shù)的結(jié)果(16%)。并且NOVOPlasty在K=23和K=31的情況下約20%~25%的假陽(yáng)性率(錯(cuò)誤結(jié)果謊稱(chēng)完整成環(huán))(圖3)。在不同參數(shù)的測(cè)試下,GetOrganelle的結(jié)果一致性?xún)?yōu)于NOVOPlasty。Read mapping進(jìn)一步顯示,GetOrganelle的結(jié)果準(zhǔn)確性不僅高于NOVOPlasty,也高于基于相同reads原數(shù)據(jù)的已發(fā)表結(jié)果(圖4),并發(fā)現(xiàn)了部分已發(fā)表質(zhì)體基因組有明顯組裝錯(cuò)誤。在56個(gè)動(dòng)物數(shù)據(jù)和50個(gè)真菌數(shù)據(jù)測(cè)試中,GetOrganelle也獲得了比NOVOPlasty更高的線(xiàn)粒體基因召回率。值得一提的是,在Freudenthal等 (2020) 針對(duì)主流葉綠體基因組組裝工具(包括chloroExtractor、Fast-Plast、GetOrganelle、IOGA、NOVOPlasty、org.ASM等)的基準(zhǔn)檢測(cè)文章中,GetOrganelle也獲得了遠(yuǎn)高于其他工具的成環(huán)率和準(zhǔn)確性,并被推薦作為默認(rèn)(組裝工具)選項(xiàng)。
GetOrganelle相關(guān)的時(shí)間點(diǎn):2016年4月,GetOrganelle的源代碼于在GitHub第一次上線(xiàn);2018年5月,報(bào)道GetOrganelle的第一版預(yù)印稿在bioRxiv上線(xiàn);2019年1月、8月,2020年1月,GetOrganelle相關(guān)的三期培訓(xùn)班在中科院西雙版納熱帶植物園舉辦,全國(guó)30余所院校近100余人次參與;2020年3月,GetOrganelle快裝版在Bioconda上線(xiàn);2020年7月,GetOrganelle最新穩(wěn)定版version 1.7.1在線(xiàn),GetOrganelle動(dòng)物meta-mitogenomics測(cè)試版已經(jīng)上線(xiàn);2020年9月,GetOrganelle的預(yù)印稿在谷歌學(xué)術(shù)搜索(Google Scholar)中已被引用超過(guò)230次(不包括GitHub鏈接引用)。
該研究得到中國(guó)科學(xué)院戰(zhàn)略性先導(dǎo)科技專(zhuān)項(xiàng)(XDB31000000)、國(guó)家自然基金項(xiàng)目(31720103903,31870196)、中國(guó)科學(xué)院大科學(xué)裝置開(kāi)放研究項(xiàng)目(2017-LSFGBOWS-02),中國(guó)西南野生生物種質(zhì)資源庫(kù)“交叉合作團(tuán)隊(duì)”項(xiàng)目、中科院西雙版納熱帶植物園“一三五”突破三(2017XTBG-T03)的資助。
圖1. GetOrganelle軟件的工作流程圖
圖2. GetOrganelle的contigs拷貝數(shù)估算及基因組結(jié)構(gòu)導(dǎo)出算法示例
圖3. GetOrganelle和NOVOPlasty分別在50個(gè)公開(kāi)植物數(shù)據(jù)上的四組不同參數(shù)的測(cè)試結(jié)果
圖4. 基于Read mapping用50種植物的公開(kāi)數(shù)據(jù),評(píng)估并比較GetOrganelle組裝質(zhì)量、NOVOPlasty組裝質(zhì)量的和已發(fā)表的質(zhì)體基因組的組裝質(zhì)量,統(tǒng)計(jì)三者在組裝質(zhì)量上最好(最多reads數(shù)、最高深度或者最低錯(cuò)誤率)的樣本個(gè)數(shù)
圖5. 在中科院西雙版納熱帶植物園舉辦的GetOrganelle相關(guān)培訓(xùn)班