近日,浙江大學農業與生物技術學院沈星星研究員、陳學新教授以及美國范德堡大學Antonis Rokas教授課題組聯合在Nature Communications發表題為An investigation of irreproducibility in maximum likelihood phylogenetic inference的研究論文,闡明了系統發育樹存在9% -18%的不可重復性危機。
研究結果可重復或可再現性是科學界的基石。在過去的幾年里,科學家對已發表結果可重復性的擔憂不斷增加,導致了“再現性危機”一詞的出現。系統發育樹是進化生物學研究的基礎。例如,系統發育樹通常被用來研究基因、基因組、物種的演化過程。2013年報告稱:由于缺乏數據公開化,6277/7539(83.3%)研究課題的系統發育樹是不可重復的。這一研究促使了多個公共存儲數據庫的誕生(如figshare)。
公共數據庫提供的信息是否足夠系統發育樹的重復構建?此外,系統發育樹的構建參數、計算資源(CPU處理器型號、線程數等)均存在差異。這些差異是否會導致不可重復的系統發育樹?什么原因導致不可重復的系統發育樹? 如何規避不可重復危機?回答這一系列問題有利于提高系統發育樹的再現性,同時為系統發育學軟件開發者提供重要的指導依據。
該研究收集了15個動物、植物、真菌系統發育基因組學數據集(總共19414個基因比對數據)。這15個數據集包含非編碼DNA 、外顯子、氨基酸三類數據集。基于19414個基因數據集,該研究檢驗了常用系統發育樹構建軟件IQ-TREE和RAxML-NG可重復性。對每一個基因,運行兩次*相同的參數(Run1和Run2),并比較Run1和Run2產生的系統發育樹是否一致(圖2A)。研究結果表明:IQ-TREE和RAxML-NG分別存在81.9%和90.7%的系統發育樹可重復。比較IQ-TREE和RAxML-NG之間,僅20.3%系統發育樹可重復(圖2B和C)。利用UCE、AHE等捕獲技術收集的數據存在更高比例的不可重復性。
如何提高系統發育樹的可重復性?除了基本*的參數(如基因、軟件信息、替換模型、樹搜索的數量),還應該提供處理器類型、線程數量和隨機起始數的信息(圖3)。考慮到系統發育基因組數據集中存在的成百上千個基因,一個更實用的方是公布每個分析的日志文件。因為日志文件包含所有關鍵參數 (例如基因名、程序名、樹搜索的數量、替代模型、處理器類型、線程數量和隨機起始數)。
浙江大學農業與生物技術學院沈星星研究員為論文作者兼共同通訊作者,美國范德堡大學Antonis Rokas教授為共同通訊作者。浙江大學陳學新教授給予大力支持和悉心指導。范德堡大學和威斯康星大學麥迪遜分校的李遠寧博士后、Chris Hittinger教授也參與了該研究。
免責聲明
- 凡本網注明“來源:化工儀器網”的所有作品,均為浙江興旺寶明通網絡有限公司-化工儀器網合法擁有版權或有權使用的作品,未經本網授權不得轉載、摘編或利用其它方式使用上述作品。已經本網授權使用作品的,應在授權范圍內使用,并注明“來源:化工儀器網”。違反上述聲明者,本網將追究其相關法律責任。
- 本網轉載并注明自其他來源(非化工儀器網)的作品,目的在于傳遞更多信息,并不代表本網贊同其觀點和對其真實性負責,不承擔此類作品侵權行為的直接責任及連帶責任。其他媒體、網站或個人從本網轉載時,必須保留本網注明的作品第一來源,并自負版權等法律責任。
- 如涉及作品內容、版權等問題,請在作品發表之日起一周內與本網聯系,否則視為放棄相關權利。