标记基因(标记基因筛选原理)
标记基因(标记基因筛选原理)
Knight & Yang-Yu Liu. (2021). Challenges in benchmarking metagenomic profilers. Nature Methods, doi: https://doi.org/10.1038/s41592-021-01141-3
随着越来越多的研究揭示出微生物组与人体健康的密切关系,宏基因组测序尤其是全宏基因组鸟枪法测序(whole metagenome sequencing,WMS)作为微生物组学最重要的研究手段之一被学术界、工业界广泛使用。为了解读高通量WMS数据,许多用于物种分类的生物信息学工具被开发出来,而这其中能够避免拼接等繁重计算任务的MetaPhlAn、Kraken、PathSeq等在大量宏基因组研究种被应用。但是目前在正确评价和使用这些生信工具以及解读相应的输出结果方面并没有引起足够的重视。比如,不同工具的输出结果之间具有很大的差异,研究人员往往将其归因于不同工具所用数据库的差别。但是我们发现,不同生信工具输出的"丰度类型"存在根本性的差别,是生信工具之间分析结果差异产生的本质原因之一。忽视和混淆这一丰度类型的差别,将改变生信工具性能评价的结果,并深刻影响对宏基因组测序数据的解读。另外,该问题也会严重阻碍荟萃研究,影响跨研究之间结果的可比性,并导致微生物组研究在临床医学转化上的困难。
2021年5月13日,哈佛大学医学院刘洋彧团队与加州大学圣地亚哥分校Rob Knight团队在Nature Methods上发表了题为Challenges in Benchmarking Metagenomic Profilers的论文。该研究通过数据模拟,对宏基因组物种分类工具的输出结果进行了深度解读,创造性的提出了基于不同丰度类型(基于序列或基于物种分类相对丰度)的双重评价标准,为解决微生物组研究中如何选择宏基因组学物种分类工具的问题提供了重要依据,也对微生物组标准化研究提出了一系列建设性的意见。
模式图:基于物种分类(标记基因,如MetaPhlAn2)和基于序列方法(如Kraken2)对物种分类定量产生巨大差异,主要受微生物基因组大小影响。
在宏基因组测序分析中,序列(sequence)丰度和物种(taxonomic)丰度是两种截然不同的相对丰度类型。前者序列(sequence)丰度是计算属于某一物种经过测序后的DNA在整个菌群DNA中的百分比,而后者物种(taxonomic)丰度则代表某一物种的个体数量在菌群总个体数中的百分比。宏基因组学物种分类工具可根据其使用数据库的类型而分为三类:DNA-to-DNA,DNA-to-Protein,DNA-to-Marker。通过设计一个简单的模拟菌群,我们发现不同类型工具输出的相对丰度类型并不统一,比如DNA-to-DNA方法的(代表软件Kraken和Bracken)输出丰度类型为序列丰度,而DNA-to-Marker方法的(代表软件MetaPhlAn和mOTUs)输出的丰度类型为物种丰度(如下图1所示)。
图1. 三种物种定量方法的比较。a. 模式图;b. 两种基因组的模拟群落;c. 不同软件定量的结果。
通过模拟数据,研究人员将序列丰度和物种丰度分别作为金标准,对不同的宏基因组学物种分类工具进行评价,结果发现,在以序列丰度为金标准时,DNA-to-DNA方法的表现优于DNA-to-Marker方法,而在以物种丰度为金标准时,结果则相反。因此,物种分类软件的表现与测评时作为金标准的相对丰度类型有很大关系。
混淆序列丰度与物种丰度会对宏基因组数据的解读产生四个方面的重要影响:
1. 在解析物种构成方面:如果使用序列丰度作为解读标准,将高估大基因组物种并且低估小基因组物种在菌群中的真实数量。在复杂的菌群中,微生物基因组的大小存在很大的差别,只在细菌内部,理论上基因组的差别就可以达到100倍,而跨物种(如病毒和真菌)微生物基因组的差别更无法估量。理解序列丰度和物种丰度,对临床诊断病原菌过程中如何设置阈值十分关键。
2. 在alpha多样性方面:与使用物种丰度相比较,如果使用序列丰度作为解读标准,将会整体上降低样本的alpha多样性(Shannon, Simpson and Pielou’s evenness index),但这一改变并不是严格一致的,部分样本的alpha多样性反而会升高。在当前宏基因组研究受样本量局限的情况下,这将会导致微生物样本alpha多样性的排序混乱,进而影响到alpha多样性在个体和组间比较的一致性和可重复性。
3. 在beta多样性方面:通过设计模拟菌群,我们基于不同beta多样性分析方法(BC,rJSD,L1,L2,rAD)比较了以两种不同相对丰度为基础的样本间关系,通过检验我们发现序列丰度所描述的样本间关系与物种丰度所描述的样本间关系存在差别,相关性为0.51-0.94。因此,以不同生信工具输出结果为下游分析起点,可能得到不同的样本间或组间关系。
4. 在排列分析(ordination analysis)方面:排列分析是宏基因组常用的分析手段,通过将N维的物种构成数据降低到两维或者三维来比较和展示个体或组间的差异。对于同一批样本,基于序列丰度和基于物种丰度的排列分析所产生的结果相差很大,无论是NDMS, PCoA, t-SNE或UMAP方法所产生的二维散点图,其经过一致性分析后,都表现出很大的差异性。也就是说,在基于不同生信工具所产生的下游分析中,有可能发生组间差异无法重复的情况。
本文通过严谨的论证分析,量化了宏基因组学物种分类工具所产生的两种相对丰度类型的差别,对于混淆两种丰度所产生的影响进行了全面系统地研究。由于存在大量未知微生物基因组和多倍体信息缺失等原因,将物种丰度与序列丰度之间进行转换存在现实难度,往往无法达到预期目标,因此选择合适的宏基因组学物种分类工具十分关键。目前无论是DNA-to-DNA方法(以Kraken为代表,产生序列丰度)还是DNA-to-Marker方法(以MetaPhlAn为代表,产生物种丰度),都是宏基因组研究中的重要工具,并且已经被应用于大量研究中。虽然在方法一致的前提下,丰度的差别不会影响到同一个实验中组间的比较,但这不可避免地影响了诸多已发表的微生物组相关研究结论的可解读性,也将为回顾性的荟萃分析带来极大的挑战。因此我们呼吁微生物领域研究人员审慎解读宏基因组测序结果,严格区分相对丰度类型,重新审视过往基于序列丰度的研究结论。鉴于物种丰度更具生物学和生态学意义,我们也建议大家开发更多基于DNA-to-Marker方法的宏基因组学物种分类工具。
本文第一作者是哈佛大学医学院的孙政博士和加州大学圣地亚哥分校的黄适博士。Rob Knight教授和刘洋彧教授为本文的通讯作者。
图2. 对不同界的物种对序列和分类两种定量结果的相关分析
图3. 使用Bracken、Kraken2、mOTUs2和MetaPhlAn2共4种软件对模拟群落不同估计方法定量结果的评测。
图4. 基于序列和物种丰度计算Alpha多样性
图5. 对两种定量方法结果在不同样本类型上的排序分析。
胳膊上纹什么好看(手臂上纹身什么好看)写实花臂纹身图案欣赏写实花臂纹身写实花臂纹身写实花臂纹身写实花臂纹身写实花臂纹身写实花臂纹身写实花臂纹身写实花臂纹身写实花臂纹身写实花臂纹身写实花臂纹身写实花臂纹身写实花臂纹身写实
为什么胳膊起痘(背上手臂上长痘痘)区域1长痘原因激素。脖子和下巴周围的痘痘,表明你的肾上腺素也就是激素是超负荷的。如果你不是因为衬衫或高领衣服导致的皮肤摩擦或过敏长痘,那么就代表你的激素分泌已经超负荷了。区域23长
什么是占空比(占空比的故事)什么是占空比(占空比的故事)现在车上的很多部件都是占空比控制的,比如冷却风扇鼓风机节气门电机VVT电磁阀发电机调节氧传感器加热器继续列举的话,还有一大堆我们在一些培训或者是各种资料
整数是哪些(化简比是化成整数吗)编撰茂喵喵审核十二第五章百分数的知识点1什么是百分数?百分数是表示一个数是另一个数的百分之几,百分数也叫做百分率或者百分比。百分数通常不写成分数的形式,而在原来的分子后面加上百分号
春夏秋冬怎么分(四季划分的依据是什么)现在正是冬去春来的好时候,很多花开了,菜场里也开始卖一些春季的时令菜,比如香椿。小河中冰雪消融,很多小动物也开始纷纷出现。昨天惊蛰,我甚至看到了一只比较着急的蝴蝶。那么,季节到底是
为什么企业要多元化(企业多元化的理论依据主要是什么)多元化经营,又称多样化或多角化经营,是企业经营不只局限于一种产品或一个产业,而实行跨产品跨行业的经营扩张。多元化经营战略属于开拓发展型战略,是企业发展多品种或多种经营的长期谋划。企
化脓性扁桃体炎(孩子得了化脓性扁桃体炎怎么办?)化脓性扁桃体炎(孩子得了化脓性扁桃体炎怎么办?)又到了换季的时候有些宝宝出现了咽痛的情况宝宝说嗓子疼怎么办?宝宝是不是得了疱疹性咽峡炎?宝宝咽痛能吃抗生素吗?其实引起咽痛的原因有多
甲沟炎化脓了怎么办(去医院看甲沟炎要多少钱)康康的同事一瘸一拐走进来,看起来像个痔疮,又有点像瘸了腿,这是咋了?原来这位同事的甲沟炎犯了,作为一位资深患者,八年里反反复复,就算把整个指甲都拔了都不能解决,严重时里面流脓,脚趾
流脓是怎么回事(伤口化脓碘伏一天擦几次最好)1先用清水把伤口周围冲洗干净,然后用干净的毛巾把伤口周围擦干净,如果伤口周围特别脏,要用棉签蘸水仔细擦拭。2轻轻挤压伤口,让血水流出来,有时还会有一些泥水被冲出来,用棉球蘸肥皂水轻
面瘫治疗多久(口眼歪斜多长时间能好)小巧玲珑,面容清秀,文文静静,彬彬有礼铜鼓县妇幼保健院26岁的钟慧连医生虽然年纪轻轻,可是她治疗一些疑难杂症还真有几把刷子。钟医生是赣州人,她大学五年学的针灸推拿。2018年8月,
割扁桃体要多少钱(扁桃体切除有什么危害嘛)亿万苍生,人分九种,九种体质,关乎着一个人的健康与否。体质养生是基础根本的养生方法,也是最真的养生理念。四代中医世家传人效哥,从医二十余载,从诸多的临床案例中验证了体质调理和体质重
伟大的反义词是什么(伟大的反义词是谁)编撰茂喵喵审核猫头鹰大朋友小朋友们大家好。今天茂喵喵给各位分享六年级语文多音字。希望对各位小朋友们有所帮助。现在带领大家一起去看看吧。在语文的学习中,反义词是两个词语的意思相反,互
番薯是什么(餐餐食番薯是什么意思)北京时间11月19日,随着第一阶段比赛的结束,CBA各球员最近都迎来了属于自己的假期,有的人利用窗口期不断强化自己的技术,有的人则是捉紧时间四处游玩。近日,趁着假期北京队球员范子铭
告别的近义词是什么(告别的近义词和反义词)欢迎我,我是小学教师,自由撰稿人,热爱读书与写作。第二单元主题是运用多种方法理解难懂的词语学习写日记。学习目标1。会认抖蟋等9个生字。2。自主运用学过的方法理解词语。3。注意拟声词
氯胺酮是什么(氯胺酮在那一年被列为我国的)欢迎咸阳禁毒先锋K粉,一个看似普通的词语,但它出现的频率却非常高,竟然还有人对它不寒而栗它到底是什么?为什么如此的红?又为什么令人不寒而栗呢?解答K粉之困惑,必须要探究背后的真相。
首批完售正2010年式NewKYRON2。0预购启动双龙NewKYRON2。0柴油休旅2010年式新车上市后,即以短短两週时间完售的佳绩横扫全台,显见NewKYRON2。0的产品魅力与实力!为回馈全国车主的热烈支持,台湾双龙汽车紧急
迎接电动世代RimacC2扭力居然高达234。6kgm专门製造电动车的克罗埃西亚车厂Rimac,在今年车展推出了旗下第二部电动超跑C2,一共搭载了四具电动马达,综效马力来到了1914hp,扭力更有着234。6kgm的惊人数字,因此也只
福特QualityCare新车大奖出炉为庆祝福特六和在台经营40年,并回馈一路相伴的福特车主,福特QualityCare于去年十月起隆重推出欢庆四十,一路有礼赠奖活动,其中最大奖项ldquoTHEALLNEWFOCUS
哪里有大创(大创要做一年)12月10日至12月12日,第十四届全国大学生创新创业年会(简称大创年会)在西北工业大学长安校区举行。本届大创年会由国创计划专家工作组主办西北工业大学承办,以锐意探索突破进取为主题
大创哪里有(国内有大创店吗)6月20日,位于建康路3号夫子庙旁,由南京水平方自主经营的著名全球连锁品牌大创(DAISOJAPAN)生活馆(10元精品店)正式开业。水平方四楼的大创,是南京水平方与大创公司强强联
论据是什么(直接论据是什么)一论点论点(需要证明什么),是正确鲜明阐述作者观点的句子,是一篇文章的灵魂统率。任何一篇文章只有一个中心论点,一般可以有分论点。论点具有正确性鲜明性新颖性,是一个完整的判断句,绝不
rt什么意思(Rttang)作者基于工作实践,为我们介绍了信息架构的相关知识,供大家一起学习和参考。一什么是信息架构信息架构(informationarchitecture),简称IA。它是从数据库设计的领域