人类基因组(人体的基因有多少个) 如果说人类的基因组是书写生命的一本"天书",那么读出构成DNA的A、C、G、T的测序技术就是让我们能够读懂这本"天书"的工具。出现伊始,基因组测序技术对生物医学研究的重要性就得到了广泛的关注。 20年前,人类基因组计划(Human Genome Project)发布了第一版人类基因组图谱,标志着人类基因组测序领域的突破性里程碑。此后,基因组测序领域继续突飞猛进,多种技术创新让基因组测序更为高效,精准和普及。在第一版人类基因组序列图谱公布20周年之际,《自然》网站列举了20年来在基因组测序领域的重要里程碑。今天药明康德内容团队将与读者一起回顾其中的部分精彩内容。 2001年:第一版人类基因组图谱发布 1990年,由世界上多个国家的研究人员组成的国际性团队开展了人类基因组计划(HGP),目标是完成对人类基因组中的30亿碱基的测序。在1998年,由Craig Venter博士创建的Celera Genomics也宣布开展人类基因组测序计划。在2001年2月,《自然》和《科学》杂志分别发布了人类基因组计划和Celera Genomics公司完成的人类基因组草图。这两项突破性研究开启了生物医药的新时代。 2004:宏基因组学的诞生 在21世纪以前,对微生物的研究通常需要通过培养来分离单个菌株。然而,微生物学家很早就发现,很多种自然界中存在的微生物无法在实验室中培养,这意味着,使用培养的研究策略,只能够捕捉到自然界中微生物多样性的1% 。那么用什么手段才能够研究那剩余的99%? 在2004年,两项划时代的研究通过对环境中采集的包含多种不同微生物的样本进行测序,成功构建了样本中包含的不同微生物的基因组序列。这两项研究表明,不用单独分离和培养一种微生物,就可以通过DNA测序技术,对复杂微生物群体中不同微生物进行分类,并且发现未知的微生物。它们揭示了宏基因组学(metagenomics)的巨大潜力。 2008:下一代基因测序技术 第一代核酸测序技术称为Sanger测序法。在2003年发布的第一版人类基因组图谱就是通过Sanger测序来完成的。然而,Sanger测序法需要通过电泳分离大小不同的DNA片段来读取DNA序列,在成本和速度上的局限限制了它的大规模应用。 2008年,在《自然》杂志上发表的两篇论文使用下一代基因测序技术(NGS),生成了一名非裔个体和一名亚裔个体的基因组。在这两项研究中,研究人员使用了称为Solexa测序的下一代测序技术。这一技术目前仍然是Illumina公司短读测序仪的基础。 下一代测序技术与Sanger测序法相比的一大重要突破是通过将单个DNA分子固定在基质上,能够允许对上百万个不同的DNA分子同时进行测序。在2001年发布的第一版人类基因组图谱耗资3亿美元,耗时十几年。而使用下一代测序技术,在2008年可以在几周内完成对一个人类基因组的测序,将测序成本降低到50万美元。下一代测序技术的出现是测序可及性方面的重大进步,时至今日,这一技术仍然在进一步降低测序需要的时间和成本。 2008:癌症基因组测序的突破 在人类基因组图谱发布之后,从事癌症研究的科学家们很快就意识到了DNA测序在癌症研究和抗癌疗法开发方面的巨大潜力。基因组学可能帮助回答与癌症相关的一些根本性的问题,例如,肿瘤细胞中究竟包含了哪些基因变异? 在2008年,《自然》发布了首个急性髓系白血病(AML)样本的全基因组序列。在这项研究中,科学家使用下一代测序技术,对一名50多岁的AML患者的肿瘤细胞和正常皮肤细胞样本进行了全基因组测序。通过将癌细胞的基因组序列和正常细胞的基因组序列进行比较,研究人员发现了在癌细胞中的8个全新基因突变。这一突破性研究验证了肿瘤学家的猜测,那就是利用基因组测序能够发现可能导致肿瘤发生的全新基因突变,从而提供一系列潜在的药物靶点。 自这一突破以来,肿瘤学领域的测序研究以惊人的速度进展。如今,基于DNA测序的检测已经能够帮助发现癌症驱动基因,肿瘤突变负荷以及新抗原的出现,为个体化治疗提供非常宝贵的信息。 2008:RNA测序和转录子组 人类基因组图谱虽然揭示了人类基因组的DNA序列,但是要进一步了解这些序列的功能,科学家们需要对DNA转录产物RNA进行检测。在21世纪初,对转录子组(transcriptome)的研究依靠的主要技术之一是微阵列(microarray)技术。然而,这一技术的缺陷在于只能研究固定在微阵列芯片上的已知基因或外显子序列。 在2008年,一系列研究在不同生物模式生物中展示了使用高通量下一代测序技术,对转录子组进行测序。这种称为RNA测序的技术首先通过mRNA的Poly(A)尾部分离RNA,然后将它们逆转录生成cDNA并且使用下一代测序技术对cDNA进行测序。在2008年,利用RNA测序技术,多个研究团队对酵母和拟南芥(Arabidopsis thaliana)的转录子组进行了测序,并发现了全新的转录子和基因。 RNA测序不但能够确定功能性基因组,而且可以用于监测不同条件下RNA的数量变化,它已经成为遗传学、生物学和医药领域的标志性研究工具之一。 2009:外显子组测序 历史上,想要找到单基因疾病的原因通常先要通过遗传学研究确定可能的致病突变在染色体上的位置。外显子组测序的突破让研究人员在不知道致病基因突变的位置和它的功能的情况下,发现导致单基因疾病的基因突变。 外显子组测序技术通过使用微阵列捕捉到基因组DNA中的外显子序列,然后对富集的外显子序列进行测序。它在降低测序成本的同时,对编码蛋白的序列能够进行更深度的测序。 在2009年,华盛顿大学(University of Washington)的Sarah Ng博士和她的同事们报告了首个利用全外显子组测序发现单基因疾病致病突变的概念验证结果。在这项研究中,这一团队对8个对照样本和四名罕见疾病Freeman–Sheldon综合征患者的样本进行了外显子测序。他们发现MYH3基因是在4名患者中均出现非同义突变或者剪接位点异常的基因。这一研究确立了使用外显子测序技术发现致病基因变异的研究框架。随后,这一团队应用同样的策略,又发现了Miller综合征等其它单基因疾病的致病基因变异。 外显子测序对蛋白编码序列进行深度测序的能力大幅度加快了研究人员发现致病基因的速度,尤其是在罕见病领域。2009:单细胞测序 基于对组织样本的基因表达检测只能够发现不同细胞类型产生的平均结果,这可能导致研究人员忽略特定细胞类型的表现。在2009年,Nature Methods发布了首个对单个小鼠卵裂球(blastomere)进行的全转录子组研究。与微阵列技术相比,这一技术具有更高的敏感性,研究人员不但能够检测到更多转录RNA的基因,而且发现了全新的剪接位点。 单细胞测序技术的发展,为分析细胞状态、发现罕见细胞类型,追踪细胞发育轨迹和谱系,以及研究肿瘤异质性都提供了有力的工具。2012:构建人类基因组的"百科全书" 在第一版人类基因组图谱完成之前,科学家们已经意识到,确定基因组的DNA序列还远远不能达到了解生命分子过程的目的。储存在DNA序列中的信息需要被调控和解读,与蛋白的相互作用,染色质的结构和化学修饰,都对这一过程有着重要的影响。因此,在2003年,名为DNA元件百科全书(Encyclopedia of DNA Elements, ENCODE)的研究项目开始启动。这一项目旨在确认基因组中所有的功能性元件,这不仅包括编码蛋白的基因,还包括启动子和增强子这样的调控元件。 调节基因表达的多种功能性元件(图片来源:ENCODE官网) 在2012年,这一项目的第二阶段(ENCODE 2)完成,研究团队在《自然》,Genome Research和Genome Biolgoy上发表了30篇论文。他们不但确认了20687个编码蛋白的基因,而且在147种不同的细胞类型中描绘了它们的表达模式。研究人员还发现了超过7万个启动子和接近40万个增强子区域,为基因组中接近80%的序列找到了至少一种功能。 ENCODE 3的研究结果汇集了5992个实验,显著扩展了人们对人类和小鼠基因组中调控元件的了解。 目前这一项目已经进入到第四阶段。它将进一步整合个体基因组和单细胞多组学信息,为了解人类生物学、进化和疾病提供一本与时俱进的"百科全书"。 结语 20年前,人类基因组图谱的发布代表了多个研究团队将近15年的研究成果。然而,这只是开始。在《自然》纪念人类基因组图谱发表20周年的特刊中,研究人员表示,基因组图谱的发布激发了阐明基因组非编码部分功能的新时代,为疗法开发铺平了道路。更为重要的是,在关注单个基因功能的同时,它帮助建立了在系统水平上对生物学的理解,让我们能够解读定义生命的"天书"。