TCGA (The cancer genome atlas)是一个非常重要的癌症数据库,其主要收录各种人类癌症(包括亚型在内的肿瘤)的临床数据,基因组变异,mRNA表达,miRNA表达,甲基化等数据,是癌症研究者很重要的数据来源。 TCGA官网:https://cancergenome.nih.gov/abouttcga/overview 01:
数据等级 TCGA存储的数据可分为三个级别: Level 1: 原始的测序数据(fasta,fastq等) Level 2:比对好的bam文件 Level 3:为经过处理及标准化的数据 Level 1和Level 2文件很大,若要下载可使用官方提供的小工具:GDC Data Transfer Tool,然后自己重新比对来call mutation, 或者提取count data做差异表达分析(不适合懒人操作,且大多数人很难拿到权限,下面会说)。 02:
数据权限 Level 1和Level 2数据为controlled-access(限制下载),Level 3有部分是controlled-access,其余是开放下载,若你想下载的数据level显示"Unauthorized",则表示不能直接下载,需要先向TCGA申请使用权限。 比如: 理论上,限制下载的数据可以通过申请dbgap账号获得下载权限,但是申请这个账号需要NIH/NCI资格审核,且需要提供eRA account ID(在美国申请grant对应的ID),所以一般只有国外PI才可能申请通过。所以对小白来说这个基本是行不通的,小编建议还是乖乖下载3级数据。 03:
三级数据下载 TCGA-3级数据下载网站主要有两个: ① TCGA官方的data-portal:portal.gdc.cancer.gov 优点:数据最全,更新最快 缺点:每个样本是一个单独的文件,如果下载某一个癌症的RNA数据,要下载好几百个文件,然后合并(嫌麻烦的往下翻,小编强力推荐方法②!!)。 下载方法介绍: 在主页搜索想要下载的癌症类型 以表达数据为例,可见LUAD共有515个case有RNA-Seq数据,点击进入。 左边可以对样本进行筛选,点击右侧数字可以下载表达数据(Exp),临床数据(Clinical)和Annotation(注释信息,可以找到样本ID对应的case,control情况)。 注意表达数据根据分为了HTSeq-Counts,HTSeq-FPKM,HTSeq-FPKM-UQ三种类型,Counts是数据后台没有处理的原始表达量,而FPKM和FPKM-UQ是两种数据标准化处理后的数据,一般差异表达下载counts,下载所有样本后合并,用DESeq即可。 FPKM,FPKM-UQ计算方法: ② Firehose服务器:gdac.broadinstitute.org 优点:数据也来源于portal.gdc.cancer.gov,但是将同一种癌症、同种类型的数据合并到了一起,超级方便,一键下载,无需合并数据。 下载方法介绍: 点击LUAD对应的Data-Browse 稍等片刻,会弹出LUAD项目所有样本合并后的3级数据,需要什么数据点击文本即可下载,非常方便快捷。当然也可以下载临床数据等,各取所需了。 今天小编就为大家介绍这么多,当然还有其他下载方法,以及一些TCGA在线分析工具,不需要下载数据即可进行分析,小编下次再给大家介绍喽。 生信草堂