快生活 - 生活常识大全

数据库讲解与数据下载


  TCGA (The cancer genome atlas)是一个非常重要的癌症数据库,其主要收录各种人类癌症(包括亚型在内的肿瘤)的临床数据,基因组变异,mRNA表达,miRNA表达,甲基化等数据,是癌症研究者很重要的数据来源。
  TCGA官网:https://cancergenome.nih.gov/abouttcga/overview
  01:
  数据等级   TCGA存储的数据可分为三个级别:   Level 1: 原始的测序数据(fasta,fastq等)   Level 2:比对好的bam文件   Level 3:为经过处理及标准化的数据   Level 1和Level 2文件很大,若要下载可使用官方提供的小工具:GDC Data Transfer Tool,然后自己重新比对来call mutation, 或者提取count data做差异表达分析(不适合懒人操作,且大多数人很难拿到权限,下面会说)。   02:
  数据权限   Level 1和Level 2数据为controlled-access(限制下载),Level 3有部分是controlled-access,其余是开放下载,若你想下载的数据level显示"Unauthorized",则表示不能直接下载,需要先向TCGA申请使用权限。   比如:   理论上,限制下载的数据可以通过申请dbgap账号获得下载权限,但是申请这个账号需要NIH/NCI资格审核,且需要提供eRA account ID(在美国申请grant对应的ID),所以一般只有国外PI才可能申请通过。所以对小白来说这个基本是行不通的,小编建议还是乖乖下载3级数据。   03:
  三级数据下载   TCGA-3级数据下载网站主要有两个:   ① TCGA官方的data-portal:portal.gdc.cancer.gov   优点:数据最全,更新最快   缺点:每个样本是一个单独的文件,如果下载某一个癌症的RNA数据,要下载好几百个文件,然后合并(嫌麻烦的往下翻,小编强力推荐方法②!!)。   下载方法介绍:   在主页搜索想要下载的癌症类型   以表达数据为例,可见LUAD共有515个case有RNA-Seq数据,点击进入。   左边可以对样本进行筛选,点击右侧数字可以下载表达数据(Exp),临床数据(Clinical)和Annotation(注释信息,可以找到样本ID对应的case,control情况)。   注意表达数据根据分为了HTSeq-Counts,HTSeq-FPKM,HTSeq-FPKM-UQ三种类型,Counts是数据后台没有处理的原始表达量,而FPKM和FPKM-UQ是两种数据标准化处理后的数据,一般差异表达下载counts,下载所有样本后合并,用DESeq即可。   FPKM,FPKM-UQ计算方法:   ② Firehose服务器:gdac.broadinstitute.org   优点:数据也来源于portal.gdc.cancer.gov,但是将同一种癌症、同种类型的数据合并到了一起,超级方便,一键下载,无需合并数据。   下载方法介绍:   点击LUAD对应的Data-Browse   稍等片刻,会弹出LUAD项目所有样本合并后的3级数据,需要什么数据点击文本即可下载,非常方便快捷。当然也可以下载临床数据等,各取所需了。   今天小编就为大家介绍这么多,当然还有其他下载方法,以及一些TCGA在线分析工具,不需要下载数据即可进行分析,小编下次再给大家介绍喽。   生信草堂
网站目录投稿:代瑶