手把手教你数据库表达谱差异基因分析下

　　上次为大家介绍了分析GEO数据库基因表达谱差异基因的R版本，可能很多小伙伴在运行R时候会出现很多报错，导致R代码运行失败，不过没关系(再调整代码)，今天我将为大家解决＂不懂R，如何分析GEO数据库基因表达谱的差异基因？＂这个问题。
　　开始部分的处理和R版的是相同的。首先，进入GEO的首页，两种方法，大家可以回忆一下。进入主页搜索框后输入＂cervical cancer＂，点击search。
　　跳转界面看注释，寻找感兴趣的基因表达芯片。
　　本帖还是选择了宫颈癌的基因表达芯片＂GSE89657＂来分析。
　　点击芯片标题，查看注释信息。
　　下拉页面至最底端！直接点击GEO2R选项,GEO2R是GEO数据库自带的在线分析工具，本帖将介绍使用GEO2R分析差异基因。
　　点击GEO2R后弹出如下界面，这步最重要的是定义分组。
　　首先需要对样本芯片进行分组，下拉Define groups,分别创建两个分组T(肿瘤组)，C（对照组），分别点击回车键完成分组
　　对样本进行分组：选择各样本后点击T或C，就可完成分组
　　下拉页面，有＂TOP250选项＂和＂Save all results＂两个选项，前者是保存前250个基因(按P-Value大小排序)，后者则是这张芯片的全部基因。
　　点击＂Save all results＂选项，跳转页面。
　　新建一个GEO2R.txt文件，将以上结果粘贴在txt文档里面，用EXCEL打开，筛选logFC&gt;1或logFC&lt;-1，P&lt;0.05的为差异基因。
　　最终，通过整理(本帖中删除了没有基因名字的行，所有和原文差异基因数量有差别)，共筛选出2317个差异基因，其中上调的基因915个，下调的基因1402个。
　　GEO2R计算出来的差异基因没有基因的表达矩阵，因此我们需要下载矩阵文件，并且需要将矩阵文件里面的基因探针ID与刚刚求出的差异基因的genesymbol进行匹配。我们用excel打开下载好的矩阵文件GSE89657_series_matrix，在列T，U粘贴差异基因的ID和genesymbol两列，列V开始将芯片中的样本按顺序复制。
　　我们需要用到EXCEL中的VLOOKUP匹配函数，它的表达式书写是VLOOKUP(查
　　找值，数据的范围，列序号，匹配条件)。首先我们在表格V2书写＂=VLOOKUP(T2,
　　$A$2:$S$33298,2,FALSE)＂,它的意思是在$A$2:$S$33298这个范围(图中粉色区域)中的查找与T2匹配的数据，将与T2匹配后的第2列那个数据写入V2(V2的样本与第2列样本名相同)。
　　返回一个数据后，如图出现绿色外框，点击右下角的十字符号，下来至差异基因最后一行。
　　同样，在W2书写函数表达式＂=VLOOKUP(T2,$A$2:$S$33298,3,FALSE)＂，下拉匹配，依次对18个样本进行匹配。
　　最后，通过匹配，我们就能得到一个关于genesymbol的表达矩阵了，可以用于制作热图及其他分析。
　　另外，GEO2R分析中，也提供了芯片质量控制的箱线图。点击value distribution，查看箱线图。
　　此外，GEO2R工具也是基于R语言的分析工具，我们可以点击R script查看R代码，这些代码可以修改后供以后分析使用。
　　以上分析完成后，给大家介绍一个生信小工具——Sangerbox,这个是由生信人团队自主开发的软件，里面有很多小工具可供使用，非常不错，下次可以为大家详细介绍。
　　下面，我们点开火山图绘制工具，上传GEO2R.txt文件,其他参数不用修改，点击绘图，导出PDF，一幅漂亮的火山图就展现在我们眼前了，是不是挺容易的。
　　点击＂简易heatmap制作工具＂，上传整合好的genesymbol表达矩阵，比如这里挑选TOP50基因，设置参数，即可得到如下的热图，这工具是不是非常过瘾。
　　接下来，进行GO和KEGG分析，使用最简单的DAVID网站分析(教程见前面的帖子)。点击chart查看差异基因参与的生物学过程、分子构成、分子功能，也就是对基因进行的注释工作。
　　关注VX公众号＂百味科研芝士＂，获取更多全文教程
网站目录投稿：凌丝