写在文章之前,首先感谢Y叔写出来的clusterprofiler包。但是从事生物信息分析工作的我们都知道,很多非模式物种并没有构建好的物种注释包
这个时候就需要我们自己构建,作为初学者的我,也仿照着Y叔的个人博客来进行的分析
获取非模式物种的注释信息
这里我们需要使用的软件是eggnog-mapper
1.首先安装eggnog-mapper软件
使用git下载最新版的emmapper,最新版的软件已经集成了他所需要各个依赖
1 | git clone https://github.com/eggnogdb/eggnog-mapper.git |
2.使用软件得到注释文件集合
进入软件的目录,使用软件自带的脚本进行下载,请确保你的系统环境拥有python2环境
1 | $ cd data |
物种注释包有点大,需要花不少时间去下载,下载完成后需要进行解压缩
当然你也可以通过文件的网址直接进行进行wget下载。也不是不行不是吗?当然要放在data文件夹下面哦
然后拥有了这些准备文件之后,我们需要一个拿来构建的物种的全部蛋白序列,这里就不提供了。你可以去ncbi或者其他地方进行下载
本次使用的蛋白质数据大于1000条序列,所以我们使用diamond进行比对;
运行之前,请查看一下你是否已经安装了指定版本的biopython,如若没有,还请安装一下
1 | $ emapper.py -m diamond \ |
耐心等待,记得给这一步留出足够多的内存哦。待其结束,我们就获得了一个自己物种的注释集合,可以拿来用于构建orgDb了。
PS
事后才发现这个软件居然有一个网页版的http://eggnogdb.embl.de/#/app/emapper
啊,早有网页版的我装什么本地的。白嫖他不香吗?我哭了
进行GO分析
本人至今对于在无图形化的服务器上运行R程序一直感到深恶痛绝,所以基本上我的R程序都是本地运行的。
在运行clusterprofiler之前,我们需要提取注释信息
如果没有安装AnnotationHub和clusterProfiler可以使用BioManager安装,十分推荐
1 | #加载所需要的包 |
KEGG的富集分析类似于GO富集,只是你需要kegg_info.RData这个文件来提供pathway2name这个信息剩下得内容基本和GO富集一致,我在这里就不继续写下去了
参考资料:
https://guangchuangyu.github.io/cn/
https://www.jianshu.com/p/9c9e97167377
https://www.jianshu.com/p/9c9e97167377