“我想做信号通路分析,但我就是不想学编程。”
“我又不是生信狗,学代码会死。”
“你们这些做生信的,整天把数据分析搞得神神秘秘,不就是怕被人抢饭碗而已嘛。”
“这都没分析出我想要的结果,不靠谱。”
“你们做生信的不都是写好pipeline的吗?怎么那么久还没分析好?”
……

哦……

吴思涵博士教程 | 我想做信号通路分析,但我就是不想学编程-肽度TIMEDOO
吴思涵博士教程 | 我想做信号通路分析,但我就是不想学编程-肽度TIMEDOO

科研日常问题:我有一张基因/蛋白列表,想知道富集在什么通路上,如何做?

这篇文章就教大家,如何一句代码都不用敲,通过简单的复制粘贴还有点两下鼠标,就能实现通路富集的分析

1. Metascape

吴思涵博士教程 | 我想做信号通路分析,但我就是不想学编程-肽度TIMEDOO

Metascape的主界面长这样,操作起来非常简单,只需要按照提示,一步一步进行操作即可。数据库更新得很勤,不怕落伍。

首先在Step 1那里,粘贴你的基因列表。然后Step 2会问你是什么物种。Step 3点Express Analysis。然后就自动出结果了,输出的图片颜值很高,还能下载原始的excel表回去自己作图,还能自动导出成漂酿的成套的ppt结果汇报……是不是so easy!!!

氮素!!!

Metascape有一个不是很讨喜的地方,就是默认的Express Analysis,总是喜欢把各个数据库的信号通路混一起分析,这样很容易出现,某些非常general的数据库,就容易抢戏,出现各种冗余。比如说,下面这个结果,就是默认把Reactome、CORUM和GO数据库全部给搅在一起展示了。

吴思涵博士教程 | 我想做信号通路分析,但我就是不想学编程-肽度TIMEDOO

当然,这并不是不可破解的问题。只要在Step 3那里,点击Custom Analysis,然后在Enrichment的选项卡里,勾选你想要的数据库就好了。

吴思涵博士教程 | 我想做信号通路分析,但我就是不想学编程-肽度TIMEDOO

目前,Metascape支持不少流行的数据库,比如Hallmark Gene Sets、Reactome等,还有我最不爱用的GO和KEGG。至于其他参数是啥意思,不懂话就佛系对待吧,别改了。。。

2. Enrichr

如果嫌Metascape的数据库少,那就试试数据库多到上天的Enrichr吧。

吴思涵博士教程 | 我想做信号通路分析,但我就是不想学编程-肽度TIMEDOO

Enrichr的界面更加清爽了,只需要你把基因/蛋白列表贴进去然后点submit就完事了。

我第一次用Enrichr就被震惊了!

吴思涵博士教程 | 我想做信号通路分析,但我就是不想学编程-肽度TIMEDOO
吴思涵博士教程 | 我想做信号通路分析,但我就是不想学编程-肽度TIMEDOO
吴思涵博士教程 | 我想做信号通路分析,但我就是不想学编程-肽度TIMEDOO

这特么也太多数据库了吧!!!

以上只列出了其中三页数据库,即转录调控、信号通路、基因本体,后面还有疾病/药物,细胞类型,还有一些杂七杂八的,甚至连过期数据库都有。而且数据同样支持导出。

氮素!!!

如果你用了就知道,Enrichr根本就没问你,贴的基因到底是个啥物种。因此,这个程序有个很坑的地方,就是把所有物种的数据库全部混一起分析了……比如下面这个WikiPathways分析,就把人和小鼠的结果一起展示了……(并且未知这种混合,是否会影响通路富集分析的结果)

吴思涵博士教程 | 我想做信号通路分析,但我就是不想学编程-肽度TIMEDOO

此外,由于Enrichr的数据库太多,所以更新不是很及时。比如上面展示的WikiPathways,还是2016年的,而这两年WikiPathways的更新频率几乎是月更。

3. ConsensusPathDB

吴思涵博士教程 | 我想做信号通路分析,但我就是不想学编程-肽度TIMEDOO

CPDB是德国人开发的,界面长这样,不算很直观。但数据库量一样很大,整合了32个数据库。想做信号通路富集分析,点左边的over-representation analysis,贴上列表,选择数据类型(到底是gene id,还是symbol,还是别的什么),然后提交就好了。

吴思涵博士教程 | 我想做信号通路分析,但我就是不想学编程-肽度TIMEDOO

下一步,就是选要用哪些数据库来分析。

吴思涵博士教程 | 我想做信号通路分析,但我就是不想学编程-肽度TIMEDOO

最好还是一次只选一个,因为不知道原始的程序设计是如何的,到底是各个数据库独立分析,还是跟metascape默认一样,全部混一起。整体而言,分析速度极快,使用起来也很方便。

氮素!!!

CPDB只支持分析人类基因……

4. 总结

以上这些工具的分析结果,在调教好参数的情况下(比如p值 cut-off,数据库类型),各个网站出来的结果没太大区别,所以算法上应该都是靠谱的。我拿同一套东西跑ClusterProfiler,结果也是没差多少。

这几个数据库都有什么优缺点呢?

Metascape:支持物种多,数据库更新非常及时,且导出的数据颜值高,甚至可以直接发表。但是支持数据库较少,而且在国内打开较慢,且运行速度有时候较慢(毕竟分析完后还要生成pdf、excel、ppt还顺便打成压缩包那么一大堆东西)。

Enrichr:数据库多到上天,分析速度还行。但是不支持选择特定物种,默认就是多物种的数据库混一起的,同时部分数据库更新不够及时。

CPDB:速度快,支持非常多的数据库,更新还算勤,几个月更一次吧。但只能分析人类基因。

总体而言,Metascape还是最好用的,毕竟支持的物种比较多,人、鼠、斑马鱼、果蝇、线虫、疟原虫、酵母、拟南芥都有。虽然支持的数据库不算多,但简单过一遍分析,看看有什么通路冒出来,也算是勉强够用。

那有没有支持的物种多、数据库多、更新勤、速度快,甚至能够做非模式生物、自定义通路数据库的在线工具呢?

吴思涵博士教程 | 我想做信号通路分析,但我就是不想学编程-肽度TIMEDOO

学R语言,然后琢磨一下ClusterProfiler这个神包吧。

吴思涵博士教程 | 我想做信号通路分析,但我就是不想学编程-肽度TIMEDOO

PS:我自己喜欢用的通路数据库是Reactome,WikiPathways,HumanCyc(虽然免费的库比较旧),还有Hallmark gene sets。虽然ClusterProfiler只有Reactome(额外再下个包),但只要去下载对应的数据库,用其中的通用enrichment分析函数enricher,就可以任性分析了。

作者:吴思涵