科研成果 | 张强锋课题组开发基于细胞内RNA结构预测蛋白质-RNA动态相互作用的人工智能方法
作者通过整合细胞内RNA结构信息以及对应细胞系的RBP结合信息,利用深度神经网络,构建了预测RBP结合位点的PrismNet模型。该模型在168个人类RBP结合的CLIP数据集上进行了训练学习和检验,发现其预测准确率显著高于之前仅仅利用RNA序列以及整合基于序列预测得到的RNA结构的方法,预测和CLIP实验结果的吻合度甚至达到或超过同一条件下两个CLIP实验的吻合度(图2)。显然,细胞内RNA结构信息对于预测准确率的提高起到了重要作用。有意思的是,作者发现RNA结构信息对于提高双链结合蛋白预测准确率的帮助更大。
RBP和RNA研究领域内多年的积累,产生了大约200个基于CLIP实验的RBP转录组结合图谱,是研究RNA调控的重要资源。PrismNet的一个重要应用价值在于大大扩充了这个资源。比如,对于任意一个RBP,只要在这七个细胞系的任意一个细胞系内做了CLIP实验,PrismNet就可以通过构建准确的深度神经网络模型,把结合信息外推到所有七个细胞系中。对该研究所产生的大量细胞内RNA结构、所预测的不同RBP结合位点的信息资源,作者提供了查询以及下载网站(http://prismnet.zhanglab.net/)供其他研究组访问和使用。
最后要提到的是,张强锋研究组利用PrismNet模型,使用新冠病毒SARS-CoV-2在宿主细胞内的RNA基因组结构信息,预测了多个新冠病毒的宿主结合蛋白;从这些宿主蛋白出发,找到了一些对抑制新冠传播有效的重定位药物【5】。这个研究再次证明了PrismNet的广阔应用前景。
据悉,清华大学生命学院博士后孙磊、博士生徐魁、博士生黄文泽等为论文第一作者,结构生物学高精尖创新中心张强锋研究员为论文通讯作者。课题组其他成员李盼、唐磊、熊团林博士、朴美玲博士等为本研究做出了重要贡献。清华大学医学院沈晓骅实验室尹亚飞博士、纪家葵实验室王楠提供了相关细胞系。香港中文大学王晓刚教授与邵静博士为深度学习模型设计提供了宝贵建议。商汤研究院在GPU计算设施上提供了帮助。
3. Sun, L., Fazal, F.M., Li, P., Broughton, J.P., Lee, B., Tang, L., Huang, W., Kool, E.T., Chang, H.Y., and Zhang, Q.C. (2019). RNA structure maps across mammalian cellular compartments. Nature structural & molecular biology 26, 322-330.
4. Shi, B., Zhang, J., Heng, J., Gong, J., Zhang, T., Li, P., Sun, B.F., Yang, Y., Zhang, N., Zhao, Y.L., et al. (2020). RNA structural dynamics regulate early embryogenesis through controlling transcriptome fate and function. Genome Biol 21, 120.
5. Sun, L., Li, P., Ju, X., Rao, J., Huang, W., Zhang, S., Xiong, T., Xu, K., Zhou, X., Ren, L., et al. (2021). In vivo structural characterization of the whole SARS-CoV-2 RNA genome identifies host cell target proteins vulnerable to re-purposed drugs. Cell
https://doi.org/10.1016/j.cell.2021.02.008.
来源:结构生物学高精尖创新中心