北京时间2021年4月13日,结构生物学高精尖创新中心薛毅课题组在《核酸研究》Nucleic Acids Research)杂志在线发表了题为《环结构元件的特征性化学探测数据模式及其对RNA二级结构预测准确度的改善》Characteristic chemical probing patterns of loop motifs improve prediction accuracy of RNA secondary structures)的研究长文,报道了一个整合了特征性化学探测数据的RNA二级结构预测新方法。该方法在预测的准确度上高于传统的伪自由能预测模型以及“采样-选择”模型。此外,该方法也可以帮助鉴定假结结构以及RNA二级结构的动态变化。
RNA分子通过错综复杂的碱基配对模式折叠成二级结构,这些二级结构是RNA行使催化、配体结合和支架等功能的基础。准确地测定RNA的二级结构对于理解其生物学功能以及调控机制至关重要。近年来,化学小分子探针被广泛应用于RNA二级结构的探测,其中,selective 2´-hydroxyl acylation analyzed by primer extension(SHAPE)技术利用亲电试剂对不同状态碱基(配对或未配对)的修饰活性的差异来实现对RNA二级结构的探测。在SHAPE数据的分析中,如何合理地将SHAPE数据整合进结构预测算法是一个关键的问题。常用的工具,如RNAstructure,通常将SHAPE值转化成每个配对核苷酸各自的伪自由能约束,进而整合进热力学预测模型中预测出最终的结构。这类整合方法虽然显著地提升了RNA二级结构预测的准确度,但提升程度仍不能满足研究者的需求,尤其是对长RNA的结构预测和对结构动态变化的捕捉。

鉴于使用各种不同伪自由能参数的预测方法在准确度上已经遇到了“瓶颈”,在本项研究中,薛毅课题组从新的角度出发,建立起SHAPE数据特征和环结构元件信息之间的直接联系。通过统计分析,他们发现对于同一类型(发卡环、内环和凸环)和长度的环结构元件而言,其通常具有某种特征性的SHAPE模式,即在某些核苷酸位置之间存在保守的SHAPE值高低趋势。通过对环元件的三级结构分析,他们发现特征性SHAPE模式可以反映出核苷酸对糖环构象的偏好性。为了利用这种特征性SHAPE模式来提升RNA二级结构预测的准确度,他们提出了SHAPELoop方法。该方法通过“评估-替换”的策略对传统能量模型预测出的结构(称为“指导结构”)进行改进,以达到SHAPELoop预测出的结构比指导结构更加符合特征性SHAPE模式的目的(图1)。

结构生物学高精尖创新中心薛毅课题组利用SHAPE数据特征提高了RNA二级结构预测的准确度-肽度TIMEDOO
图1. SHAPELoop方法框架
利用上述策略,SHAPELoop可以准确地识别出“指导结构”中被错误预测的环元件,并对其进行替换。SHAPELoop在预测的准确度上高于传统的伪自由能预测模型(RNAstructure-Fold,RNAstructure-MaxExpect和RME)以及“采样-选择”模型(SeqFold)(图2)。此外,SHAPELoop对不同的“指导结构”以及SHAPE数据中的噪声也具有较好的鲁棒性。
结构生物学高精尖创新中心薛毅课题组利用SHAPE数据特征提高了RNA二级结构预测的准确度-肽度TIMEDOO
图2. A) SHAPELoop及其他五种预测方法在标准RNA测试集上的表现;B) SHAPELoop使用不同“指导结构”的表现;C) SHAPELoop对数据噪声的鲁棒性。
最后,薛毅课题组还展示了特征性SHAPE模式在帮助鉴定假结结构以及RNA二级结构动态变化方面的应用。例如图3中展示的P5abc RNA,他们利用SHAPELoop方法定量地评估了P5c亚结构域的可能的环结构与特征性SHAPE模式之间的符合程度,并准确地预测出了不同折叠条件下该RNA的真实二级结构。
结构生物学高精尖创新中心薛毅课题组利用SHAPE数据特征提高了RNA二级结构预测的准确度-肽度TIMEDOO
图3 A) P5abc在没有Mg2+的折叠条件下的结构及SHAPELoop罚分;B) P5abc在有Mg2+的折叠条件下的结构及SHAPELoop罚分;C) U30C突变体结构及SHAPELoop罚分;D) G39A突变体结构及SHAPELoop罚分。
结构生物学高精尖创新中心薛毅研究员为本文通讯作者,薛毅课题组生命学院博士生曹静怡为本文第一作者。本研究得到了北京市结构生物学高精尖创新中心和清华-北大生命科学联合中心的经费支持。

原文链接

https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkab250/6225227

来源:结构生物学高精尖创新中心