加州大学团队提出AI生信模型,填补RNA结合蛋白的认知空白

2023-08-20 16:09:07 来源:DeepTech

金文豪,目前是美国公司 Trotana Therapeutics 的高级研究员。其本科和博士先后毕业于浙江大学和新加坡国立大学,后又来到美国加州大学圣迭戈分校从事博后研究。前不久,他在博后期间的一篇论文发表在 Molecular Cell

该论文介绍了一款名为 HydRA(hybrid ensemble RBP classifier)的人工智能模型,主要用于 RNA 结合蛋白的预测。


(资料图片)

图 | 金文豪(来源:金文豪)

整体来看, HydRA 可用于发现新的 RNA 结合蛋白、及其与结合功能相关的区域。 利用机器学习建模和解释技术,HydRA 已能预测 1000 多个未知的 RNA 结合蛋白、以及数十个未知的 RNA 结合结构域。

通过利用机器学习和深度学习等技术,HydRA 解决了此前 RNA 结合蛋白预测能力不足的问题。比如,HydRA 可以从已知的 RNA 结合蛋白中,学习与 RNA 结合相关的蛋白质特征,包括蛋白质序列和蛋白质互作网络等特征。

(来源:Molecular Cell)

据介绍,HydRA 旨在解决两个关键问题:

首先,HydRA 可以发现新的 RNA 结合蛋白, 并结合生物实验来探索新型 RNA 结合蛋白的下游靶标 RNA 分子、以及结合位点,填补人们对于 RNA 结合蛋白多样性和功能的认知空白,扩充人们对 RNA 调控网络的认知;

其次,HydRA 可以揭示蛋白质与 RNA 分子互作的关键特征, 特别是非典型 RNA 结合蛋白的结合机理,从而深化人们对 RNA-蛋白质分子互作的理解。

另据悉,增强交联免疫沉淀-高通量测序技术(eCLIP,enhanced Crosslinking Immunoprecipitation-high-throughput-sequencing),是金文豪博后期间所在团队研发的一款技术。

在本次研究中,他和同事在 eCLIP 技术的帮助之下,针对 HydRA 的机器学习结果做了进一步验证,借此让 RNA 结合蛋白的知识库得以拓展。

在应用前景上:

其一,HydRA 能够快速预测某个蛋白质是否是 RNA 结合蛋白,以及是否参与其他基因的转录调控,从而帮助确定那些与疾病相关的基因,进而厘清在致病过程中的具体机制。

其二,HydRA 可以快速预测某个 RNA 结合蛋白的功能区域。在目前已知的 RNA 结合蛋白中,对于其中一半以上的蛋白,人们并不知道它们到底通过哪些结构域或位点,来参与和 RNA 分子的互相作用。而通过数据驱动的方法,HydRA 能够学习和总结 RNA 结合蛋白中的常见模式,进而预测未知的结构域和位点。

哪怕仅仅使用人类蛋白组作为训练集,HydRA 也能精确预测其他物种的 RNA 结合蛋白。即便 RNA-蛋白质的互作数据相对较少,HydRA 也能在物种中快速识别具有 RNA 结合能力的蛋白质。

因此,只要是涉及 RNA-蛋白质互作的研究,HydRA 都能帮助人们快速找到关键的蛋白质区域,从而加速疾病分子机理的探索过程。

总结来说,HydRA 不仅可以拓展人们对于 RNA 结合蛋白的认知范围,也能为相关疾病的治疗提供新启发和新可能。

(来源:Molecular Cell)

日前,相关论文以《HydRA:从蛋白质相互作用关联上下文和蛋白质序列预测 RNA 结合能力的深度学习模型》(HydRA: Deep-learning models for predicting RNA-binding capacity from protein interaction association context and protein sequence)为题发在 Molecular Cell (IF 16)。

金文豪是第一作者,美国加州大学圣迭戈分校教授 Gene W. Yeo 担任通讯作者 [1]。

图 | 相关论文(来源:Molecular Cell)

RNA 分子,是细胞过程中不可或缺的参与者。它们在 DNA 与蛋白质之间充当着桥梁作用,其能调控基因表达以及参与多样的生物功能,对于生物体的正常功能和相关发展至关重要。

RNA 结合蛋白,是一类具有特定功能的蛋白质,它们通过自身单体、或以核糖核酸蛋白复合体(RNP 复合体)的形式,参与调控 RNA 分子生命周期中的每个关键步骤。

RNA 结合蛋白能与 RNA 分子发生物理互作,从而对 RNA 的转录、剪接、稳定性、运输和翻译等进行调节。这些过程对于细胞功能的调控非常重要,而 RNA 结合蛋白的异常表达或功能紊乱,与许多疾病的发生、发展密切相关。

尽管利用紫外线交联、免疫沉淀、相分离等高通量技术,人们已经发现不少新的 RNA 结合蛋白。但是,对于 RNA 结合蛋白的认知仍然受到一定限制。

蛋白质和 RNA 分子的结合是一个动态过程,而现有的生物化学方法每次只能捕捉特定细胞系、以及细胞条件之下蛋白质与 RNA 的互作行为,这导致可能还有很多具备结合 RNA 能力的蛋白质无法“浮出水面”。

此外,在已知的 RNA 结合蛋白之中,约有一半属于非典型 RNA 结合蛋白。对于将这些蛋白质用于结合 RNA 分子的结构域、以及互相作用的机理,人们至今知之甚少。

为解决上述不足,金文豪博后期间的所在团队,已为之努力数年之久。他说:“本次课题来源于我们之前发的另一篇论文,在那篇论文里我们发现利用蛋白质互作数据可以有效地识别 RNA 结合蛋白,基于此我们提出了 SONAR——它是一款 RNA 结合的蛋白分类器。”

然而,由于蛋白质互作数据的内在局限性,很容易引入假阳性预测。比如,有些蛋白尽管能和不少 RNA 结合蛋白进行接触,但是并不能和 RNA 分子直接互作。这时,基于蛋白质互作的分类器,非常容易误把它们归为 RNA 结合蛋白。

基于此,该团队启动本次课题,尝试通过引入其他蛋白质特征,例如蛋白质序列信息和结构信息,来更精确地描述 RNA 结合蛋白。与此同时,他们还改进了 SONAR,以便降低预测时出现假阳性的概率。

具体来说,他们采用多种机器学习和深度学习技术,来对蛋白质序列、结构和蛋白质互作信息进行建模。

有趣的是,他们发现基于蛋白序列的模型的预测效果,总体略优于基于 AlphaFold2 所预测的蛋白结构的图神经网络模型。不过,基于 AlphaFold2 结构的模型,在识别非典型 RNA 结合蛋白上有着较大潜力。

而通过比较不同特征和模型的组合,他们最终选择基于蛋白质序列和蛋白互作网络的模型,借此成功打造出了 HydRA。

(来源:Molecular Cell)

随后,他们对 HydRA 进行模型解释,进一步确认它具备学习真实 RNA 结合蛋白特征的能力。

也正是在模型解释的环节中,他们意外发现基于蛋白序列的模型,在没有显性训练数据参与的情况下,能够很好地识别与 RNA 互作相关的蛋白质区域。

于是,课题组决定充分利用模型的能力,即不仅将 HydRA 用于发现新的 RNA 结合蛋白,也将其用于发掘新的 RNA 结合蛋白结构域和功能位点。

如前所述,eCLIP 技术是该团队此前研发的一款技术,其具备较强的定量能力,目前已在学界得到广泛使用。

于是,针对 HydRA 对于新型 RNA 结合蛋白的预测能力,他们使用 eCLIP 技术进行验证,并得到了与这些蛋白互作的 RNA 分子、以及发生互作的核酸位点。

同时,对于新型 RNA 结合蛋白与 RNA 结合功能相关的蛋白结构域,其再次使用 eCLIP 技术加以验证。

事实上,早在 2019 年初课题组就在实验中发现了新型 RNA 结合蛋白,彼时这篇论文也已经成型。

同样在 2019 年,一些来自 RNA 领域的同行学者,接连发表两篇利用相分离技术来发现新型 RNA 结合蛋白的论文。

金文豪说:“在同行的论文里,有一些新型 RNA 结合蛋白与我们挑选出来做实验验证的蛋白相同,而且我们的相关验证实验已经完成。”

他继续说道:“出于发现新知识的想法,我们不得不重新安排验证实验,同时把研究目标从发现新的 RNA 结合蛋白,扩展为发现新的 RNA 结合蛋白及其与 RNA 结合相关的功能性结构域。”

不过,他们反而“因祸得福”。当时,随着自然语言模型的发展,Transformer 框架已经得到快速发展。基于序列的蛋白质建模领域也被注入这股力量。

(来源:Molecular Cell)

另外,随着 AlphaFold2 的问世,该团队得以访问高质量的蛋白质结构预测信息。因此,在 RNA 结合蛋白的机器学习建模过程中,也就有更多工具和数据供他们使用。

通过引入这些工具和数据,HydRA 的性能得到进一步提升,从而能在 RNA 结合蛋白功能性结构域的预测上,获得更加出色的表现。

在本次课题里,基于蛋白序列和蛋白结构的模型学习能力,RNA 结合蛋白的真实特征也被“揭开面纱”。

在结束博后研究之后,金文豪已经加入业界。目前,他个人正在尝试通过结合蛋白质语言、结构模型以及当下大火的生成式 AI 大模型, 来设计新的 RNA 结合蛋白,以期可以得到更好的工具,从而在 RNA 分子层面实现编辑和修饰等功能,并将其用于相关疾病的治疗。

参考资料:

1.Jin, W., Brannan, K. W., Kapeli, K., Park, S. S., Tan, H. Q., Gosztyla, M. L., ... & Yeo, G. W. (2023). HydRA: Deep-learning models for predicting RNA-binding capacity from protein interaction association context and protein sequence. Molecular Cell , 83(14), 2595-2611.

标签: