在人工智能领域,深度学习平台的重要性毋庸置疑。飞桨是百度自研的深度学习平台,飞桨社区的开发者基于飞桨平台积极的将自己的智慧应用到前沿技术的研究中,为人工智能长期研发目标贡献自己的力量。为此,飞桨开发者说专栏推出顶会专题,给予飞桨社区开发者一个平台,介绍学术研究的最新发展动向,分享在学术研究方面的经验。
本期文章将为大家分享飞桨社区开发者李双利、周景博发表于AAAI2022的文章《GeomGCL: Geometric Graph Contrastive Learning for Molecular Property Prediction》
李双利
飞桨社区核心开发者,百度研究院商业智能实验室研究实习生,中国科学技术大学的在读博士生。
主要进行时空数据挖掘和图深度学习的相关研究工作。曾获2021年百度研究院年度优秀实习生,有多项基于飞桨完成的论文,发表于KDD、AAAI等计算机顶级会议。
周景博
飞桨高级开发者技术专家(高级PPDE),现任百度研究院商业智能实验室资深研究员。
背景介绍
在计算生物和计算化学领域,准确预测分子的各种生化性质的准确预测对于药物研发等应用领域至关重要。然而在真实场景下,大部分数据往往是缺少标签的,传统的有监督学习算法无法利用这些数量巨大的缺失标签的分子进行学习,因此如何用图对比学习的自监督策略增强模型的表达能力是十分有必要的。
然而,当前自监督的分子性质预测方法基本都是基于二维分子图设计的预训练任务或者进行分子图的增强的方法,一方面有效的预训练任务往往需要生物化学领域的专家知识进行精心设计,而分子图增强策略基本都会破坏分子本身的结构性质,产生的分子很可能是没有化学意义的,不利于模型的对比学习。另一方面,分子本质上是一个由多种类型原子相互作用构成的网络结构图,与一般的研究对象不同,分子图除了拓扑结构信息,其中还包含关键的空间结构信息。当前大多数无监督的分子性质预测方法只考虑了二维视角的分子信息,没有将三维空间的分子图加入自监督的学习框架进行有效利用。而原始的分子化学式可以转化为二维平面结构图和三维空间结构图,如何充分学习结合两种视角下的信息对于分子的表征学习和性质预测是十分有益的。
图1 二维视图和三维视图中的空间几何信息
方法框架
图2 二维-三维分子图对比学习的模型框架
由于只有化学键对应的边具备初始特征,我们首先对每一对节点(原子)的表征进行聚合来更新得到边的表征。同时为了从二维和三维两个方面增强联系性,对聚合信息进一步分别融合共价键特征和三维距离表征。
在得到边表征后,我们进一步设计了边到边的消息传递过程来捕捉原子节点的空间分布。空间角度感知的聚合策略可以分别作用于二维和三维关系边,基于PGL的send-recv消息传递实现机制可以方便的实现二维边之间的消息传递函数。
Node⟶Graph 注意力池化层
实验
我们在多个分子数据集上的实验证明了所提出的对比学习框架可以显著提升分子性质的预测效果,表1表明了融合二维和三维分子视图不仅比有监督方法效果更佳,而且预测效果优于最新的无监督预训练模型和图对比学习方法。
此外,我们通过对二维和三维视图学习模块进行消融实验证明了充分融合两个维度的分子信息才能达到模型最优的预测效果,并且利用对比学习策略可以进一步提升效果。
图3 消融实验
总结
相关地址
论文:
https://ojs.aaai.org/index.php/AAAI/article/view/20377
代码:
关注【飞桨PaddlePaddle】公众号
获取更多技术内容~
在人工智能领域,深度学习平台的重要性毋庸置疑。飞桨是百度自研的深度学习平台,飞桨社区的开发者基于飞桨平台积极的将自己的智慧应用到前沿技术的研究中,为人工智能长期研发目标贡献自己的力量。为此,飞桨开发者说专栏推出顶会专题,给予飞桨社区开发者一个平台,介绍学术研究的最新发展动向,分享在学术研究方面的经验。
本期文章将为大家分享飞桨社区开发者李双利、周景博发表于AAAI2022的文章《GeomGCL: Geometric Graph Contrastive Learning for Molecular Property Prediction》
李双利
飞桨社区核心开发者,百度研究院商业智能实验室研究实习生,中国科学技术大学的在读博士生。
主要进行时空数据挖掘和图深度学习的相关研究工作。曾获2021年百度研究院年度优秀实习生,有多项基于飞桨完成的论文,发表于KDD、AAAI等计算机顶级会议。
周景博
飞桨高级开发者技术专家(高级PPDE),现任百度研究院商业智能实验室资深研究员。
背景介绍
在计算生物和计算化学领域,准确预测分子的各种生化性质的准确预测对于药物研发等应用领域至关重要。然而在真实场景下,大部分数据往往是缺少标签的,传统的有监督学习算法无法利用这些数量巨大的缺失标签的分子进行学习,因此如何用图对比学习的自监督策略增强模型的表达能力是十分有必要的。
然而,当前自监督的分子性质预测方法基本都是基于二维分子图设计的预训练任务或者进行分子图的增强的方法,一方面有效的预训练任务往往需要生物化学领域的专家知识进行精心设计,而分子图增强策略基本都会破坏分子本身的结构性质,产生的分子很可能是没有化学意义的,不利于模型的对比学习。另一方面,分子本质上是一个由多种类型原子相互作用构成的网络结构图,与一般的研究对象不同,分子图除了拓扑结构信息,其中还包含关键的空间结构信息。当前大多数无监督的分子性质预测方法只考虑了二维视角的分子信息,没有将三维空间的分子图加入自监督的学习框架进行有效利用。而原始的分子化学式可以转化为二维平面结构图和三维空间结构图,如何充分学习结合两种视角下的信息对于分子的表征学习和性质预测是十分有益的。
图1 二维视图和三维视图中的空间几何信息
方法框架
图2 二维-三维分子图对比学习的模型框架
由于只有化学键对应的边具备初始特征,我们首先对每一对节点(原子)的表征进行聚合来更新得到边的表征。同时为了从二维和三维两个方面增强联系性,对聚合信息进一步分别融合共价键特征和三维距离表征。
在得到边表征后,我们进一步设计了边到边的消息传递过程来捕捉原子节点的空间分布。空间角度感知的聚合策略可以分别作用于二维和三维关系边,基于PGL的send-recv消息传递实现机制可以方便的实现二维边之间的消息传递函数。
Node⟶Graph 注意力池化层
实验
我们在多个分子数据集上的实验证明了所提出的对比学习框架可以显著提升分子性质的预测效果,表1表明了融合二维和三维分子视图不仅比有监督方法效果更佳,而且预测效果优于最新的无监督预训练模型和图对比学习方法。
此外,我们通过对二维和三维视图学习模块进行消融实验证明了充分融合两个维度的分子信息才能达到模型最优的预测效果,并且利用对比学习策略可以进一步提升效果。
图3 消融实验
总结
相关地址
论文:
https://ojs.aaai.org/index.php/AAAI/article/view/20377
代码:
关注【飞桨PaddlePaddle】公众号
获取更多技术内容~