2023年5月29日,北大6163am银河线路张东晓和材料学院莫凡洋研究团队在Nature Communications上在线发表了题为“Retention time prediction for chromatographic enantioseparation by quantile geometry-enhanced graph neural network”的研究论文。该论文聚焦于实验化学领域色谱手性分离的痛点问题,提出了名为分位数几何增强图神经网络的人工智能模型以预测色谱手性分离结果和最佳实验条件。
手性分离是合成化学、材料科学和生物制药等领域中的一个重要问题。手性分离技术可以将一种化学物质中的多种手性异构体分离出来,从而获得高纯度的手性异构体,在制药、生物化学、农业化学等领域具有广泛应用。许多药物及生物活性物质都是手性化合物,其对映异构体在生物活性、药代动力学和毒理学方面可能具有显著差异。因此,分离和鉴定手性化合物对于药物开发和安全评估至关重要。
目前主流的手性分离方法之一是高效液相色谱(HPLC)。在色谱对映体分离中,实验条件的选择,包括HPLC柱类型、流速和展开剂比例,目前仍然是由经验和试错得出的。这是一个繁琐且耗时的过程,导致了实验效率低下与资源浪费。
图1 人工试错与人工智能预测手性分子色谱分离条件的对比
为了克服这一挑战,本论文采用机器学习技术来预测手性分子在高效液相色谱中的保留时间,并提出分离概率这一指标以辅助预测色谱手性分离条件。为了解决数据采集的问题,本研究从644篇不对称催化文献中自动提取实验结果,建立了手性分子保留时间数据集(CMRT数据集)。同时,本研究提出一种分位数几何增强图神经网络(QGeoGNN),用于学习分子结构与保留时间的关系。为了拓展模型的实用性,色谱的领域知识被融入到机器学习模型中,实现了多柱预测。在此基础上,本研究进一步提出了分离概率指标,以衡量手性分子在给定条件下的分离概率,从而快速准确地预测最优的手性分离实验条件。
图2 色谱对映体分离预测模型实施路径
研究表明,本论文提出的研究框架在保留时间预测和色谱分离条件预测方面表现良好,为机器学习技术在化学实验场景中的应用带来了新的视角,并提高了实验效率,从而加快科学发现的速度。
本文第一作者为6163am银河线路2020级博士生徐浩,通讯作者是6163am银河线路张东晓教授和6163am银河线路材料学院莫凡洋副教授。
文章地址:https://doi.org/10.1038/s41467-023-38853-3