通过将原子当作字母,分子当作单词,IBM的人工智能软件正在借用机器原先翻译语言的方法,来预测有机化学反应的产物,这可能会加快新药开发的速度。

本文图片均来自附件视频截图
过去50年来科学家们一直在尝试教会电脑化学原理,这样电脑就能帮助我们预测有机化学反应产物。然而,有机物异常复杂,对它们行为的模拟被证明非常费时且不准确。
IBM的科学家换了一种思路,他们找了通常用于语言翻译的AI程序应用在有机化学上。“不再是把英语翻译成德语或汉语,我们让这个人工智能观察数十万、数百万的化学反应,让它学习有机化学‘语言’的结构,再让它试着预测可能的化学反应产物。”研究共同作者,苏黎世IBM研究所的特奥多罗·莱伊诺(Teodoro Laino)说。

“我们想帮助化学家设计新的有机化合物合成路径,”莱伊诺说。药物和其它复杂有机化合物的合成通常是很困难的,“可能需要30到40步。商业部门花费了很多努力来寻找跳过一些步骤的捷径,以达到节省时间和提高产率的效果。”
新的AI程序是一个人工神经网络,在这个网络中,数据被输入至称为“神经元”的组件上,这些组件再通过合作来解决问题,例如翻译一句话。神经网络随后反复调整“神经元”之间的连接,观察新的连接样式是否能更好地解决问题。随着时间推移,神经网络找到了计算解决方案的最佳连接样式。这个过程模仿了人类大脑的学习过程。“它通过类比来推理和学习,这和顶尖的专业有机化学家在现实生活中做的一样。”莱伊诺说。

就像牙牙学语的孩子并不一定知道时态和变格的原理却仍能逐渐学会母语一样,这个新的AI程序从来都没有学过有机化学原理,但仍然可以对化学反应的产物作出预测。如果AI认为一个化学反应可能不止一种结果,它还会根据可能性高低列出多个反应方程式。
“它可以达到高达80%的准确率,”研究共同作者,苏黎世IBM研究中心的菲利普·施瓦勒(Phillippe Schwaller)说
“目前为止,AI程序处理过的最大分子有150个原子。”施瓦勒说。研究共同作者,苏黎世IBM研究中心的泰奥菲勒·戈丹(Théophile Gaudin)说:“如果需要的话,没有任何理论限制说我们不可以处理更长的分子。”
未来,“我们计划通过云服务将这个程序向公众开放,”戈丹说,“我们还想要把准确性提高到90%以上。其中一个思路是使用专用于特定有机化学反应的专门模型,而不是一个通用的有机化学模型。”

不仅如此,未来研究者还可能让AI将温度、溶剂、pH等条件考虑在内。然而,这需要再次检查额外数据的准确性。
还有,“我们还希望招募有机化学专家,开展社会实验,看看我们的模型如何比拼他们。”戈丹说。
因为AI还不完美,有机化学家仍然需要跟进这项研究。“我们并不创造这个工具来取代有机化学家,而是来帮助他们。”莱伊诺说。
科学家们12月4日在加州长滩的神经信息处理系统(NIPS 2017)会议上详细报告了他们的发现。
翻译:顾金涛
审校:马晓彤