前沿 2019-08-02 18:08

美国劳伦斯伯克利国家实验室发现通过文献即可找到未知的新材料

陈济桁 摘自 劳伦斯伯克利实验室

【据美国能源部劳伦斯伯克利国家实验室网站2019年7月3日报道】众所周知,机器学习算法训练的电脑可以进行大师级的国际象棋对弈,但它是否可以拿来做科学发现吗?美国能源部劳伦斯伯克利国家实验室的研究人员通过验证证实,没有经过材料科研训练的算法可以仅通过浏览数百万篇论文的文字即可发现材料学中的新知识。

由劳伦斯伯克利实验室能源存储及分布式资源研究部的科学家Anubhav Jain领导的团队收集了330万份已发表的材料科学专业论文的摘要,并将其输入一个名为Word2vec的算法中。通过分析单词之间的关系,该算法能够提前若干年预测发现新的热电材料,并能够提出建议将尚未被人们熟知的材料作为热电材料的候选。

Jain表示,在没有告知任何有关材料科学专业知识的前提下,该算法就学会了元素周期表和金属晶体结构等相关概念。这显示出了该技术拥有的潜力。研究人员认为,这项技术所带来的最有前景的应用是,人们可以使用这种算法在材料研究中尝试填补尚未解决的缺陷或空白,这是科研工作理应做到但到目前为止尚未开展研究的东西。”

这项研究成果发表在7月3日刊发的《自然》杂志上,论文题目为《无指导词汇捕获算法嵌入材料科学文献中获取未知知识》,该研究的主要作者为劳伦斯伯克利实验室博士后研究员Vahe Tshitoyan,现为谷歌公司工作。伯克利实验室的科学家Anubhav Jain,Kristin Persson和Gerbrand Ceder也共同领导参与了这项研究。

联合作者之一、加州大学伯克利分校材料科学与工程系教授Ceder表示,这项研究表明,通过对科学文献的文本挖掘可以发现隐藏的新知识,纯文本学习和提取可以建立基本的科学知识。

劳伦斯伯克利实验室的研究人员发现,通过挖掘材料科学文献的摘要,可能会发现新型热电材料。

此项研究的主要作者Tshitoyan表示,开展这项研究的主要动机是因为目前的科研工作者难以有效率的、大面积的阅读和理解如此数量庞大的文献资料。几乎每个研究领域都有超过百年研究历史的文献资料,同时每周又会产生数十项新的研究成果,但大部分研究人员只会阅读和获取其中的一小部分。机器学习是否可以做一些事情,在不需要科研人员辅助指导的情况下,汇集这些信息并挖掘其中有用的知识。

“王-女王+男人=?”

为了完成这项研究,该团队检索了1922年至2018年间在1000多种专业期刊上发表的相关论文,并收集了约330万篇摘要。Word2vec算法在这些摘要中共采集了约50万个不同的单词,并将每个单词转换为200维向量,或200个数字阵列。

Jain表示,这项工作中最重要不是每个数字,而是通过数字发掘单词之间的相互关联性。他领导一个小组,致力于利用混合理论、计算和数据挖掘等方式,发现和设计能源应用方面的新材料。“例如,可以使用数学中标准向量的计算规则进行向量减法运算。很多研究工作已经证明,如果利用非科学文献资源训练一种算法,并以“王减女王”这种关系产生向量,你会得到一类与“男人减去女人”相同的运算结果。算法会在你没有告诉任何事情的情况下自动找出这种关系。”

与之类似,当你利用材料科学文献训练算法时,它能够理解一些专业术语和概念,比如简单的根据单词在摘要中的位置理解什么是金属晶体结构以及与之相关的知识。举个例子,就像算法可以解决“王-女王+男人”这种向量运算一样,它也可以解决“铁磁体-NiFe+IrMn”的问题,其答案将会是“反铁磁体”。

当每个化学元素代表的向量以二维坐标的形式在二维坐标图中标出时,Word2vec甚至能够学习元素周期表中各元素之间的关系。

算法研究成功可能让科研成果提前几年被预测发现

因此,如果Word2vec算法如此智能,它能预测出新型热电材料吗?良好的热电材料可以有效地将热量转换为电能,并且可以由安全、丰富且易于生产的材料制成。

该算法根据科技文献中单词向量与“热电”一词的相似性和相关联性,针对每种不同化合物进行了排序。随后,劳伦斯伯克利实验室研究人员利用了该算法建议的首选热电候补化合物,进行计算来验证算法的预测。

在算法给出的排名前10位的预测中,研究人员发现这10种材料计算得出的功率因数均略高于目前已知热电材料的平均值;其中排名前三位候选材料功率因数比已知的热电材料高95%。

接下来,他们测试了算法是否可以根据过去的文献结果预测得到目前发现的热电材料,研究人员只给算法学习了2000年文献的摘要。同样,在排位最高的预测中,目前已知的研究数据和结果大量的出现——比此前刚刚随机选中的材料数量的四倍。在使用截至2008年之前的文献资料数据训练算法得到排名前五的预测中,目前由3种材料已经被发现,其余的2种材料则包含稀有或有毒元素。

这一测试结果时令人惊讶。Jain表示,研究团队并没有想到这种算法能够如此预测未来。“我原本以为这个算法可能描述了人们以前做过的事情,但无法提出与之不同的联系。但当我不仅看到预测而且看到预测背后的推理时,我感到非常惊讶,例如半赫斯勒结构,这是一种非常有前景的电热晶体结构。”

他补充说:“这项研究表明,如果我们能更早的使用这种算法,可以想象,一些新材料可以提前多年被人们发现。”随着研究的深入,研究人员正在整理并发布利用该算法预测的排名前50的热电材料。如果科研人员想要探索更好的拓扑绝缘体材料,研究团队还将后续发布用户针对自己的研究领域所需的嵌入单词模型。

接下来,Jain表示,该团队正在开发一个更智能、更强大的搜索引擎,允许研究人员以更效的方式检索文献摘要。

这项研究工作由丰田研究所资助。其他从事本项研究的合著者分别是伯克利实验室研究人员John Dagdelen,Leigh Weston,Alexander Dunn和Ziqin Rong,以及加州大学伯克利分校研究员Olga Kononova。

阅读 收藏

相关专题: 基础与前沿