Redian新闻
>
Npj Comput. Mater.: 一叶知秋—材料科学中的小数据机器学习

Npj Comput. Mater.: 一叶知秋—材料科学中的小数据机器学习

科学

海归学者发起的公益学术平台

分享信息,整合资源

交流学术,偶尔风月

小数据由于数据规模小、特征维过高或过低,容易造成数据不平衡和模型过拟合或欠拟合的问题,这一直是材料机器学习的痛点之一。上海大学化学系陆文聪教授课题组结合前沿研究成果,介绍机器学习辅助材料设计与发现的一般流程,并综述了该过程中小数据的处理方法,包数据源层面的文献数据提取、材料数据库建设、高通量计算和实验;算法层面的小数据建模算法和不平衡学习;机器学习策略层面的主动学习和迁移学习。最后,提出了小数据机器学习在材料科学领域的发展方向。


大部分材料机器学习课题的数据量还处于小数据阶段。就数据源而言,自然语言处理技术与文本挖掘的发展可以从文献中自动提取数据;材料数据库的发展可以方便收集碎片化的材料数据;此外,高通量技术可以通过实验或计算方法在短时间内获得大量高质量的数据。机器学习模型除了依靠数据之外还要依靠算法,而有些算法因其本身的原理就很适合小数据建模。适合小数据集的算法包括支持向量机、高斯过程回归、随机森林、XGBoost、梯度提升决策树和符号回归。传统的分类方法通常在每个类别的数据大小几乎相等的情况下处理数据,但材料科学中的数据类别往往是不平衡的,不平衡学习可以处理因一类样本量有限而造成的数据不平衡问题。主动学习可以从大量的无标记数据中选取样本进行标记,使小数据中的信息尽可能代表大的无标记数据,实现小数据下的大数据分析和处理。迁移学习可以在给定的源域和学习任务中获取知识,结合目标域小数据调整预训练模型的参数,提高模型对小数据的预测精度。

本综述旨在为材料机器学习中的小数据问题提供解决方案。该文近期发表于npj Computational Materials 9,42(2023)英文标题与摘要如下,点击左下角“阅读原文”可以自由获取论文PDF。


Small Data Machine Learning in Materials Science 


Pengcheng Xu, Xiaobo Ji, Minjie Li & Wencong Lu 


This review discussed the dilemma of small data faced by materials machine learning. First, we analyzed the limitations brought by small data. Then, the workflow of materials machine learning has been introduced. Next, the methods of dealing with small data were introduced, including data extraction from publications, materials database construction, high-throughput computations and experiments from the data source level; modeling algorithms for small data and imbalanced learning from the algorithm level; active learning and transfer learning from the machine learning strategy level. Finally, the future directions for small data machine learning in materials science were proposed. 


扩展阅读

 
Npj Comput. Mater.: 金属3D打印质量参差不齐?为你揭开这些关键之谜!
Npj Comput. Mater.: 未知磁结构材料的拓扑性表征—不准,但有点意义
Npj Comput. Mater.: 元素方式表征—加快多组元高熵合金体系的探索
Npj Comput. Mater.: 中大、清华、加大尔湾分校合作发现新型二维磁性材料
本文系网易新闻·网易号“各有态度”特色内容
媒体转载联系授权请看下方

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
几十万美元的退休生活Npj Comput. Mater.: 狸猫换太子—实现高居里温度Npj Comput. Mater.: 纵然藏她千百度,暮回首,AI把她全揭露!Npj Comput. Mater.: 自旋极化—非易失电调控《Python机器学习》畅销书作者又出新书了,全方位扩展你的机器学习知识Npj Comput. Mater.: “中心-环境”深度迁移学习—快速预测钙钛矿氧化物maxsun GeForce GTX 1660 Super Terminator Computer Video GraphicsNpj Comput. Mater.: 轨道耦合—调控谷能带和激子劈裂Npj Comput. Mater.: 基于二维范德华异质结能带调控的平面铁电隧道结Npj Comput. Mater.: 金属3D打印质量参差不齐?为你揭开这些关键之谜!今日立秋:落叶知秋,落难知友Npj Comput. Mater.: 中大、清华、加大尔湾分校合作发现新型二维磁性材料Npj Comput. Mater.: 高兴发团队很不高兴—与电子推推拉拉,成何体统?Npj Comput. Mater.: 表面合金化学吸附—d带中心模型能否适用?会议预告 | 首届机器学习与统计会议暨中国现场统计研究会机器学习分会成立大会从“有钱人不愿意坐飞机的秘密”谈风险控制Npj Comput. Mater.: “鱼与熊掌”可以兼得—兼具高精度、高速度的分子动力学!Npj Comput. Mater.: 一维范德华异质结很迷人,但曲率如何改变电子性质太劳神!Npj Comput. Mater.: 阴离子基团旋转—对锂离子扩散的弱负效应Npj Comput. Mater.: 拌水泥的高科技—机器学习为混凝土配方而设计Npj Comput. Mater.: 反铁磁遇到铁电—也有心灵感应5054 血壮山河之武汉会战 鏖战幕府山 23Npj Comput. Mater.: 原子间固有的游戏规则—设计人工智能材料Npj Comput. Mater.: 知识的力量—数据与知识的正面较量基于AI和NPU的Codec变革——VPU与NPU的协同创新Npj Comput. Mater.: 高热电性能—全赫斯勒化合物呦呦鹿鸣不怯场Npj Comput. Mater.: 新合金设计—样本数据迁移机器学习方Npj Comput. Mater.: DFT中的电子密度—等变图神经网络Npj Comput. Mater.: 材料信息学门槛高,AlphaMat带你找门道!Npj Comput. Mater.: 超快激光的妙手真可“点石(墨)成金(刚石)”Npj Comput. Mater.: 搭乘“特快列车”的异相催化原子模拟伏尼契手稿的秘密{【原创】 ----- 装神弄鬼服你气Npj Comput. Mater.: 未知磁结构材料的拓扑性表征—不准,但有点意义Npj Comput. Mater.: 二维过渡金属单卤化物—超导和拓扑态
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。