聚合价值采样方法:以低成本获得高质量标签样本集合 | NSR
海归学者发起的公益学术平台
分享信息,整合资源
交流学术,偶尔风月
要训练数据驱动模型,用于工业制造等领域,往往需要大量标签化的数据样本。在现实场景中,如何以最小的采样和标注成本,来获得最优质的标签样本集合,达到好的训练效果?
在近日发表于《国家科学评论》(National Science Review, NSR)的文章中,南京航空航天大学李迎光教授课题组揭示了高价值样本个体的邻域信息冗余现象,进而提出聚合价值概念以准确评估样本集合的总体价值,将数据集合采样问题转化为聚合价值最大化问题。在此基础上,研究者利用次模函数优化方法进行求解,从而采样出高价值样本集合。
研究者还利用聚合价值的鲁棒性,扩展了传统价值函数的定义方式,并考虑实际工程场景,研究了相似任务价值函数重用(下图B)、低保真仿真数据价值函数近似(下图C)以及基于先验知识的价值函数定义(下图D)。
研究者以复合材料固化、铣削刀具磨损等多个复杂制造系统建模问题为例,验证了上述方法。实验表明,在给定模型预测精度要求的情况下,该采样方法能够显著降低模型训练所需的标签样本量,从而大大降低数据驱动建模的实际标注成本。
扩展阅读
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章