Nature最新封面:AI 训练 AI?也许越来越笨
来源:学术头条
作者:学术头条
前言
当前,在愈发火热的大模型行业,Scaling Law 被证明依然奏效。
问题是,一旦由人类生成的高质量数据(如书籍、文章、照片、视频等)用尽,大模型训练又该如何进行?
目前,一个被寄予厚望的方法是“用大模型自己生成的数据来训练自己”。事实上,如果后代模型的训练数据也从网络中获取,就会不可避免地使用前代模型生成的数据。
然而,来自牛津大学和剑桥大学的研究团队及其合作者,却给这一设想“泼了一盆冷水”。
他们给出了这样一个结论:模型在训练中使用自身生成的内容,会出现不可逆转的缺陷,逐渐忘记真实数据分布,从而导致模型性能下降。
即“模型崩溃”(Model Collapse)。
相关研究论文以“AI models collapse when trained on recursively generated data”为题,已发表在权威科学期刊 Nature 上。
但他们也表示,用一个旧模型生成的数据去训练一个新模型,并非不可行,但必须对数据进行严格的过滤。
在一篇同期发表的新闻与观点文章中,来自杜克大学的 Emily Wenger 认为,“论文作者没有考虑模型在由其他模型生成的数据上训练时会发生什么,他们专注于模型在自身输出上训练的结果。一个模型在训练其他模型的输出时是否会崩溃还有待观察。因此,下一个挑战将是要搞清楚模型崩溃发生的机制。”
什么是模型崩溃?
图 | 受模型崩溃影响的 OPT-125m 模型的文本输出示例-模型在几代之间退化。
为何会发生?
由于样本数量有限,模型无法完全捕捉到真实数据分布的所有细节。随着时间的推移,低概率事件(即分布的尾部)会逐渐消失,因为它们被采样的概率很低。 随着模型训练代数的增加,这种误差会不断累积,导致模型最终收敛到一个与原始分布完全不同的分布,其尾部几乎为零,方差也大大减小。
神经网络等函数近似器的表达能力是有限的,无法完美地逼近任何分布。 这种误差会导致模型在逼近真实分布时产生偏差,例如,将高密度区域分配到低密度区域,或者将低密度区域分配到高密度区域。 随着模型训练代数的增加,这种误差会不断累积,导致模型最终收敛到一个与原始分布完全不同的分布,其尾部几乎为零,方差也大大减小。
学习过程的局限性,例如随机梯度下降的结构偏差或目标函数的选择,也会导致模型产生误差。 这种误差会导致模型在逼近真实分布时产生偏差,例如,过拟合密度模型导致模型错误地外推数据,并将高密度区域分配到训练集支持范围之外的低密度区域。 随着模型训练代数的增加,这种误差会不断累积,导致模型最终收敛到一个与原始分布完全不同的分布,其尾部几乎为零,方差也大大减小。
可以避免吗?
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章