AI模型表现下降的原因

公众号新闻

2023-12-07 08:12

点击蓝字关注我们

SUBSCRIBE to US

AI模型在实际运用中可能出现性能下降而达不到最初的标准，这种情况并不罕见。例如，也许你已经注意到你经常使用的生成人工智能服务的响应质量发生了变化。这些说法经常出现在新闻网站和社交媒体上。

但人工智能模型的性能是否会随着时间的推移而恶化？

事实上，人工智能模型的有效性可能会下降，并且容易产生“幻觉”。

用人工智能专家的语言来说，这种现象通常被称为“模型衰退”或“模型漂移”，这两种术语经常互换使用。

发生这种情况的原因多种多样。

“

为什么它很重要

人工智能越来越多地应用于日常生活的各个方面，包括拯救生命的行动和大额投资等。2023年3月，IEEE Spectrum上的一篇文章（https://spectrum.ieee.org/self-driving-cars-2662494269）强调了一个显著的现实风险：自动驾驶汽车中的人工智能模型出现故障，导致了严重的车祸。

定期更新和使用当前数据进行重新培训是维持这些模型在不断变化环境中有效的关键。

“

什么是AI模型漂移

IEEE会员Eleanor “Nell” Watson解释说，人工智能模型的准确性经常会因为现实世界中不断变化的环境而发生变化。

“例如，”Watson说，“考虑一个经过训练以预测消费者购买模式的模型。它是在代表某个时间点的消费者行为的数据集上训练的。部署后，消费者偏好和市场动态可能会因新趋势、经济变化甚至全球事件等各种因素而演变。由于该模型是在旧数据上训练的，它可能无法准确捕捉这些新模式，导致其预测的准确性或相关性降低。这是模型衰减的表现。”

对抗数据漂移非常重要。为了做到这一点，人工智能研究人员倾向于将人工智能漂移进一步分类。如果你想了解更多，请查看这篇IEEEXplore的论文：https://ieeexplore.ieee.org/document/9808752。

Watson说：“解决模型衰退问题包括定期监测、调整和用新数据更新模型，完善模型的架构，甚至在某些情况下从头开始重新训练。”同时还指出：“确保模型与当前数据的状态和动态保持一致，以及对于数据的合理使用，对于维护AI模型的准确性至关重要。”

“

合成数据：一个新出现的挑战

训练人工智能模型需要大量的数据，有时这些数据是稀缺的。为了弥补这一不足，研究人员转向了合成数据。

从本质上讲，合成数据是基于真实数据集生成的人工数据（https://standards.ieee.org/industry-connections/synthetic-data/#:~:text=Synthetic%20data%20is%20artificial%20data,e.g.%2C%20for%20AI%20training).）。它是实际的，同时也能够在统计上代表原来存在的数据。

研究人员明白，尽管合成数据有其存在的用途，但过度的依赖合成数据也可能导致性能下降，IEEE Spectrum发表的两篇研究论文探讨了这一想法：https://spectrum.ieee.org/ai-collapse。

Watson说，过度依赖合成数据“可能会缩小视角并强化偏见，因为模型可能会根据类似系统生成的数据进行训练”。生成人工智能的快速内容生产速度往往加剧了这个问题。

挑战可能更加严峻。人工智能模型的开发者经常通过人们的帮助来标记数据。例如，如果你想开发一个识别图像情感内容的人工智能模型，通常需要人们来对图像进行评分。或者有时，研究人员需要大量的调查数据，这种劳动力极其廉价——时薪不到1美元。这些被称为人类智能任务（https://www.designboom.com/technology/ai-has-generated-150-years-worth-of-photographs-in-less-than-12-months-study-shows-08-21-2023/）。

“一些人为生成的数据可能是不真实的，”Watson说，“外包给人工智能任务工作者的任务使用人工智能越来越自动化，导致潜在的偏见和不准确。公司所需要的自然、高质量的数据，可能需要额外的身份验证层来确保人工生成内容的真实性。”