AI会带来大量不可重复的研究结果吗？

2022-12-16 03:12

海归学者发起的公益学术平台

分享信息，整合资源

交流学术，偶尔风月

从生物医药到社会科学，科学界越来越依赖人工智能（AI）算法，通过机器学习工具来“干活儿”。通过购买AI工具服务，研究人员可以在几个小时内便获得实验结果预测，非常的高效。然而最近，普林斯顿大学研究人员发现，使用机器学习的这类工具给出的结果很可能不够严谨，导致结论无法复制、再现。

“很少有科学家意识到，他们在应用人工智能算法时遇到的问题其实是普遍性的。目前，学术界也没有禁止不可复制论文的机制。”对此，普林斯顿大学机器学习研究员萨亚什·卡普尔（Sayash Kapoor）和他的合著者阿尔文·纳拉亚南（Arvind Narayanan）在预印本上发表文章，希望帮助研究人员避开机器学习应用中的陷阱。此举也敲响了科学“再现性危机”的警钟。

图源：pixabay.com

什么是再现性？卡普尔他们对“计算再现性”的定义很宽泛：其他团队应该能够复制模型的结果的全部细节，包括数据、代码和条件等。如果研究人员在数据分析中出错，那么这个模型将被定义为不可复制的，这意味着该模型并不具有预测性。

有些研究人员认为卡普尔的说法太过绝对，对错误的判断太过主观。他们并不认为自己的研究结果存在缺陷。然而，卡普尔的观点仍然引起了学界共鸣。7月28日，超过1200人报名在线参加了卡普尔等人发起的“再现性”研讨会，希望能找出这一问题的解决方案。

数据科学家莫明·马利克（Momin Malik）支持卡普尔的观点。他提出，当算法应用于健康和司法等领域时，对机器学习的依赖会对研究结果造成实质伤害。他质疑机器学习的合法性，认为除非解决再现性危机，否则机器学习的声誉将会受到打击。

卡普尔和纳拉亚南认为，机器学习在很多学科应用中存在缺陷。他们分析了17个研究领域的20篇综述，统计了329篇研究论文。这些论文的结果由于机器学习的缺陷而无法完全复制。即便是纳拉亚南本人也不能幸免。2015年他参与撰写的一篇关于计算机安全的论文就是其中之一。他们认为，这些问题的出现不是研究人员的错。围绕人工智能的炒作和监管漏洞才是罪魁祸首。

研究团队强调，最突出问题是“数据污染”，比如“时间污染”——很多AI都被训练用于预测某些尚未发生的事，用来训练AI的数据是之前积累的历史数据，如用1-6月份的数据来预测7月会发生什么，但是如果“不小心”混入了6月30日之后的数据，那么这个所谓预测的结果还有意义吗？2011年的一篇模型论文声称可以通过分析Twitter用户的情绪来预测股市收盘价，准确率为87.6%。但是在他们用于训练的数据中出现了训练集之后的数据，等于让AI看到了“未来”。

还有数据范围狭窄问题。比如通过人工智能算法在X光片中查找肺炎。这种算法只针对老年人群体数据进行训练，放在年轻群体中也许就不适用了。还有通过算法在草地背景中识别奶牛的技术，放在其他背景中就无法成功识别。人们过于信任机器学习，这种问题也许是一种心理问题。这导致所谓的“预测”也许只是回顾性的检验，而与未来无关。