AI会带来大量不可重复的研究结果吗?
海归学者发起的公益学术平台
分享信息,整合资源
交流学术,偶尔风月
从生物医药到社会科学,科学界越来越依赖人工智能(AI)算法,通过机器学习工具来“干活儿”。通过购买AI工具服务,研究人员可以在几个小时内便获得实验结果预测,非常的高效。然而最近,普林斯顿大学研究人员发现,使用机器学习的这类工具给出的结果很可能不够严谨,导致结论无法复制、再现。
“很少有科学家意识到,他们在应用人工智能算法时遇到的问题其实是普遍性的。目前,学术界也没有禁止不可复制论文的机制。”对此,普林斯顿大学机器学习研究员萨亚什·卡普尔(Sayash Kapoor)和他的合著者阿尔文·纳拉亚南(Arvind Narayanan)在预印本上发表文章,希望帮助研究人员避开机器学习应用中的陷阱。此举也敲响了科学“再现性危机”的警钟。
图源:pixabay.com
什么是再现性?卡普尔他们对“计算再现性”的定义很宽泛:其他团队应该能够复制模型的结果的全部细节,包括数据、代码和条件等。如果研究人员在数据分析中出错,那么这个模型将被定义为不可复制的,这意味着该模型并不具有预测性。
有些研究人员认为卡普尔的说法太过绝对,对错误的判断太过主观。他们并不认为自己的研究结果存在缺陷。然而,卡普尔的观点仍然引起了学界共鸣。7月28日,超过1200人报名在线参加了卡普尔等人发起的“再现性”研讨会,希望能找出这一问题的解决方案。
数据科学家莫明·马利克(Momin Malik)支持卡普尔的观点。他提出,当算法应用于健康和司法等领域时,对机器学习的依赖会对研究结果造成实质伤害。他质疑机器学习的合法性,认为除非解决再现性危机,否则机器学习的声誉将会受到打击。
卡普尔和纳拉亚南认为,机器学习在很多学科应用中存在缺陷。他们分析了17个研究领域的20篇综述,统计了329篇研究论文。这些论文的结果由于机器学习的缺陷而无法完全复制。即便是纳拉亚南本人也不能幸免。2015年他参与撰写的一篇关于计算机安全的论文就是其中之一。他们认为,这些问题的出现不是研究人员的错。围绕人工智能的炒作和监管漏洞才是罪魁祸首。
研究团队强调,最突出问题是“数据污染”,比如“时间污染”——很多AI都被训练用于预测某些尚未发生的事,用来训练AI的数据是之前积累的历史数据,如用1-6月份的数据来预测7月会发生什么,但是如果“不小心”混入了6月30日之后的数据,那么这个所谓预测的结果还有意义吗?2011年的一篇模型论文声称可以通过分析Twitter用户的情绪来预测股市收盘价,准确率为87.6%。但是在他们用于训练的数据中出现了训练集之后的数据,等于让AI看到了“未来”。
还有数据范围狭窄问题。比如通过人工智能算法在X光片中查找肺炎。这种算法只针对老年人群体数据进行训练,放在年轻群体中也许就不适用了。还有通过算法在草地背景中识别奶牛的技术,放在其他背景中就无法成功识别。人们过于信任机器学习,这种问题也许是一种心理问题。这导致所谓的“预测”也许只是回顾性的检验,而与未来无关。
人体肺部肿瘤的CT扫描。研究人员正在试验人工智能算法,以发现疾病的早期迹象。
图源:K. H. Fung/SPL
研究团队提出,解决问题的方法是在研究中引入“证据”,证明模型不存着数据污染问题。还有一些研究领域尝试通过制定报告指南来进行监管。另外,行业领域内学科专家与机器学习的研究人员加强相互合作也对解决数据污染问题有积极作用。
机器学习在科研领域内发挥作用的时间并不长,如何用好、管好这项新技术是科学界迫切需要思考并解决的问题。卡普尔认为,必须避免历史上心理学复制危机之后的那种信心危机。毕竟拖得越久,问题就越大。
点击下方知社人才广场,查看最新学术招聘
扩展阅读
微信扫码关注该文公众号作者