Redian新闻
>
GPT-4得不到MIT学位,MIT研究团队回应“作弊”指责,但网友不买账!

GPT-4得不到MIT学位,MIT研究团队回应“作弊”指责,但网友不买账!

公众号新闻
转载:机器之心

【写在开头】
最近微信推荐机制调整了,可能有些朋友会收不到我们的推送,大家别忘了给视角学社加上星标,以免错过更多精彩!

预防失联,请关注视角备用号:

       
正文

避重就轻的解释,还是没能获得大家的认可。

几天前,一篇名为《Exploring the MIT Mathematics and EECS Curriculum Using Large Language Models》的论文经历了一场舆论风波。

论文地址:https://arxiv.org/pdf/2306.08997.pdf

最初,研究团队从 MIT 的数学、电气工程和计算机科学 (EECS) 专业的课程问题、期中考试和期末考试中,整理出了一个包含 4550 个问题和解决方案的综合数据集,并让各种大语言模型去完成这个数据集的题目,得出了「GPT-4 几乎满分通过 MIT EECS 和数学本科考试」的结论。

这一结果很快被人指出不够严谨,还给出了多项证据和详尽的分析,表示数据集本身就有问题,用 GPT-4 自动打分的评价机制也很有问题:


「我们的批评主要是针对这项研究的方法和严谨性,而不是针对其内容。我们对大型语言模型实际解决麻省理工学院课程的能力没有任何意见,只是认为本文未能以科学严谨的方式证明这一点。」

面对扑面而来的质疑,研究团队在接下来的一周里却没有进行任何公开回应,没有承认,也没有道歉。

但在昨天,人们等到了来自几位教授(也是论文作者)署名的官方通报:

6 月 24 日,Armando Solar-Lezama(MIT EECS 教授和 CSAIL 首席运营官 / 副主任)、Tonio Buonassisi(MIT 机械工程教授)和 Yoon Kim(MIT EECS 和 CSAIL 助理教授)就该论文情况发表了公开声明。


声明内容如下:

6 月 15 日,Iddo Drori 在 arXiv 上发布了一篇与麻省理工学院几十门课程的考试和作业数据集相关的研究论文,他这样做没有得到其他合著者的同意,尽管已经被告知在发表前应该纠正的问题。我们中的一个人在周末旅行后,于 6 月 18 日星期天才知道这个帖子。

在处理这件事的过程中,我们发现,与 Drori 向我们和为该项目收集数据的学生所传达的信息相反,Drori 并没有得到所有导师的许可来收集构成论文主题的数据集的作业和考试题。其中一些涉及课程的导师,在论文出现在社交媒体上和 Drori 未经许可在网上发布数据样本时,才知道这个数据集的存在且其中包含了自己的课程材料。

这些都是正在通过机构渠道解决的严重问题,所以我们不愿意公开发表这样的声明,但我们觉得有必要解释为什么这篇论文不应该被发表而必须被撤回。我们已经要求 Drori 从 arXiv 撤回这篇论文,并且直接联系了 arXiv 解释了这个情况。

我们想强调的是,这篇论文中的所有学生作者都非常努力地工作,如果数据是在同意的情况下收集的,这本来是一篇非常有趣和宝贵的论文。已经发表的工作中出现的问题并不是学生的错。

而且,GPT-4 不能获得麻省理工学院的学位。
这样一份调查声明,真的足够了吗?回想一周前三位质疑者提交的分析,数据集被污染、手动检查的结果与论文所说的「几乎满分通过」相差甚远,这至少意味着论文内容应该被重新审查。

显然,并不是所有人都对调查结果满意,有人表示这是避重就轻的说法,只是关注他们不应该使用这些数据的事实,而不提捏造结果的错误。

「所以这三位麻省理工学院的教授认为,未经同意使用数据是论文的唯一问题。」


针对「这本来是一篇非常有趣和宝贵的论文」的说法,更多人点了反对:「让 GPT-4 给自己生成的答案打分,这就是有趣和宝贵吗?」


另外,有人发现 Iddo Drori 的个人主页已经更新,删掉了「MIT 客座教授」的 title。而且根据领英主页的信息,他将在这个月结束自己的 MIT 访问之旅。


「一些教授决定让一位客座讲师成为替罪羊,并试图将每个人的注意力从方法论转移到数据隐私问题上,却没有批评这篇论文。这是多么典型的学术政治问题。」


正如三位质疑者在博客中所写的那样:「这篇论文道出了最近人工智能领域研究的一个更大趋势。随着该领域的进展越来越快,新发现的时间节奏似乎在缩短,这往往伴随着捷径。一个特别令人担忧的趋势是使用像 GPT-4 这样基于语言的模型来评估一个模型的准确性的技术。」

对于此事,你怎么看?

更多精彩:

相关阅读:

这届00后有点苦:疫情三年+就业寒冬的双重夹击

00后上网课现状:我妈比我还积极

从“千禧一代”到“疫情一代”,这是一届艰难的毕业生



转载:机器之心。本文版权归属作者/原载媒体。


喜欢本文?欢迎点赞/转发/关注/加入留学家长公益交流社群:

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
48小时Game Jam怎么比赛的?同行认为“都在作弊”,参赛者不服美国小学老师开学第1天醉醺醺,边上课边喝酒,但网友居然都站她?冯婕研究团队合作揭示我国肺炎链球菌多耐药克隆的形成和演化规律GPT-4突然降智,爆料OpenAI重新设计构架,用MOE降本增效,官方辟谣网友却不买账中国AI大模型地图发布;GPT研究烧掉30亿美金;美团正自研基础模型丨AIGC大事日报ChatGPT 研究团队告诉你,人到底能做什么是机器替代不了的美国院士称初步复现室温超导成果,南大闻海虎团队回应:论文有三点破绽,镥-氢-氮中近常压室温超导的证据还远远不足石黒 一雄Sir Kazuo Ishiguro OBE FRSA FRSL, Nobel, Japanese-British n今天张雪峰回应“不考新闻”,昨天汪峰回应“贬低刀郎”:读懂其中的套路和尊严经历生后方秀惟的格少了年轻时的冲劲但多了一个份从容内心平静就犹如一滩泉水太像了!中国美妆博主仿妆科比爆红外网,但网友却吵翻了:这是歧视?!J Virol | 陈新文、裴荣娟研究团队在宿主调控乙型肝炎病毒复制的分子机制方面取得新进展冲上热搜!曝国泰空姐歧视普通话乘客,嘲讽2小时引热议!航司紧急致歉,网友却不买账,还翻出“黑历史”!澳航也曾被投诉...“恶意剪辑”?股民不买账!李玟录音令这家公司市值蒸发百亿→4岁女孩被撞,肇事司机竟是一只狗,但网友却说:这不怪它!茅台集团微生物研究团队顶刊发表“菌群识别技术”重要成果直播复现室温超导,万人围观人气爆棚!韩国团队回应:数据存在问题,但并非造假70岁赵雅芝,“年龄作弊”广东省科学院微生物研究所叶伟研究团队Bioresource Technol | 深海真菌埃德菌胶霉毒素生物合成转录调控机制解析第一个超越ChatGPT的开源模型来了?网友并不买账官宣!澳洲四大行:限制转账!限额$1万,超出封号!华人网友不忿:自己的钱别人说了算知名券商裁撤整个卖方研究团队?公司回应深圳湾实验室与清华大学等研究团队合作设计新型T细胞疫苗策略对抗新冠病毒变异株百岁基辛格:美国自诩正义,但其他国家并不买账第 三 章“如果微信显示已读的话”冲上热搜!微信团队回应zt事不三思恐怕忙中有错气能一忍方知过后无忧道理服人那怕英雄是虎律条不犯甚么官法如炉河南省农业科学院动物免疫学研究团队发现猪流行性腹泻病毒的新宿主因子下雨天把狗狗抱在怀里却被指责,但其中缘由只有养狗的人才懂…疯了吧!中国留学生被举报“大规模作弊”,理由竟是用微信群??阿扁闹“死谏”?台网友不买账BB鸭 | 爱奇艺回应“偷跑流量”;特斯拉首辆电动皮卡下线;中国电信暂停办理eSIM;阅文回应“245章小说被更新1369章”Cell Rep | 中科院微生物所研究团队合作揭示高尔基体定位蛋白GPR108抑制抗病毒固有免疫反应新机制“作弊”过头!澳女行李超重,穿6公斤衣物登机仍遭罚款!现实版人在囧途第 四 章
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。