Redian新闻
>
ChatGPT 通过了顶尖大学的考试,比反 AI 更该做的是改考题

ChatGPT 通过了顶尖大学的考试,比反 AI 更该做的是改考题

科技
新警告
老问题
当法学院学生在尝新玩 ChatGPT 时,应该没想过它转身就成了跟自己一起参加同一场考试的「同学」。
在刚过去的 1 月,明尼苏达大学法学院的 Jon Choi 教授和宾夕法尼亚大学沃顿商学院的 Christian Terwiesch 教授分别让 ChatGPT「做」了次自己课程的期末试题。
结果 ChatGPT 还真都通过了!
这意味着让 ChatGPT 再进化一会儿,以后我们就不需要人类律师和管理者了吗?
还是,这是一声敲响的警钟,提醒教育者们不要再把学生教得像 AI 一样了?
及格的背后:老师「放水」,全班垫底
在考过的两个专业里,ChatGPT 在法学院考的成绩比在商学院的差些,前者平均得分 C+,后者则能达到 B- 到 B 的成绩。
具体来说,ChatGPT 在沃顿完成的是 MBA(工商管理学硕士)「运营管理」科目的试题,每道题都需写出「推演过程」。
测试时,Terwiesch 教授把考试的原题输入到 ChatGPT 中,并对 ChatGPT 生成的回答进行打分。
总的来说,ChatGPT 在回答基础分析题时表现都很不错;数学则不太行,可能会算错一个小学难度的计算;而相对复杂的分析题,ChatGPT 就基本没辙。
例如,第一题考的就是对「管理瓶颈」概念的理解,并简单比较「生产过程」中哪个步骤效率最低,找出「瓶颈」。
这题回答教授直接打了 A+。
然而,当考题里的「生产过程」变得更复杂,需要处理的原料不只一种,涉及的设备有差异也有重叠时,ChatGPT 就算不出「管理瓶颈」了。
对于这题,ChatGPT 的推演过程虽然是错的,但却「完美绕过」错误推论,撞中了答案。
在算「接收站(receiving station)」效率时,ChatGPT 得出的结果是「300 桶/小时」。
这个数虽然是错的,但以这个数字来说,它的确也是分析过程中算出来效率最低的一环。
谁想到,ChatGPT 却「自己都不信自己」。
它没把这一环选为「瓶颈」,而是选了算出来效率为「600 桶/小时」的「干燥机(dryer)」环节为「瓶颈」 —— 选了个正确答案。
不过,虽然 Terwiesch 教授最后给 ChatGPT 的分数有 B 级,但他也有点「放水」了。
当 ChatGPT 回答出现错误时,Terwiesch 会向ChatGPT 提供针对性的提醒,然后再让它输出一次回答,并以这个「优化」结果来评分。
至于法学院的考试,ChatGPT 做了宪法、员工福利法、税法和侵权法这四个课程的期末试题。
主导这次测试的 Jon Choi 教授表示,在「盲改」的情况下,ChatGPT 这四科都及格了,但成绩基本都是全班垫底。
虽然 ChatGPT 的简答题比选择题做得更好,但简答题的回答质量却极为不稳定 —— 有时候答得可能比一般学生好(大多是法律条文默写和案例复述),然而一错起来(通常是要求学生用具体理论分析案例的题),分数通常都「错出新低」:
在面对法学院考试的最基本问题时,ChatGPT 都表现糟糕,例如识别潜在法律问题和在案例中深度分析和应用法律条文。
ChatGPT 那「不求理解,只会背书」的答题风格也能低分飘过专业考试,多少显示考题还是太依赖「死记硬背」了,ChatGPT 的表现显然也没法替代律师和管理者。
然而,如果人类学生也大概这种水平,同样通过了考试,甚至毕业后去执业了,那是不是更有问题?
被批评多年的考试,ChatGPT 能逼出改变吗?
在 ChatGPT 惊艳登场前,卡内基梅隆大学教授 Danny Oppenheimer 就已提出质疑:在 Google 搜索时代,为什么大学考试还只侧重考学生对事实的重述?
Oppenheimer 指出,虽然有的教育者会反驳说,他们在课堂上讲解事实类信息时,也会分析这些信息的意义、论证和应用,但一到考卷上,立即就变回「背书就行」:
很多课程都是基于一个前提来构建的,那就是学生会通过观察老师以身作则式地去对事实进行分析、拓展和应用,学生自自然然就能发展出这一套技能 —— 这是一个非常值得怀疑的假设。
因此,Oppenheimer 建议课程从设置上就要直接反映出教育者希望学生最终学到的技能,结合新技术也很必要,如「在电脑辅助下做文学赏析」「如何和与你意见不合的人文明地沟通」。
考试可以结合事实性信息,但应侧重于学生的分析和应用能力。
另外,让学生去「预演」未来会遇到的场景也是练习技巧的直接方式,譬如让研究气候改变的学生来为大众策展一场气候相关展览。
现在来到 ChatGPT 时代,这个改变自然是显得更迫切,因为它的效率比搜索引擎更高,同时也更具迷惑性。
ChatGPT 除了给学生省下翻看一页页搜索结果的时间外,还以够用的语言结构能力生成流畅的文段,即便事实准确度非常可疑。
有趣的是,ChatGPT 也像一面镜子。
一方面,它让人想起应试教育中的作文和简答题总像是无休止的「模仿」,在标准范式下填充,就跟 ChatGPT 一样。
另一方面,靠「吃」大数据和由人类真实反馈「调教/校」成长而来,ChatGPT「一本正经瞎扯」的内容也特别像我们生活里会遇到的日常。
以至于沃顿商学院的 Terwiesch 教授都超惊喜,觉得 ChatGPT 能给未来的管理者们带来极佳的学习素材 ——
商业世界里本来就充满了一本正经的一派胡言,就跟 ChatGPT 说的话一样,商学院学生正好能用它来做鉴别练习!
你我都知,需要学下这个技能的远不止商学院学生。
然而,美国高等教育界从搜索引擎流行就开始有改革的讨论,但到了今天仍然进步有限,ChatGPT 的诞生能逼它跑得快些吗?我们也只能继续观察。
人类的,类人的
每当人类尝试「再造」一些东西的时候,总会暴露出我们对事物的认知限制,同时也帮助我们去了解自我。
尝试在太空中「再造」食物时,研究人员发现食物真不能只被降至「营养够」。
要保持太空人们身心健康,色香味口感声音无一不影响感知,环境要讲究,一起吃饭的人也非常重要。
当我们拥有一个能「像人一样」流畅说话的 ChatGPT 时,人们也开始发现人类语言不只关于「文字」。
一个只由语言素材训练的系统永远都不会接近人类智能,即便它从现在就开始训练,训练到宇宙毁灭都不行。
研究 AI 哲学的 Jacob Browning 和图灵奖得主 Yann Le Cun 在联合撰写的文章中指出。
他们认为,文字作为一种高度浓缩的抽象符号,人类能理解的基础在于我们拥有丰富的非语言共识和个人体验。这也意味着文字总可能会带来误读和歧义。
语言是我们沟通的工具,但教育者对学生的理解和评估,不应只限于卷子上。
和先进的大型语言模型打交道,显现出我们单从语言中能得到的东西是多么有限。


告别航空传奇波音 747,「空中女王」正式谢幕



《流浪地球 2》最大的突破,不是在科幻上




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
华尔街交易员为何不担心ChatGPT抢饭碗?ChatGPT:我预测不了市场ChatGPT通过美国医学执照考试,科技如何重构大健康产业恢复—8—开始走路老公公司的圣诞晚会ChaptGPT 8分钟通过法学院考试,AI 代替神童的时代来了?ChatGPT 或导致 20 种工作失业?恐怕远远不止,比尔盖茨 :ChatGPT 将改变世界ChatGPT讲座:ChatGPT并不神秘,但ChatGPT很神奇【科技】医生要失业了?ChatGPT几乎通过了医师执照考试!通过了美国医师考试的ChatGPT,会抢医生的饭碗吗?为什么ChatGPT这么强?—— 一文读懂ChatGPT原理!超过了ChatGPT?GPT-4是什么?FastTrack Universität 2023莱比锡大学公立语言项目招生简章2年内孩子上小学的必看!拼音、作文都是纸老虎,家长最该做的是这件事18万美元offer!ChatGPT通过谷歌L面试,人类码农危?金子总会发光苹果或暂停自研Wi-Fi芯片,阿里否认在新加坡建全球总部,英特尔业绩爆雷,ChatGPT通过研究生考试,这就是今天的其它大新闻!18万美元offer!ChatGPT通过谷歌L3入职测试,人类码农危?ChatGPT杀疯了!轻松通过谷歌L3入职测试,谷歌创始人亲自下场改代码!码农入坑 CS还有必要吗?白手起家与“白纸革命”ChatGPT通过谷歌程序员面试,薪资达18.3万美元!ChatGPT通过谷歌程序员面试,薪资达18.3万美元!chatgpt 说顾城剽窃忐忑!22年没通过CFA考试的考生今年能通过吗?89%美国大学生竟用ChatGPT写作业?实测轻松通过斯坦福和宾大沃顿期末考试!多所中国高中上榜!英国顶尖大学最偏爱学校曝光,排第一的是...​Chatgpt 4 要release 了重磅!微软发布 ChatGPT 版搜索引擎,用上了比 ChatGPT 更强大的技术李汗青 151-抵达淮安chatGPT. 一本正经胡说八道ChatGPT到底有多聪明?我测试了ChatGPT的数学能力PK chatgpt 的诗评德国大学的考试季,真的令人头秃...百度版ChatGPT确定为“文心一言”/ 戴尔裁员5%/ 苹果要开会应对ChatGPT…今日更多新鲜事在此ChatGPT大战司法考试,无需微调一类试题达到人类水平!医学化学公务员试题都能答剽窃、作弊,ChatGPT竟偷偷生成了12篇署名论文!Marcus炮轰Ta变成CheatGPT厉害了我的 ChatGPT, 弱集成ChatGPT后必应日活量首破亿!微软推出Azure OpenAI ChatGPT 服务,GPT-4下周发布ChatGPT带火AI芯片,赚翻了的英伟达发布新核弹:ChatGPT专用GPU,让推理提速10倍!ChatGPT能看病、写论文、通过医学考试,人工智能取代医生还有多远?ChatGPT通过了美国执医,通不过中国执医。ChatGPT参加美执业医师考试,结果……
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。