Redian新闻
>
ChatGPT大战司法考试,无需微调一类试题达到人类水平!医学化学公务员试题都能答

ChatGPT大战司法考试,无需微调一类试题达到人类水平!医学化学公务员试题都能答

公众号新闻
杨净 明敏 发自 凹非寺
量子位 | 公众号 QbitAI

ChatGPT的下一个新身份——做题家!

这不,它已经在人类各个考试中开“卷”了。

律师、医生、注会什么的,它都开始纷纷展露身手。

比如,全球考生都头疼的司法考试,现在ChatGPT在两项试题达到了合格率,其中一项还跟人类水平持平。(还是在没有任何微调的基础上)

“成绩”一出,瞬间引发巨大关注,网友:Amazing~

还有人表示,要是让它来参加SAT或AP考试,应该会很有趣。

咳咳,要是公务员考试呢?

咱们结尾见分晓!

两项法考试题合格

具体就先来看看ChatGPT在司法考试中的表现如何。

美国大多数州统一的司法考试(UBE),有三个组成部分:选择题(多州律师考试,MBE)、作文(MEE)、情景表现(MPT)

选择题部分,由来自8个类别的200道题组成,通常占整个律师考试分数的50%。

在这项研究中,研究人员对OpenAI的text-davinci-003模型(通常被称为GPT-3.5)在MBE的表现进行评估。

(ChatGPT正是GPT-3.5面向公众的聊天机器人版本。)

为了测试实际效果,研究人员购买了官方组织提供的标准考试准备材料,包括练习题和模拟考试。每个问题的正文都是自动提取的,其中有四个多选选项,并与答案分开存储,答案仅由每个问题的正确字母答案组成,也没有对正确和错误的答案进行解释。

随后,研究人员分别对GPT-3.5进行了提示工程、超参数优化以及微调的尝试。结果发现,超参数优化和提示工程对GPT-3.5的成绩表现有积极影响,而微调没有任何效果。

在提示工程中,他们共测试了7种提示类型。

  • 1、只做单项选择;

  • 2、单项选择和解释;

  • 3、只做前两个选择;

  • 4、前两个选择和解释;

  • 5、前两个选择和重新提示;

  • 6、对所有选择进行排序;

  • 7、对前三个选择进行排序。

研究人员在上述的提示和参数值中执行了107次样本考试。结果在这些提示中,提示风格#7的前三个选项排序表现最好,他们共收集了41个样本,对这个提示进行参数组合。

超参数优化中,他们评估了包括温度系数、top p、best of、max tokens等参数。

最终在完整的MBE练习考试中达到了50.3%的平均正确率,大大超过了25%的基线猜测率,并且在证据和侵权行为两个类型都达到了平均通过率。尤其是证据类别,与人类水平持平,保持着63%的准确率。


在所有类别中,GPT平均落后于人类应试者约17%。在证据、侵权行为和民事诉讼的情况下,这一差距可以忽略不计或只有个位数。

但总的来说,这一结果都大大超出了研究人员的预期。

因为它对答案排序与正确性有很强的相关性,Top2和Top3的选择分别有71%和88%的正确率。其中“Top2”的准确率全都超过了极限,有五个类别均超过了人类平均水平。而“Top3”的准确度更高,在证据这一表现中甚至达到了98%。

这也证实了它对法律领域的一般理解,而非随机猜测。接下来他们将进一步对法考的其他两部分:作文和情景表现进行上述的研究。

ChatGPT能当考霸吗?

谷歌资深软件工程师肯尼斯·古德曼(Kenneth S. Goodman)就拿ChatGPT做了一系列测试,涉及司法、医学、会计学、化学等多个领域。

分数最高的一门是纽约州高中毕业英语语言艺术考试,ChatGPT正确率达到了91.6%

因为是2022年8月的考试,所以ChatGPT数据库中肯定不包含考试内容。对于陌生的24道考题,它只错了2题。

物理/化学考试中,ChatGPT的表现也不错,正确率达到了77.7%,45道题目中答对了35道。

前不久,谷歌医疗大模型Med-PaLM通过美国医师执照试题(USMLE)验证。

ChatGPT也不甘于落后,同样挑战了USMLE的第一阶段基础医学考试。

去掉有图像的题目后(因无法输入对话框),ChatGPT正确率达70%

其余则是在司法方面,工程师肯尼斯老哥让ChatGPT尝试了一些非正式题目。

比如美国律师职业道德考试(MPRE)的示例题目(共15道),ChatGPT答对了9道,正确率60%

面对50道律师资格考试模拟试题,ChatGPT的正确率也维持在了70%,答对35道。

此外,在佛罗里达农工大学法学院的入学考试中,ChatGPT取得了149分,排名在前40%。其中阅读理解类题目表现最好。

表现最差的,还是数学题

在CPA注会考试中,ChatGPT的正确率只有40%。肯尼斯老哥还在尝试一些调教方法,让它更聪明一些。

总之,ChatGPT在各种考试中的表现,还是让人有些意外。

有网友已经产生危机感了:

damn,我的工作要被抢了!

有人分析,如果直接让AI来插手司法相关的判断,风险真的很大,但如果后期有专人来审核它的输出结果,那么AI将能够很好提升律师的工作效率。

还有人表示,如果能保证任何数据都不泄露的话,那ChatGPT将能够推动更多行业平民化。

或许正如肯尼斯老哥说的那样,人类+电脑的组合已经超越了人类自身能力,这就是计算机当下正在进行的突破。

One More Thing

最后,我们也让ChatGPT试了试国内法考的题目~

先说结果,3道选择题,ChatGPT都没有答对……虽然解释头头是道,但它应该确实没有读过我国的法条。

参考答案D

(这答案罗翔老师看了直摇头)

参考答案A

换成公务员行测试题呢?没想到ChatGPT的答案对了,可是过程和答案似乎完全没关系……

这……怎么感觉AI秒算结果,但随便编了个过程来糊弄人类啊

参考链接:
[1]
https://twitter.com/_akhaliq/status/1609734525461975040
[2]https://github.com/mjbommar/gpt-takes-the-bar-exam
[3]https://arxiv.org/abs/2212.14402
[4]https://twitter.com/pythonprimes/status/1601664776194912256

「人工智能」、「智能汽车」微信社群邀你加入!

欢迎关注人工智能、智能汽车的小伙伴们加入交流群,与AI从业者交流、切磋,不错过最新行业发展&技术进展。

PS. 加好友请务必备注您的姓名-公司-职位噢 ~


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
畅游法国(36)-葡萄酒之路2023公务员晋升年龄表发布:35岁以上的公务员基本没有升迁机会ChatGPT参加美执业医师考试,结果……ChatGPT通过谷歌程序员面试,薪资达18.3万美元!ChatGPT通过谷歌程序员面试,薪资达18.3万美元!百度版ChatGPT确定为“文心一言”/ 戴尔裁员5%/ 苹果要开会应对ChatGPT…今日更多新鲜事在此18万美元offer!ChatGPT通过谷歌L面试,人类码农危?华尔街交易员为何不担心ChatGPT抢饭碗?ChatGPT:我预测不了市场下载量暴增10倍!微软必应集成ChatGPT后需求大爆发;4省份上调最低工资标准;淘宝已屏蔽ChatGPT关键词丨邦早报FastTrack Universität 2023莱比锡大学公立语言项目招生简章ChatGPT 通过了顶尖大学的考试,比反 AI 更该做的是改考题上海市2023年度考试录用公务员考试大纲来了!例题你能答对吗?首个ChatGPT国产平替来了!ChatYuan发布测试版,无需翻墙注册,体验完全免费孟晚舟将首次出任华为轮值董事长/ 百度All in类ChatGPT项目/ 知乎因ChatGPT大涨50%…今日更多新鲜事在此紧急提醒!ChatGPT成神器!但这些“ChatGPT”是假的,小心被骗!陀螺ChatGPT能看病、写论文、通过医学考试,人工智能取代医生还有多远?【庭院种菜】雪菜怎么腌制?亚硝酸盐从哪里来?海底捞禁止自带菜;字节加入大模型之战;周鸿祎:ChatGPT可能两三年内就会威胁到人类;梁万年:本轮疫情已经基本结束丨邦早报ChatGPT 进军 B 端?消息称微软将允许企业创建定制版 ChatGPT豐字源考重磅!微软发布 ChatGPT 版搜索引擎,用上了比 ChatGPT 更强大的技术渔歌子:银杏秋黄叶如云8点1氪:复旦MOSS团队回应内测国内首个类ChatGPT模型;全球第5例艾滋病治愈者出现;10省份放宽公务员年龄限制至40周岁反击!Google 版 ChatGPT 首次亮相,有一个功能「碾压」ChatGPT剽窃、作弊,ChatGPT竟偷偷生成了12篇署名论文!Marcus炮轰Ta变成CheatGPT苹果或暂停自研Wi-Fi芯片,阿里否认在新加坡建全球总部,英特尔业绩爆雷,ChatGPT通过研究生考试,这就是今天的其它大新闻!ChatGPT因访问量激增崩了;抖音否认3月1日上线外卖服务;百度将于3月推出ChatGPT产品丨邦早报ChatGPT大热,但AI对话在这一点上还远逊人类18万美元offer!ChatGPT通过谷歌L3入职测试,人类码农危?ChatGPT讲座:ChatGPT并不神秘,但ChatGPT很神奇ChatGPT到底有多聪明?我测试了ChatGPT的数学能力和ChatGPT大战几个回合,我试图驯服“最强AI”朋友圈全是ChatGPT! ChatGPT概念股大火金融民工会因为ChatGPT下岗吗?刚刚,我问了ChatGPT 24个金融圈灵魂问题为什么ChatGPT这么强?—— 一文读懂ChatGPT原理!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。