Redian新闻
>
让ChatGPT做了2022年的高考卷,最终的分数出乎我们的意料

让ChatGPT做了2022年的高考卷,最终的分数出乎我们的意料

公众号新闻

将整个人工智能看成一个很大的皇冠,

自然语言处理就是皇冠最顶端的那个亮点。


宗成庆 · 中国科学院自动化研究所研究员

格致论道第94期 | 2023年5月5日 杭州




大家好,我是宗成庆,来自中国科学院自动化研究所。今天我跟大家来聊一聊大语言模型


什么是自然语言处理


在讲这个问题之前,我们先思考一下,什么是语言?语言是人们交流思想、表达情感最直接、最方便、最容易的一种方式。人从生下来第一声啼哭开始,就希望通过语音和别人进行交流,表达自己的祝愿,语音本身就是语言的一种属性。


当人们学会了说话、写字,学会了使用各种各样的通信工具以后,就可以随时随地和别人交流。我们希望可以在任何一个地方、任何一个国家,使用任何一种语言获得信息,表达自己的思想。



在这种情况下,人们希望计算机能帮助我们破除一些语言的障碍。因为每个人所掌握的语言是有限的,全世界正在使用的语言有4000多种,不可能什么语言都懂。很多事情我们做起来非常麻烦,计算机能不能帮助我们呢


另外,当你打开网络,上面有很多很多信息,根本看不过来。大量的信息到底哪些是最重要的?之前我们随便打开一个网页,向计算机提出一个问题时,几乎所有计算机系统没办法直接给出答案,很多时候要靠自己去思考、分析一篇篇文章,最后得到结论。



网络上还有很多图片,很多Flash广告。这些广告对大多数人是没用的,像我根本不在乎。还有文本、视频,视频有兴趣我可能会点开看,也可以不看。这么多内容,怎么能够让计算机来帮助我们提高工作效率?



另外,除了我们熟悉的语言外,还可能有其他各种各样的语言的信息。在信息爆炸的时代,怎么利用这些信息?非常非常麻烦,不管是写作也好,还是获取信息也好,我们需要计算机技术的帮助。


这项技术就叫自然语言处理技术。通过计算机自动地帮助我们理解、分析、挖掘语言文本,甚至帮助我们写作、获取信息,实现推理、说话、听声音、做翻译……各种各样和语言文本信息处理相关的计算技术,就是自然语言处理技术。



这些技术不仅涉及语言本身的问题,还涉及到人的情感,涉及历史文化知识,所以对语言的分析是非常非常困难的。因此,我们常把自然语言处理称为是“人工智能皇冠上的明珠”


整个人工智能可以看成一个很大的皇冠,它研究各方面的技术,其中自然语言处理是最顶端的那个亮点。它要理解人的语言,必须理解人的需求、人的目的、人的感受、人的意图,这是非常非常困难的。


其实,这样一项技术对在座各位来讲可能不是太陌生,或多或少已经接触过了,比如说语音助手。语音本就是对人声音的一种处理,也算是对语言技术的一种应用。包括机器翻译,当你看到一篇外语的文章时,希望计算机帮助我们翻译一下,这本身也是自然语言处理技术的一个具体应用。


刚才说过,人的需求是非常多的,除了翻译和语音助手外,还想要做各种各样的事情,包括写作,包括更复杂的一些问答等等。


聪明又愚蠢的ChatGPT

已完成:20% //////////


最近一段时间,可能有一项技术让大家看到了摘取皇冠明珠的希望,或者说至少是向这个目标迈进了一大步,这项技术就是ChatGPT。它具有非常强大的能力,很多人可能已经试过了,下边我跟大家交流一下我曾经尝试的结果。


第一次试验ChatGTP (2022.12.15)


2022年12月15日,北京飘着雪花,我自己在家办公。我就问它“我们聊聊滑雪吧”。


ChatGPT回答说,“它滑不了雪,因为它只是一个语言模型,没办法对外边世界进行感知”。


我又说,“你能写一首关于大雪的诗吗”,它很快写给我一首诗。对我这样一个不懂诗的人,觉得它写得很好。



但我说“有点不押韵”,它表示了歉意,给了我一个看上去还挺不错的回答。下边我就考它能不能做别的事情,能不能把这首诗翻译成英文,它很快翻译成英文。我一看翻译得非常准确,没有问题。



接下来我又问它一个问题“你能不能把这首诗改成散文”,其实我要考它什么呢?考它知不知道散文和诗歌的区别。我以为它会把那首诗拼凑到一起,结果不完全是这样,它增加了一些内容,我觉得写的挺好。


后来我就告诉它我要下班了,结果它马上祝我有一个愉快的下午。当时我感到很吃惊,大家想想ChatGPT的系统是在美国,我在北京,美国和北京的时差至少差12个小时,它知道我在什么地方,所以祝我有一个愉快的下午,证明它非常聪明。



从ChatGPT的写作情况来看,它有很强的能力。它完全能够理解我想表达什么意图,而且写出来的句子非常流畅、规范。感觉很多时候它写的句子比我的学生还好,这让我很吃惊。


 医学问题


除了写作以外,我又问它医学方面的问题。我喜欢运动,前段时间我运动让脚有点问题,我问“前掌有点麻木应该怎么处理”。结果它的回答是这样,“可能有4种原因,一种是运动损伤,一种是跖筋膜炎,再一个是足底筋膜纤维化等等,还可能有一些神经性问题”。


这个回答和我在医院里得到的答案几乎一样,我为这个事跑了好多家医院,大夫跟我说的和ChatGPT差不多,或许他们都是从同样的教科书学来的吧。


法律问题


我又问了一些法律性问题。比如说两个人在饭店里一起吃饭,发生了纠纷,A打了B,应该怎么办?派出所民警来了以后把他们带到派出所去了,该怎么处理?它给我了非常周全的回答。


它说,第一应该对A和B进行询问和取证,然后进行医学鉴定,根据相应法律做处罚。最后有一条让我感到很吃惊,它说应该加强宣传教育。非常全面,可以说滴水不漏,是非常好的一个回答。


算术问题


我还考它一些算术题。不能光写作文,看看算术怎么样。这一次我用英文问它,“当我6岁时,我妹妹是我年龄的一半,现在我已经70岁了,妹妹现在多大”。


它很快给我一个结论,它能算出来我6岁时妹妹3岁,年龄差是3,我现在70了,70减3就是67岁,非常聪明。当然这个题也不太难,但是证明什么呢?它可以做这样一些文字表达的、应用性的算术题,而且做得很好。



复旦大学的邱老师曾经做过一个实验,让ChatGPT做一下2022年的高考题。它能够在126个样本上,在客观题上达到76%的准确率,这是比较高的,相当于文科、理科500分水平的考生。对主观性的题目,它能够在历史、地理、政治这些试卷达到78%的得分率,已经相当不错了。


实际上,它在各种各样的任务测试里,大多数都能够达到中等以上水平,这是我们以前没想到的,它竟然具有这样强大的能力。



当然我们也别太乐观,当问到一些其他问题时,它可能回答得并不如意或者说非常糟糕。比如说我问它“鲁迅和周树人是不是一个人?”结果给出的答案让我非常失望。大家都清楚鲁迅就是周树人本人,我甚至不知道它下边这个周懋华是怎么来的。



我也问了这样一个网络上别人问过的问题,关于林黛玉能不能倒拔垂杨柳。实际上这是故意设置的陷阱,结果它知道这是发生在荣国府里的一件事。但故事大家都看到了,我就不细细读了。中国人都知道,林黛玉是《红楼梦》里的,和《水浒传》里的倒拔垂杨柳完全不是一回事。



我又问它一个鸡兔同笼的问题,这是三年级小孩都会做的算术题。结果它说了一大堆,基本意思知道,它还列了一个方程,看上去像那么回事。但仔细读,我加黄的文字其实都有问题。


因为只知道头的总数不可能算出这个题来,它需要有两个条件,要知道鸡是两条腿,兔子是4条腿。而如果鸡和兔子一共36个头、94只脚,可以很容易得到答案应该是25只鸡、11只兔子,可它给出的答案完全错误。



很多时候它会“一本正经地胡说八道”。比如我问它两个人在饭店里打架那件事,它有时会告诉我一个结论,根据《中华人民共和国刑事诉讼法》多少多少条,应该对A刑事拘留15天,对B罚金2000块钱。其实我一查《中华人民共和国刑事诉讼法》,都没有那一条。


所以它本身有很多内生性缺陷,它在臆想,它每一步怎么做出来的我们也不清楚,这里面有很多很多问题。另外,这个系统在构建过程中,因为不断有调试人员来帮助它修正错误,这个机器要和调试人员的答案保持一致,我们叫“对齐”。如果调试人员本身是错的,或者他的观点只代表自己,就会直接影响到机器。


当然还有很精深的专业知识,比如说更精深的医学或者生物、物理、化学的一些知识,可能它没办法做得更好。这也很正常,因为人也是一样,不可能面面俱到、所有能力都很强,而且人也会犯错误。


自然语言处理的关键技术

已完成:50% //////////


我们更关注的是,它为什么会有那么强大的能力?而且在所有领域、所有专业上都表现的比一般人、大多数人的水平还要高。接下来,我们就对它的理论、方法做简单的介绍。



对我们从事自然语言处理研究的人来讲,ChatGPT所用的并不是很新的技术。它是一个语言模型,语言模型在上个世纪80年代就已经提出了,从神经网络语言模型、注意力机制、预训练语言模型到大语言模型,一步步发展到今天


语言模型用于计算一段文字的概率,统计在给定一些词汇时,下一个词可能会出现什么。大家想,当你看到一个句子“那是2023年阳春”,下边的词应该接“三月”,对吧?因为“阳春”后跟着“三月”的可能性最大,这种可能性就叫概率。



通常情况下,我们根据当前临近的几个词选定。假设用3个词来预测当前这个词,加上预测出来的词就是4个词。我们把这4个词叫做一个n元词组或一个n元组,这就叫做n元语法模型。


这就是生成式语言模型的基本思路。我只要给你几个词,就可以接着推算或预测出下边将有可能出现什么样的词。大多数人说话都是有规律的,可以根据大量的语言资料去做统计。


但这个方法有一点问题,是什么呢?我只能采用有限词汇,前边更长的历史性条件没法充分利用。而且不同的词即使语意比较接近,也没法互相替换。


神经语言模型


所以后来人们采用神经网络的方法来解决这个问题。即使句子很长,它可以从句子一开始,把前边所有的词都利用起来,经过神经网络多次变换,它预测出现的下一个词就更加准确。


这样就可以写一个很长很长的句子。就像这句话可以直接编下去,它不仅可以预测出阳春后的“三月”,而且可以顺着往下编“一个早晨,美丽的西子湖畔”等等。它可以写出一段话,甚至一篇文章,这就是神经网络的好处。


注意力机制


同时我们考虑到,人在看一个句子时并不是平均地对每一个词花同样的时间。有些词会看很长时间,我要琢磨这个词,同时要考虑这些词和词之间是什么样的关系。


因此人们又提出“注意力机制”的概念:不同词在理解句子时发挥的作用不同,我们就给它赋予不同的权重。同时考虑这些词上下文之间相互的关联,利用这些信息来共同预测下边可能要出现的词汇。


把注意力机制融进来以后,就可以在已有的大规模语言资料上做统计,统计出任意的词相互之间出现或者说处在相同上下文里的概率,每一个词应该赋予什么样的权重表示最准确。这些数据通常情况下用向量表示,都称作参数。


预训练语言模型


通过这些参数,我们可以在大规模数据上事先训练,这就是预训练语言模型。


然后针对一些特定任务可以事先训练。比如说让机器做翻译“请你把下边这句话翻译成英文”,这是一个指令,然后给它正确的翻译结果,让机器照着例子去学。就像老师上课一样,出一个例题,让你照着例题去做。根据一些特定任务、通过一些指令一条条来调试它,叫做“微调”。

·

除翻译以外,还可以教它做摘要,和它对话、做问答等等,所有任务都会做大量这样的调试。我可以构造出在很多很多任务上都能让它表现比较好的模型,这就是后来出现的不同版本的GPT(Generative Pre-Trained Transformer),也就是生成式预训练Transfomer模型。



从2018年推出第一版GPT到2019年的2.0版本、2020年的3.0版本,再到2022年11月底(11月29号)的3.5版本,3.5版本我们通常叫ChatGPT,2023年3月份又推出了4.0版本。


这张表粗略给出了不同版本每一个模型所拥有的参数量。所谓的参数,包括给定某些词的概率,不同词出现在不同上下文里的权重、注意力机制大小等等。从3.0版本开始,参数量非常非常大,到1750亿个参数,因为它几乎用了2021年之前全网的数据,做了一些数据清洗后,在这个基础上做训练。


目前,参数量至少在100亿以上的规模才叫所谓的大语言模型,几十亿或者几个亿的已经算不上大语言模型了。当然现在有一些模型已经达到几千亿甚至上万亿更大规模的参数量。


随着参数量提升,ChatGPT在很多任务上性能也在逐渐提升。而且参数量达到一定规模后它的能力也非常强大,我们叫智慧的“涌现”,大家可能也听过这样一个词汇。


实际上ChatGPT里边最关键的有3个技术。



首先要有一个预训练语言模型。要知道每一个词的表示,每个词在不同上下文里的作用和词与词之间的关系;接着指令微调,大量人工地给它指令,针对不同任务写出指令调试机器;然后系统根据人调试给出的指令再不停进行训练,当它犯错误时,给它一个惩罚,打一个低分,当它答对时,给它打一个高分。


机器会根据人的反馈来不断调试自己、不断优化模型。这3个主要技术造就了现在ChatGPT非常强大的能力。



要做这样一件事,ChatGPT需要“3个大”来支撑。


一是大数据,刚才我说过ChatGPT3.0、3.5版本几乎用了全网的数据。它有1750亿个参数,每一个参数用向量表示,这个向量是高维的向量,运算量非常巨大,所以它有上万台服务器在工作。同时要有大量人工,因为要人工写这些指令,要去调试它,要帮机器进行优化和改进。


为什么参数量到了这样一个规模后,它的智慧涌现会超出人的想象,能力会这么强大?这个问题技术人员还在研究当中。包括我们使用神经网络,它在数学上可以写出一个公式来,但这个公式在物理意义上意味着什么,每一步运算意味着什么?现在还没有给出很清晰的解释,这也是技术人员正在努力的一件事。


通往通用人工智能之路?

已完成:80% //////////


但是,我们可以看到ChatGPT所表现出来的能力,使我们向着通用人工智能的目标迈进了一步,或者说ChatGPT从某种程度上验证了走向通用人工智能这条路是一条可能的道路。


图灵测试(Turing test)


所谓通用人工智能,人们通常比喻一个任务或者技术能够通过图灵测试,就看成是通用人工智能。图灵测试是什么?实际上它是一个游戏,假设一个人不停地提问题,让机器回答,让人也回答,然后人和机器同时给出答案。提问题的人判断不出来这个答案到底是机器给出的还是人给出的,我就可以认为这个机器具备和回答问题的人几乎同样的智能,这就是图灵测试。


在所有任务、各种各样问题上去测试机器和人,机器如果都能够通过回答,那么它几乎就是通用的了。在各个任务、各个领域都可以做,它能够通过这样的测试,这就是一种通用人工智能技术。


那么,大模型使用以后会带来什么样的影响?这个我们必须要考虑。



首先从好的一面,它可以大幅度提高工作效率。可以帮助我们回答问题,当我们想查询什么不熟悉的知识时,它很快就可以给出答案。它可以帮助我们写作,起草各种各样的内容,包括法律的、医药的、科研的等等,作为人工智能助手提供非常好的帮助。



当然它还有很多问题。刚才说过,它和人一样会犯错误。而在做系统过程中需要人去调试,如果人的认识有问题,这个机器或者模型学出来就有问题。它也会臆想甚至胡说八道,它说出来一个答案,信它还是不信它?它如果造谣,对社会的影响肯定不好。有些学生如果偷偷用它去写作业,老师怎么判卷呢?会有各种各样的问题。


那么,大模型是让人类变的更加聪明了还是更加愚蠢了?实际上这是一个双刃剑。它有很多好处,也有很多问题,应该怎么做?


我觉得我们应该拥抱或者接受这项技术,没必要排斥,它能够给社会带来很多很多好处。当然,这种利用不是无限度的,必须有一定约束。在什么情况下该用,什么情况下不该用?如何使用,利用它能做什么?都要有界定。


当然最重要的,特别对我们技术研究人员来讲,要沉下心来做好自己的事,做好中国的大语言模型来服务社会、服务国家,我们一直在向这个方向努力。



如果大家对GPT这个技术感兴趣,欢迎大家阅读我前段时间刚出的一本书,叫做《文本数据挖掘》。


谢谢大家!


- END -


本文经授权转载自格致论道讲坛ID:SELFtalks),如需二次转载请联系原作者。欢迎转发到朋友圈。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
AI之下没有秘密:网友诱骗ChatGPT激活 Windows 11,ChatGPT落入陷阱!当我让ChatGPT指导我做1页PPT,它说:程序员小哥用ChatGPT做了一个AI女友,还得到了真女友的赞赏!许家印最终的结局是什么?多加一句话让ChatGPT“帮”你问问题!三件大事,ChatGPT做不到家人们,谁懂啊,让ChatGPT当庭辩对手是一种怎样的体验?【城事】巴黎市长将重修Châtelet 广场以方便行人松鼠如何用ChatGPT做小红书无货源电商目标北大!和辅警爸爸考场外拥抱的他,分数出来了!ChatGPT参加了2023高考数学,它的分数超过你了吗?松子让ChatGPT去炒A股的后果陶哲轩预言成真!MIT加州理工让ChatGPT证明数学公式,数学成见证AI重大突破首个学科洪昊昀与王香ChatGPT之父反驳马斯克/高考生喊话取消调休/刘慈欣也用ChatGPT写稿|灵感周报一招让ChatGPT不再胡说八道!2023高考英语难出天际,小学阶段如何提前应对?我们把今年4套高考卷都做了,有好几个重大发现……CT 提示结肠占位,家属要求转上级医院,最终结果出乎意料一段乱码,竟让ChatGPT越狱!乱序prompt让LLM火速生成勒索软件,Jim Fan惊了用ChatGPT赚钱的秘诀是,教别人怎么用ChatGPT赚钱双林奇案录第三部之川黔连环案: 第七节拒绝花架子!盘点ChatGPT最强的七个插件:写提示词、学外语、总结视频,让ChatGPT做你的私人秘书四川女孩高考47分,爷爷含泪请求复查考卷,真相出来后,所有人都沉默了…蒲公英家里的钱应该归谁管?队友的回答出乎我意料巴黎市长将重修Châtelet 广场以方便行人CAIE A-level分数线公布!今年总体高于2021和2022年,更接近2019年分数线!让ChatGPT来写今年的高考作文,会得几分?ChatGPT做决策:潜力大,风险也更大研究人员让ChatGPT写了一篇论文,质量如何?大模型的思想钢印:如何让ChatGPT相信水是有毒的?​中文信息处理实验室最新研究揭示虚假信息在大模型中的扩散机制高考完民政局排队离婚,为什么会出现这样的现象?答案出乎意料四川女孩高考47分,爷爷含泪请求复查考卷,真相出来后,所有人都沉默了
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。