第N代GPT有多聪明？专家说AI也许会变笨，因为互联网“脏”了……

2023-10-23 12:10

GPT-4比GPT-3更聪明了，以后还会出现更更聪明的GPT-5678N吗？所以，ChatGPT会越来越聪明吗？ChatGPT能聪明成什么样啊？？

去问了一下。｜自己截的

在回答这个问题之前，我们可以先来看看科幻作家特德·姜讲的这样一个例子：

在2013年，一家建筑公司的工人在复印房屋的平面图时，发现复印机开始“犯傻”了。在文件原件上，三个房间的面积为14.13、21.11 和 17.42 平方米，结果复印出来后，复印件上的面积变成了14.13、14.13 和 14.13 平方米。

怎么回事啊？都2013年了，不就是让复印机“复制”吗，怎么这都能出差错？

计算机专家解释道，复印机首先要扫描文档，然后打印扫描出来的图像。这台复印机使用了一种名为JBIG 2的有损压缩格式，在此过程中，为了节省空间，复印机内的软件会将扫描图像中看似相似的区域都默认为同一个副本。也就是说，复印机在压缩和处理数据过程中，因为14.13、21.11 和 17.42太过相似，以为它们都是同一个数据：14.13。

打印机会在扫描和处理的过程中把原本的数据弄错……｜参考资料2

特德·姜提出，这个例子里，如果复印出来的东西是单纯模模糊糊的低质量图像，也就算了。但最大的问题是，复印件看起来清晰又准确，但其实是错的。

继而他认为，我们可以以相同的方式类比ChatGPT。它打包网络上的信息并学习，然后生成内容，这些内容看似是正确的，但它真的是对的吗？

让ChatGPT做一些数学题。｜图源网络

今年6月，来自英国和加拿大的研究者在预印本网站arXiv上发表了一项与之相关的研究。它们认为，ChatGPT使用的LLM大语言模型不断发展，可能会导致模型崩溃。

如今，GPT-4主要还是由人类产生的文本内容训练的。如果AI继续发展，到了GPT- N代呢？互联网上会充斥着越来越多AI自己产生的内容，LLM开始学习自己的前辈，而这可能会让AI变得越来越“笨”。

论文作者之一，剑桥大学的Ross Anderson举了一个例子，比如你用莫扎特训练了一个音乐模型，得到了一个有点像莫扎特但是缺乏亮点的“萨列里”，现在，由“萨列里”训练下一代音乐模型，再依次类推，第五代、第六代会变成什么样？

研究者输入的内容（Input）,然后训练的9代之后输出的内容（Gen 9）|参考资料1

论文的另外一个作者Ilia Shumailov就讲了一个容易理解的例子。AI学习100只猫的数据，其中，90只是黄毛，10只是蓝毛，AI就（错误地）学到：黄猫更普遍，但也将蓝猫表示为比实际颜色更黄，所以反馈了一些“绿猫”。然后在这个基础上，AI如果再进行下一轮的学习，蓝毛猫就会消失，绿毛猫也会消失，最后只剩下了黄毛猫。

有时候确实不是很懂AI怎么想的。｜图源网络

可以看到，正如上面打印机的例子一样，有一些数据在这个过程中丢失了，模型崩溃让这个结果渐渐变得扭曲。

在上面的那张图里，研究者在论文里举了一个AI犯傻的例子，当研究人员用一段中世纪建筑的建筑理论不断训练AI时，第九代AI最后输出了“黑尾长耳大野兔白尾长耳大野兔蓝尾长耳大野兔……”等等一大堆毫不相关而且无意义的内容。

因此，研究人员就担心，虽然如今互联网上还是有很多人类生成的内容，但是这种AI生成的数据可能会“污染”互联网，让新一代AI学到更多错误的内容。

不能，你呢？｜图源网络

网络上有一些AI犯傻的案例，从中我们可以看出，有时大语言模型如ChatGPT看似说了一大堆，但输出的内容是“有损”版的。而如今，为了不让互联网上出现更多错误的内容，让AI生成的文本质量有所保障，研究者提到，人们需要在AI发展的过程中保留人类生成的数据集，比如定期用人类数据重新训练AI。还可以将新的，干净的人类数据引入AI训练。

特德·姜认为，一段人类生成的文本和ChatGPT看着没什么区别，但你会意识到你想说的，和AI说的之间有多少差距。对于我们人类来说，“写作这种事也没有什么神奇的，但它和复印机确实不一样。”

一些工作依然是不能被“复印机”取代的。｜Giphy

不过，AI的发展的确已经对我们的生活产生了重要影响，ChatGPT究竟是如何工作的？AI到底会变聪明还是变笨？这些问题都需要我们更理解它和关注它才能获得答案。

参考资料：

[1]https://venturebeat.com/ai/the-ai-feedback-loop-researchers-warn-of-model-collapse-as-ai-trains-on-ai-generated-content/

[2]https://arxiv.org/pdf/2305.17493v2.pdf

[3]http://www.dkriesel.com/en/blog/2013/0802_xerox-workcentres_are_switching_written_numbers_when_scanning

[4]https://www.newyorker.com/tech/annals-of-technology/chatgpt-is-a-blurry-jpeg-of-the-web

本文经授权转载自微信公众号：把科学带回家（ID: steamforkids），作者万物杂志

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章