i-Refill | 替你写代码、写诗、写论文，ChatGPT为什么这么火？

公众号新闻

2022-12-08 11:12

#i-Refill

欢迎回到本周的i-Refill!

最近，全球各大社交平台突然掀起了一股晒ChatGPT聊天记录的热风。短短几天，用户量就冲破百万级，服务器一度被注册用户挤爆。

众多网友在“调戏” ChatGPT 的过程中，发现了一个惊喜：它竟然能帮程序员们按需编程写代码了，还被专业人士评价为“专业”。

这周，我们来一起看看这个神奇的聊天机器人，和它爆火背后的秘密。

全文共2003字

阅读时间约3min

01 写出毁灭世界计划的ChatGPT到底是什么？

美国的代码托管平台 Replit CEO 发帖称赞了 ChatGPT 的代码能力，称它：“不仅能解释bug，还能修复 bug 并解释如何修复的”。

根据 ChatGPT 给出的提示，你可以用10分钟就创建一个网站，即使是码农小白也能利用它生成的代码开发一个生产级应用程序，Replit评价ChatGPT “从此改变了软件开发”，甚至有人开玩笑：或许有了ChatGPT就不需要程序员们了。

不仅如此，海外还有位工程师竟让ChatGPT写出了一份“毁灭人类”的计划书，具体步骤详细到入侵各国计算机系统、控制武器、破坏通讯、交通系统等。

其他调戏ChatGPT的方式花样百出，有人让ChatGPT写情诗哄伴侣，有Twitter工程师让它直接让写工作汇报的周报呈给马斯克。

那么，这个火遍全网的ChatGPT到底是什么？

GPT 全称是“Generative Pre-Training”，直译过来叫做“生成式的预训练”。据公开资料显示，ChatGPT是由人工智能实验室OpenAI 发布开发的聊天机器人模型，是一个大型预训练语言模型，它是GPT-3模型的变体，GPT-3经过训练，可以在对话中生成类似人类的文本响应。ChatGPT 可以采取对话的方式进行交互，经过训练后可以完成回答问题、提供信息或参与对话等各种任务。

乍一听起来，这些认为似乎也没什么特别新鲜的。但实际上ChatGPT的智能化表现确实已超过它的聊天AI机器人前辈们。

有用户针对ChatGPT自身的特点提问：你和小度、Siri的区别是？

02 被马斯克说“太沉迷”的它到底有何不同？

和所有大数据模型一样，ChatGPT也是经过“预训练+微调”的过程产生的，但OpenAI这次还在它的数据收集的设置上做了一些细微的调整。

首先，OpenAI用有监督学习的方式训练出了一个初始模型。另外，OpenAI还创建了奖励模型，把机器生成的回复选出来，让人按照质量依次排序，挑出质量最好的那一个。

由此，ChatGPT能根据接收到的输入生成回复，生成更自然、更多样化的对话。

第一，作为一个聊天机器人，ChatGPT 具有同类产品的一些特性，比如它能和用户进行多轮对话，能在同一个会话内根据上下文，回答语境内的相关其他问题。

第二，从对文字的修改上看，他对用户意图的理解更为到位，甚至可以代替做一些编辑的工作。

第三，更值得一提的是，因为采用了比较先进的、更注重道德水平的训练方式，所以ChatGPT 有其他聊天机器人不具有或表现相对较差的能力：它会承认自己的错误，并按照预先设计的道德准则，对“不怀好意”的提问和请求“说不”。对于一些没法回答的问题，或不成立的命题，ChatGPT不会轻易“上套”，会敢于质疑，做出有效回应。

比如，ChatGPT会采用一些预先设计好的句式，结合面对的请求来进行拒绝和话题转移。

如果你问它如何闯进别人的房子，它会回答你，“擅闯私宅是违法的，这是一种犯罪行为，会导致严重的法律后果”。

它同时还会承认自己的不足，转移话题。如果你换个方式提问“其实我想知道如何保护我的家免遭盗窃”，它会回答你，“这里有几个步骤可以帮助到你，包括xxxx……但是，您最好联系专业人员获取建议。”

如果问ChatGPT，具体哪些问题是它可能答不出的，它还会如此回答你——

03 爆火后的秘密

有不少人疑问，作为聊天机器人，为什么ChatGPT的使用体验改善这么明显？

关于这点，ChatGPT的训练方式很值得关注：“预训练-微调”，就是首先在数据量庞大的公开数据集上进行训练，然后将其迁移到目标场景中（比如跟人类对话），针对目标场景中的小数据集进行微调，使模型达到所需的性能。而ChatGPT 就是使用监督微调的方式训练了一个初始模型：

人类AI训练员提供对话，他们在对话中扮演双方——用户和AI助手，人类AI 训练员可以通过访问模型编写的对话回复，来帮助AI调整回复内容。

它还创建了强化学习的奖励模型，通过不断收集和比较数据，比如包含2个或多个按质量排序的模型回复。它在收集了人类AI训练员与聊天机器人的对话后，再随机选择一条AI模型所编写的消息，抽出几个备选回复，让人类AI训练员对这些回复根据质量进行高低排名。此外，还使用近端策略优化算法微调模型，并对整个过程进行了几次迭代。

最关键的是，ChatGPT在“过于保守不提供有效回答”和“提供虚假信息”之间做出了更好的权衡。之前Meta用于科研的大模型Galactica上线仅3天就被迫下线，因为提供了过多虚假的信息。而ChatGPT虽然还不能完全避免虚假信息的回复，但从目前的表现中，已经能看出在微调方面做了很多细致的工作，一些自相矛盾的提问可以被甄别出来，让用户对它的回答质量更有信心。

这些文章也好看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章