从词语意义到关系推断，ChatGPT是如何理解人类语言的？

公众号新闻

2023-04-20 23:04

作者 | confusedbit

导语：这是一个革命性的技术，对于许多知识工作者来说，从市场营销到工程师，从招聘人员到社会工作者，GPT将改变一切。

现在，你可能已经听说过OpenAI的ChatGPT，或者任何一个替代品GPT-3、GPT-4、微软的Bing Chat、Facebook的LLaMa甚至谷歌的Bard。

它们是可以参与对话的人工智能程序。它们非常聪明，很容易被误认为是人类，并能熟练完成各种任务，从写论文到创建网站。

一台电脑怎么能进行这样的对话呢？让我们来看看它是如何工作的。

一种概率性的方法

自然语言最简单的模型是一个天真的概率模型，也被称为马尔可夫链 1 。这个想法很简单：取一个参考文本，越长越好，然后学习单词序列的概率。例如，给定一个句子：

The cat eats the rat. 猫吃了老鼠。

该模型将了解到，在 “猫 ”之后，总是有 “吃”，然后是“的”。但是在“the”之后，有50%的机会出现“猫”，50%的机会出现 “老鼠”。

我们可以用这个模型来问一个不完整的句子后的下一个词是什么。如果我们重复这个过程，我们可以生成整个句子。

如果我们要求模型生成一个句子，我们可以得到与训练文本完全相同的东西：

The cat eats the rat. 猫吃了老鼠。

We could also get: 我们也可以得到：

The rat.

The cat eats the cat eats the cat eats the rat.

猫吃猫，猫吃猫，猫吃老鼠。

每当我们到达“the”这个词时，模型可以在 “老鼠”或 “猫 ”之间进行选择。

当然，我们用来训练模型的文本会更长，但你已经可以看到一些问题。如果我们在整个维基百科网站上进行训练，我们可以得到这样的结果：

解释他的行为，并因戴维斯的强烈语言和文化而被送入精神病院。

这个句子更复杂，词汇更丰富，但它没有任何意义，因为这个模型缺乏上下文：它只使用最新的词来生成下一个词。

我们可以扩展这个模型，以考虑到2、3或4个语境词（“吃了”后面是“老鼠”），但那样我们可能只是在重复输入文本的整个部分：维基百科上有多少次完全相同的4个词的序列？

从文字到意义

到目前为止，问题之一是，我们把单词当作一堆没有意义的字母。这个模型不理解 “the ”和 “a”之间的关系，“king”和“queen”之间的关系，等等。

我们怎样才能从单词中提取意义呢？试图向计算机解释意义和定义这些词是一个死胡同，这个任务太复杂了（人们已经尝试了几十年）。

你甚至怎么能代表一个词的含义呢？好吧，有一样东西计算机可以完全理解：数字。如果我们将单词的含义表示为沿着几个轴的数字，会怎么样呢？

For instance: on a scale of -1 (masculine) to 1 (feminine), how do you evaluate this word?

例如：在-1（男性化）到1（女性化）的范围内，你如何评价这个词？

king: -1

queen: 1

table: 0

mustache: -0.9

或者：在-1（卑鄙）到1（美好）的范围内，你如何评价这个词？

wolf: -0.8

princess: 0.9

table: 0.1

gift: 1

或者甚至：在-1（名词）到1（动词）的范围内，你如何评价这个词？

king: -1

speak: 1

pretty: 0

以此类推。有了足够的轴来评估单词，我们应该能够得到一个单词的近似含义。问题就在于：你如何选择轴，以及你如何评估所有的词？

再一次，这项任务是如此复杂，以至于我们将让计算机做艰苦的工作：我们只是告诉它，一起出现的词有一个相关的含义。

有了足够的文本，计算机就可以确定轴线和它们的评价。在我们的猫的例子中，猫和老鼠都是动物（近义词），知道 “吃 ”是动物做的事情是很有用的。但是在数学教科书中，不会有猫或老鼠，因为它们的含义与教科书中的用词相去甚远。

我们得到的轴线往往难以解释：我们可能会发现一些预期的轴，如男性/女性，但大多数会更复杂，要么只有在与其他轴结合时才有意义，要么同时代表几个概念。

这种方法被称为 “单词嵌入”，将单词表示为一个数字矢量。

从意义到关系

现在我们有了作为数字的意义，我们可以使用有趣的属性：比如说我们可以把它们加起来。这意味着什么呢？好吧，比如把 “美国 ”和 “货币”相加（或者说把它们的数字表示相加）就会得到 "美元"（或者说与 "美元 "的数字表示接近的数字）。“美国 ”+“首都”=“华盛顿”，“吃”+“名词”=“餐”，等等。

我们也可以做减法：例如，“国王”--“男人”+“女人”=“女王”，或者 “华盛顿”--“美国 ”+“英格兰”=“伦敦”。

我们还可以用它来寻找密切相关的词，同义词。

我们可以学习这些关系吗？

通过使用这种数字单词表示法，我们可以回到我们的初始模型，但这次是学习关系而不是单词。

然而，由于关系更加复杂，我们需要更多的背景。值得庆幸的是，现在我们有了数字，我们可以使用近似值。

与其学习 “在'猫'后面有'吃'”，我们可以学习这样的关系：“在一个冠词和一个名词之后，往往有一个动词”，“动物经常吃、喝和跑”，“老鼠比猫小”，以及 "你只能吃比你小的东西"。当然，一切都用数字表示。

这些关系很复杂，所以我们需要大量的文本来训练模型。它们被表示为一个方程式：设想 y=a⋅x1+b⋅x2+c，但有更多的输入 (不同的x1) 和参数(a、b和c)。

现在，不是按照概率从一个词到另一个词，而是每个轴（如男性/女性）都有一个方程式。这个模型总共有几千亿，甚至几万亿的参数。这使得它能够考虑到一个非常复杂的问题。这使它能够考虑到更大的背景：

20个字可以让它建立具有正确结构的简单句子。

100个字可以让它在一个小段落中发展一个简单的想法。

有了千言万语，它可以进行对话而不至于失去方向。

最大的模型有20000字左右，这使它们能够阅读整篇文章、一个短篇故事或进行长时间的对话，同时在生成下一个字之前仍然考虑整个背景。

归根结底，一切都是一个规模问题：一个更大的模型可以学习更多的关系，并考虑到更多的背景。

GPT的优势和劣势是什么？

GPT能够熟练地生成看起来像人类所写的文本。它能够有逻辑地连接各种想法，为它们辩护，适应环境，进行角色扮演，并且（尤其是最新的GPT-4）避免自相矛盾。

不幸的是，它很可能会撒谎，或者说在没有数据的情况下，让它的想象力肆意发挥。询问一个数学问题的结果，有可能得到一个近似的甚至是完全错误的答案。

鉴于训练数据在2021年9月停止，当被问及当前事务时，它将编造一些东西。为了避免这种情况，Bing Chat和Google Bard将模型连接到搜索引擎（Bing或Google），让它请求最新的信息。

为了有效地使用GPT，必须将其应用于模糊和容错的任务（生成营销电子邮件），或容易验证的任务，无论是由（非AI）程序还是由循环中的人类。

这个模型能思考吗？

现在我们知道了它的工作原理，第一个答案是否定的：该模型是一个美化的数学方程，可以生成下一个单词的概率。

然而，这值得考虑我们自己的大脑：我们有一个相互连接的神经元网络（1000亿）（每个神经元有10 000个连接），对环境作出反应，从经验中学习，并产生一个适当的（但往往很难准确预测）答案。

换句话说，除了我们的算法是化学的而不是数字的之外，结构是相似的。

What are the differences then? 那么有什么不同呢？

3个数量级的复杂性：人类大脑的连接比GPT-4的参数多1000倍。因此，它可以处理更复杂的情况。

持续的学习：大脑一直在学习，包括在对话期间，而GPT在对话开始之前就已经完成了训练。

限于字数：GPT接口仅限于单词。然而，正如我们所看到的，里面有一个语义系统，只是在最后一步才被转化为单词。可以想象，训练这样一个模型来控制机器人（给定足够的训练数据）是可行的。

有限的输入：GPT知道的关于对话的唯一事情是文本。高达60%的人类交流是非语言的：语气、声音的节奏、面部表情，甚至一些潜意识的因素，如气味，都起着一定的作用。GPT错过了所有这些。

我们可以提到的其他差异是在行为层面：

GPT很难一致地应用逻辑规则，它更像是一种尽力而为的情况。具有讽刺意味的是，它不知道如何进行数学运算。但这与一个小孩子相当。

GPT没有情绪：人类的情绪涉及大量的腺体和荷尔蒙，与大脑有复杂的相互作用。然而，GPT从人类之间的对话中学到了与情感状态相关的行为。

它能够表现得像有情绪一样，这算不算是什么？一些对话记录显示，GPT的行为就像它意识到自己是一个程序一样，有时会问一些存在性问题。

你可以说GPT不是有意识的。意识的定义经常发生变化，取决于人，但它经常被定义为只有人类才有资格获得意识。如果一个程序的行为方式与人类无异，我们会同意它是有意识的吗？

中国房间论证 3 持相反意见：如果有可能在自己不懂中文的情况下，通过遵循指令来冒充讲中文的人，那就意味着只是 "遵循程序 "的计算机并不懂中文，因此也就没有意识。

对社会有什么影响？

我无法预测未来，尤其是在一个革命性技术的黎明，但要知道：这是一个革命性的技术。对于许多知识工作者来说，从市场营销到工程师，从招聘人员到社会工作者，GPT将改变一切。

就像装配线改变了手工业者的工作，计算器和计算机改变了会计，大众传媒改变了政治一样，GPT将改变知识工作者的世界。

诚然，所有这些工作不会在一夜之间消失：我们仍然有工匠和会计师，但在你的营销部门曾经需要一个由10个人组成的团队，也许一两个配备GPT的员工就可以填补这个角色。

就像很多科学或工业进步一样，这种变化会影响到很多人：有些人将不得不改变职业或学习将GPT融入他们的职业；有些人将失去他们的工作。

新的职位将由GPT直接创造（如Prompt工程师，可以 “与机器对话 ”的人）或间接地使产品和公司更容易创建。

很难知道确切的后果，但我们正处于一个新阶段的开始，许多事情将发生变化，拥有技术技能的人处于优势地位，企业家有一个全新的机会领域。

另一方面，许多没有准备好改变的人、没有技能的人或没有能力再教育的人受到了威胁。

GPT会破坏社会吗？

有些人因为人工智能而担心世界末日：从《黑客帝国》到《终结者》，这是在反乌托邦科幻小说中常见的特例。一般来说，这两种情况是：

终结者的情景：人工智能是为了赢得一场战争而制造的，并获得了军事资源，也许是由一个独裁者制造的，并被赋予了生存本能。人类试图阻止它，并将其视为一种威胁，人工智能做出了激烈的反应。

回形针优化器：在这个寓言中，人工智能的任务是创造尽可能多的回形针。在耗尽了地球上的可用资源后，它转向了下一个最可用的碳源：人类。

另一个版本是人类试图阻止机器；人工智能意识到，要想和平地制造回形针，它必须摆脱人类。它就像邪恶的精灵，扭曲了你的愿望，给了你所要求的东西，而不是你真正想要的东西。

需要认识到的一点是，（目前）GPT只能产生文本。当然，单纯的文本在错误的手中可能是危险的（毕竟，一个独裁者 “只是说话”），但就其本身而言，GPT不能做任何事情。

然而，它可以成为迈向更有能力的系统的第一步：将GPT的衍生物用于控制机器人、军事决策助手等。

我们将需要谨慎行事，如果进展证明是不可控制的，或者至少是无法控制的，我们就会介入。

从积极的方面看，一些人工智能专家积极研究防范这些情况的方法，因此可能有一些安全的前进方式。

加入阿尔法工场投资者交流社群 | 添加微信：dlfxs2

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章