开源AGI智能体人人可养成：AGI对齐新思路，让智能体在人类世界中接受训练

公众号新闻

2024-02-12 11:02

新智元报道

编辑：润

【新智元导读】一位网友公开了他创作的一个可以自主学习的智能体，按照他的设想，这样的智能体将在LLM的加持下迅速成长为无所不能的AGI，而人类如果控制她成长的过程，就不需要专门进行对齐。

一位网友根据Karpathy曾经构想过的一个AGI智能体构架，创建了一个开源的智能体，命名为Samantha。

借助GPT-4V的能力，她可以做到：

-动态交流：Samantha可以根据上下文和想法的影响随时说话。与仅限于回复用户提示词的的普通LLM完全不一样，Samantha可以主动采取行动，发起聊天，完成某些具体的任务。

-实时视觉能力：支持多模态信息的输入，输入视觉效果仅在上下文相关时才会被Samantha提及，并采取相应的行动，但总是会引起Samantha影响思想和行为。

-外部分类内存：由Samantha动态写入和读取，它选择最相关的信息进行写入并检索到上下文。

-每时每刻都在学习和演变：存储在记忆中的经历可以影响和塑造Samantha随后的行为，如性格、频率和言语风格等。

（视频是输入信息，右侧是Samantha的回复，左边文字是Samantha的思考过程。）

网友在看了Samantha的效果展示之后，惊呼，原来GPT-4真的已经是AGI了，看来OpenAI确实在控制时间，让人类能够适应AGI来临的日子。

太令人震惊了，这种结构足以构建一个基本的通用人工智能，能够运行大量的白领工作。

在测试中，当谈论一个轻松的主题时，Samantha在对话中非常活跃，经常在我回答之前就讲了好多相关的内容。

但当切换到比较沉重的主题时（说我要离婚）并在镜头前表现出悲伤的样子，Samantha聊天会变得很谨慎，并给我时间思考和回复她的对话。

作者希望Samantha在其他场合也以同样的方式说话，会促使它将该愿望保存在记忆中，从而影响未来的对话。

让Samantha在对话之外运行，可以让她反思过去的对话和经历，思考其记忆中的各种主题，并根据思考决定与用户如何开始对话。

如果你和Samantha一起去一家餐馆，并谈论餐厅很漂亮，你的朋友埃里克也很喜欢它，第二天经过那里时，Samantha就会看到这家餐厅，回忆起之前和这家餐厅的记忆，记住你觉得它很漂亮并评论它，然后检索它所知道的关于Eric的记忆和信息，并提到喜欢那家餐厅很符合Eric的记忆。

Samantha很有时间概念，所以你可以要求它提醒你10分钟后做某事，它可能会提醒你，也可能会忘记，因为它正在考虑更有趣的事情。非常人性化！

Samantha怎么运行的：

编排一系列LLM调用，每个调用都有不同的目的。

作者将每个专门的LLM调用称为「模块」。Samantha是多个模块一起工作。

模块包括：思想、意识、潜意识、答案、记忆读取、记忆写入、记忆选择，愿景。

它们每个都有不同的系统提示，它们的输入和输出相互协调以模拟基本的人脑工作流程。

简而言之，Samantha是一个永无休止的思想和辅助系统循环，不断接收视觉和听觉刺激，并根据所有这些来决定说什么、何时以及是否说某事。

作者将现有的工作开源了出来：

项目地址：https://github.com/BRlkl/AGI-Samantha

以下工作流无限循环：

循环迭代从 gpt-4Vision开始。

然后，潜意识模块处理视觉和用户输入（用户可以随时输入），它还分析当前正在发生的事情的上下文，并生成对萨曼莎的感受和情绪的描述。

然后调用memory_read 来分析当前上下文，并只为 Samantha 提供相关内存以保持其上下文长度。

之后，意识模块被调用来分析上下文并决定萨曼莎应该做什么，是说话还是继续思考，如果是，则做什么。

然后，思维模块接收意识模块的命令，产生理性的思维。

最后，如果意识模块决定说话，答案模块会接收萨曼莎的想法并撰写用户将看到的答案。

仅当短期记忆长度超过阈值时，才会偶尔调用 memory_write 模块将信息从短期记忆传输到长期记忆。

github 页面中有每个模块的详细描述。

Samantha背后的理论思考

这种结构是通过分析和直接模仿人类的工作方式来实现的。人类永远不会停止思考，并根据它们动态地说话。人类的记忆是经过分类的，只有当人类根据思想和背景主动或被动地获取它们时，才能访问它们。

无法正确复制的一件事是重新连接大脑的体验过程，这需要积极地重新训练或微调LLM。但作者得出的结论是，可以通过在上下文长度中添加和保留内容来模拟相同的效果。例如，如果一个人学会变得乐观，他们的大脑会重新连接以改变他们的行为，类似地在 LLM 上下文长度中添加「我很乐观」会影响其下一个令牌概率，其思想输出将是乐观，因此 LLM/Samantha 变得乐观并表现得乐观。

此外，值得一提的是意识模块的重要性。

举例来说，如果没有它，如果Samantha开始思考汽车，它就永远不会停止思考它们，慢慢地变成废话，就像人类处于梦境一样。

意识模块允许Samantha跟踪并确定它是否对某个主题进行了足够的思考，做出最终结论，然后根据其冲动，对一个新的思想主题进行思考。

这种自由的思想和言语形式催生了许多现有的突发行为，例如根据其所处的具体情况调整言语频率的能力，或者开始对话的能力，以及有选择地使用视觉信息的能力等等。

这种提出的架构的一个优点是，假设如果这种架构可以成为超级智能，那么对齐将是微不足道的，因为人类将能够直接看到它的想法，让一个基本的人工智能随时分析它，并根据任何信号来分析它。不良行为，可以立即关闭。

未来的发展：

这里有很多东西可以改进，这本质上是一个概念证明，并且使用的模型并未考虑到这些任务。诸如如何写入信息以及写入哪些信息，以及它如何影响行为之类的事情虽然有效，但远非理想。记忆结构还不像人类，目前可以在几个月后填满上下文长度。左右效率低下。

系统的速度也是一个负面因素，长时间运行它显然是不合理的昂贵，但要记住两件事：

1. 较小的模型，每个模型专门训练来完成其中一个模块的工作，这将大大提高系统的性能。提高质量，降低成本和延迟

2. 然后，在某一时刻，系统将有足够的能力自行赚钱（如果还没有的话）。

作者认为，如果目标真的是实现强大的AGI，那么如果只是让模型在互联网和合成数据上变得更加智能的趋势持续下去，那么 GPT-8也不会带来任何好处。相反，应该专门追求更小的集中模型，以最大限度地提高代理的自主权以及更有效的学习。这就是为什么：

实现AGI并不意味着我们需要制造一个成熟的人类，我们只需要构建一个能够像人类一样自主学习和使用知识的小人工智能婴儿。