为了避免人类被 AI 灭绝，OpenAI 正在组建「人类护卫队」，你要加入吗？

公众号新闻

2023-07-06 10:07

OpenAI 预言，比人类更聪明的 AI 很有可能在 2030 年前就会出现

面对比人类更聪明的「生物」，你担心人类的未来会被 AI 统治吗？

OpenAI 正在组建团队开发新的工具，为的就是让未来的 AI 也能遵守人类的道德规范

OpenAI 用一篇博客概述了他们的想法，也作为一则「招聘启事」来招募团队成员

看完后，你又对这一想法有什么新的建议呢？

Enjoy it!

超智能（Superintelligence）将成为人类有史以来最具影响力的技术，它可以帮助我们解决世界上许多最重要的问题。不过，超智能的巨大力量也可能是非常危险的，它可能导致人类对 AI 失去控制甚至导致人类灭绝。

尽管超智能看似还很遥远，但我们依旧相信它可能在 2030 年前出现。

要解决超智能对人类造成的风险，我们需要建立新的监管方式并解决超智能「对齐」（编者按：「对齐」在原文中的单词为「Alignment」，指一项让 AI 能够理解和遵循人类意图的技术，以确保 AI 的行为和决策符合人类所期望的结果）的问题：

我们如何确保比人类聪明得多的人工智能会遵循人类的想法？

目前，我们还没有解决潜在的引导和控制超智能 AI 时问题，来防止 AI 变得不受控制。我们目前用于「对齐」人工智能的技术，比如从人类的反馈中自主学习，依赖于人类的能力来监督人工智能。但是，人类在未来无法可靠地监督比我们聪明得多的 AI，因此我们目前的「对齐」技术无法适应超智能。我们需要新的科技突破。

OpenAI 的方法

我们的目标是构建一个与人类大致相当的「自动对齐研究人员」。然后，我们可以利用大量计算资源来扩展我们的所做的事情，并逐步对齐超智能。

为了「对齐」第一个「自动对齐研究人员」，我们需要：1）开发可扩展的训练方法，2）验证结果模型，3）对我们的整个「对齐」流程进行压力测试：

1、为了在人类难以评估的问题上提供训练信号，我们可以利用 AI 来辅助评估其他 AI （可扩展的监督）。此外，我们还希望了解和控制我们的 AI 大模型是如何把我们的监督应用在我们无法监督的任务上（泛化）。

2、为了验证系统是否「对齐」，我们会自动搜索有问题的行为（鲁棒性）以及问题的深层原因（自动可解释性）。

3、最后，我们可以通过训练故意不对齐的模型，来确保我们的技术能够检测到最严重的「不对齐」（对抗性测试），以测试「自动对齐研究人员」运作的整个流程。

我们预计，随着我们对这个问题的了解越来越多，我们的研究重点将会发生重大变化。同时，我们可能会扩展全新的研究领域。我们计划在未来分享更多我们的研究路线的相关消息。

一支新的团队

我们正在组建一个由顶级的机器学习研究者和工程师组成的团队来应对这个问题。

我们将在未来四年内把 20% 的计算资源投入到解决超智能的「对齐」问题。我们的主要基础研究押注在我们的「超智能」新团队上，但正确对待这一点对于实现我们的使命至关重要，我们期望更多团队做出贡献，从开发新方法、扩大规模，再到部署。

四年内，解决超智能「对齐」的核心技术挑战

这是一个令人难以置信的、雄心勃勃的目标，我们还不能保证它一定会成功。但我们依旧乐观地认为，我们只要集中精力一起努力就能解决这个问题，有许多想法在初步的实验中已经展现出了可行性，我们取得了越来越多有用的进展，我们可以使用现在的模型来实证研究许多这样的问题。

Ilya Sutskever（OpenAI 的联合创始人和首席科学家）已将此作为他的核心研究重点，并将与 Jan Leike（「对齐」技术的负责人）共同领导该团队。这个团队的成员不仅有我们以前的「对齐」团队的研究人员和工程师，以及公司其他团队的研究人员。

我们也在寻找优秀的新研究人员和工程师来加入这一计划。超智能「对齐」从根本上说是一个机器学习问题，我们认为优秀的机器学习专家--即使他们还没有从事「对齐」相关的工作--也能成为解决这个问题的关键。

我们计划广泛分享这项工作的成果，同时我们把 OpenAI 模型以外的「对齐」和安全问题作出贡献视为我们工作的重要组成部分。

这个新团队的任务是对 OpenAI 现有工作的补充，旨在提高像 ChatGPT 这样的大模型的安全性，同时逐渐发现和降低 AI 的其他风险，比如滥用、经济损害、虚假资讯、偏见、歧视、成瘾、过度依赖等。

虽然这个新的团队将专注于机器学习领域方面的挑战，让「超智能」的 AI 与人类的意图保持一致，这同样涉及到部分社会科学问题，因此我们正积极地与跨学科专家进行接触，以确保我们的技术解决方案会考虑到更广泛的人类和社会问题。

点击「在看」

是对我们最大的鼓励

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章