Anthropic再获百亿投资，CEO畅谈AI未来和百度工作经历｜万字长文

公众号新闻

2024-03-30 22:03

▲ 点击订阅，抓住风口

最近，Anthropic成为超越OpenAI新热门，一方面他们家的Claude3在开发者评分中超过GPT-4，另一方面亚马逊为他们投资27.5亿美元（换算人民币超200亿）。

这家AI公司的CEO达里奥·阿莫迪也是OpenAI前员工，2022年前哨科技特训营扫描AI产业时和大家已经有所分析。

今天我们为大家整理了阿莫迪的一段超长采访，全文共1.1万字，共分为7个主题。

你可能意想不到，这位AI大佬的人生起点竟然和百度有关，他对AI未来的判断也有很多独家思考。

万字长文整理不易，欢迎大家点赞、收藏、转发。

如果你还想了解更多、更新的AI深度分析，掌握科技前沿动态，欢迎加入前哨科技特训营，每周四王煜全与你深度分享！

访谈全文

1.缩放定律

主持人

第一个问题。你是少数几个预见到缩放定律的人。作为预见者，你能解释缩放定律为什么（在AI领域）这么有效吗？为什么当你把大量计算扔到广泛的数据上，就会变得智能？

达里奥·阿莫迪

我认为我们还不知道。这基本上是从经验中得出的。你可以从数据和各种地方感受到这个现象，但我们还没有一个满意的解释。

我可以试图解释，这就像物理学中的长尾理论或幂律或相关性。当你有很多特征时，你会在分布的早期得到很多数据，然后是尾巴。在语言中，这就像——“哦，我发现名词通常在动词后面。”然后是一些更微妙的相关性。

所以，你增加的每个记录，到达一定数量级都会捕获更多的分布，这是有道理的。但是，为什么它能通过参数如此平滑地扩展？为什么它能随着数据量的增加而平滑地扩展？

你可能会想出一些解释，比如参数就像一个水桶，数据就像水，所以桶的大小和水的多少是成正比的。但是，为什么它会导致所有这些非常平滑的缩放呢？我们还不知道。我们的首席科学家贾里德·卡普兰在分形流形维数上做了一些工作，这可以用来解释这个问题。

所以有很多想法，但我认为我们还不确定。

主持人

我们不知道为什么会这样，但你能不能根据经验预测一下，这种能力出现的地方？这能预测吗，还是只能看具体的结果？

达里奥·阿莫迪

这很难预测。可以预见的是统计统计数据很明确，有时甚至可以预测一些重要的指标。但具体的能力很难预测。比如我在研究 GPT-2 和 GPT-3 时，没法确定何时它能做算术？何时能学习编码？有时它突然就会了。

就像你能预测天气的平均情况，但具体某一天天气很难预测。

主持人

我有点困惑了，AI似乎一下子就会加法。怎么回事？

达里奥·阿莫迪

这又是一个我们不知道答案的问题。

我们试图用机械解释来回答这个问题。有证据显示，当模型能添加内容时，它得到正确答案的机会突然增加。但如果你看看正确答案的概率，你会看到它从极低逐渐增加，直到它真正得到正确答案。我完全不明白这背后是怎么回事。

主持人

这是不是意味着加法过程一直存在，只是逐渐变得明显？

达里奥·阿莫迪

我不知道是否有这个趋势越来越强的过程。答案就是我不知道，这些都是我们试图用机械解释来回答的问题。

主持人

有不受缩放影响的能力吗？

达里奥·阿莫迪

我觉得，随着规模扩大，像一致性和价值观这样的东西并不一定会提高。训练模型就像预测世界，理解世界。它处理的是事实，而非价值观。它预测下一步会发生什么。但怎么做？怎么想？重视什么？这些都是不确定的。

主持人

如果在达到人类智力水平之前，我们遇到了困难，你怎么看？

达里奥·阿莫迪

我会把理论问题和实际问题区分开。一个实际问题可能是我们会用完数据。

虽然我认为这不太可能，但如果你单纯看训练AI的数据量，我们确实快用完了。另一种情况可能是我们用完了所有可用的计算能力，然后进展变慢。我不觉得这些会发生，但有可能。

从基本面来看，我觉得缩放定律不太可能就此停止。如果真的停止了，可能是因为我们的架构不够好。如果我们尝试使用 LSTM 或 RNN，结果可能会有所不同。如果我们不知何故遇到了难题，我会觉得很惊讶。

如果我们突然遇到困难，我会认为是因为训练下一个单词预测时，损失函数有问题。

如果你想在高水平上学习编程，这意味着某些代币对你来说比其他代币更重要，但它们很罕见，损失函数可能会过度关注常见的东西，而忽视了真正重要的东西。所以，你可能会把信号淹没在噪音中。我认为这种情况不太可能发生。除非你尝试了所有的架构，都没有效果，我会考虑这种解释。

主持人

是否有另一个损失函数的候选者？如果您不得不放弃下一个代币预测。

达里奥·阿莫迪

我认为那你就必须去做某种 RL。有许多不同的种类。有来自免疫反馈的RL，有针对目标的RL的RL，还有像宪法人工智能这样的东西。有放大和辩论之类的东西。这些既是对齐方法，也是训练模型的方式。

你必须尝试很多事情，但重点必须放在我们真正关心模型做什么上？从某种意义上说，我们有点幸运，预测下一个单词会给我们带来我们需要的所有其他东西。没有保证。

主持人

在你来看，似乎有许多不同的损失函数，这只是一个可以让你向它扔一大堆数据的问题。下一个代币预测本身并不重要。

达里奥·阿莫迪

RL 的问题是你会放慢一点速度，因为你必须通过某种方法设计损失函数的工作方式。下一个代币预测的好处是它自动运行，这是世界上最简单的事情。所以我认为，如果你不能以最简单的方式进行缩放，它会减慢你的速度。

主持人

您提到数据可能不是约束因素，为什么？

达里奥·阿莫迪

这里有各种可能性，出于多种原因，我不能详细介绍，但世界上有很多数据来源，也有很多方法可以生成数据。我的猜测是这不会是一个障碍。

主持人

你说的是多模态吗？

达里奥·阿莫迪

有很多不同的方法可以做到这一点。

主持人

你如何形成缩放法则的看法？我们还能往前走多远？

达里奥·阿莫迪

我从2014年到2017年逐渐形成了这种观点。

我第一次接触它就是第一次接触人工智能。我在 2012 年看到了 AlexNet 的一些早期内容。我一直想研究智能，可以一直追溯到2005年。我读过雷·库兹韦尔（Ray Kurzweil）关于AI的作品。

有了AlexNet，我就想：这些东西开始起作用了。于是我加入了吴恩达在百度的团队。

我曾经在不同的领域，这是我第一次接触人工智能，它与世界其他地方正在进行的许多学术风格研究有点不同。

我有点幸运，因为这项任务交给了我在的团队。当时只是为了尽可能地制作最好的语音识别系统。

有很多可用的数据，有很多可用的GPU，缩放法则在我们解决问题的过程中自然浮现了。这和博士后研究某个问题，最后变成发明人有很大不同。

我只是尝试了最简单的实验，试着给RNN添加更多的层，试着训练它更长的时间，看看会发生什么？

过拟合需要多长时间？如果我添加新数据并减少重复次数怎么办？我就看到了这些非常一致的模式。

我当时并不知道这很不寻常，也不知道其他人有没有这样想。这几乎就像初学者的运气。这是我第一次使用它，除了语音识别之外，我并没有真正考虑过AI。

我当时虽然是个门外汉，但我有种直觉这在语音识别领域似乎是正确的。

就在 OpenAI 开始之前，我遇到了Ilya。他对我说的第一句话是——“看，模型就是想学习。你必须明白这一点，模型只是想学习。“ 这有点像禅宗。我听了这句话，我开悟了。

这些年来，我会把很多这些东西模式化，然后把它们放在一起，但这告诉我很多现象不是随机的东西。

它很宽泛、笼统，但是“模型只是想学习”确实管用，你把障碍物赶走，给他们很好的数据，你给他们足够的空间来操作，然后他们会学习如何做到。

主持人

我发现你说的非常有趣的是，有很多人知道这些东西非常擅长语音识别或玩这些受限制的游戏。很少有人像你和Ilya那样从那里推断出新的规律。

你思考它的方式与其他人思考它的方式有什么不同？是什么让你认为它以这种一致的方式在演讲中变得更好，它会以这种一致的方式在所有事情上变得更好。

达里奥·阿莫迪

我真的不知道。

起初，当我看到它用于语音时，我以为这只适用于语音或这类狭隘的模型。2014 年至 2017 年期间，我尝试了很多东西，并一遍又一遍地看到同样的事情。我看到Dota也是如此。我看到机器人技术也是如此。

许多人认为没有成功的智能机器人是一个反例，但在我看来原因是机器人的数据很少，如果我们拥有足够的数据，我们会看到相同的模式。

我认为人们非常专注于解决他们面前的问题。很难解释为什么一个人以一种方式思考，而另一个人则以另一种方式思考。人们只是通过不同的镜头来看待它。他们垂直看而不是水平看。他们不是在考虑扩展，而是在考虑我如何解决我的问题。

对于机器人技术来说，没有足够的数据，这很容易抽象为——缩放法则不起作用。

2.语言数据

主持人

你什么时候意识到语言能提供大量数据？或者你用完了其他东西，比如机器人技术，没有足够的数据。

达里奥·阿莫迪

我觉得预测下一个单词的概念，自我监督学习，以及预测下一个单词的丰富性和结构。这就像是给儿童提出的发展测试。为了预测下一个单词，模型需要解决所有的心理理论问题和数学问题。我的想法是，你尽可能地扩大它。没有限制。

我有这种观点，但真正让我信服的是 Alec Radford 在 GPT-1 上的工作。你可以得到一个可以很好地预测事物的语言模型，还可以对其进行微调。所以我想，你可以正确地获得语言模型，然后稍微调整一下，它就可以解决逻辑取消引用测试或其他问题。有了其他东西，它可以解决翻译或其他问题。

主持人

有一件事令人困惑，如果你在 2018 年告诉我，我们将在 2023 年推出模型，如克劳德 2 号，可以写出莎士比亚风格的定理，无论你想要什么理论，它们都可以在标准化考试中取得好成绩，我会说你有 AGI。你显然拥有人类水平的智能。

虽然这些事情令人印象深刻，但显然我们还没有达到人类的水平，至少在当代，甚至可能在未来几代人中是这样。是什么解释了这些基准测试中超级令人印象深刻的表现与一般智力之间的差异？

达里奥·阿莫迪

这是一个我没有预见的领域，我感到惊讶。我看到 GPT-3 和我们在 Anthropic 早期构建的模型时，我感到他们真的掌握了语言的本质。我不确定我们需要多少来扩大规模。我想我们可以进一步扩展它，但我想知道是否更有效地扩展它或开始添加其他目标，例如 RL。

我认为智力不是一个光谱。领域专业知识有很多不同的领域。有很多不同种类的技能。记忆是不同的。这一切都是在 blob 中形成的，不复杂。但频谱很宽。

如果你在十年前问我，这不是我所期望的，但我认为结果就是这样。

主持人

我有很多问题，只是作为对此的跟进。

考虑到这些模型从大量互联网数据中获得的训练分布与人类从进化中获得的训练分布，你是否认为这些技能库几乎不会重叠？

达里奥·阿莫迪

肯定有大量的重叠，因为这些模型的很多应用在帮助人类更有效地做事。如果你看人类在互联网上的所有文本活动，那涵盖了很多内容，但可能没有涵盖某些内容。模型在某种程度上学习了世界的物理模型，但它们不会学习如何在世界上实际移动。有些事情是模型没有学到的，而人类学到了。然后模型还学习了人类不会的东西，比如，说流利的 Base 64。我不了解你，但我从未听说过。

3.AI的经济价值

主持人：

你认为这些模型在经济上有价值的任务中能超过人类的可能性大吗？在某些任务中，这些模型仍然低于人类的性能，这是否是为了防止所谓的智能爆炸？

达里奥·阿莫迪：

这是一个很难回答的问题，所以我必须给出一个警告。你可以预测一些基本的缩放定律，但是在更细化的层面上，我们真的想知道的是这一切将如何进行，这就需要更深入的了解。

我的猜测是，这种扩展趋势将继续下去。这可能会受到一些因素的限制，比如人们是否会因为安全考虑而放慢进度，或者是否会因为监管原因而受到限制。但是，假设我们有经济能力继续扩大规模，那么如果我们真的这样做了，会发生什么呢？

我的观点是，我们将继续全面改进，我没有看到任何模型在某些领域表现得特别弱，或者没有开始取得进展的趋势。数学和编程曾经是这样，但在过去的六个月里，与 2022 年一代相比，2023 代模型已经开始学习这一点。可能还有我们不知道的更微妙的事情。所以我有点怀疑，即使不是很均匀，涨潮也会掀起所有的船。

主持人：

这是否包括你之前提到的，如果有一个扩展任务，模型就会失去思路或执行一系列步骤的能力？

达里奥·阿莫迪：

这将取决于一些因素，比如 RL 训练，这可能会让模型执行更长的视野任务。我不认为这需要大量的额外计算。我认为这可能是人们对 RL 的理解方式出现了一些误解，低估了模型自己学到了多少。

当我们说到这个问题，即我们是否会在某些领域而不是其他领域变得超人？我认为这是一个复杂的问题。我可以想象，在某些领域，我们可能不会变得超人，因为这些领域涉及到物理世界的实现。那么，会发生什么呢？AI 能否帮助我们训练更快的 AI？这些更快的人工智能能否解决这个问题？你不需要物质世界吗？这取决于你的理解。我们是否担心对齐的灾难？我们是否担心滥用，比如制造大规模杀伤性武器？我们是否担心人工智能会接管人类的研究？我们是否担心它达到经济生产力的某个门槛，可以做普通人所做的事情？我认为这些不同的门槛有不同的答案，尽管我怀疑它们都会在几年内到来。

主持人：

让我问一下这些门槛。如果 Claude 是 Anthropic 的员工，薪水值多少钱？它是否有意义地加速了人工智能的进步？

达里奥·阿莫迪：

在我看来，它的表现就像是在大多数领域的实习生，但在一些特定领域，它比这更好。比较困难的是，它的外形尺寸与人类不同。如果你看它像这些聊天机器人之一的表现，你可能会认为我们可以进行这样的对话，但它们其实更适合回答一个或几个问题。他们没有能力理解长期经验的概念。我们在这里谈论的是我过去的经历，而聊天机器人没有这样的经历。

这些模型缺少很多东西，所以很难进行直接比较。他们在某些领域的表现就像实习生，然后他们在另一些领域表现出色，可以说是真正的专家，他们可能比这里的任何人都要好。

主持人：

但是，像智力爆炸这样的事情的整体情况对你来说有意义吗？卡尔·舒尔曼（Carl Shulman）有一个非常详细的信息爆炸模型。作为一个真正看到这种情况发生的人，这对你来说有意义吗？例如，当他们从实习生阶段变成入门级软件工程师时，他们能否提高你的工作效率？

达里奥·阿莫迪：

我认为，随着人工智能系统变得更有生产力，首先它们会加快人类的生产力，然后它们会等于人类的生产力，最后，它们可能会成为科学进步的主要贡献者。在我看来，这个基本逻辑很有可能，尽管我怀疑当我们真正进入细节时，它可能会很奇怪，与我们预期的不同。在所有详细的模型中，我们可能考虑了错误的事情，或者我们在一件事上是对的，然后在其他十件事上是错误的。我认为我们最终可能会进入一个比我们预期的更奇怪的世界。

主持人：

当你把所有这些考虑在内时，你估计当我们达到某种人类水平时，情况会是什么样子？

达里奥·阿莫迪：

这取决于阈值。对于一个人来说，如果你和他交谈一个小时左右，他可能就像一个受过良好教育的人，这可能并不遥远。我认为这可能在两三年内发生。阻止这种情况发生的主要因素是，如果我们达到了某些安全阈值。因此，如果一家公司或一个行业决定放慢脚步，或者我们能够让政府出于安全原因采取限制措施来减缓进步，这可能会阻止这种情况发生。但是，如果你只看物流和经济规模的能力，我们可能离这个目标并不遥远。

现在，这可能并不是模型存在危险的门槛。事实上，我怀疑我们还没有完全到达这个门槛。这可能并不是模型可以接管大部分人工智能研究的门槛。这也可能并不是模型真正改变经济运作方式的门槛。

我认为在那之后，情况就变得有点模糊了，所有这些阈值可能会在那之后的不同时间发生。但从基本技术能力的角度来看，这听起来像是一个受过普遍教育的人。我认为我们可能非常接近这个目标。

主持人：

为什么一个可以通过受过教育的人的图灵测试的模型，却不能贡献或替代人类在经济活动中的参与？

达里奥·阿莫迪：

有几个原因。一是技能门槛不够高，比较优势。我有一个在每项任务上都比普通人更好的人并不重要，重要的是能否产生比较优势。

对于人工智能研究，我真正需要的是找到足够强大的东西，以大大加快数千名最擅长的专家的劳动。我们可能会达到AI很强的地步，但它的成本以及适配生产的比较优势可能并不大。

有时候，你会发现在实践中会遇到一些在理论模型中不存在的问题。比如，你有一个非常好的聊天机器人，理论上它可以做很多事情，但在实际操作中却会遇到很多问题。这可能涉及到公司的运作方式、经济活动的进行方式、工作流程等等。

有时，人们会把机器人看作是一个可以帮助人们完成任务的工具。但实际上，这个工具的应用需要我们投入时间和精力去解决很多实际问题。

这些实际问题在理论模型中并未被完全考虑到。我不认为这会改变我们正在建立这个模型的基本思路，这些模型可以帮助我们更好地完成工作。但最终，还是我们需要去做这个工作。

我对任何精确的数学预测都持保留态度。事情可能会变得一团糟，但我们知道它在按照一定的趋势进行。

我们一直在讨论的这些趋势是如何形成的？一种可能是缩放定律，另一种可能是这些事物可以参与到人工智能的研究中，从而加速其发展。这两种趋势是相反的。

然后，我觉得推动最快的因素可能是越来越多的资金投入到这个领域。人们看到这个领域有巨大的经济价值，所以我预计投资会大幅度增加。

同样，我并不是在做一个规范性的声明。这是应该发生的事情。我并不是说这一定会发生，因为还有很多安全和政府的问题需要我们解决。

但是，你如何看待我们对这个行业的影响呢？有人说，我们可以通过投资来扩大这个领域，也有人说，我们正在提高这个领域的重要性。

考虑这些问题的时候，我们需要权衡成本和收益。我认为，我们是相对负责任的，因为我们并没有引起去年年底和今年年初的大幅度增速。这不是我们做的。

然后，我们会根据情况变化来调整我们的策略。

当我们谈论智能时，我会问你，作为一个科学家，你怎么看待这个问题？这些模型记住了整个人类的知识库，但它们无法建立新的联系。

然而，即使一个智力一般的人都能看出一些联系，比如，这种症状可能是由这种原因引起的，那种症状可能是由那种原因引起的。我们难道不应该期待这种事情发生吗？

我不确定。我认为这里有一些东西。这些模型确实有一种创造性。例如，它们可以写出一首诗，这是一种创新。但是，我同意你的观点，它们还没有做出任何“大”的科学发现。

我认为这可能是因为这些模型的技能水平还不够高。我认为，随着规模的扩大，这种情况会改变。

我确实认为，这些模型知道很多事情，但是他们的技能水平还不够高，无法将这些知识组合在一起。我认为他们正在接近能够将这些知识组合在一起的阶段。

4.生物威胁

主持人

你在参议院证词中提到，我们还需要两到三年才能看到大规模的生物威胁。你能让这个问题更具体吗？你说的是一次性的武器制造方法，还是需要逐步改进的开源模型？具体会是怎样的？

达里奥·阿莫迪

我觉得需要澄清这一点。我们写了博文，也在参议院发表了证词，但很多人对此都不太了解。

现在，你可以向模型提问关于生物学的问题，它会告诉你一些可怕的事情，但这些事情通常都能在Google上找到，所以我并不担心。我担心的是真正的危险。

我们花了大约六个月的时间，与世界上最专业的人一起研究生物袭击的方式，需要什么才能进行这样的袭击，以及如何防止这样的袭击。

这个过程并不简单，而是一步步来的。这不仅仅是我向模型提问一些问题。我在参议院的证词中已经说过，有些信息你可以在Google上找到，有些信息则不在那里。这些信息可能散落在各种教科书中，或者根本就不在教科书中。

我们发现，模型在大多数情况下都无法提供这些关键信息，但有时候它们会出现，有时候它们会被忽略，这都是为了保护我们的安全。但我们看到了一些迹象，表明这些模型在关键问题上表现得很好。如果我们看一下最新的模型，再看一下旧的模型，我们会发现一个趋势，即在未来两三年，我们可能会面临一个真正的问题。

主持人

你的意思是随着缩放法则生效，今天它效果不佳，未来就会有产生可怕的结果？

达里奥·阿莫迪

完全正确。我经历过很多次这样的变化。我看着GPT-3学会做数学算术，看着GPT-2学会做回归，看着它在所有这些有用、诚实、无害的测试中表现得越来越好。

我已经见过这样的情况很多次了，虽然我并不为此感到兴奋，但我相信它在一些糟糕的领域也会出现相似的作用。

主持人

有人可能会问，你之前是 OpenAI 关于 GPT-2 的文章的作者之一，你们曾说过不会公布模型的详细信息，因为担心会被用来做坏事。现在想想，是否我们过于担忧了？这是否是一个无谓的担忧？

达里奥·阿莫迪

这是个好问题。或许我们应该重新看看那篇文章。我不太记得具体内容，但文章还在网上。我们确实说过，因为担心滥用，所以选择不公开模型。但我们也说过，这只是一个实验。我们并不确定这是否必要，或者说这是否是正确的做法，但我们希望能够引导大家更深入地思考这些问题。就像1970年代的阿西洛马会议一样，当时的科学家们正在研究 DNA 重组技术。并不是说有人一定会用这项技术做坏事，而是因为这种可能性开始显现。

现在，我觉得还有另一个问题，那就是大家不仅在评价这个立场，也在评价这个组织。这个组织是在大肆宣传，还是真的有可信度？这对我们的公众形象有影响。你也可以问，是否有必要传递比这更复杂的信息？

这些都是可以讨论的，但我认为，我和其他参与者的想法，以及文章中明显的观点是，我们其实并不知道。关于什么是危险，什么不是，我们的判断有很大的不确定性，所以我们希望能建立一个谨慎的标准。

另外，现在我们有了更多的证据。我们看到了更多的案例，所以我们的判断已经更准确了，但仍然有不确定性。我曾在所有这些声明中说过，可能几年后我们会知道答案。这是一个大风险，我们不想冒这个风险。但我不能确定这是百分之百的可能。可能性是五五开。

5.网络安全

主持人

让我们谈谈网络安全。Anthropic一直在强调这个问题。你是怎么避免云微架构泄漏的？你的竞争对手在这方面似乎没做好。

达里奥·阿莫迪

我不能评价别人的安全性。我们的做法是，我们的架构创新使培训更高效。我们称之为计算乘数，因为它们就像有更多的计算能力。

我不想多谈我们的计算乘数，因为这可能使对手找到对策。但是，我们确保只有需要了解它的人才能知道具体的计算乘数。

因此，只有极少数人能泄露所有的秘密。更多的人可能会泄露其中的一部分。这是情报界和抵抗组织常用的策略。我们在过去几个月里实施了这些措施。我不敢说我们永远不会遇到问题，但我认为发生的可能性很小。

我鼓励所有公司都这么做。尽管竞争对手的泄露对Anthropic的帮助不大，但从长远看，这对所有人都没好处。保护这些东西的安全性非常重要。

主持人

你现在的安全措施能阻止专门的国家级行为者获取Claude 2的权重吗？

达里奥·阿莫迪

这取决于严谨程度。我们的安全负责人以前在Chrome工作，他认为攻击Anthropic需要多少成本？我不想详细讨论这个问题，因为这会吸引攻击者。我们的一个目标是，攻击Anthropic的成本要高于自行训练模型的成本。这不能保证万无一失，因为攻击者也需要有才华，但是攻击有风险，有代价，会消耗国家级行为者可能拥有的珍贵资源。

我们还没达到这个目标。但与公司规模相比，我认为我们的安全标准非常高。大多数150人的公司的安全性与我们无法比较。但如果窃取我们的模型权重是国家级行为者的首要任务，我们能抵挡住吗？不能。他们一定会成功。

主持人

这种情况会持续多久？因为价值会持续增加。训练Claude 3或Claude 2的方法是什么？

比如说，对于核武器，我们有很多间谍。你只要有一张内爆装置的蓝图，就够了。这里是否更像生物学？你需要知道试剂是怎么工作的，或者就像你有了蓝图，你拥有了架构和超参数？

达里奥·阿莫迪

有些事情很简单，有些事情很复杂。我认为最好的方法是区隔，限制知道某事的人数。如果你有一家1000人的公司，每个人都知道所有的秘密，那我敢肯定其中至少有一个泄密者，有一个间谍。

6.对齐和AI可解释性

主持人

让我们谈谈对齐和AI可解释性，这是你所研究的。当你回答时，你可能想解释一下AI可解释性是什么。

具体来说，对齐是什么？是把模型锁定在一个善良的角色中吗？你禁用了欺骗性电路和程序吗？对齐模型时，会发生什么？

达里奥·阿莫迪

训练模型进行对齐时，我们不知道模型内部会发生什么。有许多方法可以训练模型进行对齐，但我们并不知道具体会发生什么。现有所有涉及微调的方法都有一个共同的特点，即基本的知识和能力不会消失。模型只是被教导不要输出它们。我不知道这是好是坏。我们不知道AI内部发生了什么，这就是AI可解释性的全部意义所在。

主持人

解决方案是什么样子的？如果你成功解决了AI可解释性的问题，你会觉得满意吗？你看到了什么？

达里奥·阿莫迪

我们对此还不够了解。我可以给你画一个草图，但不知道最终结果是什么。我们有许多调整AI系统的方法，并且已经成功地做到了这一点。但问题是，如果你有一个更强大的模型，或者在不同的情况下，它会对齐吗？如果你有一个预言机，可以扫描一个模型并说这个模型是对齐的，这个问题就会变得容易得多。

我想说的是，AI可解释性是我们目前最接近的东西。它还不够，但我认为它类似于一个扩展的训练集和测试集。我们所有的对齐方法都是训练集，你可以在其中运行测试，但它真的会生成一个发布版本吗？它在其他情况下真的有效吗？

主持人

我还是不明白你为什么认为这有可能成功，或者这是值得追求的。让我更具体地提问。

如果你是一个经济学家，你会派出一大堆微观经济学家。有人研究餐厅，有人研究旅游业，有人研究烘焙业。但是最后，你可能还是不知道经济是否会衰退。

为什么不是这样？如果我们了解了感应头在变压器中的工作原理，我们就了解了模块化算法。这怎么加起来——模型想杀死我们吗？模型真的想要什么？

达里奥·阿莫迪

这是一组好问题。我认为我们的目标不是理解每个细节，而是理解模型的宏观特征。例如，模型的内部状态和计划是否与外部表现不同？模型是否在做一些看起来具有破坏性和操纵性的事情？

我觉得人类是一个好的比方。实际上，我们可以看一个人的MRI来预测他们是否有精神疾病。这说明我们可以通过查看模型的宏观特征来评估模型。

主持人

有人可能会问，我们是否能从经验中判断哪些激活是可疑的？这种经验我们能承担得起吗？还是我们需要一个很好的理由来考虑——这不只是模型和坏的 MRI 关联。我们需要一些深入的数学证明，来证明这是一致的。

达里奥·阿莫迪

这取决于你说的经验是什么。一个更好的词是"现象学"。我不认为我们应只关注现象学，因为有一些很危险的模型和脑部扫描。AI 可解释性的目标是研究基本原理和电路。

我喜欢尽可能详细地研究这些电路。这样我们可以积累知识。即使目标功能多且复杂，我们还是要试着建立广泛的理解。你必须了解基本的构建块，然后明白如何使用它们来得出广泛的结论，即使你不会了解所有的东西。

你可以和克里斯·奥拉谈谈，他会有更多细节。他负责可解释性议程。他决定了在可解释性上的工作。这是我的高层次思考，他的会更好。

主持人

Anthropic 的案例是否依赖于AI可解释性的能力？

达里奥·阿莫迪

我并不这样认为。我认为AI可解释性可能有助于能力。如果真的有帮助，我们可能会选择不讨论这个话题。

在 Anthropic 成立之初，我和其他人都没有考虑这个问题。我们认为我们擅长扩展模型，并且能在这些模型上进行安全的工作。我们有很高的人才密度，他们都很擅长这个。我一直认为人才密度比人才质量更重要。这更像是我们的优势。人才密度比人才质量更重要。

我不认为这依赖于某些特定的事情。其他人现在开始做AI可解释性，我很高兴他们做到了。讽刺的是，我们的改变理论的一部分是让其他组织更像我们。

7.对齐研究需要缩放法则吗？

主持人

我认为对AI竞争而言人才密度很重要，大家猜测现在的最新模型，像GPT-4，Claude 2可能花费了一亿美元或者类似的金额......

达里奥·阿莫迪

大致上，这个估计是准确的。

主持人

从现在开始的两三年后，我们可能需要更多的资金来做研发。Anthropic怎样在安全研究上保持最前沿，以与大公司竞争并保持一样的规模？

达里奥·阿莫迪

这是一个需要权衡的问题。这并不容易回答。我会逐一回答这些问题。

安全和规模为什么关系紧密？有些人可能不同意，但是如果只看已实践的安全方法，我认为它们总体上不起作用。

你会一遍又一遍地看到这种现象，一个方法被实践，发现有用，帮助AI加速，没用就被抛弃。

规模和安全性是两条相互缠绕的蛇，他们相互促进。为什么？因为信息是有用的，它对许多任务都很有用。

训练安全的AI。它的任务之一是弄清楚如何判断和评估其他智能，也许有一天甚至可以进行对齐研究本身。

对于我们提出的人工智能宪法，有些人会说这没用，我既不同意也不反对这一点，就像缩放定律发现的过程一样，在一个领域没有展示效果，不代表它是没用的，需要更多的实践验证。

主持人

考虑到这些，如果大公司在两到三年内投入100亿美元进行训练，那么对Anthropic来说意味着什么？

达里奥·阿莫迪

未来可能有三种情形。

首先，如果我们做不到，或者如果要保持领先需要付出太大的成本，那么我们应该不去做，我们不会使用最先进的模型，而是会看看我们能从不那么先进的模型中得到什么。虽然这样可以得到一些成果，但我怀疑这些成果是否值得我们去追求，或者我们的学习速度是否足够快。

第二种选择是找到一种解决办法，接受一些新的条件。

第三个是，当规模达到这个级别时，可能会出现一些严重的问题，这些问题可能会让我们陷入困境。我觉得这主要来自于滥用，比如我提到的生物风险问题。我不认为我们需要担心在两年内发生的一些调整问题，但这些问题可能会很快就出现。

这可能会让我们单方面或者多方面的，或者是政府强制我们不要扩大规模，我们对此表示支持。这可能是正确的做法。我希望事情能朝这个方向发展，这样我们就不需要在我们是否要保持领先和我们是否可以研究和影响其他组织之间做出艰难的权衡，或者我们是否需要接受这种权衡。

【前哨科技特训营第四季前瞻】

1. 前哨科技特训营直播课程第四季（2023年）共50讲+，除此之外还有5节加餐+公开课。
2. 每讲承诺为1小时视频内容，实际平均时长为2小时。
3. 每周四晚八点准时直播，会员可无限次观看回放。
4. 新入会员，可以无限次回看之前所有视频课程。
5. 成为会员即可使用【AI王煜全】，最新AI大模型开发的专属科技分析助手
6. 每周组织【前哨·创新启发局】，链接科技/产业一线人士，打开技术/应用前沿视野
7. 优先获取全球科技产业一线游学、访问机会，接触科技/产业专家，获取最新、最前沿的趋势洞察，人脉链接
8. 本课程为虚拟内容服务，年费订阅服务制。一经订阅概不退款，线下活动需另行支付差旅成本，请您理解。

【课程咨询】

请加“创新地图助手”：

微信：innovationmapSM

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章