Mistral AI：开源不是威胁，模型变小才能催生Agents

2023-12-08 12:12

编译：海外独角兽

排版：Scout

根据 Bloomberg 报道，“欧洲版 OpenAI” Mistral AI 的最新一轮融资已经接近尾声：领投方为 a16z，预计投资 2 亿欧元，Nvidia 和 Salesforce 可能会投资 1.2 亿欧元，这轮融资金额将达到 4.5 亿欧元（约合 4.87 亿美元），估值则可能在 20 亿美金左右。

我们曾对 Mistral AI 进行过深度分析：Mistral AI 由来自 DeepMind 和 Meta 的三位青年科学家建立，是欧洲最强模型团队，团队不仅在多模态、RAG 方向上有着丰富经验，公司成立不久后就成功推出了目前市场上最强的小模型，用 7B 模型越级达到了大部分模型 20B 左右的水平。

本文为 Mistral AI CEO Arthur Mensch 的访谈编译。在创立 Mistral 前，Arthur Mensch 在 DeepMind 任职，并主导了 Chinchilla、Retro、Flamingo 等重要论文的发表，而这三篇论文分别是 20-22年间 Google 在 LLM、RAG、多模态三个领域最重要的作品，十分全能。

Arthur Mensch 在访谈中分享了 Mistral 的目标：打造更小、更高效的模型从而降低模型使用成本，同时构建一个平台，让企业更加方便、安全、低成本地调用模型能力。Arthur 认为，让模型变小一定会有助于 Agents 的开发和应用，如果能通过小模型将 Agents 运行的计算成本降低 100 倍，那么我们就能够有机会构建很多有意思的应用。长期来看，我们还将走向一个 Agents 和 AI 交互的世界。

和头部模型公司的闭源路线不同，Mistral AI 选择开源路线。和闭源模型相比，开源的确更符合考虑到企业私有化使用模型的需求，并且开源模型能力也会逐步升级从而满足更多需求，Arthur 在访谈中还提到，开源也能够让模型受到公众监督、更加安全。

以下为本文目录，建议结合要点进行针对性阅读。

👇

01 Mistral 的建立

02 开源与 AI Safety

01.

Mistral 的建立

Sarah Guo ：我们六个月前见面的时候，你刚从 DeepMind 离开准备创立 Mistral，但 OpenAI、Google 等巨头已经投入了大规模资金和算力等资源后，你仍旧选择在这个领域创业的原因是什么？

Arthur Mensch：我和 Giome、Timote 很早就进入到 AI 领域中了，我们各自都有 10 年左右的机器学习研究经验，所以我们很了解该怎么做这件事，以及如何在有限的算力和资金条件下训出一个高水平的模型。虽然我们一开始所能利用的资源还不至于“相当紧张”，但如果放在整个行业来看，我们作为一个创业团队能够调用的资源很有限。我创业的初衷是在欧洲创建一个独立的公司，来提高 AI 性能，研发最前沿的AI，并将开源 AI 作为核心价值。

Sarah Guo ：在你参与 Chinchilla 的研究之前，你就已经在机器学习领域深耕了十年，在你的早期研究中，你主要关注的是 MoE ，可以先详细说说你在 DeepMind 的研究方向吗？

Arthur Mensch：我的专业背景是优化（Optimization)。在过去 10 年中，我一直专注于算法效率的提升，更有效地利用数据构建预测性能良好的模型。在我加入的时候，DeepMind 的 LLM 团队只有 10 个人。很快，我开始研究检索增强模型（Retrieval Augmented Model），并与 Sebastian Borgeaud 合作发表了 RETRO (Retrieval-Enhanced Transformer )模型这篇论文，Sebastian 目前仍在 DeepMind 工作。

RETRO：

在大模型的训练中，为了实现更高的模型性能，会同步增加数据量，从最初的万级，到达现在的千亿级，这种方式虽有效，但是难免会有如数据集难理解、增加模型偏差等一系列问题。DeepMind 在 2022 年发表的 Improving language models by retrieving from trillions of tokens 中提出一种带有互联网规模检索的高效预训练模型，即 RETRO(Retrieval-Enhanced Transformer )模型，打破了模型越大准确度越高的假设。

我们的目标是在预训练阶段使用大型数据库，这样我们就不需要强制将所有知识嵌入模型内部，而是让模型知道它可以随时访问外部内存（Memory）。这种方法能够有效降低困惑度（Perplexity），我们在构建 LLM 时很关注这件事。当时利用检索方法来增强模型性能并不是 AI 社区中主流的做法，但现在它已经得到了广泛的应用。

RETRO 是我参与的第一个项目，随后，我开始研究稀疏混合专家模型（SMoE），这与我博士后课题最优传输（Optimal Transport）紧密相关。最优传输是一种用于评估 token 并将它们合理分配到不同设备的方法，能够避免设备负担过多的 token。事实证明，最优传输就是处理这个问题的正确数学框架。

因此，我开始着手引入这两种稀疏混合专家模型，并且开始研究如何扩展负载（loss scalling）。我们要解决的是如何在特定规模上应用某种方法，并预测它如何随着模型规模、固定参数数量以及数据量的变化而作出适应性调整。这是我与许多同事一起完成的工作，主要关注如何将密集参数模型的负载扩展适应到一个需要预测性能的环境中，而且这个性能预测不仅与模型的大小有关，还与专家的数量有关。

Chinchilla 是我参与的第二个研究项目，这个项目是我和 Seb、Jordan、Laurent 等人共同完成的，我认为 Chinchilla 是 LLM 发展当中一篇相当重要的论文。2020 年发表的第一篇论文提出的模型训练方法其实在实际执行过程中并不理想，因为人们训练 LLM 时使用的 token 数量过少，我们当时观察到的是，其实应该随着模型规模的提升而去增加 token 的数量，确保模型规模和 token 数量成比例增加。这是更加合理的做法，因为我们不希望用一个规模无限大的模型来处理数量有限的token，也不希望用规模有限的模型来处理无限多的token。

这件事也是我们一个经验性的展示，所以被迅速采纳。对于相同的计算量，采用这种训练方法可以得到一个性能更好且运行成本降低四倍的模型。

随后，我们发现还可以更进一步，就是压缩模型，LLaMa 模型已经证明了其可行性。我们的 Mistral 7B 离压缩的极限还很远，我们通过制作一个可以在 MacBook Pro 上运行的规模小、运行成本低且速度快但足够好用的模型，以某种方式纠正了这一点。

Elad Gil：Mistral 7B 的发布引发了很多关注。一方面，你们只用了几个月内就完成了，另一方面，这个性能相当出色，让人们对模型成本优化的可能性有了新的认知，对于未来的模型规模和性能你们怎么看？是打算做更小但性能更好的模型，还是会做类似于 GPT-4、GPT-5 这种规模更大的模型？

Arthur Mensch：在 2021 和 2022 年这两年中，我们看到大模型领域的几家公司都在专注于提升模型的性能、并且只关注模型能力，因为前面两年最核心的问题还是模型能不能用，是以科学研究为核心目标去参与大模型的，在考虑把大模型投入实际应用之前，大家都不太会关心推理成本。但当我们开始关注模型的部署和下游应用时，就必须认真思考模型运行所带来的成本。

模型带来的成本不仅包括部署成本、还有模型运行的成本。根据需求不同，推理成本和训练成本之间的系数也各有不同。我们认为，最大程度地降低推理成本相当重要，因为这意味着我们可以去运行 AI Agents、在几乎所有场景中使用 LLMs 且不再受困于高昂的成本，这是当前 LLM 很普遍存在的问题和需求，也是 Mistral 考虑要做的，只是一个具有优越性能的7b 模型还不够、并不是我们的终点。

我们接下来肯定会训练更大规模的模型。一个特定规模的模型一定是存在能力上限的，虽然我认为这个上限可能被低估了，但如果想获得更强的推理能力，人们还是需要使用更大规模的模型。使用更大规模模型也意味着我们可以在这个模型基础上，通过蒸馏（Distillation）或者合成数据（Synthetic data generation）等技术来训练出质量更高的小模型。所以大模型和小模型这两件事之间存在相关性。

Sarah Guo ：可以讲讲你们的数据收集、处理和标注方法吗？

Arthur Mensch：我们已经讨论过计算的重要性，数据质量也的确是影响模型表现的重要因素。因为我们训模型也是基于公开网络来获得数据，所以在数据资料角度我们也做了很多工作，并且取得了还不错的结果。

数据标注是另外一个话题，它和预训练之间的关联也很紧密。当我们去预训练一个模型的时候，我们希望能够给到模型的数据全部都是知识性的、高质量的数据。我们会调整和指导模型，让它按照我们的指令执行任务，确保模型的可控性，从而让模型适用于更多的应用场景。

我们确实需要一定数量的人工标注或机器生成的标注，我们已经着手做这件事了，在通过高质量指令微调模型方面，我们可能并不是全球顶尖的，但我们在不断改进和提升，团队的表现也越来越好。

Sarah Guo ：Mistral 是一个法国团队，你之前提过欧洲会诞生一家重要的 AI 公司来服务全球的 AI 需求？Mistral 目前还很早期，你对这件事的信心来自于什么？

Arthur Mensch：欧洲在 AI 人才储备上有很强的优势，英国、法国和波兰等这些欧洲国家都非常擅长培养数学家，而数学家在 AI 研究中的优势相当明显，并且这些人才中有很多是希望留在欧洲的，因为他们更适应欧洲的生活，并不一定非要离开欧洲，去美国或其他地方。

因为 DeepMind 的原因，伦敦的 AI 生态肉眼可见地正在崛起，紧接着会是巴黎，因为 DeepMind 和 Meta 都在巴黎开设了自己的办公室和 AI Lab，与此同时，还有很多企业家决定回到欧洲，到今天巴黎已经有几百家初创公司了，虽然离硅谷还差很远，但很明显整个生态开始完善，所以我认为类似于湾区的那种飞轮也会在法国出现。

02.

开源与 AI Safety

Sarah Guo ：为什么你们选择开源、并定义自己是一家开源公司？

Arthur Mensch：在过去 10 年里，机器学习技术已经从一个简单的猫狗识别器发展到现在几乎可以模拟人类智能的程度，如果回看整个过程，就能发现这惊人的进步是因为有很多学术和工业界的 AI 研究团队在不同方向和关键问题研究中投入了大量资金和精力。

并且，直到 2020 年前（拾象注：此处指在 GPT-3 前，大部分 LLM 都是开源的），几乎所有研究成果都是共享和透明的，任何一个研究团队，无论是哪个实验室，甚至是竞争对手的实验室，他们的研究成果都会在神经科学会议（NIPS）或国际机器学习会议（ICML）上发布。每 6 个月，研究者们都会聚集在一起分享最新的研究成果，随后大家又会在其他人的工作基础上继续研究，正是各个 AI Labs 之间的充分合作、共享与开放交流，才让我们走到了今天。

变化出现在 2020 年，因为一些公司在某些领域开始取得领先地位，并意识到可以从中获得价值，这个领域随之变得不再透明了。我们已经在软件领域看到过开源与闭源交替的周期，现在在机器学习领域也出现了这样的周期。我们认为，过早进入闭源阶段对科学发展是有害的。如果在一个不透明的环境中，可能会出现大家在同一个关键任务、研究上做投入，但因为没有公开分享儿导致大量重复劳动和资源浪费，以至于我们真正想要实现的技术无法得到充分研究。

比如，现在 AI 的推理能力仍然不理想、它对记忆机制和因果机制的理解也有限、可控性也有待提高。我们的 AI 还不够完善，很多基础性问题还没有解决。因此，我们需要探索和解决很多问题，如果不能充分讨论这些问题的话，我们怎么能更快地推动 AI 的完善呢？并且，为了研发新技术，我们需要投入大量资金进行大规模实验，但一些拥有强大资金资源的公司变得越来越封闭，这是我们感到遗憾的地方，我们正在努力改变这种情况，也很感谢 Meta 正在朝这个方向发展。

我们希望通过更开放地分享我们的技术，我们希望引导社区朝着更好、更安全的方向前进。我们的真正目标是占据领导地位，并改变游戏规则，因为我们认为当前的发展方向并不正确。

Elad Gil： 这个观点很有趣，因为在当前的讨论中，大型科技公司都声称开源 AI 是危险的，这种行为其实有点监管占用（Regulatory Capture），巨头们希望监管机构介入、以便限制创新和控制整个行业。但对于全球健康和公平等问题，开源可能才是让所有人从中受益的主要途径。

Arthur Mensch：如果从务实的角度来考虑，我们需要回答的问题是，今天的开源模式是否适用？它是否具有潜在的危险性？比如是否会被恶意行为者滥用、让这些人拥有实现某些邪恶目标的能力？我认为这个问题的答案是“否”。我们已经看到了很多关于生化武器、核恐怖主义等话题的讨论，我认为在很多情况下，人们是出于正面的目标使用 LLM 的，这也是我们大多数情况下的立场。

如果深入探究就会发现，如果有人为了实现某些有害行为去做一些信息收集的话，可能反而是传统搜索引擎而不是 LLM 更容易实现这件事。另外，也没有证据表明，提供某些知识是导致知识被不正义者滥用的主要原因。所以，在两个角度上，我们并不能证明开源 LLMs 是不安全的。

这也是为什么我认为我们可以开源自己模型的原因，并且，开源是让它们接受严格审查的最好的途径，从而让我们为下一代模型做好准备。但到了下一代新的模型，我们还需要重新再评估前面提到的问题。但至少在处理目前网络上已经可以广泛获得的知识和信息时，我们创造的 LLM 并不会比传统搜索引擎技术更危险。

开源带来的风险和益处之间存在一种权衡，我们需要通过动态的对话来寻找最佳解决方案，这就是我们在 AI 安全峰会上讨论的内容。

禁止开源实际上是一种强制性的监管占用，即使那些从中受益的参与者也不希望这种情况发生。但如果真的禁止小公司开源，确实更有益于大公司的发展，但是这不利于 AI 领域的整体发展。

Sarah Guo ：可能在中短期过度讨论生物武器类似问题确实并不落地，但如何保证 AI 模型生成的内容是安全这件事确实相当重要的。你对此有什么想法？

Arthur Mensch：我认为这个问题很重要。模型能够生成各种文本，但很多情况下我们并不希望它什么文本都去生成，开发程序的时候，我们就要考虑的是在模型的输出和输入上做出什么样的限制，因此我们需要构建一个系统，用于过滤掉无效或违法的输入输出。

首先，我们会创建一个应用程序开发者可以使用的模块化结构，即提供一个未经修改、不会禁止各类输入输出的原始模型，然后应用开发者可以在此基础上添加新的过滤器，用于检测他们不想要的输入输出，比如开发者在创建聊天机器人时需要过滤掉色情内容和仇恨言论内容。但我们不想用原始模型来禁止这些内容，因为如果要用原始模型来做内容审查，就需要让原始模型来学习这些内容。

所以，假设模型一定要表现得符合规范可能是一个错误的，我们应该假设模型需要先了解所有知识内容，然后在这个基础上去设定一些模块来完成审查、设定模型的防护措施，这可能是一种让开发者创建安全的 LLM 应用的方式，并且我认为提供有用的防护模块也会模型开发者的责任，这是平台的一部分，并且在这个领域中应该存在良性竞争，每个初创公司都可以尝试。

这意味着现在应用开发者需要找到强大的保护措施。现在的形势是，各方都在为提供最优的防护措施解决方案并获取一定的经济利益而展开竞争，我们认为这是生态系统的正常运作方式，也决定了我们如何定位自己。我们正在构建一个具备模块化过滤器和模块化机制的平台，用于管理模型网络。

Sarah Guo ：你之前就提到过正在基于自研模型构建一个平台，能和我们分享一下这个平台的更多信息吗？

Arthur Mensch：我们都知道模型托管很难，因为需要在推理端做大量工作来提高服务效率，训练端同样如此，必须构建出内存效率高的架构，而这正是 Mistral 很擅长的，因为它具有一种路径注意机制（Attention Mechanism），让模型的内存效率更高，这是在训练方面可以做的工作。但为了充分利用模型的所有优势，我们还需要在推理路径上进行优化。我们正尽可能提高推理效率，构建一个成本效益更高的平台，这个平台可以提供好的代码、高质量的推理代码。

平台的另外一个好处是我们可以管理和调度客户需求，从而让模型能力可以被很多用户“共享”（Time-sharing），如果用户很在意安全，则可以在云服务商的容器设施上去运行模型，如果您只是简单使用，则可以通过 API 的方式，这样成本会更低，因为一个H100 可以为数百名客户提供服务。我认为模型实验和 API 调用存在着相当大的需求，这也是我们在为其他企业客户提供自托管平台的同时开始构建的服务之一。

Elad Gil：很高兴你们对 AI 安全问题有如此深入的思考。在讨论 AI 安全问题时，人们通常谈论三个主题，它们有时会有交叉。

第一类是关于文本风险的内容审查，包括对仇恨内容、非法内容和偏见等不安全内容生成的解决，第二类是 AI 可能对物理世界带来的风险，例如生化武器、AI 导致火车脱轨或其他形式的干预，第三类是对人类存在性或物种存续的风险，通常在人们讨论 AGI、新的生命形式以及资源竞争与集中等问题是会提及。

Arthur Mensch：首先，我认为这三个问题要分开讨论。第一个问题已经存在解决方案，而对于第二个问题，目前没有证据表明它实际存在，也没有证据表明它将在不久的将来出现。

第三点则更偏哲学性，如果我们可以构建一个非常复杂的系统，它可能会做出我们不想要的行为。但现阶段我们的模型还不具有任何复杂性，所以我很难想象这种情况的发生。我认为，我们将走向一个 Agents 和 AI 交互的世界，系统的复杂性也会因此大幅增加。这种高度复杂的情境可能导致崩溃（Collapse），即机器学习中的一种一切都停滞不前的状态，因为模型陷入了局部最小值，无法找到更好的解决方案。

我不确定复杂性是否必然会导致崩溃，但通常情况下，复杂性会导致无所作为，因为没有自组织和建设某事的意愿，所以我也不会过分担心存在性风险。并且相关的讨论也会随着技术发展而不断变化，是动态的。

如果我们能够创建一个智能水平不断提升的模型，也许我们会接近奇点，但目前没有证据表明我们正在朝这个方向发展。因此，我认为这是一个开放的讨论，我个人没有看到科学证据，作为科学家，我只相信我所看到的事实。

Elad Gil：你刚提到的 Agents 这个领域最近讨论度也很高，我觉得和 Agents 相关的一些东西在未来的一段时间里会实现，但目前仍然处于早期阶段。你们是否也在研究相关的技术，来推动 AI Agents 应用？

Arthur Mensch：我认为，让模型变小一定是有助于 Agents 的开发和应用，因为如果在 GPT-4 上运行 Agents，推理成本会很高，很容易很快就耗光资金。但如果能通过小模型将 Agents 运行的计算成本降低 100 倍，那么我们就能够有机会构建很多有意思的应用了。

现有的 Agents 在运行过程中会出现模式崩溃（ Mode Collapse），它们开始重复输出相同的内容，陷入循环。因此，我们还需要开展研究，让模型更有推理能力和适应能力，能够根据任务难度调整计算量，在一定程度上解决 Agents 面临的问题，这是我们正在探索的研究方向。

Sarah Guo ：你怎么看任意计算和规模上限？

Arthur Mensch：这很有趣。我不确定他们是如何设定这个阈值的。不管从哪个角度看，这都是一个非常高的阈值。假设我们使用双精度浮点数（float 64）来计算，相当于大约 3 亿次计算。这个数值非常高，现在以及未来几年内我们甚至无法承担这样的计算成本（因此也无法预测达到如此高的计算量时模型的表现如何）。这个阈值非常高，而且非常随意，因为没有明确的证据表明超过 10 的 26 次方就会导致坏的能力和不良行为的出现。

模型的能力不完全取决于规模，也取决于数据，数据集非常重要。比如说有人想训练模型来制造生化武器，如果想阻止模型生成可能导致恶意行为的化学成分，我们需要根据处理数据情境来调整计算和浮点运算的资源预算。现实中也是这样做的，模型开发者为生物学制定了特定的浮点运算预算。生化武器的叙事就此形成。

我们更应该关注模型的能力，而非预设市场条件。我们都知道这个阈值只是与实际情况高度相关的代理变量。但是关于如何评估模型的能力、哪些能力是危险的，我们必须就这些问题的评价标准达成一致，而不是简单地规定一些市场条件或计算量。