吴恩达：四个步骤，让大模型变得更好

公众号新闻

2024-05-17 15:05

机器之心报道

编辑：小舟

本周，生成式 AI 的竞争达到了新的高潮。

前有 OpenAI 抢先发布 GPT-4o，后有谷歌在 I/O 开发者大会上发布一系列生成式人工智能模型与产品。

自 2022 年 11 月 OpenAI 推出 ChatGPT，至今已有 18 个月。学界、业界为了提升生成式 AI 模型的能力，做出了诸多努力。

今天，著名人工智能学者、斯坦福大学教授吴恩达高度总结了提升生成式 AI 模型能力的方式，主要包括：1）提升模型的推理能力；2）扩展上下文窗口，并撰写一篇博客阐述了一套通用且高效的 prompt 策略。

我们对博客内容进行了不改变原意的编译、整理，以下是博客内容：

本周，谷歌宣布将 Gemini Pro 1.5 的输入上下文窗口扩大一倍，从 100 万 token 扩展到 200 万 token；OpenAI 发布了 GPT-4o，它的生成速度是 GPT-4 Turbo 的 2 倍，而且便宜 50%，原生支持输入、生成多模态 token。这是 18 个月以来的最新进展。

自 2022 年 11 月 ChatGPT 推出以来，随着 GPT-4、Gemini 1.5 Pro、Claude 3 Opus 和 Llama 3-70B 的发布等重要里程碑的到来，许多模型提供商通过两个重要方式提高了自己的能力：

提升模型的推理能力，使 LLM 能够思考复杂的概念并遵循复杂的指令；
更长的输入上下文窗口。

GPT-4 和其他高级模型的推理能力使它们非常擅长解释带有详细说明的复杂 prompt。许多人习惯向 LLM 快速提出 1 - 2 句话的查询。相比之下，在构建应用程序时，我看到经验丰富的团队经常编写可能长达 1 - 2 页的 prompt（我的团队称其为「mega-prompt」），这些 prompt 提供复杂的指令来详细说明我们希望 LLM 如何执行一个任务。我仍然认为团队在编写详细指令方面做得不够好。有关中等长度 prompt 的示例，请查看 Claude 3 的系统 prompt，详细且为 Claude 应该如何执行任务提供了明确的指导。

这是一种与我们通常在 LLM 网络用户界面中使用的非常不同的 prompt 方式。在这种方式中，我们可能会快速进行查询，如果响应不满意，则通过与聊天机器人反复对话来表述清楚我们想要什么。

此外，输入上下文窗口长度的增加为开发人员的工具箱添加了另一种技术。GPT-3 激发了关于小样本上下文学习的大量研究。例如，如果您使用 LLM 进行文本分类，您可能会提供一些（例如 1 - 5 个）文本片段及其类别标签的样本，以便它可以泛化到其他文本。

GPT-4o 接受 128000 个输入 token，Claude 3 Opus 200000 个 token，Gemini 1.5 Pro 100 万个 token（200 万个 token 目前仅适用于预览版）。然而，随着输入上下文窗口变得越来越长，人们发现 LLM 并不局限于少数样本。通过多样本（many-shot）学习，开发人员可以在 prompt 中给出数十个甚至数百个样本，这比少样本（few-shot）学习效果更好。

在构建复杂的工作流时，我看到开发人员通过如下过程获得了良好的结果：