GPT现状:OpenAI创始成员揭秘大模型内部原理
这或许是OpenAI官方第一次详细阐述其大模型内部原理和RLHF训练细节......
Pretraining
预训练
Supervised Finetuning
监督微调
Reward Modeling
奖励建模
Reinforcement Learning
强化学习
将GPT助手模型
应用于问题
首先,目前最好的性能来自 GPT4 模型。它是迄今为止功能最强大的模型。 然后, 让提示里包含详细的任务内容、相关信息和说明。想想如果它们不能给你回邮件你会告诉它们什么。要记住任务承包商是人,他们有内心独白,他们非常聪明;而 LLM 不具备这些品质。因此,请务必仔细考虑 LLM 的心理,并迎合这一点。甚至向这些提示添加任何相关的上下文和信息。 多参考很多提示工程技术。我在上面的幻灯片中突出显示了其中一些,但这是一个非常大的空间,我只建议您在线寻找快速的Prompt工程技术。那里有很多内容。 尝试使用少样本few-shots示例提示。这指的是你不只是想问,你还想尽可能地展示(你想要的),给它举例子,如果可以的话,帮助它真正理解你的意思。 尝试使用工具和插件来分担 LLM 本身难以完成的任务。 然后不仅要考虑单个提示和答案,还要考虑潜在的链条和反射,以及如何将它们粘合在一起,以及如何制作多个样本等。 最后,如果你认为你已经最大化了提示工程的效果,我认为你应该坚持一段时间,看看一些可能对你的应用程序的模型微调,但预计这会更慢并且涉及更多。 然后这里有一个脆弱的专家研究区,我想说的是 RLHF,如果你能让它工作的话。它目前确实比 SFT 好一点,但是,我想说的是,这非常复杂。 为了优化您的成本,请尝试探索容量较低的模型或更短的提示等。
我还想谈谈我认为 LLM 目前非常适合的用例。
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章