「成熟」大模型才能涌现?MIT:GPT-4能自我纠错代码,GPT-3.5却不行
新智元报道
新智元报道
【新智元导读】MIT、微软的研究发现,GPT-4能够自我纠正错误代码,GPT-3.5却不行。无独有偶,其他研究也表明,似乎只有「成熟」的大模型才具备涌现能力。背后的原因竟是因为……
只有足够「成熟」的模型才能听取并在自然语言反馈的基础上进行改进;较弱的模型要么无法理解反馈,要么无法对其进行改进。 我倾向于相信这种「涌现能力」(通过语言反馈自我改进)将对LLM的发展产生非常重大的影响,因为这意味着AI可以在很少的人工监督下持续不断地进行自主改进。
揭秘用于代码生成的GPT自修复
1. GPT-4才能实现自我修复带来的性能提升;对于GPT-3.5,在所有预算下,修复后的通过率要低于或等于基准的无修复方法。 2. 即使对于GPT-4模型,性能提升也最多只能算是适度的(在预算为7000个token的情况下,通过率从66%提高到71%,约等于45个独立同分布的GPT-4样本的成本),并且取决于初始程序的多样性足够丰富。 3. 使用GPT-4生成的反馈替换GPT-3.5对错误的解释,可以获得更好的自修复性能,甚至超过基准的无修复GPT-3.5方法(在7000个token下,从50%提高到54%)。 4. 使用人类程序员提供的解释替换GPT-4自己的解释,可以显著改善修复效果,修复并通过测试的程序数量增加了57%。
实验
GPT-4反馈改进了GPT3.5的修复结果
作者介绍
Jianfeng Gao
Chenglong Wang
符尧的相似发现
参考资料:
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章