OpenAI「草莓」模型再次跳票,凌晨发布的SWE-bench Verified是个啥?
编辑:张倩、小舟
有人说,「我们期待的是草莓,但他们发布的是羽衣甘蓝。」我们来看看这个「羽衣甘蓝」是做什么用的。
用于评估解决方案正确性的单元测试通常过于具体,有时甚至与问题无关。这可能导致正确的解决方案被拒绝。 许多样本的问题描述不够明确,导致对问题是什么以及应该如何解决存在歧义。 有时很难为智能体可靠地设置 SWE-bench 开发环境,这会无意中导致单元测试失败,而不管解决方案如何。在这种情况下,完全有效的解决方案可能被评为不正确。
工具地址:https://github.com/princeton-nlp/SWE-bench/tree/main/docs/20240627_docker
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章