Redian新闻
>
GPT-4加Agent轻松追平Devin!普林斯顿造,开源首日斩获1.6k星

GPT-4加Agent轻松追平Devin!普林斯顿造,开源首日斩获1.6k星

公众号新闻


MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。
转载自 | 量子位
作者 | 白交

用GPT-4打造的AI程序员,结果轻松追平Devin!

普林斯顿打造的开源SWE-agent,直接开箱即用——修复GitHub存储库中真实bug。

在25%的SWE-bench测试集上,它实现了与Devin相似的准确度—— 解决了12.29%的问题。

GitHub上线首日即斩获1.6K星。不少网友感叹,只需对GPT-4命令行工具进行简单设计,就可以让GPT-4部分能力大幅提升。

这恰好也印证了前几天吴恩达在演讲中的观点:

我认为AI Agent将在今年推动人工智能巨大进步,甚至可能超过下一代基础模型。

因为在吴恩达的研究中,GPT-3.5的Agent比GPT-4的表现还要好。

如今开源版Devin现世,已经有人开始RIP Devin了。

这就来看看这个开源版Devin长什么样。

开源版Devin来了

简单来说,SWE-agent是将语言模型(比如GPT-4)转变为软件工程agent,来Debug GitHub存储库中的一些问题。

他们设计了以 LM 为中心的命令和反馈格式来实现这些结果,使语言模型更容易浏览存储库、查看、编辑和执行代码文件。

用他们的说法,这叫做代理计算机接口(ACI),并构建SWE-agent存储库,以便轻松迭代ACI设计。

在SWE-agent上,团队主要设计了这些功能。

  • 创建文件查看和编辑器,可以打开、滚动和编辑文件。

结果发现每轮只显示100行时效果最佳。

  • 通过自动语法检查编辑特定行。

如果代码语法不正确,就不让编辑命令通过。当命令输出为空时会返回一条信息:”您的命令运行成功,但未产生任何输出”。

  • 编写和执行测试。

目前使用SWE-agent主要有两个步骤。

首先,推理。SWE-agent接收一个输入的GitHub问题,并返回一个试图修复该问题的拉取请求。

第二步是评估拉取请求,以验证它是否确实修复了问题。*(目前仅适用于SWE-bench 基准中的问题)。

英伟达科学家Jim Fan为其工作点赞:Great Work!揭开了炒作背后的简单本质。

只需对GPT-4命令行工具进行更好的手动设计,就能在SWEBenche上获得12.3的成绩。没有什么神奇之处,没有什么模型突破,也没有什么理由要极力炒作。

当GPT-5到来时,这些 “提示工程 2.0 “都将不再重要。

这不免让人想到前段时间Devin横空出世,如今也很少见人讨论它了。

不过也有人问为什么不用Claude 3来做Agent,主创团队表示:尝试了,但结果不太好。

在SWE-bench Lite(测试集的 10% 子集)上,它的成绩比GPT-4少了近 6%。而且它也慢得多。(GPT-4的响应时间是93秒)

除此之外,他还表示团队在logo设计上费了很大心思——

花了几个小时用DALL-3来设计。(Doge)

普林斯顿造

这是来自普林斯顿NLP小组打造的软件工程Agent。

据了解,John Yang和Carlos E. Jimenez是共同一作。

除此之外还有姚顺雨,目前是普林斯顿在读博士生,2015年毕业清华姚班。

他们的共同导师是Karthik Narasimhan,目前是普林斯顿NLP联合主任,跟陈丹琦是同事。

团队表示,他们将在4月10号发布论文。

虽然但是,最后还有一个灵魂拷问:

但GPT-4不是开源的……

好了,你觉得这个开源的AI程序员怎么样呢?

参考链接:
[1]https://swe-agent.com/
[2]https://twitter.com/DrJimFan/status/1775173542470111475


技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注:姓名-学校/公司-研究方向
(如:小张-哈工大-对话系统)
即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名的机器学习与自然语言处理社区,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。
社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
春节在美国:到底是“中国新年”还是“农历新年”?美国华裔女性的骄傲!丁维平Diana Ding女士获得2024加州杰出女性奖!250行代码从头搭建Llama 3,GitHub一天4.6k星!Karpathy大赞简单好用!北大、普林斯顿联合提出即插即用的大语言模型加速方法带出哈佛、普林斯顿、MIT的全球爬藤大神继续PK!还有沪上热门双语校校长面对面!标化备考指南......首富小三上位记:普林斯顿男终究逃不过南加大女【惠宜美本】Ivy Day!普林斯顿+4,耶鲁+2,布朗+3,宾大+1,康奈尔+2,达茅+1,杜克+3,伯克利+2,NYU+4定了!斯坦福、普林斯顿前招生官空降纽约、新泽西!想进名校的速进普林斯顿大学数学系的崛起被遗忘的女人希腊罗德岛(Rhodes),激动人心的时刻普林斯顿华裔新生离世,北大著名女作家儿子先后自杀,谁能看见背后的“黑手”?在全美第一的普林斯顿大学,我上了一门中国人最少的课Ivy Day 传普林斯顿大学2028届招生名单泄露?结果…开源版AI程序员来了:GPT-4加持,能力比肩Devin,一天1.4k Star回顾从哈耶克开始的英美新自由主义8万打底,已超9万!2024英美学费涨疯了!难怪有人申到普林斯顿,却不读......2024《普林斯顿评论·最佳大学排名》发布!学生眼中的 “最好大学” 是...普林斯顿北京男孩:4年逃离帝都“内卷中心”到美国读高中,是我最正确的决定速度秒杀GPT-4o!Mistral开源首个22B代码模型破记录,支持80+编程语言准留学生寒假必读丨普林斯顿教授书单曝光,推荐收藏一诺对话普林斯顿大学教授:成为超级个体的底层能力——人人可创业的思维方式独家对话普林斯顿前招生官,名校录取问题一网打尽!涨价!普林斯顿、斯坦福、宾大等宣布学费上调!外企社招丨Dräger德尔格,行业全球领导者,15薪,六险一金,多样福利,偏爱留学生“因为交不起学费,我放弃了普林斯顿offer......”史无前例!SSAT普林斯顿官方人员首次来华与家庭见面答疑!内电离喷气发动机GPT贝佐斯重回世界首富!当普林斯顿男遇上南加大女,恋爱脑才是“最强大脑”?喜报!藤校放榜,普林斯顿+1,哥大+2,布朗+3,加州伯克利+15!上海AI Lab开源首个可替代GPT-4V的多模态大模型马斯克打脸OpenAI,全球最大巨无霸模型Grok-1开源!3140亿参数8个MoE,GitHub狂揽6k星我的儿子从被诊断为学习障碍,到斩获普林斯顿大学,一路都经历了什么?Champ首发开源:人体视频生成新SOTA,5天斩获1k星,demo可玩普林斯顿学霸自白:投递百份实习仅2个面试,CS专业真的要凉了?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。