Redian新闻
>
开源版AI程序员来了:GPT-4加持,能力比肩Devin,一天1.4k Star

开源版AI程序员来了:GPT-4加持,能力比肩Devin,一天1.4k Star

公众号新闻
机器之心报道
作者:泽南、小舟
不到 24 小时,Star 量突破 1400。

最近,有很多人在为 AI 代替自己的工作而担忧。


上个月火遍 AI 圈的「首位 AI 程序员」Devin,利用大模型能力已经掌握了全栈技能,仅需要人类给出自然语言指令,就可以自动完成复杂的代码任务。


Devin 展示的能力非常惊艳,不过这款工具出自走闭源路线的创业公司,现在只有一小部分获得了内测名额的人才能使用。


本周二,来自普林斯顿大学 NLP 组的研究人员放出了 SWE-agent —— 一个开源版 AI 程序员,不到一天就获得了上千的 GitHub Star 量。



SWE-agent 是一款用于自主解决 GitHub 存储库中问题的新系统。它在 SWE-bench 上获得了与 Devin 相似的准确度,平均耗时为 93 秒。



  • 项目网站:https://swe-agent.com/

  • GitHub:https://github.com/princeton-nlp/SWE-agent


该项目的作者 John Yang 表示,相关论文的预印版也将在 4 月 10 号上传。


从原理上看,SWE-agent 通过将大模型(例如 GPT-4)转变为软件工程智能体,可以修复真实 GitHub 存储库中的错误和问题。


在完整的 SWE-bench 测试集上,SWE-agent 解决了 12.29% 的问题,实现了 SOTA 性能。



为了提供开发过程中的自动化,SWE-agent 通过与专用终端交互来工作,它可以打开、搜索文件内容,使用自动语法检查、编辑特定行,也可以编写并执行测试。


该项目的开发者精心设计了 UI 界面,并在 GitHub 上进行了介绍。


智能体 - 计算机接口 (ACI)


研究团队设计了简单的以大模型(LM)为中心的命令和反馈格式,使大模型能够更方便地浏览存储库、查看、编辑和执行代码文件,这被称为智能体 - 计算机接口 (ACI)。研究团队还构建了 SWE 智能体存储库,以便轻松迭代存储库级编码智能体的 ACI 设计。


就像语言模型需要良好的提示工程(prompt engineering)一样,良好的 ACI 设计在使用智能体时会带来更好的结果。没有经过良好调整的 ACI 的基线智能体的表现比 SWE-agent 差得多。


SWE-agent 包含研究团队在智能体 - 计算机接口设计过程中发现的非常有用的功能,包括:


1. 添加一个在发出编辑命令时运行的 linter,如果代码语法不正确,则不会让编辑命令通过。

2. 为智能体提供一个专门构建的文件查看器。研究团队发现此文件查看器在每轮仅显示 100 行时效果最佳,并且该文件编辑器具有上下滚动以及在文件中执行搜索的命令。

3. 为智能体提供专门构建的全目录字符串搜索命令。研究团队发现该工具简洁地列出匹配项非常重要 —— 只需列出至少有一个匹配项的每个文件。该研究表明,向模型显示有关每个匹配的更多上下文对于模型来说太混乱了。

4. 当命令的输出为空时,返回一条消息:「您的命令已成功运行,但未产生任何输出」。


未来发布的论文将详述更多信息。


安装与使用


要使用 SWE-agent,首先要设置好如下条件:


1. 安装 Docker,并在本地启动 Docker;

2. 安装 Miniconda,并使用 conda env create -fenvironment.yml 创建 swe-agent 环境;

3. 使用 conda activate swe-agent 激活;

4. 运行 ./setup.sh 创建 swe-agent docker 镜像;

5. 在此存储库的根目录下创建一个 keys.cfg 文件并填写以下内容:


OPENAI_API_KEY: 'OpenAI API Key Here if using OpenAI Model (optional)'ANTHROPIC_API_KEY: 'Anthropic API Key Here if using Anthropic Model (optional)'GITHUB_TOKEN: 'GitHub Token Here (required)'

SWE-agent pipeline 包含两个步骤:


  • 第一步:SWE-agent 接收输入的 GitHub 问题,并返回尝试修复它的拉取请求(pull request);

  • 第二步:评估拉取请求以验证它确实解决了问题(目前仅适用于 SWE-bench 基准测试中的问题)。


如果想在整个 SWE-bench 上运行和评估,最简单的方法是使用 x86 机器。


python run.py --model_name gpt4 \  --data_path https://github.com/pvlib/pvlib-python/issues/1603 --config_file config/default_from_url.yaml

python run.py --model_name gpt4 \  --per_instance_cost_limit 2.00 \  --config_file ./config/default.yaml

如果想运行 SWE-bench 中的单个问题,可以使用 --instance_filter:


python run.py --model_name gpt4 \  --instance_filter marshmallow-code__marshmallow-1359




© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
惊掉下巴:GPT-4o现场爆改代码看图导航!OpenAI曝光LLM路线图,GPT Next年底发GPT-4加Agent轻松追平Devin!普林斯顿造,开源首日斩获1.6k星会颠勺的国产机器人来了:大模型加持,家务能力满分4K图像理解轻松拿捏!IXC2-4KHD:开创性的大型视觉语言模型!开源版GPTs人人免费用!Hugging Face发布定制个人助手,点2下轻松创建传奇程序员Kent Beck:LLM如何放大程序员技能 | 极客时间用Vue全家桶纯手工搓了一个开源版「抖音」【Poem Reading Tuesday】The Star 英文诗和英文歌的节奏有关系吗Chanticleer花园,呼唤春天微软首批AI电脑来了!一键Copilot带飞,英特尔酷睿Ultra加持,零售店买不到OpenAI抓内鬼出奇招,奥特曼耍了所有人:GPT搜索鸽了!改升级GPT-4OpenAI掌门人:GPT-4.0让我爱不释手 下代大模型可能不叫GPT-5越来越难买得起住房!多伦多住房负担能力比纽约和迈阿密还差GPTOpenAI CEO最新演讲:GPT-5性能远超GPT-4;媲美Sora,视频生成模型EMO上线通义APP丨AIGC日报一块钱100万token,超强MoE模型开源,性能直逼GPT-4-TurboChatGPT 之父最新演讲:GPT-5 聪明程度超乎想象,一大批 AI 公司的努力将毫无意义水中月芽夫妻山洞与世隔绝39年,妻子已兽化,爪子和撕咬能力比野兽还强OpenAI掌门人最新专访:GPT-4o让我爱不释手 下代大模型可能不叫GPT-5OpenAI爆炸更新:GPT-4免费了!新模型GPT-4o发布,视觉、语音能力大幅增强,速度起飞,API打骨折Llama 3突然来袭!开源社区再次沸腾:GPT-4级别模型可以自由访问的时代到来开源日报 | 离职后可以删除自己所写的软件吗;国产开源笔记本电脑在深圳发布;全球首位AI程序员爆火抱抱脸正面挑战OpenAI,推出开源版GPT商店!完全免费、支持六大开源模型当底座首个全开源时序预测基础模型:Zero-shot预测能力比肩从零训练最优模型前 LangChain 员工爆料更强的 Devin 2.0 要来了?所以,“世界首个AI程序员”到底造假没?春节在美国:到底是“中国新年”还是“农历新年”?王友琴:北京师范学院15位文革受难者,目前只找到5位:张牢,易佩恒,孙梅生,李莘 ,张天泳回顾从哈耶克开始的英美新自由主义国产开源MoE指标炸裂:GPT-4级别能力,API价格仅百分之一开源日报 | 构建一个类似英伟达CUDA的开源生态;“AI程序员”大杀四方,人类程序员开始反击;Podman 5.0发布开源日报 | 微软AI程序员登场,马斯克开源Grok;Open-Sora全面开源奥特曼最新万字访谈:GPT-5能力提升超乎想象,算力将成为未来最重要的货币ChatGPT 之父最新演讲:GPT-5 聪明程度超乎想象,一大批 AI 初创公司的努力将变得毫无意义开源多模态SOTA再易主,19B模型比肩GPT-4v,16G显存就能跑AI程序员来了,学会让它给你打工才是正事!| Q福利桌面版ChatGPT登台演讲,能视频通话还会实时读屏,GPT-4o最新demo再次惊艳:“能力还是被低估了”
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。