Redian新闻
>
前 LangChain 员工爆料更强的 Devin 2.0 要来了?所以,“世界首个AI程序员”到底造假没?

前 LangChain 员工爆料更强的 Devin 2.0 要来了?所以,“世界首个AI程序员”到底造假没?

公众号新闻
整理 | 褚杏娟

3 月份,有着“世界首个 AI 程序员”的 Devin 横空出世,立刻就被大家追捧。据报道,Devin 可以规划和执行需要数千个决策的复杂工程任务,并回忆每一步的相关背景,随着时间的推移学习并修复错误。一时间,各个程序员们心里慌慌。

近日,前 LangChain 员工 Andrew Gao 在网上爆料了即将上线的 Devin 2.0 新功能。

首先,启动交互模式以帮助 Devin 浏览网络。如果被卡在图片验证码之类的东西上,那么它非常有用。诚然,它有些慢(他们承认这一点),但它工作得足够好,能够做出点击动作。

其次,之前大家抱怨的使用 Devin 无法干预和编辑代码,现在可以通过启动 Web VSCode 来执行此操作。

另一个更新则是 Cookie,它让 Devin 能够使用用户的帐户登录网站,而无需向 Devin 提供用户密码。PhantomBuster 也做了类似的事情。

Andrew 举了个例子,他让 Devin 在 DoorDash 上订购鸡翅, Devin 很好地找到了店铺 Wingstop、选择了鸡翅以及操作各种复选框......

Devin 现在似乎更擅长编写网站:


Devin 还新增了“机器快照”功能,机器快照可以让用户保存 Devin 的状态,这样当服务器关闭时,用户可以再次启动。

Devin 还支持与 GitHub 集成,可以让 Devin 进行提交。

不过需要注意的是,Devin 背后公司 Cognition 并未正式发布上述功能。

创始人最新访谈,
闭口不谈造假风波

对于 Devin 来说,最火的时刻有两个:一是 3 月 13 日刚发布时,二是两周多后被指造假时。

就在上个月初,一位自称有 35 年软件工程师经验的网络博主卡尔质疑 Devin 造假,卡尔逐帧复现了 Devin 的演示视频并提出质疑,主要包括以下方面:

  • Devin 被认为能够解决任意 Upwork 任务。但在视频演示中,要求解决的问题与客户规定的要求(客户要求设置说明,而不是代码)不符;

  • Devin 正在修复 GitHub 存储库源中的错误,但它所编辑的文件实际上并不存在于该存储库中,而且它修复的一些错误是无意义的,属于人类永远不会犯的类型。推论:Devin 一定是在修复它自己创建的文件中的错误,但没有明确指出;

  • EC2 部分不需要进行任何编码,因为存储库中的自述文件包含完成任务所需的所有说明,只需一行调整即可正常工作,即使存储库是旧版本。这就是为什么客户要求提供有关如何在 EC2 上运行的说明,而不是一些编码要求。Devin 似乎没有阅读 README,也不明白它只需要执行几个预先存在的 Python 脚本。视频中的输出看起来任务很复杂,有很长的计划和许多显示工作已完成的复选框,但实际上这项工作毫无意义且多余;

  • Devin 的代码更改很糟糕,例如编写自己的低级文件读取循环而不是正确使用标准库;

  • 虽然视频看起来 Devin 很快就完成了任务,并且视频创建者能够在大约 30 分钟内完成所请求的任务,但聊天中的时间戳显示该任务持续了多个小时,甚至持续到第二天;

  • Devin 执行无意义的 shell 命令,如“head -n 5 foo | tail -n 5”。

卡尔认为,Cognition Labs 夸大了 Devin 的能力,视频描述和推文中存在谎言,造成混乱和误解。卡尔建议,不要在未经适当研究的情况下盲目重复和放大网上发现的主张。

“几乎没有任何人工智能产品能在经过大肆宣传后的几周后,依然表现让人满意。”有网友评价道。

虽然人们非常期待 Cognition 能对这些质疑进行回应,但截至目前该团队都没有做出解释。我们只能在 4 月中旬,Scott 的推特中隐约看到他对 Devin 缺点的态度:今天的 Devin 还远非完美。Devin 经常工作,但也经常犯错误、编写错误或陷入困境。

5 月 2 日,Scott Wu 参加的不到 30 分钟的采访视频发布。Scott 在视频里表示,未来工程师并不会因为 AI 减少,反而会越来越多。首先,AI 会对工程的需求变大,“很多问题可以用代码解决,也有很多问题可以用代码构建”;其次,Devin 不是决定做什么的人,使用它的人应该知道要构建什么、解决什么问题等,因此他认为 Devin 只是让工程师更加纯粹。

Scott 认为,Devin 更加擅长的领域在 Devops 和 Dev 设置方面。“Devin 第一个真正让我们兴奋的时刻是数据库表旋转、Kubernets 启动时。” 另一个很好的用例则是数据分析。Scott 强调,Devin 是执行者,它的重点是如何准确理解需求后将其表述为代码并做到。

“他们给了他一切机会来回应对视频的批评,但他一直回避。他没有说任何实质性内容。这次采访并没有激发人们对他的公司的任何信心。”有网友在采访视频下评论道,甚至有人调侃称,“加密货币诈骗者接受加密货币诈骗者采访。”

当然也有力挺的网友,“在这里看到这么多仇恨者真是太疯狂了。Scott 建立了一支非常优秀的团队,并正在开发一款革命性的产品。”

根据 Linkedin 显示,该公司目前有超过 35 人的员工,上面各项动态依然停留在 Devin 刚发布那天。

“无法透露更多细节”

Cognition 公司拥有三位创始人:CEO Scott Wu、CTO Steven Hao 和盒首席产品官 Walden Yan。

Scott Wu 自述自己 9 岁起开始编程,并且非常热爱将自己的想法变成现实的感觉。还有人挖出了 Scott Wu 在 14 岁时参加 MathCounts 比赛的视频。在比赛中,Scott Wu 回答奥数问题基本不需要多少思考时间,主持人念完问题,Scott Wu 马上能报出答案。

Hao 此前曾担任 Scale AI 的顶级工程师,这同样是一家价值可观的初创企业,专司 AI 系统的训练工作。Yan 则刚刚从哈佛大学退学,他要求对此事保密,因为自己还没跟父母通过气。创始人还自述团队共有 10 枚 IOI 金牌。

这样的团队已经获得了彼得·蒂尔的 Founders Fund 基金领投的 2100 万美元 A 轮融资。另外根据彭博社报道,前 Twitter 高管 Elad Gil 也参与了对 Cognition AI 的投资。

但 Cognition 如何在如此短的时间内取得重大突破仍然是个未解之谜。

Scott 拒绝透露太多关于该技术的底层细节,只表示他的团队找到了将 OpenAI GPT-4 等大语言模型(LLM)与强化学习技术相结合的独特方法。Cognition 方面也拒绝透露 Devin 在多大程度上依赖于其他现有大语言模型。

Scott 在访谈中也依然表示不能透露更多关于 Devin 如何运行的细节。

所有涉及运行实现的部分,整个 Cognition 团队都三缄其口,增加了神秘感的同时也让外界对其更加怀疑,毕竟“Talk is cheap,Show me your code”已经成为大家共识。

参考链接:

https://twitter.com/itsandrewgao/status/1786617554724921641

https://www.infoq.cn/article/WXRuf4M0fOibdRIEleJf?utm_campaign=geek_search&utm_content=geek_search&utm_medium=geek_search&utm_source=geek_search&utm_term=geek_search

https://news.ycombinator.com/item?id=40008109

https://www.youtube.com/watch?v=OvBiqmcnjHY

 内容推荐

探索智能科技的新边疆,《2024 年第 1 季度中国大模型季度监测报告》正式发布!OpenAI Sora 大模型和 NVIDIA Project GR00T 的发布、人形机器人的突破以及编码智能体的到来,正开启 AI 大模型的新纪元。在开源与闭源并行的新趋势中,AIGC 写作和 PPT 制作工具的测评展示了 AI 在内容创作和视觉呈现上的巨大潜力。InfoQ 研究中心邀您一同见证 AI 浪潮如何塑造未来🚀。欢迎大家扫码关注「AI 前线」公众号,回复「季度报告」领取。

 活动推荐

AICon 全球人工智能开发与应用大会暨大模型应用生态展将于 5 月 17 日正式开幕,本次大会主题为「智能未来,探索 AI 无限可能」。如您感兴趣,可点击「阅读原文」查看更多详情。

购票或咨询其他问题请联系票务同学:13269078023,或扫描上方二维码添加大会福利官,可领取福利资料包。


今日荐文


26岁带着百人团队冲刺大模型,面壁智能天才CTO:高效比参数更重要


神秘大模型一夜“征服”所有人,超GPT-4却无人认领?网友:OpenAI 要有大麻烦了


李飞飞首次创业:瞄准空间智能;巴菲特股东大会谈AI:与核武器相似;69岁比尔·盖茨被曝主导微软OpenAI联姻 | AI 周报


你也「在看」吗?👇

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
“干掉程序员”,百度是认真的!发布三大开发工具和全新操作系统,李彦宏:只要会说话就会干开发澳洲人,也流行讨价还价了,尤其这些大店!员工爆:能省数百刀[无语]“厨具全是污垢”!快餐店员工爆点餐黑名单!麦当劳、Tim Hortons、赛百味等通通上榜!护肤;锻炼;英语说车;何赛飞谈原生家庭时落泪你认识“滇”字吗?国内首个AI程序员入职阿里云:专属工号AI001,KPI是一人写完公司20%代码清晨的城市26岁中国女留学生失踪5天!警方竟休假没人管?其母称:女儿失踪前行为异常波士顿华人注意!青少年暑假没事干 YMCA发免费会员卡AI程序员Devin独角兽,半年估值20亿美元?业内曝AI泡沫:买卡500亿,收入30亿开源版AI程序员来了:GPT-4加持,能力比肩Devin,一天1.4k Star打造比英伟达 Blackwell更强的GPU别买,这个大牌衣服里藏有砒霜!前员工爆猛料,百货巨头吓疯了第一批用 LangChain 的程序员,已经碾压同事了…… | 极客时间不仅仅是美丽的皮囊哦!研究表明:外表高吸引力的人群具有普遍较好的免疫功能,包括更强的对抗细菌入侵能力马伯庸新书,美食X权谋X悬疑,[hào]吃有多了不起?谷歌员工爆料Python基础团队原地解散全球首个AI程序员当老板!IOI金牌得主全部工作AI掌盘,技术细节报告公开某开源公司前员工爆料:技术leader被下属挑战后狂怒爆粗、辞退怀孕女员工“厨具全是污垢”!快餐店员工爆点餐黑名单!麦当劳、Tim Hortons、赛百味等通通上榜!博主打假全球第一位AI程序员Devin!却可能再次反转!爱不是忘乎所以,爱是深思熟虑【解字】善,善哉燃油运送车作弊事件LangChain居然不香了?一线程序员现身说法,硬核博文剖析LLM应用开发原则热议!中国女留学生巴黎失踪10天后被找到,竟是被关精神病院+没收手机?最离谱的是警方休假没人管......大模型应用开发时代,竟有人预言“人人都可以成为程序员”?| 极客时间What’s Wrong With Chinese Weddings? Everything, Says Gen-Z“世界级运动员”堕落成“应召女郎”,她经历了什么?加州告别“飞车党”?所有新车将强制安装这东西......AI程序员Devin团队融资速度惊人,成立6个月再拿1.75亿美元融资开源日报 | 构建一个类似英伟达CUDA的开源生态;“AI程序员”大杀四方,人类程序员开始反击;Podman 5.0发布曾陷300亿元造假风波,“造假王”康美药业“复活”了!震惊!麦当劳、Subway等快餐店员工爆料:这些热卖产品千万别点!传奇程序员Kent Beck:LLM如何放大程序员技能 | 极客时间
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。