首个WebAgent在线评测框架和流程数据管理平台,GPT-4、Qwen登顶榜首!
论文链接:
WebCanvas平台链接:
项目代码链接:
数据集链接:
潘奕琛、周思达、崔成以跨越星空科技算法实习生的身份共同完成了本论文的研究工作。
现有的评测方法大多停留在静态数据集或模拟网站的层面。这些方法有其价值,但局限性显而易见:静态数据集难以捕捉网页环境的动态变化,如界面更新和内容迭代;而模拟网站则缺乏真实世界的复杂性,未能充分考虑跨站操作,例如使用搜索引擎等操作,这些因素在真实环境中是不可或缺的。
▲ WebCanvas 框架图。左侧展示的是任务的标注过程,右侧展示的是任务的评估过程。WebCanvas 考虑到了在线网络交互中任务路径的非唯一性,“奖杯”代表成功到达每个关键节点后获得的步骤分数。
基于 WebCanvas 框架,作者构建了 Mind2Web-Live 数据集,该数据集包含从 Mind2Web 中随机挑选出的 542 个任务。本文作者还为数据集中的每个任务都标注了关键节点。通过一系列实验,我们发现,当 Agent 配备 Memory 模块,辅以 ReAct 推理框架,并搭载 GPT-4-turbo 模型后,其任务成功率提升至 23.1%。我们深信,随着技术的不断演进,Web Agent 的潜力依旧无限,这个数字将很快会被突破。
以 WebCanvas 框架图绿色部分为例,用户需要在烂番茄网站上寻找评分最高的即将上映的冒险电影。他可以通过多种途径达到目的,比如从烂番茄的首页开始探索,或者直接通过搜索引擎定位置“即将上映的电影”页面。在筛选影片的过程中,用户可能先选择“冒险”类型,再根据受欢迎程度排序,或者反之亦然。虽然存在多条实现目标的路径,但进入特定页面并进行筛选是完成任务不可或缺的步骤。因此,这三个操作被定义为该任务的关键节点。
WebCanvas 的评估体系分为两大部分:步骤得分和任务得分,两者共同构评估 WebAgent 综合能力。
步骤得分:衡量 Agent 在关键节点上的表现,每个关键节点都与一个评估函数相关联,通过三种评估目标(URL、元素路径、元素值)和三种匹配函数(精确、包含、语义)来实现。每到达一个关键节点并通过评估函数,Agent 就能获得相应的分数。
任务得分:分为任务完成得分和效率得分。任务完成得分反映 Agent 是否成功拿到了此任务所有的步骤得分。而效率得分则考量了任务执行的资源利用率,计算方法为每个步骤得分所需的平均步骤数。
作者从 Mind2Web 训练集中随机抽取了 601 个与时间无关的任务,以及测试集 Cross-task 子集中的 179 个同样与时间无关的任务,然后将这些任务在真实在线环境中进行标注。最终,作者构建了由 542 个任务组成的 Mind2Web-Live 数据集, 其中包含了 438 个训练样本和 104 个用于测试的样本。下图直观地展示了标注结果和评估函数的分布。
数据标注过程中,作者使用了跨越星空科技开发的 iMean Builder 浏览器插件。该插件能够记录用户浏览器交互行为,包括但不限于点击、文本输入、悬浮、拖拽等动作,同时记录操作的具体类型、执行参数、目标元素的 Selector 路径,以及元素内容和页面坐标位置。此外,iMean Builder 还为每一步操作生成网页截图,为验证和维护工作流程提供了直观的展示。
通过此方案,我们有效解决了流程失效带来的挑战,确保了评测数据集能够适应网络世界的不断演变,为自动化评测 Agent 的能力提供了坚实的基础。
同时,作者鼓励社区成员积极参与,共同构建一个良好的生态系统。无论是维护现有数据的完整性,还是开发更先进的 Agent 进行测试,甚至是创造全新的数据集,WebCanvas 都欢迎各种形式的贡献。这不仅促进了数据质量的提升,还鼓励技术创新,能够形成良性循环推动整个领域向前发展。
规划(Planning):基于 Accessibility Tree 的输入,Planning 模块运用 ReAct 推理框架进行逻辑推断,生成具体的操作指令。此模块的核心功能在于根据当前状态和任务目标,给出行动路径。 观察(Observation):Agent 通过解析浏览器提供的 HTML 源代码,将其转换成 Accessibility Tree 结构。这一过程确保了 Agent 能够以标准化格式接收网页信息,便于后续分析和决策。 记忆(Memory):Memory 模块负责存储 Agent 在任务执行过程中的历史数据,包括但不限于 Agent 的思考过程、过往的决策等。 奖励(Reward):Reward 模块能对 Agent 的行为给予评价,包括对决策质量的反馈以及给出任务完成信号。
主要实验
除此之外,作者还探索了 Reward 模块对 Agent 能力的影响,其中 (+) 号代表 Reward 信息中包含人类标注数据以及关键节点信息供 Agent 参考,Human Alignment 分数代表 Agent 与人类的对齐程度。初步实验的结果表明,在线网络环境中,Agent 并不能够通过 Self Reward 模块改善能力,但是整合了原始标注数据的 Reward 模块能够增强 Agent 的能力。
在附录中,作者对实验结果进行了分析,下图是任务复杂度与任务难度之间的关系,橙色线条描绘了关键节点达成率随任务复杂度增加的变化轨迹,而蓝色线条则反映了任务成功率随任务复杂度的变化轨迹。
▲ 任务复杂度与任务难度之间的关系。“num of steps”指的是标注数据中动作序列的长度,与关键节点的数量一起作为任务复杂度的参考。
下表是实验结果与地区、设备、系统之间的关系。作者鼓励实验在美国地区或使用美国的 Windows 服务器进行相关实验。
我们呼吁整个科研社区共同协作,以应对未知挑战,推动评测技术的革新与完善。我们坚信,只有通过持续的研究与实践,才能逐步克服这些障碍。我们期待着与同行们携手并进,共创 LLM Agent 的新纪元。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
微信扫码关注该文公众号作者