Redian新闻
>
符尧最新研究:大语言模型玩砍价游戏?技巧水涨船高!

符尧最新研究:大语言模型玩砍价游戏?技巧水涨船高!

科技

深度学习自然语言处理 原创
作者:鸽鸽

若干年前,AlphaGo Zero用两个AI代理切磋围棋技艺,打败了人类。今早,符尧的一篇论文刷新了我的认知:让大语言模型相互对弈,再加一个评论家提供建设性意见,提高菜市场砍价技巧!这种模式被作者定义为In-Context Learning from AI Feedback (ICL-AIF),即来自AI反馈的上下文学习,使用评论家的反馈以及前几轮对话历史作为上下文。

没错,就是让GPT和Claude扮演卖家和买家,开展一场价格厮杀的对决!

论文:Improving Language Model Negotiation with Self-Play and In-Context Learning from AI Feedback
地址:https://arxiv.org/abs/2305.10142
代码:https://github.com/FranxYao/GPT-Bargaining

我们先来简单介绍游戏玩法:

任务是卖气球,交易价格设定为10美元至20美元,卖家要以更高的价格销售,而买家要以更低的价格购买!对于每轮交易,论文作者硬编码卖方以“这是一个好气球,价格为20美元”开始协商,买方则以“你是否考虑以10美元的价格出售它?”开始协商,协商结束后会有批评家提供反馈,改善买家或卖家的行为。衡量玩家表现的是最终成交价格

图:谈判游戏的设置

哪些模型参与游戏呢?

筛选条件是可通过API调用的聊天机器人,包括cohere-command、AI21的jurassic-2、OpenAI的gpt和Anthropic的claude。根据chain-of-thought hub和HeLM 之类的基准测试,这些模型的大致排名是:gpt-4和claude-v1.3大致相似,优于gpt-3.5-turbo和claude-instant-v1.0,也优于cohere-command和j2-jumbo-instruct。作者表示将在未来考虑更多的模型,例如Google的PaLM-2。

但是,由于cohere-command不能理解谈判规则、AI21的j2-jumbo-instruct不能整合AI反馈,所以这两个模型被剔除。只考虑剩下的三个模型:gpt-3.5-turbo,claude-instant-v1.0和claude-v1.3。从表1看出,这三个模型在人类和AI反馈方面都表现出相当的改进,这证明了这个游戏设置对于更强的LLM引擎是有效的。

表:使用AI反馈与从预定义池中随机选择的人类反馈相比,卖家的平均交易价格

有哪些有意思的实验结果?

由于这篇工作只是一个初步探索,我们先窥探一些模型表现方面有意思的成果吧:

1. 角色差异

像claude-instant-v1.0和gpt-3.5-turbo这样较弱的代理,作为卖方通过AI反馈进行改进比作为买方更容易,这表明买方角色比卖方角色更难扮演。但更强的代理(claude-v1.3 / gpt-4)作为买家,仍然可以从AI反馈中获得改进。

图:500场游戏的交易价格频率,反馈前v.s.反馈后。X轴是价格,Y轴是价格的频率

2. 迭代改进

将游戏展开到多轮,看看模型是否可以从先前的对话历史和迭代AI反馈中持续改进,会发现gpt-3.5-turbo可以在多轮中改进,但claude-instant-v1.0只能在最多一轮中改进。

图:多回合设置中,不同的模型在扮演卖/买家时有不同的行为

3. 成交价格和成交率的平衡

当扮演买家时,有些模型无法进行改进(claude-instant-v1.0),或在三轮之后趋于饱和(claude-v1.3),而gpt-4和gpt-3.5-turbo可以不断改进,gpt-4取得了比gpt-3.5-turbo更低的成交价格和更高的成交率。

图:GPT和Claude模型在多轮游戏中的交易价格及成交率

4. 语言复杂性

通过绘制每轮之后的平均响应长度(以字符数度量),可以看到,claude-v1.3和gpt-4在迭代AI反馈后回答变长。从具体的卖家回答示例也可以看到,经过多轮谈判,措辞也更加得体。但比起claude-v1.3,gpt-4能使用更少的词语实现更好的价格和成功率。

图:平均响应长度随着模型的多轮学习而增加

结论

大语言模型的确可以根据AI反馈迭代改进谈判策略,且更强的模型效果更明显!这个研究是否意味着,大语言模型可以在最少的人类干预下实现自我改进呢?只需给它一个评论家分身即可!


进NLP群—>加入NLP交流群

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
ChatGPT的朋友们:大语言模型经典论文一次读到吐InfoQ:大语言模型综合评测报告2023竹间智能总裁兼COO孙彬:大语言模型如何在企业落地OpenAI CEO:大语言模型规模已接近极限;余承东:造车 2025 不赢,以后没机会;苹果或曝多款新电脑 | 极客早知道BLIP-2、InstructBLIP稳居前三!十二大模型,十六份榜单,全面测评「多模态大语言模型」张俊林:大语言模型带来的交互方式变革MIT团队打造未来实验室:大语言模型与人类优势互补,全程紧密配合【友情转发】突破创新的边界:大学生亲临Web3.0和AI峰会,开启大语言模型时代深度学习三巨头之一 Yann LeCun:大语言模型带不来 AGI九剑一魂 - 第23回 太子遇害 贾后伏诛(九)百篇论文纵览大型语言模型最新研究进展上海内推 | 上海人工智能实验室招聘大语言模型算法研究实习生爱晒衣服的日本人符尧 | 复杂推理:大语言模型的北极星能力硬核科普:大语言模型,都是如何生成内容的2023美国买车砍价攻略 | 砍价小技巧+无压力砍价英文邮件模版商汤大模型全面升级!「商量SenseChat 2.0」大语言模型疯狂上分WAIC 2023 | 张俊林:大语言模型带来的交互方式变革大语言模型的多语言机器翻译能力分析谷歌最新《自然》论文:大语言模型构建的AI医生,比人类医生更出色北京内推 | 航天信息招聘大语言模型算法研究实习生(2023年暑期)首款人类粪便制成的口服药获美国FDA批准;谷歌本周将发布最新大语言模型PaLM 2|环球科学要闻长篇小说《如絮》第一百零三章 哈尔滨-1952-1953年 2 任务改写游戏规则!Meta开源大语言模型Llama 2,可免费商用;微软Copilot定价每月每用户30美元 | 环球科学要闻复杂推理:大语言模型的北极星能力微软发布 Guidance 语言,用于控制大语言模型OpenAI CEO:大语言模型规模已接近极限,并非越大越好山顶票飙升至300多元 陈奕迅北美演唱会门票水涨船高!斜风细雨不须归7 Papers & Radios | Meta「分割一切」AI模型;从T5到GPT-4盘点大语言模型百度肖阳:大语言模型重构搜索引擎,让搜索越来越懂用户学习生成式大语言模型,东北大学自然语言处理实验室有一堂课征稿 | ACM MM 23 Workshop - 基于大语言模型的多模态研究和应用剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态意外地好!!!!!Microsoft 必应图像创建者
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。