Redian新闻
>
AI自动生成prompt媲美人类,网友:工程师刚被聘用,又要淘汰了

AI自动生成prompt媲美人类,网友:工程师刚被聘用,又要淘汰了

公众号新闻

机器之心报道

机器之心编辑部

来自多伦多大学、滑铁卢大学等机构的研究者受 prompt engineering 的启发,提出一种使用大型语言模型自动生成和选择指令的新算法,在 24 项任务中有 19 项达到了人类水平的表现。


现阶段,得益于模型规模的扩大和基于注意力架构的出现,语言模型表现出了前所未有的通用性。这些大型语言模型(LLM,large language models)在各种不同任务中表现出非凡的能力,其中包括零样本和小样本设置。


然而,在模型通用性的基础上,继而引出一个控制问题:我们如何才能让 LLM 按照我们的要求去做?


为了回答这个问题并引导 LLM 朝着我们期望的行为方向发展,研究者们采取了一系列措施来达到这个目的,例如对模型进行微调、通过上下文进行学习、不同形式的 prompt 生成等。而基于 prompt 的方法又包括可微调的 soft prompt 以及自然语言 prompt engineering(提示工程)。众多研究者对后者表现出了极大的兴趣,因为它为人类与机器交互提供了一个自然交互的界面。


然而简单的 prompt 并不总能产生所需的结果,例如,在生成熊猫图像时,添加诸如「cute」之类的形容词或诸如「eat bamboo」之类的短语对输出有何影响,我们不了解。


因此,人类用户必须尝试各种 prompt 来引导模型完成我们期望的行为。LLM 这一执行过程可视为黑盒过程:虽然它们可以执行大范围的自然语言程序,但这些程序的处理方式对人类来说可能并不直观,非常难以理解,而且只有在执行下游任务时才能衡量指令的质量。


我们不禁会问:大型语言模型可以为自己编写 prompt 吗?答案是,不但可以,还能达到人类水平


为了减少创建和验证有效指令的人工工作量,来自多伦多大学、滑铁卢大学等机构的研究者提出了一种使用 LLM 自动生成和选择指令的新算法:APE(Automatic Prompt Engineer)。他们将此问题描述为自然语言程序合成,并建议将其作为黑盒优化问题来处理,LLM 可以用来生成以及搜索可行的候选解决方案。



  • 论文地址:https://arxiv.org/pdf/2211.01910.pdf

  • 论文主页:https://sites.google.com/view/automatic-prompt-engineer

研究者从 LLM 的三个特性入手。首先,使用 LLM 作为推理模型,根据输入 - 输出对形式的一小组演示生成指令候选。接下来,通过 LLM 下的每条指令计算一个分数来指导搜索过程。最后,他们提出一种迭代蒙特卡洛搜索方法,LLM 通过提出语义相似指令变体来改进最佳候选指令。


直观地说,本文提出的算法要求 LLM 根据演示生成一组指令候选,然后要求算法评估哪些指令更有希望,并将该算法命名为 APE。 


本文贡献如下:

  • 研究者将指令生成作为自然语言程序合成,将其表述为一个由 LLM 引导的黑盒优化问题,并提出迭代蒙特卡罗搜索方法来近似求解;

  • APE 方法在 19/24 任务中实现了比人工注释器生成的指令更好或相当的性能。


看到这项研究,网友不禁感叹:那些刚被聘用的 prompt 工程师,几个月后可能要被 AI 淘汰。言外之意就是,这项研究要抢了人类 prompt 工程师的活。



「该研究尽最大的努力使 prompt engineering 自动化,这样从事 ML 的研究人员就可以回到真正的算法问题上了(附加两个大哭的表情)。」



还有人感叹:LLM 不愧是原始 AGI 的中流砥柱。



使用 LLM 进行自然语言程序合成


APE 在建议(proposal)和评分这两个关键组件中都使用 LLM。


如下图 2 和算法 1 所示,APE 首先提出几个候选 prompt,然后根据选定的评分函数对候选集合进行筛选 / 精炼,最终选择得分最高的指令。



下图为 APE 的执行过程。它可以通过直接推理或基于语义相似度的递归过程生成几个候选 prompt,评估其性能,并迭代地提出新的 prompt。


初始提议分布


由于搜索空间无限大,找到正确指令是极其困难的,这使得自然语言程序合成历来难以处理。基于此,研究者考虑利用一个预先训练过的 LLM 来提出一个候选解决方案,以指导搜索过程。

他们考虑两种方法生成高质量候选。首先采用一种基于前向模式生成的方法。此外,他们还考虑了反向模式生成,使用具有填充功能的 LLM(如 T5、GLM、InsertGPT)来推断缺失的指令。



得分函数


为了将问题转换为黑盒优化问题,研究者选择了一个得分函数来准确测量数据集和模型生成的数据之间的对齐情况。


在归纳实验中,研究者考虑了两个潜在的得分函数。在 TruthfulQA 实验中,研究者主要关注 Lin 等人提出的自动化指标,类似于执行精度。


在每一种情况下,研究者使用如下公式 (1) 来评估生成指令的质量,并对持有测试数据集 Dtest 进行期望。



实验

研究者对 APE 如何引导 LLM 实现预期的行为进行了研究。他们从三个角度进行:零样本性能、少样本上下文学习性能和真实性(truthfulness)。


研究者评估了 Honovich 等人提出的 24 个指令归纳任务的零样本和少样本上下文学习。这些任务涵盖语言理解的许多方面,从简单的短语结构到相似性和因果关系识别。为了了解 APE 生成的指令如何引导 LLM 生成不同风格的答案,本文将 APE 应用于 TruthfulQA(一个数据集)。


对于零样本测试准确率,APE 在 24 项任务中有 19 项达到了人类水平的表现。



对于少样本上下文测试准确率,在 24 个任务中,APE 提高了 21 个任务的少样本上下文学习性能。



研究者还将 APE prompt 与 Lin 等人提出的人工 prompt 进行了对比。图 (a) 显示 APE 指令在所有三个指标上的表现都优于人工 prompt。图(b)显示了 truthfulness 和 informativeness 之间的权衡。



更多细节请参阅原论文。


即将毕业,请回答!小红书正在呼唤懂AI的你


11月19日16:00 - 19:30 ,北京市海淀区成府路28号2层 PAGEONE(五道口店),小红书REDtech青年技术沙龙,设置「报告+对谈+青年学子晚餐交流会」等丰富板块,诚邀高校顶尖毕业生们来现场与顶尖学者、小红书技术团队大神欢聚畅谈!
顺便聊聊,在小红书,你将如何高速成长?
  • 有行业竞争力的薪酬

  • 优先落户等硬核福利

  • 专属个人成长计划

  • 丰富技术场景实践机会

  • 全球顶尖企业和高校实验室深度交流通路

  • ……
小红书携丰富资源,全面助力高校顶尖毕业生勇探技术高峰!
赶快扫描下方二维码,与小红书相约「宇宙中心」!

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
潞晨科技实习生招聘:AIGC大模型算法工程师、AI编译器开发工程师、前端开发工程师等日子越来越难过+Costco中国香肠挪威交响诗 (一)序曲推荐一款IDEA插件,堪称后端接口自动生成神器!地平线社招:感知融合方向算法工程师、SLAM/3D算法工程师极氪智能科技校招:智能驾驶规控算法工程师、智能驾驶感知算法工程师、车联网安全研究员等同样是PM,Product Manager、Program Manager、Project Manager的薪资哪个更高?Stack Overflow临时禁用ChatGPT生成内容,网友:人类和AI快打起来!把大象装冰箱总共要几步?英伟达发布ProgPrompt,让语言模型给机器人安排计划田渊栋等人提出Re^3:一种自动生成长故事的模型梁海源被淘汰了,我却替他高兴澜舟科技社招:算法实习生、算法开发工程师、产品实习生、资深前端开发工程师等人类没有足够的高质量语料给AI学了,2026年就用尽,网友:大型人类文本生成项目启动!IDEA 懒人必备插件:自动生成单元测试,太爽了!博士毕业,玩赛车爱摄影,是Principle Architect,也是Project Leader,这位工程师凭啥?史上AI最高分!谷歌大模型创美国医师执照试题新纪录,科学常识水平媲美人类医生 | GGViewCLUE社区最新神器!PromptCLUE:大规模多任务Prompt预训练中文开源模型工程师招聘 | 小红书招聘NLP算法工程师美国医学史上首位中医针灸师,被聘为高校临床教授再谈上海楼市的新变化学外国要排泄其糟粕吸收其精华史上AI最高分!谷歌大模型创美国医师执照试题新纪录,科学常识水平媲美人类医生宏景智驾校招:图像算法工程师、决策规划算法工程师、SLAM建图算法工程师等告诉Stable Diffusion 2.0你不想要什么,生成效果更好:Negative Prompt显奇效畅游法国(17)-王储的港湾从训练系统到驯化人类,自动驾驶安全员眼中的未来苹果“妥协”了!用了10年的设计终于要淘汰?iPhone15或有大变日本护理院聘用一群肌肉猛男员工。网友:快让我住进去!香港中文大学张立教授实验室招聘博士生、博士后及研究助理 、工程师/初级工程师(微创手术工具)Gurman:苹果M2 Pro / Max MacBook Pro14/16英寸和Mac Pro新款将于23年Q1发布PromptCLUE:大规模多任务Prompt预训练中文开源模型一键从Prompt到PowerPoint,斯坦福博士生自制的PPT生成神器火了Prompt总结 | 从MLM预训任务到Prompt Learning原理解析与Zero-shot分类、NER简单实践上海交大硕士要搞末位淘汰了吗PPT新外挂?一键免费自动生成!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。