Redian新闻
>
OPRO:利用LLM作为优化器,解决一系列用自然语言描述的任务

OPRO:利用LLM作为优化器,解决一系列用自然语言描述的任务

科技

深度学习自然语言处理 原创
作者:Winnie

前言

Google的最新一项研究提出了OPRO优化方法(Optimization by PROmpting),它利用LLM作为优化器,解决一系列用自然语言描述的任务,包括线性回归、旅行商问题(TSP)问题等。让我们来看看是如何做到的吧!

Paper: Large Language Models as Optimizers
Link: https://arxiv.org/pdf/2309.03409.pdf

进NLP群—>加入NLP交流群

概要

最近Google的一项研究提出了OPRO优化方法,它利用LLMs作为优化器。与传统的迭代优化技术不同,OPRO采用自然语言技术描述和指引优化任务,通过LLMs的指导,结合先前找到的解决方案,不断生成更新的策略。

这种方法灵活性很高,可以通过简单改变提示中的问题描述来快速适应不同的任务。初步案例研究显示,在小规模优化问题上,通过提示,LLMs能够找到高质量的解决方案,甚至可以匹配或超越手工设计的启发式算法的性能。

OPRO优化生成的最佳提示在GSM8K上的性能已经超越了传统手工设计提示8%,而在Big-Bench Hard电影推荐任务上,它的程度更是达到了50%的超越。以下是经过OPRO优化后在GSM8K测试集上表现出色的几种zero-shot指令,值得我们在日后的实践中试验。

OPRO方法

OPRO采用元提示(meta-prompt)作为主要输入,借此驱使LLM为目标任务产出新的解决方案。而一旦这些方案及其得分被生成,它们就会被整合进元提示,为接下来的优化过程提供更为深入的指导。

元提示

元提示是OPRO的核心,它在每一步优化过程中都会更新。它不仅优化任务的自然语言描述,还会去优化整个过程中累积的解决方案-得分对。

  1. 问题描述:作为元提示的基础部分,它详细描述了优化问题的要求和限制。例如,在提示中,我们可以指导LLM:“请输出一个可以进一步提高准确度的新策略”。这类指示我们称之为元指令。更进一步,我们还可以为LLM提供更为具体的元指令,如“该策略应当简明扼要”。
  2. 优化轨迹:LLM能够从所给上下文中鉴别出特定模式,元提示利用了这一特性。具体来说,优化轨迹概括了之前的策略和得分,并按得分进行排序。当将这些路径整合进元提示时,LLM能识别出高效策略的共性,从而在不需要明确指定如何修改策略的前提下,依据现有策略找到更优解。

下图是一个示例:

解决方案的迭代与更新

使用元提示作为输入,LLM继而生成新的解决方案。在这个过程中有两个关键的问题:

  1. 稳定性的挑战:在连续的优化过程中,不是所有的回复都会持续提供高分。由于LLM对提示的敏感性,一个低质量的优化轨迹可能会极大地影响其输出,尤其是在策略空间还没有被充分挖掘的初期。因此,为了确保优化过程的稳定性,作者会指导LLM在每一步中提供多种解决方案。
  2. 探索与应用的权衡:通过调整LLM的采样温度,确保在探索新策略与利用现有策略之间保持平衡。一个较低的采样温度可以鼓励LLM根据先前的策略进行微调,而较高的温度则鼓励LLM探索和尝试新的策略方向。

案例一:线性回归

在案例研究中,作者将这一方法应用于一维线性回归问题,探索了它如何帮助我们找到最好的线性系数来最好地描述一个数据集。具体地说,当我们面对一维的输入与输出变量(分别表示为X和y),并加入一个截距b,那么需要优化的就是线性系数w和截距b。

作者在一个模拟的环境中为一维变量w和b设定了真实值,并利用生成了50个数据点。优化过程起始于5个随机选取的(w, b)对。每一步中,元提示包括历史上的前20个最佳的(w, b)对及其对应的目标函数值,从而指导LLM生成新的解。

下图展示了一个用于线性回归的元提示的例子。

结果是令人印象深刻的,可以看到OPRO方法能够有效地导航解决方案空间,并在更少的步骤中找到优质解决方案,尤其是使用gpt-4模型时。

案例二:旅行商问题(TSP)

在TSP问题的解决方案中,研究者使用了几个不同的LLMs和启发式算法来发现可能的最短路径。他们还构建了一个标准解决方案来计算所有方法的最优性差距。

下图展示了作者为旅行商问题设计的元提示的示例:

根据实验结果:

  • GPT-4 的性能突出:它在所有规模的问题中都明显优于其他模型,尤其是在小规模问题上更快地找到全局最优解。
  • 启发式算法表现稳健:即便是基于简单启发式原理的最近邻法和最远插入法也在解决TSP问题上显示了效率,尤其是在处理大规模问题时胜过LLM。

尽管OPRO在证明LLM能够优化不同种类的目标函数方面取得了一些成功,但它还是揭示了一些明显的局限性,包括:

  • 规模限制:随着问题规模的增大,LLM找到最优解的能力显著降低。
  • 描述限制:LLM的上下文窗口长度限制使得将大规模优化问题的描述完全纳入提示中变得困难。
  • 优化环境的挑战:一些目标函数的优化环境太复杂,这使得LLM很难找到正确的下降方向,导致优化过程可能中断。

案例三:Prompt优化

这个任务的优化目标是找到一个最大化任务性能的prompt输入。在这项任务中,LLM有两个作用:一个是作为目标函数评估器来应用优化的提示,另一个是作为优化器LLM。我们将用于目标函数评估的LLM称为评分LLM,将用于优化的LLM称为优化器LLM。优化器LLM的输出是一个指令,该指令将与每个示例的问题部分连接,并提示评分LLM。

作者根据一个特定的任务创建了一个数据集,并将其分为训练和测试两部分。在优化过程中,使用训练集来计算训练精度作为目标值,而在优化结束后,我们会在测试集上计算测试精度。

与传统的优化方法通常需要相当大的训练集不同,实验表明,只需要一小部分训练样本(例如,GSM8K的训练集的3.5%,Big-Bench Hard的20%)就足够了。

OPRO优化生成的最佳提示在GSM8K上的性能已经超越了传统手工设计提示8%,而在Big-Bench Hard电影推荐任务上,它的超越程度更是达到了50%。(在GSM8K上的优化用PaLM 2-L作为评分器,指令调整的PaLM 2-L作为优化器。BBH电影推荐上的优化用text-bison作为评分器,PaLM 2-L-IT 作为优化器)下图展示了在GSM8K上,不同模型的性能,以及取得最高性能的指令。

结语

该研究探索了使用LLMs作为优化器的可能性,来逐步生成新的解决方案以优化特定的目标函数。它主要侧重于提示优化,具体到某些任务,这种优化的提示甚至可以比人类设计的提示提高超过50%。

但是这种方法也存在一些局限性。首先,它高度依赖于一个有效的训练集来指导优化过程。而且,目前的LLM优化器还没有很好地利用训练集中的错误样本来改善生成的指令。这是一个亟待解决的问题。

未来的研究可以考虑如何通过更丰富的错误案例反馈和更精细的优化路径来提高LLM的性能。我们可以预见,在不久的将来,这项技术将得到更加完善和优化。



进NLP群—>加入NLP交流群

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
MIT推出拾物机器人「最强辅助」,少量训练样本即可实现自然语言控制使用LLM构建AI Agents的正确姿势!ChatGPT作者博客全面总结GPT-4,Llama2,ChatGLM2,PaLM2共聚一堂 | LLM Day @KDD 2023Graphcore携手Pienso荣获CogX最佳创新类别的自然语言处理奖清华、微软等淘汰提示工程师?LLM与进化算法结合,创造超强提示优化器BELLE-7B-1M逆袭ChatGLM?10B量级开源中文对话LLM,谁成常识问答任务的黑马?新兴的开放式微液滴阵列用于多重生化传感 | NSR综述ETH等提出思维图(GoT)超越思维链(CoT): 用LLMs解决复杂问题!北京内推 | 微软亚洲研究院自然语言计算组招聘NLP方向研究实习生CEO专访丨名士表 David Chaumet:我们将继续把中国作为优先市场之一DreamLLM:多功能多模态大型语言模型,你的DreamLLM~Top20都偏爱美高生!美高党如何利用自身优势为申请增加筹码?控制成本?消息称苹果将在部分iPad Pro/Air产品上换用LCD屏幕大模型加持的机器人有多强,MIT CSAIL&IAIFI用自然语言指导机器人抓取物体清华系「自然语言编程神器」上新!支持100+种编程语言,效率upupMeta发布首个开源可商用LLM,硬刚OpenAI和谷歌两大巨头顶尖科学家如何玩转AI?DeepSpeed4Science:利用先进的AI系统优化技术实现科学发现残酷的巷战开始了,以色列用了最狠辣的毒计以色列用AI技术斩首哈马斯5112 血壮山河之武汉会战 浴血田家镇 20兄弟二人 分道扬镳《窗子打开了》&《晚霞》Nature | 新冠相关人类遗传结构图谱II公布,一系列科研课题待解决Nat Med丨斯坦福团队利用twitter资源,开发出“病理图像文本对应”的自然语言-图像预训练模型不用LLM,遗传编程可控Python代码!谷歌DeepMind等提出全新ARZ框架|IROS 2023闽江风景,人间仙境Dropbox 发布重新设计的Web界面,AI工具等一系列更新人民币换汇一直就不合法?长江暴雷,一系列华人相关问题亟待解决LLaMA微调显存需求减半,清华提出4比特优化器MIT华人博士生将ChatGPT搬进Jupyter,自然语言编程一站式搞定Science:利用mRNA递送在体内对造血干细胞进行基因编辑,有望治疗一系列血液疾病复旦大学自然语言处理实验室:如何构建和训练ChatGPTGPT-4、ChatGLM2、Llama2、PaLM2在KDD LLM Day上一起开了个会中央银行都怕资产被没收,草民们咋玩呢?我们该用什么语言描绘身体的剧变?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。