Redian新闻
>
超越 GPT-4!加州大学伯克利分校与微软研究院合作开源大型语言模型 Gorilla

超越 GPT-4!加州大学伯克利分校与微软研究院合作开源大型语言模型 Gorilla

公众号新闻

作者 | Anthony Alford
译者 | 平川
策划 | 丁晓昀

来自加州大学伯克利分校和微软研究院的研究人员开源了 Gorilla,这是一个可以编写 API 调用代码的大型语言模型(LLM)。在度量代码生成准确性的实验中,Gorilla 优于包括 GPT-4 在内的几个基线模型。

Gorilla 被描述为“LLM 的 API 应用商店”。它基于开源大型语言模型 LLaMA。这个 LLM 在 APIBench 上做了调优。APIBench 是一个新的 ML 模型 API 描述数据集,托管在 HuggingFace、TorchHub 和 TensorHub 上。Gorilla 还可以调用 API 定义的外部文档数据库,让它在访问新的 API 时无需重新训练。借助 Gorilla,开发人员可以创建问题的自然语言描述,例如“调用图像分类模型,参数个数不多于 10M,但 ImageNet 准确性至少要达到 70%。”然后,Gorilla 将输出 Python 代码,调用具有适当选项的 ML 模型。按照作者的说法:

在各个领域,LLM 正迅速普及。我们重点关注的是那些可以提高 LLM 在特定任务中 API 识别准确性的技术——这是这项技术发展中一个重要但经常被忽视的方面。作为一种通用语言,API 函数能够实现各种系统间的有效通信。正确使用 API 可以提高 LLM 与更广阔世界中的工具进行交互的能力。

像 GPT-4 这样的 LLM 在包括生成代码在内的各种任务上都有出色的表现。然而,它们的 API 知识在训练时被“固定”了,因此,无法生成代码来调用更新的 API。此外,它们经常会产生幻觉——在代码生成时,它们输出的代码可能会调用不存在的 API。InfoQ 之前报道过人们近来为解决这些问题所做的努力,例如,Meta 的 Toolformer 可以调用外部服务 API,ChatGPT 的插件系统可以利用外部资源来增强 LLM。

不过,伯克利团队指出,那些方法是利用 API 调用的例子来提示 LLM。相比之下,Gorilla 的方法侧重于“系统化地评估并构建一个可供未来使用的管道”。首先,研究人员构建了 APIBench 数据集。他们从 HuggingFace 模型中心、PyTorch 中心和 TensorFlow 中心收集了所有的模型卡。经过过滤之后,获得了一个包含 1645 个 API 调用的集合。对于其中的每一个调用,研究人员使用 GPT-4 生成了一个指令 -API 对数据集,用于对 Gorilla 进行调优。

在对 Gorilla 的输出进行评价时,一个主要的挑战是识别幻觉。首先,团队将幻觉定义为模型输出调用了在 API 定义外部数据库中不存在的 API。这与错误不同,错误是指模型输出错误地调用了“真实存在”的 API。团队使用所生成代码的抽象语法树(AST)来匹配数据库中的 API 和用于评估的测试集。在零样本任务中使用 AST 准确性度量,Gorilla 比 GPT-4 高了 20.43%。

Gorilla 的主要作者 Shishir Patil 参加了黑客新闻关于这项工作的讨论,并回答了几个问题。当被问及该模型的许可是否允许商业使用时,Patil 指出,Gorilla 有三个版本,基于 LLaMA 的版本没有商业应用许可,但基于 MPT-7 base 和 Falcon-7B 的版本可以。还有一位用户问,Gorilla 与 LangChain 相比怎么样。Patil 回答说:

Langchain 是一个很棒的项目,它试图教代理如何利用提示来使用工具。我们对此的看法是,如果你想在数以千计的 API 之间做出选择,那么提示不具有可扩展性。而 Gorilla 作为一个 LLM,可以帮你挑选 API 并编写语义、语法正确的 API 调用!它可以方便地替代 Langchain!

Gorilla 的代码和模型文件托管在 GitHub 上。这里还有一个在谷歌 Colab 笔记本中的模型演示。

原文链接:

https://www.infoq.com/news/2023/07/microsoft-gorilla/


你也「在看」吗? 👇

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
北京内推 | 微软研究院AI4Science招聘蛋白质优化与药物研发AI实习生解密大型语言模型:从相关性中发现因果关系?大型语言模型专场上线!四位AI新青年直播讲解MiniGPT-4、LLaVA、Gorilla以及大型语言模型Token危机SafetyBench:通过单选题评估大型语言模型安全性【保姆级】深入解析大型语言模型核心技术百川开源最强中英文百亿参数模型!超越LLaMA,中国开源大模型开启商用新纪元DreamLLM:多功能多模态大型语言模型,你的DreamLLM~邀请您参加IEEE网络技术论坛:基于大型语言模型的组合推理为期五年,Ginkgo牵手谷歌开发新型大型语言模型,助力药物发现和生物安全领域《大型语言模型对齐》综述,76页pdf最新数据:加州大学伯克利分校录取新生人数减少,加州居民录取人数增加!清华大学/加州大学伯克利分校:研究柔性传感贴片,可以聆听心音、语音、呼吸音以及咳嗽、吞咽等生理声音第一章 个体的行为法则(全文)微软研究院团队获得首届AI药物研发算法大赛总冠军吴恩达力赞!哈佛、MIT学者用下棋证明:大型语言模型确实「理解」了世界改写游戏规则!Meta开源大语言模型Llama 2,可免费商用;微软Copilot定价每月每用户30美元 | 环球科学要闻大型语言模型训练加速专场在线研讨会上线,三位专家将主讲AI服务器、训练框架和云上高性能存储架构NATTI,你离我越来越近了(下)见证了世界移民史奇迹的绿酱刘知远等众多机构提出ToolLLM:促进大型语言模型掌握16000+真实世界的APIs多模态大模型最全综述来了!7位微软研究员大力合作,5大主题,成文119页正在进行中!加州大学伯克利分校2023校招解读【限时】10场大型语言模型前沿技术分享最新综述!当大型语言模型(LLM)遇上知识图谱:两大技术优势互补华为提出QA-LoRA:让微调大型语言模型‘轻装上阵’全方位解读加州大学伯克利分校!排名+学科+资源+就业+校招Google语言模型反击战!部分性能超越ChatGPT!大型语言模型与知识图谱:机遇与挑战现在飞中国的机票贵的简直太离谱了!北京内推 | 微软研究院科学智能中心招聘生物计算大模型实习生ChatGPT上下文碾压64K开源模型!UC伯克利:开源模型能力严重「虚标」|最新硬核评测曝光大型语言模型与知识图谱协同研究综述:两大技术优势互补字节李航等发表最新《可信赖的大型语言模型》综述,提出七大维度Falcon-7B大型语言模型在心理健康对话数据集上使用QLoRA进行微调看NBA决赛的启示
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。