国际科技财经博客移民网络热点娱乐民生时事公众号

>

开源模型打败GPT-4！LLM竞技场最新战报，Cohere Command R+上线

开源模型打败GPT-4！LLM竞技场最新战报，Cohere Command R+上线

公众号新闻

2024-04-20 06:04

新智元报道

编辑：alan

【新智元导读】近日，LLM竞技场更新了战报，Command R+推出不到一周，就成了历史上第一个击败了GPT-4的开源模型！目前，Command R+已经上线HuggingChat，可以免费试玩。

GPT-4又又又被超越了！

近日，LLM竞技场更新了战报，人们震惊地发现：居然有一个开源模型干掉了GPT-4！

这就是Cohere在一周多前才发布的Command R+。

排行榜地址：https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard

截至小编码字的这个时间，竞技场排行榜更新到了4月11号，Command R+拿到了2.3万的投票，

综合得分超越了早期版本的GPT-4（0613），和GPT-4-0314版本并列第7位，——而它可是一个开源模型（不允许商用）。

这边建议Altman，不管是GPT-4.5还是GPT-5，赶紧端上来吧，不然家都被偷没了。

不过事实上OpenAI也没闲着，在被Claude 3一家屠榜，忍受了短暂的屈辱之后，很快就放出了一个新版本（GPT-4-Turbo-2024-04-09），直接重归王座。

这也导致排行榜上大家的排名瞬间都掉了一位，本来Command R+在9号的版本中是排位全球第6的。

——大哥你不讲武德！

尽管如此，Command R+作为首个击败了GPT-4的开源模型，也算是让开源社区扬眉吐气了一把，而且这可是大佬认可的堂堂正正的对决。

Cohere的机器学习总监Nils Reimers还表示，这还不是Command R+的真实实力，它的优势区间是RAG和工具使用的能力，而这些外挂能力在LLM竞技场中没有用到。

事实上，在Cohere官方将Command R+描述为「RAG优化模型」。

「割麦子」和最大的开源模型

毫无疑问，Cohere是当前AI领域的独角兽，而它的联合创始人兼CEO，正是大名鼎鼎的「Transformer八子」之一的「割麦子」（Aidan Gomez）。

Aidan Gomez

作为Transformer最年轻的作者，一出手就是最大规模的开源模型：

正面对战claude-3, mistral-large, gpt-4 turbo；
1040亿参数；
使用多步骤工具和RAG构建；
支持10种语言；
上下文长度为128K；
基于上下文的引用和响应；
针对代码能力进行了优化；
提供4位和8位的量化版本。

Command R+专为实际企业用例而构建，专注于平衡高效率和高精度，使企业能够超越概念验证，并通过AI进入生产。

huggingface地址：https://huggingface.co/CohereForAI/c4ai-command-r-plus

量化版本：https://huggingface.co/CohereForAI/c4ai-command-r-plus-4bit

——当然了，1040亿的参数量，相比于前段时间Musk开源的Grok-1（3140亿）还差了一些，但Command R+并非Grok那种MoE架构，

所以这1040亿参数是实打实的完全用于推理，而Grok-1的活跃参数为860亿——从这个角度来看，说Command R+是目前规模最庞大的开源模型也不为过。

作为Command R的进化版本，进一步全面提高了性能。主要优势包括：

-高级检索增强生成（RAG）与引用以减少幻觉
-10种主要语言的多语言覆盖，支持全球业务运营
-工具的运用以自动化复杂的业务流程

在性能优于竞品的同时，Command R+还提供了相对低得多的价格。

目前，Cohere已经与多家大厂合作，并将LLM部署到了Amazon Sagemaker和Microsoft Azure。

上面左图展示了Azure上可用的模型，在三个关键功能方面的性能比较（模型在基准测试中的平均得分）：多语言、RAG和工具使用。

右图比较了Azure上可用模型的每百万个输入和输出token成本。

行业领先的RAG解决方案

企业想通过专有数据定制自己的LLM，就必然绕不开RAG。

Command R+针对高级RAG进行了优化，可提供高度可靠、可验证的解决方案。

新模型提高了响应的准确性，并提供了减轻幻觉的内联引用，可帮助企业使用AI进行扩展，以快速找到最相关的信息，

支持跨财务、人力资源、销售、营销和客户支持等业务职能部门的任务。

上面左图是在人类偏好上的评估比较结果，包括文本流畅度、引文质量和整体效用，其中引文是在连接到源文档块的摘要上衡量的。

这里使用了250个高度多样化的文档和摘要请求的专有测试集，包含类似于API数据的复杂指令。基线模型经过了广泛的提示设计，而 Command R+使用RAG-API。

右图衡量了由各种模型提供支持的多跳REACT代理的准确性，可以访问从维基百科（HotpotQA）和互联网（Bamboogle、StrategyQA）检索的相同搜索工具。

HotpotQA和Bamboogle的准确性由提示评估者（Command R、GPT3.5和Claude3-Haiku）的三方多数投票来判断，以减少已知的模型内偏差。

这里使用人工注释对一千个示例子集进行了验证。StrategyQA的准确性是使用以是/否判断结尾的长格式答案来判断的。

使用工具自动执行复杂流程

作为大语言模型，除了摄取和生成文本的能力，还应该能够充当核心推理引擎：能够做出决策并使用工具来自动化需要智能才能解决的困难任务。

为了提供这种能力，Command R+提供了工具使用功能，可通过API和LangChain访问，以无缝地自动化复杂的业务工作流程。

企业用例包括：自动更新客户关系管理（CRM）任务、活动和记录。

Command R+还支持多步骤工具使用，它允许模型在多个步骤中组合多个工具来完成困难的任务，——甚至可以在尝试使用工具并失败时进行自我纠正，以提高成功率。

上图为使用Microsoft的ToolTalk（Hard）基准测试，和伯克利的函数调用排行榜（BFCL）评估对话工具使用和单轮函数调用功能。

对于ToolTalk，预测的工具调用是根据基本事实进行评估的，总体对话成功指标取决于模型召回所有工具调用和避免不良操作（即具有不良副作用的工具调用）的可能性。

对于BFCL，这里使用了2024年3月的版本，在评估中包含了错误修复，并报告了可执行子类别的平均函数成功率得分。通过额外的人工评估清理步骤验证了错误修复，以防止误报。

多语言支持

Command R+在全球业务的10种关键语言中表现出色：中文、英语、法语、西班牙语、意大利语、德语、葡萄牙语、日语、韩语、阿拉伯语。

上图为FLoRES（法语、西班牙语、意大利语、德语、葡萄牙语、日语、韩语、阿拉伯语和中文）以及WMT23（德语、日语和中文）翻译任务的模型比较。

此外，Command R+还具有一个优秀的分词器，可以比市场上其他模型使用的分词器更好地压缩非英语文本，能够实现高达57%的成本降低。

上图比较了Cohere、Mistral和OpenAI分词器为不同语言生成的token数量。

Cohere分词器生成的表示相同文本的token要少得多，尤其在非拉丁文字语言上减少的幅度特别大。比如在日语中，OpenAI分词器输出的token数量是Cohere分词器的1.67倍。

价格

网友评价

Command R+的开源点燃了网友们的热情，网友表示：「GPT-4级性能，在家运行」。

不知道这3.15G的内存占用是什么情况？

「感谢Cohere做了Mistral没有做的事情」。

「根据我有限的初始测试，这是目前可用的最好的模型之一......而且它绝对有一种风格，感觉很好。感觉不像是ChatGPT主义的填充模型。」

——是时候为自己加一块显卡了！

上线HuggingChat

目前，Command R+已经上线HuggingChat（https://huggingface.co/chat），最强开源模型，大家赶快玩起来！

问：等红灯是在等红灯还是等绿灯？

解释一下咖啡因来自咖啡果：

请回答弱智吧问题：陨石为什么每次都能精准砸到陨石坑？

我想配个6000多的电脑，大概要多少钱？

HuggingFace联创Thomas Wolf曾表示，最近在LLM竞技场上的情况发生了巨大变化：

Anthropic 的Claude 3家族成了闭源模型的赢家（曾经）；而Cohere的Command R+是开源模型的新领导者。

2024年，在开源和闭源两条道路上，LLM都发展迅猛。

最后，放上两张LLM竞技场的当前战况：

模型A在所有非平局A与B战斗中获胜的比例：

每种模型组合的战斗计数（无平局）：

参考资料：

https://venturebeat.com/ai/coheres-command-r-now-available-on-huggingchat/

https://twitter.com/lmsysorg/status/1777630133798772766

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

Her Boyfriend Killed Himself. The Internet Blamed Her.刚刚！马斯克开源 Grok：参数量近 Llama 四倍，成全球最大开源模型国产黑马大模型盲测竞技场挺进全球前十！中文榜和GPT-4o并列第一最强中文大模型又易主了！击败GPT-4 Turbo，首款AI助手发布扎克伯格的Llama 3号称全球最强开源模型！却写不好这个……命运动力学：跃迁之毁命运动力学：降维打击众包新玩法！LLM竞技场诞生基准测试，严格分离学渣学霸全球最大开源模型再刷爆纪录！4800亿参数MoE击败Llama 3、Mixtral 3D生成竞技场来了！比拼360°环绕视频，最强模型由你pick 性能直逼 GPT-4！最强大的免费开源模型出世 | 极客时间开源11天，马斯克再发Grok-1.5！128K代码击败GPT-4 大模型到底哪家强？达摩院推出“全自动竞技场Auto Arena”评测框架大模型盲测竞技场放榜！国产黑马冲进世界七强，中文并列第一阿里云突然发布全球最强开源模型 Qwen2，性能超越美国最强开源模型青春怀旧校园文学《青桃时代》连载第四章抵制霸凌 (五）开源模型进展盘点：最新Mixtral、Llama 3、Phi-3、OpenELM到底有多好？阿里云进军大模型一年，现在是开源第一名，CTO：闭源要超过所有开源模型才有机会参与讨论 Claude 3反超GPT-4竞技场登顶！小杯Haiku成开发者新宠：性价比无敌吉娃娃or松饼难题被解决！IDEA研究院新模型打通文本视觉Prompt，连黑客帝国的子弹都能数清楚大模型又开“卷”！万亿参数闭源模型、四千亿开源模型来了全球开源新王Qwen2-72B诞生，碾压Llama3-70B击败国产闭源模型！AI圈大佬转疯了 OpenAI一夜干翻语音助手！GPT-4o模型强到恐怖，ChatGPT学会看屏幕，现实版Her来了你应该在几点钟发布博客文章？阿里云发布最强开源大模型Qwen2，干翻Llama 3，比闭源模型还强网友缝合Llama3 120B竟意外能打，轻松击败GPT2-chatbot和GPT-4 Llama3发布，开源模型追上闭源模型的历史时刻就在眼前了？美人的时间表扎克伯格最新采访：Meta最强开源模型Llama 3凭什么值百亿美金杀疯了！全面超越Llama3的强悍开源模型，仅9B，1000k上下文；GPT-4级别模型1年降价1万倍阿里云重磅发布开源模型Qwen2，性能超Llama3-70及国内众多闭源模型拯救被「掰弯」的GPT-4！西交微软北大联合提出IN2训练治疗LLM「中间迷失」最强开源大模型 Llama 3震撼发布！开源模型将追上GPT-4，4000亿参数模型也在路上黑马！大模型竞技场榜单更新，国产玩家首次进入全球总榜前10 国家安全部：太空不是相互博弈的竞技场

热点事件追踪

美国公司裁员Layoff

2024-01-28 18:01

2024-01-09 19:01

2024-01-07 18:01

美国堕胎权争议

2024-01-06 18:01

美国枪击案

2024-01-06 18:01

2023-12-13 17:12

2023-12-02 07:12

2023-11-26 18:11

中美航班重磅消息！每周85班，直飞更方便！

微软、亚马逊、谷歌大裁员！哪些科技和零售公司有缩减规模计划？

中国外长王毅：中美关系已经止跌回稳

脱轨事故造成20多人受伤联邦调查纽约市全部地铁系统

更多 2024-06-10 的新闻