Redian新闻
>
第一个超越ChatGPT的开源模型来了?网友并不买账

第一个超越ChatGPT的开源模型来了?网友并不买账

公众号新闻

机器之心报道

编辑:梓文

开源模型真的超过 ChatGPT了吗?


大模型火了起来,每天我们都能看到各种「大」新闻。


今天,又来了个 Big News:新开源的一个大模型超越了 ChatGPT。

具体是什么呢?

OpenLLM 是一系列在极小、多样且高质量的多轮对话数据集上进行微调的开源语言模型。

这两日,作者们更新了该系列模型,并宣称:OpenChat 模型在 AlpacaEval 上获得 80.9% 的胜率;在 Vicuna GPT-4 评估上,性能达到 ChatGPT 的 105%。


也就是上面推特截图中,两位博主宣称的开源模型超越 ChatGPT/GPT-3.5。

OpenLLM 的特色是基于 LLaMA 开源模型,在只有 6,000 个 GPT4 对话的数据集上进行微调,从而达到非常好的效果。

此次更新的模型型号与评审结果如下:

  • OpenChat:基于 LLaMA-13B,上下文长度为 2048。
  • 在Vicuna GPT-4 评估中达到 ChatGPT 分数的 105.7% 。
  • 在 AlpacaEval 上达到 80.9% 的胜率。
  • OpenChat-8192:基于 LLaMA-13B,扩展上下文长度为 8192。
  • 在 Vicuna GPT-4 评估中达到 ChatGPT 分数的 106.6% 。
  • 在 AlpacaEval 上实现 79.5% 的胜率。

也就是说,两个模型在 Vicuna GPT-4 评估榜单上结果都超越了 ChatGPT。
但这种评审 + 宣传的方式似乎并不被大家认可。

网友:夸张

在 Twitter 讨论中,有网友表明,这就是夸张的说法。


在此「大」新闻公布后,Vicuna 官方也迅速做出了回应。

实际上,Vicuna 的测试基准已被弃用,现在使用的是更高级的 MT-bench 基准。该基准的测试,有着更加具有挑战性的任务,并且解决了 gpt4 评估中的偏差以及限制。

在 MT-bench 上,OpenChat 性能表现与 wizardlm-13b 相似。也就是说,开源模型与 GPT-3.5 仍然有着一定差距。这也正是 MT-bench 所强调的内容 —— 开源模型不是完美无缺的,但是这将迈向更好的聊天机器人评估。



前几日,机器之心报道内容《「羊驼」们走到哪一步了?研究表明:最好的能达到 GPT-4 性能的 68%》,也对开源模型的性能进行了评估。

评估还表明,在任何给定的评估中,最佳模型的平均性能达到 ChatGPT 的 83%、GPT-4 的 68%,这表明需要进一步构建更好的基础模型和指令调优数据以缩小差距。

感兴趣的读者可以查看原文。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
微软也搞起了开源小模型!利用OpenAI的ChatGPT和GPT-4 训练,实力碾压当前最强开源模型现场实测,三大能力超越ChatGPT,科大讯飞「星火」大模型如约而至震惊!使用RNN就能达到超越GPT的对话效果!甚至超越LLaMA? Github已近万star开源中文医疗大模型华佗GPT来了,真人医生盲测效果优于ChatGPTChatGPT最强竞品Claude2来了:代码、GRE成绩超越GPT-4,免费可用我要当真正的地主了对Hugging Face开源模型精准投毒!LLM切脑后变身PoisonGPT,用虚假事实洗脑60亿人华府消息|拜登大力宣传“拜登经济学” 选民并不买账GPT-4突然降智,爆料OpenAI重新设计构架,用MOE降本增效,官方辟谣网友却不买账2023回国 ——人山人海。。。(图)ChatGPT上下文碾压64K开源模型!UC伯克利:开源模型能力严重「虚标」|最新硬核评测曝光独家采访WizardLM团队,详解WizardCoder/Math超越GPT4/ChatGPT的RLEIF算法【城事】巴黎市长将重修Châtelet 广场以方便行人说说缘分这个东西自称中文水平超越ChatGPT,科大讯飞发布星火认知大模型!!!一次通过率73%,开源代码大模型WizardCoder超越最新GPT-4以外所有闭/开源模型微软build 大会!ChatGPT重磅植入Windows!没有GPT的操作系统都老了?GPT-4得不到MIT学位,MIT研究团队回应“作弊”指责,但网友不买账!性能超越GPT-4!谷歌推出大语言模型PaLM 2,全面升级Bard反击ChatGPT|环球科学要闻离乡人周鸿祎:现在说超越ChatGPT的叫吹牛巴黎市长将重修Châtelet 广场以方便行人跑分达ChatGPT的99%,人类难以分辨!开源「原驼」爆火,iPhone都能微调大模型了百岁基辛格:美国自诩正义,但其他国家并不买账大型语言模型技术公开课上线4讲!直播讲解ChatGPT开源平替、类GPT4低成本定制以及GPT4Tools超越所有开源模型,击败 Claude、Bard,专门用于编程任务的大模型来了超越 GPT-4 的国产开源大模型来了!被疯狂转发的几件事。。。科大讯飞刘庆峰:星火大模型已在三个方面超越ChatGPT大羊驼、羊驼、小羊驼和ChatGPT比差在哪儿?CMU副教授测评了7个类ChatGPT大模型ChatGPT盛行的当下,向量数据库为大模型配备了一个超级大脑2200亿光伏龙头发声,产业链价格基本见底!AI龙头被盯上,目标在中文领域超越ChatGPT周鸿祎谈大模型扎堆:现在说超越ChatGPT的叫吹牛ChatGPT路线图曝光:没有GPT-5、识图功能要等到明年、GPT-3或将开源北大、西湖大学等开源「裁判大模型」PandaLM:三行代码全自动评估LLM,准确率达ChatGPT的94%时至今日,他们才明白自己的青春被浪费了
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。