Redian新闻
>
最佳开源模型刷新多项SOTA,首次超越Mixtral Instruct!「开源版GPT-4」家族迎来大爆发

最佳开源模型刷新多项SOTA,首次超越Mixtral Instruct!「开源版GPT-4」家族迎来大爆发

公众号新闻



  新智元报道  

编辑:桃子
【新智元导读】Mixtral 8x7B模型开源后,AI社区再次迎来一大波微调实践。来自Nous Research应用研究小组团队微调出新一代大模型Nous-Hermes 2 Mixtral 8x7B,在主流基准测试中击败了Mixtral Instruct。

Mixtral 8x7B开源模型的诞生,正如Llama一样,为开源社区了带来曙光。

前段时间,Mixtral刚刚发布了8x7B模型的论文。在基准测试结果中,其性能达到或超过 Llama 2-70B和GPT-3.5。

甚至,Mixtral在数学、代码生成和多语言理解任务方面表现亮眼。

最近,一个开源研究小组Nous Research推出了新一代旗舰大模型Nous-Hermes 2 Mixtral 8x7B。

这是首个通过RLHF训练的模型,并在主流基准测试中超越Mixtral Instruct,成为最佳开源模型。

此外,Nous Research团队发布的SFT和SFT+DPO模型,以及DPO适配器将为用户提供更多选择。

在所有的基准测试中,Nous-Hermes 2 Mixtral 8x7B模型也略不逊色。

目前,这些模型同样在Hugging Face上开源上线。

最佳开源模型诞生


据介绍,最新模型是在Mixtral 8x7B MoeLLM微调训练而来。

具体来说,Nous-Hermes 2 Mixtral 8x7B是在1,000,000个条目进行了训练(主要是GPT-4生成的数据),以及整个AI领域开放数据集等其他高质量数据集。

研究人员同时还发布了SFT Only版本,以及SFT+DPO版本。

模型演示


那么,Nous Research团队最新的模型能力有多强?

编写可视化数据代码完全是小菜一碟。

它还能写赛博朋克的迷幻诗。

可以执行反向翻译,从输入文本中创建提示信息。

基准测试


与Mixtral基础模型相比,Mixtral 8x7B上的Nous-Hermes 2在以下基准测试中取得了全面提升,也是MistralAI首次击败旗舰型号Mixtral Finetune。

在GPT4All中,Nous-Hermes Mixtral 8x7B(SFT+DPO)拿下了75.7分,位列榜单第三。

在AGIEval的排行中,Nous-Hermes Mixtral 8x7B(SFT+DPO)拿下了46.05的成绩。

此外,在BigBench Reasoning Test中,Nous-Hermes 2 Mixtral 8x7B(SFT+DPO)霸榜第一。

背后团队


成立于2023年,Nous Research是一个在大模型领域发布开源研究而闻名的私人应用研究小组。

去年12月,这个研究团队成员曾发布了一款轻量的视觉语言模型——Nous Hermes 2 Vision。

这个模型以希腊神使赫尔墨斯的名字命名。它通过用户上传的图像数据,通过自然语言提供详细的答案。

就在前几天,Nous Research宣布了一轮520万美元的种子融资,涉及了多位天使投资人。

到目前为止,Nous Research已经发布了40多个开源模型,包括Hermes、YaRN、Capybara、Puffin和Obsidian系等系列。

Mixtral模型,会将成为开源版GPT-4


继2023年年初Llama发布之后,一系列羊驼家族瞬间爆发。年底,Mixtral的开源MoE发布,更是为开源年做了一个完美的收尾。

有网友表示,Mixtral或将有实力将于今年接管GPT-4。

在Chatbot Arena排行榜上,Mixtral成为(继GPT-4、Claude和Mistral Medium之后)唯一能打的开源模型,也是仅有7B参数的最小模型,甚至比谷歌的Gemini Pro还要好!

而且它是开源的!任何人可以获取该模型,并将其部署到自己的设备,而且可以对其进行微调,可以随心所欲地使用它。

现在,在Mixtral-7B上进行微调、部署的模型案例,也是非常的多。

比如,有网友用树莓派在本地跑起了Phi-2、Mistral和LLaVA等模型。

还有人出了一款APP,名为Offline Chat:Private AI,能够在iPhone上离线跑Mistral 7B模型。

这样一来,模型生成的内容,可以保障安全和隐私。

还有人用直接偏好微调了Mistral-7B模型。

具体来说,研究人员将使用一种类似RLHF的技术:直接偏好优化(DPO)对OpenHermes-2.5进行微调,从而创建NeuralHermes-2.5。

为此,他们还引入了一个偏好数据集,描述DPO算法的工作原理,并将其应用到模型中。我们将看到它显著提高了OpenLLM排行榜上基本模型的性能。

有网友进行的海底捞针实验中, Mistral-7B-Instruct-v0.2在80000 token情况下,召回率下降。

相信未来,Mixtral模型会向羊驼家族一样,迎来大爆发。

参考资料:
https://twitter.com/NousResearch/status/1746988416779309143



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
重磅!OpenAI 官宣上线 GPT Store!超300万个 GPTs 大爆发GPT Store下周赶场,OpenAI应用大爆发箭在弦上!最全GPT Builder使用指南来了最强开源多模态生成模型MM-Interleaved:首创特征同步器,刷新多项SOTAFractal 5:Linux Matrix 消息应用迎来 GTK 4 和 Rust SDK 的升级 | Linux 中国GPT-4V开源平替!清华浙大领衔,LLaVA、CogAgent等开源视觉模型大爆发矩阵模拟!Transformer大模型3D可视化,GPT-3、Nano-GPT每一层清晰可见ChatGPT应用商店深夜上线!全网300万GPTs大爆发,开发者与OpenAI分钱了抱抱脸正面挑战OpenAI,推出开源版GPT商店!完全免费、支持六大开源模型当底座​EMNLP 2023 | Explore-Instruct: 通过LLM的主动探索提高特定领域指令多样性OpenAI的GPT Store下周上线!开发者高喊App Store时刻到来,AI应用真要大爆发了?微软仅凭「提示工程」让GPT-4成医学专家!超过一众高度微调模型,专业测试准确率首次超90%想得玩专访开源先锋 Bruce Perens:后开源、许可证、AI | Linux 中国国产开源模型标杆大升级,重点能力比肩ChatGPT!书生·浦语2.0发布,支持免费商用刚刚!马斯克开源 Grok:参数量近 Llama 四倍,成全球最大开源模型2023-24年度全球就业能力大学排名发布!超越MIT雇主最爱它?刷新多个SOTA!腾讯优图提出统一模态新架构UniM-OV3D:3D开放词汇场景理解今日Arxiv最热NLP大模型论文:Meta自我奖励模型超越人类反馈限制,刷新AlpacaEval 2.0排行榜历史性一刻!中国汽车,首次超越日本ICLR 2024 | 高分工作!Uni3D:3D基础大模型,刷新多个SOTA!拼多多Temu全球用户数已达4.67亿;优酷更新Logo:主题色改为“蓝橙”;苹果首次超越三星拿下全球智能手机市场第一……刚刚开源!中科大提出利用GPT4-V构建大规模高质量图文数据集ShareGPT4V,助力模型霸榜多项多模态榜单!【周末综艺会10期】— 汤汤水水开源版GPTs人人免费用!Hugging Face发布定制个人助手,点2下轻松创建夺命咖喱!印度大家族迎来"完美媳妇",结果陆续6人莫名死亡!这背后...中美言和,美一众跟班尴尬了开源模型新纪录:超越Mixtral 8x7B Instruct的模型来了字节版GPTs今日上线;小爱同学通过大模型备案;多家AI创企为生存求收购丨AIGC大事日报里斯亭记录:出书,出畅销书,赚钱直逼GPT-4开源模型大泄漏,AI社区炸锅!Mistral CEO自曝是旧模型,OpenAI再败一局?刷新多个SOTA!北大提出Video-LLaVA:超强视频语言大模型!媲美GPT-4的开源模型泄露!Mistral老板刚刚证实:正式版本还会更强北大最新多模态大模型开源:在混合数据集上训练,无需修改直接用到图像视频任务红色日记 调查团 9.1-8Transformer挑战者出现!斯坦福CMU联合团队,开源模型及代码,公司已创办
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。