Redian新闻
>
最好的7B模型易主,笔记本轻松跑,免费开源可商用,来自“欧洲的OpenAI”

最好的7B模型易主,笔记本轻松跑,免费开源可商用,来自“欧洲的OpenAI”

公众号新闻
梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

一个神秘磁力链接,成了开源大模型社区的新宠。

里面是来自法国的开源大模型Mistral-7B,大家试用下来,觉得Llama 2都不香了

有开发者建议,代码之外的数据微调,34B以下规模先试试它就对了。

也有公司开始把它用在简历自动解析和评估业务上。

想基于Mistral创业的更是大有人在。

发布不到2周,配套生态也迅速发展起来,如何在单卡上微调的教程有了。

各种基础设施和工具链也添加了对Mistral-7B的支持。

专用于代码补全的微调版本也有人搞出来了。

甚至有人基于它微调了一个神秘学玄学大模型,也很受欢迎。

与Meta刚刚发布Llama的时候,迅速出现各种其他驼和神兽,发展成大模型动物园的场景太像了。

Mistral这个单词在法语里代表冬季的一种强风。

羊驼们,准备好过冬了吗?

Mistral为什么火了?

先上总结,综合官方公告和社区反馈,主要有5个方面:

性能更强,硬件需求更少,有2023年的知识,安全对齐没那么离谱,开源协议更宽松,

目前最好的7B模型

根据官方发布公告,Mistral 7B在所有尝试过的评测基准中超过Llama 2 13B。

并在代码、数学和推理评测中超过Llama 1 34B。

另外代码任务上的表现接近专门的CodeLlama 7B,同时保留了自然语言能力。

上下文窗口也达到了8k。

更详细的测评数据如下。

笔记本轻松跑

以小胜大,意味着取得相似的效果硬件需求更少。

官方也特别说明用了各种优化手段,FlashAttention,Grouped-Query Attention,Sliding Window Attention一起上。

现在已经看到很多开发者晒自己在苹果笔记本跑起来的经验。

量化后只需要6G显存。

训练数据更新

官方没有具体说明训练数据截止日期。

但经网友测试,2023年3月OpenAI发布GPT-4的事它也知道。

相比之下Llama 2的预训练数据截止到2022年9月,只有部分微调数据最多到2023年6月。

实用性更强

Llama 2的安全对齐措施非常充分严格,甚至损失了一部分实用性。

比如拒绝回答如何“杀死”一个Linux线程,只能说过于礼貌也是一种不礼貌了。

还有创业者根据自己经历总结了3点是Mistral-7B能做但Llama 2做不好的。

他做的是检索复杂SQL语句,对比测试发现Llama 2 13B有几个缺点:

  • 即使提供少样本示例,也会在结构化输出中插入评论

  • 会在时间字段上出错

  • 在数据结构定义DDL中如果有多个表,总是漏掉至少一个表

而Mistral-7B具体效果还在测试中,至少这些问题都不存在。

另外Mistral-7B还非常适合用来微调,官方也出了经过指令微调的聊天版本作为补充。

开源协议更宽松

Mistral基于非常宽松的Apache2.0协议开源,免费,允许商业使用、修改和分发。

相比之下Meta为Llama 2准备的协议,甚至被开源界批评为严格来讲不算真正的开源。

比如有附加商业条款,月活超过7亿的产品或服务需要单独申请许可,这条主要针对大公司。

针对个人和小公司的也有不能使用Llama生成的结果来改进其他模型等。

欧洲的OpenAI

Mistral AI成立于今年5月,总部法国巴黎,3位创始人是DeepMind和Meta前员工,

外界将这家公司看成是欧洲的OpenAI

当初刚成立4周还没有产品时,就靠6个员工7页PPT拿到超过1亿美元融资,当时还引起一番争议,被当成是AI泡沫的代表。

Mistral AI最初计划在2024年发布首个大模型,没想到刚到9月底就已拿出成果,团队也扩大了不少。

三位联合创始人中,CEO Arthur Mensch此前在DeepMind巴黎工作。

CTO Timothée Lacroix和首席科学家Guillaume Lample则在Meta共同参与过Llama系列的研发,Lample是通讯作者之一。

事实上Llama初始团队中已有过半离职,其中Marie-Anne Lachaux后来也加入了Mistral AI。

有点子当年OpenAI部分员工出走成立Anthropic的意思了,历史总是惊人的相似。

Mistral AI接下来也会继续推出规模更大的模型,增强推理能力以及多语言能力。

如果你对Mistral-7B感兴趣,可以在Perplexity或HuggingChat试玩。

labs.perplexity.ai

https://huggingface.co/chat

还有一个与Llama 2同台竞技的小游戏可玩。

https://llmboxing.com

下载模型也可以去Hugging Face。

https://huggingface.co/mistralai

参考链接:
[1]
https://mistral.ai/news/announcing-mistral-7b
[2]https://predibase.com/blog/fine-tuning-mistral-7b-on-a-single-gpu-with-ludwig
[3]https://x.com/hrishioa/status/1710702855491879027
[4]https://twitter.com/Teknium1/status/1710505270043189523

「量子位2023人工智能年度评选」开始啦!

今年,量子位2023人工智能年度评选从企业、人物、产品/解决方案三大维度设立了5类奖项!欢迎扫码报名 

MEET 2024大会已启动!点此了解详情


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
(点名开箱笔记本直接留言即可)开箱笔记本的汇总|我不推荐机器OpenAI救了Stable Diffusion!开源Dall·E3同款解码器,来自Ilya宋飏等有你的笔记本吗?笔记本CPU性能释放天梯图 2023-0903STM32也能轻松跑Linux了?是的。官方的Code Llama开源:免费商用,神秘版本接近GPT-4国产语音对话大模型来了:李开复零一万物参与,中英双语多模态,开源可商用又一独角兽诞生!三位校友打造“欧洲版OpenAI”,曾仅靠7页PPT创下种子轮融资纪录超越同级7B模型! 中国团队开源大规模高质量图文数据集ShareGPT4V,大幅提升多模态性能太有趣了!这本轻松看透中华五千年历史凉宫春日、李云龙等32个人物都能扮演,这个聊天机器人很懂剧情,代码可商用开箱笔记本的汇总(点名开箱笔记本直接留言即可)我不推荐机器浪潮信息发布“源 2.0”,千亿参数大模型开源可商用"妈妈让我来自首",7岁男孩在派出所写下"bǎozhèng书"仅凭 7 页 PPT 拿下 1 亿美元融资、半年后估值超 10 亿!“欧洲 OpenAI”杀疯了吹尽黄沙不见金(七十四):暗示【有请入内投票】开箱笔记本的汇总(点名开箱笔记本直接留言即可)未央播报 | 25日起存量首套房贷利率批量下调 阿里云宣布开源通义千问14B模型阿里大模型又开源!能读图会识物,基于通义千问7B打造,可商用所有基准测试都优于Llama 2 13B,最好的7B模型来了,免费用笑谈邂逅(30)万一副厅是性情中人首个可商用的32k上下文开源大模型「长颈鹿」来了,两万词长文不在话下这位“振兴杯”国赛金奖得主,竟然来自“家庭实验室”?斯里兰卡旅行 | 科伦坡不可错过的8间咖啡馆,来自“本地人”倾情推荐。组织抛弃了他5133 血壮山河之武汉会战 信罗战役 6仅69.9万!米尔顿市中心精选房源:3房2卫现代屋!可自住可商用!《天凉好个秋》&《江南烟雨路》32k上下文可商用!羊驼进化成长颈鹿,“开源大模型之最”性能全面超越LLaMA2,0门槛商用,这个国产大模型要改变开源竞争格局了中文最强开源大模型来了!130亿参数,0门槛商用,来自昆仑万维秒杀700亿Llama 2!最新国产大模型亮相,无需申请即可免费商用,背后公司来自私募巨头人手一个编程助手!北大最强代码大模型CodeShell-7B开源,性能霸榜,IDE插件全开源中文LLaMA-2刷榜,开源可商用!千元预算,训练半天,效果媲美主流大模型最好7B模型再易主!打败700亿LLaMA2,苹果电脑就能跑|开源免费全球首个可商用生物医药大模型BioMedGPT-10B开源
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。