Redian新闻
>
32K上下文,Mistral 7B v0.2 基模型突然开源了

32K上下文,Mistral 7B v0.2 基模型突然开源了

公众号新闻
机器之心报道
编辑:蛋酱


刚刚,Mistral AI 的模型又更新了。

这次开源一如既往地「突然」,是在一个叫做 Cerebral Valley 的黑客松活动上公布的。


PPT 一翻页,全场都举起了手机拍照:


这次开源的 Mistral 7B v0.2 Base Model ,是 Mistral-7B-Instruct-v0.2 背后的原始预训练模型,后者属于该公司的「Mistral Tiny」系列。


此次更新主要包括三个方面:


  • 将 8K 上下文提到了 32K;

  • Rope Theta = 1e6;

  • 取消滑动窗口。


下载链接:https://models.mistralcdn.com/mistral-7b-v0-2/mistral-7B-v0.2.tar…


更新之后的性能对比是这样的:


场外观众迅速跟进。有人评价说:「Mistral 7B 已经是同尺寸级别中最好的模型,这次改进是一个巨大的进步。 我将尽快在这个模型上重新训练当前的许多微调。」


Mistral AI 的第一个 7B 模型发布于 2023 年 9 月,在多个基准测试中实现了优于 Llama 2 13B 的好成绩,让 Mistral AI 一下子就打出了知名度。


这也导致目前很多开源大模型都已不再对标 Llama 2,而是将 Mistral AI 旗下的各系列模型作为直接竞争对手。


而 Mistral 7B v0.2 Base Model 对应的指令调优版本 Mistral-7B-Instruct-v0.2 在 2023 年 12 月就已开放测试,据官方博客介绍,该模型仅适用于英语,在 MT-Bench 上能够获得 7.6 分的成绩,逊于 GPT-3.5。



此次开放基础模型之后,开发者们就可以根据自己的需求对这个「当前最好的 7B 模型」进行微调了。


不过,7B 模型只能算是 Mistral AI 众多惊艳成果中的一项。这家公司的长远目标是对标 OpenAI。


上个月底,Mistral AI 正式发布了「旗舰级」大模型 Mistral Large。与此前的一系列模型不同,这一版本性能更强,体量更大,直接对标 OpenAI 的 GPT-4。随着 Mistral Large 上线,Mistral AI 推出了名为 Le Chat 的聊天助手,也实现了对标 ChatGPT。


而新模型的发布,也伴随着公司大方向的一次转型。人们发现, Mistral Large 并不是一个开源大模型 —— 有跑分、 API 和应用,就是不像往常一样有 GitHub 或是下载链接。


与 Mistral Large 发布同时发生的,是 Mistral AI 与微软达成了长期合作的协议,不仅会将 Mistral Large 引入 Azure,还收获了微软 1600 万美元的投资。


Mistral AI 对路透社表示,作为交易的一部分,微软将持有该公司少数股权,但未透露细节。未来,二者的合作主要集中在三个核心领域:


  • 超算基础设施:微软将通过 Azure AI 超级计算基础设施支持 Mistral AI ,为 Mistral AI 旗舰模型的 AI 训练和推理工作负载提供一流的性能和规模;

  • 市场推广:微软和 Mistral AI 将通过 Azure AI Studio 和 Azure 机器学习模型目录中的模型即服务(MaaS)向客户提供 Mistral AI 的高级模型。除 OpenAI 模型外,模型目录还提供了多种开源和商业模型。

  • 人工智能研发:微软和 Mistral AI 将探索为特定客户训练特定目的模型的合作。


当被问及公司是否正在改变其开源商业模式时,Mistral AI 联合创始人 Arthur Mensch 在采访中表示:「我们从开源模式开始,任何人都可以免费部署,因为这是广泛分发它们并创造需求的一种方式。但从一开始,我们就提供了一种具有优化模型的商业模式,这让使该公司能够为模型开发所需的昂贵研究提供资金。」


参考链接:https://twitter.com/MistralAILabs/status/1771670765521281370


首届中国具身智能大会(CEAI 2024)即将于 2024 年 3 月 30 日至 31 日在上海徐汇西岸美高梅酒店举行。

本次大会由中国人工智能学会(CAAI)主办,CAAI 具身智能专委会(筹)、同济大学、中国科学院计算技术研究所、上海交通大学、中国经济信息社上海总部联合承办,全球高校人工智能学术联盟协办,机器之心独家 AI 媒体合作。

盛会将为具身智能领域的学术与产业界搭建一个交流合作的顶级平台,以广泛促进学术分享与交流、产业合作与互动,推动产学研联动发展,提升我国具身智能技术的研究与应用水平。

立即扫码注册,共享科技盛宴!


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
马斯克官宣Grok-1.5!超GPT-4 16倍上下文,推理能力超DBRX,网友:赢在敢说!AI早知道|360智脑7B大模型开源;ChatGPT 的全球增长率逐渐下降清华系又造大模型标杆!2B规模干翻Mistral-7B,超低成本为AI Agent护航月之暗面 Kimi 智能助手实现 200 万字长上下文,火山引擎提供云服务支持外企社招丨Dräger德尔格,行业全球领导者,15薪,六险一金,多样福利,偏爱留学生7B开源数学模型干翻千亿GPT-4,中国团队出品比 Python 快 9 万倍的 Mojo 终于开源了!刚上线 star 已超过 1.7 万首个开源世界模型!百万级上下文,长视频理解吊打GPT-4,UC伯克利华人一作模型上下文长度达到10000000,又一批创业者完蛋了?苹果一次性开源了8个大模型! 包含模型权重、训练日志和设置,OpenELM全面开源最强开源大模型 Llama 3震撼发布!开源模型将追上GPT-4,4000亿参数模型也在路上陶哲轩看了都直呼内行!谷歌等用LLM自动证明定理拿顶会杰出论文,上下文越全证得越好2B小钢炮碾压Mistral-7B,旗舰级端侧模型炸场开年黑马!1080Ti可训,170万tokens成本仅1元CVPR 2024 | E2STR:基于多模态上下文学习构建的自进化文本识别模型LongRoPE:超越极限,将大模型上下文窗口扩展超过200万tokens苹果开源了!首次公开手机端侧大模型,AI iPhone 的细节就藏在里面马斯克官宣 Grok-1.5!超 GPT-4 16 倍上下文,推理能力超 DBRX,网友:赢在敢说!马斯克大模型Grok1.5来了:推理能力大升级,支持128k上下文AOC 推出新款 Q27B2S2 27 英寸显示器:2K 100Hz,首发价 819 元7030 血壮山河之枣宜会战 “扑朔迷离”南瓜店 7比VS Code快得多!用Rust重写,支持OpenAI、Copilot 的Zed编辑器开源了别再说国产大模型技术突破要靠 Llama 3 开源了AI鲜测 | Claude 3全面升级:多模态+100万Token上下文长度,OpenAI也拦不住了革命新架构掀翻Transformer!无限上下文处理,2万亿token碾压Llama 2习总说,上海人“不粘人”;其实,上海,不粘中国Meta革命新架构掀翻Transformer!无限上下文处理!《深处的语言》的简评——By 车邻1至2月社零总额增长5.5%,马斯克突然开源大模型 | 财经日日评2B参数性能超Mistral-7B:面壁智能多模态端侧模型开源老乡鸡,竟然开源了?!《华灯初上》&《一程山路》Mamba超强进化体一举颠覆Transformer!单张A100跑140K上下文被诅咒的2023GPT-4劲敌Claude 3来了,上下文和多模态显著提升:OpenAI是可被超越的Meta无限长文本大模型来了:参数仅7B,已开源
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。