Mixtral 8x7B论文终于来了:架构细节、参数量首次曝光
Mixtral 8x7B 在大多数基准测试中都优于 Llama 2 70B 和 GPT-3.5。
论文地址:https://arxiv.org/pdf/2401.04088.pdf 项目地址:https://github.com/mistralai/mistral-src 论文主页:https://mistral.ai/news/mixtral-of-experts/
路由器:决定对于给定输入信任哪个专家以及如何权衡每个专家对于特定输入的结果。 专家:专门研究问题不同方面的个体模型。
Jupiter Notebook:https://github.com/dvmazur/mixtral-offloading/blob/master/notebooks/demo.ipynb 项目地址:https://github.com/dvmazur/mixtral-offloading/tree/master?tab=readme-ov-file
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章