Redian新闻
>
Llama 3 上线4天,井喷1000多个变种!中文版也有了!Groq上推理速度800token每秒

Llama 3 上线4天,井喷1000多个变种!中文版也有了!Groq上推理速度800token每秒

科技
 夕小瑶科技说 原创
 作者 | Zicy

4月19号,Meta发布了其最新的大型语言模型Llama 3的早期版本,反响热烈,短短4天,就有了1000多个变种,而且这个数字还在持续增加...

井喷式变种

19号凌晨,Meta发布的Llama 3可谓是向开源社区扔了一颗重磅炸弹,刚过4天,截至到目前4月23号上午10点,Hugging Face已经拥有了1013种Llama的变体,这个数字在21号晚上还是700多。有网友说Llama 3每分钟都在增长。


可是前几天不是刚过周末吗?


Hugging Face的联合创始人兼首席执行官Clem Delangue说到,到下周末可能将有10,000种变体可用!

而且Hugging Face的技术主管Philipp Schmid还贴心地发布了一份Llama 3-70B的微调指南,这个指南可以在他的个人网站上找到:

https://www.philschmid.de/fsdp-qlora-llama3

这份指南包括:设置开发环境、创建和准备数据集、使用PyTorch FSDP、Q-Lora和SDPA微调LLM以及测试模型和运行推理。

Llama 3中文版

在Llama 3的众多型号中,有一个清华系团队开发的Llama3-8B-Chinese-Chat还挺火,目前Llama 3 Models的Trending中排名第三。它是基于Llama3-8B通过ORPO微调的中文聊天模型,该模型显著减少了Llama3-8B“中文问题英文回答”和混合中英文回答的问题。

与Llama-3-8B-Insturct相比,模型在回答中文提示时一直都能做出更好的反应,而且在逻辑、编码、数学和写作方面表现出色。此外,相较于原模型,新模型在回答中大量减少了表情符号的使用,使得回应更加正式。

从网友测评的弱智吧case看,该模型的中文能力是相当不错的

模型的下载链接:

https://huggingface.co/shenzhi-wang/Llama3-8B-Chinese-Chat

AI芯片的闪电级推理速度

除了开源社区在模型上的努力之外,初创芯片公司Groq似乎通过一系列实验证实,其芯片能够以每秒超过800个token的推理速度为LLaMA 3提供服务。

众所周知,矩阵乘法运算是深度学习的计算核心,Groq的张量流处理器对矩阵乘法做了芯片级优化,避开了传统CPU和GPU的缓存和复杂的控制逻辑,转而采用针对AI工作负载量身定制的简化、确定性执行模型。

虽然目前该芯片还在测试阶段,但其断层领先式的卓越性能似乎是坐实了,一直在对LLaMA 3性能进行基准测试的工程师Dan Jakaitis说到:每秒800个token的推理速度足以每秒生成约500个单词的文本,这几乎比传统GPU快了一个数量级,如果这钟性能的芯片进入市场,无疑会撼动人工智能推理的竞争格局,挑战Nvidia在芯片领域的霸主地位。

参考资料

[1] https://huggingface.co/models?sort=trending&search=llama3
[2] https://xiaohu.ai/p/6602
[3] https://venturebeat.com/ai/groqs-breakthrough-ai-chip-achieves-blistering-800-tokens-per-second-on-metas-llama-3/ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
32专家MoE大模型免费商用!性能全面对标Llama3,单token推理消耗仅5.28%我的岁月(二十三)从700TEU到24000TEU:看中国集装箱船发展史首席分析师揭秘爆火Groq,每小时要烧168美元!10倍H100拥有成本,老黄笑而不语老黄炸场!深夜发布全球最强芯片B200!推理速度提升30倍70B模型秒出1000token,代码重写超越GPT-4o,来自OpenAI投资的代码神器Cursor团队Llama3-8B秒杀700亿巨兽?北大博士生等全新「BoT」框架推理暴涨70倍,24点图形推理一步成神每秒800个token,这颗AI芯片挑战英伟达英国海鸥新变种!?体型更壮战斗力更强!面壁低调开源新模型:早于Llama 3、比肩Llama 3、推理超越Llama 3!骗钱骗色骗男骗女,井柏然你狠重磅!拜登政府出新规!180内给结果!加快庇护审理速度!这些城市的非法移民小心!Llama 3每秒输出800个token逼宫openAI!下周奥特曼生日或放出GPT-5?惠普 EliteBook Ultra G1q上架京东国际:X Elite X1E78100 +16G+512G售 21649 元马斯克官宣 Grok-1.5!超 GPT-4 16 倍上下文,推理能力超 DBRX,网友:赢在敢说!马斯克官宣Grok-1.5!超GPT-4 16倍上下文,推理能力超DBRX,网友:赢在敢说!《梅》&《忘掉吧昨天》字节跳动辟谣推出中文版Sora;OpenAI入驻TikTok,5天涨粉超10万;视频号上线带货小时榜 | 一周简讯马斯克宣布正式开源大语言模型Grok;人体避免多个精子使一个卵子受精的机制揭示 | 环球科学要闻AI芯片里程碑,每秒1000个tokenLongRoPE:超越极限,将大模型上下文窗口扩展超过200万tokens90、长篇家庭伦理小说《嫁接》第二十四章 郎心似铁(2)吃鱼被刺卡住,急诊开胸手术找鱼刺,没找着…3 个月砸 1000 万美元肝出“最强”大模型?黑马 Databricks:我们完虐 Grok、Llama,还更开放黄仁勋问答全文:关于中国市场、全球供应链、奥特曼和Groq浓人,nèng死淡人热归热,Groq离取代英伟达GPU有多远?一次预测多个token,Meta新模型推理加速3倍,编程任务提高17%七绝—红豆二首马斯克大模型Grok1.5来了:推理能力大升级,支持128k上下文3个月砸1000万美元肝出“最强”大模型?黑马Databricks:我们完虐Grok、Llama,还更开放Sam’s Club 会员优惠:基础版仅需 $14 拿下!Plus 版也仅需 $50next-token被淘汰!Meta实测「多token」训练方法,推理提速3倍,性能大涨10%+How a Student’s Fake Exercise Book Broke the Chinese Internet你怎么确认他/她是对的人?Nature子刊研究近8万对情侣发现,相似度80%以上的人更容易成为伴侣
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。