Redian新闻
>
只激活3.8B参数,性能比肩同款7B模型!训练微调都能用,来自微软

只激活3.8B参数,性能比肩同款7B模型!训练微调都能用,来自微软

公众号新闻

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Mamba遇见扩散模型!DiM:无需微调,高分辨图像生成更高效!两个小模型互相验证,直接比肩大模型?微软的rStar甚至没用CoT和微调时隔一年Falcon回归!110亿参数5.5万亿token,性能超越Llama 3思路打开!腾讯造了10亿个角色,驱动数据合成!7B模型效果打爆了苹果智能背后模型公布:3B模型优于Gemma-7B,服务器模型媲美GPT-3.5-Turbo开源多模态SOTA再易主,19B模型比肩GPT-4v,16G显存就能跑只需单卡RTX 3090,低比特量化训练就能实现LLaMA-3 8B全参微调6700万参数比肩万亿巨兽GPT-4!微软MIT等联手破解Transformer推理密码昆仑万维携手南洋理工大学抢发Q*算法:百倍提升7B模型推理能力科学家提出大模型微调新方法,效果优于现有大模型参数高效微调公理训练让LLM学会因果推理:6700万参数模型比肩万亿参数级GPT-4陈丹琦团队新作:微调8B模型超越Claude3 Opus,背后是RLHF新平替大模型中文内容安全评测发布,幻方DeepSeek-67B模型夺魁,谷歌7B模型表现亮眼一文揭秘|预训练一个72b模型需要多久?百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法ICML 2024 | 脱离LoRA架构,训练参数大幅减少,新型傅立叶微调来了微软&清华提出全新预训练范式,指令预训练让8B模型实力暴涨!实力碾压70B模型1.8B参数,阿里云首个联合DNA、RNA、蛋白质的生物大模型,涵盖16.9W物种小模型崛起!Llama 3.1 8B参数减半性能更强,英伟达把剪枝和蒸馏玩明白了仅微调0.02%参数,性能接近全量微调!上海交大推出高效微调统一新范式7B最强长视频模型! LongVA视频理解超千帧,霸榜多个榜单参数更新量仅为LoRA的5%,性能不减反升!南加大提出高效精调法LaMDAICML 2024 | 新型傅立叶微调来了!脱离LoRA架构,训练参数大幅减少面壁发布多模态小钢炮仅仅 8B 参数规模,超越 GPT-4V 和 Gemini Pro仅微调0.02%参数,性能接近全量微调!上交大推出高效微调统一新范式英伟达玩转剪枝、蒸馏:把Llama 3.1 8B参数减半,性能同尺寸更强ICML 2024 | 超越LoRA!港科大提出FourierFT:新型傅立叶微调!训练参数大幅减少ACL 2024 | SMU、NUS提出参数高效微调增强剂,显著提升大语言模型性能与全参数微调相比,LoRA微调的性能到底如何?世界模型也扩散!训练出的智能体竟然不错
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。