Redian新闻
>
微软&清华提出全新预训练范式,指令预训练让8B模型实力暴涨!实力碾压70B模型

微软&清华提出全新预训练范式,指令预训练让8B模型实力暴涨!实力碾压70B模型

公众号新闻

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
NUS、清华提出STAR:一句话生成高质量4D Avatar,代码已开源WWW 2024 | 华为、清华提出个性化多模态生成新方法,让AIGC更懂你只需单卡RTX 3090,低比特量化训练就能实现LLaMA-3 8B全参微调长篇家庭伦理小说 《嫁接》 第二十章 秋风乍起(1)&(2)ICML 2024 | 清华提出DecisionNCE,用多模态表征预训练加速具身智能大模型中文内容安全评测发布,幻方DeepSeek-67B模型夺魁,谷歌7B模型表现亮眼ECCV 2024 | 清华提出PYRA:超轻量级ViT适应&推理高效微调模块全球开源新王Qwen2-72B诞生,碾压Llama3-70B击败国产闭源模型!AI圈大佬转疯了340B险胜70B,Kimi机器人贴脸“嘲讽”英伟达新开源模型2024年5月西班牙(3)37项SOTA!全模态预训练范式MiCo:理解任何模态并学习通用表示|港中文&中科院长篇家庭伦理小说 《嫁接》 第十八章 魂断蓝桥(1)&(2)大语言模型何时需要检索?UCLA提出全新自监督选择性检索策略超越扩散模型!度小满、中科大等联合提出全新自回归通用文生图模型Woolies推出全新结账方式,却引发顾客不满!有人怒批:简直是倒退微软打破Decoder-Only架构!大幅降低GPU内存需求,网友:把Llama3 70B弄20GB GPU上运行苹果智能背后模型公布:3B模型优于Gemma-7B,服务器模型媲美GPT-3.5-Turbo单卡A100实现百万token推理!微软提出全新加速预填充稀疏计算方法公理训练让LLM学会因果推理:6700万参数模型比肩万亿参数级GPT-4陈丹琦团队新作:微调8B模型超越Claude3 Opus,背后是RLHF新平替Llama3-8B秒杀700亿巨兽?北大博士生等全新「BoT」框架推理暴涨70倍,24点图形推理一步成神70B模型秒出1000token,代码重写超越GPT-4o,来自OpenAI投资的代码神器Cursor团队微软联合清华提出多头混合专家机制,大幅提升专家激活率全面超越DPO:陈丹琦团队提出简单偏好优化SimPO,还炼出最强8B开源模型AAAI 2024 | 清华提出DRM:无偏差的新类发现与定位新方法顶刊TPAMI 2024!清华提出ProCo,无限Contrastive Pairs的长尾对比学习只激活3.8B参数,性能比肩同款7B模型!训练微调都能用,来自微软上海AI lab开源LLaMAX,用3.5万小时的A100训练让大模型掌握上百种语言翻译清华提出时间序列大模型:面向通用时序分析的生成式Transformer | ICML 2024港大字节提出多模态大模型新范式,模拟人类先感知后认知,精确定位图中物体【童心依然】《童年》&《黑猫警长》&《日本娃娃》ICML 2024 | 川大提出外部引导的深度聚类新范式,大幅提升CLIP图像聚类性能ECCV 2024 | 深入探索GAN先验,哈工大、清华提出模型反演新方案长篇家庭伦理小说 《嫁接》 第十九章 怜香惜玉(1)&(2)一文揭秘|预训练一个72b模型需要多久?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。