Redian新闻
>
​第一个基于Llama 3的多模态大模型!Bunny-Llama-3-8B-V上线!

​第一个基于Llama 3的多模态大模型!Bunny-Llama-3-8B-V上线!

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba/扩散/多模态】交流群

添加微信:CVer5555,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

Bunny 团队推出第一个基于 Llama-3 的多模态大模型!Bunny-Llama-3-8B-V 正式上线,超越一众如 LLaVA-7B、LLaVA-13B、Mini-Gemini-13B模型。在众多主流 Benchmark 上表现良好,具有更好的识别、数学和推理能力。

项目主页:

https://github.com/BAAI-DCAI/Bunny

Bunny 模型采用了经典的 Encoder+Projector+LLM 架构,提供了一个可扩展的组合框架。支持多种 Vision Encoders,如 EVA CLIP、SigLIP 等,以及多种 LLM Backbone,包括 Phi-1.5、Phi-2、StableLM-2、Llama-3 等。灵活的架构设计便于用户基于Bunny开展大模型研究。

Bunny-Llama-3-8B-V可以精确理解图片并识别物体:   

在这个餐厅中,Bunny-Llama-3-8B-V 理解并很好地描述了图片:

模型也有很强的OCR能力:          

场景理解能力:

在 Bunny 数据集上训练好的 Bunny-Llama-3-8B-V 已经开放下载:

GitHub: https://github.com/BAAI-DCAI/Bunny

HuggingFace: https://huggingface.co/BAAI/Bunny-Llama-3-8B-V

Modelscope: https://modelscope.cn/models/BAAI/Bunny-Llama-3-8B-V    

Wisemodel: https://wisemodel.cn/models/BAAI/Bunny-Llama-3-8B-V

预计会在未来发布性能更强悍的版本,STAY TUNED!

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集


Mamba、多模态和扩散模型交流群成立

扫描下方二维码,或者添加微信:CVer5555,即可添加CVer小助手微信,便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。


一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer5555,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
万字长文总结多模态大模型最新进展(Modality Bridging篇)狗引儿【长篇】(九)北京/上海内推 | 小红书智能创作团队招聘多模态大模型算法工程师/实习生国产多模态大模型狂飙!颜水成挂帅开源Vitron,破解图像/视频模型割裂问题五光十色的多模态大模型:浅探视觉-语言大模型的关键模块设计Mamba再下一城!Cobra:将Mamba扩展到多模态大语言模型超越 GPT-4V 和 Gemini Pro!HyperGAI 发布最新多模态大模型 HPT,已开源8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare轻松拿捏4K高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便"蝙蝠侠"空中加油 - 美军力倍增「国家队」入局,多模态大模型企业联汇科技宣布完成新一轮数亿元战略融资元象首个多模态大模型 XVERSE-V 开源,刷新权威大模型榜单,支持任意宽高比输入颜水成挂帅,奠定「通用视觉多模态大模型」终极形态!一统理解/生成/分割/编辑爆火的多模态微信交流群成立!荐书丨中山大学 HCP 实验室专著《多模态大模型》重磅发布首个基于Mamba的MLLM来了!模型权重、训练代码等已全部开源旷视实战大模型:把多模态扎进行业CVPR 2024 | 通过细粒度人类反馈对齐数据,提高多模态大模型可信度两轮游中国 - 我的所见,所闻和所想 阳光明媚的贵阳李未可科技古鉴:发布自研多模态大模型WAKE-AI,三大优化让AI眼镜交互体验升级 丨GenAICon 2024多领域文献阅读超越GPT-4!深势科技发布科学文献多模态大模型Uni-SMART技术报告文末送书 | 中山大学HCP实验室专著《多模态大模型》重磅发布只要千元级,人人可用百亿级多模态大模型!国产「AI模盒」秒级训练推理鲶鱼效应显著!Sora 发布满月,多模态领域成果丰硕 | 大模型一周大事看视频、画CAD、运动想像识别!75B的多模态工业大模型太能干了中科院,CMU,Meta等联合出品:去除LLM先验对多模态大模型的负面影响元宵节古都西安叹AI早知道|元象开源首个多模态大模型XVERSE-V;信通院发布国内首个汽车大模型标准AI早知道|Apple 发布 MM1多模态大语言模型;xAI 是市场上薪酬最高的人工智能公司CVPR 2024 | E2STR:基于多模态上下文学习构建的自进化文本识别模型2024年AIGC行业研究:多模态大模型与商业应用|36氪研究院国产多模态大模型开源!无条件免费商用,性能超Claude 3 Sonnet有多少学子遭到中共的残酷迫害?AI视觉的“大一统”:从CV到多模态,从行业大模型到机器人,旷视如何布局?大模型的“瘦身”革命:巨头逐鹿轻量化大模型 | 大模型一周大事
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。