Redian新闻
>
详解多模态大模型:LLaVA+LLaVA1.5+LLaVA-Med

详解多模态大模型:LLaVA+LLaVA1.5+LLaVA-Med

公众号新闻

作者:凯恩博,香港城市大学计算机科学博士

编辑:青稞AI

LLaVA repo:https://github.com/haotian-liu/LLaVA/
LLaVA 1.0:Visual Instruction Tuning
LLaVA 1.5:Improved Baselines with Visual Instruction Tuning

一句话优点:

1、极大简化了VLM的训练方式:Pre-training + Instruction Tuning

2、训练量得到简化:1M量级数据+ 8卡A100 → 一天完成训练

影响力

LLaVA是2023的连续工作,包含了LLaVA 1.0和 1.5两个版本,也是2023年多模态领域妥妥的顶流。发表9个月620的stars,GitHub超过12K的stars。

LLaVA它的网络结构简单、微调成本比较低,任何研究组、企业甚至个人都可以基于它构建自己的领域的多模态模型。

非常建议对多模态大模型感兴趣的朋友关注LLaVA这篇工作。

简介

LLaVA通过使用机器生成的指令遵循数据对大型语言模型(LLMs)进行指令调优,已经在新任务上提高了零样本能力,但在多模态领域,这一想法还没有被充分探讨。在本文中,我们首次尝试使用GPT-4生成多模态语言-图像指令遵循数据。通过对这些生成数据进行指令调优,作者引入了LLaVA:一个大型语言和视觉助手。LLavA是一个端到端训练的大型多模态模型,将视觉Encoder和LLM连接起来,用于通用视觉和语言理解。实验表明,LLaVA展示了令人印象深刻的多模型聊天能力,有时会展示出在未见过的图像/指令上的类似于GPT-4v的表现,并在一个合成的多模态指令遵循数据集上获得了与相比于GPT-4 85.1%的相对分数。在Science QA上进行微调时,LLaVA和GPT-4的协同作用实现了新的SOTA准确率92.53%。

Contributions

LLaVA的贡献包括以下几个方面:

  • • 多模态指令跟随数据。由于缺乏视觉-语言指令跟随数据,作者利用ChatGPT/GPT-4提出了一种将图像文本对转换成适当的指令跟随格式的数据重新构造方法。

  • • 大型多模态模型。作者开发了一个大型多模态模型(LMM),通过将CLIP的开放集视觉编码器与语言解码器Vicuna相连接,并在我们生成的指令视觉语言数据上进行端到端微调。证明了使用生成数据进行LMM指令调优的有效性,并为构建通用的指令跟随视觉代理提供了实用建议。当与GPT-4集成时,我们的方法在Science QA多模态推理数据集上实现了最佳性能。

  • • 多模态指令跟随基准测试。作者提出了LLaVA-Bench,包括两个具有挑战性的基准测试,其中包含多样化的配对图像、指令和详细注释。

  • • 开源。包括生成的多模态指令数据、代码库、模型文件等。

网络架构

网络架构图

  • • ViT:CLIP ViT-L/14-224px(LLaVA 1.5用的是 CLIP ViT-L/14-336px )

  • • Text:Vicuna 13B (推理)

  • • Projection:MLP * 2 (Linear → GELU → Linear) 类似翻译官(编译器)的角色 架构设计时,主要考虑要复用已有的LLM和Visual预训练模型。Projection scheme选择非常轻量的MLP是为了能够快速的实验迭代。

两阶段训练

Dataset

利用ChatGPT/GPT-4生成多样化的QA pairs。

利用两种格式的数据:

  • • Captions

  • • Bounding boxes

对于每类数据,先人工标注一些数据,作为In-context-learning的few-shot examples,送给GPT-4。共计158K

  • • 对话格式:58K

  • • 详细描述:23K

  • • 复杂推理:77K

实验结果

在Chatbot任务上,大幅的超过同期的BLIP-2和OpenFlamingo

在ScienceQA任务上,其实没超过SOTA MM-CoT_Large,但是结合上GPT-4的ensembling 模型,高过SOTA不到1个点。

文章同时做了一些ablation study,一些值得关注的结论:

1、视觉特征提取:使用ViT倒数第二层的Features更有利

2、思维链CoT:发现“先生成reason再生成answer” 相比“先生成answer再生成reason” 仅对模型快速收敛有帮助,对最终的性能 上限的提升没帮助。

3、Pre-train:证明了pre-train的有效性,pre-train+scienceQA finetune 相对比 直接在ScienceQA train from scratch 会提升5.11%。

4、模型大小:7B比13B的低1.08%,印证了越大的LLM对整体的性能越有利。

5、涌现能力:LLaVA 的一个有趣的涌现行为是它能够理解训练中未涵盖的视觉内容。此外LLaVA 还展示了令人印象深刻的 OCR(光学字符识别)能力。

更强的LLaVA 1.5

作者在LLaVA 1.0发布后半年左右,推出了LLaVA 1.5。

LLaVA-1.5在11个基准测试中达到了SoTA水平,仅通过对原始LLaVA进行简单修改,利用约一百万量级的数据,超越了使用十亿规模数据的方法。

搬上超强直观的雷达图,各项指标超越BLIP-2、InstructBLILP、Qwen-VL-Chat。

Ablation Study显示了Format Prompt(显式Prompt回答问题的方式)、Projection Layer从单个Linear 改为MLP(两层Linear+Activation)、更丰富的数据、更大的LLM 模型(从7B到13B)、更大的ViT分辨率(从224px到336px)。如下图:

和一些SOTA方法的对比细节:

从训练的细节上看,LLaVA 1.5的训练方式和LLaVA 1.0基本一致。但在一些细节上不同,比如Optimizer换成AdamW、batch size更大、Stage 2更少的epochs,整体的训练时长基本翻倍。

LLaVA 1.5的实验细节如下:

自有数据微调

LLaVA的code repo写的非常好(感谢作者的开源)。如果个人希望基于LLaVA的模型对自己的数据集做微调,是非常容易的,尤其是采用LoRA这样的微调方式。

主要可参考https://github.com/haotian-liu/LLaVA/tree/main/scripts/v1_5里的微调脚本,其中LoRA Finetune使用https://github.com/haotian-liu/LLaVA/blob/main/scripts/v1_5/finetune_lora.sh 即可,其中shell脚本如下:

deepspeed llava/train/train_mem.py \
    --lora_enable True --lora_r 128 --lora_alpha 256 --mm_projector_lr 2e-5 \
    --deepspeed ./scripts/zero3.json \
    --model_name_or_path lmsys/vicuna-13b-v1.5 \
    --version v1 \
    --data_path ./playground/data/llava_v1_5_mix665k.json \
    --image_folder ./playground/data \
    --vision_tower openai/clip-vit-large-patch14-336 \
    --pretrain_mm_mlp_adapter ./checkpoints/llava-v1.5-13b-pretrain/mm_projector.bin \
    --mm_projector_type mlp2x_gelu \
    --mm_vision_select_layer -2 \
    --mm_use_im_start_end False \
    --mm_use_im_patch_token False \
    --image_aspect_ratio pad \
    --group_by_modality_length True \
    --bf16 True \
    --output_dir ./checkpoints/llava-v1.5-13b-lora \
    --num_train_epochs 1 \
    --per_device_train_batch_size 16 \
    --per_device_eval_batch_size 4 \
    --gradient_accumulation_steps 1 \
    --evaluation_strategy "no" \
    --save_strategy "steps" \
    --save_steps 50000 \
    --save_total_limit 1 \
    --learning_rate 2e-4 \
    --weight_decay 0. \
    --warmup_ratio 0.03 \
    --lr_scheduler_type "cosine" \
    --logging_steps 1 \
    --tf32 True \
    --model_max_length 2048 \
    --gradient_checkpointing True \
    --dataloader_num_workers 4 \
    --lazy_preprocess True \
    --report_to wandb

通常自己需要修改的主要涉及:

  • • data_path:你自有数据集的json路径,构造方式可参考

https://github.com/haotian-liu/LLaVA/blob/main/docs/Finetune_Custom_Data.md

  • • image_folder:你自有数据集的图片路径

  • • per_device_train_batch_size:这个主要和你GPU的显存有关系的

此外需注意,因为使用的是DeepSpeed,所有的GPU默认会被全部占用。另外finetune_lora.sh里的DeepSpeed使用了ZeRO Stage 3。

相关工作:LLaVA-Med

LLaVA-Med是基于LLaVA,适配到生物医学领域的工作。展现了LLaVA在专有领域的有效性。

  • • LLaVA-Med:https://arxiv.org/abs/2306.00890

从下图来看,延续了LLaVA的two-stage训练的方式。额外增加了在downstream数据集中的微调环节。

一些实验的细节如下,不具体展开了。

下表的实验证明了Stage-2的必要性、大数据量的必要性

LLaVA-Med Ablation Study

  • • LLaVA-Med性能大幅超过LLaVA原声模型,说明在biomedical domain-specific adaption的有效性

  • • Stage 1训练更长时间对于提升Zero-shot能力有帮助,但仅仅只有Stage 1指标仍然很低

  • • Stage 2的Instruction-following的数据很关键,而且从10K到60K增长过程中,模型指标不断提升。此外inline mention有一点帮助

  • • 在下游数据集上finetune到9个epochs是有帮助的

  • • 语言模型从7B提升到13B有一点帮助




备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群


id:DLNLPer,记得备注呦

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
理想汽车发布史上最大更新:多模态大模型首次上车,无人泊车即将推送「国家队」入局,多模态大模型企业联汇科技宣布完成新一轮数亿元战略融资精确指出特定事件发生时间!字节&复旦大学多模态大模型解读视频太香了GPT-4V只能排第二!华科大等发布多模态大模型新基准:五大任务14个模型全面测评震惊!!!谷歌发布最强多模态大模型Gemini骁龙888实时运行!美团&浙大等打造移动端多模态大模型MobileVLM【古筝佛乐】五会念佛,静心聆听,净化心灵,愿听者吉祥安康- 佛教音乐中科院,CMU,Meta等联合出品:去除LLM先验对多模态大模型的负面影响北京/上海内推 | 小红书智能创作团队招聘多模态大模型算法工程师/实习生ICLR 2024|把图像视为外语,快手、北大多模态大模型媲美DALLE-3世界顶尖多模态大模型开源!又是零一万物,又是李开复零一万物Yi-VL多模态大模型开源,MMMU、CMMMU两大权威榜单领先AI早知道|ChatGPT模型大更新;阿里云发布多模态大模型;百度推多模态模型UNIMO-G将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B超越 GPT-4V 和 Gemini Pro!HyperGAI 发布最新多模态大模型 HPT,已开源首创pix2emb范式!NUS清华联合发布NExT-Chat:对话/检测/分割全能多模态大模型北大等提出MoE-LLaVA:将多模态大模型稀疏化CVPR 2024 | 通过细粒度人类反馈对齐数据,提高多模态大模型可信度《星级男人通鉴》第51章 爱开始纠错不懂就问,申请大学的时候怎么指定申请pre北京内推 | 阿里淘天集团招聘大模型/多模态大模型算法实习生年轻人的第一个多模态大模型:1080Ti轻松运行,已开源在线可玩一板一眼,做回自己骁龙888实时运行,美团、浙大等打造全流程移动端多模态大模型MobileVLM各位说说怎样能劝娃改学Pre​AAAI 2024 | 首个多模态实体集扩展数据集MESED和多模态模型MultiExpan多领域文献阅读超越GPT-4!深势科技发布科学文献多模态大模型Uni-SMART技术报告B?darzewska-Baranowska: The Maiden\'s Prayer, Op. 4四十年,弹指间…谷歌发布Gemini,负责人:原生多模态大模型是AI「新品种」,正探索与机器人结合无需额外知识或训练!中科大等提出OPERA:缓解多模态大模型幻觉问题的基于注意力惩罚与回退策略的解码方法诚心咨询,art+ pre文末送书 | 及时雨!《多模态大模型:技术原理与实战》首发上市清华大学与智谱 AI 联合推出 CogAgent:基于多模态大模型的 GUI Agent,具备视觉问答、视觉定位等能力腾讯发表多模态大模型最新综述,从26个主流大模型看多模态效果提升关键方法AI早知道|苹果播客应用新增转录功能;上海智能实验室推图文多模态大模型;国产短剧AI换脸出海降本增效旷视实战大模型:把多模态扎进行业2024年AIGC行业研究:多模态大模型与商业应用|36氪研究院
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。