“MobileVLM V2: Faster and Stronger Baseline for Vision Language Model”
项目主页:
论文地址:https://arxiv.org/pdf/2402.03766.pdf
Github地址:https://github.com/Meituan-AutoML/MobileVLM
摘要
MobileVLM V2是一组显著改进的视觉语言模型,通过新颖的架构设计、针对移动VLM的改进训练方案和高质量数据集的精心策划,可以大大提高VLM的性能。MobileVLM V2 1.7B在标准VLM基准测试中实现了更好或相当的性能,与3B规模的更大的VLM相比。值得注意的是,我们的3B模型在7B+规模的VLM中表现优异。
简介
视觉语言模型(VLMs)虽然在各种下游任务上表现出色,但是在移动设备、自动驾驶汽车和实体智能系统等实际场景中部署仍然存在挑战。最近,MobileVLM率先通过创新的面向硬件的架构探索移动规模下VLM的能力。MoE-LLaVA成功地将混合专家方法应用于VLM,这极大地推动了小型模型的极限,使其性能优于大型模型。
本文的关键改进主要集中在三个方面,即探索小型VLM上的有效训练数据,探索有效的训练策略,探索高性能轻量化Projector。具体而言,我们利用ShareGPT4V生成的120万对高质量图像-文本对高效对齐视觉语言特征,并纳入更多的学术任务来增加数据多样性和指令跟随能力,如ScienceQA、TextVQA、SBU等。在训练范式方面,我们在预训练阶段和指令调优阶段对Projector和语言模型的所有参数进行了全面的训练,这有利于充分利用高质量数据的潜力。此外,我们引入了一个更精简但更有效的投射机制,连接视觉和语言模型。通过使用增强的位置信息改进图像Token的表示,我们可以显著压缩图像Token的数量,而不会导致性能下降。
本文主要贡献如下:
- 我们探索并评估了对小型视觉语言模型增加训练数据的性能,从而显著缩小了MobileVLM等小型模型与大型模型之间的差距。
- 我们深入研究了移动场景下的更好训练策略,并设计了一种新颖的训练方案,以充分利用更多高质量的多模态数据。我们提出了一个非常轻量级的Projector,可以显著减少视觉Token并略微降低性能。
- 我们的方法在几个视觉语言基准测试中实现了性能和推理速度之间的新的最优平衡。通过将模型扩展到70亿参数,我们的方法在性能上超过了以前的SOTA模型。
方法
MobileVLM V2是一个多模态问答模型,采用预训练的视觉编码器提取图像特征,预训练的大型语言模型MobileLLaMA处理多模态Token并生成最终答案,以及轻量级下采样Projector LDPv2来对齐图像特征和语言模型。
视觉编码器
使用CLIP ViT-L/14作为视觉编码器,提取图像的高级视觉嵌入表示。
语言模型
使用MobileLLaMA作为基础大型语言模型,优点包括易于部署、实时速度和开放数据集等。作者采用MobileLLaMA-1.4B-Chat和MobileLLaMA-2.7B-Chat作为模型,并通过Projector将文本和视觉信息输入到语言模型中,生成自回归的响应。
轻量级下采样Projector
本文介绍了一种新的Projector LDPv2,用于更好地实现视觉-语言特征对齐,同时参数更少。它包含三个组件:特征转换、Token减少和位置信息增强。通过两个点卷积层和平均池化层,将图像Token压缩到极致,然后应用简单但有效的位置信息增强模块PEG。与LDP相比,这个位置部分更高效,减少了99.8%的参数,并且运行速度略快。该设计也易于部署,由主流推理框架支持。
训练策略
MobileVLM V2的训练过程分为两个阶段:预训练和多任务训练。与之前的训练范式不同,MobileVLM V2在两个阶段中都保持了Projector和大型语言模型的开启,但视觉编码器被冻结。
预训练
模型在预训练期间冻结了视觉编码器和语言模型,以避免优化困难。该模型使用ShareGPT4V-PT数据集进行预训练,该数据集包含120万个图像-文本对,可以提高模型的图像-文本对齐能力。在预训练后,该模型允许完全训练Projector和LLM,同时固定视觉编码器。该模型的训练目标是预测下一个Token,利用自回归损失函数。通过专注于这个特定的任务,该模型更好地学习了在视觉信息背景下的语言生成的复杂性,从而在多模态任务上表现更好。
多任务训练
MobileVLM V2在图文对齐学习的预训练阶段后,已经具备了理解图像内容的初步能力。然而,在一系列下游任务中,它在利用视觉信息进行分析和对话方面还不够熟练。因此,在多任务训练阶段,我们引入了多个视觉语言任务,通过训练过程中的参数来赋予模型进行多任务分析和图文对话的能力。我们使用了多个数据集来进一步开发模型的技能,包括Visual Dialog、TextVQA、COCO Caption、SBU和VSR等。总共有240万个样本,确保在不同的模态和任务中进行全面的学习。
实验
实现细节
在预训练阶段,LDPv2随机初始化,语言模型和视觉编码器分别使用MobileLLaMA和CLIP ViT-L/14的预训练权重。使用AdamW优化器进行优化,预训练阶段的全局批量大小为256,学习率为1e-3。在多任务训练阶段,使用MobileVLM V2的权重进行初始化,学习率为4e-5,全局批量大小为128。训练时间分别为5小时和9小时。
与SOTA比较
MobileVLM V2是一个新的小型语言模型,它在多个基准测试中表现出色,比之前的模型更快更强。它的训练成本与计算友好的LLaVA-1.5相当,而且比MoE-LLaVA-2.7B ×4更快,同时保持着更高的平均性能。MobileVLM V2还比MobileVLM更准确,平均准确率提高了5.3个百分点。MobileVLM V2的优势在于它的新设计和增强的数据和训练策略。MobileVLM V2可以与MoE设计相结合,但如何在不牺牲MobileVLM V2的内存和延迟优势的情况下进行组合,仍然是未来的工作。
模型规模分析
MobileVLM V2 7B是一个强大的多模态模型,相比其他大规模VLMs,它在准确性和推理速度上都有明显优势。通过移除平均池化组件,MobileVLM V2 7B的推理速度与ShareGPT4V相当,但在平均性能上表现更好。这进一步证明了数据扩展策略、训练策略和新型Projector设计的有效性。未来的工作将探索如何有效利用高分辨率输入。
移动设备的延迟测量
MobileVLM V2在NVIDIA AGX Jetson Orin平台上具有更低的推理延迟,并且在相同参数规模下比其他模型表现更好。通过优化Projector的设计,将原始的576个视觉提示Token优化为144个,同时保持了平均准确性。
消融分析
数据规模
数据增强策略对MobileVLM 1.7B模型的性能有积极影响,提高了在GQA、SQA和TextVQA上的表现。然而,在更高质量数据的配置下,保持原始训练策略无法充分利用数据优势,导致在MME和MMBench上的性能下降。
训练策略
本文探讨了一种更合理的训练策略,即在增强数据和小规模VLMs的情况下,同时微调Projector和语言模型可以更有效地学习。实验结果表明,这种训练方式可以显著提高模型性能,在大多数VLM基准测试中平均准确率提高了2个百分点。
Projector
MobileVLM的LDPv1架构通过减少Token数量并保持几乎相同的性能来提高效率。通过新的数据配置和训练策略,可以进一步提高性能。然而,增加可学习参数的对齐方法可能会导致优化困境,从而降低整体对齐效果。通过使用简单的无参数操作和可学习的位置编码来增强对齐的视觉特征,可以获得更好的性能。使用基于局部邻域的动态生成和条件化的位置编码(PEG)层可以进一步提高性能,而且PEG层的可学习参数数量远少于原来的DW κ PW块。
总结
MobileVLM V2是一系列高效的视觉语言模型,基于MobileVLM进行改进。通过数据缩放方案、改进的训练策略和高效的模态对齐设计,我们提高了小型VLM模型的整体性能。我们的方法在准确性和延迟方面取得了新的最优结果,适用于真实产品环境。我们的模型在推理效率上超过了许多更大的模型,为在资源有限的场景中享受先进的人工智能铺平了道路。
评论0