港中文发表Mini-Gemini,助力低资源学术多模态大模型研究

Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

 

近日,香港中文大学终身教授贾佳亚团队发表了Mini-Gemini多模态模型,该模型在多模态任务榜上性能堪比GPT-4与DALLE3的结合。Mini-Gemini采用了双编码器系统和一种新颖的补丁信息挖掘技术,结合一个特别策划的高质量数据集,使其能够有效处理高分辨率图像并生成内容丰富的视觉和文本内容,从而使其脱颖而出。

目前,Mini-Gemini从代码、模型、到数据已全部开源,还登上了PaperWithCode热榜。

 

论文地址:https://arxiv.org/pdf/2403.18814.pdf

Github地址:https://github.com/dvlab-research/MiniGemini

 

摘要

Mini-Gemini用于增强多模态视觉语言模型(VLMs)。它通过三个方面来提高性能:高分辨率视觉标记、高质量数据和VLM引导生成。为了增强视觉标记,提出了使用额外的视觉编码器进行高分辨率细化的方法。此外,构建了一个高质量的数据集,促进精确的图像理解和基于推理的生成。总体而言,Mini-Gemini进一步挖掘了VLMs的潜力,并使当前框架能够同时支持图像理解、推理和生成。它支持从2B到34B的一系列密集和MoE大型语言模型(LLMs)。在几个零样本基准测试中,Mini-Gemini表现出领先的性能,甚至超过了已开发的私有模型。

《港中文发表Mini-Gemini,助力低资源学术多模态大模型研究》- 投稿作者:灵度智能 - 发布于:GetAI社区

简介

本文探讨了如何在学术环境下以可接受的成本推进视觉语言模型(VLMs)的发展。作者从三个方面入手:高效的高分辨率解决方案、高质量的数据和扩展应用。作者利用ConvNet生成高分辨率候选项,提高视觉细节,同时保持LLMs的视觉令牌数量。作者还整合了来自不同公共来源的高质量数据集,以提高数据质量。作者的方法结合了最先进的LLMs和生成模型,旨在提高VLM性能和用户体验。这种多方面的策略使作者能够深入探讨VLMs的能力,在可管理的资源限制下取得了显着进展。

Mini-Gemini能够处理图像和文本输入和输出。模型采用双编码器系统,包括高分辨率和低分辨率编码器,通过注意力机制协同工作。为了提高数据质量,作者收集和生成了更多的数据,并将其与先进的生成模型无缝集成,支持并发图像和文本生成。Mini-Gemini在复杂的多模态任务中表现出色,超过了其他模型,具有很高的潜力。

Mini-Gemini

双视觉编码器

《港中文发表Mini-Gemini,助力低资源学术多模态大模型研究》- 投稿作者:灵度智能 - 发布于:GetAI社区

Mini-Gemini框架可以同时处理文本和图像输入,并提供处理它们的选项。处理开始于高分辨率图像XH,通过双线性插值生成对应的低分辨率图像XL。然后,我们将它们编码成多网格视觉嵌入,并在两个并行的图像流中进行处理。对于低分辨率流,我们使用CLIP预训练的ViT来编码视觉嵌入XL’,以保留N个视觉补丁之间的长距离关系。对于高分辨率流,我们采用基于CNN的编码器进行自适应和高效的高分辨率图像处理。通过上采样和连接不同卷积阶段的特征到1/4的输入尺度,我们可以获得HR特征图X’H。其中,N’表示HR特征的数量,M表示每个HR段内的像素特征数量。

补丁信息挖掘

《港中文发表Mini-Gemini,助力低资源学术多模态大模型研究》- 投稿作者:灵度智能 - 发布于:GetAI社区

本文提出了一种基于补丁信息挖掘的方法,通过增强视觉令牌来扩展可变形局部模块的潜力。该方法利用低分辨率视觉嵌入作为查询,从高分辨率候选中检索相关视觉线索,同时利用高分辨率特征图作为键和值,以生成增强的视觉令牌。该方法可以提取高分辨率细节,同时保持视觉令牌数量的平衡,从而实现了丰富细节和计算可行性之间的平衡。此外,该方法还支持视觉令牌扩展,可以通过将原始图像与其2倍缩放的图像结合起来,扩展视觉令牌数量。

《港中文发表Mini-Gemini,助力低资源学术多模态大模型研究》- 投稿作者:灵度智能 - 发布于:GetAI社区

文本和图像生成

Mini-Gemini是一种支持文本和图像生成的语言模型,可以将文本和图像拼接作为输入。与其他模型不同的是,Mini-Gemini通过将用户指令转化为高质量的提示来优化语言提示的领域差距,从而生成上下文相关的图像。这种方法在其他高质量图像生成框架中也得到了应用。

文本-图像指令。本文介绍了为了更好地进行跨模态对齐和指令微调,从公开来源收集高质量数据集的方法。其中,用于跨模态对齐的数据集包括来自LLaVA-filtered CC3M数据集的558K个图像-标题对和来自ALLaVA数据集的695K个采样的GPT-4V响应标题,总共约有1.2M个图像标题。用于指令微调的数据集包括来自LLaVA数据集的643K个单轮和多轮对话、来自ShareGPT4V的100K个问答对、来自LAION-GPT-4V的10K个标题、来自ALLaVA数据集的700K个GPT-4V响应指令对,以及来自LIMA和OpenAssistant2的6K个纯文本多轮对话。此外,为了增强OCR相关能力,还收集了28K个包括DocVQA、ChartQA、DVQA和AI2D数据的问答对。总体而言,本文提供了约1.5M个与图像理解相关的指令对话。此外,还收集了13K个用于图像相关生成的对话对。

生成相关指令。为支持图像生成构建了13K指令遵循数据集,其中包括两个任务:简单指令重新标题和上下文提示生成。数据集使用GPT-4 Turbo生成,其中包括8K个图像描述和5K个高质量的真实对话上下文。在每个查询中,我们从GigaSheet中随机抽样5个高质量的SD文本到图像提示作为上下文示例。Mini-Gemini提取目标标题并使用SDXL生成相应的图像。

《港中文发表Mini-Gemini,助力低资源学术多模态大模型研究》- 投稿作者:灵度智能 - 发布于:GetAI社区

实验

实验设置

实现细节。我们用clip预训练的LR视觉编码器ViTL和laion预训练的HR视觉编码器ConvNext-L实例化了Mini-Gemini。为了提高训练效率,我们保持两个固定的视觉编码器,并在各个阶段优化补丁信息挖掘的投影。同时,我们只在指令调优阶段对LLM进行优化。

数据集。主要包括用于模态对齐的1.2M字幕对和用于指令调优的1.5M单轮或多轮对话。此外,我们报告了广泛采用的基于零样本图像的基准测试的结果,包括VQA T (TextVQA)、MMB (MMBench)、MME、MM-Vet、MMMU和MathVista数据集。

结果

普通分辨率。Mini-Gemini在多个设置中都优于现有模型。在高效模型类别中,Mini-Gemini配置了Gemma-2B时,表现优于高效的MobileVLM和InstructBLIP配备Vicuna-7B和13B。当使用更大的LLMs时,Mini-Gemini的可扩展性显而易见。在相同的LLM下,Mini-Gemini在所有基准测试中都明显优于LLaVA-1.5。值得注意的是,使用Hermes-2-Yi-34B LLM时,Mini-Gemini在一些具有挑战性的基准测试中,如MMMU和MMB,超过了高资源私有模型Qwen-VL-Plus和Gemini Pro。

《港中文发表Mini-Gemini,助力低资源学术多模态大模型研究》- 投稿作者:灵度智能 - 发布于:GetAI社区

高分辨率。在TextVQA基准测试中,我们的方法在Hermes-2-Yi-34B配置下实现了74.1%的性能率,与成熟的Gemini Pro的性能非常接近。Mini-Gemini在更具挑战性的基准测试中也表现出色,在MathVista和MMMU基准上与Qwen-VL-Plus不相上下,在MMB基准上甚至超过了Gemini Pro和GPT-4V。

特定组件分析

补丁信息挖掘。使用ConvNeXt-L作为视觉编码器进行补丁信息挖掘可以显著提高模型性能,特别是在高分辨率图像上。在TextVQA和MME数据集上,当LR和HR分别设置为224和512时,模型分别提高了4.0%和18.1%。将HR分辨率提高到768进一步扩大了性能差距,相对于基线在TextVQA上提高了5.7%。即使将LR分辨率扩展到336,补丁信息挖掘仍然可以带来一致的性能提升。这证明了设计模块在输入分辨率扩大时的能力。

《港中文发表Mini-Gemini,助力低资源学术多模态大模型研究》- 投稿作者:灵度智能 - 发布于:GetAI社区

视觉编码器。通过实验比较了ConvNeXt-L、ConvNeXt-B和ConvNeXt-XXL三种编码器的性能,发现ConvNeXt-L在处理详细视觉信息方面表现更优。虽然较大的编码器可以提供更高质量的视觉信息,但ConvNeXt-XXL过大会导致模型收敛困难。因此,为了平衡效果和计算效率,选择ConvNeXt-L作为默认的HR视觉编码器。

高质量数据。通过数据整合实验表明,高质量数据对于提高模型性能至关重要。

《港中文发表Mini-Gemini,助力低资源学术多模态大模型研究》- 投稿作者:灵度智能 - 发布于:GetAI社区

视觉令牌扩展。可以有效地提高模型在不同输入分辨率下的性能。实验结果表明,这种方法可以显著提高模型的性能,特别是在处理复杂视觉数据时。

定性结果

Mini-Gemini在真实世界的场景中展示了出色的视觉理解能力,可以解决复杂的任务,如识别图形数据中的曲线并将其转化为Python代码,描述复杂室内场景中的细节,并理解迷因中的角色关联。此外,Mini-Gemini还具有图表分析和实际问题解决的能力。在图像生成方面,Mini-Gemini可以根据多模态人类指令生成高质量的内容,并在单轮或多轮对话中产生合理的图像文本输出。

《港中文发表Mini-Gemini,助力低资源学术多模态大模型研究》- 投稿作者:灵度智能 - 发布于:GetAI社区

《港中文发表Mini-Gemini,助力低资源学术多模态大模型研究》- 投稿作者:灵度智能 - 发布于:GetAI社区

总结和讨论

Mini-Gemini通过策略性的框架设计、高质量数据和扩展的功能范围,利用VLM的潜在能力。Mini-Gemini的核心是通过高分辨率候选项的有效提取详细视觉线索的补丁信息挖掘。从数据角度来看,我们精心编制的高质量数据集确保了准确的视觉语言对齐和强大的指令跟随能力。此外,Mini-Gemini支持基于推理的生成,并赋予当前VLM任意到任意的工作流程。在多个零样本基准测试上的广泛实验证明了所提出方法的优越性,超过了以前的领先方法甚至是私有模型。

虽然Mini-Gemini取得了良好的结果,但它仍有很大的潜力可以进一步探索。对于视觉理解,计数能力和复杂的视觉推理能力仍然不够令人满意。对于基于推理的生成,我们在本文中使用文本来桥接VLM和扩散模型,因为我们没有发现嵌入式方法的明显收益。我们将尝试找到更先进的方式来进行视觉理解、推理和生成。

0

评论0

请先
显示验证码