One image is all you need多模态指令数据合成，只管给图给Oasis

One image is all you need多模态指令数据合成，只管给图给Oasis

近年来，多模态指令数据合成要领多依赖人工设计重大的合成提醒词（prompt），泯灭大宗人力与时间本钱。在文本数据合成领域，MAGPIE [1] 是一个很是乐成的合成要领，该要领无需用户提供任何 prompt，仅以 <|im_start|> 这类特殊 token 作为模子输入，即可完成数据合成。

受启发于 MAGPIE，本文中来自同济大学、字节跳动和爱丁堡大学的研究者提出了一种新型多模态指令数据合成要领，只需用户提供图片（即，VLM 中常用的特殊 token ），Oasis 会自动完成指令合成、质量控制和回复天生，产出高质量的数据。

同时，为了支持进一步研究，该研究提供了一个全新的开源代码库 MM-INF，该库涵盖了 Oasis 和一些常用的多模态数据合成要领，并一直举行更新维护，接待各人试用并提供名贵的反响意见。

论文链接：https://arxiv.org/abs/2503.08741代码链接：https://github.com/Letian2003/MM_INF数据集链接：https://huggingface.co/datasets/WonderThyme/Oasis

研究念头

上图展示了常用数据合成链路与 Oasis 的流程比照，常用的数据链路可能会保存以下三类问题：

多样性缺失：大宗要领依赖牢靠稳固的提醒词与合成流程，严重限制了数据的笼罩规模与难度条理，导致天生数据同质化严重；质量缺乏：现有手艺难以稳固产出能显著提升多模态大语言模子（MLLMs）表征能力的高质量合成数据，大都研究不得不退而求其次，接纳基于图像形貌（caption）的二次天生战略，效果与效率均不睬想；依赖人工：流程繁琐且本钱高企。即便看似「一站式」的合成框架，在要害环节（如设计数据模式、编写提醒词等）仍需大宗人工加入，不但费时艰辛，还使整个数据合成历程低效且繁琐。

本文提出的Oasis 仅依赖图像天生数据，突破了依赖预设文本提醒词（ + [text prompt]）的古板多模态输入模式。该要领诱导强盛的 MLLM 仅基于输入的图像（作为 < image> token 输入），使用其自身的知识和自回归特征，自主天生多样化、与图像内容相关的指令。完全不需要人工提供任何前置的文本提醒词。研究者深入剖析了高质量指令应具备的属性，并据此全心设计了一系列筛选标准，用于自动过滤掉天生指令中的低质量数据。

要领先容

概述

要领如上图所示，主要有三个办法：

结构「钩子提醒词（hooking prompt）」以诱导模子举行自回归采样；对采样效果举行分类，只保存指令型采样效果；举行指令质量控制 & 回复天生。

我们以 Qwen2-VL 为例，详细先容这三个办法。

第一步：结构「hooking prompt」诱导模子举行自回归采样

我们提取完整输入中的前缀「<|im_start|>User\n」，送入到 VLM 中举行采样，由今天生的回复是不受任何人为 bias 影响的，唯一的 condition 是图片自身；

在采样历程中，天生的数据大致可分为两类：指令型（instruction-following）和形貌型（caption），这一征象可以通过交织的多模态语言模子（MLLM）图像 - 文本训练历程来诠释。

第二步：采样效果分类

为了仅筛选出指令数据用于后续事情，我们设计了一种分类机制将数据归入指令型和形貌型两类。

详细而言，我们驱动一个大语言模子（LLM）作为分类器来展望种别。若包括指令，则将其分类为指令遵照型数据，并从中提取一条指令；不然，将其分类为形貌型数据并舍弃。我们接纳 few-shot 战略以提高分类精度，完整的提醒词模板见附录。

关于分类为指令型的采样效果，我们会举行质量控制和回复天生。

第三步：质量控制 & 回复天生

我们从指令的可解性 / 清晰度 / 幻觉水平 / 无意义性四个角度，对指令举行筛选，通过筛选的指令会用 Qwen2-VL 举行回复天生，组成一条完整的「指令 - 回复」训练数据；

每个维度均接纳 1-5 级评分（1 分体现最差，5 分体现最优）：

可解性 (Solvability)：评估图像是否提供足够的信息来周全回覆问题。若是图像缺失要害细节（如工具或上下文），指令可能无法被完全解决。清晰度 (Clarity)：评价问题转达意图的准确水平。指令应阻止模糊性，确保能得出明确谜底（例如，阻止开放式或迷糊的表述）；镁跛 (Hallucination)：权衡问题内容与图像现实内容的一致性。指令需阻止引入图像中不保存的信息（如虚构工具或场景）。无意义性 (Nonsense)：检盘问题在语法、连贯性和语义上的合理性。指令必需通顺、有意义，阻止过失如语法杂乱或逻辑矛盾。

详细的筛选细节见附录。另外，我们在消融实验中发明回复的质量控制是无效的，只对指令做质量控制即可。

Oasis-500k

我们基于 Cambrian-10M [2] 的图片，举行数据生产，最后合成约 500k 的训练数据，称之为 Oasis-500k；由于 Oasis 的生产只依赖图片，以是只要图片的数目是足够的，Oasis 可以轻松举行 Scaling，数据量级随着时间是线性增添的。

数据特征剖析

我们对 Oasis 合成的数据和开源常用的指令数据 LLaVA-NeXT 举行了一系列属性的比照，包括指令和回复的长度、语言类型、动名词组合等。

指令和回复的长度

如上表所示，从指令和回复的平均长度来看，Oasis 数据均长于LLaVA-NeXT，且整体标准差更大。更长的长度批注 Oasis 数据可能包括更富厚的信息，而更大的标准差则说明其数据使命更多元。

语言类型

得益于该要领的自回归特征，基于图像的自回归历程不会引入显式语言误差，因今天生的指令笼罩普遍语种。借助 langdetect 库，对 Oasis-500k 数据的语言类型漫衍举行可视化剖析发明：除英文（78.52%）和中文（18.66%）外，还包括韩语、挪威语、越南语、法语、德语等小语种，语言多样性显著。

动词名词组合

基于 spaCy 库，剖析了数据集的根动词（root verbs）与高频名词工具（top noun objects，即泛起频率凌驾 1% 的根动词及与其关联的前 3 位名词工具）。上图展示了两类数据中最常见的根动词及对应名词工具漫衍，相较 LLaVA-NeXT，Oasis 数据的根动词具有以下优势：

表达自然性：笼罩更自然适用、信息量更富厚的动词语汇；工具多样性：高频名词工具泛起更富厚的语义漫衍。

值得注重的是，LLaVA-NeXT 对「answer question」组合的高度依赖，反应出其在使命设计上可能太过着重问答（QA）场景。

数据示例

Oasis 数据集的示例如图所示，可见 Oasis 的指令天生能力很强，可基于图像主题天生细节富厚且信息密度高的指令。另外天生的使命笼罩广度好，涵盖跨领域使命场景，如目的识别（Object Recognition）、场景形貌（Scene Description）和代码明确（Code Comprehension）等。这些可视化同样佐证了前文关于数据多样性的看法。

实验效果

Oasis 有用性

我们将 LLaVA-NeXT 设置为 baseline，在其 SFT 数据上做增量刷新，视察相关于 baseline 的提升。我们在 14 个 benchmark 上对基于 Oasis 训练的 MLLM 举行了周全评估。

如上表所示，Oasis 作为基线的增量数据引入，较基线实现周全且显著的性能提升。

在 Vicuna1.5/Qwen2.5/Llama3 等基座网络上，平均提升划分 3.1%/1.8%/3.2%；以 Vicuna-7B-v1.5 为例，通用知识 MMBench-EN/CN 准确率提升 + 1.4% / +2.3%；OCR 使命 TextVQA 与 OCRBench 精度划分提高 2.7% 和 2.1%；在文档剖析使命上较基线提升 4.3% 和 6.3%；

上述效果不但证实晰合成数据的多样性，更展现了 Oasis 在增强 MLLM 泛化能力上的有用性。

比照其他合成要领

除了 Oasis 数据，我们引入了 4 种增量刷新，来进一步说明 Oasis 的有用性。

Oasis 图片的原始标注数据（指令 + 回复），验证 SFT 图片多样性增添的影响；LLaVA-NeXT 原始 SFT 数据的上采样，扫除数据量级对效果的影响；MMEvol 数据 [3]DenseFusion-1M 数据 [4]

如上表所示，Oasis 作为增量数据引入时，依然体现出了更好的综合性能，再一次佐证关于数据多样性的看法；

数据 Scaling 效果

我们基于 100k 的 LLaVA-NeXT 数据，对 Oasis 的数据量举行了 3 组 Scaling 实验，即，在 LLaVA-100k 的基础上划分加入 150k/300k/500k 的 Oasis 合成数据。整体趋势上来看，Oasis 数据量从 0 增至 500k 的历程中，模子性能稳固提升，添加 500k 条 Oasis 数据后，平均得分提高 5.2%；300k→500k 带来了 + 4.0% 的显著增益，也进一步说明该数据的可扩展性；

垂域数据合成能力

受益于 Oasis 只依赖图片输入的特征，它很是善于合成垂类的数据。我们以 OCR 为例，验证 Oasis 在垂域数据合成上的有用性。我们从 Cambrian-10M 中筛选出了 24 个和 OCR 相关的数据集（共 311k 图片），然后基于这些图片举行 Oasis 数据合成了 70k 的垂域训练数据。如上表所示，这份 OCR 垂域数据在 OCR 相关的 benchmark 上带来了很是显着的提升。另外如上图所示，Oasis 合成的数据不但仅关注文字提取使命，同样也考察了模子关于上下文的明确、属性推理等能力。

消融实验

形貌数据的接纳使用

在数据合成流程的第二步中，我们使用了 LLM 来对第一步中模子自回归采样出的数据举行筛选，去掉 caption 类型的数据。这一步的通过率为 49.9%，占比约一半的 caption 类型数据被扬弃，这导致合效果率受到较大的影响。

因此，我们接纳一些战略来对此类 caption 数据举行接纳使用。首先，我们使用一些规则来对数据中的特殊字段（如乱码等）举行去除。然后，我们使用 Qwen2.5-72B-Instruct LLM 来对 caption 数据的质量举行三个维度评估，最终我们获得了约 250k 的高质量 caption，并与 LLaVA 论文中给出的图像详细形貌指令举行随机匹配。

我们在原始的 OASIS 数据上特殊加入这 250k 数据举行训练，如上表所示，加入 caption 后大都指标有上升，并带来了总体 0.3% 的提升。这说明我们可以低成外地接纳使用数据合成历程中被扬弃的数据，并带来特另外实验收益。

指令质量控制的须要性

在完成数据分类之后，我们对指令质量举行了控制，从四个维度筛除低质量指令：可解性、清晰度、幻觉成都和无意义内容。为了评估这一质量控制机制对数据质量和模子性能的影响，我们进一步举行了消融实验。

详细来说，我们使用经由质量控制和未经质量控制的 20 万条数据划分训练模子，较量所得模子的性能。在质量筛选历程中，高质量指令的接受率为 50.9%，因此，未经质量控制的 20 万条数据中，会包括约 10 万条「低质量」指令。

凭证上表第二部分展示的实验效果。在应用质量控制机制的情形下，模子整体性能显著提升了 1%。在 DocVQA 和 InfoVQA 这两个使命中，模子性能划分提升了凌驾 7%。这一效果充分证实晰在 Oasis 框架中，数据质量控制机制是很是须要的。

回复质量控制的须要性

为探讨响应质量控制的须要性，我们实验了两种低质量响应过滤要领：

负对数似然（NLL）拒绝采样法：对每条指令采样 5 个回复，盘算其负对数似然，保存置信度最高的回复作为最终输出（参考 [5]）；多模态大语言模子（MLLM）评分法：使用 Qwen2-VL-72B-Instruct 模子从有用性（helpfulness）、真实性（truthfulness）、指令遵照性（instruction-following）三个维度举行 1-5 分评分，过滤未获满分（5 分）的回复。

如上表所示，证实两种要领均导致模子平均得分下降（-0.7% 与 -1.6%），证实对回复做质量控制无效甚至有害。高质量指令自己即可驱动 MLLM 天生高质量的回复，引入对回复的质量控制可能会引入特另外人为 bias；

开源代码库 MM-INF

代码链接：https://github.com/Letian2003/MM_INF

该研究还开源了一个数据合成的 codebase MM-INF。该 codebase 依托于开源代码库 ms-swift [6] 实现了一个数据合成引擎，可以串联起若干个基于 LLM/VLM 的数据合成办法。代码库内在盖了 Oasis 的实现以及一些常用的多模态数据合成链路（如图片形貌、基于形貌天生 QA 等），接待各人试用并提供名贵的反响意见。

参考文献

[1] Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing, ICLR 2025.

[2] Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs, NeurIPS 2024.

[3] MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct, arxiv 2409.05840.

[4] DenseFusion-1M: Merging Vision Experts for Comprehensive Multimodal Perception, NeurIPS 2024.

[5] SimPO: Simple preference optimization with a reference-free reward, NeurIPS 2024.

[6] https://github.com/modelscope/ms-swift

分享： 2025-07-23 04:38:43 共81款