Salesforce开源统一多模态模子BLIP3-o，图像明确与生玉成拿下

Salesforce开源统一多模态模子BLIP3-o，图像明确与生玉成拿下

OpenAI 的 GPT-4o 在图像明确、天生和编辑使命上展现了顶级性能。盛行的架构意料是：

Tokens → [Autoregressive 模子] → [Diffusion 模子] → 图像像素

该混淆架构将自回归与扩散模子的优势连系。Salesforce Research、马里兰大学、弗吉尼亚理工、纽约大学、华盛顿大学的研究者在最新的研究（统一多模态模子 BLIP3-o）中也接纳了自回归 + 扩散框架。

论文问题：BLIP3-o: A Family of Fully Open Unified Multimodal Models—Architecture, Training and Datase论文地点：https://arxiv.org/pdf/2505.09568v1GitHub 代码：https://github.com/JiuhaiChen/BLIP3o模子权重：https://huggingface.co/BLIP3o/BLIP3o-Model在线演示：https://huggingface.co/spaces/BLIP3o/blip-3o预训练：https://huggingface.co/datasets/BLIP3o/BLIP3o-Pretrain-Long-Caption指令微调：https://huggingface.co/datasets/BLIP3o/BLIP3o-60k

在这个框架里，自回归模子先天生一连的中心视觉特征，用以迫近真实图像体现，进而引出两个要害问题：

真实特征泉源 (Ground-truth features)：用 VAE 照旧 CLIP 将图像编码为一连特征？特征对齐方法：使用 MSE 损失，照旧借助扩散模子（Flow Matching）来对齐展望与真实特征？

统一多模态下的图像天生

研究者考察两种图像编码–解码范式：

VAE：将图像编码为 low level 像素特征，以获得更好的重修质量。但 VAE 编码器在处置惩罚更高区分率输入时，会天生更长的向量序列，从而增添训练历程中的盘算肩负。CLIP + Diffusion：先将图像映射到 high level 语义特征，再通过扩散模子重修真实图像。在现实操作历程中，会先用 CLIP 获得图像特征，然后基于 CLIP feature 训练一个扩散模子来重修图像。该要领利益是无论输入图像区分率怎样，每张图像都可编码为牢靠长度的一连向量（好比长度为 64 的向量），这种编码方法能有较好的图像压缩率；但需要特殊训练来使扩散模子适配差别的 CLIP 编码器。

针对自回归模子展望的视觉特征与 VAE/CLIP 提供的真实特征，有两类训练目的：

MSE：对展望特征与真实特征盘算均方误差Flow Matching：基于自回归模子天生的展望特征，通过流匹配损失训练一个 Diffusion Transformer，用 Diffusion Transformer 的输出值来迫近 CLIP 或 VAE 特征

连系差别的编码–解码架构与训练目的，共有三种设计选择：

CLIP + MSE：最小化展望表征与 CLIP 真实表征之间的 MSE，好比 Emu2、SeedX。在天生图片的时间，自回归模子天生视觉特征，基于这个视觉特征，使用一个扩散模子来解码图片。CLIP + Flow Matching：以自回归模子展望的视觉特征为条件，使用流匹配损失来训练 Diffusion Transformer，以展望真实的 CLIP 表征。在天生图片的时间，自回归模子天生视觉特征，基于这个视觉特征，Diffusion Transformer 天生一个 CLIP feature，然后再基于这个 CLIP feature，使用一个轻量的扩散模子来解码图片。整个历程涉及两次扩散历程，第一次天生 CLIP feature，第二次天生真实图片。VAE + Flow Matching：以自回归模子展望的视觉特征为条件，使用流匹配损失来训练 Diffusion Transformer，以展望真实的 VAE 表征。在天生图片的时间，自回归模子天生视觉特征，基于这个视觉特征，Diffusion Transformer 天生一个 VAE feature，由 VAE 解码器来天生真实图片。

Caption: 在统一多模态模子中，图像天生有三种设计计划。所有计划均接纳自回归 + 扩散框架，但在图像天生组件上各有差别。关于流匹配损失，坚持自回归模子冻结，仅微调图像天生？ (Diffusion Transformer)，以保存模子的语言能力。

下图比照了这三种计划在相同设置下的体现，证实CLIP + Flow Matching能在提醒对齐、图像多样性与视觉质量之间取得最佳平衡。

Caption: 差别计划的比照

研究者发明将图像天生集成到统一模子时，自回归模子对语义级特征（CLIP）的学习比对像素级特征（VAE）的学习更为高效。同时，将流匹配 (Flow Matching)作为训练目的能够更好地捕获图像漫衍，从而带来更富厚的样本多样性和更精彩的视觉质量。同时有两个阶段的扩散历程，相关于古板的一个阶段的扩散模子，将图像生身剖析成了两个阶段，第一阶段自回归模子和 diffusion transformer 只认真天生语义特征，第二阶段再由一个轻量的扩散模子来补全 low-level 特征，从而大幅减轻训练压力。

统一图像明确与天生

通过 CLIP 编码器，图像明确与图像天生共用统一语义空间，实现了两者的统一。

研究者接纳顺序训练（late fusion）而非联合训练（early fusion），缘故原由在于：

可以冻结自回归模子，保存其图像明确能力；把所有训练资源集中在图像天生？，阻止多使命间的相互滋扰。

caption：联合训练（early fusion）同时更新明确和天生？，顺序训练（late fusion）先自力调优「明确」，再冻结主干只训练「天生」。

BLIP3-o：统一多模态模子

基于上述比照，研究者选定CLIP + Flow Matching与顺序训练 (late fusion)，构建了 4B 和 8B 参数的 BLIP3-o：

预训练数据：25M 开源图文 + 30M 专有图像图像字幕 (caption)：均由 Qwen-2.5-VL-7B-Instruct 天生，平均 120 token；为增强对短提醒的顺应，还特殊混入～10%（6M）的短字幕（20 token）4B 参数开源模子：纯 25M 开源图文对，及～10%（3M）短字幕指令微调：GPT-4o 天生 60K 条高质量示例，显著提升提醒对齐和视觉美感

所有代码、模子、数据均陆续开源中，接待试用！

Caption: BLIP3-o 可视化示例

研究者发明：

模子能迅速调解至 GPT-4o 气概，提醒对齐 (instruction following) 和视觉质量均大幅提升。

caption：图像明确体现

Caption: 图像天生的基准性能与人工评估

结论

本文首次系统地探索了连系自回归与扩散架构的统一多模态建模，评估了三个要害维度：图像体现（CLIP 特征 vs. VAE 特征）、训练目的（流匹配 vs. MSE）和训练战略（early fusion vs. 顺 late fusion）。实验效果批注，将 CLIP 嵌入与流匹配损失相连系，不但加速了逊з度，也提升了天生质量。

基于这些发明，本文推出了 BLIP3-o, 一系列先进的统一多模态模子，并通过 BLIP3o-60k 6 万条指令微调数据集，大幅改善了提醒对齐效果和视觉美感。研究者还正在起劲开展该模子的应用研究，包括迭代图像编辑、视觉对话和逐步视觉推理。

相关推荐：穿越火线晴雅被❌视频网站赵露思被到喷水18禁文拳皇夏尔米被❌到爽动漫

分享： 2025-05-30 08:59:36 共81款