训练太重大？对图片语义、结构要求太高？图像morphing一步到位

训练太重大？对图片语义、结构要求太高？图像morphing一步到位

本文第一作者操雨康，南洋理工大学MMLab博士后，研究偏向是3D/4D重修与天生，人体行动/视频天生，以及图像天生与编辑。

本文配合第一作者司晨阳，南京大学助理教授，研究偏向是图像/视频天生，以及天生模子的优化和加速。

在图像处置惩罚领域，「图像 morphing」（图像变形）是一项常见又充满创意的使命 —— 它可以让两张气概迥异的图片平滑过渡、自然融合，从而天生令人惊艳的中心图像。你可能在动画、影戏特效或照片编辑中见过它的身影。

已往，这项手艺往往依赖于重大的图像对齐算法和颜色插值规则，难以应对重大纹理和多样语义的图像转变。近年来，虽然 GAN、VAE 等深度学习要领取得了显著前进，但它们仍然面临训练本钱高、数据依赖强、反演不稳固等问题 —— 尤其在真实天下图像中体现并不稳固。

为了实现高质量的图像 morphing，研究者们先后实验了从图像 warping 到颜色插值，从 GAN 到 VAE，甚至使用了 Stable Diffusion 和 CLIP 等大模子。然而，纵然在最先进的计划中，训练本钱高、顺应性差依旧是难以回避的难题。

那么，是否可能完全抛开训练？不再依赖预训练模子或特殊标注？只用两张图像，就能高效、自然地完成 morphing？为相识决这一挑战，来自南洋理工大学 S-Lab、南京大学以及香港中文大学的研究团队提出了一种全新的要领 ——FreeMorph。该要领不但实现了无需训练、一步到位的图像 morphing 效果，还能在拥有差别语义与结构的图像之间，天生流通自然的过渡历程，为 training-free 图像 morphing 翻开了全新的可能性。

想深入相识 FreeMorph 的手艺细节？我们已经为你准备好了完整的论文、项目主页和代码客栈！

论文地点：https://arxiv.org/abs/2507.01953项目地点：https://yukangcao.github.io/FreeMorph/GitHub：https://github.com/yukangcao/FreeMorph

小序

近年来，随着大规模文本 - 图像数据集的普及，视觉 - 语言模子（如 Chameleon）、扩散模子（如 Stable Diffusion）以及 transformer 架构（如 PixArt-α, FLUX）在从文本提醒天生高质量图像方面展现出了惊人的能力。这些手艺前进也为天生式图像变形（image morphing）要领的刷新涤讪了基础。Wang & Golland [1] 使用基于 CLIP 的文本嵌入的局部线性特征，通过潜在图像特征的插值来实现平滑过渡。在此基础上，IMPUS [2] 引入了一个多阶段训练框架，包括文本嵌入的优化与 LoRA ？榈难盗，以更好地捕获语义。只管该要领在视觉效果上更为精彩，但每个案例需约 30 分钟的训练时间。DiffMorpher [3] 则通过插值 latent noise，并引入自顺应实例归一化（AdaIN）以提升性能。然而，这些要领在处置惩罚语义多样、结构重大的图像时仍显力有未逮，限制了着适用性。

针对这些问题，尊龙游戏人生就是博目的是实现无需调参和训练的图像变形。可是，这一目的也带来了两个要害挑战：

1) 图像变形历程中的特征丧失：通常来讲，面临这一问题，各人的第一反应会是把输入图像先转化为预训练扩散模子的潜在特征，然后再通过球面插值来实现图像变形。然而，这一要领看似直接，但 diffusion 扩散模子的多步去噪的非线性历程会导致天生的中心变形图片不一连。同时，diffusion 扩散模子自身的预训练特征也容易造成身份信息丧失；

2)难以实现连贯过渡：diffusion 扩散模子自己并不具备明确的 “转变趋势”，这使得实现平滑、连贯的变形序列仍需特殊机制支持。

为相识决这两个问题，FreeMorph 通过改善 diffusion 扩散模子中的注重力 attention 机制，以实现无需训练的图像变形要领：

1)指导感知的球面插值：我们首先通过修改预训练扩散模子的自注重力？ self-attention，融入输入图像的显式指导来增强模子。这是通过球面插值实现的，它爆发中心特征并用于两个要害方面：首先，我们举行球面特征聚合，以融合自注重力？榈 Key 和 Value 特征，确保整个天生图像序列的过渡一致性。其次，为解决身份信息丧失问题，我们引入了先验指导的自注重力机制，该机制融入输入图像的显式指导，以保存其奇异身份特征。

2)面向办法的转变趋势：为实现丝滑的过渡，我们提出了一种新颖的办法导向的转变趋势要领。该要领融合了划分源自两个输入图像的两个自注重力？，实现了一种受控且一致的过渡，同时尊重两个输入。为进一步提升天生图像序列的质量，我们设计了一种刷新的反向去噪和正向扩散历程，将这些立异组件无缝集成到原始的 DDIM 框架中。

为周全评估 FreeMorph 并与现有要领举行基准测试，我们专门网络了一个新的评估数据集。该数据集包括四组差别类别的图像对，这些种别凭证图像的语义相似性结构相似性举行划分。

FreeMorph: 无需训练的图像变形框架

给定两张输入图像，我们首先提出两个？椋(1)指导感知的球面插值和(2)办法导向的转变趋势，以增强定向性（坚持身份特征的能力）和一致性（平滑过渡）。别的，我们注重到，在去噪办法中简朴应用这两个？橹械娜魏我桓，效果都不敷理想。因此，我们针对正向扩散和反向去噪历程开发了一种刷新的要领，如上述算法所示。

指导感知的球面插值

现有的图像渐变要领 [25, 47, 49] 通常需要为每张输入图像训练低秩顺应（LoRA）？，以增强语义明确并实现平滑过渡。然而，这种要领通常效率低下且耗时，并且难以处置惩罚语义或结构差别的图像。

1.多步去噪历程高度非线性，导致天生的图像序列不一连；

2.缺乏显式指导来控制去噪历程，使得模子继续了预训练扩散模子自己的私见。

详细操作如下：

在去噪办法 t 中：

先验驱动的自注重力机制（Prior-driven Self-attention Mechanism）：虽然尊龙游戏人生就是博球面特征融合手艺显著改善了图像渐变中的身份信息坚持度，但我们发明，在前向扩散和反向去噪阶段统一使用这种要领，会导致天生的图像序列转变极小，无法准确代表输入图像。这个效果是预料之中的，由于潜在噪声会对反向去噪历程爆发重大影响（如下图所示）。因此，应用上述公式中形貌的特征融合会引入模糊性 —— 来自输入图像的一致且强盛的约束，使得每其中心潜在噪声 i 都显得很是相似，从而限制了过渡的有用性。

为解决这一问题，我们进一步提出了一种先验驱动的自注重力机制。该机制优先思量来自球面插值的潜在特征，以确保潜在噪声空间内的平滑过渡；同时，在后续阶段强调输入图像以维持身份信息。详细战略为：

在反向去噪阶段：我们继续使用公式 5 形貌的要领（融合左右图像特征）。在前向扩散办法：我们接纳一种差别的注重力机制，通过修改自注重力？槔词迪郑

整体前向扩散和反向去噪历程：

高频高斯噪声注入（High-frequency gaussian noise injection）：如前所述，FreeMorph 在前向扩散和反向去噪阶段都融合了左右图像的特征。然而，我们视察到，这有时会给天生历程施加过于严酷的约束。为缓解此问题并允许更大的无邪性，我们提出在前向扩散办法后，向潜在向量 z 的高频域注入高斯噪声：

整体流程（Overall process）：为提升图像渐变效果，我们发明在所有去噪办法中统一应用指导感知球面插值或办法导向的转变趋势会导致次优效果。

为此，我们为前向扩散和反向去噪历程开发了一种细腻化计划

前向扩散：

反向去噪：

实验

实验效果：在下图中，我们展示了 FreeMorph 天生的效果，这些效果充分证实晰其天生高质量平滑过渡的能力。FreeMorph 在多样化场景中体现卓越：既能处置惩罚差别语义与结构的图像，也能驾驭具有相似特征的画面。同时，该要领还能有用捕获细微转变 —— 无论是差别颜色的蛋糕，照旧人物心情的玄妙差别，均能精准泛起。

与其他图像变形要领的比照：下图中，我们提供了与现有图像变形要领的定性比照。有用的图像变形效果应当泛起从源图像（左）到目的图像（右）的渐进式过渡，同时坚持原始身份特征；诖吮曜伎傻贸鲆韵率硬欤

1. 处置惩罚语义与结构差别较大的图像时，IMPUS [2] 保存身份特征丧失及过渡不平滑问题。如下图第二案例所示：(i) 第三张天生图像偏离原始身份特征；(ii) 第三与第四天生图像间泛起突变；

2. 只管 Diffmorpher [3] 比 IMPUS 实现了更平滑的过渡，但其效果常保存模糊且整体质量较低（见下图第一个案例）；

3. 基本要领 "Slerp"（仅接纳球面插值与 DDIM 历程）保存三大缺陷：(i) 因缺乏显式指导而难以准确剖析输入图像，(ii) 图像质量欠佳，(iii) 过渡突变。相比之下，本要领始终展现优越性能，其平滑过渡特征与高清画质优势显著。

总结

本文提出 FreeMorph，一种无需调参的新型流程，可在 30 秒内为两张输入图像天生高质量平滑过渡。详细而言，本要领立异性地通过修改自注重力？橐胂允酵枷裰傅，其焦点手艺包括两大立异组件：球面特征聚合机制与先验驱动自注重力机制。别的，我们提出办法导向的定向变分趋势，确保过渡偏向与输入图像严酷一致。为将上述？槿谌朐 DDIM 框架，还专门设计了刷新型前向扩散与反向去噪流程。大宗实验批注，FreeMorph 在多样化场景中均能天生高保真效果，以显着优势逾越现有图像变形手艺。

局限性和失败案例：只管尊龙游戏人生就是博要领抵达了目今的最先进水平，但仍保存一些局限性。我们在下图中展示了若干失败案例，详细包括：

1）当处置惩罚语义或结构差别较大的图像时，虽然模子仍能天生一定水平上合理的效果，但过渡历程可能不敷平滑，保存突变征象；

2）由于尊龙游戏人生就是博要领基于 Stable Diffusion，其固有的误差也会被继续，导致在处置惩罚涉及人体四肢等结构时，图像过渡的准确性受到影响。

参考文献

[1] Interpolating between images with diffusion models. ICML workshop 2023.

[2] IMPUS: Image morphing with perceptually-uniform sampling using diffusion models. ICLR 2023.

[3] Diffmorpher: Unleashing the capability of diffusion models for image morphing. CVPR 2024

分享： 2025-07-24 06:33:38 共81款