尊龙游戏人生就是博

🐔🐔桶烂🍑30分钟图片 最近更新|更新列表|字母检索|下载排行|苹果专区|分类导航

目今位置:首页专题合集 → w3u7903ejky2ywls

尊龙凯时 - 人生就是搏!

何恺明等降维攻击!彻底倾覆AI生图,无需预训练一步到位

何恺明等降维攻击!彻底倾覆AI生图,无需预训练一步到位

新智元报道

编辑:KingHZ

【新智元导读】何恺明团队又一力作!这次他们带来的是「天生模子界的降维攻击」——MeanFlow:无需预训练、无需蒸馏、不搞课程学习,仅一步函数评估(1-NFE),就能碾压以往的扩散与流模子!

何恺明有新论文了!

全新的天生模子MeanFlow,最大亮点在于它彻底跳脱了古板训练范式——无须预训练、蒸馏或课程学习,仅通过一次函数评估(1-NFE)即可完成天生。

MeanFlow在ImageNet 256×256上创下3.43 FID分数,实现从零最先训练下的SOTA性能。

图1(上):在ImageNet 256×256上从零最先的一步天生效果

在ImageNet 256×256数据集上,MeanFlow在一次函数评估(1-NFE)下抵达了3.43的FID分数,性能相比此前同类最佳要领有50%到70%的相对提升(见图1左)。

别的,MeanFlow训练历程从零最先,无需预训练、蒸馏或课程学习。

图1(左):算力和一次函数评估FID分数

其中iCT、Shortcut和MF都是一次函数评估(1-NFE),而IMM则使用了两次函数评估(2-NFE)的指导战略。

详细数值见表2。

表2:ImageNet-256×256上的种别条件天生实验,差别模子的参数、FID得分等统计数据

值得一提的是,作者共有5位,其中4位是华人,均来自CMU和MIT两所顶校。

其中一作耿正阳,是CMU的博士生,在MIT会见时完成了这次研究的部分事情。

论文链接:https://arxiv.org/abs/2505.13447

在新论文中,研究者提出了系统且高效的一步天生建?蚣躆eanFlow。

古板Flow Matching依赖建模瞬时速率场,而MeanFlow首创性地引入平均速率。∕ean Velocity Field)这一看法。

平均速率是指「位移/时间距离」的比值,实质上是对瞬时速率在时间轴上的积分。

仅基于这一界说,研究者推导出了平均速率与瞬时速率之间清晰且内在的数学关系,这为神经网络训练提供了理论依据。

在这一基本看法之上,直接训练神经网络,对平均速率场建模。

为此,研究者设计了新的损失函数,指导网络去知足平均速率与瞬时速率之间的内在关系,无需引入特另外启发式要领。

由于保存明确界说的目的速率场,理论上最优解与网络的详细结构无关,这种属性有助于训练历程越发稳健和稳固。

别的,新要领还能自然地将「无分类器指导」(Classifier-Free Guidance,CFG)融入目的速率场,在采样阶段使用指导时不会带来特另外盘算开销。

详细效果

在图1和表2(左侧)中,研究者将MeanFlow与现有的一步扩散/流模子举行了较量。

总体来看,MeanFlow在同类要领中体现显著优越:

新模子在ImageNet 256×256上实现了3.43的FID分数,相比IMM的7.77,相对提升凌驾50%;

若是仅较量1-NFE(一次函数评估)的天生效果,MeanFlow相比此前的最优要领Shortcut(FID 10.60),相对提升靠近70%。

这批注,MeanFlow在很洪流平上缩小了一步与多步扩散/流模子之间的性能差别。

在2-NFE(两次函数评估)设定下,新要领取得了2.20的FID分数(见表2左下角)。

这个效果已经可以媲美许多多步要领的最优基线。

它们都接纳了XL/2级别的主干网络,且NFE抵达250×2(见表2右侧)。

这进一步批注,少步数的扩散/流模子已经具备挑战多步模子的潜力。

别的,未来还能进一步提升性能。

图5:1-NFE天生效果示例

在CIFAR-10数据集(32×32)上,研究职员举行了无条件天生实验,效果列在表3中。

使用1-NFE采样时,他们使用FID-50K分数作为性能指标。

所有要领均接纳相同的U-Net架构(约5500万参数)。

需要注重的是,其他所有比照要领均使用了EDM气概的预处置惩罚器(pre-conditioner),而新要领没有使用任何预处置惩罚器。

在CIFAR-10这个数据集上,新要领在性能上与现有要领具有竞争力。

表3:CIFAR-10无条件天生效果

前身:流匹配

流匹配(Flow Matching,简称FM)是一种天生建模范式。

Flow Matching将「一连归一化流」(Continuous Normalizing Flows,CNFs)与「扩散模子」(Diffusion Models,DMs)的一些要害头脑相连系,从而缓解了这两类要领各自保存的焦点问题。

形式上,给定命据x~pdata(x)和先验噪声?~pprior(?),可以结构一条流动路径,

其中t体现时间,a_t和b_t是预设的调理函数。

路径的速率界说为

这个速率被称为条件速率(conditional velocity)。拜见图2左侧部分。

Flow Matching实质上是在对所有可能情形的期望举行建模,这种平均后的速率称为边沿速率(marginal velocity)(见图2右侧):

图2:Flow Matching中的速率场示意图。左图:条件流(ConditionalFlows)。统一个z_t可能由差别的(x,?)组合天生,因此会对应差别的条件速率v_t。右图:边沿流(Marginal Flows)。通过对所有可能的条件速率举行边沿化(求平均)获得边沿速率场。这个边沿速率场被作为训练神经网络时的「真实目的速率场」

图例说明:灰点体现从先验漫衍中采样获得的样本,红点体现来自真实数据漫衍的样本。

接着,学习由参数θ体现的神经网络v_θ,来拟合这个边沿速率场,其损失函数为:

但由于式(1)中的边沿化历程难以直接盘算,因此Flow Matching提出使用条件Flow Matching损失来取代:

其中目的速率v_t是条件速率。

可以证实,最小化上述两个损失函数是等价的。

一旦获得了边沿速率场v(z_t,t),就可以通过求解下面的常微分方程(ODE)来天生样本:

初始值为z_1=?,上述微分方程的解可以写成积分形式:

其中r体现另一个时间点。

在现实中,这个积分通常通过数值要领在离散时间步上举行近似。

值得注重的是,即条子件流被设计为「直线流动」(即所谓「校正流」),最终获得的边沿速率。ü(1))往往仍会诱导出弯曲的轨迹(见图2的示意)。

这种轨迹的弯曲不但仅是由于神经网络的近似误差,更是源于真实的边沿速率场自己。

当对这些弯曲轨迹使用粗粒度的时间离散化时,数值ODE解法往往会爆发较大的误差,从而导致天生效果禁绝确。

MeanFlow模子

平均流(Mean Flows)的焦点头脑是:引入一个体现平均速率的新。╲elocity field),而古板Flow Matching所建模的是瞬时速率。

平均速率界说

平均速率被界说为两个时间点t和r之间的位移(通过对瞬时速率积分获得),再除以时间距离。

形式上,平均速率u界说如下:

为了突出看法上的区别,统一用u体现平均速率,用v体现瞬时速率。

平均速率场u(z_t,r,t)同时依赖于起始时间r和终止时间t,如图3所示。

图3:平均速率场

需要注重的是,平均速率u实质上是瞬时速率v的泛函效果。

因此,平均速率场是由瞬时速率场决议的,并不依赖于任何神经网络。

从看法上讲,就像在Flow Matching中,瞬时速率v是训练的「真实目的场」,在MeanFlow中,平均速率u则饰演着类似的角色,是学习所依据的「真实速率场」。

MeanFlow模子的最终目的是:用神经网络近似平均速率场。

这样做的优势显著:一旦平均速率被准确建模,就可以仅通过一次前向盘算来近似整个流动路径。

换句话说,这种要领很是适合一步或少步数的天生使命,由于它在推理阶段不需要显式盘算时间积分——这是古板建模瞬时速率要领所必需的办法。

不过,在实践中,直接使用公式(3)界说的平均速率作为训练网络的「真值」行欠亨,由于这要求在训练时就对瞬时速率执行积分,盘算本钱高且不可行。

研究职员的要害看法是:可以对平均速率的界说公式举行数学变形,从而结构一个更易于训练的优化目的,纵然在只能会见瞬时速率的条件下依然可行。

MeanFlow恒等式

为了获得适合训练的形式,平均速率的界说公式(3)被重新改写为:

接着,对这个等式的双方关于t求导(把r看成常数),然后运用函数积的求导规则和微积分基本定理,获得:

整理上式,即可获得焦点的MeanFlow恒等式:

它描绘了平均速率u和瞬时速率v之间的实质联系。

需要说明的是,公式(6)与之前的积分公式(4)是等价的(详见原文附录B.3)。

在MeanFlow恒等式中,公式右侧给出了可以作为训练目的的形式,可以使用它构建损失函数,来训练神经网络展望u(z_t,r,t)。

为了构建这个损失函数,还需要进一步剖析其中的时间导数项。

时间导数的盘算

要盘算公式(6)右侧第二项全导数(total derivative),它可以用偏导数睁开如下:

将导数关系带入后获得:

这提供了另一种表达u和v关系的方法。

使用神经网络自动微分,在训练时高效盘算时间导数项。

使用平均速率举行训练

到现在为止,上述公式还没有涉及任何网络参数。现在引入可学习的模子u_θ,并希望它知足MeanFlow恒等式(公式(6))。

研究者界说如下的损失函数来优化网络参数:

其中,u_tgt是通过MeanFlow恒等式结构的训练目的:

这个目的的几个要害点如下:

训练信号来自于瞬时速率v,不需要积分操作,因此相比平均速率界说式(3)更容易实现。

虽然公式中泛起了对u的偏导数,但现实训练中使用的是网络输出uθ的梯度(自动微分实现)。

使用了stop-gradient操作(记为sg):这是为了阻止「二阶反向撒播」,从而减小优化的盘算肩负。

需要说明的是,纵然在优化中举行了这些近似,只要u_θ最终能够使损失为零,它就一定知足MeanFlow恒等式,从而也知足最初的平均速率界说。

条件速率替换边沿速率

在公式(10)中的v(z_t,t)是Flow Matching中的边沿速率(见图2右),但它难以直接盘算。

因此,借鉴Flow Matching已有的做法,使用条件速率(见图2左)来替换:

这里vt=at′x+bt′?是条件速率,在默认设定下vt=??x。

论文链接:https://arxiv.org/abs/2210.02747

在算法1中,jvp操作(Jacobian-vector product)很是高效。

使用MeanFlow模子举行采样很是简朴:只需将时间积分项替换为平均速率即可,伪代码详见算法2。

带指导的MeanFlow

新要领能够自然支持无分类器指导(Classifier-Free Guidance,CFG)。

与古板做法在采样阶段直接应用CFG差别,研究者将CFG视为底层「真实速率场」的一部分属性。

这种建模方法可以在保存CFG效果的同时,仍坚持采样时的1-NFE性能。

构建真实速率场

研究者界说新的带指导的真实速率场vcfg:

这是一个种别条件。╟lass-conditional field)与无条件。╟lass-unconditional field)的线性组合。

其中,种别条件速率(即对给定种别c条件下的边沿速率)、无条件边沿速率,界说如下:

接下来,我们模拟MeanFlow的方法,为vcfg引入对应的平均速率。

凭证MeanFlow恒等式(公式6),我们有:

我们再次强调,vcfg和ucfg都是理论上的真实速率场,与神经网络参数无关。

别的,由公式(13)和MeanFlow恒等式导出:

这可以简化盘算。

带指导的训练要领

神经网络ucfg,θ来拟合平均速率场,需要结构如下训练目的:

其中目的值为:

这里的右侧第一项是连系指导权重后的速率界说:

其中v_t是样本条件速率,默认设定为vt=??x。

若是ω=1,即纯种别条件指导,则损失函数退化为不含CFG的公式(9)。

stop-gradient操作用于阻断目的对网络参数的反向撒播,阻止二蹊径度盘算。

别的,为了增强网络对无种别输入的泛化能力,以0%概率随机扬弃种别条件。

单NFE下CFG采样

在本要领中,网络直接学习的是由指导速率vcfg所诱导的平均速率。

因此,在采样阶段,无需再举行线性组合盘算,只需直接网络挪用即可完成一步采样(见算法2)。

最终,新在保存CFG效果的同时,依然维持了理想的单步采样性能(1-NFE),兼顾了效率与质量。

作者先容

耿正阳(Zhengyang Geng)

耿正阳,卡内基梅隆大学(CMU)盘算机科学博士生。

他热衷于研究动态系统,致力于识别、明确并开发能够自组织形成重大系统的动态机制。

2020年,他结业于四川大学,获得盘算机科学与手艺学士学位。

他在北京大学、Meta等机构实习过多次。

参考资料:

https://arxiv.org/abs/2505.13447

https://mlg.eng.cam.ac.uk/blog/2024/01/20/flow-matching.html

相关推荐:自己撅起来乖乖挨c烂H漫画视频 松下纱荣被躁120分钟 亚洲色恨天

分享: 2025-05-29 19:30:20 共81款

电脑

安卓

苹果

相关合集

网友谈论 审查所有谈论>>

揭晓谈论

(您的谈论需要经由审核才华显示) 网友粉丝QQ群号:766969941

审查所有0条谈论>>

【网站地图】【sitemap】