何恺明等降维攻击!彻底倾覆AI生图,无需预训练一步到位
新智元报道
编辑:KingHZ
【新智元导读】何恺明团队又一力作!这次他们带来的是「天生模子界的降维攻击」——MeanFlow:无需预训练、无需蒸馏、不搞课程学习,仅一步函数评估(1-NFE),就能碾压以往的扩散与流模子!
何恺明有新论文了!
全新的天生模子MeanFlow,最大亮点在于它彻底跳脱了古板训练范式——无须预训练、蒸馏或课程学习,仅通过一次函数评估(1-NFE)即可完成天生。
MeanFlow在ImageNet 256×256上创下3.43 FID分数,实现从零最先训练下的SOTA性能。
图1(上):在ImageNet 256×256上从零最先的一步天生效果
在ImageNet 256×256数据集上,MeanFlow在一次函数评估(1-NFE)下抵达了3.43的FID分数,性能相比此前同类最佳要领有50%到70%的相对提升(见图1左)。
别的,MeanFlow训练历程从零最先,无需预训练、蒸馏或课程学习。
图1(左):算力和一次函数评估FID分数
其中iCT、Shortcut和MF都是一次函数评估(1-NFE),而IMM则使用了两次函数评估(2-NFE)的指导战略。
详细数值见表2。
表2:ImageNet-256×256上的种别条件天生实验,差别模子的参数、FID得分等统计数据
值得一提的是,作者共有5位,其中4位是华人,均来自CMU和MIT两所顶校。
其中一作耿正阳,是CMU的博士生,在MIT会见时完成了这次研究的部分事情。
论文链接:https://arxiv.org/abs/2505.13447
在新论文中,研究者提出了系统且高效的一步天生建?蚣躆eanFlow。
古板Flow Matching依赖建模瞬时速率场,而MeanFlow首创性地引入平均速率。∕ean Velocity Field)这一看法。
平均速率是指「位移/时间距离」的比值,实质上是对瞬时速率在时间轴上的积分。
仅基于这一界说,研究者推导出了平均速率与瞬时速率之间清晰且内在的数学关系,这为神经网络训练提供了理论依据。
在这一基本看法之上,直接训练神经网络,对平均速率场建模。
为此,研究者设计了新的损失函数,指导网络去知足平均速率与瞬时速率之间的内在关系,无需引入特另外启发式要领。
由于保存明确界说的目的速率场,理论上最优解与网络的详细结构无关,这种属性有助于训练历程越发稳健和稳固。
别的,新要领还能自然地将「无分类器指导」(Classifier-Free Guidance,CFG)融入目的速率场,在采样阶段使用指导时不会带来特另外盘算开销。
详细效果
在图1和表2(左侧)中,研究者将MeanFlow与现有的一步扩散/流模子举行了较量。
总体来看,MeanFlow在同类要领中体现显著优越:
新模子在ImageNet 256×256上实现了3.43的FID分数,相比IMM的7.77,相对提升凌驾50%;
若是仅较量1-NFE(一次函数评估)的天生效果,MeanFlow相比此前的最优要领Shortcut(FID 10.60),相对提升靠近70%。
这批注,MeanFlow在很洪流平上缩小了一步与多步扩散/流模子之间的性能差别。
在2-NFE(两次函数评估)设定下,新要领取得了2.20的FID分数(见表2左下角)。
这个效果已经可以媲美许多多步要领的最优基线。
它们都接纳了XL/2级别的主干网络,且NFE抵达250×2(见表2右侧)。
这进一步批注,少步数的扩散/流模子已经具备挑战多步模子的潜力。
别的,未来还能进一步提升性能。
图5:1-NFE天生效果示例
在CIFAR-10数据集(32×32)上,研究职员举行了无条件天生实验,效果列在表3中。
使用1-NFE采样时,他们使用FID-50K分数作为性能指标。
所有要领均接纳相同的U-Net架构(约5500万参数)。
需要注重的是,其他所有比照要领均使用了EDM气概的预处置惩罚器(pre-conditioner),而新要领没有使用任何预处置惩罚器。
在CIFAR-10这个数据集上,新要领在性能上与现有要领具有竞争力。
表3:CIFAR-10无条件天生效果
前身:流匹配
流匹配(Flow Matching,简称FM)是一种天生建模范式。
Flow Matching将「一连归一化流」(Continuous Normalizing Flows,CNFs)与「扩散模子」(Diffusion Models,DMs)的一些要害头脑相连系,从而缓解了这两类要领各自保存的焦点问题。
形式上,给定命据x~pdata(x)和先验噪声?~pprior(?),可以结构一条流动路径,
其中t体现时间,a_t和b_t是预设的调理函数。
路径的速率界说为
这个速率被称为条件速率(conditional velocity)。拜见图2左侧部分。
Flow Matching实质上是在对所有可能情形的期望举行建模,这种平均后的速率称为边沿速率(marginal velocity)(见图2右侧):
图2:Flow Matching中的速率场示意图。左图:条件流(ConditionalFlows)。统一个z_t可能由差别的(x,?)组合天生,因此会对应差别的条件速率v_t。右图:边沿流(Marginal Flows)。通过对所有可能的条件速率举行边沿化(求平均)获得边沿速率场。这个边沿速率场被作为训练神经网络时的「真实目的速率场」
图例说明:灰点体现从先验漫衍中采样获得的样本,红点体现来自真实数据漫衍的样本。
接着,学习由参数θ体现的神经网络v_θ,来拟合这个边沿速率场,其损失函数为:
但由于式(1)中的边沿化历程难以直接盘算,因此Flow Matching提出使用条件Flow Matching损失来取代:
其中目的速率v_t是条件速率。
可以证实,最小化上述两个损失函数是等价的。
一旦获得了边沿速率场v(z_t,t),就可以通过求解下面的常微分方程(ODE)来天生样本:
初始值为z_1=?,上述微分方程的解可以写成积分形式:
其中r体现另一个时间点。
在现实中,这个积分通常通过数值要领在离散时间步上举行近似。
值得注重的是,即条子件流被设计为「直线流动」(即所谓「校正流」),最终获得的边沿速率。ü(1))往往仍会诱导出弯曲的轨迹(见图2的示意)。
这种轨迹的弯曲不但仅是由于神经网络的近似误差,更是源于真实的边沿速率场自己。
当对这些弯曲轨迹使用粗粒度的时间离散化时,数值ODE解法往往会爆发较大的误差,从而导致天生效果禁绝确。
MeanFlow模子
平均流(Mean Flows)的焦点头脑是:引入一个体现平均速率的新。╲elocity field),而古板Flow Matching所建模的是瞬时速率。
平均速率界说
平均速率被界说为两个时间点t和r之间的位移(通过对瞬时速率积分获得),再除以时间距离。
形式上,平均速率u界说如下:
为了突出看法上的区别,统一用u体现平均速率,用v体现瞬时速率。
平均速率场u(z_t,r,t)同时依赖于起始时间r和终止时间t,如图3所示。
图3:平均速率场
需要注重的是,平均速率u实质上是瞬时速率v的泛函效果。
因此,平均速率场是由瞬时速率场决议的,并不依赖于任何神经网络。
从看法上讲,就像在Flow Matching中,瞬时速率v是训练的「真实目的场」,在MeanFlow中,平均速率u则饰演着类似的角色,是学习所依据的「真实速率场」。
MeanFlow模子的最终目的是:用神经网络近似平均速率场。
这样做的优势显著:一旦平均速率被准确建模,就可以仅通过一次前向盘算来近似整个流动路径。
换句话说,这种要领很是适合一步或少步数的天生使命,由于它在推理阶段不需要显式盘算时间积分——这是古板建模瞬时速率要领所必需的办法。
不过,在实践中,直接使用公式(3)界说的平均速率作为训练网络的「真值」行欠亨,由于这要求在训练时就对瞬时速率执行积分,盘算本钱高且不可行。
研究职员的要害看法是:可以对平均速率的界说公式举行数学变形,从而结构一个更易于训练的优化目的,纵然在只能会见瞬时速率的条件下依然可行。
MeanFlow恒等式
为了获得适合训练的形式,平均速率的界说公式(3)被重新改写为:
接着,对这个等式的双方关于t求导(把r看成常数),然后运用函数积的求导规则和微积分基本定理,获得:
整理上式,即可获得焦点的MeanFlow恒等式:
它描绘了平均速率u和瞬时速率v之间的实质联系。
需要说明的是,公式(6)与之前的积分公式(4)是等价的(详见原文附录B.3)。
在MeanFlow恒等式中,公式右侧给出了可以作为训练目的的形式,可以使用它构建损失函数,来训练神经网络展望u(z_t,r,t)。
为了构建这个损失函数,还需要进一步剖析其中的时间导数项。
时间导数的盘算
要盘算公式(6)右侧第二项全导数(total derivative),它可以用偏导数睁开如下:
将导数关系带入后获得:
这提供了另一种表达u和v关系的方法。
使用神经网络自动微分,在训练时高效盘算时间导数项。
使用平均速率举行训练
到现在为止,上述公式还没有涉及任何网络参数。现在引入可学习的模子u_θ,并希望它知足MeanFlow恒等式(公式(6))。
研究者界说如下的损失函数来优化网络参数:
其中,u_tgt是通过MeanFlow恒等式结构的训练目的:
这个目的的几个要害点如下:
训练信号来自于瞬时速率v,不需要积分操作,因此相比平均速率界说式(3)更容易实现。
虽然公式中泛起了对u的偏导数,但现实训练中使用的是网络输出uθ的梯度(自动微分实现)。
使用了stop-gradient操作(记为sg):这是为了阻止「二阶反向撒播」,从而减小优化的盘算肩负。
需要说明的是,纵然在优化中举行了这些近似,只要u_θ最终能够使损失为零,它就一定知足MeanFlow恒等式,从而也知足最初的平均速率界说。
条件速率替换边沿速率
在公式(10)中的v(z_t,t)是Flow Matching中的边沿速率(见图2右),但它难以直接盘算。
因此,借鉴Flow Matching已有的做法,使用条件速率(见图2左)来替换:
这里vt=at′x+bt′?是条件速率,在默认设定下vt=??x。
论文链接:https://arxiv.org/abs/2210.02747
在算法1中,jvp操作(Jacobian-vector product)很是高效。
使用MeanFlow模子举行采样很是简朴:只需将时间积分项替换为平均速率即可,伪代码详见算法2。
带指导的MeanFlow
新要领能够自然支持无分类器指导(Classifier-Free Guidance,CFG)。
与古板做法在采样阶段直接应用CFG差别,研究者将CFG视为底层「真实速率场」的一部分属性。
这种建模方法可以在保存CFG效果的同时,仍坚持采样时的1-NFE性能。
构建真实速率场
研究者界说新的带指导的真实速率场vcfg:
这是一个种别条件。╟lass-conditional field)与无条件。╟lass-unconditional field)的线性组合。
其中,种别条件速率(即对给定种别c条件下的边沿速率)、无条件边沿速率,界说如下:
接下来,我们模拟MeanFlow的方法,为vcfg引入对应的平均速率。
凭证MeanFlow恒等式(公式6),我们有:
我们再次强调,vcfg和ucfg都是理论上的真实速率场,与神经网络参数无关。
别的,由公式(13)和MeanFlow恒等式导出:
这可以简化盘算。
带指导的训练要领
神经网络ucfg,θ来拟合平均速率场,需要结构如下训练目的:
其中目的值为:
这里的右侧第一项是连系指导权重后的速率界说:
其中v_t是样本条件速率,默认设定为vt=??x。
若是ω=1,即纯种别条件指导,则损失函数退化为不含CFG的公式(9)。
stop-gradient操作用于阻断目的对网络参数的反向撒播,阻止二蹊径度盘算。
别的,为了增强网络对无种别输入的泛化能力,以0%概率随机扬弃种别条件。
单NFE下CFG采样
在本要领中,网络直接学习的是由指导速率vcfg所诱导的平均速率。
因此,在采样阶段,无需再举行线性组合盘算,只需直接网络挪用即可完成一步采样(见算法2)。
最终,新在保存CFG效果的同时,依然维持了理想的单步采样性能(1-NFE),兼顾了效率与质量。
作者先容
耿正阳(Zhengyang Geng)
耿正阳,卡内基梅隆大学(CMU)盘算机科学博士生。
他热衷于研究动态系统,致力于识别、明确并开发能够自组织形成重大系统的动态机制。
2020年,他结业于四川大学,获得盘算机科学与手艺学士学位。
他在北京大学、Meta等机构实习过多次。
参考资料:
https://arxiv.org/abs/2505.13447
https://mlg.eng.cam.ac.uk/blog/2024/01/20/flow-matching.html
辉夜被呜人❌❌漫画一
高清乱码🔞❌♋免费女女软件
男生洗澡露j🔞㊙️网站
羞羞漫画喷水A片漫画在线观看
国产成人🔞🈲好用力啊
120分钟做爰视频
不知火舞❌到满身奶水
女战士裸乳被爆❌浆网站
挺进朋友老婆的骚B
美女被❌狂揉大胸视频
西施裸体被❌出白色液体
黄漫❌大乳18禁
西施被到爽高潮痉挛
同性女A片18🈲在线观看
女人帮男人橹视A片
小箩莉极品嫩苞
3D少司缘裸体❌❌抖乳
BBC媚黑宣誓全文内容
女初高中打屁股网站
魅魔高度黄油十八🈲游戏
自由成熟西元视频所有的
动漫美女❌爆乳❌无遮挡❌
绝区零妮可被❌❌网站
mogu网站🔞在线播放gif
邪恶天堂⭐️邪恶道全彩
舌头👅进去里面吃坤坤
皇上~好猛~舒服~h~视频
・巨大ヒロインソ18禁
倪萍的大骚B
欧美大片免费播放器
扒开🐻让我❌❌❌动
国产做受❌❌❌入口视频
艾玛沃特森裸被❌高清
精品Pron㊙️一区二区入口
国精产品无人区一码二码三
免费➕无码➕国产AV
c🔞黄㊙️❌B站91
原神裸体❌开腿黄漫
51漫画com.itcode.reader
乌克兰处破女www免费
3D同人18❌AV网站蒂法
斗罗大陆❌18禁同人本子
japanese日本老熟妇HD
久久久亚洲熟妇熟女ⅩXXX69
日本动漫推荐羞羞到处bg
❌❌❌日本护士老师videos
老头泄精喂老头GAy
特级a老妇做爰全过程
欧美人与物动XXXZZZZ
中国疯狂XXXX乱大交视频
樱花🌸动漫在线观看
成欢阁登录入口官方
老师又爽❌又黄❌免费蘑菇
夜店男模脱裤全身精光视频
黄秋葵影视在线观看免费
班长让我吃他🐻我脱她衣服软件
休内谢精一汇编的深度解析
我家弟很棒樱花动漫版
XNXX.女جالاپ
洗澡偷拍合集无删减
动漫美女爆❌羞羞动漫免费软件
一寸一寸挺进刘亦菲的花苞
黑土被扒开腿坐做❌视频
嗳潮生活馆
美女彼又爽
英雄联盟金克丝脚底图片
伍六七曼珠沙华自慰18🈲
原神爆乳❌流出清水
《我的漂亮老师2》
FC2PPV颜出し処女丧失か
brazzersHD100%
性奴暴虐被迫灌肠
国产强 暴 疼 哭 处 女
fgo尼禄本子
动漫无遮挡在线观看
八重神子爆乳潮喷❌❌本子
小🐔🐔扎入🍑
黑人深一点,快一点,好爽
真人美女被吸入的小视频
古力娜扎裸体无删减版视频
无码➕白丝➕强行➕
网友谈论 审查所有谈论>>