经典ReLU回归!重大缺陷「殒命ReLU问题」已被解决
机械之心报道
机械之心编辑部
不必换模子、不必堆参数,靠 SUGAR 模子性能大增!
在深度学习领域中,对激活函数的探讨已成为一个自力的研究偏向。例如 GELU、SELU 和 SiLU 等函数依附其平滑梯度与卓越的收敛特征,已成为热门选择。
只管这一趋势盛行,经典 ReLU 函数仍因其精练性、固有希罕性及其他优势拓扑特征而广受青睐。
然而 ReLU 单位易陷入所谓的「殒命 ReLU 问题」, 一旦某个神经元在训练中输出恒为 0,其梯度也为 0,无法再恢复。 这一征象最终制约了其整体效能,也是 ReLU 网络的重大缺陷。
正是殒命 ReLU 问题催生了大宗刷新的线性单位函数,包括但不限于:LeakyReLU、PReLU、GELU、SELU、SiLU/Swish 以及 ELU。这些函数通过为负预激活值引入非零激活,提供了差别的权衡。
本文,来自德国吕贝克大学等机构的研究者引入了一种新颖的要领:SUGAR(Surrogate Gradient for ReLU),在不牺牲 ReLU 优势的情形下解决了 ReLU 的局限性。即前向撒播仍使用标准 ReLU(坚持其希罕性和简朴性),反向撒播时替换 ReLU 的导数为一个非零、一连的替换梯度函数(surrogate gradient)。
这样可以让 ReLU 在坚持原始前向行为的同时,阻止梯度为零的问题,从而复生死神经元。
基于此,本文还设计了两种新型替换梯度函数:B-SiLU(Bounded SiLU)、 NeLU(Negative slope Linear Unit),可以无缝集成到种种模子中。
本研究的进一步孝顺如下:
本文对 VGG-16 和 ResNet-18 举行了周全的实验,批注 SUGAR 显著增强了这两种架构的泛化能力。本文在Swin Transformer和 Conv2NeXt 等现代架构上对 SUGAR 举行了评估,展示了其顺应性和有用性。对 VGG-16 层激活的深入剖析批注,当应用 SUGAR 时,激活漫衍爆发了显着的转变,为其在缓解消亡 ReLU 问题中的作用提供了直观证据,同时增进了更希罕的体现。
SUGAR 要领易于实现,并在前向撒播中始终接纳 ReLU 激活函数。与所提出的 B-SiLU 替换函数连系使用时,VGG-16 在 CIFAR-10 和 CIFAR-100 数据集上的测试准确率划分提升了 10 个百分点和 16 个百分点,而 ResNet-18 与未使用 SUGAR 的最佳模子相比,划分提升了 9 个百分点和 7 个百分点。
论文问题: The Resurrection of the ReLU论文链接:https://arxiv.org/pdf/2505.22074
SUGAR 先容
本文提出的要领将 FGI ( Forward gradient injection )应用于具有平滑替换函数的 ReLU 网络中。在 SUGAR 框架下, FGI 可以体现为:
该公式实现了梯度注入,并确保纵然关于负激活也能举行梯度撒播。详细来说,使用 [34] 中的乘法技巧,替换梯度函数的直接注入如下:
替换函数的选择具有无邪性,可兼容目今最先进的种种激活函数,例如 ELU、GELU、SiLU、SELU 以及 Leaky ReLU(见图 8)。
要害区别在于,与 ReLU 差别,这些候选替换函数均具有一个配合特征:对负输入(x < 0)能爆发非零梯度。虽然这些函数为负激活提供了梯度流通路径,但前向撒播及后续损失盘算仍严酷依赖 x > 0 时的激活输出。
在起源研究中,本文意识到需要调解目今的激活函数以顺应 SUGAR 的特定用途。因此,接下来本文提出了两个与这些设置优异匹配的新替换函数。
B-SiLU:引入了一种名为 B-SiLU(Bounded Sigmoid Linear Unit) 的新型激活函数,它连系了自门控特征和可调下限参数。从数学上讲,该函数可以体现为:
B-SiLU 激活函数的导数为:
图 8 中可视化了 B-SiLU 及其导数。
NeLU:本文进一步引入了 NeLU(Negative slope Linear Unit),作为 ReLU 的平滑导数替换品。
最终的梯度如图 1 所示。
实验
总体而言,与 ReLU 基线相比,SUGAR 连系 ELU、SELU 以及特殊是 B-SiLU 获得了最大的提升,而 LeakyReLU 和 NeLU 则始终体现不佳(见图 2)。在 CIFAR-10 数据集上使用 ResNet-18 作为主干网络时,B-SiLU 的性能从 76.76% 提升到 86.42%,得益于 SUGAR。VGG-16 也体现出类似的效果:B-SiLU 将测试精度提高了近 10 个百分点(从 78.50% 提升到 88.35%)。
在 CIFAR-100 数据集上,SUGAR 连系 B-SiLU 的优势越发显着:ResNet-18 的准确率从 48.99% 跃升至 56.51%,VGG-16 的准确率从 48.73% 提升至 64.47%(见图 3)。同样,Leaky ReLU 和 NeLU 仅显示出细小的甚至是负的提升(例如 ResNet-18 上的 43.67% → 43.41%)。
总的来说,B-SiLU 在差别架构和数据集上均优于其他替换激活函数,ELU 和 SELU 能够提供可靠的刷新,而在这种设置下,SUGAR 从 Leaky ReLU 和 NeLU 中并未获得有意义的益处。
当应用于 Conv2NeXt 时,如表 1 所示,SUGAR 在前向和反向撒播历程中均始终优于使用 GELU 的基础模子。
相识更多内容,请参考原论文。
www.17c.com喷水少妇
日本浣肠㊙️视频免费看
evenlyn挑战老外原版
美女膀胱无内裤㊙️
成人国产精品㊙️在线鲁大男同
一键消衣免费软件入口
佐助被鼬c呻吟双腿大张
云悠悠裸体屁股照片
脱了邓紫棋内裤猛烈进入
两个女人帮我吹箫暗示什么
泰勒裸爱被视频无码
李恩美被干120分钟
🍆❌女生🍑里动漫
王者女英雄去衣奶头污图
超帅男男Gay自慰出精
扒开👙看18禁
浓毛茸茸BwBw妇女
云韵师徒洗澡互c高潮小说
粉嫩小雪双乳被❌到喷水18漫画
美女被🈲脱脱内内㊙️免费直播
佐助×鸣人18禁漫画
videos❌❌❌free夫妇
jzzjzzjzz亚洲熟女少妇18
小🐤🐤戳进🍑无遮挡网视频
美女裸体㊙️网站
白丝老师好紧好爽好湿在线观看
女人高潮时一夹一夹会得hpv吗
近相亲祖母60集免费
韩国美女㊙️把屁股眼对脸上
白丝JK美女裸体❌出水
国产精品久久久久久久圣徒会长
打屁股sp调教网站
成人国产Av欧美3D动漫
裸体泳衣美女㊙️
美女大胆做182在线视频
刘浩存同人h
福瑞动画免费观看动画网站
波斯妇女毛浓浓bbwβ
小s货又想挨c了叫大声点小说
无码男男做受g片观看
14小箩莉洗澡裸体高清视频
小志与谷玉霞的恋情
rlue34word18+
男男被粗大的🐔巴捣出白浆作文
女同炒菜算不算第一次
爱情岛论坛自拍亚洲Av一区
偷拍农村沟厕光腚
被迫在刑具上高潮调教道具
成人男模🔞高潮片免费网站欧美
国产男男GaYGAYS✅18脚
又硬又粗又黄又爽又大又紧
91❤️国产丝袜在线播
女性裸体㊙️无遮挡海滩
玩马眼棒视频免费观看
甘雨挤奶🈲🚫八重神子游戏
网红被c❌到爽的在线观看
18秘密㊙️埃及猫
freeHD中国麻豆黑料
白丝捆绑sm丨Ⅴk
高潮女子撒尿全过程㊙️
相泽南被躁120分钟中出
极品91尤物被啪到呻吟喷水
舌L子伦熟妇视频
玄衣被强行扒开双腿玩弄
龟仙人❌人造人18号污本子
穿黑色蕾丝透明胸罩说明什么
免费观看婬乱孕妇视频
原神同人被❌爆乳吸乳动漫
扒开美女狂揉下部
黑客家庭破解在线观看免费版
上课学长扒开腿揉捏花蒂
太中本子无遮挡
捆绑美女弄隐私㊙️部位
美女洗澡全过程㊙️免费
福利姬无遮挡H福利图库
ceкевидео⚡️HD
免费肉体裸交❌❌❌❌护士视频
嗯~啊~弄嗯~啊h高潮视频
圈子主人和小狗的关系
亚洲乱熟女一区二区三区山口珠理
舞蹈培训班沟厕的拍摄地点介绍
网友谈论 审查所有谈论>>