尊龙游戏人生就是博

国产AV无码亚洲AV无码痴汉 最近更新|更新列表|字母检索|下载排行|苹果专区|分类导航

目今位置:首页专题合集 → w3u7903ejky2ywls

尊龙凯时 - 人生就是搏!

经典ReLU回归!重大缺陷「殒命ReLU问题」已被解决

经典ReLU回归!重大缺陷「殒命ReLU问题」已被解决

机械之心报道

机械之心编辑部

不必换模子、不必堆参数 ,靠 SUGAR 模子性能大增!

在深度学习领域中 ,对激活函数的探讨已成为一个自力的研究偏向。例如 GELU、SELU 和 SiLU 等函数依附其平滑梯度与卓越的收敛特征 ,已成为热门选择。

只管这一趋势盛行 ,经典 ReLU 函数仍因其精练性、固有希罕性及其他优势拓扑特征而广受青睐。

然而 ReLU 单位易陷入所谓的「殒命 ReLU 问题」 , 一旦某个神经元在训练中输出恒为 0 ,其梯度也为 0 ,无法再恢复。 这一征象最终制约了其整体效能 ,也是 ReLU 网络的重大缺陷。

正是殒命 ReLU 问题催生了大宗刷新的线性单位函数 ,包括但不限于:LeakyReLU、PReLU、GELU、SELU、SiLU/Swish 以及 ELU。这些函数通过为负预激活值引入非零激活 ,提供了差别的权衡。

本文 ,来自德国吕贝克大学等机构的研究者引入了一种新颖的要领:SUGAR(Surrogate Gradient for ReLU) ,在不牺牲 ReLU 优势的情形下解决了 ReLU 的局限性。即前向撒播仍使用标准 ReLU(坚持其希罕性和简朴性) ,反向撒播时替换 ReLU 的导数为一个非零、一连的替换梯度函数(surrogate gradient)。

这样可以让 ReLU 在坚持原始前向行为的同时 ,阻止梯度为零的问题 ,从而复生死神经元。

基于此 ,本文还设计了两种新型替换梯度函数:B-SiLU(Bounded SiLU)、 NeLU(Negative slope Linear Unit) ,可以无缝集成到种种模子中。

本研究的进一步孝顺如下:

本文对 VGG-16 和 ResNet-18 举行了周全的实验 ,批注 SUGAR 显著增强了这两种架构的泛化能力。本文在Swin Transformer和 Conv2NeXt 等现代架构上对 SUGAR 举行了评估 ,展示了其顺应性和有用性。对 VGG-16 层激活的深入剖析批注 ,当应用 SUGAR 时 ,激活漫衍爆发了显着的转变 ,为其在缓解消亡 ReLU 问题中的作用提供了直观证据 ,同时增进了更希罕的体现。

SUGAR 要领易于实现 ,并在前向撒播中始终接纳 ReLU 激活函数。与所提出的 B-SiLU 替换函数连系使用时 ,VGG-16 在 CIFAR-10 和 CIFAR-100 数据集上的测试准确率划分提升了 10 个百分点和 16 个百分点 ,而 ResNet-18 与未使用 SUGAR 的最佳模子相比 ,划分提升了 9 个百分点和 7 个百分点。

论文问题: The Resurrection of the ReLU论文链接:https://arxiv.org/pdf/2505.22074

SUGAR 先容

本文提出的要领将 FGI ( Forward gradient injection )应用于具有平滑替换函数的 ReLU 网络中。在 SUGAR 框架下 , FGI 可以体现为:

该公式实现了梯度注入 ,并确保纵然关于负激活也能举行梯度撒播。详细来说 ,使用 [34] 中的乘法技巧 ,替换梯度函数的直接注入如下:

替换函数的选择具有无邪性 ,可兼容目今最先进的种种激活函数 ,例如 ELU、GELU、SiLU、SELU 以及 Leaky ReLU(见图 8)。

要害区别在于 ,与 ReLU 差别 ,这些候选替换函数均具有一个配合特征:对负输入(x < 0)能爆发非零梯度。虽然这些函数为负激活提供了梯度流通路径 ,但前向撒播及后续损失盘算仍严酷依赖 x > 0 时的激活输出。

在起源研究中 ,本文意识到需要调解目今的激活函数以顺应 SUGAR 的特定用途。因此 ,接下来本文提出了两个与这些设置优异匹配的新替换函数。

B-SiLU:引入了一种名为 B-SiLU(Bounded Sigmoid Linear Unit) 的新型激活函数 ,它连系了自门控特征和可调下限参数。从数学上讲 ,该函数可以体现为:

B-SiLU 激活函数的导数为:

图 8 中可视化了 B-SiLU 及其导数。

NeLU:本文进一步引入了 NeLU(Negative slope Linear Unit) ,作为 ReLU 的平滑导数替换品。

最终的梯度如图 1 所示。

实验

总体而言 ,与 ReLU 基线相比 ,SUGAR 连系 ELU、SELU 以及特殊是 B-SiLU 获得了最大的提升 ,而 LeakyReLU 和 NeLU 则始终体现不佳(见图 2)。在 CIFAR-10 数据集上使用 ResNet-18 作为主干网络时 ,B-SiLU 的性能从 76.76% 提升到 86.42% ,得益于 SUGAR。VGG-16 也体现出类似的效果:B-SiLU 将测试精度提高了近 10 个百分点(从 78.50% 提升到 88.35%)。

在 CIFAR-100 数据集上 ,SUGAR 连系 B-SiLU 的优势越发显着:ResNet-18 的准确率从 48.99% 跃升至 56.51% ,VGG-16 的准确率从 48.73% 提升至 64.47%(见图 3)。同样 ,Leaky ReLU 和 NeLU 仅显示出细小的甚至是负的提升(例如 ResNet-18 上的 43.67% → 43.41%)。

总的来说 ,B-SiLU 在差别架构和数据集上均优于其他替换激活函数 ,ELU 和 SELU 能够提供可靠的刷新 ,而在这种设置下 ,SUGAR 从 Leaky ReLU 和 NeLU 中并未获得有意义的益处。

当应用于 Conv2NeXt 时 ,如表 1 所示 ,SUGAR 在前向和反向撒播历程中均始终优于使用 GELU 的基础模子。

相识更多内容 ,请参考原论文。

相关推荐:弱网2.15,版本最新版 新玥tv5 JaPanese熟妇人妻HD

分享: 2025-06-06 15:45:32 共81款

电脑

安卓

苹果

相关合集

网友谈论 审查所有谈论>>

揭晓谈论

(您的谈论需要经由审核才华显示) 网友粉丝QQ群号:766969941

审查所有0条谈论>>

【网站地图】【sitemap】