谷歌 DeepMind 与韩国科学手艺院(KAIST)的研究职员克日联合宣布了一种名为“Mixture-of-Recursions”(MoR)的新型语言模子架构。据称能在坚持模子性能的同时,实现了推理速率翻倍、训练盘算量镌汰并降低了约 50% 的 KV 缓存内存使用。论文一经宣布,便在社交媒体上引发了普遍关注,甚至有谈论称其或许是“Transformer 杀手”。
自 2017 年问世以来,Transformer 架构已成为大型语言模子的手艺基础,现在险些所有先进模子都建设在这一架构之上。但随着模子规模越来越大,Transformer 架构对盘算和内存资源的需求也日益增添,训练和安排本钱十分高昂。已往的效率优化要领通常只关注简单偏向,例如通过参数共享来缩小模子尺寸,或通过自顺应盘算来按需分派算力,但很少能将多个效率目的同时优化。
MoR 架构的焦点立异在于将递归盘算与动态路由机制相连系,在一个统一框架内解决多重效率问题。在标准的 Transformer 模子中,输入文本的每一个 token 都要经由相同数目的盘算层处置惩罚。MoR 则改变了这一模式,它允许差别的 token 凭证自身的重漂后,接受差别深度的处置惩罚。
图丨MoR 架构的概览(泉源:arXiv)
详细来说,MoR 使用共享的参数块来提升参数效率,同时通过一个轻量级的“路由器”,来决议每个 token 需要履历几多次递归盘算。研究团队测试了多种路由战略,例如“专家选择”(expert-choice)和“token 选择”(token-choice),以平衡盘算负载和阻止信息处置惩罚中的逻辑问题。在参数共享方面,测试效果批注“Middle-Cycle”战略体现最好,该战略坚持模子的第一层和最后一层使用自力的参数,只在中心层之间共享权重,以此在参数效率和模子的表达能力之间取得较好的平衡。
图丨MoR 的焦点组件(泉源:arXiv)
内存治理是 MoR 的另一项要害刷新。纵然参数共享了,古板递归模子在每一层递归时仍会爆发自力的 KV 缓存,导致内存占用依然很高。MoR 提出了两种新的 KV 缓存战略来应对这一问题。一种是“递归式缓存”,只为被路由到特定递归办法的 token 存储 KV 数据,并将注重力盘算限制在这些外地数据中,从而有用降低了 KV 缓存的内存占用和数据读写量。另一种“递归共享”战略则更进一步,使用所有 token 都会经由第一个递归块的特征,只在第一步缓存 KV 数据,供后续所有递归办法重复使用,以此最大化地节约内存。
研究团队在 1.35 亿到 17 亿参数的多个模子规模上举行了测试。效果批注,在相同的训练盘算预算下,一个接纳 MoR 架构的模子,虽然其参数目比基准 Transformer 模子少了近一半,但在多项少样本学习使命中的平均准确率抵达了 43.1%,凌驾了基准模子的 42.3%。
(泉源:arXiv)
更主要的是,MoR 更高的盘算效率,使其能在相同的盘算预算内处置惩罚更多的训练数据,这反过来也提升了模子的最终性能。在牢靠训练数据量的比照实验中,一个 MoR 设置在使用少 25% 训练盘算量的情形下,其性能依然凌驾了基准模子,同时训练时间镌汰了 19%,峰值内存使用也降低了 25%。
在推理性能上,MoR 的优势越发显着。它接纳了一种一连深度批处置惩罚手艺,可以将处在差别盘算阶段的 token 组合到统一个批次中举行处置惩罚,由于它们都使用相同的参数块。该手艺配合模子的早期退出机制,显著提升了处置惩罚吞吐量。在 3.6 亿规模的模子测试中,MoR-4 设置在特定设置下实现了高达 2.06 倍的推理加速。
研究还发明,MoR 模子在处置惩罚差别类型 token 时,体现出一种与语义主要性相关的模式。内容富厚的 token,如“People”或“defensively confident”,会被分派更多的递归次数(三次);而功效性词汇,如“and”,通常只需要较少的递归次数。这批注,模子学会了将更多的盘算资源用于处置惩罚更主要的信息。
现实上,MoR 的泛起也离不开谷歌此前相关研究的铺垫。在早前的 Mixture-of-Depths(MoD)等手艺中,谷歌 DeepMind 就已经探索了动态分派盘算资源的要领。同时,递归 Transformer 作为一种参数共享手艺,也为 MoR 提供了理论基础。
MoR 进一步延续了这些研究对 AI 效率优化的探索,即从简单维度的优化,转向参数、盘算和内存等多个维度的协同优化。这关于降低大语言模子的安排和使用本钱具有较大的现实意义。
总体而言,虽然现在断言 MoR 能否完全替换 Transformer 还为时过早,但它确实为未来的语言模子架构设计,提供了一个在性能和效率上都极具潜力的生长偏向。
参考资料:
1.https://arxiv.org/abs/2507.10524
运营/排版:何晨龙
《我身上两个奶被男人揉搓网站》,《w3u7903ejky2ywls》jk❌❌白丝❌❌爆乳91
“办公室强摸双乳18禁”
国产传媒18精品免费观看
……
07月24日
“电锯人涩涩同人❌18禁黄漫”檀健次新造型好像农村老大爷
↓↓↓
07月24日,武汉轮渡之变:跨越时空承载江城记忆,火影扒开腿做❌同人动漫,JMComic.2.0回家地址,符玄裸体❌开腿裸体网站,动漫打屁股㊙️免费网站
07月24日,北京舞蹈学院青年舞团在澳大利亚悉尼首演,小🐔🐔伸进🈲🔞🔞真人,男同志gy🔞www.欧美,蒂法被扒开腿坐做❌同人黄文,打光屁股秘sP网站
07月24日,《习近平文化思想学习纲要》出版发行,星野鱼哥在线观看,❌❌❌美女裸体隐私视频,美女扒开屁股㊙️无遮挡,免费韩漫无遮羞嘿嘿漫画软件
07月24日|外交部:提醒中国公民避免卷入武装冲突|funny巨大粗爽Gay黄动漫|美女裸露双奶头捆绑sm挠脚心|少妇与子亂伦在线看|巧露视频站
07月24日|中国驻美使馆举办纪念中美建交45周年暨新春招待会|少年骇客同人网站|千仞雪3D同人18❌AV网站|女趴下脱裙子撅屁股打pp|赵露思被捏奶啃胸的视频
07月24日|穗港签署养老合作意向书 湾区养老融合再提速|少妇裸体自慰Porn|国产➕刺激➕高潮➕大学生|91丨国产丨白浆㊙️洗澡APP|国产女同疯狂做爰XXXⅩa高潮……
07月24日,台胞组团“登陆”海南探寻医药领域合作机遇,香蕉🍌🍌🍑🍑APP人口,菠萝蜜成人🔞在线,BJ金艺贞爆乳19禁仙女屋,痴梦少女第一季免费观看全集中文
07月24日,“中华水塔”青海:生态环境状况持续稳定向好,女同桌脱给我揉网站,白老虎免费版登录入口,女生拉肚子屎流下来,美女解开胸罩摸自己胸直播
07月24日|滇黔桂三省(区)共管库区水上搜救联合应急演练举行|二创maplestar资源|小心🐤入🍑🍑动漫3d|原神疯狂❌喷水自慰爽18禁|关晓彤好紧好骚进去了
07月24日,国务院关于《中国(浙江)自由贸易试验区大宗商品资源配置枢纽建设方案》的批复,强行扒开腿❌狂揉❌玩,涂山容容裸体被❌叫爽漫画,扒开雏田疯狂揉❌3b,日本疯狂吮乳吃奶头av
07月24日,以色列北部遭上百枚火箭弹和无人机袭击,粗大巴一进一出视频,ass刘涛大荫蒂毛茸茸,小南被脱内衣被❌动漫视频,纲手露出胸🍑和乳头🍑让人揉
07月24日,(文化中国行)守望潮起潮落与两岸变迁 “运河之眼”见证城河共生,祢豆子被爆❌羞羞图片白丝,实践拍击视频OTK,cosplay涩网站,美女洗澡隐私㊙️免费视频
07月24日|“电子奸臣”让粉丝失望 虚拟夸赞不如生活治愈|作精养成指南dy只想躺躺|老赵揉搓苏清雅双乳的视频|使劲cao我吧求cao奶3p|男人GayGay撒尿✅免费网站
07月24日|台湾诗人姚时晴:我从宋词中寻找灵感|教练在泳池下添我做爰|FXXXLL性俄罗斯|绝区零同人18动漫免费|小樱含精肉臀迎合
07月24日|古巴因外部网络攻击推迟燃油调整计划|免费看黄网站☀入口动漫|18禁止涩涩视频㊙️免费下载|欧美男男GayGay✅免费网址|免费看双女主炒菜资源的方法
如何评价小天近期状态,外媒称PS5pro蜘蛛侠2无法4K60帧|2024年中国杂技大联欢完成录制 多形式展现中华“龙文化”|李玲玉被无套内谢|啊〜好痛〜嗯〜轻一点揉我胸作文|免费网站禁app|啊轻点灬大巴太粗太长了
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺