尊龙游戏人生就是博

伊蕾娜泳池派对 最近更新|更新列表|字母检索|下载排行|苹果专区|分类导航

目今位置:首页专题合集 → w3u7903ejky2ywls

尊龙凯时 - 人生就是搏!

庞若鸣接班陈智峰,苹果宣布2025基础模子手艺报告

庞若鸣接班陈智峰,苹果宣布2025基础模子手艺报告

机械之心报道

编辑:泽南

Apple Intelligence 进入新的一章 。

克日,苹果宣布了 2025 年 Apple Intelligence 基础语言模子手艺报告 。

刚刚加入 Meta 的前苹果 AI 认真人庞若鸣(Ruoming Pang)发出多条推文举行了先容 。

在报告中,苹果详细先容了训练新一代模子所用的数据、模子架构、训练计划、优化推理手艺手段,以及与同类模子比照的评估效果 。文中重点展示了苹果怎样在提升用户价值的同时实现功效扩展与质量优化,并大幅提高装备端和私有云盘算的运行效率 。

报告链接:https://machinelearning.apple.com/research/apple-foundation-models-tech-report-2025

这次苹果先容了两种多语言、多模态基础语言模子,可为苹果装备和效劳中的 Apple Intelligence 功效提供支持 。其中包括:

1)通过 KV 缓存共享和 2 位量化感知训练等架构立异,针对苹果自有芯片举行了优化的 3B 参数装备模子;2)一种可扩展的云端模子,它连系了新型并行轨道混淆专家 (PT-MoE) Transformer 和交织的全局 - 局部注重力,以便在苹果的私有云盘算平台上举行有用推理 。

这两款模子均通过认真任的网络爬取、授权语料库和高质量合成数据集举行大规模多语言、多模态训练,并在新的异步平台上通过监视微协调强化学习进一步优化 。最终模子不但支持多种新增语言,还能明确图像并执行工具挪用 。

PT-MoE 架构示意图 。每个轨迹 track 由多个轨?樽槌,每个轨?榘ɡ慰渴康 Transformer/MoE 层 。假设总层数为 L 层且轨?樯疃任 D,则同步开销可从 2L(张量并行)降低至 L/D(轨迹并行) 。例如当 D = 4 时,PT 架构可将同步开销镌汰 87.5% 。

PT Transformer是苹果研究职员提出的一种新型架构 。与仅包括简单顺序层客栈的标准解码器式 Transformer 差别,该架构将模子划分为多个小型 Transformer ?,称为轨道 。每个轨道由多个堆叠的轨道块组成,每个轨道块自己都是一个 Transformer 层客栈 。这些轨道块自力处置惩罚标记数据,仅在轨道块的输入输出界线举行跨轨道同步 。这种隔离设计不但实现了轨道间的直接并行执行,尚有用降低了古板 Transformer 解码器(如接纳张量并行手艺的模子)中常见的同步开销 。这种要领被称为轨迹并行,刷新了训练和推理的延迟,而不会影响模子的质量 。

为实现效劳器端模子的进一步扩展,苹果在每个轨道块内部引入了专家混淆层(MoE),从而构建出 PT-MoE 架构 。由于各 MoE 层中的专家?榻鲈诙杂斓滥谠诵,通讯开销可与盘算历程有用重叠,从而提升训练效率 。连系轨道并行性带来的轨道级自力性优势,这种设计使模子在坚持低延迟的同时实现高效扩展 —— 得益于希罕度的提升,模子运行越发轻量化 。

另外为了实现现视觉明确能力,苹果引入了一个可以从输入图像中提取视觉特征的视觉编码器,在大宗图像数据上举行了预训练,以提高其性能 。视觉编码器包括两个要害组件:一个视觉主干,用于从输入图像中提取富厚的视觉表征;以及一个视觉语言顺应?,用于压缩视觉表征并将这些视觉特征与模子的标记表征举行对齐 。

在视觉主干网络中,苹果接纳了标准的视觉 Transformer(ViT-g),效劳器模子为 10 亿参数;以及更高效的 ViTDet-L 主干网络,装备端模子为 3 亿参数 。

装备端视觉主干网络接纳了 ViTDet 架构,该架构在大大都视觉 Transformer 层中使用窗口注重力机制,仅包括三个跨窗口全局注重力层 。为更有用地捕获并整合细粒度局部细节与宏观全局上下文信息,苹果在标准 ViTDet 基础上立异性地引入了注册窗口(RW)机制 。该机制通过让全局注册表(或种别)标记在加入整体全局上下文聚合前,先与图像中的差别局部窗口举行交互,从而实现对全局特征的编码 。

苹果以为,端侧和云端模子配合可以知足普遍的性能和安排需求 。装备端模子经由优化,能够以最低资源消耗实现低延迟推理;而效劳器端模子则专为重大使命设计,提供了高精度和可扩展性 。

在人工评估基准中,苹果的模子在跨语言、文本和视觉模式上都具有不错的竞争力,甚至优于一律规模的最佳开源模子 。

在手艺报告中,苹果还先容了全新推出的 Swift 焦点的基础模子框架,其中集成了指导式天生、约束式工具挪用和 LoRA 适配器微调三大功效?,开发者仅需几行代码即可轻松实现这些功效的集成 。

该框架闪开发者能够借助约 30 亿参数的装备端语言模子,着手打造可靠且具备量产级品质的天生式 AI 功效 。作为 Apple Intelligence 的焦点,它在摘要、实体提取、文本明确、优化、简短对话、创意内容天生等多样化文本使命中体现卓越 。不过苹果体现,虽然已针对装备端模子举行了专门优化,但它并非为通用知识问答而设计 。苹果勉励应用开发者使用该框架为 APP 定制适用功效 。

苹果体现,Apple Intelligence 模子的最新希望始终遵照「认真任的人工智能」的理念,通过内容过滤、地区定制评估等清静防护步伐,并依托私有云盘算等立异手艺,切实包管用户隐私清静 。

在手艺报告宣布之后,庞若鸣不忘谢谢了所有孝顺者,其中包括模子、后训练、多模态、框架 / API、项目治理职员,同时把接力棒交给了苹果 AI 的下一任认真人 Zhifeng Chen 和 Mengyu Li 。

此前据媒体报道,庞若鸣加入 Meta 后,苹果大模子团队将由陈智峰(Zhifeng Chen)认真,不过团队的治理架构将越发疏散 。

陈智峰 2000 年本科结业于复旦大学,后于普林斯顿大学、伊利诺伊大学香槟分;竦盟妒俊⒉┦垦 。在加入苹果之前,陈智峰曾在谷歌恒久事情,加入过 TensorFlow、Gemini、神经机械翻译系统、Palm 2 等主要研究 。他和庞若鸣、吴永辉均是Google Brain 早期的主要成员 。

参考内容:

https://www.bloomberg.com/news/articles/2025-07-07/apple-loses-its-top-ai-models-executive-to-meta-s-hiring-spree

相关推荐:18🈲🈲🈲🈲🈲色AV 黑土大雷漫画本 姬小满裸乳被爆❌白浆9

分享: 2025-07-23 05:58:52 共81款

电脑

安卓

苹果

相关合集

网友谈论 审查所有谈论>>

揭晓谈论

(您的谈论需要经由审核才华显示) 网友粉丝QQ群号:766969941

审查所有0条谈论>>

【网站地图】【sitemap】