DeepSeek-R1 “小更新”：靠后训练刷新就能榨出云云多潜力

深度求索（DeepSeek）宣布其 DeepSeek-R1 模子已完成一次主要的小版本升级，最新版本号为 DeepSeek-R1-0528。凭证官方报告，此次更新显著提升了模子的头脑深度与推理能力，并在多个基准测评中取得了海内领先的效果。用户现已可通过官方网站、APP 或小程序开启“深度思索”功效体验新版模子，API 也已同步更新。

深度思索与推理能力显著增强

据官方先容，DeepSeek-R1-0528 依然基于2024年12月宣布的 DeepSeek V3 Base 模子构建。

然而，在后训练阶段，团队投入了更多算力，使得模子在数学、编程及通用逻辑等方面的体现获得大幅优化。

更新后的 R1 模子在多项基准测评中体现优异，效果在海内同类模子中压倒一切。官方信息指出，其整体体现已靠近其他国际顶尖模子，如 o3 与 Gemini-2.5-Pro？醇绦舯贫ゼ獗赵茨Ｗ。

一个显著的例子是在 AIME 2025（美国数学约请赛）测试中，新版模子的准确率从旧版的 70% 大幅提升至 87.5%。官方将这一前进归因于模子在推理历程中头脑深度的增强。数据显示，在 AIME 2025 测试集上，旧版模子平均每题使用 12K tokens，而新版模子则平均使用 23K tokens，批注其在解题时举行了更为详尽和深入的思索。这种“更长的思索时间”换取更高准确性的战略，也成为社区讨论的一个特点。

别的，深度求索团队还将 DeepSeek-R1-0528 的头脑链蒸馏后训练了 Qwen3-8B Base 模子，获得了 DeepSeek-R1-0528-Qwen3-8B。这个8B参数目的模子在数学测试 AIME 2024 中的体现仅次于 DeepSeek-R1-0528，逾越了原版 Qwen3-8B（提升10.0%），并与拥有235B参数目的 Qwen3-235B 体现相当。

深度求索以为，DeepSeek-R1-0528 的头脑链关于学术界推理模子的研究和工业界针对小模子的开发都将具有主要意义。在R1最初宣布时，这就是DeepSeek想要证实的手艺趋势之一，而这个叫做DeepSeek-R1-0528-Qwen3-8B的小模子，是最新的证实。该模子最焦点的手艺亮点在于乐成地将 DeepSeek-R1-0528 这种超大规模模子的重大“头脑链”（Chain of Thought, CoT）蒸馏到一个仅有8B参数目的 Qwen3-8B 基座模子上。效果显示，蒸馏后的8B模子在极具挑战性的AIME数学竞赛中取得了逾越原版Qwen3-8B达10%的效果，甚至抵达了与235B参数目的Qwen3-235B相当的水平。这强有力地证实晰高质量头脑链关于提升小模子推理能力的重大潜力，以及蒸馏手艺在转达这种高级认知能力方面的有用性。这一效果会继续突破“唯参数论”的迷思，它展示了通过先进的训练要领（如头脑链蒸馏），小参数模子完全有可能在特定重大使命上抵达或靠近远超其参数规模的大模子的性能水平。这关于算力受限、追求更高效率和更低安排本钱的场景具有极其主要的现实意义。

虽然，它也是DeepSeek最好的广告，会有更多模子用它来做蒸馏。

DeepSeek-R1-0528 的宣布迅速引起了海内外手艺社区和剖析机构的关注。凭证AI评测机构 Artificial Analysis 的报告，新版 DeepSeek R1 的“智慧指数”从60分跃升至68分，这一效果使其逾越了 xAI、Meta、Anthropic 等公司的模子，与 Google Gemini 2.5 Pro 并列全球第二梯队，仅次于 OpenAI 的部分顶尖模子（如 o3 及 o4.mini 高阶版），成为开源模子领域的有力竞争者。

多家评测指出，DeepSeek-R1-0528 的前进主要体现在其焦点的推理和编码能力上。

例如，在著名代码测试平台 LiveCodeBench 的早期测试中，新版 R1 展现出与 OpenAI 最新 o3 高版本模子相媲美的体现。Analytics Vidhya 中剖析机构也以为，R1-0528 作为开源模子，在数学（如AIME测试中靠近OpenAI o3水平）、通用推理（GPQA Diamond）和编码能力上，已经成为 Gemini 2.5 Pro 的有力挑战者，并在性价例如面展现出显著优势，其性能体现靠近 Claude 级别，而本钱则低数倍。

剖析普遍以为，DeepSeek R1 的此次迭代，并非纯粹依赖模子参数规模的扩大，而更多是通过刷新后训练战略，投入更多算力举行深度优化，从而实现了性能的跃升。只管新模子在执行重大使命时可能消耗更多 tokens（即“思索”时间更长），但这通常被视为换取更高准确性和更深度思索的合理价钱。同时，相较于某些同级别模子，其在完成特定评测使命时的总 token 消耗量仍具有竞争力。

其他要害能力提升

除了焦点的推理能力，新版 DeepSeek-R1 在以下方面也获得了刷新：

幻觉改善：针对大模子常见的“幻觉”问题，新版 R1 举行了优化。在改写润色、总结摘要、阅读明确等场景中，幻觉率降低了约45%至50%，能提供更准确可靠的输出。此前DeepSeek系列模子最为人诟病的问题就是幻觉，此前在Vectara HHEM人工智能幻觉测试——行业权威测试，通过检测语言模子天生内容是否与原始证据一致，从而评估模子的幻觉率，资助优化和选择模子——中，DeepSeek-R1显示出14.3%的幻觉率，这不但是 DeepSeek-V3的近4倍，也远超行业平均水平。此次凭证官方的数据，幻觉问题获得了很大的改善。这关于这款模子继续进入更深的生产场景至关主要。

创意写作：模子在议论文、小说、散文等文体的创作能力上获得进一步优化，能够天生篇幅更长、结构内容更完整的作品，写作气概也更贴近人类偏好。据不少评测，一经R1张口就来的“量子纠缠”文风，获得了刷新。

工具挪用：DeepSeek-R1-0528 现已支持工具挪用功效（但在“thinking”历程中不支持）。现在，该模子在 Tau-Bench 测评中的效果为 airline 53.5% / retail 63.9%，与 OpenAI o1-high 水平相当，但与 o3-High 及 Claude 4 Sonnet 相比仍有一定差别。官方展示了通过 LobeChat 挪用 R1 模子举行网页文章总结的示例。

其他领域：模子在前端代码天生（如示例中的单词卡片应用）、角色饰演等方面的能力也获得了更新和提升。

API 更新详情

陪同模子升级，API 也已同步更新，接口与挪用方法坚持稳固。新版 R1 API 不但继续支持审查模子思索历程，还新增了对 Function Calling 和 JsonOutput 的支持。

值得注重的是，max_tokens 参数的寄义在新版 API 中有所调解。现在，该参数用于限制模子单次输出的总长度（包括思索历程），默认值为 32K tokens，最大可支持 64K tokens。API 用户需实时调解此参数，以防输出内容被提前截断。

官方网站、小程序、App 端和 API 中的模子上下文长度现在仍为 64K。关于需要更长上下文的用户，可以通过其他第三方平台挪用开源版本的 R1-0528 模子，该版本支持 128K 的上下文长度。

模子开源信息

DeepSeek-R1-0528 与之前的 DeepSeek-R1 使用相同的基座模子，主要刷新在于后训练要领。关于私有化安排的用户，仅需更新 checkpoint 和 tokenizer_config.json 文件（主要涉及工具挪用相关变换）。

模子参数目为 685B（其中 14B 为 MTP 层）？窗姹镜纳舷挛某ざ任 128K。模子权重已在 Model Scope 和 Hugging Face 等平台开放下载：

Model Scope: https://modelscope.cn/models/deepseek-ai/DeepSeek-R1-0528

Hugging Face: https://huggingface.co/deepseek-ai/DeepSeek-R1-0528

与以往版本一致，此次 DeepSeek-R1 的开源客栈（包括模子权重）继续接纳 MIT License，允许用户使用模子输出、通过模子蒸馏等方法训练其他模子。

DeepSeek-R1-0528 的宣布，被DeepSeek称为小版本更新，但解决的问题样样要害，并且此次更新也反应出，通过全心的后训练和算力投入，纵然基于现有基座模子，也能实现性能的显著奔腾。这可能是更主要的思绪，也让人继续对DeepSeek下一个真正的大更新继续充满好奇。