2025.05.29
本文字数:1440,阅读时长约莫2分钟
导读:报告显示此前 R1模子幻觉率在21%左右。
作者 |第一财经 刘晓洁
在开源平台HuggingFace上宣布R1模子的更新后,5月29日晚,DeepSeek终于宣布了官方通告先容这次版本的详细能力迭代细节,其中包括深度思索能力强化、幻觉改善和创意写作更好等。
在测评数据上,官方体现,更新后的R1模子在数学、编程与通用逻辑等多个基准测评中取得了目今海内所有模子中压倒一切的效果,并且在整体体现上已靠近其他国际顶尖模子,如 o3 与 Gemini-2.5-Pro。
值得一提的是,DeepSeek提到,新版DeepSeek R1 针对“幻觉”问题举行了优化。与旧版相比,更新后的模子在改写润色、总结摘要、阅读明确等场景中,幻觉率降低了 45%-50% 左右,能够提供更为准确可靠的效果。
所谓幻觉即大模子的“乱说八道”,此前DeepSeek的幻觉率并不低,也被不少用户和开发者所讨论。5月15日,SuperCLUE曾宣布最新一轮中文大模子忠实性幻觉测评效果,显示此前的DeepSeek-R1模子幻觉率在21%左右,在测评的海内模子中排名第五。
据SuperCLUE,推理模子的幻觉比非推理模子更显著,在他们的测评中推理模子的平均幻觉率为22.95%,非推理模子的平均幻觉率为13.52%。
除了幻觉方面的改善,官方先容,新R1模子在重大推理使命中的体现有了显著提升。例如在 AIME 2025 测试(一个数学基准测试,用于模子在数学推理方面的能力)中,新版模子准确率由旧版的70%提升至87.5%。
别的,更新后的 R1 模子针对议论文、小说、散文等文体举行了进一步优化,能够输出篇幅更长、结构内容更完整的长篇作品,同时泛起出越发贴近人类偏好的写作气概。
在官方发文之前,众多测试批注R1新模子的代码能力有显著提升,在代码测试平台Live CodeBench中,其性能险些媲美OpenAI重量级的o3-high模子。官方此次通告也提到,在前端代码天生、角色饰演等领域,模子的能力确实均有更新和提升。
在迭代路径上,DeepSeek体现,DeepSeek-R1-0528 仍然使用 2024 年12月所宣布的DeepSeek V3 Base模子作为基座,但在后训练历程中投入了更多算力,显著提升了模子的头脑深度与推理能力。
本次R1新模子参数为 685B,开源版本上下文长度为 128K(网页端、App 和 API 提供 64K 上下文)。同时,与旧版本的R1坚持一致,此次开源模子权重仍然统一接纳 MIT License,允许用户使用模子输出、通过模子蒸馏等方法训练其他模子。
有趣的是,在X平台DeepSeek的官方谈论区中,讨论的话题全都关于R2模子,“We want R2(我们想要R2模子)”,有用户谈论称。业界对DeepSeek下一代的模子期待已久。
基于DeepSeek刚刚宣布了更新,有用户推测,“是否意味着我们暂时不会听到有关R2的新闻?”也有用户奚落称,这一模子或许在开发中应该是R2,可是当他们发明在基准测试中没有逾越OpenAI的o3 时,DeepSeek将其重新命名为R1的更新。
一直低调的DeepSeek并未对外界的推测举行任何回应,基于R1是在V3模子的基础上训练的,或许我们会先比及V4模子的更新。无论怎样,海内外大模子领域的基座模子大战还在继续,DeepSeek之后,谁会是下一家?
外洋网友制作的梗图,对目今大模子领域的麋集更新举行奚落
微信编辑| 苏小
祢豆子❌暴爽自慰喷水 | 3天前 |
脱妈妈裙子从后面挺进去漫画 |
原神小草神裸体❌开腿图 | 8天前 |
三黄三级全黄60分钟 |
国产❌❌❌18🈲㊙️照片色桃 | 7天前 |
学生裸体黄网站 |
成人h动漫精品一区二区三区 | 4天前 |
免费无遮挡🔞视频国外抖音 |
原神云堇裸体❌开腿 | 4天前 |
岳伦高潮的A片 |
日奈被扒开腿做❌本子 | 4天前 |
扒开🍑将老师🍌伸进 |
91精品丝袜久久久久久无码人妻 | 3天前 |
XXX自慰喷水DX |
男生男生里片 | 2天前 |
涂山雅雅撅着屁股求主人玩弄小说 |
老师扒开让我❌了一夜动漫英文 | 1天前 |
一个上面一个摸下边 |
porinئۇيغۇر | 4天前 |
爆乳女教师被❌喷水漫画 |