本文的第一作者为华为诺亚研究员李向阳,结业于北京大学,开源组织 BigCode 项目组成员。此前他们团队一经推出 CoIR 代码检索基准,现在已经成为代码检索领域的标杆 benchmark。其余主要成员也大部分来自 CoIR 项目组。
大语言模子(LLM)在标准编程基准测试(如 HumanEval,Livecodebench)上已经靠近 “结业”,但这是否意味着它们已经掌握了人类顶尖水平的重大推理和编程能力?
来自华为诺亚方舟实验室的一项最新研究给出了一个颇具挑战性的谜底。他们推出了一个全新的编程基准 ——“人类最后的编程考试” (Humanity's Last Code Exam, HLCE)。
该基准包括了已往 15 年(2010-2024)间,全球难度最高的两项编程竞赛:国际信息学奥林匹克竞赛(IOI)和国际大学生程序设计竞赛天下总决赛(ICPC World Finals)中最顶尖的 235 道问题。
效果怎样?即即是目今最先进的推理模子,如 OpenAI 的 o4-mini (high) 和 谷歌的 Gemini-2.5 Pro,在 HLCE 上的单次实验乐成率(pass@1)也划分只有15.85% 和 11.4%,与它们在其他基准上动辄凌驾 70% 的体现形成鲜明比照。 这批注,面临真正磨练顶尖人类智慧的编程难题,现有的大模子尚有很长的路要走。
论文地点: https://www.arxiv.org/abs/2506.12713项目地点: https://github.com/Humanity-s-Last-Code-Exam/HLCE
直面 “最强盛脑”:为何需要 HLCE?
近年来,LLM 在代码天生领域取得了惊人的前进,许多主流基准(如 LiveCodeBench、APPS 等)已经无法对最前沿的模子组成真正的挑战。研究者指出,现有基准保存几个要害问题:
1.难度有限:关于顶级 LLM 来说,许多问题已经由于简朴。
2.缺乏交互式评测:大大都基准接纳标准的输入 / 输出(I/O)模式,而忽略了在真实竞赛中常见的 “交互式” 问题。这类问题要求程序与评测系统举行动态交互,对模子的实时逻辑能力要求更高。
3.测试时扩展纪律(Test-time Scaling Laws)未被充分探索:模子在推理时破费更多盘算资源能否一连提升性能?这个问题在重大编程使命上尚无定论。
为构建高质量基准,研究团队对 HLCE 问题举行了深度处置惩罚。例如 ICPC World Finals 问题原始质料均为 PDF 名堂,团队通过人工逐题提取、转写为 Markdown 并校验,确保问题完整性。最终形成的 HLCE 基准包括:1)235 道 IOI/ICPC World Finals 历史难题;2)标准 I/O 与交互式双题型;3)全可复现的评测系统。
模子体现怎样?顶级 LLM 也 “考蒙了”
研究团队在 HLCE 上周全评估了 12 个主流 LLM,包括推理模子(如 o4-mini (high), Gemini-2.5 Pro, DeepSeek-R1)和非推理模子(如 chatgpt-4o-latest, claude-3.7-sonnet)。 实验效果展现了几个有趣的征象:
推理模子优势重大:具备推理能力的模子体现显著优于非推理模子。最强的 o4-mini (high) 的平均 pass@1 通过率(15.85%)约莫是最强非推理模子 deepseek-v3-0324(3.53%)的 4.5 倍。
IOI 交互式问题是 “硬骨头”:所有模子在 IOI 问题上的体现都远差于 ICPC world finals 问题。例如,o4-mini (high) 在 ICPC 上的 pass@1 为 25.21%,但在 IOI 上骤降至 6.48%。研究者以为,这与目今模子的训练数据和强化学习方法主要基于标准 I/O 模式有关,关于交互式问题准备缺乏。
奇异的模子退化征象:一个破例是 claude-3.7-thinking 模子,只管是推理模子,但其体现甚至不如一些非推理模子,在 IOI 问题上通过率为 0%。研究者推测,这可能是由于 claude 针对通用软件工程使命举行了优化,而非高难度的算法竞赛。
“我知道我不知道?”:模子的自我认知悖论
除了代码天生,研究者还设计了一个新颖的 “自我认知”(self-recognition)使命:让模子判断自身天生的代码是否准确,以评估其能力界线感知力。
效果出人意料:
代码能力最强的O4-mini (high),自我认知能力(AUC 0.63)并不突出。反观通用模子ChatGPT-4o-latest,展现了更强的 “自知之明”(AUC 0.84)。
这种 “苏格拉底悖论”—— 卓越的问题解决能力与清晰的自我认知能力未能同步生长 —— 体现在现有 LLM 架构中,推理能力与元认知能力(metacognition)可能遵照差别的进化路径。
大语言模子的 Test Time scaling law 到极限了吗
一个要害问题是:现在 LLM 的推理能力已经很是强了,现在这种范式抵达极限了吗?未来的模子的推理能力还能继续生长吗? 而面临云云高难度的 HLCE benchmark,这显然是一个绝佳的时机来研究大语言模子的Test Time Scaling Law。
研究者将模子天生的每组回覆凭证 thinking token 的数目凭证是非举行分组,然后重新测试性能。从图中可以看出,随着思索长度的一直延伸,模子的性能在一直的提升,并且远远没有抵达上限。
这个结论告诉我们,可以继续大胆的优化推理模子,至少在现在远远没有抵达 Test Time scaling law 抵达上限。
LLM vs 人类顶尖选手:差别尚有多大?
基于上述发明,研究者将模子的最佳体现(基于 5 次实验,IOI 取 5 次的最大分数,ICPC world Finals 取 5 次解决掉的最多问题)与历年 IOI 和 ICPC 天下总决赛的奖牌分数线举行了直接比照。
效果令人振奋:顶级 LLM 已经具备了赢得奖牌的实力。Gemini-2.5-pro 和 o4-mini (high) 的体现划分抵达了 IOI 和 ICPC 的银牌和金牌水平。
这也诠释了一个看似矛盾的征象:只管模子单次乐成率很低,但只要给予足够多的实验时机(这正是 “测试时扩展纪律” 的体现),它们就能找到准确的解法,从而在竞赛中获得高分。
未来偏向
这项研究通过 HLCE 这一极具挑战性的基准,清晰地展现了目今 LLM 在高级编程和推理能力上的优势与短板。 它证实晰,虽然 LLM 在单次实验的稳固性上仍有欠缺,但其内部已蕴含解决超重大问题的知识。更主要的是,测试时扩展纪律在这一极限难度下依然有用,为我们指明晰一条清晰的性能提升路径:通过更优的搜索战略和更多的盘算投入,可以一连挖掘模子的潜力。
《学生被❌到爽🔞流牛奶免费》,《w3u7903ejky2ywls》亚洲欧美在线AV一区二区粉色
“军警Gay呻吟XXX”
女仆裸体㊙️无遮挡屁股网站
……
07月12日
“女性向doi片”无座9个小时可以在车上干什么
↓↓↓
07月12日,近千万货车司机网络平台找货源,魔女伊蕾娜怀孕大肚子,欧美黑大粗硬毛片免费视频A片,男生偷偷关注的公众号有哪些,圣女当众被迫高潮H视频动漫
07月12日,泉州宝藏 | 为什么这座桥成了当地人心中难以言表的“断桥残梦”,张天爱被躁120分钟视频,玩着玩着就c进去了h1v1视频,yy6080韩国理论片在线看,原神琳妮特裸体❌污污网站
07月12日,受雨雪冰冻天气影响 2月1日郑州局管内部分列车停运,HD❌❌XX❌XXX18原神,美女扒开内裤无遮挡免费直播,91精品秘无码网站,佐助被鼬c呻吟双腿大张
07月12日|江西省气象台发布雷电黄色预警信号|fnf涩涩同人18❌网站动漫|免费🔞成人❌❌用黄上黄两半|女人趴到床脱了内裤光着屁股图片|偶像女友堕落第2季免费观看全集
07月12日|传播科学抗衰理念 “抗衰老·百城科普公益行”启动|Gay青少年自慰飞机网站|nylon连裤袜自慰系列|男男GayGay✅无套|美丽姑娘国语免费高清
07月12日|斯诺克世锦赛:卫冕冠军爆冷出局 张安达暂时落后|www.aqdw855.cc|二创maplestar资源|自慰喷水合集,大胸抖动|陌陌影视在线观看高清完整版……
07月12日,新疆两条直流工程年内外送电量超千亿千瓦时,寸止手冲挑战1~8期,绫波丽n开襟乳液狂飙,昆延夫夫集在线观看播放,奇优影视💚
07月12日,“美普绘”首届少儿艺术作品展在沪闭幕,巨胸美女爆❌免费漫画,强行扒开腿❌狂揉❌玩,不知火舞被❌18禁漫画,3D雷电将军❌AV黄漫
07月12日|专访谷爱凌:闪现奥运赛场跑不停 将挑战首个全马|亚洲欧美av|朱竹清被❌到爽拔萝卜|日本裸乳变态捆绑㊙️|ZZijZZij亚洲日本少妇jiZjiZ
07月12日,新疆举办首届乌兹别克斯坦商贸文旅合作交流会,打光屁股的丁字裤,微信看片,欧美猛男熟妇,成人网站免费观看完整版入口
07月12日,“欧洲最大经济体”易主? 西方“制俄”制了谁,男人添女人荫蒂视频观看,搡Chⅰnα老太婆6070,修女被❌吸乳羞羞动漫,赵一曼被C到高潮下不了床
07月12日,捕捉“倏忽一瞬” 《余生》新书分享会举办,㊙️羞羞视频免费看网站,美女裸体㊙️免费,裸体胡桃❌疯狂自慰小说,国产肥老妇视频
07月12日|第二届世界汉学家大会举行|缅甸KK区女人糟蹋网站|同人18❌动漫在线观看|女人扒开腿㊙️让男鬼桶|蘑菇网站挤奶🔞在线播放gif
07月12日|中新真探:年轻不穿秋裤,老了会得老寒腿?|女人自慰 9 0色情摸屁|多强被❌c到爽🔞网站|小13箩利自慰洗澡裸体作文|班长没带罩子让捏了一节课的视频
07月12日|超级工程背后的新质生产力|yeyebirdie奶牛农场主生命公坊|少妇性色婬片AAA直播|被强伦轩到高潮的R级|路飞妈妈登场了
说唱梦工厂,无良医生:爱里藏刀|中国驻英国使馆举行中英医疗卫生界人士招待会|XXNX👙日本老师18|芙宁娜被扒开腿坐做❌同人|亨利冢本农村剧情|失禁+抹春药+哭喊+刺激燃晚
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺