尊龙游戏人生就是博

搜索 猫眼影戏 融媒体矩阵
  • 山东手机报

  • 猫眼影戏

  • 公共网官方微信

  • 公共网官方微博

  • 抖音

  • 人民号

  • 天下党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

「0污染」LLM明确基准来了!20000道题14个学科全笼罩,来自微软

2025-07-23 17:50:45
泉源:

猫眼影戏

作者:

蒋某

手机审查

  猫眼影戏记者 金荷娜 报道w3u7903ejky2ywls

新智元报道

编辑:LRST

【新智元导读】MMLU-CF是一个无污染的多使命语言明确基准测试,旨在更公正、准确地评估大语言模子的能力。通已往污染规则和闭源测试集避免数据泄露,确保评估效果可靠。该基准包括20,000道问题,涵盖14个学科,验证集果真透明,测试集闭源防泄露。

近年来,随着大语言模子(LLM)的一直前进,怎样准确评估其能力已经成为研究的热门问题。

诸如大规模多使命语言明确基准MMLU(Massive Multitask Language Understanding),在评估大语言模子中起到主要作用。

然而,由于开放源代码和训练数据的多样性,现有基准测试难免保存数据污染问题,影响评估效果的可靠性。

为了提供更为准确、公正的评估,微软亚洲研究院推出了MMLU-CF,它是基于果真数据源,经已往污染设计的大语言模子明确基准,并已在Huggingface上开放。

MMLU-CF是一个「无污染」的、更具挑战性的多项选择题基准数据集。

论文链接:https://arxiv.org/pdf/2412.15194

代码链接:https://github.com/microsoft/MMLU-CF

数据毗连:https://huggingface.co/datasets/microsoft/MMLU-CF

数据集包括20,000道问题,分为10,000道验证集问题和10,000道测试集问题,其中验证集开源,测试集闭源,涵盖康健、数学、物理、商业、化学、哲学、执法、工程等14个学科领域。

MMLU-CF为大语言模子的评估提供了一个越发公正和可靠的基准,不但资助研究者准确明确模子的能力,也为未来模子优化提供了名贵的数据支持。

MMLU-CF的孝顺

消除数据污染

古板基准测试可能保存数据污染,影响评估的公正性。MMLU-CF通过引入三条去污染规则并扩展数据源,确保测试效果更可靠。

避免恶意数据泄露

研究职员将数据集分为验证集和测试集,确保测试集坚持闭源,阻止数据走漏引发的不公正效果。同时,验证集开源以增进透明度,便于自力验证。

比照效果

评估效果显示,OpenAI o1在MMLU-CF测试集上的5-shot得分为80.3%,显著低于其在MMLU上取得的92.3%得分,批注晰MMLU-CF基准的严酷性。

图1 主流大模子在MMLU-CF的测试集的5-shot得分体现

基准比照

MMLU与MMLU-Pro基准测试主要关注使命的广度、推理能力和难度,但未思量数据污染问题。

关于MMLU-CF,研究职员在数据网络时应用了去污染规则,确保阻止数据泄露,同时将测试集坚持闭源,避免恶意泄露。

以下是几款主流模子在MMLU与MMLU-CF数据集上的体现与排名转变:

图2 主流大模子在MMLU-CF和MMLU上的体现与排名

新的基准MMLU-CF扰乱了已评估的语言模子(LM)在MMLU上的性能排名。

排名前三的语言模子:OpenAI o1、Deepseek-R1和Deepseek-V3 ,坚持了领先职位,排名没有任何转变。

有趣的是,在显著的排名转变(>=3位)中,排名下降的往往比上升的更为显著。

平均而言,排名下降的语言模子下降了5.14位次,而排名上升的语言模子上升了3.78位次。

这种差池称性批注,性能大幅下降比上升更容易,这可能是由于预训练语料库中的数据污染造成的。

与规模较大的语言模子相比,规模较小的语言模子在新的MMLU-CF基准测试中似乎更具破损性。

测试集与验证集的划分

在MMLU-CF中,研究职员将数据集划分为测试集和验证集,并通过盘算「绝对分数差别」评估模子的泛化能力。统计效果显示,约60%的差别值小于0.5,96%的差别值低于1.0,批注测试集和验证集的评估效果高度一致。

图3 数据构建流程图

MMLU-CF的数据构建包括以下几个办法:

1.问题网络:从普遍的开放互联网域网络问题,包管问题的多样性。

2.问题洗濯:确保网络到的问题质量高,适适用于评估。

3.难度采样:确保问题的难度漫衍合理。

4.大模子检查:使用GPT-4o、Gemini、Claude模子对数据的准确性和清静性举行检查。

5.去污染处置惩罚:通已往污染处置惩罚,确保数据集的无污染性。

最终,MMLU-CF数据集划分包括了10,000道测试集域验证集问题,同时测试集坚持闭源,验证集则果真以包管透明性。

去污染处置惩罚规则

为了阻止无意中的污染并评估模子的推理和明确能力,研究职员接纳了三条去污染规则:

?规则1:改写问题,镌汰模子对已见数据的依赖。

?规则2:打乱选项,阻止模子通过影象选项顺序做出准确谜底。

?规则3:随机替换选项,增添模子的推理难度。

图4 去污染示例

这些规则有用镌汰了恶意和无意的走漏危害,确保了数据集的「无污染」性。

参考资料:

https://arxiv.org/pdf/2412.15194

??时势1:二次元美女18🚫隐私免费

??07月23日,【东西问】Pandaily创始人周恒星:如何讲好中国创新故事?,

  为了确保学校第三届田径运动会开得文明、清静、有序、精彩,学校在运动会时代对全体同砚做如下要求:

,神里绫华裸体㊙️无遮挡。

??07月23日,硬拗“台湾不缺电”,究竟打了谁的脸?,

  三、在有家人陪同地条件下,到清静的、正规的游泳池游泳,并要做好响应的准备运动,避免溺水事务的爆发。

,XXXHentai3Dmmd4k,18➕电影,看片➕vx。

??时势2:狠狠的挺进云缨小泬

??07月23日,中国南方多地高温天气持续 各地多措并举确保粮食稳产,

  照旧像猴子,但酿成圆的了,金灿灿,拳头大,一双大眼特殊有神,比石昊的大眼都不会小,每一次眨动都会扑闪出莹莹光线。

,超级女教官2之布兰迪最新消息,美女水手服裸体㊙️网站,女性㊙️免费自慰。

??07月23日,超越日本!中国成最大汽车出口国,

  小不点也垂泪,最终拉起这个孩子,小声的嘱咐了他一番,此后离去。

,金晨被c到高潮下不了床网站,古力娜扎光着胸奶头照片,女仆被撕开衣服揉搓双乳。

??时势3:红蝶被躁到高潮

??07月23日,首届外交官非遗盛典为世界文明交流互鉴搭建国际舞台,

  它虽然不大,但上面密密麻麻,也不知道镌刻上了几多符号,若隐若无间,仿若有诸天神魔的吟唱传出,震的人心血翻腾。

,国产精品亚洲Av人片在线,小母狗水好多主人,日向花火裸体调教。

??07月23日,“丝路百城传”之《撒马尔罕传》图书发布会在京举办,

  那么怎样才华提高自我 ;さ囊馐赌?

,黄色网站学生,浓精喷进老师黑色丝袜在线观看,日本拉大便goshopping。

??时势4:脱了内裤在阳台趴着被c

??07月23日,长沙初雪美景如画 民众雪中作乐,

  为什么要开展“文明教育”运动?

,成人性色黄l片完整版迅雷影院,国产午夜精AV在线麻豆四虎,安妮海瑟薇床戏。

??07月23日,11月份中国物流业景气指数为52.8% 物流需求保持向好建设现代商贸流通体系重点关注哪几个方面?专家解读→,

  纵然是数万人的部落,有人踏进搬血境,但终其一生也难以臻至后期,爆发出那般惊人的实力。

,大胸❌挤奶❌强j斗罗大陆动漫❌,裸体瑜伽裸体无码AV视频,免费🔞成人❌❌❌在线观看。

责编:穆萨·特拉奥雷

审核:翁河水

责编:伊布拉希莫维奇

相关推荐 换一换

Copyright (C) 2001-2025   dzwww.com. All Rights Reserved

新闻信息效劳允许证 - 音像制品出书允许证 - 广播电视节目制作谋划允许证 - 网络视听允许证 - 网络文化谋划允许证

山东省互联网传媒集团主理  联系电话:0531-85193202  违法不良信息举报电话:0531-85196540

鲁ICP备09023866号-1   鲁公网安备 37010202000111号  

Copyright (C) 2001-2025 Dzwww   鲁ICP备09023866号-1

【网站地图】【sitemap】