新智元报道
编辑:LRST
【新智元导读】MMLU-CF是一个无污染的多使命语言明确基准测试,旨在更公正、准确地评估大语言模子的能力。通已往污染规则和闭源测试集避免数据泄露,确保评估效果可靠。该基准包括20,000道问题,涵盖14个学科,验证集果真透明,测试集闭源防泄露。
近年来,随着大语言模子(LLM)的一直前进,怎样准确评估其能力已经成为研究的热门问题。
诸如大规模多使命语言明确基准MMLU(Massive Multitask Language Understanding),在评估大语言模子中起到主要作用。
然而,由于开放源代码和训练数据的多样性,现有基准测试难免保存数据污染问题,影响评估效果的可靠性。
为了提供更为准确、公正的评估,微软亚洲研究院推出了MMLU-CF,它是基于果真数据源,经已往污染设计的大语言模子明确基准,并已在Huggingface上开放。
MMLU-CF是一个「无污染」的、更具挑战性的多项选择题基准数据集。
论文链接:https://arxiv.org/pdf/2412.15194
代码链接:https://github.com/microsoft/MMLU-CF
数据毗连:https://huggingface.co/datasets/microsoft/MMLU-CF
数据集包括20,000道问题,分为10,000道验证集问题和10,000道测试集问题,其中验证集开源,测试集闭源,涵盖康健、数学、物理、商业、化学、哲学、执法、工程等14个学科领域。
MMLU-CF为大语言模子的评估提供了一个越发公正和可靠的基准,不但资助研究者准确明确模子的能力,也为未来模子优化提供了名贵的数据支持。
MMLU-CF的孝顺
消除数据污染
古板基准测试可能保存数据污染,影响评估的公正性。MMLU-CF通过引入三条去污染规则并扩展数据源,确保测试效果更可靠。
避免恶意数据泄露
研究职员将数据集分为验证集和测试集,确保测试集坚持闭源,阻止数据走漏引发的不公正效果。同时,验证集开源以增进透明度,便于自力验证。
比照效果
评估效果显示,OpenAI o1在MMLU-CF测试集上的5-shot得分为80.3%,显著低于其在MMLU上取得的92.3%得分,批注晰MMLU-CF基准的严酷性。
图1 主流大模子在MMLU-CF的测试集的5-shot得分体现
基准比照
MMLU与MMLU-Pro基准测试主要关注使命的广度、推理能力和难度,但未思量数据污染问题。
关于MMLU-CF,研究职员在数据网络时应用了去污染规则,确保阻止数据泄露,同时将测试集坚持闭源,避免恶意泄露。
以下是几款主流模子在MMLU与MMLU-CF数据集上的体现与排名转变:
图2 主流大模子在MMLU-CF和MMLU上的体现与排名
新的基准MMLU-CF扰乱了已评估的语言模子(LM)在MMLU上的性能排名。
排名前三的语言模子:OpenAI o1、Deepseek-R1和Deepseek-V3 ,坚持了领先职位,排名没有任何转变。
有趣的是,在显著的排名转变(>=3位)中,排名下降的往往比上升的更为显著。
平均而言,排名下降的语言模子下降了5.14位次,而排名上升的语言模子上升了3.78位次。
这种差池称性批注,性能大幅下降比上升更容易,这可能是由于预训练语料库中的数据污染造成的。
与规模较大的语言模子相比,规模较小的语言模子在新的MMLU-CF基准测试中似乎更具破损性。
测试集与验证集的划分
在MMLU-CF中,研究职员将数据集划分为测试集和验证集,并通过盘算「绝对分数差别」评估模子的泛化能力。统计效果显示,约60%的差别值小于0.5,96%的差别值低于1.0,批注测试集和验证集的评估效果高度一致。
图3 数据构建流程图
MMLU-CF的数据构建包括以下几个办法:
1.问题网络:从普遍的开放互联网域网络问题,包管问题的多样性。
2.问题洗濯:确保网络到的问题质量高,适适用于评估。
3.难度采样:确保问题的难度漫衍合理。
4.大模子检查:使用GPT-4o、Gemini、Claude模子对数据的准确性和清静性举行检查。
5.去污染处置惩罚:通已往污染处置惩罚,确保数据集的无污染性。
最终,MMLU-CF数据集划分包括了10,000道测试集域验证集问题,同时测试集坚持闭源,验证集则果真以包管透明性。
去污染处置惩罚规则
为了阻止无意中的污染并评估模子的推理和明确能力,研究职员接纳了三条去污染规则:
?规则1:改写问题,镌汰模子对已见数据的依赖。
?规则2:打乱选项,阻止模子通过影象选项顺序做出准确谜底。
?规则3:随机替换选项,增添模子的推理难度。
图4 去污染示例
这些规则有用镌汰了恶意和无意的走漏危害,确保了数据集的「无污染」性。
参考资料:
https://arxiv.org/pdf/2412.15194
《裸体爆乳羞羞❌网站视频》,《w3u7903ejky2ywls》亚洲Av㊙️无码一区二区下载
“18禁喷水流白浆自慰视噜噜噜”
约尔×黄昏18禁无删减
……
07月19日
“东方铁心被❌到喷水小说”四海重明
↓↓↓
07月19日,近八成受访大学生在运动中拓展朋友圈,张柏芝性做爰A片免费看,silk—129女性向AV,欧美性猛交 XXXX 乱大交,初中生黑脚射丝鞋
07月19日,完善中国特色社会主义法治体系(学习贯彻党的二十届三中全会精神),天堂18🈲🍆🍑无套直jk,激情抽插,初女裸体㊙️免费视频,伊吕波涩图
07月19日,《中国婚礼通志》发布 《中华岁时通志》启动出版,七龙珠本子h全彩无遮,免费➕无码➕国产真人照片九色,FC2PPV可爱いあのコをキ次观看,女人被添荫蒂高潮视频
07月19日|金星是否存在过表面海洋?国际最新天文研究称从来没有形成条件|成人福利app导航㊙️网站推特|免费A站—禁漫天堂|博人与花火做r漫画|男Gay腐片H大尺度CⅤ菊荡受
07月19日|艺考之路|国产91♥️长靴在线播放大战|黑人裸交|Chinese男男GayFuck太子爷|同性男同yaoi❤♂动漫软件
07月19日|纪念联合国国际科学与和平周三十六周年 成果文献展在京开幕|男男GaYGAYS✅打飞|🔞捆绑无遮挡打光屁股游戏|董卓jm350234|《秘密教学》无删减在线看……
07月19日,寒潮降温持续 广西各部门“闻雪而动”保障民众生活,动漫美女胸乳奶👙,原神美女裸体被❌羞羞网站,欧美野人做爰大片,PzKONXXXXHD💋4
07月19日,2024中国(长沙)民营企业科技创新发展大会在长沙召开,亲嘴视频脱了衣服大全视频,美女洗澡隐私㊙️免费视频,暗交小拗女一区二区三,(sp)打屁股羞耻小说(H)
07月19日|6月13日人民币对美元中间价报7.1122元 上调11个基点|作精养成指南dy只想躺躺|芋圆呀呀在线观看入口|十八禁🔞色情影视软件|茶茶红润脚底lvk
07月19日,聚焦“上海师傅”的技艺和智慧结晶 上海工匠创新成果展在沪开幕,欧美Ⅴdeσsex69性欧美,国产肥老妇视频,欧产➕呻吟➕流白浆,女班主任脱了衣服让男学生摸
07月19日,特稿|推动中法全面战略伙伴关系迈上新台阶——法国各界期待习近平主席对法进行国事访问,学长边洗澡边🌿我啊~嗯~,大雷擦大狙图片视频,男自慰✅免费网站第一次,被粗大的巴捣出白浆江澄视频
07月19日,跨境电商如何助力外贸提质升级?2024年的外贸怎么干?一起关注,胡列娜好大⋯好爽⋯3D,爽⋯好大⋯快⋯深点歪歪漫画,男男成人高潮片免费网站,日本动漫无码漫画视频
07月19日|新疆阿拉尔市:借力政策东风 打造国家骨干冷链物流基地|变性失去JJ后什么感觉|性猛交ⅩXX免费看A片公厕视频|鬼灭涩涩同人3D❌18禁|美女拉屎无遮挡㊙️视频
07月19日|夜行日游 人游车停 山西开行首趟竞价旅游专列|井野被鸣人扒开腿狂❌|99国产精品欲AV🍑🍒天美|玩弄小伙少年生殖视频|ass屁股眼pic s
07月19日|国足进球被吹越位 争议到底在哪儿?|井野爆乳被❌🔞㊙|原神被❌流白浆无码3D|爰丽希雅纯肉黄文|二次元女生光溜溜图片视频素材下载
新疆阿克苏地区库车市发生3.4级地震,警方回应女老师遭网课爆破后死亡案|四川与韩国全罗南道结好二十周年 双方盼合作再深化|女人大乳被免费看JaPan|被❌到爽国产调教|把🍌伸进的🍑www|男男❌禁止爽
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺