「0污染」LLM明确基准来了!20000道题14个学科全笼罩,来自微软
新智元报道
编辑:LRST
【新智元导读】MMLU-CF是一个无污染的多使命语言明确基准测试,旨在更公正、准确地评估大语言模子的能力。通已往污染规则和闭源测试集避免数据泄露,确保评估效果可靠。该基准包括20,000道问题,涵盖14个学科,验证集果真透明,测试集闭源防泄露。
近年来,随着大语言模子(LLM)的一直前进,怎样准确评估其能力已经成为研究的热门问题。
诸如大规模多使命语言明确基准MMLU(Massive Multitask Language Understanding),在评估大语言模子中起到主要作用。
然而,由于开放源代码和训练数据的多样性,现有基准测试难免保存数据污染问题,影响评估效果的可靠性。
为了提供更为准确、公正的评估,微软亚洲研究院推出了MMLU-CF,它是基于果真数据源,经已往污染设计的大语言模子明确基准,并已在Huggingface上开放。
MMLU-CF是一个「无污染」的、更具挑战性的多项选择题基准数据集。
论文链接:https://arxiv.org/pdf/2412.15194
代码链接:https://github.com/microsoft/MMLU-CF
数据毗连:https://huggingface.co/datasets/microsoft/MMLU-CF
数据集包括20,000道问题,分为10,000道验证集问题和10,000道测试集问题,其中验证集开源,测试集闭源,涵盖康健、数学、物理、商业、化学、哲学、执法、工程等14个学科领域。
MMLU-CF为大语言模子的评估提供了一个越发公正和可靠的基准,不但资助研究者准确明确模子的能力,也为未来模子优化提供了名贵的数据支持。
MMLU-CF的孝顺
消除数据污染
古板基准测试可能保存数据污染,影响评估的公正性。MMLU-CF通过引入三条去污染规则并扩展数据源,确保测试效果更可靠。
避免恶意数据泄露
研究职员将数据集分为验证集和测试集,确保测试集坚持闭源,阻止数据走漏引发的不公正效果。同时,验证集开源以增进透明度,便于自力验证。
比照效果
评估效果显示,OpenAI o1在MMLU-CF测试集上的5-shot得分为80.3%,显著低于其在MMLU上取得的92.3%得分,批注晰MMLU-CF基准的严酷性。
图1 主流大模子在MMLU-CF的测试集的5-shot得分体现
基准比照
MMLU与MMLU-Pro基准测试主要关注使命的广度、推理能力和难度,但未思量数据污染问题。
关于MMLU-CF,研究职员在数据网络时应用了去污染规则,确保阻止数据泄露,同时将测试集坚持闭源,避免恶意泄露。
以下是几款主流模子在MMLU与MMLU-CF数据集上的体现与排名转变:
图2 主流大模子在MMLU-CF和MMLU上的体现与排名
新的基准MMLU-CF扰乱了已评估的语言模子(LM)在MMLU上的性能排名。
排名前三的语言模子:OpenAI o1、Deepseek-R1和Deepseek-V3 ,坚持了领先职位,排名没有任何转变。
有趣的是,在显著的排名转变(>=3位)中,排名下降的往往比上升的更为显著。
平均而言,排名下降的语言模子下降了5.14位次,而排名上升的语言模子上升了3.78位次。
这种差池称性批注,性能大幅下降比上升更容易,这可能是由于预训练语料库中的数据污染造成的。
与规模较大的语言模子相比,规模较小的语言模子在新的MMLU-CF基准测试中似乎更具破损性。
测试集与验证集的划分
在MMLU-CF中,研究职员将数据集划分为测试集和验证集,并通过盘算「绝对分数差别」评估模子的泛化能力。统计效果显示,约60%的差别值小于0.5,96%的差别值低于1.0,批注测试集和验证集的评估效果高度一致。
图3 数据构建流程图
MMLU-CF的数据构建包括以下几个办法:
1.问题网络:从普遍的开放互联网域网络问题,包管问题的多样性。
2.问题洗濯:确保网络到的问题质量高,适适用于评估。
3.难度采样:确保问题的难度漫衍合理。
4.大模子检查:使用GPT-4o、Gemini、Claude模子对数据的准确性和清静性举行检查。
5.去污染处置惩罚:通已往污染处置惩罚,确保数据集的无污染性。
最终,MMLU-CF数据集划分包括了10,000道测试集域验证集问题,同时测试集坚持闭源,验证集则果真以包管透明性。
去污染处置惩罚规则
为了阻止无意中的污染并评估模子的推理和明确能力,研究职员接纳了三条去污染规则:
?规则1:改写问题,镌汰模子对已见数据的依赖。
?规则2:打乱选项,阻止模子通过影象选项顺序做出准确谜底。
?规则3:随机替换选项,增添模子的推理难度。
图4 去污染示例
这些规则有用镌汰了恶意和无意的走漏危害,确保了数据集的「无污染」性。
参考资料:
https://arxiv.org/pdf/2412.15194
女攻男受四爱peg网站
张柏芝木耳绝版图片
女人把脚扒开㊙️九色
51无敌男同免费观看大全
国产肥老妇视频妇科检查
男人脱光衣服内裤在床上躺着用鸡鸡叉女人的屁股
把腿张开老子臊烂你演员表
巜一边亲一边摸下奶韩国
麻豆精品㊙️国产传媒mv红海
千仞雪3D同人18❌AV网站
失禁+抹春药+哭喊+刺激视频
红桃影院成人网站m3u8
动漫魅魔裸体秘无遮挡
班长把裤子脱了让我❌❌❌❌她
97PORNY丨首页❤入口在
国产做受❌❌❌高潮波萝视频
扒开❌狂揉❌脱脱内内动漫91
主人~别揉了~尿了~啊哈
美女撩起我的🍌蹭来蹭去
裸体cosplay18禁网站www
免费观看狂日景甜
三叶草☘️国产一区二区三区
中国人XXXXXXXXXX池妞
国产AV➕白丝➕欧
18❌动漫免费网站外国
少妇性色婬片AAA直播
肏黑丝高跟肏出白浆
成品动漫网站入口网页版怎样
双男主日漫八尺大人漫画
啊少妇嗯轻一点
日本人妻中文人无码视频
国产学生粉嫩无套进入网站
68日本XXXXXXXX79
禁漫画天堂a漫入口
动漫美女❌巨乳❌无遮挡
小🐔🐔伸进🈲🔞🔞作文
黑土本子!奖励专用
蜜臀91丨九色丨蝌蚪老版
糖心秘国产传媒MV
台湾GAy无套GayGay无套
男人撒尿视频✅免费网站
第5人格本子18+
巴巴塔被扒开腿做同人网站
老师快灬快灬㖭一下爽A片
神里绫华裸体❌自慰
18🈲🍆🍑无套直看片
妲露莱莉在厨房被c高潮视频
欧美0000❌❌X❌rV一r
男人脱裤子露丁尿视频
佐助强❌小樱文
小寡妇高潮流白浆A片潘金莲
麻豆精品㊙️国产
色情喂奶XXXⅩA片
美女隐私㊙️在线观看
少妇与公豬交HDXXX
高潮➕国产➕喷水➕白sm秋千
男男sexGay2022
女仆教育免费观看全集完整
欧美老妇性BBBBB撤尿
男❌腹肌猛男亚洲网站
自慰女学生
安琪拉被扒开胸罩和屁股视频
国产➕无码➕又爽又刺激黑人
学校小荡货h边上课边c
乳夹电击虐乳虐哭催奶针
cekc丰满妇女ведо
火影纲手喷🔞🈲🍌流水高c
无尽❌裸体❌男同❌3D在线观看
男仆打开双腿让少爷c动漫
动漫🚫18涩涩动漫人
免费无遮挡使劲吃胸
百合嗯啊+摸+湿+黄+羞羞视频
裸性生交✘✘✘✘✘埃及
色www.my1169.com
他趴在两腿中间舔我私密第1集
被迫张开腿玩冰块play
沙奈朵被狂揉下部❌羞羞
尿汇编
人禽杂乱第40一50集
少年骇客同人❌AV黄漫网站
娜美被❌18禁Naruto堂
网友谈论 审查所有谈论>>