尊龙游戏人生就是博

女性向小h片资源在线观看 最近更新|更新列表|字母检索|下载排行|苹果专区|分类导航

目今位置:首页专题合集 → w3u7903ejky2ywls

尊龙凯时 - 人生就是搏!

「0污染」LLM明确基准来了!20000道题14个学科全笼罩,来自微软

「0污染」LLM明确基准来了!20000道题14个学科全笼罩,来自微软

新智元报道

编辑:LRST

【新智元导读】MMLU-CF是一个无污染的多使命语言明确基准测试,旨在更公正、准确地评估大语言模子的能力。通已往污染规则和闭源测试集避免数据泄露,确保评估效果可靠。该基准包括20,000道问题,涵盖14个学科,验证集果真透明,测试集闭源防泄露。

近年来,随着大语言模子(LLM)的一直前进,怎样准确评估其能力已经成为研究的热门问题。

诸如大规模多使命语言明确基准MMLU(Massive Multitask Language Understanding),在评估大语言模子中起到主要作用。

然而,由于开放源代码和训练数据的多样性,现有基准测试难免保存数据污染问题,影响评估效果的可靠性。

为了提供更为准确、公正的评估,微软亚洲研究院推出了MMLU-CF,它是基于果真数据源,经已往污染设计的大语言模子明确基准,并已在Huggingface上开放。

MMLU-CF是一个「无污染」的、更具挑战性的多项选择题基准数据集。

论文链接:https://arxiv.org/pdf/2412.15194

代码链接:https://github.com/microsoft/MMLU-CF

数据毗连:https://huggingface.co/datasets/microsoft/MMLU-CF

数据集包括20,000道问题,分为10,000道验证集问题和10,000道测试集问题,其中验证集开源,测试集闭源,涵盖康健、数学、物理、商业、化学、哲学、执法、工程等14个学科领域。

MMLU-CF为大语言模子的评估提供了一个越发公正和可靠的基准,不但资助研究者准确明确模子的能力,也为未来模子优化提供了名贵的数据支持。

MMLU-CF的孝顺

消除数据污染

古板基准测试可能保存数据污染,影响评估的公正性。MMLU-CF通过引入三条去污染规则并扩展数据源,确保测试效果更可靠。

避免恶意数据泄露

研究职员将数据集分为验证集和测试集,确保测试集坚持闭源,阻止数据走漏引发的不公正效果。同时,验证集开源以增进透明度,便于自力验证。

比照效果

评估效果显示,OpenAI o1在MMLU-CF测试集上的5-shot得分为80.3%,显著低于其在MMLU上取得的92.3%得分,批注晰MMLU-CF基准的严酷性。

图1 主流大模子在MMLU-CF的测试集的5-shot得分体现

基准比照

MMLU与MMLU-Pro基准测试主要关注使命的广度、推理能力和难度,但未思量数据污染问题。

关于MMLU-CF,研究职员在数据网络时应用了去污染规则,确保阻止数据泄露,同时将测试集坚持闭源,避免恶意泄露。

以下是几款主流模子在MMLU与MMLU-CF数据集上的体现与排名转变:

图2 主流大模子在MMLU-CF和MMLU上的体现与排名

新的基准MMLU-CF扰乱了已评估的语言模子(LM)在MMLU上的性能排名。

排名前三的语言模子:OpenAI o1、Deepseek-R1和Deepseek-V3 ,坚持了领先职位,排名没有任何转变。

有趣的是,在显著的排名转变(>=3位)中,排名下降的往往比上升的更为显著。

平均而言,排名下降的语言模子下降了5.14位次,而排名上升的语言模子上升了3.78位次。

这种差池称性批注,性能大幅下降比上升更容易,这可能是由于预训练语料库中的数据污染造成的。

与规模较大的语言模子相比,规模较小的语言模子在新的MMLU-CF基准测试中似乎更具破损性。

测试集与验证集的划分

在MMLU-CF中,研究职员将数据集划分为测试集和验证集,并通过盘算「绝对分数差别」评估模子的泛化能力。统计效果显示,约60%的差别值小于0.5,96%的差别值低于1.0,批注测试集和验证集的评估效果高度一致。

图3 数据构建流程图

MMLU-CF的数据构建包括以下几个办法:

1.问题网络:从普遍的开放互联网域网络问题,包管问题的多样性。

2.问题洗濯:确保网络到的问题质量高,适适用于评估。

3.难度采样:确保问题的难度漫衍合理。

4.大模子检查:使用GPT-4o、Gemini、Claude模子对数据的准确性和清静性举行检查。

5.去污染处置惩罚:通已往污染处置惩罚,确保数据集的无污染性。

最终,MMLU-CF数据集划分包括了10,000道测试集域验证集问题,同时测试集坚持闭源,验证集则果真以包管透明性。

去污染处置惩罚规则

为了阻止无意中的污染并评估模子的推理和明确能力,研究职员接纳了三条去污染规则:

?规则1:改写问题,镌汰模子对已见数据的依赖。

?规则2:打乱选项,阻止模子通过影象选项顺序做出准确谜底。

?规则3:随机替换选项,增添模子的推理难度。

图4 去污染示例

这些规则有用镌汰了恶意和无意的走漏危害,确保了数据集的「无污染」性。

参考资料:

https://arxiv.org/pdf/2412.15194

相关推荐:小yoyo萝li交精品导航 男男GaYGAYS✅体育生小说 FC2PPV完全初撮り♥

分享: 2025-07-24 07:20:34 共81款

电脑

安卓

苹果

相关合集

网友谈论 审查所有谈论>>

揭晓谈论

(您的谈论需要经由审核才华显示) 网友粉丝QQ群号:766969941

审查所有0条谈论>>

【网站地图】【sitemap】