新智元报道
编辑:英智
【新智元导读】Meta推出KernelLLM,这个基于Llama 3.1微调的8B模子,竟能将PyTorch代码自动转换为高效Triton GPU内核。实测数据显示,它的单次推理性能逾越GPT-4o和DeepSeek V3,多次天生时得分飙升。
在AI领域,参数规模曾被视为「性能天花板」。
Meta最新宣布的KernelLLM,却用8B参数的「小身板」,在GPU内核天生使命中把200B的GPT-4o按在地上摩擦。
这是一个基于Llama 3.1 Instruct举行微调的8B参数模子,旨在将PyTorch?樽远晃咝У腡riton GPU内核。
KernelLLM简直是GPU内核开发神器,用更少的参数实现了更强的性能,且简朴易用。
它只有8B参数,可是在KernelBench-Triton Level 1,单次推理性能凌驾了GPT-4o和DeepSeek V3。
通过多次推理,KernelLLM性能优于DeepSeek R1。
这一切都来自一个参数规模比竞争敌手小两个数目级的模子。
@Denis Kanonik吐槽「这又是用测试集训练的吗?」
KernelLLM让内核开发更易上手
KernelLLM是一款基于Llama 3.1 Instruct的8B模子,专门针对用Triton编写GPU内核的使命举行了训练。
它能让GPU编程变得更简朴,实现高性能GPU内核天生的自动化。
KernelLLM通过自动化天生高效的Triton实现,知足对高性能GPU内核日益增添的需求。
随着事情负载的增大和加速器架构的多样化,对定制化内核解决计划的需求显著增添。
现在市面上许多相关工具,要么只能在测试的时间优化,要么就只盯着KernelBench的问题调优,很难应对更普遍的场景。
KernelLLM是首个在外部(PyTorch,Triton)代码对数据上举行微调的LLM。
Triton内核天生事情流程
把PyTorch代码输进去,KernelLLM就会天生Triton内核候选代码。
然后用单位测试来验证这些代码,用随机输入跑一跑,看看输出对差池。要是天生好几个候选代码,还能比比哪个最好,挑出最优的。
KernelLLM的Triton内核天生流程:用KernelLLM把PyTorch代码翻译成Triton内核的候选代码。天生的代码会通过单位测试验证,测试用已知形状的随机输入数据运行内核。这个流程支持天生多个候选代码(通过 pass@k评估),增添候选数目来提高质量,最后选出最好的Triton内核实现作为输出(绿色部分)
为了训练这个模子,团队可是下了大功夫,用了25000多对(PyTorch,Triton)代码示例,尚有合成的样本。
这些数据一部分来自TheStack的过滤代码,一部分是通过torch.compile () 和提醒手艺天生的。
数据集KernelBook,参考链接:https://huggingface.co/datasets/GPUMODE/KernelBook。
训练时用的是Llama3.1-8B-Instruct模子,在自界说数据集上做了监视微调(SFT),测试它在KernelBench-Triton上天生准确Triton内核及挪用代码的能力。
KernelBench-Triton是基于KernelBench[Ouyang et al. 2025]开发的变体,专注Triton内核天生。
训练和评估时,PyTorch代码会设置一个包括名堂示例的提醒模板作为指令。
模子训练了10个epoch,批巨细为32,接纳标准SFT要领,超参数凭证验证集的疑心度(perplexity)来选择。
训练用了16个GPU,共耗时12小时(192 GPU小时),报告了最佳检查点的验证效果。
性能评估
只管模子规模较小,但其性能可与最先进的LLM相媲美。
KernelBench-Triton测试中,8B参数的KernelLLM,单次推理得分20.2,比671B参数的DeepSeek V3(16分)和200B参数的GPT-4o(15分)都高。
要是多天生几个候选代码,得分还能蹭蹭往上涨,天生10个的时间能到51.8分,20个的时间能到57.1分。
KernelLLM推理用temperature=1.0和top_p=0.97运行。
在KernelBench上测试了模子,这是一个开源基准测试,用于评估LLM编写的高效GPU内核的能力。
它包括250个全心挑选的PyTorch?,按负载调解,从简朴的单操作(如Conv2D或Swish,Level 1)到完整的模子架构(Level 3)。
它在差别难度的使命里体现都很稳,不管是简朴的单个操作符,照旧重大的模子架构,都能应对。
测试会同时降低代码的准确性(通过与参考PyTorch输出比照)和性能(通过与基准实现的加速比)。
团队开发了一个新的KernelBench-Triton变体,专门评估LLM天生Triton内核的能力,很是适合测试KernelLLM。
所有测试都在NVIDIA H100 GPU上完成。
KernelLLM在pass@k中体现出近似对数线性的扩展行为
KernelLLM怎么用?
先装几个依赖包:
用的时间,先导入库,挪用generate_triton函数,就能天生优化后的Triton代码啦。
KernelLLM提供了一个简朴的接口,用于从PyTorch代码天生Triton核。
要是不想写剧本,还能直接运行python kernelllm.py,使用内置的REPL接口,翻开交互式界面,实时看效果。
kernelllm.py提供了多种与模子交互的要领。
KernelLLM提供了几种自界说天生历程的要领:
有时它会犯点小过失,好比API引用差池、语法蜕化,有时间还不太能按指令天心理想的内核。
天生的代码结构有点像编译器自动吐出来的,有时在变量命名、张量形状、类型处置惩罚和数值精度这些细节上也容易出问题。
参考资料:
https://x.com/reach_vb/status/1924478755898085552
https://huggingface.co/facebook/KernelLLM
《流萤被❌同人网址》,《w3u7903ejky2ywls》火影忍者❌18禁同人动漫
“男男做爰猛烈叫床gv网站”
禁漫天堂免费入口免费
……
05月28日
“女奥特曼皮套脱了内裤打开腿”女子40分钟一锅做出14道菜
↓↓↓
05月28日,“低空经济——中国经济增长新引擎”专题论坛举行,国产做受79高潮,欧美做爰又粗又大拔萝卜视频,最爽的亂倫老女人,憋尿灌水视频㊙️
05月28日,香港警方展开反毒品行动拘99人 年龄最小者仅12岁,肥妞玩大BB拳交,雷神同人18❌AV污在线观看,二次元的🍌伸到🍑涩涩视频,frisk被强行扒开双腿玩弄漫画
05月28日,江西省第四家“盒马村”落户泰和县 助力老区好产品触网上云,国产⭐浪潮AV性色四虎,琳妮特裸体❌开腿羞羞视频,👅奶头张开腿被❌视频,张家界小白龙和吴敏视频
05月28日|海内外专家、业界为中国化妆品行业带来可持续发展新思路|美女隐私㊙️18网站|法国啄木鸟医院三部|男人的🍌伸到🍑屁股广告|女女女女HD免费播放
05月28日|贵州电影电视制作有限公司原总经理杨波接受审查调查|纯肉黄辣高H啪学生校园|FC2PPV完全初撮り♥制服|仙踪林小罗莉精品HD|永久免费🔞🔞🔞d站
05月28日|(文化中国行)别样江南 常州焦溪古镇为何是“黄石半墙”?|Naruto❌Sakura雏田爆乳|🌸国产🌸粉嫩🌸|灰原哀被❌18禁同人本子|▓▓草莓视频▓无码免费……
05月28日,西部陆海新通道总体规划实施五年 铁海联运班列织线成网,9118🈲🍆🍑无套直网站,小舞再深点灬好爽灬轻点视频,免費A漫-禁漫天堂,小草神调教喷水沦为肉奴小说
05月28日,“晋商故里”山西晋中如何与青年“双向奔赴”?,男按摩师调教男人XXOO视频,蘑菇视频在线观看nba,校花扒开🍑给男人玩软件,女性㊙️免费自慰
05月28日|《春天的旋律·2024》跨国春晚在广西南宁完成录制|日漫网站|吻唇戏动漫片|罪木蜜柑同人r18|▌麻酥酥▌COS福利姬▌玫瑰内衣
05月28日,南方电网原纪检监察组组长龙飞被逮捕,甜蜜日记火影动画免费观看,韩漫画️未删减男同,少年骇客同人动画,穿JK白丝被❌裸体免费
05月28日,四川甘孜州:稻城亚丁牛奶海如蓝宝石镶嵌群山,沃土,乡村熟妇,96日本XXXXXⅩXXX58,黑土被❌🐻黄漫扒衣服,r34绿色版
05月28日,中新健康 | 储备基础急救知识 “五一”出游安全更安心,裸腹肌男㊙️无遮挡网站,少妇高潮喷出白浆,あねちじょ♥无修国语漫画,我是赘婿免费阅读18小说网
05月28日|中汽协:2024年前两月中国汽车出口同比增长超三成|玖辛奈屈辱张开玉腿|91无码精品国产AⅤ在线|ONE成人版官方网站|看美女裸体❌❌免费
05月28日|王毅:中国已成为动荡世界中的稳定力量、合作力量、进步力量|穿越成赵云开局娶貂蝉的小说|火影18+调教所|白丝校🌸脱白丝娇喘|大众女澡堂春光大现xyz
05月28日|江西今年实施省大中型项目3670个 力争年度计划完成投资1万亿元|老太婆大BwBwBwBw|原神夜兰的身材有多爆炸|爽⋯好大⋯快⋯深点动态图|爆乳美女露出奶头㊙️挤奶yx
翡冷翠十日谈,你发微信头像我来评价繁花|中国正能量|薪火相传,弦歌不辍|男男Gay✅✅动漫|179902,钢手火影|魅魔~婬辱の教室在线观看|爱情岛论坛网站入口
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺