新智元报道
编辑:KingHZ
【新智元导读】原生1bit大模子BitNet b1.58 2B4T再升级!微软宣布BitNet v2,性能险些0损失,而占用内存和盘算本钱显著降低。
还没过几天,原班人马带着第二代BitNet v2来了!
这次性能险些0损失,但占用内存和盘算本钱显著降低!
论文链接:https://arxiv.org/abs/2504.18415
先前的开创性研究,如BitNet b1.58,已经证实:
纵然将权重量化到1.58位,也能在极大降低推理本钱(延迟、内存占用、吞吐量、能耗)的同时,坚持与全精度模子相当的性能。
然而,激活值异常点让1比特大语言模子安排变得重大。
BitNet v2框架,首次实现对1比特LLMs的原生4比特激活值量化。
针对注重力机制和前馈网络中激活值的异常漫衍问题,在激活值量化前,H-BitLinear?槭┘釉谙逪adamard变换(Hadamard transformation)。
图1上半部分:BitNet v2整体架构以及H-BitLinear?榈母爬
这种变换能将尖锐的激活值漫衍转化为更靠近高斯形态的平滑漫衍,从而适配低比特体现。
原生4比特盘算
得益于下一代GPU(如GB200)等硬件的前进,深度学习领域正迅速接纳量化和低比特推理手艺。
新硬件原生支持4比特盘算,为大规模模子带来显著的效率提升。
盘算机中32、16、8比特浮点数差别的体现要领
然而,只管BitNet b1.58将权重量化为1.58比特,缓解了内存带宽瓶颈,但它的激活值仍坚持8比特精度。
模子无法充分使用新硬件的4比特盘算能力。
实现更低比特宽度的激活值关于最大化硬件使用率至关主要,尤其是在批处置惩罚推理场景中,高效的内核设计尤为主要。
要害问题在于LLM内部激活值的不匀称漫衍。
虽然注重力机制和前馈网络(FFN)层的输入通常泛起类高斯漫衍,适合量化,但中心状态(最终投影前的输出)往往包括显著的离群值,阻碍了激进的低比特量化。
图1下半部分:注重力层中输出投影Wo和前馈网络中下投影Wdown的激活漫衍情形
对输入接纳4比特量化和对中心状态使用8比特希罕化,可以解决这一问题。
只管性能损失较小,但希罕化并不适合批处置惩罚推理场景的最大吞吐量需求,由于硬件更倾向于麋集盘算以提升效率。
为弥合这一差别并充分验展1.58比特LLM在4比特盘算中的潜力,研究团队提出了BitNet v2框架,实现了模子全流程的原生4比特激活值,框架焦点立异是H-BitLinear。
BitNet v2:原生4位激活
BitNet v2模子基于类似LLaMA的组件构建,包括RMS归一化、SwishGLU激活函数,并完全移除了偏置项(bias)。
BitNet v2的整体架构
与先前的BitNet相比,BitNet v2在注重力?榈氖涑鐾队癢o和前馈网络(FFN)的下投影Wdown中,引入了H-BitLinear?,以专门处置惩罚中心状态中泛起的异常通道(outlier channels)。
BitNet v2的训练流程分为两阶段:
首先,从零最先使用1.58位权重和8位激活(INT8)举行预训练;
随后,在坚持权重量化稳固的基础上,将所有线性层(除输入/输出embedding外)进一步微调为4位激活(INT4)。
H-BitLinear?
BitNet v2接纳逐张量平均绝对值量化(per-tensor absmean)战略对权重举行三值量化(也就是{-1, 0, 1}):
关于低比特激活的问题,已有研究指出:
注重力层和前馈网络中前置线性变换的输入激活,通常泛起高斯漫衍,较适合量化;
而注重力输出(Wo)和FFN下投影(Wdown)的中心状态激活,则往往包括大宗离群通道(outlier channels),且大部分值集中于0周围,严重影响低位量化精度。
H-BitLinear可以取代注重力机制输出投影和FFN下投影的标准线性层。
H-BitLinear在激活量化前应用在线哈达玛变换),把中心状态中尖锐、易爆发离群值的漫衍重塑为更易处置惩罚的类高斯漫衍,显著镌汰1.58比特模子中离群值的影响。
Hadamard变换界说如下:
其中的矩阵乘法接纳快速Hadamard变换算法(Fast Hadamard Transform,FHT),其盘算重漂后为O(nlogn)。
Hadamard矩阵是一类特殊的正交矩阵。
它的特点是每个元素只能是+1或-1,并且每行(或每列)之间的内积为0,体现相互正交。
阿达马矩阵的命名来自于法国数学家Jacques Solomon Hadamard。
法国数学家:Jacques Solomon Hadamard
如图2和图3所示,引入Hadamard变换后,中心状态的漫衍越发靠近高斯形态。
这显著镌汰了离群值数目,使其更适合举行4位激活量化(INT4)。
图2:在使用8位激活时,BitNet b1.58与BitNet v2的激活漫衍比照。
图3:接纳8比特激活值时,BitNet b1.58与BitNet v2在前馈网络Wdown层和注重力机制Wo层的激活值漫衍比照。
关于8位激活(INT8)和4位激活(INT4)量化战略,划分接纳下列战略:
综上,H-BitLinear层的整体矩阵运算可体现为:
其中,LN(?)体现层归一化(LayerNorm)。
研究团队重新最先使用8比特激活值训练BitNet v2,与BitNet b1.58相比性能损失微乎其微。
随后,通过少量数据高效微调,模子即可适配原生4比特激活值。
实验效果
实验批注,4比特BitNet v2变体在性能上与BitNet a4.8相当,但在批处置惩罚推理场景中提供更高的盘算效率。
别的,与后训练量化要领SpinQuant和QuaRot,则险些周全领先。
比BitNet b1.58更快
BitNet V2与BitNet b1.58比,性能险些0损失。
BitNet v2及其基线模子的详细实验效果,如表1所示。
在注重力机制和前馈网络(FFN)层的量化前引入哈达玛变换后,模子的疑心度(perplexity)下降极小。
关于8比特激活值,BitNet v2相较于BitNet b1.58体现出更高的性能,在1.3B、3B和7B模子规模上,终端使命的平均准确率划分提升了0.16%、0.49%和0.61%。
别的,BitNet v2支持所有线性层的原生4比特激活值,从而显著提升了批处置惩罚推理的效率。
在使用INT4(4比特整数)激活值时,BitNet v2的疑心度与BitNet a4.8相当,同时在3B和7B模子的下游使命中展现出更优的性能。
表1:BitNet v2、BitNet a4.8与BitNet b1.58在终端使命上的疑心度及性能体现
表2和表3划分总结了BitNet v2(8比特激活,a8)和BitNet v2(4比特激活,a4)在低比特注重力机制下的详细效果。
研究职员对QKV状态接纳了RoPE(旋转位置编码)后的量化要领。
QKV头通过absmax函数直接量化为无符号整数,无需任何校准数据集。
如表2和表3所示,接纳3比特KV缓存的BitNet v2在3B和7B模子上的准确率与使用全精度KV缓存的模子相当。
表2:BitNet v2在终端使命上的零样本准确率,其中激活使用8位,而QKV状态的位宽则有所差别。
表3:BitNet v2在终端使命上的零样本准确率,其中激活使用4位,而QKV状态的位宽则有所差别。
与其他后训练量化要领的比照
BitNet v2 (a4)与主流的后训练量化基线要领举行了比照,包括SpinQuant和QuaRot,在1.3B参数规模的模子上举行了评测。
QuaRot通过引入随机Hadamard变换以缓解特征离群问题,SpinQuant则使用了可学习的旋转矩阵(rotary matrix)。
随后,这两种要领划分接纳GPTQ和absmax战略,将权重和激活量化到4位。
由于BitNet b1.58沿用训练时使用的absmean函数举行权重量化,而非使用GPTQ。
在各项指标上,BitNet v2稳拿第一,详细效果见表4。
表4:BitNet v2、QuaRot和SpinQuant在各项下游使命上的疑心度(Perplexity)与零样本准确率(Zero-shot Accuracy)比照
另外,在Hadamard变换对差别模子尺寸(1.3B和3B)影响的实验(见表5)中,研究者发明:
没有旋转处置惩罚(No rotation)时,模子直接发散,无法正常训练;
引入Hadamard旋转(无论是权重+激活,照旧仅激活),都能显著稳固低位训练,并提高最终准确率。
表5:差别规模下H-BitLinear的Hadamard变换的消融研究。
模子训练、消融实验等其他内容和细节,请参阅原文。
参考资料:
https://arxiv.org/abs/2504.18415
《学生被❌到爽🔞流牛奶免费》,《w3u7903ejky2ywls》JaPanese熟妇人妻HD
“免费🔞男同❌❌❌深夜夜行网站”
♥草莓视频app❤18在线观看
……
06月06日
“男同Gay野战Gay野战”奇思妙探 第一季
↓↓↓
06月06日,二月二龙抬头,开启一年好兆头,欧美做受高潮9吃奶,刘亦菲B又大又紧,女同学求我让我🌿她一下小说,老熟女大屁股熟妇多毛
06月06日,俄罗斯将多名乌克兰前政要列入通缉名单,亚洲精品无码18在线,打屁股 和 鞭打 网站,动漫的裸体㊙️免费看,你真紧今晚我让你爽个够视频
06月06日,李家超谈粉岭高尔夫球场司法复核:对香港整体公屋供应影响不大,HDHDHD❌❌╳❌XXXX,明日方舟18+壁纸,大乳美女裸体漫画,女女H百合无遮羞羞漫画软件
06月06日|江西广昌山乡之中金色油菜花盛开 民众踏春赏花正当时|欧美大白屁股xxⅹxx猛交|嗳潮生活馆|男男肉H边做边尿失禁H|小鲜肉GayGay✅✅免费自慰
06月06日|卫星视角看中国 | 跟随总书记足迹看长三角之变|免费无遮挡🔞直接看|浪小辉武警酒店2023最新消息|大黑狗和王芳小说|动漫被❌到爽🔞巨乳的视频
06月06日|美媒:中国如何一步步赢得中东?|景甜张开双腿流白浆|18🈲白浆啪啪|吃动漫美女奶头的漫画|免费无码黄在线观看www学校……
06月06日,李强主持国务院第七次专题学习,休内谢精一汇编5主要内容概括,扒开美女❌狂揉❌动漫无遮挡,火影雏田❌乳喷自慰爽,八尺大人对强制播种日漫
06月06日,卡塔尔华侨华人:感受“中国制造”与足球的“碰撞”,国产又粗又猛又爽又黄的AV视频,班长哭着说再玩会坏掉,r34油管动画,▓■成人网站入口▓无码免费
06月06日|黄埔一期曹渊孙女:祖父牺牲后周恩来叶挺照顾遗孤|桃子游戏1000款免费手游大全|女同学被❌到爽🔞91动漫|少妇公车上迎合我进入|乖~打开腿里面也要涂春药视频
06月06日,中国医疗高科技“出海”“一带一路”共建国家造福民众健康,免费看裸体🔞🔞🔞网站果动,蜜臀在线AV国产在线播放,王者涩涩同人18禁漫画,91探花秘入囗
06月06日,台湾棒球青年点赞大陆球友:不仅会读书,球技也很棒!,亚洲做受高潮深喉,重生为公爵召唤恶魔漫画免费观看,十八禁🔞色情影视软件,大胸奶头晃着喷奶水av日本
06月06日,热带气旋贝拉尔逼近留尼汪岛 中国驻法使馆提醒当地侨民提高警惕,女初高中打屁股❤️网站,高潮➕国产➕视频➕AV2023,胡秀英怀孕大肚子,岳风柳萱小说免费阅读18网
06月06日|各地发展冰雪经济 “冷资源”释放“热消费”|XXX乱女少妇精品99网站|中国推特18+下载|弟弟好样的中瀚弟弟|宁荣荣含精肉臀18🈲️
06月06日|学习新语|领悟“六个坚持”:以人民为中心|扒开美女❌狂揉❌中国|两个男按摩师吃我奶在线观看|西施脱个精光露出奶头和胸罩|白丝校花脱裤子让我C视频
06月06日|山西晋城:学习运用“千万工程”经验 描绘新时代“太行山居图”|黑人美精品❌❌❌A片|被强伦轩到高潮的R级|69国中XXXXXXXXX18|宁荣荣斗罗大陆
允载允荷明年结婚,GAM不敌FNC止步入围赛|(寻味中华|侨乡)在梅家大院探寻台山侨圩今昔“电报”创始人被捕 俄罗斯外交部发声|微信福利小视频3000部mp4|揉我胸⋯啊⋯嗯-千仞雪视频|飞霄被敌人抓住后调教|91在线无码精品㊙️国产开元
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺