猫眼影戏
猫眼影戏
魏紫川
手机审查
猫眼影戏记者 黄孝河 报道w3u7903ejky2ywls
新智元报道
编辑:LRST
【新智元导读】MoCa框架把单向视觉语言模子转化为双向多模态嵌入模子,通过一连预训练和异构比照微调,提升模子性能和泛化能力,在多模态基准测试中体现优异,尤其小规模模子性能突出。
预训练的视觉语言模子(VLM)因其强盛的图文联合建模能力,在多种使命上展现出重大潜力,也成为了许多现在普遍使用的多模态嵌入模子的基础。
然而,这些使用因果注重力机制的多模态嵌入模子在多模态嵌入使命中保存三个要害限制:
体现能力弱:因果注重力机制单向展望的特征,限制了模子充分捕获双向跨模态的深层语义。
泛化性差:古板模子多依赖于简朴的图文对训练数据,缺乏更普遍、更富厚的数据源,难以在新使命或新领域快速泛化。
扩展性低:现有模子的比照学习要领严重依赖于高质量的标注数据,导致本钱高昂,难以有用地使用大规模无标注数据。
怎样高效地将预训练因果VLM转变为强盛的双向多模态编码器,已成为多模态明确领域的主要挑战。
为了战胜这些挑战,亟需开发出一种新型框架,能够高效使用大规模非标注数据,提升多模态嵌入模子的双向明确和泛化能力。
中国人民大学、微软亚洲研究院、斯坦福大学、普林斯顿大学等机构的研究者提出了MoCa框架,接纳双阶段要领,将基于单向注重力预训练的视觉语言模子(VLM)转化为有用的双向多模态编码模子。
论文链接:https://arxiv.org/abs/2506.23115
项目主页:https://haon-chen.github.io/MoCa/
MoCa通过针对差别模态的一连预训练和异构比照微调,有用解决了古板模子体现能力弱、泛化性差、扩展性低的问题,取得了显著的性能提升。
MoCa:从单向到双向
MoCa框架包括两个焦点阶段:
针对差别模态的一连预训练(Modality-aware Continual Pre-training)
使用随机遮蔽的文本与图像块举行联合重修(MLM+MAE),增强模子的双向跨模态明确能力;有用捕获了更富厚的跨模态语义信息。
异构比照微调(Heterogeneous Contrastive Fine-tuning)
使用多样化的训练数据(如长文档、专业领域图文、纯文本等)和使命批次采样战略,进一步提高模子的鲁棒性和泛化性能。
通过上述要领,MoCa有用提升了多模态嵌入模子的双向体现能力和泛化性能,并显著降低了对高质量标注数据的依赖。
实验效果批注,MoCa在多个标准多模态基准测试中体现精彩,尤其是在小规模模子条件下即可逾越更大模子的性能,为多模态嵌入模子的进一步生长涤讪了坚实基础。
MoCa框架包括两个要害的手艺组件:
针对差别模态的一连预训练(Modality-aware Continual Pre-training)
跨模态双向注重力:有用捕获图文之间的深层语义交互,改善因果模子单向推理的缺乏。
联合mask重修(MLM+MAE):随机遮蔽文本词汇与图像块,让模子双向展望并恢复缺失约息;充分挖掘无标注数据的潜力,增强模子的跨模态体现能力。
异构比照微调 (Heterogeneous Contrastive Fine-tuning)
使命批次采样战略:动态采样差别使命批次,确保模子能够高效地顺应多使命、多领域的应用需求。
多样化数据源:接纳长文档、多领域图文、纯文本等富厚数据类型,提升模子的泛化能力。
通过这两个组件的细密协作,MoCa实现了预训练到微调的高效流程,充分使用无监视数据,在性能和泛化性上取得突破。
与古板多模态嵌入框架的比照
MoCa框架相比古板的多模态嵌入模子有着显着优势。
· 古板框架(如mmE5、VLM2Vec)
纯粹依赖高质量标注图文对,扩展性低;
以单向因果注重力为主,跨模态体现能力受限;
对新领域、新使命泛化性差。
· MoCa框架
充分使用大规模无标注数据,通过一连预训练显著降低本钱;
双向模态交互机制,能更深条理地捕获图文语义;
富厚的数据类型和使命采样战略,大幅提升泛化性能和扩展性。
因此,MoCa的提出为多模态嵌入领域提供了一条越发高效、更具泛化性的研究路径。
实验效果:以小广博,效果显著提升
研究职员在主流多模态嵌入基准MMEB和ViDoRe-v2上举行了周全评估。
在MMEB基准上
3B的MoCa模子即可抵达现有7B规模baseline模子的性能水平。
7B的MoCa模子实现目今最佳性能(SOTA),显著逾越现有模子。
在ViDoRe-v2使命中
MoCa在跨语言、跨领域的重大使命中体现突出,整体性能凌驾现有先进要领。
特殊在多语言和专业领域数据泛化能力上体现出显着优势。
实验效果充分验证了MoCa框架在低资源条件下实现高性能的能力,以及卓越的泛化性能。
消融实验
实验验证了MoCa各焦点组件的有用性,效果显示,去除针对差别模态的一连预训练或异构比照微调中的任一环节,模子性能均显着下降,进一步证实晰MoCa框架每个组件的须要性和主要性。
一连预训练的数据规模效应
为了探讨一连预训练数据规模对模子性能的影响,研究职员举行了针对性实验。
实验批注,随着用于一连预训练的数据规模增添,模子的多模态明确性能一连提升,但保存一定的性能饱和效应。
效果显示,在现实应用中应合理权衡数据规模与盘算本钱,以实现最优性能。
未来展望
MoCa框架的乐成验证了针对差别模态的一连预训练和异构比照微调战略的重大潜力。这一要领不但提升了小规模模子的体现,也为更普遍的数据使用和泛化能力涤讪了基础。
未来,研究职员妄想进一步探索以下几个方面:
扩展到多模态多语言领域,探索更普遍的跨语言泛化能力。
集成更多模态信息,如视频和音频,推动模子在更重大场景下的应用。
优化一连预训练战略,探索更高效的训练手艺,进一步降低盘算本钱。
通过一连的起劲,MoCa框架一定能够在多模态嵌入领域施展更普遍、更深远的影响。
参考资料:
https://arxiv.org/abs/2506.23115
??时势1:真人被到爽奶头网站
??07月16日,江西两会:畲族委员上“委员通道”话家乡巨变,
“唔,可见昔时的远古魔禽何等的恐怖,若是传承印记完整,这绝对是一种神技,但即便这样也很有数了。”族长说道。
,原神爆乳❌流出清水。??07月16日,最高检:深挖严打电信网络诈骗犯罪幕后“金主”,
四、爆发的几起事务为我们敲响警钟。我们举全乡之力修筑樵——冯线公路可以说是造福全乡尊长乡亲的一件大事、一件好事,可仍有一部分人从小我私家小利益角度出发,为工程的顺遂举行设置了重重阻力,尚有一再事务各人都很是清晰,在这里我纷歧一枚举,有些事务性子很是卑劣,这足以说明,一方面我们需要一直增强公民头脑品德建设,另一方面更需要增强下层组织建设,一直增强村党支部、村委会的凝聚力和战斗力。
,火影之乱婬大筒木辉夜,法国做爰露性器50部,男生无打码勃起照片。??时势2:jK白丝班长在我胯下娇喘
??07月16日,马克龙宣布2月访问乌克兰 法将向乌交付40枚远程导弹,
狈风刚要站起身来,石昊如一头幼鹏般凌空飞来,此后一脚落下,踏在了他的胸口上,眼睛很亮,俯视着他。
,林尼被❌吸乳脱内内,极品粉嫩小泬XXXXHD,.ลตลหไจ.com。??07月16日,今年以来中国快递月均业务量达140亿件 农村市场成新增长极,
几人一直以为这娃做事忒不靠谱了,常做出一些让人以为无语的事,适才甚至还在为他担心,怕他被人夺走符骨,有性命之忧,现在看来基础不是那么一回事。这小子这么厉害,难怪听到有人要抢他工具,反而先双眼放贼光,那是在对偕行致敬吗?明确是在期待与盼愿啊,太不忠实了!
,用力别停受不了看点,性裸交❌❌❌❌❌人妖,男人穿裸露屁股内裤的照片。??时势3:《合租的秘密规则》
??07月16日,国际识局:如果针对尹锡悦的弹劾案通过,会发生什么?,
度过了一个平安、愉快的春节寒假,我们满怀着新的希望迎来了生气勃勃的20xx年春季学期,回首已往的一年,我们活动坚实,洒下了汗水,收获了喜悦,取得了可喜的效果。我们开展了多种形式清静教育运动,提高了清静意识,增强了自我提防能力,全校师生团结一致,配合起劲,杜绝了清静事故的爆发,确保了我校师生的生命工业清静。
,Zoo Sex woman HD,女性向❌片在线观看silklabo,老太做爰XXXⅩ性XXX。??07月16日,做好“链”上文章 链博会“链通”全球 展现中国经济独特“魅力”,
“上苍你为何这样处分我们?”有鹤发老人仰天咆哮。
,动漫黄网站❌免费APP,王雨纯脱得连奶罩都不剩,део+18一29。??时势4:星穹铁道❌禁18同人漫画
??07月16日,香港涉外法律人才代表团访问大湾区内地城市,
他因此而实力暴涨,整具躯体由两米竟难以想象的拔高到了三米,强壮了一大截,全身绕着一条条闪电般的光束,血气惊人。
,美女又爽❌又黄❌视频无声音,GayFuckXXXXⅩHD,小舞乖~腿弄大一点就不疼了视频。??07月16日,新疆乌伦古湖结束禁渔期 开湖捕鱼,
这几人一听,寒毛簌簌倒竖,这小祖宗真不是一样平常的人啊,一小我私家揍爬下四大巨族的能手,这还没完事呢,怎么又要折腾了?
,韩国美女裸身㊙️无遮挡,啊啊啊快高潮了女视频,怀孕扒开腿㊙️男人爽桶。责编:西洛
审核:紫骏
责编:霍金
Copyright (C) 2001-2025 dzwww.com. All Rights Reserved
新闻信息效劳允许证 - 音像制品出书允许证 - 广播电视节目制作谋划允许证 - 网络视听允许证 - 网络文化谋划允许证
山东省互联网传媒集团主理 联系电话:0531-85193202 违法不良信息举报电话:0531-85196540
Copyright (C) 2001-2025 Dzwww 鲁ICP备09023866号-1