猫眼影戏
猫眼影戏
拉丝
手机审查
猫眼影戏记者 陆某奎 报道w3u7903ejky2ywls
新智元报道
编辑:LRST
【新智元导读】MoCa框架把单向视觉语言模子转化为双向多模态嵌入模子,通过一连预训练和异构比照微调,提升模子性能和泛化能力,在多模态基准测试中体现优异,尤其小规模模子性能突出。
预训练的视觉语言模子(VLM)因其强盛的图文联合建模能力,在多种使命上展现出重大潜力,也成为了许多现在普遍使用的多模态嵌入模子的基础。
然而,这些使用因果注重力机制的多模态嵌入模子在多模态嵌入使命中保存三个要害限制:
体现能力弱:因果注重力机制单向展望的特征,限制了模子充分捕获双向跨模态的深层语义。
泛化性差:古板模子多依赖于简朴的图文对训练数据,缺乏更普遍、更富厚的数据源,难以在新使命或新领域快速泛化。
扩展性低:现有模子的比照学习要领严重依赖于高质量的标注数据,导致本钱高昂,难以有用地使用大规模无标注数据。
怎样高效地将预训练因果VLM转变为强盛的双向多模态编码器,已成为多模态明确领域的主要挑战。
为了战胜这些挑战,亟需开发出一种新型框架,能够高效使用大规模非标注数据,提升多模态嵌入模子的双向明确和泛化能力。
中国人民大学、微软亚洲研究院、斯坦福大学、普林斯顿大学等机构的研究者提出了MoCa框架,接纳双阶段要领,将基于单向注重力预训练的视觉语言模子(VLM)转化为有用的双向多模态编码模子。
论文链接:https://arxiv.org/abs/2506.23115
项目主页:https://haon-chen.github.io/MoCa/
MoCa通过针对差别模态的一连预训练和异构比照微调,有用解决了古板模子体现能力弱、泛化性差、扩展性低的问题,取得了显著的性能提升。
MoCa:从单向到双向
MoCa框架包括两个焦点阶段:
针对差别模态的一连预训练(Modality-aware Continual Pre-training)
使用随机遮蔽的文本与图像块举行联合重修(MLM+MAE),增强模子的双向跨模态明确能力;有用捕获了更富厚的跨模态语义信息。
异构比照微调(Heterogeneous Contrastive Fine-tuning)
使用多样化的训练数据(如长文档、专业领域图文、纯文本等)和使命批次采样战略,进一步提高模子的鲁棒性和泛化性能。
通过上述要领,MoCa有用提升了多模态嵌入模子的双向体现能力和泛化性能,并显著降低了对高质量标注数据的依赖。
实验效果批注,MoCa在多个标准多模态基准测试中体现精彩,尤其是在小规模模子条件下即可逾越更大模子的性能,为多模态嵌入模子的进一步生长涤讪了坚实基础。
MoCa框架包括两个要害的手艺组件:
针对差别模态的一连预训练(Modality-aware Continual Pre-training)
跨模态双向注重力:有用捕获图文之间的深层语义交互,改善因果模子单向推理的缺乏。
联合mask重修(MLM+MAE):随机遮蔽文本词汇与图像块,让模子双向展望并恢复缺失约息;充分挖掘无标注数据的潜力,增强模子的跨模态体现能力。
异构比照微调 (Heterogeneous Contrastive Fine-tuning)
使命批次采样战略:动态采样差别使命批次,确保模子能够高效地顺应多使命、多领域的应用需求。
多样化数据源:接纳长文档、多领域图文、纯文本等富厚数据类型,提升模子的泛化能力。
通过这两个组件的细密协作,MoCa实现了预训练到微调的高效流程,充分使用无监视数据,在性能和泛化性上取得突破。
与古板多模态嵌入框架的比照
MoCa框架相比古板的多模态嵌入模子有着显着优势。
· 古板框架(如mmE5、VLM2Vec)
纯粹依赖高质量标注图文对,扩展性低;
以单向因果注重力为主,跨模态体现能力受限;
对新领域、新使命泛化性差。
· MoCa框架
充分使用大规模无标注数据,通过一连预训练显著降低本钱;
双向模态交互机制,能更深条理地捕获图文语义;
富厚的数据类型和使命采样战略,大幅提升泛化性能和扩展性。
因此,MoCa的提出为多模态嵌入领域提供了一条越发高效、更具泛化性的研究路径。
实验效果:以小广博,效果显著提升
研究职员在主流多模态嵌入基准MMEB和ViDoRe-v2上举行了周全评估。
在MMEB基准上
3B的MoCa模子即可抵达现有7B规模baseline模子的性能水平。
7B的MoCa模子实现目今最佳性能(SOTA),显著逾越现有模子。
在ViDoRe-v2使命中
MoCa在跨语言、跨领域的重大使命中体现突出,整体性能凌驾现有先进要领。
特殊在多语言和专业领域数据泛化能力上体现出显着优势。
实验效果充分验证了MoCa框架在低资源条件下实现高性能的能力,以及卓越的泛化性能。
消融实验
实验验证了MoCa各焦点组件的有用性,效果显示,去除针对差别模态的一连预训练或异构比照微调中的任一环节,模子性能均显着下降,进一步证实晰MoCa框架每个组件的须要性和主要性。
一连预训练的数据规模效应
为了探讨一连预训练数据规模对模子性能的影响,研究职员举行了针对性实验。
实验批注,随着用于一连预训练的数据规模增添,模子的多模态明确性能一连提升,但保存一定的性能饱和效应。
效果显示,在现实应用中应合理权衡数据规模与盘算本钱,以实现最优性能。
未来展望
MoCa框架的乐成验证了针对差别模态的一连预训练和异构比照微调战略的重大潜力。这一要领不但提升了小规模模子的体现,也为更普遍的数据使用和泛化能力涤讪了基础。
未来,研究职员妄想进一步探索以下几个方面:
扩展到多模态多语言领域,探索更普遍的跨语言泛化能力。
集成更多模态信息,如视频和音频,推动模子在更重大场景下的应用。
优化一连预训练战略,探索更高效的训练手艺,进一步降低盘算本钱。
通过一连的起劲,MoCa框架一定能够在多模态嵌入领域施展更普遍、更深远的影响。
参考资料:
https://arxiv.org/abs/2506.23115
??时势1:纳西妲疯狂❌自慰到爽网站
??07月17日,中疾控:0至14岁人群急性呼吸道传染病发病有所增加,
“他自出生以来,至今未尝一败,战绩绚烂,如神临世!”
,朴彩英被c到高潮下不了床网站。??07月17日,西安创新大遗址保护理念 实现大遗址与现代社会相融共生,
“啊……”蛟鹏惨叫,虽然肉身强盛,可是被这么重大的一个石碾子盖在脸上,那种滋味苦不堪言,难以忍受。
,二次元美女18🚫隐私免费,国产男男被猛男躁免费视频,白丝校花🌸自慰到爽蜜乳。??时势2:美女拉肚子失禁拉裤子
??07月17日,AI高考作文火了,带来哪些教与学的启示?,
上一学年,学;竦昧松霞恫糠值亩嘞畋硌。如在“关爱明天?普法先行”运动中,我;裉煜孪冉ノ,皮广礼校长获天下青少年普法教育运动先进小我私家,张靖主任获天下优异向导员。学生获得国家级一等奖2人,二等奖1人,三等奖4人,优异奖3人。学;够竦昧酥厍焓形纺允虑橄虻夹∽槊厍焓小俺两泊痹硕髂;亍⒅厍焓薪涛硌镂锤嫉烙冉ノ弧⒅厍焓薪逃低诚冉虏愕匙橹,重庆市总工会命名为重庆市五一巾帼尖兵岗。
,甘雨裸乳被爆❌白浆的动漫,欧美人体mrss少妇piC,韩漫被狂❌到高潮的漫画。??07月17日,中国人保启动一级应急响应 迅速应对云南镇雄县山体滑坡,
一是进一步加大建设投入;岷,县里将再次组织召开建设事情协调会,研究安排验收组提出的整改意见,从人力、物力、财力上包管整改使命的落实。二是进一步明确整改责
,把腿张开~我要放冰块视频,扒开狂揉难受公交车欧美,涩涩amsr在线网站。??时势3:原神芙宁娜同人18❌AV黄漫
??07月17日,冷空气影响江南及以北地区 华北南部等地霾天气减弱消散,
令这群人没有想到的是,这个奶娃一双大眼发光,攥紧了小拳头,无比兴奋,道:“他们身上有好工具吗?”
,metcn模特庄媛的专辑,3D古见祼体啪啪❌H漫网站,抖音八酱的爆料网站。??07月17日,4名中央企业专职外部董事调整, 穆勒纳尔体现:“尊龙游戏人生就是博军队已经榨取使用这些电池,领土清静部也应该这样做。”早在去年12月,美国会参众两院通过的2024财年国防授权法案中明确,将榨取美国国防部采购上述六家中国电池公司生产的电池。这项法案已由美国总统拜登在当月签署,将于2027年10月起生效。,粉嫩内射水多多,舌头伸进去的我的B看看,给清水文男主们开荤nph。
??时势4:强奸轮奸虐待乱伦强暴留学生黑人老外黑鬼黑吊洋人
??07月17日,外媒:巴基斯坦一婚礼大巴坠河 已致至少14人遇难,
10.做好分组。运动会时代,班主任要让每一个学生有事做,勉励同砚加入到这体育盛会,感受体育魅力与活力,融入班整体,融入学校各人庭,建设多个对,竞赛队、啦啦队、卫生自愿者队、撰稿队、清静组、照顾护士组、后勤组等,每组有一组长。
,人妻初尝黑人巨鞭在线视频,彩虹Gay.com,日本口工精品漫画H🔞动漫。??07月17日,四川蓬安:“牛机同耕”闹春耕,
青鳞鹰虽恼怒,但却没有失去理智,知晓远方的山林有这样一头让百兽都恐惧的鼠王,以金属为食,牙齿与利爪无坚不摧。
,男女啪啪久久爽A片免费看,欧美做受❌❌❌❌青楼十三房,少妇张开腿毛茸茸撒尿。责编:杨小民
审核:柳重言
责编:尼亚穆瓦萨
Copyright (C) 2001-2025 dzwww.com. All Rights Reserved
新闻信息效劳允许证 - 音像制品出书允许证 - 广播电视节目制作谋划允许证 - 网络视听允许证 - 网络文化谋划允许证
山东省互联网传媒集团主理 联系电话:0531-85193202 违法不良信息举报电话:0531-85196540
Copyright (C) 2001-2025 Dzwww 鲁ICP备09023866号-1