多模态模子学会“按需搜索”,少搜30%还更准!字节&NTU新研究
MMSearch-R1团队投稿量子位 | 公众号 QbitAI
多模态模子学会“按需搜索”!
字节&NTU最新研究,优化多模态模子搜索战略
通过搭建网络搜索工具、构建多模态搜索数据集以及涉及简朴有用的奖励机制,首次实验基于端到端强化学习的多模态模子自主搜索训练
经由训练的模子能够自主判断搜索时机、搜索内容并处置惩罚搜索效果,在真实互联网情形中执行多轮按需搜索。
实验效果批注,在知识麋集型视觉问答使命(Visual Question Answering, VQA)中,MMSearch-R1系统展现出显著优势:
其性能不但逾越同规模模子在古板检索增强天生(RAG)事情流下的性能,更在镌汰约30%搜索次数的条件下,抵达了更大规模规模模子做古板RAG的性能水平。
下文将详细剖析该研究的研究要领以及实验发明。
详细怎么做到的?
近年来,随着视觉-语言训练数据集在规模和质量上的双重提升,多模态大模子(Large Multimodal Models, LMMs)在跨模态明确使命中展现出卓越的性能,其文本与视觉知识的对齐能力显著增强。
然而,现实天下的信息具有高度动态性和重大性,纯粹依赖扩大训练数据规模的知识获取方法保存固有局限:难以笼罩长尾漫衍的知识、无法获取模子训练阻止日期后的新信息,以及难以触及私域信息资源。
这些局限性导致模子在现实应用中容易爆发幻觉征象,严重制约了其在普遍现实场景下安排的可靠性。
在此配景下,网络搜索作为人类获取新知识的焦点途径,被视为扩展模子能力界线的主要工具,正受到学术界的高度重视。
怎样使多模态模子具备自主、精准的外部信息获取能力,从而实现准确的问题解答,成为目今研究的要害挑战。
因此,ByteDance与南洋理工大学(NTU)S-Lab联合开展的MMSearch-R1项目针对这一挑战举行了探索。
下面详细来看该研究的研究要领。
集成多轮搜索的强化学习训练
1、多模态搜索工具
MMSearch-R1集成图像搜索和文本搜索两种工具,以知足模子应对视觉问答使命的需求,其中图像搜索工具基于Google Lens,支持搜索与用户图像视觉外观匹配的网页问题以及主要缩略图,用于资助模子准确识别主要的视觉元素。
文本搜索工具由Google Search,JINA Reader以及用于网页内容总结的语言模子组成的链路组成,支持搜索与模子天生的搜索内容最相关的网页及其内容摘要,用于资助模子准确定位所需文本知识与信息。
2、多轮搜索强化学习训练
MMSearch-R1接纳GRPO作为强化学习算法举行模子训练,基于veRL框架实现集成多轮对话与搜索的Rollout历程,在每轮对话中,模子首先举行思索,并执行可选的行动,如挪用多模态搜索工具与真实互联网举行交互,或给出最终的谜底。
3、带有搜索处分的奖励函数
MMSearch-R1的奖励函数由准确性得分和名堂得分两部分以加权求和的形式组成,其权重划分为0.9和0.1,划分权衡模子是否准确回覆了用户问题(模子所给谜底与真实谜底作字符串准确匹配)以及遵照了既定回复名堂。
为了激励模子优先使用自身知识完成作答,还会对调用搜索工具才获得准确谜底的回复举行处分(搜索处分因子为0.1),最终奖励函数为:
构建搜索需求平衡的多模态图像问答数据集
为了有用训练模子实现智能化的按需搜索能力,研究全心构建了FactualVQA(FVQA)数据集,包括训练集和测试集。该数据集的构建接纳了一套全心设计的半自动化流程,重点聚焦于需要富厚视觉与文本知识支持的问答场景。
1、数据收罗
团队首先基于MetaCLIP的元数据漫衍举行多条理采样,确保笼罩从高频到长尾的多样化视觉看法(Visual Concept),并从互联网中搜索与视觉看法最相关的图片,基于GPT-4o天生事实性问答对。
为增强数据集的文本知识维度,团队还从InfoSeek训练集中筛选了具有代表性的问答样本举行增补。为确保数据质量贴近真实应用场景,FVQA还增补了800个由标注职员标注问答对样本。
2、数据平衡
完成起源数据收罗后,通过一个粗训练的模子对现有样本举行分类,检查每条数据的搜索须要性,最终训练数据集包括约3400个需要搜索的样本和1600个无需搜索的样本。
实验效果怎样?
MMSearch-R1-7B基于Qwen2.5-VL-7B模子举行训练。
在FVQA-test、InfoSeek等知识麋集型VQA使命中,MMSearch-R1-7B的平均准确率比一律规模模子的古板RAG基线横跨约3%搜索比率降低了32.9%,同时能够媲美32B模子RAG基线的效果。
经由强化学习训练,模子提升了优化搜索内容以及处置惩罚搜索效果的能力(下图左,经由强化学习的模子执行RAG Workflow性能要好于原始模子),同时增强了挖掘使用自身固有知识的能力(下图右,模子提升了不搜索即可回覆准确的比率)。
强化学习展现出比监视微调更大的潜力,在所有使命上以较少的训练样本取得更大的性能增益(下图左)。
同时证实数据搜索比例平衡以及奖励函数中的搜索惩;朴兄谠谘盗防讨兴茉炷W拥陌葱杷阉餍形ㄏ峦加遥。
最后总结来说,MMSearch-R1是一个基于强化学习的立异框架,付与多模态大模子在真实互联网情形中执行智能按需搜索的能力。该框架使模子能够自主识别知识界线,进而选择图像或文本搜索方法获取所需信息,并对搜索效果举行有用推理。
团队体现,该研究为开发具备现实天下交互能力的多模态大模子提供了主要洞见,为构建自顺应、交互式的多模态智能体涤讪了基础。期待随着模子通过更多工具与现实天下的一连交互,多模态智能将在推理和顺应能力上实现新的奔腾。
论文地点:https://arxiv.org/abs/2506.20670项目地点:https://github.com/EvolvingLMMs-Lab/multimodal-search-r1
新疆旱厕偷窃的最新进展情况
莫妮卡在厨房被c高潮部分
免费看黄片
国产美女爆乳娇喘呻吟视频
欧美一级婬片A片久久精品水中花
19+韩国主播青草电影全集
被黑人c到高潮婬荡呻吟30分
91学生精品白嫩在线
三笠裸体被❌AV黄漫
free❌❌❌性3口动漫
自慰✅免费观看
真人女实拍尿裤子丨VK
动漫美女爆❌羞羞动漫免费软件
tudi418❌❌❌日本
散兵被强制高潮触手play
美女露出全部隐私㊙️视频
林书辞资源在线看
女班长被❌c🐻扒衣
佐助被绑床震蛋文
亚洲㊙️麻豆精品洗头舒服
快乐风男羽锡Twitter
女人与拘做爰全过女
AMSN中文声音小烟
成人游戏色情H游戏
欧美极品❌❌❌❌❌丫丫内谢
FreeHD18❌❌❌3D漫画
18➕韩国主播福利视频在线观看
揉我胸⋯啊⋯嗯-千仞雪视频
高清🈚码🔞❌♋免费网站
男男纯肉巨黄触手play
男人把🍌伸近女人🍑
14学生的隐私㊙️网站vk
furry自慰Gay动漫网站
亚洲AV无码A片在线观看蜜桃
黑化碧琪和云宝
人奶魔巢未测减删掉的是什么内容
少萝吃大狙免费
6080理论片午夜伦八戒
原神同人18❌网站
乖我就摸摸小奶头不进去在线
美女大胸挤奶㊙️美杜莎女王
擼擼社🔞在线观看喷潮
射精软件
羞羞裸体漫画免费首页入口
裸体人妖无码视频
丁·度巴斯公交车
免费吃瓜 黑料泄密 爆料曝光
女女🔞高潮片免费视频
美女㊙️白嫩的屁股视频
伽罗大⋯好爽⋯裙子湿透了
19➕韩国主播在线观看柳智慧
🔞🍌进🍑里❌❌❌自直接看
疯狂❌自慰爽www看片
绝区零裸乳被爆❌羞羞漫画
妻子正撅着屁股被几个民工干
完全初撮り♥制服生1080P
91女教师穿白丝被弄得我好爽
动漫美女撒尿㊙️免费视频
嗯灬啊灬把腿张开灬润滑剂男男
91女厕精品合集KTV偷窥美女嘘嘘
美女裸体全身㊙️无遮挡
成人v精品㊙️蜜桃久久一区
钢钢钢钢钢钠钢好多水免费版
鼬被佐助❌娇喘流白色液体
3D不知火舞被疯狂❌吸乳
男被❌c🐻黄扒衣服好爽
黑料老司机,不打烊,黑料
荒唐的山区TXT小说下载
八酱榜一大哥免费观看
荫蒂添囗交视频
亚洲精品成人a v久久A片蜜臀
攻被保镖狂C呻吟爆汁bl
拉拉🈚️码视频在线观看
主人不让女仆尿出来
二次元18禁裸乳无遮挡图片
美女被❌脱脱内内做运动
高颜值Ie炒菜网站
王者荣耀瑶自慰出水
12孩岁男同Gay互相洗澡小说
女人为啥进去就舒服了
国产入口㊙️91福利姬
网友谈论 审查所有谈论>>