尊龙游戏人生就是博

清冷校草被扒开腿狂c的动漫 最近更新|更新列表|字母检索|下载排行|苹果专区|分类导航

目今位置:首页专题合集 → w3u7903ejky2ywls

尊龙凯时 - 人生就是搏!

多模态模子学会“按需搜索”,少搜30%还更准!字节&NTU新研究

多模态模子学会“按需搜索”,少搜30%还更准!字节&NTU新研究

MMSearch-R1团队投稿量子位 | 公众号 QbitAI

多模态模子学会“按需搜索”!

字节&NTU最新研究,优化多模态模子搜索战略

通过搭建网络搜索工具、构建多模态搜索数据集以及涉及简朴有用的奖励机制,首次实验基于端到端强化学习的多模态模子自主搜索训练

经由训练的模子能够自主判断搜索时机、搜索内容并处置惩罚搜索效果,在真实互联网情形中执行多轮按需搜索。

实验效果批注,在知识麋集型视觉问答使命(Visual Question Answering, VQA)中,MMSearch-R1系统展现出显著优势:

其性能不但逾越同规模模子在古板检索增强天生(RAG)事情流下的性能,更在镌汰约30%搜索次数的条件下,抵达了更大规模规模模子做古板RAG的性能水平。

下文将详细剖析该研究的研究要领以及实验发明。

详细怎么做到的 ?

近年来,随着视觉-语言训练数据集在规模和质量上的双重提升,多模态大模子(Large Multimodal Models, LMMs)在跨模态明确使命中展现出卓越的性能,其文本与视觉知识的对齐能力显著增强。

然而,现实天下的信息具有高度动态性和重大性,纯粹依赖扩大训练数据规模的知识获取方法保存固有局限:难以笼罩长尾漫衍的知识、无法获取模子训练阻止日期后的新信息,以及难以触及私域信息资源。

这些局限性导致模子在现实应用中容易爆发幻觉征象,严重制约了其在普遍现实场景下安排的可靠性。

在此配景下,网络搜索作为人类获取新知识的焦点途径,被视为扩展模子能力界线的主要工具,正受到学术界的高度重视。

怎样使多模态模子具备自主、精准的外部信息获取能力,从而实现准确的问题解答,成为目今研究的要害挑战。

因此,ByteDance与南洋理工大学(NTU)S-Lab联合开展的MMSearch-R1项目针对这一挑战举行了探索。

下面详细来看该研究的研究要领。

集成多轮搜索的强化学习训练

1、多模态搜索工具

MMSearch-R1集成图像搜索和文本搜索两种工具,以知足模子应对视觉问答使命的需求,其中图像搜索工具基于Google Lens,支持搜索与用户图像视觉外观匹配的网页问题以及主要缩略图,用于资助模子准确识别主要的视觉元素。

文本搜索工具由Google Search,JINA Reader以及用于网页内容总结的语言模子组成的链路组成,支持搜索与模子天生的搜索内容最相关的网页及其内容摘要,用于资助模子准确定位所需文本知识与信息。

2、多轮搜索强化学习训练

MMSearch-R1接纳GRPO作为强化学习算法举行模子训练,基于veRL框架实现集成多轮对话与搜索的Rollout历程,在每轮对话中,模子首先举行思索,并执行可选的行动,如挪用多模态搜索工具与真实互联网举行交互,或给出最终的谜底。

3、带有搜索处分的奖励函数

MMSearch-R1的奖励函数由准确性得分和名堂得分两部分以加权求和的形式组成,其权重划分为0.9和0.1,划分权衡模子是否准确回覆了用户问题(模子所给谜底与真实谜底作字符串准确匹配)以及遵照了既定回复名堂。

为了激励模子优先使用自身知识完成作答,还会对调用搜索工具才获得准确谜底的回复举行处分(搜索处分因子为0.1),最终奖励函数为:

构建搜索需求平衡的多模态图像问答数据集

为了有用训练模子实现智能化的按需搜索能力,研究全心构建了FactualVQA(FVQA)数据集,包括训练集和测试集。该数据集的构建接纳了一套全心设计的半自动化流程,重点聚焦于需要富厚视觉与文本知识支持的问答场景。

1、数据收罗

团队首先基于MetaCLIP的元数据漫衍举行多条理采样,确保笼罩从高频到长尾的多样化视觉看法(Visual Concept),并从互联网中搜索与视觉看法最相关的图片,基于GPT-4o天生事实性问答对。

为增强数据集的文本知识维度,团队还从InfoSeek训练集中筛选了具有代表性的问答样本举行增补。为确保数据质量贴近真实应用场景,FVQA还增补了800个由标注职员标注问答对样本。

2、数据平衡

完成起源数据收罗后,通过一个粗训练的模子对现有样本举行分类,检查每条数据的搜索须要性,最终训练数据集包括约3400个需要搜索的样本和1600个无需搜索的样本。

实验效果怎样 ?

MMSearch-R1-7B基于Qwen2.5-VL-7B模子举行训练。

在FVQA-test、InfoSeek等知识麋集型VQA使命中,MMSearch-R1-7B的平均准确率比一律规模模子的古板RAG基线横跨约3%搜索比率降低了32.9%,同时能够媲美32B模子RAG基线的效果。

经由强化学习训练,模子提升了优化搜索内容以及处置惩罚搜索效果的能力(下图左,经由强化学习的模子执行RAG Workflow性能要好于原始模子),同时增强了挖掘使用自身固有知识的能力(下图右,模子提升了不搜索即可回覆准确的比率)。

强化学习展现出比监视微调更大的潜力,在所有使命上以较少的训练样本取得更大的性能增益(下图左)。

同时证实数据搜索比例平衡以及奖励函数中的搜索惩 ;朴兄谠谘盗防讨兴茉炷W拥陌葱杷阉餍形ㄏ峦加遥。

最后总结来说,MMSearch-R1是一个基于强化学习的立异框架,付与多模态大模子在真实互联网情形中执行智能按需搜索的能力。该框架使模子能够自主识别知识界线,进而选择图像或文本搜索方法获取所需信息,并对搜索效果举行有用推理。

团队体现,该研究为开发具备现实天下交互能力的多模态大模子提供了主要洞见,为构建自顺应、交互式的多模态智能体涤讪了基础。期待随着模子通过更多工具与现实天下的一连交互,多模态智能将在推理和顺应能力上实现新的奔腾。

论文地点:https://arxiv.org/abs/2506.20670项目地点:https://github.com/EvolvingLMMs-Lab/multimodal-search-r1

相关推荐:穿进肉欲游戏每天挨C 樱桃视频极品御姐在线 妮可基德曼XXXX性视频

分享: 2025-07-15 07:55:29 共81款

电脑

安卓

苹果

相关合集

网友谈论 审查所有谈论>>

揭晓谈论

(您的谈论需要经由审核才华显示) 网友粉丝QQ群号:766969941

审查所有0条谈论>>

【网站地图】【sitemap】