尊龙游戏人生就是博

ive直井怜为什么人气高 最近更新|更新列表|字母检索|下载排行|苹果专区|分类导航

目今位置:首页专题合集 → w3u7903ejky2ywls

尊龙凯时 - 人生就是搏!

使命级奖励提升AppAgent思索力,淘天提出Mobile-R1,3B模子超32B

使命级奖励提升AppAgent思索力,淘天提出Mobile-R1,3B模子超32B

Mobile-R1团队 投稿量子位 | 公众号 QbitAI

现有Mobile/APP Agent的事情可以顺应实时情形,并执行行动,但由于它们大部分都仅依赖于行动级奖励(SFT或RL)。

而这些奖励只能指导署理展望每一步中最佳的简单行动,因此难以应对一直转变的移动情形。

好比一句指令:“翻开飞猪,进入旅馆套餐,进入热门直播,找到飞猪超等VIP,并关注主播”。Qwen2.5-VL-3B-Instruct在第二步失败。

淘天集团算法手艺-未来生涯实验室&点淘算法团队联合提出,接纳多回合、使命导向的学习方法,连系在线学习和轨迹纠错,也许能提高Agent的顺应性和探索能力。

他们提出了个具有使命级奖励(Task-level Reward)的交互式强化学习框架,即Mobile-R1。

为了确保训练的稳固性,团队提出了一个三阶段训练历程:名堂微调、行动级训练和使命级训练。别的引入新的中文基准和高质量轨迹数据集,证实晰该要领在移动署理领域的有用性。

效果Mobile-R1顺遂地完成了这一使命。

轨迹数据集

团队使用Qwen2.5-VL-3B执行一系列使命获得初始轨迹,并人工标注这些初始轨迹,获得了高质量的轨迹数据集。

其结构可以分为数据网络和轨迹标注两部分,最终获得了4,635条高质量的人工标注轨迹,包括24,521个单步数据。

△轨迹数据集结构流程

首先,选择了28其中国移动应用程序,通过人工设计和自动天生相连系的要领建设了多样化的使命指令,随后统一经由人工审核,去除了部分不对理指令。在使用Qwen2.5-VL-3B模子执行这些指令后,乐成网络了大宗行动执行轨迹,轨迹中的每一步都包括模子输出的思索,需要执行的行动以及对应的工具挪用。

获得轨迹后,针对模子的输出做了以下三个维度的标注:

逻辑思索:将所有思索修正为“目今状态+下一步的行动+行动目的”的名堂,好比“目今在手机主屏(目今状态),下一步是点击淘宝图标(下一步行动)来进入淘宝(行动目的)”。若是原思索内容过失也会人工标注者会凭证该名堂重写思索。清晰行动:清晰行动是单步可执行操作的一句话形貌,行动应切合思索的内容并且可推动使命的完成。准确挪用:人工标注者会修正过失的操作挪用,包括类型过失以及参数过失。训练流程

训练流程由三个阶段组成,基于Qwen2.5-VL-3B。这三个阶段划分是初始名堂微调、行动级在线训练和使命级在线训练。

Stage1:初始名堂微调

在第一阶段,对模子举行初始名堂微调。这一步是通过监视微调(SFT)的方法举行的,使用的是之前人工标注的高质量轨迹数据集。在微调历程中,模子不但会学习怎样将用户的指令与目今的GUI状态对应起来,还会调解输特殊式以切合预期的结构,包括逻辑思索、清晰行动和准确挪用。

Stage2:行动级在线训练

在第二阶段,模子通过群体相对战略优化(GRPO)举行行动级在线训练。此阶段使用行动级奖励(Action-level Reward)来评估每个行动的准确性,同时确保输特殊式的完整性。行动级奖励由可验证行动奖励和名堂奖励组成,其中可验证行动奖励能够量化行动的准确性,而名堂奖励则确保模子输出是结构化、可诠释的。

行动级奖励。1)关于基于坐标的行动(如点击、滑动),若是展望的坐标落在目的GUI元素的真实界线框内,则奖励为1,不然为0。2)关于非坐标的行动(如输入文本),若是展望的行动或参数与真实值完全匹配,则奖励为1,不然为0。名堂奖励。名堂奖励促使模子天生切合标签和结构要求的输出,确保响应的逻辑思索、行动以及工具挪用的名堂化。

Stage3:使命级在线训练

在第三阶段,通过多办法使命级在线训练来提高模子的泛化能力和探索能力。

在动态的移动情形中,模子需要举行自由探索和过失纠正,因此我们将问题界说为马尔可夫决议历程,以允许多回合的互动。

使命级奖励由名堂奖励和轨迹级奖励组成,旨在勉励模子在整个轨迹中坚持对响应名堂的遵照,同时评估使命的完成情形。

轨迹级奖励。轨迹级奖励使用外部高精度的MLLM,GPT-4o来评估整个历史互动轨迹,确保办法和行动的一致性以及使命的完成情形。名堂奖励。名堂奖励在此阶段仍然起着主要作用,为整个轨迹盘算平均名堂奖励,并通过[-1, 1]的规模来对过失施加更严酷的处分,以增强输出的准确度。

训练的部分阶段在淘天自研的强化学习框架ROLL上举行实验。

实验效果

实验中,主要评估了模子在自界说benchmark上的性能,并举行了针对模子泛化能力的鲁棒性剖析,以验证Mobile-R1的体现。

△整体实验效果,粗体体现最佳效果,下划线体现次优效果

效果显示,Qwen2.5-VL-32B 和 AgentCPM-8B 在性能上体现类似。

其中,AgentCPM-8B 由于专为中国移动生态系统优化,因此在中文场景中体现优异。更为显著的是,Mobile-R1在所有基准中体现最佳,使命乐成率抵达49.40,比最优异的baseline model横跨快要20点。

Stage 3的训练进一步增强了Mobile-R1的体现,其乐成率比只有阶段1和阶段2训练的模子横跨1.4点,这得益于使命级GRPO的有用应用。

特殊值得注重的是,通过阶段1和阶段2的训练,Qwen2.5-VL-3B模子的体现逾越了其标准版本,并在多项指标上领先于其他基准模子,突显了行动级和使命级奖励机制的主要性。

△Stage 3训练的奖励曲线

此历程中,Stage 3的奖励分数显示出在前四个训练办法中稳步增添,批注学习历程是有用的。然而,在办法5到10之间,奖励有所下降,这可能是由于战略过于激进或探政策的改变导致的不稳固性。最终从办法11最先,奖励再次上升,这批注战略获得了有用的优化和刷新。

Mobile-R1在处置惩罚未见应用时体现出优异的泛化性,而其他模子在泛化能力上保存挑战。Mobile-R1的优异体现主要归功于Stage 3的训练,这一阶段有用增强了模子的鲁棒性和顺应性。

△鲁棒性剖析效果,粗体体现最佳效果

最后总结,在本文中,Mobile-R1通过在动态情形中整合交互式强化学习与使命级奖励,显著提升了基于视觉语言模子(VLM)的移动署理的能力。

通过包括名堂微调、行动级GRPO训练和使命级GRPO训练在内的三阶段训练历程,战胜了以往要领仅依赖简单行动展望的局限性。

实验效果批注,Mobile-R1在所有指标上都逾越了所有基准。别的,团队妄想周全开源相关资源以增进进一步的研究。

论文链接:https://arxiv.org/abs/2506.20332项目主页:https://mobile-r1.github.io/Mobile-R1/训练框架参考:https://github.com/alibaba/ROLL/开源数据: https://huggingface.co/datasets/PG23/Mobile-R1

相关推荐:成人🔞高潮片免费蘑菇视频 成人网站❌免费入口免费 被扒开腿猛戳流出白色液体

分享: 2025-07-23 02:54:54 共81款

电脑

安卓

苹果

相关合集

网友谈论 审查所有谈论>>

揭晓谈论

(您的谈论需要经由审核才华显示) 网友粉丝QQ群号:766969941

审查所有0条谈论>>

【网站地图】【sitemap】