使命级奖励提升AppAgent思索力，淘天提出Mobile-R1，3B模子超32B

使命级奖励提升AppAgent思索力，淘天提出Mobile-R1，3B模子超32B

Mobile-R1团队投稿量子位 | 公众号 QbitAI

现有Mobile/APP Agent的事情可以顺应实时情形，并执行行动，但由于它们大部分都仅依赖于行动级奖励（SFT或RL）。

而这些奖励只能指导署理展望每一步中最佳的简单行动，因此难以应对一直转变的移动情形。

好比一句指令：“翻开飞猪，进入旅馆套餐，进入热门直播，找到飞猪超等VIP，并关注主播”。Qwen2.5-VL-3B-Instruct在第二步失败。

淘天集团算法手艺-未来生涯实验室&点淘算法团队联合提出，接纳多回合、使命导向的学习方法，连系在线学习和轨迹纠错，也许能提高Agent的顺应性和探索能力。

他们提出了个具有使命级奖励（Task-level Reward）的交互式强化学习框架，即Mobile-R1。

为了确保训练的稳固性，团队提出了一个三阶段训练历程：名堂微调、行动级训练和使命级训练。别的引入新的中文基准和高质量轨迹数据集，证实晰该要领在移动署理领域的有用性。

效果Mobile-R1顺遂地完成了这一使命。

轨迹数据集

团队使用Qwen2.5-VL-3B执行一系列使命获得初始轨迹，并人工标注这些初始轨迹，获得了高质量的轨迹数据集。

其结构可以分为数据网络和轨迹标注两部分，最终获得了4,635条高质量的人工标注轨迹，包括24,521个单步数据。

△轨迹数据集结构流程

首先，选择了28其中国移动应用程序，通过人工设计和自动天生相连系的要领建设了多样化的使命指令，随后统一经由人工审核，去除了部分不对理指令。在使用Qwen2.5-VL-3B模子执行这些指令后，乐成网络了大宗行动执行轨迹，轨迹中的每一步都包括模子输出的思索，需要执行的行动以及对应的工具挪用。

获得轨迹后，针对模子的输出做了以下三个维度的标注：

逻辑思索：将所有思索修正为“目今状态+下一步的行动+行动目的”的名堂，好比“目今在手机主屏（目今状态），下一步是点击淘宝图标（下一步行动）来进入淘宝（行动目的）”。若是原思索内容过失也会人工标注者会凭证该名堂重写思索。清晰行动：清晰行动是单步可执行操作的一句话形貌，行动应切合思索的内容并且可推动使命的完成。准确挪用：人工标注者会修正过失的操作挪用，包括类型过失以及参数过失。训练流程

训练流程由三个阶段组成，基于Qwen2.5-VL-3B。这三个阶段划分是初始名堂微调、行动级在线训练和使命级在线训练。

Stage1：初始名堂微调

在第一阶段，对模子举行初始名堂微调。这一步是通过监视微调（SFT）的方法举行的，使用的是之前人工标注的高质量轨迹数据集。在微调历程中，模子不但会学习怎样将用户的指令与目今的GUI状态对应起来，还会调解输特殊式以切合预期的结构，包括逻辑思索、清晰行动和准确挪用。

Stage2：行动级在线训练

在第二阶段，模子通过群体相对战略优化（GRPO）举行行动级在线训练。此阶段使用行动级奖励（Action-level Reward）来评估每个行动的准确性，同时确保输特殊式的完整性。行动级奖励由可验证行动奖励和名堂奖励组成，其中可验证行动奖励能够量化行动的准确性，而名堂奖励则确保模子输出是结构化、可诠释的。

行动级奖励。1）关于基于坐标的行动（如点击、滑动），若是展望的坐标落在目的GUI元素的真实界线框内，则奖励为1，不然为0。2）关于非坐标的行动（如输入文本），若是展望的行动或参数与真实值完全匹配，则奖励为1，不然为0。名堂奖励。名堂奖励促使模子天生切合标签和结构要求的输出，确保响应的逻辑思索、行动以及工具挪用的名堂化。

Stage3：使命级在线训练

在第三阶段，通过多办法使命级在线训练来提高模子的泛化能力和探索能力。

在动态的移动情形中，模子需要举行自由探索和过失纠正，因此我们将问题界说为马尔可夫决议历程，以允许多回合的互动。

使命级奖励由名堂奖励和轨迹级奖励组成，旨在勉励模子在整个轨迹中坚持对响应名堂的遵照，同时评估使命的完成情形。

轨迹级奖励。轨迹级奖励使用外部高精度的MLLM，GPT-4o来评估整个历史互动轨迹，确保办法和行动的一致性以及使命的完成情形。名堂奖励。名堂奖励在此阶段仍然起着主要作用，为整个轨迹盘算平均名堂奖励，并通过[-1, 1]的规模来对过失施加更严酷的处分，以增强输出的准确度。

训练的部分阶段在淘天自研的强化学习框架ROLL上举行实验。

实验效果

实验中，主要评估了模子在自界说benchmark上的性能，并举行了针对模子泛化能力的鲁棒性剖析，以验证Mobile-R1的体现。

△整体实验效果，粗体体现最佳效果，下划线体现次优效果

效果显示，Qwen2.5-VL-32B 和 AgentCPM-8B 在性能上体现类似。

其中，AgentCPM-8B 由于专为中国移动生态系统优化，因此在中文场景中体现优异。更为显著的是，Mobile-R1在所有基准中体现最佳，使命乐成率抵达49.40，比最优异的baseline model横跨快要20点。

Stage 3的训练进一步增强了Mobile-R1的体现，其乐成率比只有阶段1和阶段2训练的模子横跨1.4点，这得益于使命级GRPO的有用应用。

特殊值得注重的是，通过阶段1和阶段2的训练，Qwen2.5-VL-3B模子的体现逾越了其标准版本，并在多项指标上领先于其他基准模子，突显了行动级和使命级奖励机制的主要性。

△Stage 3训练的奖励曲线

此历程中，Stage 3的奖励分数显示出在前四个训练办法中稳步增添，批注学习历程是有用的。然而，在办法5到10之间，奖励有所下降，这可能是由于战略过于激进或探政策的改变导致的不稳固性。最终从办法11最先，奖励再次上升，这批注战略获得了有用的优化和刷新。

Mobile-R1在处置惩罚未见应用时体现出优异的泛化性，而其他模子在泛化能力上保存挑战。Mobile-R1的优异体现主要归功于Stage 3的训练，这一阶段有用增强了模子的鲁棒性和顺应性。

△鲁棒性剖析效果，粗体体现最佳效果

最后总结，在本文中，Mobile-R1通过在动态情形中整合交互式强化学习与使命级奖励，显著提升了基于视觉语言模子（VLM）的移动署理的能力。

通过包括名堂微调、行动级GRPO训练和使命级GRPO训练在内的三阶段训练历程，战胜了以往要领仅依赖简单行动展望的局限性。

实验效果批注，Mobile-R1在所有指标上都逾越了所有基准。别的，团队妄想周全开源相关资源以增进进一步的研究。

论文链接：https://arxiv.org/abs/2506.20332项目主页：https://mobile-r1.github.io/Mobile-R1/训练框架参考：https://github.com/alibaba/ROLL/开源数据： https://huggingface.co/datasets/PG23/Mobile-R1

相关推荐：小鲜肉Gay自慰videos 黑人巨鞭大战欧美熟妇国产高潮无码揉胸

分享： 2025-07-24 18:11:14 共81款