使命级奖励提升AppAgent思索力,淘天提出Mobile-R1,3B模子超32B
Mobile-R1团队 投稿量子位 | 公众号 QbitAI
现有Mobile/APP Agent的事情可以顺应实时情形,并执行行动,但由于它们大部分都仅依赖于行动级奖励(SFT或RL)。
而这些奖励只能指导署理展望每一步中最佳的简单行动,因此难以应对一直转变的移动情形。
好比一句指令:“翻开飞猪,进入旅馆套餐,进入热门直播,找到飞猪超等VIP,并关注主播”。Qwen2.5-VL-3B-Instruct在第二步失败。
淘天集团算法手艺-未来生涯实验室&点淘算法团队联合提出,接纳多回合、使命导向的学习方法,连系在线学习和轨迹纠错,也许能提高Agent的顺应性和探索能力。
他们提出了个具有使命级奖励(Task-level Reward)的交互式强化学习框架,即Mobile-R1。
为了确保训练的稳固性,团队提出了一个三阶段训练历程:名堂微调、行动级训练和使命级训练。别的引入新的中文基准和高质量轨迹数据集,证实晰该要领在移动署理领域的有用性。
效果Mobile-R1顺遂地完成了这一使命。
轨迹数据集
团队使用Qwen2.5-VL-3B执行一系列使命获得初始轨迹,并人工标注这些初始轨迹,获得了高质量的轨迹数据集。
其结构可以分为数据网络和轨迹标注两部分,最终获得了4,635条高质量的人工标注轨迹,包括24,521个单步数据。
△轨迹数据集结构流程
首先,选择了28其中国移动应用程序,通过人工设计和自动天生相连系的要领建设了多样化的使命指令,随后统一经由人工审核,去除了部分不对理指令。在使用Qwen2.5-VL-3B模子执行这些指令后,乐成网络了大宗行动执行轨迹,轨迹中的每一步都包括模子输出的思索,需要执行的行动以及对应的工具挪用。
获得轨迹后,针对模子的输出做了以下三个维度的标注:
逻辑思索:将所有思索修正为“目今状态+下一步的行动+行动目的”的名堂,好比“目今在手机主屏(目今状态),下一步是点击淘宝图标(下一步行动)来进入淘宝(行动目的)”。若是原思索内容过失也会人工标注者会凭证该名堂重写思索。清晰行动:清晰行动是单步可执行操作的一句话形貌,行动应切合思索的内容并且可推动使命的完成。准确挪用:人工标注者会修正过失的操作挪用,包括类型过失以及参数过失。训练流程
训练流程由三个阶段组成,基于Qwen2.5-VL-3B。这三个阶段划分是初始名堂微调、行动级在线训练和使命级在线训练。
Stage1:初始名堂微调
在第一阶段,对模子举行初始名堂微调。这一步是通过监视微调(SFT)的方法举行的,使用的是之前人工标注的高质量轨迹数据集。在微调历程中,模子不但会学习怎样将用户的指令与目今的GUI状态对应起来,还会调解输特殊式以切合预期的结构,包括逻辑思索、清晰行动和准确挪用。
Stage2:行动级在线训练
在第二阶段,模子通过群体相对战略优化(GRPO)举行行动级在线训练。此阶段使用行动级奖励(Action-level Reward)来评估每个行动的准确性,同时确保输特殊式的完整性。行动级奖励由可验证行动奖励和名堂奖励组成,其中可验证行动奖励能够量化行动的准确性,而名堂奖励则确保模子输出是结构化、可诠释的。
行动级奖励。1)关于基于坐标的行动(如点击、滑动),若是展望的坐标落在目的GUI元素的真实界线框内,则奖励为1,不然为0。2)关于非坐标的行动(如输入文本),若是展望的行动或参数与真实值完全匹配,则奖励为1,不然为0。名堂奖励。名堂奖励促使模子天生切合标签和结构要求的输出,确保响应的逻辑思索、行动以及工具挪用的名堂化。
Stage3:使命级在线训练
在第三阶段,通过多办法使命级在线训练来提高模子的泛化能力和探索能力。
在动态的移动情形中,模子需要举行自由探索和过失纠正,因此我们将问题界说为马尔可夫决议历程,以允许多回合的互动。
使命级奖励由名堂奖励和轨迹级奖励组成,旨在勉励模子在整个轨迹中坚持对响应名堂的遵照,同时评估使命的完成情形。
轨迹级奖励。轨迹级奖励使用外部高精度的MLLM,GPT-4o来评估整个历史互动轨迹,确保办法和行动的一致性以及使命的完成情形。名堂奖励。名堂奖励在此阶段仍然起着主要作用,为整个轨迹盘算平均名堂奖励,并通过[-1, 1]的规模来对过失施加更严酷的处分,以增强输出的准确度。
训练的部分阶段在淘天自研的强化学习框架ROLL上举行实验。
实验效果
实验中,主要评估了模子在自界说benchmark上的性能,并举行了针对模子泛化能力的鲁棒性剖析,以验证Mobile-R1的体现。
△整体实验效果,粗体体现最佳效果,下划线体现次优效果
效果显示,Qwen2.5-VL-32B 和 AgentCPM-8B 在性能上体现类似。
其中,AgentCPM-8B 由于专为中国移动生态系统优化,因此在中文场景中体现优异。更为显著的是,Mobile-R1在所有基准中体现最佳,使命乐成率抵达49.40,比最优异的baseline model横跨快要20点。
Stage 3的训练进一步增强了Mobile-R1的体现,其乐成率比只有阶段1和阶段2训练的模子横跨1.4点,这得益于使命级GRPO的有用应用。
特殊值得注重的是,通过阶段1和阶段2的训练,Qwen2.5-VL-3B模子的体现逾越了其标准版本,并在多项指标上领先于其他基准模子,突显了行动级和使命级奖励机制的主要性。
△Stage 3训练的奖励曲线
此历程中,Stage 3的奖励分数显示出在前四个训练办法中稳步增添,批注学习历程是有用的。然而,在办法5到10之间,奖励有所下降,这可能是由于战略过于激进或探政策的改变导致的不稳固性。最终从办法11最先,奖励再次上升,这批注战略获得了有用的优化和刷新。
Mobile-R1在处置惩罚未见应用时体现出优异的泛化性,而其他模子在泛化能力上保存挑战。Mobile-R1的优异体现主要归功于Stage 3的训练,这一阶段有用增强了模子的鲁棒性和顺应性。
△鲁棒性剖析效果,粗体体现最佳效果
最后总结,在本文中,Mobile-R1通过在动态情形中整合交互式强化学习与使命级奖励,显著提升了基于视觉语言模子(VLM)的移动署理的能力。
通过包括名堂微调、行动级GRPO训练和使命级GRPO训练在内的三阶段训练历程,战胜了以往要领仅依赖简单行动展望的局限性。
实验效果批注,Mobile-R1在所有指标上都逾越了所有基准。别的,团队妄想周全开源相关资源以增进进一步的研究。
论文链接:https://arxiv.org/abs/2506.20332项目主页:https://mobile-r1.github.io/Mobile-R1/训练框架参考:https://github.com/alibaba/ROLL/开源数据: https://huggingface.co/datasets/PG23/Mobile-R1
孟子义洗澡时被c到高潮小说
初学生疯狂❌喷水自慰网站
老太脱裤子和老太做爰
韩国bj女团裸体㊙️无遮自慰
玩着玩着就c进去了h1v1视频
动漫美女的隐私㊙️撒尿
美女裸奔❌❌免费视频
同性男男黄G片免费网站18禁无码
黄昏和约尔洗澡无删减
美女脱一光二净打屁股
温迪被钟离玩到失禁
19➕无码➕高潮➕蜜臀
学生XXXX19
打光屁股视频(无遮挡)
无怨换装备
爽⋯好大⋯快⋯深点歪歪
扒开小舞❌狂揉❌难受3D
林草茂盛老熟女
jk漫画天堂下载头像是粉头cp2app
ΠOнлайн❤hd72
老师自慰喷潮A片免费观看网站
惩罚女仆扒开🍑跪挠咯吱窝作文
偷窥女性隐私㊙️黄www
用姐姐的脚帮我设
动漫女性脱👙给我揉🐻的
女儿的美白蚌埠2中的字头是什么
同桌把🍌c进去
看小正太的睾丸
美淫穴图片
美女双奶头被绑死sm绳艺白丝
欧美性⭕⭕⭕⭕XXXX
小sao贷大ji巴cao死你
猛男狂小受受网站
男同被❌到爽🔞流网站鸣人
蜜臀91丨九色丨蝌蚪老版
欧美❌❌❌sex性直播
男生用j桶㊙️美女屁股
美女露出粉嫩尿囗让男人桶
免费看美女隐私㊙️部位
1000款夜间禁用网站
18㊙️爱爰免费视频
白丝女剑仙被c呻吟双腿打开小说
🔞🍌进🍑里❌❌❌蓝
英语老师解开扣子喂我乳
女人裸体❌❌AI去衣一键下载
无码➕高潮➕白浆➕
韩国R级19禁未删减版
斩神红缨的婬乱生活H小说
珐露珊乳液狂飙开襟图片Xman
少妇洗澡被进3次
大雷的宝藏库免费观看视频
女野人艳史无删版
扒下语文老师的丝袜
动漫肌肉男自慰Gay
三角洲骇爪❤♥自慰18禁小说
美女脱免费看胸秘弄出奶水
八重神子被雷电将军悼
挠痒痒憋尿玩弄折磨
anime18动漫tube无码
弹丸论破七海千秋污本子
巴西女人性猛交XXXXX
东京热成人免费A片
残虐极端疼痛拳
打白嫩屁屁㊙️网站
91在线无码精品㊙️一起草
中国少妇被黑人XXOO
女同桌扒下我裤子摸J
AI成人18禁秘
散兵把你欺负哭文
女人自慰黄色短视
意大利熟妇性❌❌❌
国产➕高潮➕免费的
芙宁娜爆乳18禁🔞图片
OVA偶像女友堕落在线观看
免费看二次元涩涩漫画软件
免费❌18禁视频打扑
高清🈚码🔞❌❌❌粪便APP
苍井空张腿被实干12次
班长大胸女被c黄秘触
丝瓜视频18♥免费观看♥
男男纯肉高被🌿爽到翻白眼动漫
网友谈论 审查所有谈论>>