使命级奖励提升AppAgent思索力,淘天提出Mobile-R1,3B模子超32B
Mobile-R1团队 投稿量子位 | 公众号 QbitAI
现有Mobile/APP Agent的事情可以顺应实时情形,并执行行动,但由于它们大部分都仅依赖于行动级奖励(SFT或RL)。
而这些奖励只能指导署理展望每一步中最佳的简单行动,因此难以应对一直转变的移动情形。
好比一句指令:“翻开飞猪,进入旅馆套餐,进入热门直播,找到飞猪超等VIP,并关注主播”。Qwen2.5-VL-3B-Instruct在第二步失败。
淘天集团算法手艺-未来生涯实验室&点淘算法团队联合提出,接纳多回合、使命导向的学习方法,连系在线学习和轨迹纠错,也许能提高Agent的顺应性和探索能力。
他们提出了个具有使命级奖励(Task-level Reward)的交互式强化学习框架,即Mobile-R1。
为了确保训练的稳固性,团队提出了一个三阶段训练历程:名堂微调、行动级训练和使命级训练。别的引入新的中文基准和高质量轨迹数据集,证实晰该要领在移动署理领域的有用性。
效果Mobile-R1顺遂地完成了这一使命。
轨迹数据集
团队使用Qwen2.5-VL-3B执行一系列使命获得初始轨迹,并人工标注这些初始轨迹,获得了高质量的轨迹数据集。
其结构可以分为数据网络和轨迹标注两部分,最终获得了4,635条高质量的人工标注轨迹,包括24,521个单步数据。
△轨迹数据集结构流程
首先,选择了28其中国移动应用程序,通过人工设计和自动天生相连系的要领建设了多样化的使命指令,随后统一经由人工审核,去除了部分不对理指令。在使用Qwen2.5-VL-3B模子执行这些指令后,乐成网络了大宗行动执行轨迹,轨迹中的每一步都包括模子输出的思索,需要执行的行动以及对应的工具挪用。
获得轨迹后,针对模子的输出做了以下三个维度的标注:
逻辑思索:将所有思索修正为“目今状态+下一步的行动+行动目的”的名堂,好比“目今在手机主屏(目今状态),下一步是点击淘宝图标(下一步行动)来进入淘宝(行动目的)”。若是原思索内容过失也会人工标注者会凭证该名堂重写思索。清晰行动:清晰行动是单步可执行操作的一句话形貌,行动应切合思索的内容并且可推动使命的完成。准确挪用:人工标注者会修正过失的操作挪用,包括类型过失以及参数过失。训练流程
训练流程由三个阶段组成,基于Qwen2.5-VL-3B。这三个阶段划分是初始名堂微调、行动级在线训练和使命级在线训练。
Stage1:初始名堂微调
在第一阶段,对模子举行初始名堂微调。这一步是通过监视微调(SFT)的方法举行的,使用的是之前人工标注的高质量轨迹数据集。在微调历程中,模子不但会学习怎样将用户的指令与目今的GUI状态对应起来,还会调解输特殊式以切合预期的结构,包括逻辑思索、清晰行动和准确挪用。
Stage2:行动级在线训练
在第二阶段,模子通过群体相对战略优化(GRPO)举行行动级在线训练。此阶段使用行动级奖励(Action-level Reward)来评估每个行动的准确性,同时确保输特殊式的完整性。行动级奖励由可验证行动奖励和名堂奖励组成,其中可验证行动奖励能够量化行动的准确性,而名堂奖励则确保模子输出是结构化、可诠释的。
行动级奖励。1)关于基于坐标的行动(如点击、滑动),若是展望的坐标落在目的GUI元素的真实界线框内,则奖励为1,不然为0。2)关于非坐标的行动(如输入文本),若是展望的行动或参数与真实值完全匹配,则奖励为1,不然为0。名堂奖励。名堂奖励促使模子天生切合标签和结构要求的输出,确保响应的逻辑思索、行动以及工具挪用的名堂化。
Stage3:使命级在线训练
在第三阶段,通过多办法使命级在线训练来提高模子的泛化能力和探索能力。
在动态的移动情形中,模子需要举行自由探索和过失纠正,因此我们将问题界说为马尔可夫决议历程,以允许多回合的互动。
使命级奖励由名堂奖励和轨迹级奖励组成,旨在勉励模子在整个轨迹中坚持对响应名堂的遵照,同时评估使命的完成情形。
轨迹级奖励。轨迹级奖励使用外部高精度的MLLM,GPT-4o来评估整个历史互动轨迹,确保办法和行动的一致性以及使命的完成情形。名堂奖励。名堂奖励在此阶段仍然起着主要作用,为整个轨迹盘算平均名堂奖励,并通过[-1, 1]的规模来对过失施加更严酷的处分,以增强输出的准确度。
训练的部分阶段在淘天自研的强化学习框架ROLL上举行实验。
实验效果
实验中,主要评估了模子在自界说benchmark上的性能,并举行了针对模子泛化能力的鲁棒性剖析,以验证Mobile-R1的体现。
△整体实验效果,粗体体现最佳效果,下划线体现次优效果
效果显示,Qwen2.5-VL-32B 和 AgentCPM-8B 在性能上体现类似。
其中,AgentCPM-8B 由于专为中国移动生态系统优化,因此在中文场景中体现优异。更为显著的是,Mobile-R1在所有基准中体现最佳,使命乐成率抵达49.40,比最优异的baseline model横跨快要20点。
Stage 3的训练进一步增强了Mobile-R1的体现,其乐成率比只有阶段1和阶段2训练的模子横跨1.4点,这得益于使命级GRPO的有用应用。
特殊值得注重的是,通过阶段1和阶段2的训练,Qwen2.5-VL-3B模子的体现逾越了其标准版本,并在多项指标上领先于其他基准模子,突显了行动级和使命级奖励机制的主要性。
△Stage 3训练的奖励曲线
此历程中,Stage 3的奖励分数显示出在前四个训练办法中稳步增添,批注学习历程是有用的。然而,在办法5到10之间,奖励有所下降,这可能是由于战略过于激进或探政策的改变导致的不稳固性。最终从办法11最先,奖励再次上升,这批注战略获得了有用的优化和刷新。
Mobile-R1在处置惩罚未见应用时体现出优异的泛化性,而其他模子在泛化能力上保存挑战。Mobile-R1的优异体现主要归功于Stage 3的训练,这一阶段有用增强了模子的鲁棒性和顺应性。
△鲁棒性剖析效果,粗体体现最佳效果
最后总结,在本文中,Mobile-R1通过在动态情形中整合交互式强化学习与使命级奖励,显著提升了基于视觉语言模子(VLM)的移动署理的能力。
通过包括名堂微调、行动级GRPO训练和使命级GRPO训练在内的三阶段训练历程,战胜了以往要领仅依赖简单行动展望的局限性。
实验效果批注,Mobile-R1在所有指标上都逾越了所有基准。别的,团队妄想周全开源相关资源以增进进一步的研究。
论文链接:https://arxiv.org/abs/2506.20332项目主页:https://mobile-r1.github.io/Mobile-R1/训练框架参考:https://github.com/alibaba/ROLL/开源数据: https://huggingface.co/datasets/PG23/Mobile-R1
91亚洲码
偷拍美女隐私㊙️视频在线观看
大波大乳video金发
扒开徐伦❌狂揉❌难受真人
十八禁🔞免费网软件视频推特
9118🈲🍆🍑无套直网站
女同❌裸乳❌❌
主人调教不许穿内裤随时调教
成人H秘小说在线阅读老师
王者荣耀人物被c🔞黄㊙️小说
真人美女挠脚心㊙️网站
貂蝉玉臀喷水沦为肉奴
狂揉扒开纲手3d动漫
岛国pred门牌722
妲己女被❌🐻黄漫视频下载
拖👙❌❌❌摸🐻网站
pp的八种姿态和打法
女人扒开👙给男生摸🍑动漫
乳庭乱互换(H)
日本裸体㊙️无遮挡
裸体小舞被❌吸乳羞羞在线
雷电将军被❌喘流白色液体
18🈲🍆🍑无套直软件
泰国XXXviedo
18禁美女裸体被❌羞羞真人
程潇被❌到爆浆
一本岛高清v一三区
男生🍆👙女生爽了
朴正姬演过的片
www黄18🈲福利姬
蜜臀91丨九色丨蝌蚪老版
Coor❌❌❌Porn
silk-144郗及引引觴木化
赵琳裸体被❌叫爽3D动画
美女洗澡偷看㊙️免费看
成人精品H无码🔞调教asmr
雨落·中国官网入口
被❌到喷水18禁无码免费网站
人奶魔巢未测减删掉的是什么内容
浪小辉爆炒粉丝
性少妇sexfreeXXXX片
原神被❌娇喘流白色液体
yaoi自慰Gay动漫games
芥敦r18道具车
免费看裸体裹
扒开瑶狂揉难受软件
小🐤🐤戳进🍑漫画
小🐤🐤桶进去无遮挡
日❌❌老师❌❌奶头www
脱个精光美女图片
国产➕免费➕学生视频在线观看
菲谢尔乳液狂飙图片
欧洲女同ⅤideoHD
开户猎手下载app
中国男GayGays✅免费视频
日本Sm羞辱/捆绑/调教/束缚
绪山真寻被c得合不拢腿
XXX♥Hentai卡通
美女拉屎无遮挡㊙️,免费
成人🔞免费视频在线观看
中国女学生浆❌❌❌
jalap女2223
yaoi❤♂culture网站
刘浩存床戏裸露全身
原神男被绑住㊙️四肢挠痒
坤坤浏览器网页版入口下载
涩里番app❤网站成人版
妹妹用脚给你设
守望先锋dva3D裸体❌❌
男人把jij放到女人jii里面视频
舒淇性做爰A片免费看
🔞男生🍆❌男生🍑里在线看
扒开内衣👙吸奶头游戏软件
XXNX👙24春色视频
宋雨琦裸被❌无码视频网站
奶白直播app
九色jk
老师真嫩真紧好爽小说
高颜值Ie炒菜网站
沙奈朵高潮h跪趴扩张调教喷水
国产性猛交XX乱动漫小说
网友谈论 审查所有谈论>>