资讯
首先,为缓解数据稀缺问题,研究人员设计了一个可扩展的数据飞轮,通过持续预训练、监督微调、拒绝采样和多轮强化学习协同进化模型及其训练语料库。该框架提供持续流入的多样化、高质量轨迹,并确保模型和数据在自我强化的循环中迭代改进。
GUI-Owl 的发布,为开源社区带来了一个能力强大的原生端到端多模态 GUI 智能体。它不仅在 AndroidWorld、OSWorld 等关键基准上刷新了开源模型的记录,其 32B 版本更是在多项评测中展现了超越闭源顶级模型的实力。更重要的是,它以单一模型之身,即可胜任复杂的单体任务与多智能体协作中的不同角色,显著降低了部署和资源开销。
研究团队还尝试在GUI-RCPO训练之后,继续使用GUI-RC进行空间区域投票,并发现模型的表现还能进一步提升,说明通过这种自我强化的循环,模型可以在没有任何标注数据和外部监督的情况下,不断突破预期的性能上限。
markdown 浙大等机构的研究人员近期在 GUIgrounding (图形界面定位)领域取得了突破性进展,发布了名为GUI-RCPO的 自我监督强化学习 方法。这项研究无需海量标注数据,即可使 GUI智能体 在界面交互中实现更精准的元素定位,为 AI界面操作 带来了新的可能性。
研究团队还尝试在GUI-RCPO训练之后,继续使用GUI-RC进行空间区域投票,并发现模型的表现还能进一步提升,说明通过这种自我强化的循环,模型可以在没有任何标注数据和外部监督的情况下,不断突破预期的性能上限。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果