Qwen-AgentWorld：通用智能体的语言世界模型

作者：左宇欣，肖子凯，盛丽，黄飞，涂建虹，刘宇轩，唐天怡，胡晓萌，苏扬，兰清峰，刘雁涛，朱沁，张瑛儿，余博文，赵海全，徐海阳，杨建新，程家扬，王俊阳，邓良浩，薛鸣峰，白天怡，范扬，马宇博，李宇承，崔泽宇，王志海，谢智晖，叶卓瑞，杨安，大义恒，周敬仁，丁宁查看PDF HTML（实验性）摘要：世界模型基于当前观察和行为预测环境动态，作为推理和规划的核心认知机制。在这项工作中，我们研究如何基于语言模型的世界建模进一步推动通用智能体的边界。（i）我们首先专注于构建用于代理环境仿真的基础模型。我们介绍了Qwen-AgentWorld-35B-A3B和Qwen-AgentWorld-397B-A17B，这是首个可以通过长链思维推理模拟覆盖7个领域的代理环境的语言世界模型。利用来自真实世界环境中7个领域的超过1000万条环境交互轨迹，我们通过三阶段训练流程开发了Qwen-AgentWorld：CPT从状态转移动态和增强专业语料中注入通用的世界建模能力，SFT激活下一个状态预测推理，RL通过具有混合规则和规则奖励的定制框架提高模拟的逼真性。为评估语言世界模型，我们提供了AgentWorldBench，这是一个基于5个前沿模型在9个已建立基准上的真实世界交互构建的综合基准。实证结果表明，Qwen-AgentWorld显著超越现有的前沿模型。（ii）除了基础模型，我们进一步研究了通过哪些互补范式，世界建模增强通用智能体。首先，作为一个解耦的环境模拟器，Qwen-AgentWorld支持对成千上万个真实世界环境进行可扩展和可控的模拟，以进行代理强化学习，带来的收益超过仅依赖真实环境的训练。其次，作为一个统一的代理基础模型，世界模型训练作为一种高效的预热，提高了在7个代理基准上的下游性能。代码：此URL 主题：计算与语言（cs.CL）引用方式：arXiv:2606.24597 [cs.CL]（或arXiv:2606.24597v1 [cs.CL]，用于此版本）https://doi.org/10.48550/arXiv.2606.24597 arXiv发布的DOI通过DataCite（待注册）提交历史提交人：黄飞 [查看邮箱] [v1] 2026年6月23日星期二 13:53:55 UTC（3,883 KB）