TycoonLE: Jax 强化学习环境用于长时间规划

Tycoon学习环境（TycoonLE）是一个基于经济的强化学习环境，旨在进行长时间规划。代理在一个模拟的物流经济中操作，他们分配资本，建立运输路线，移动货物，管理债务，并优化延迟回报。该环境旨在研究行动合法性、候选决策界面、融资时机、延迟奖励、程序变化和可重放审计追踪。TycoonLE采用固定结构接口。代理在有效的路线、融资和等待候选中进行选择，使得推出与JAX变换（如jit、vmap和scan）兼容。回放用户界面使得通过路线选择、货物流动、融资行为、奖励、得分和利润随时间的变化来看政策变得可检查。TycoonBench提供了一个伴随的基准报告，用于比较代理和模型在TycoonLE规划任务上的表现：vrtnis.github.io/tycoonbench。安装使用Python 3.11或3.12：py -3.12 -m venv .venv .\.venv\Scripts\ python.exe -m pip install -e ".[test]" npm install 快速开始使用以下代码： import jax from tycoonle_jax import TycoonLE env = TycoonLE(split="dev", family="chain") state, timestep = env.reset(jax.random.PRNGKey(0)) action = timestep.observation.action_mask.argmax() state, timestep = env.step(state, action) 导出回放：.\.venv\Scripts\ python.exe examples\quickstart.py npm run dev 打开浏览器用户界面并加载 runs/quickstart/replay.json。运行测试：.\.venv\Scripts\ python.exe -m pytest npm run build 训练运行小型 PPO 烟雾训练：.\.venv\Scripts\ python.exe examples\train_ppo_jax.py --updates 1 --num-envs 4 --rollout-length 4 --update-epochs 1 --hidden-sizes 32 引用如果你觉得这个工作有用，请考虑引用：@software { tycoonle , title = { TycoonLE } , author = { TycoonLE contributors } , year = { 2026 } , url = { https://github.com/vrtnis/tycoon-learning-environment } } 艺术作品致谢 TycoonLE使用了来自OpenGFX的精灵艺术作品，OpenGFX是OpenTTD的一个开源图形基础集。