TycoonLE: Jax 强化学习环境用于长时间规划
Tycoon学习环境(TycoonLE)是一个基于经济的强化学习环境,旨在进行长时间规划。代理在一个模拟的物流经济中操作,他们分配资本,建立运输路线,移动货物,管理债务,并优化延迟回报。该环境旨在研究行动合法性、候选决策界面、融资时机、延迟奖励、程序变化和可重放审计追踪。TycoonLE采用固定结构接口。代理在有效的路线、融资和等待候选中进行选择,使得推出与JAX变换(如jit、vmap和scan)兼容。回放用户界面使得通过路线选择、货物流动、融资行为、奖励、得分和利润随时间的变化来看政策变得可检查。TycoonBench提供了一个伴随的基准报告,用于比较代理和模型在TycoonLE规划任务上的表现:vrtnis.github.io/tycoonbench。安装 使用Python 3.11或3.12:py -3.12 -m venv .venv .\.venv\Scripts\ python.exe -m pip install -e ".[test]" npm install 快速开始 使用以下代码: import jax from tycoonle_jax import TycoonLE env = TycoonLE(split="dev", family="chain") state, timestep = env.reset(jax.random.PRNGKey(0)) action = timestep.observation.action_mask.argmax() state, timestep = env.step(state, action) 导出回放:.\.venv\Scripts\ python.exe examples\quickstart.py npm run dev 打开浏览器用户界面并加载 runs/quickstart/replay.json。 运行测试:.\.venv\Scripts\ python.exe -m pytest npm run build 训练 运行小型 PPO 烟雾训练:.\.venv\Scripts\ python.exe examples\train_ppo_jax.py --updates 1 --num-envs 4 --rollout-length 4 --update-epochs 1 --hidden-sizes 32 引用 如果你觉得这个工作有用,请考虑引用:@software { tycoonle , title = { TycoonLE } , author = { TycoonLE contributors } , year = { 2026 } , url = { https://github.com/vrtnis/tycoon-learning-environment } } 艺术作品致谢 TycoonLE使用了来自OpenGFX的精灵艺术作品,OpenGFX是OpenTTD的一个开源图形基础集。
本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。
☕请我喝杯咖啡