autowzry-agent

Action Rewards机制调整

日期: 2025-11-22 类型: 功能优化

背景

在训练过程中，action rewards和state rewards需要保持单位统一，以确保奖励机制的一致性。原有的action_rewards设计中，只有向右移动有奖励，其他方向没有奖励，这与state rewards（如alive=0.01）的单位不统一。

修改内容

1. 调整action_rewards奖励值

文件: environment/action_space.py

修改位置: 第76行

修改前:

'move': [0.0, 0.0, 0.0, 0.1]  # 上, 下, 左, 右（向右+0.1）

修改后:

'move': [0.01, 0.01, 0.01, 0.1]  # 上, 下, 左, 右（所有移动+0.01，向右+0.1，10倍奖励）

设计原理:

所有移动方向都有基础奖励0.01，和state中alive奖励保持一致
向右移动额外奖励0.1，保持10倍奖励引导模型倾向性
与state_rewards（dead=-2, alive=0.01, kill=1, assist=1）单位统一

2. 删除过时测试代码

文件: environment/action_space.py

修改位置: 第306-311行

删除内容:

# 测试sum_reward
print("\n=== Sum Reward ===")
test_action = {'move': [0.0, 0.0, 0.0, 1.0], 'attack': [0.0] * 10}
reward = action_space.sum_reward(test_action)
print(f"Test action: {test_action}")
print(f"Action reward: {reward}")  # 应该是 1.0 * 0.1 = 0.1

原因: sum_reward() 方法已在之前的架构重构中删除，测试代码调用不存在的方法

影响范围

兼容性检查

trainer.py: 完全兼容

_compute_action_reward() 方法通过 self.action_rewards_tensors[i][action_indices] 查表获取奖励
无论action_rewards的具体数值是什么，trainer都只是读取并使用
无需任何修改

训练行为变化

训练时的action reward计算:

修改前：只有向右移动有action reward（+0.1），其他方向无奖励
修改后：所有移动都有基础action reward（+0.01），向右移动有额外奖励（+0.1）

预期效果:

模型会学习到”移动比不移动好”（基础奖励0.01）
模型会倾向于向右移动（10倍奖励）
奖励机制与state rewards（alive=0.01）保持一致的数量级

文档更新

ARCHITECTURE.md

修改位置: 第174-179行

修改内容:

删除已废弃的 sum_reward() 方法
添加新增的 get_action_slices() 和 get_action_rewards_list() 方法
更新 action_rewards 属性说明，体现单位统一原则

修改位置: 第289行

修改内容:

明确说明reward由buffer动态计算（仅使用game_state.sum_reward）
说明action reward在训练时由trainer计算

设计决策

为什么所有移动都给基础奖励？

鼓励移动: 在游戏中，移动通常比站立不动更有利（躲避技能、追击敌人等）
单位统一: 0.01和alive状态的奖励一致，表示”做了有益的事”
保持倾向: 向右移动保持10倍奖励（0.1），引导模型学习特定策略

为什么是10倍而不是其他倍数？

暂定10倍奖励（向右0.1 vs 其他0.01）。如果后续训练发现：

模型过于倾向向右移动 → 可降低倍数（如5倍，改为0.05）
模型倾向性不够明显 → 可提高倍数（如20倍，改为0.2）

测试验证

验证方法:

所有修改仅涉及常量定义，无需额外测试
trainer.py兼容性已确认，无需修改

下次训练时关注:

观察训练loss曲线是否正常收敛
观察模型是否学会移动行为
观察模型是否倾向于向右移动

总结

本次修改调整了action_rewards的奖励机制，使其与state_rewards保持单位统一。修改简单清晰，兼容性良好，预期能够改善模型的训练效果。