autowzry-agent

2025-11-15 完整训练流程实现

时间: 2025-11-15 主题: 架构重构、模块化设计和完整训练流程实现

架构重构：模块化设计完成

兼容层与Action模块连接

修改内容: environment/compatibility.py - 在 __init__ 末尾添加：

from environment.action_space import ActionSpace
self.action = ActionSpace(compatibility_layer=self)

ActionSpace重写: 极简设计（约200行）
- 移除复杂的编码/解码逻辑
- 移除 ActionInference 类（违反架构原则）
- 核心功能：
  - __init__: 定义动作空间 {'move': 4, 'attack': 10, 'skill': 10}
  - get_action_keys(): 返回激活的action名称
  - get_action_dims(): 返回每个action的维度
  - get_total_dim(): 返回总维度（供模型使用）
  - output_to_cmd(): 模型输出转为cmd字典
  - get_cmd(): 从兼容层获取当前状态的action数据
  - execute_action(): 执行动作（委托给兼容层）

Data模块重构

问题分析:
- 旧模块文件名难以理解
- 功能混乱（收集、读取、保存、更新分散）
- 违反单一职责原则
新设计:
1. data/data_manager.py - 数据管理器（HDF5 ↔ 项目接口）
  - collect(): 收集数据（通过兼容层截图，支持interval参数，默认1秒）
  - save(): 保存到HDF5
  - load(): 读取数据
  - update(): 更新数据集（添加action字段）
  - info(): 查询数据集信息
  - 支持可选的兼容层和action模块
2. data/training_buffer.py - 训练缓冲区（数据集 ↔ 模型接口）
  - load_from_data_manager(): 使用DataManager加载数据
  - add(): 添加样本
  - sample(): 随机采样batch（返回动态字典）
  - preprocess(): 预处理（占位）
  - 动态字段：不预定义action/reward，由实际数据决定
  - 支持从HDF5读取或实时计算action（compute_actions参数）

架构层次:

HDF5文件 ↔ DataManager ↔ 项目
DataManager ↔ TrainingBuffer ↔ 模型/训练

数据收集脚本重写

scripts/collect_from_video.py - 离线视频收集
- 使用新模块：CompatibilityLayer + DataManager
- 一步完成收集（原来需要3步）
- 使用方法：
```
python scripts/collect_from_video.py --video moive/1.mp4 --max-frames 100 --skip-frames 2
```
scripts/collect_from_device.py - 在线设备收集
- 使用新模块：CompatibilityLayer + DataManager
- 支持时间/帧数双重限制
- 使用方法：
```
python scripts/collect_from_device.py --config config/my_device.yaml --duration 60 --interval 1.0
```

技术讨论：架构设计原则

兼容层传递给Action模块: 合理，这是依赖注入模式
Action模块职责: 定义动作空间结构，不应该定义得分计算或从画面推断动作
DataManager vs TrainingBuffer: DataManager是HDF5文件和项目之间的接口，TrainingBuffer是数据集和模型之间的接口

完整训练流程实现 (20:00-23:00)

Config模块简化

重写为单个Config类，移除复杂的嵌套结构
默认参数：epochs=32, batch_size=4, lr=1e-4, gamma=0.99, buffer_capacity=320
支持从YAML加载和保存
生成默认配置文件：config/agent.config.yaml.in

Reward模块实现

创建 environment/reward.py
奖励字典：dead=-10, kill=5, assist=5, alive=0.01
预先计算reward并存储到HDF5（避免训练时重复计算）
支持reward_extra（根据action调整奖励）

DataManager增强

添加 label() 方法：标记action和reward到HDF5
支持compute_actions, compute_rewards, compute_reward_extra
废弃 update() 方法，统一使用 label()
离线模式初始化autowzry（connect=False），可调用检测函数

TrainingBuffer简化

移除compute_actions和reward参数
只负责从HDF5读取已标记的数据
自动合并 reward + reward_extra
添加缺失字段警告提示
保留筛选逻辑（is_in_battle, is_dead）

兼容层修复和增强

离线模式也初始化autowzry（connect=False），用于检测函数
VideoReader支持interval参数（采样间隔，秒）
自动计算skip_frames：int(fps * interval) - 1
修复 detect_movement_direction() 在离线模式下的问题
修复LightweightDQN的view()改为reshape()

Trainer模块实现

创建 core/trainer.py
DQN loss计算（Q-learning）
只训练move（4维），attack和skill保留接口
支持保存/加载模型（只保存权重）
自动检测GPU/CPU

脚本完善

scripts/label_data.py - 标记数据（离线模式，无需设备）
scripts/train.py - 训练模型
scripts/battle.py - 在线对战（使用训练好的模型）
scripts/collect_from_video.py - 支持interval参数
scripts/collect_from_device.py - 在线收集

完整流程验证

收集数据：128帧，interval=1.0s
标记数据：添加move, attack, reward字段
训练模型：32 epochs, batch_size=4, loss收敛
保存模型：checkpoints/model.pth

架构设计原则验证

✅ 兼容层作为唯一变体，统一初始化所有模块
✅ 通用模块（action, reward, data, buffer）通过依赖注入连接
✅ 数据流清晰：HDF5 → DataManager → TrainingBuffer → Trainer
✅ 离线模式支持完整的标记和训练流程

数据流程

收集：Video → CompatibilityLayer → DataManager → HDF5 (image, timestamp)
标记：HDF5 → DataManager.label() → HDF5 (+ move, attack, reward)
训练：HDF5 → TrainingBuffer → Trainer → Model
对战：Model → CompatibilityLayer → Device

文件变更

修改：config/config.py - 简化配置结构
新增：environment/reward.py - 奖励计算
修改：data/data_manager.py - 添加label()方法
修改：data/training_buffer.py - 简化，只读取已标记数据
修改：environment/compatibility.py - 离线模式初始化autowzry
修改：utils/video_reader.py - 支持interval参数
重写：core/trainer.py - 极简DQN训练器
修改：core/lightweight_dqn.py - view()改为reshape()
新增：scripts/label_data.py - 标记脚本
新增：scripts/train.py - 训练脚本
新增：scripts/battle.py - 对战脚本
修改：scripts/collect_from_video.py - 支持interval
更新：quickstart.md - 完整流程文档

下一步计划

收集更多训练数据（目标：1000+帧）
实现target network（更稳定的训练）
添加attack和skill的训练
实现在线训练（边对战边学习）
优化reward函数（根据实际效果调整）