autowzry-agent

2025-11-15 完整训练流程实现

时间: 2025-11-15 主题: 架构重构、模块化设计和完整训练流程实现

架构重构:模块化设计完成

兼容层与Action模块连接

Data模块重构

数据收集脚本重写

  1. scripts/collect_from_video.py - 离线视频收集
    • 使用新模块:CompatibilityLayer + DataManager
    • 一步完成收集(原来需要3步)
    • 使用方法:
      python scripts/collect_from_video.py --video moive/1.mp4 --max-frames 100 --skip-frames 2
      
  2. scripts/collect_from_device.py - 在线设备收集
    • 使用新模块:CompatibilityLayer + DataManager
    • 支持时间/帧数双重限制
    • 使用方法:
      python scripts/collect_from_device.py --config config/my_device.yaml --duration 60 --interval 1.0
      

技术讨论:架构设计原则

完整训练流程实现 (20:00-23:00)

Config模块简化

Reward模块实现

DataManager增强

TrainingBuffer简化

兼容层修复和增强

Trainer模块实现

脚本完善

完整流程验证

架构设计原则验证

数据流程

1. 收集:Video → CompatibilityLayer → DataManager → HDF5 (image, timestamp)
2. 标记:HDF5 → DataManager.label() → HDF5 (+ move, attack, reward)
3. 训练:HDF5 → TrainingBuffer → Trainer → Model
4. 对战:Model → CompatibilityLayer → Device

文件变更

下一步计划

  1. 收集更多训练数据(目标:1000+帧)
  2. 实现target network(更稳定的训练)
  3. 添加attack和skill的训练
  4. 实现在线训练(边对战边学习)
  5. 优化reward函数(根据实际效果调整)