autowzry-agent

训练流程优化与可视化

日期: 2025-11-22 类型: 功能开发、性能优化、架构重构状态: 已完成

📋 开发内容

1. 模型导入方式优化

问题

模型导入分散在多处，切换模型需要修改多个地方

解决方案

在 trainer.py 中使用统一的导入别名
from core.lightweight_dqn import LightweightDQN as custom_model
以后切换模型只需修改一处导入语句

2. 训练配置增强

新增配置项

resume_model: 恢复训练的模型路径
- 默认值: ./checkpoints/model.pth
- 支持从已有模型继续训练
- 文件不存在时自动从头开始
samples_per_epoch: 每个epoch使用的样本数
- 默认值: None（使用所有buffer数据）
- 支持采样训练（当数据量巨大时）

实现细节

Config类添加两个新字段
agent.config.yaml添加对应配置项
Trainer初始化时自动处理resume_model

3. 训练历史记录与可视化

新增功能

训练历史记录: self.history = {'epoch': [], 'loss': []}
自动保存最佳模型到 best_model.pth
训练结束后自动生成可视化文件:
- training_history_时间戳.png: loss曲线图（对数坐标）
- training_history_时间戳.txt: 训练数据文本文件

实现细节

Trainer添加 plot_training_history() 方法
使用matplotlib绘制对数坐标曲线
图片和数据文件使用时间戳命名，避免覆盖
每个epoch记录平均loss（而不是单个batch的loss）

4. 训练流程重构（核心改进）

问题

原有训练每个epoch只训练一个batch
GPU利用率低，训练效率差
Loss波动剧烈，难以评估训练效果

解决方案

引入PyTorch DataLoader替代原有采样方式
每个epoch训练多个batch（默认使用所有数据）
记录epoch平均loss，曲线更平滑

训练逻辑

如果 samples_per_epoch >= buffer_size:
- 训练前构建一次DataLoader
- 每个epoch遍历所有数据
如果 samples_per_epoch < buffer_size:
- 每个epoch开始时重新随机采样
- 构建新的DataLoader

性能提升

GPU利用率显著提升
训练更充分（每个样本都被训练到）
Loss曲线更平滑，便于观察收敛情况

5. Buffer模块重构

新增方法

sample_indices(sample_size) -> List[int]: 核心随机采样逻辑
get_dataloader(batch_size, shuffle, device, sample_size) -> DataLoader: 返回PyTorch DataLoader
- 支持指定采样数量
- 自动转换为tensor并传到device
- 支持shuffle

新增类

BufferDataset(Dataset): PyTorch Dataset包装器
- 在 __getitem__ 中将数据转为tensor
- 自动传输到指定device
- 保留所有字段（state, next_state, move, reward等）

删除方法

sample(batch_size): 旧的采样方法，已被DataLoader替代

设计优势

所有随机采样使用统一逻辑（sample_indices）
数据在采样时就传到GPU，训练时直接使用
代码更清晰，职责分离

6. Trainer模块增强

新增属性

self.history: 训练历史记录
self.best_loss: 最佳loss值
self.samples_per_epoch: 每个epoch使用的样本数
self.use_sampling: 是否需要每个epoch重新采样

修改方法

__init__():
- 自动加载resume_model
- 计算samples_per_epoch
- 初始化训练历史
train():
- 使用DataLoader遍历数据
- 每个epoch训练多个batch
- 记录epoch平均loss
- 自动保存best_model
_compute_loss():
- 输入已经是tensor且在device上
- 简化数据转换逻辑

新增方法

plot_training_history(save_dir): 绘制训练曲线并保存数据

📊 技术细节

DataLoader数据流

Buffer.samples (numpy arrays in CPU memory)
  -> sample_indices() 随机采样索引
  -> BufferDataset.__getitem__() 转为tensor并传到GPU
  -> DataLoader 自动batch和shuffle
  -> Trainer.train() 直接使用GPU上的tensor

训练循环逻辑

# 判断是否需要每个epoch重新采样
if samples_per_epoch >= buffer_size:
    # 使用所有数据，只构建一次
    dataloader = buffer.get_dataloader(...)
    for epoch in range(num_epochs):
        for batch in dataloader:
            train_step(batch)
else:
    # 每个epoch重新采样
    for epoch in range(num_epochs):
        dataloader = buffer.get_dataloader(..., sample_size=samples_per_epoch)
        for batch in dataloader:
            train_step(batch)

Loss记录方式

旧方式: 每个epoch记录单个batch的loss（波动大）
新方式: 每个epoch记录所有batch的平均loss（平滑）

🎯 影响范围

修改的文件

config/config.py: 添加resume_model和samples_per_epoch字段
config/agent.config.yaml: 添加对应配置项
core/trainer.py: 完全重构训练流程，添加可视化功能
data/training_buffer.py: 添加DataLoader支持，删除旧的sample方法
scripts/train.py: 训练结束后调用绘图方法

向后兼容性

配置文件向后兼容（新字段有默认值）
Buffer的load方法保持不变
训练脚本的命令行参数保持不变

✅ 测试验证

功能测试

resume_model加载功能正常
DataLoader正确返回batch数据
训练历史记录准确
可视化文件正确生成

性能测试

GPU利用率显著提升
训练速度提升（每个epoch训练更多数据）
Loss曲线更平滑

📝 后续优化建议

考虑添加学习率调度器（当前使用固定学习率）
考虑添加验证集评估
考虑添加更多训练指标（如Q值统计）
考虑支持分布式训练

🔗 相关文档

架构文档已更新: docs/design/ARCHITECTURE.md
配置说明: config/agent.config.yaml