autowzry-agent

2025-11-12 架构设计讨论

时间: 2025-11-12 主题: 项目架构规划和模块设计

项目目标

基于强化学习 (RL) 技术,构建一个用于 MOBA 游戏(王者荣耀)策略的自主决策 Agent。

核心技术栈

开发路线图

总体时间规划

阶段1: 基础框架搭建      [预计 3-5 天]
阶段2: 数据收集系统      [预计 5-7 天]
阶段3: 训练流程实现      [预计 7-10 天]
阶段4: 在线学习功能      [预计 5-7 天]
阶段5: 优化与扩展        [预计 持续迭代]

阶段1: 基础框架搭建

目标: 建立项目骨架,完成基础工具和配置系统

任务列表

验收标准

阶段2: 数据收集系统

目标: 实现观战模式数据收集,能够保存 episode 到磁盘

任务列表

验收标准

阶段3: 训练流程实现

目标: 实现离线训练,能够从保存的 episode 训练模型

任务列表

验收标准

阶段4: 在线学习功能

目标: 实现对战模式,模型能够实时控制英雄并边玩边学

任务列表

验收标准

阶段5: 优化与扩展

目标: 提升模型性能,增加高级功能

任务列表

验收标准

里程碑定义

Milestone 1: 基础框架完成

Milestone 2: 数据收集可用

Milestone 3: 离线训练可用

Milestone 4: 在线学习可用

Milestone 5: 性能达标

模块功能规格

Config 模块

Core 模块

Environment 模块

Data 模块

Utils 模块

Scripts 模块

风险与应对

风险1: 状态识别不准确

应对: 先使用简单的模板匹配,后期考虑 OCR 或轻量级识别模型

风险2: 训练不稳定

应对: 使用 target network,调整学习率,添加梯度裁剪

风险3: 奖励稀疏

应对: 添加密集奖励(如存活时间奖励),使用 Reward Shaping

风险4: 样本效率低

应对: 使用 Prioritized Experience Replay,增加训练轮数

风险5: 设备连接不稳定

应对: 添加重连机制,异常处理,定期保存数据

开发规范

代码风格

测试要求

版本管理

文档要求