翻棋强化学习训练
翻翻棋,暗棋的强化学习训练代码 经过了多轮改进,训练过程仍然未能步入正规 A2C和PPO的算法实现有问题,DQN可能是可以正常工作的。至少能否训练到战胜随机策略。 而A2C和PPO表现十分不佳,无法战胜随机策略的对手,部分指标也偏离很远
本仓库 游戏环境的实现,以及状态表示我认为是没有问题的 网络模型可能有点复杂,但是应该是可行的 与ai进行长时间的讨论,以及运行实践。我几乎可以断定问题可能出在训练代码上。
最初我通过mcts,即alphazero的算法迁移到这个游戏。这部分代码可能丢失了 但是同样训练不理想,而且mcts对计算资源的占用远高于 model free的算法
近期的一篇论文军旗的强化实现应该是有参考意义,如果你计划实现翻翻棋ai也许可以参考一下
也许可以试一下 课程学习 全明子+随机策略 -> 暗子+随机策略 -> 暗子+自我博弈
网络模型 和 算法 也许可以选择简单的感知器 以及 dqn