GitHub - Ynkcc/4x8

翻棋强化学习训练

翻翻棋，暗棋的强化学习训练代码经过了多轮改进，训练过程仍然未能步入正规 A2C和PPO的算法实现有问题，DQN可能是可以正常工作的。至少能否训练到战胜随机策略。而A2C和PPO表现十分不佳，无法战胜随机策略的对手，部分指标也偏离很远

本仓库游戏环境的实现，以及状态表示我认为是没有问题的网络模型可能有点复杂，但是应该是可行的与ai进行长时间的讨论，以及运行实践。我几乎可以断定问题可能出在训练代码上。

最初我通过mcts，即alphazero的算法迁移到这个游戏。这部分代码可能丢失了但是同样训练不理想，而且mcts对计算资源的占用远高于 model free的算法

近期的一篇论文军旗的强化实现应该是有参考意义，如果你计划实现翻翻棋ai也许可以参考一下

也许可以试一下课程学习全明子+随机策略 -> 暗子+随机策略 -> 暗子+自我博弈

网络模型和算法也许可以选择简单的感知器以及 dqn

Name		Name	Last commit message	Last commit date
Latest commit History 15 Commits
A2C		A2C
DQN		DQN
.gitignore		.gitignore
Game.py		Game.py
README.md		README.md
evaluate_and_average_models.py		evaluate_and_average_models.py
main_gui.py		main_gui.py
model.py		model.py
train_selfplay.py		train_selfplay.py
train_vs_random.py		train_vs_random.py
vs_human.py		vs_human.py
vs_random.py		vs_random.py

Provide feedback