在咖啡馆看完 David Silver 的 RL 课程后,决定动手实现一个简单的 Q-Learning 算法...
从零开始实现 CartPole 实验。这是一个经典的平衡杆问题。
使用简单的 Q-Learning 可以在 200 个 episode 内达到稳定。