实验记录2025-01-1012 min

强化学习实验：CartPole 从零实现

在咖啡馆看完 David Silver 的 RL 课程后，决定动手实现一个简单的 Q-Learning 算法...

强化学习实验

从零开始实现 CartPole 实验。这是一个经典的平衡杆问题。

使用简单的 Q-Learning 可以在 200 个 episode 内达到稳定。