返回首页
实验记录2025-01-1012 min

强化学习实验:CartPole 从零实现

在咖啡馆看完 David Silver 的 RL 课程后,决定动手实现一个简单的 Q-Learning 算法...

强化学习实验

从零开始实现 CartPole 实验。这是一个经典的平衡杆问题。

实验结论

使用简单的 Q-Learning 可以在 200 个 episode 内达到稳定。