强化学习简史

从动物行为实验到 AlphaGo，让机器通过试错学习的艺术。

待完善

本章节尚待撰写，欢迎参与贡献。

大纲

理论基础：马尔可夫决策过程、贝尔曼方程
时序差分学习（TD Learning）
Q-Learning 与 SARSA
深度强化学习：DQN（2013）
AlphaGo 与 AlphaZero
RLHF：强化学习与人类反馈
机器人控制与自动驾驶

参考资料

待补充