Skip to content

强化学习简史

从动物行为实验到 AlphaGo,让机器通过试错学习的艺术。

待完善

本章节尚待撰写,欢迎参与贡献

大纲

  • 理论基础:马尔可夫决策过程、贝尔曼方程
  • 时序差分学习(TD Learning)
  • Q-Learning 与 SARSA
  • 深度强化学习:DQN(2013)
  • AlphaGo 与 AlphaZero
  • RLHF:强化学习与人类反馈
  • 机器人控制与自动驾驶

参考资料

待补充