Skip to content
AI 史记
搜索
K
Main Navigation
首页
前言
本纪
世家
列传
书
大事年表
中文
English
中文
English
Appearance
Menu
Return to top
目录
强化学习简史
从动物行为实验到 AlphaGo,让机器通过试错学习的艺术。
待完善
本章节尚待撰写,欢迎
参与贡献
。
大纲
理论基础:马尔可夫决策过程、贝尔曼方程
时序差分学习(TD Learning)
Q-Learning 与 SARSA
深度强化学习:DQN(2013)
AlphaGo 与 AlphaZero
RLHF:强化学习与人类反馈
机器人控制与自动驾驶
参考资料
待补充