书 · AI 安全与对齐
当 AI 系统越来越强大,一个根本性的问题浮出水面:我们如何确保 AI 做我们希望它做的事,而不是它"认为"应该做的事?
待完善
本章节尚待撰写,欢迎参与贡献。
大纲
- 早期警告:维纳(1950)、古德(1965,"智能爆炸"概念)
- 对齐问题(Alignment Problem):AI 的目标与人类意图不一致的风险
- RLHF(Reinforcement Learning from Human Feedback):用人类反馈训练 AI
- Constitutional AI:Anthropic 的方法论
- 可解释性(Interpretability):打开神经网络的黑箱
- 克里斯·奥拉(Chris Olah)的可解释性研究
- 机械可解释性(Mechanistic Interpretability)
- 红队测试(Red Teaming):主动寻找 AI 系统的漏洞
- 存在性风险(X-Risk)之争
- 辛顿离开 Google 发出警告(2023)
- "暂停 AI" 公开信(2023)
- 有效加速主义(e/acc)vs AI 安全派
- 超级对齐(Superalignment):苏茨克维与 OpenAI 的未竟事业
- Safe Superintelligence Inc.(SSI):苏茨克维的新方向
参考资料
待补充