书 · AI 安全与对齐

当 AI 系统越来越强大，一个根本性的问题浮出水面：我们如何确保 AI 做我们希望它做的事，而不是它"认为"应该做的事？

待完善

本章节尚待撰写，欢迎参与贡献。

大纲

早期警告：维纳（1950）、古德（1965，"智能爆炸"概念）
对齐问题（Alignment Problem）：AI 的目标与人类意图不一致的风险
RLHF（Reinforcement Learning from Human Feedback）：用人类反馈训练 AI
Constitutional AI：Anthropic 的方法论
可解释性（Interpretability）：打开神经网络的黑箱
- 克里斯·奥拉（Chris Olah）的可解释性研究
- 机械可解释性（Mechanistic Interpretability）
红队测试（Red Teaming）：主动寻找 AI 系统的漏洞
存在性风险（X-Risk）之争
- 辛顿离开 Google 发出警告（2023）
- "暂停 AI" 公开信（2023）
- 有效加速主义（e/acc）vs AI 安全派
超级对齐（Superalignment）：苏茨克维与 OpenAI 的未竟事业
Safe Superintelligence Inc.（SSI）：苏茨克维的新方向

待补充