Skip to content

书 · AI 安全与对齐

当 AI 系统越来越强大,一个根本性的问题浮出水面:我们如何确保 AI 做我们希望它做的事,而不是它"认为"应该做的事?

待完善

本章节尚待撰写,欢迎参与贡献

大纲

  • 早期警告:维纳(1950)、古德(1965,"智能爆炸"概念)
  • 对齐问题(Alignment Problem):AI 的目标与人类意图不一致的风险
  • RLHF(Reinforcement Learning from Human Feedback):用人类反馈训练 AI
  • Constitutional AI:Anthropic 的方法论
  • 可解释性(Interpretability):打开神经网络的黑箱
    • 克里斯·奥拉(Chris Olah)的可解释性研究
    • 机械可解释性(Mechanistic Interpretability)
  • 红队测试(Red Teaming):主动寻找 AI 系统的漏洞
  • 存在性风险(X-Risk)之争
    • 辛顿离开 Google 发出警告(2023)
    • "暂停 AI" 公开信(2023)
    • 有效加速主义(e/acc)vs AI 安全派
  • 超级对齐(Superalignment):苏茨克维与 OpenAI 的未竟事业
  • Safe Superintelligence Inc.(SSI):苏茨克维的新方向

参考资料

待补充