书 · AI 硬件与算力

没有硬件的进化，就没有深度学习的革命。从芯片到数据中心到全球算力竞争，算力是 AI 进步最容易被忽视的关键变量。

待完善

本章节尚待撰写，欢迎参与贡献。

大纲

一、芯片演进

CPU 时代：串行计算的瓶颈
GPU 的意外发现：NVIDIA 的游戏显卡如何成为 AI 引擎
- 2007 年 CUDA 发布：GPU 通用计算的起点
- 2012 年 AlexNet：GPU 训练神经网络的标志性时刻
NVIDIA 的崛起：从游戏公司到 AI 算力霸主
- 黄仁勋（Jensen Huang）的远见
- A100、H100、B200、GB200 系列
- NVIDIA 市值突破 3 万亿美元
Google TPU：为 AI 定制的芯片
专用 AI 芯片：Cerebras（晶圆级芯片）、Graphcore、Groq（推理芯片）
中国 AI 芯片：华为昇腾、寒武纪、百度昆仑、摩尔线程
推理芯片 vs 训练芯片：不同的优化方向

二、数据中心与超级计算集群

从云计算到 AI 工厂：数据中心的角色转变
超大规模 AI 集群：
- xAI Colossus：马斯克的 10 万张 H100 超级集群
- Meta 的 AI 数据中心扩张
- Microsoft + OpenAI 的算力合作（Stargate 项目）
中国算力基础设施："东数西算"工程
算力即权力：谁拥有算力，谁主导 AI 发展

三、算力经济学

训练成本的指数增长：GPT-3（约 460 万美元）→ GPT-4（约 1 亿美元）→ 前沿模型（数十亿美元？）
推理成本：训练一次，推理无限次——推理成本可能比训练更重要
DeepSeek 的启示：低成本训练是否改变了算力竞赛的规则？
算力效率创新：稀疏化、量化、蒸馏、MoE 架构

四、能耗与环境

AI 训练的碳足迹：训练一个大模型排放多少 CO₂？
数据中心的电力消耗：AI 正在重塑全球电力需求
核能复兴？微软重启三里岛核电站、Google 签约小型核反应堆
冷却技术：液冷、沉浸式冷却
可持续 AI 的追求：效率提升 vs 规模扩张的赛跑

五、芯片禁令与算力地缘政治

美国对华芯片出口管制（2022-）：限制先进 GPU 出口
NVIDIA H800/A800：为中国市场定制的"阉割版"芯片
中国的应对：国产替代加速、架构创新绕过限制
算力民族主义：各国将 AI 算力视为战略资源
"算力铁幕"：全球算力格局是否正在分裂？

六、马斯克的算力版图

xAI 与 Grok：从零开始建设算力基础设施
Colossus 超级集群：史上最快建成的 10 万 GPU 集群
Starlink 与 AI 的交汇：低延迟全球网络为边缘 AI 和自动驾驶提供连接基础
Tesla Dojo：为自动驾驶定制的训练芯片
马斯克的逻辑：掌控芯片 + 算力 + 网络 + 终端（车/机器人/脑机接口）的完整链路

七、未来

量子计算：能否为 AI 带来指数级加速？目前仍在"量子优越性"阶段
光子计算：用光代替电进行矩阵运算
类脑芯片（Neuromorphic）：Intel Loihi、IBM TrueNorth
存内计算（In-Memory Computing）：减少数据搬运的能耗瓶颈
算力的终极问题：物理定律是否会给 AI 算力设定上限？

参考资料

待补充