书 · AI 与开源运动
从 TensorFlow 的发布到 LLaMA 的泄露,开源改变了 AI 的权力格局——它既是技术民主化的力量,也是地缘政治的武器。
待完善
本章节尚待撰写,欢迎参与贡献。
一、学术开源时代(2010-2015)
- Theano(2010,蒙特利尔):第一个广泛使用的深度学习框架
- Caffe(2013,贾扬清,伯克利):让 CNN 训练变得简单
- Torch(Lua 语言):小众但影响深远,PyTorch 的前身
- 学术共享的传统:论文附代码,研究可复现
二、框架之战(2015-2020)
- TensorFlow(2015):Google 开源深度学习框架,一夜之间成为行业标准
- PyTorch(2016):Meta 的反击,动态图 vs 静态图之争
- 研究社区的选择:PyTorch 逐步取代 TensorFlow 成为学术主流
- 框架之战的启示:开发者体验比公司背景更重要
- 其他参与者:MXNet(Amazon)、PaddlePaddle(百度飞桨)、MindSpore(华为)
三、模型共享平台的崛起
- Hugging Face:从 NLP 工具库到"AI 界的 GitHub"
- Model Hub:预训练模型的开放市场
- Datasets、Spaces、Transformers 库:完整的开源 AI 生态
- arXiv + GitHub + Hugging Face:现代 AI 研究的三件套
四、LLaMA 事件与开源大模型运动(2023)
- LLaMA(2023.2):Meta 发布,限制学术使用
- 泄露事件:模型权重在发布一周内流出,无法收回
- 泄露引爆的连锁反应:
- Alpaca(斯坦福):用 GPT-3.5 数据微调 LLaMA
- Vicuna、WizardLM:社区微调百花齐放
- LLaMA 2(2023.7):Meta 正式拥抱开源,商用许可
- LLaMA 3 / 3.1(2024):性能逼近 GPT-4,开源模型首次进入第一梯队
五、全球开源大模型生态
美国
- Meta LLaMA 系列:开源旗手,扎克伯格将开源视为对抗 OpenAI 的战略武器
- Mistral(法国/美国):小团队、高效率,证明不需要万亿参数也能做出好模型
中国
- 通义千问 Qwen(阿里):中国最活跃的开源大模型,多尺寸、多模态全覆盖
- DeepSeek:2025 年初 R1 模型震动全球,以极低成本实现顶尖推理能力
- DeepSeek-V2 的 MoE 架构创新
- DeepSeek-R1 的强化学习训练范式
- 对"Scaling Law 唯一论"的挑战
- 智谱 GLM(清华系):ChatGLM 系列,中国学术界最广泛使用的开源模型
- 月之暗面 Moonshot / Kimi:开源 Moonlight(MoE 模型),以长上下文能力著称
- MiniMax:开源 MiniMax-01 系列,主打多模态和语音交互
- 百川智能:王小川创立,开源 Baichuan 系列
- 零一万物 01.AI:李开复创立,Yi 系列开源模型
- 中国开源生态的特点:政策鼓励、互联网大厂 + 创业公司双轮驱动、开源密度全球最高
其他地区
- Falcon(阿联酋):中东的 AI 雄心
- Stability AI:Stable Diffusion 背后的公司
六、开源 vs 闭源之争
- 核心辩论:开放权重是否会导致安全风险?
- 扎克伯格的立场:"开源是默认选项"
- 奥特曼的立场:"最前沿的模型不应该开源"
- Anthropic 的中间路线:发表研究但不开源模型权重
- 辛顿的警告:开源最强模型可能无法收回
七、许可证之争
- 什么算"真开源"?OSI(Open Source Initiative)的定义之争
- LLaMA 许可证:可商用但有限制,算不算开源?
- "开放洗白"(Open Washing):公司声称开源但附加大量限制
- 开源 AI 的商业模式:如果模型免费,靠什么赚钱?
八、开源作为地缘策略
- 美国视角:用开源建立全球技术标准,压制竞争对手自建生态
- 中国视角:开源降低了追赶成本,但也带来对美国技术栈的依赖
- 芯片禁令的影响:硬件受限时,软件开源变得更重要还是更危险?
- 未来:开源 AI 会成为"公共基础设施"还是"军备竞赛的武器"?
参考资料
待补充