Skip to content

书 · AI 与开源运动

从 TensorFlow 的发布到 LLaMA 的泄露,开源改变了 AI 的权力格局——它既是技术民主化的力量,也是地缘政治的武器。

待完善

本章节尚待撰写,欢迎参与贡献

一、学术开源时代(2010-2015)

  • Theano(2010,蒙特利尔):第一个广泛使用的深度学习框架
  • Caffe(2013,贾扬清,伯克利):让 CNN 训练变得简单
  • Torch(Lua 语言):小众但影响深远,PyTorch 的前身
  • 学术共享的传统:论文附代码,研究可复现

二、框架之战(2015-2020)

  • TensorFlow(2015):Google 开源深度学习框架,一夜之间成为行业标准
  • PyTorch(2016):Meta 的反击,动态图 vs 静态图之争
  • 研究社区的选择:PyTorch 逐步取代 TensorFlow 成为学术主流
  • 框架之战的启示:开发者体验比公司背景更重要
  • 其他参与者:MXNet(Amazon)、PaddlePaddle(百度飞桨)、MindSpore(华为)

三、模型共享平台的崛起

  • Hugging Face:从 NLP 工具库到"AI 界的 GitHub"
  • Model Hub:预训练模型的开放市场
  • Datasets、Spaces、Transformers 库:完整的开源 AI 生态
  • arXiv + GitHub + Hugging Face:现代 AI 研究的三件套

四、LLaMA 事件与开源大模型运动(2023)

  • LLaMA(2023.2):Meta 发布,限制学术使用
  • 泄露事件:模型权重在发布一周内流出,无法收回
  • 泄露引爆的连锁反应:
    • Alpaca(斯坦福):用 GPT-3.5 数据微调 LLaMA
    • Vicuna、WizardLM:社区微调百花齐放
  • LLaMA 2(2023.7):Meta 正式拥抱开源,商用许可
  • LLaMA 3 / 3.1(2024):性能逼近 GPT-4,开源模型首次进入第一梯队

五、全球开源大模型生态

美国

  • Meta LLaMA 系列:开源旗手,扎克伯格将开源视为对抗 OpenAI 的战略武器
  • Mistral(法国/美国):小团队、高效率,证明不需要万亿参数也能做出好模型

中国

  • 通义千问 Qwen(阿里):中国最活跃的开源大模型,多尺寸、多模态全覆盖
  • DeepSeek:2025 年初 R1 模型震动全球,以极低成本实现顶尖推理能力
    • DeepSeek-V2 的 MoE 架构创新
    • DeepSeek-R1 的强化学习训练范式
    • 对"Scaling Law 唯一论"的挑战
  • 智谱 GLM(清华系):ChatGLM 系列,中国学术界最广泛使用的开源模型
  • 月之暗面 Moonshot / Kimi:开源 Moonlight(MoE 模型),以长上下文能力著称
  • MiniMax:开源 MiniMax-01 系列,主打多模态和语音交互
  • 百川智能:王小川创立,开源 Baichuan 系列
  • 零一万物 01.AI:李开复创立,Yi 系列开源模型
  • 中国开源生态的特点:政策鼓励、互联网大厂 + 创业公司双轮驱动、开源密度全球最高

其他地区

  • Falcon(阿联酋):中东的 AI 雄心
  • Stability AI:Stable Diffusion 背后的公司

六、开源 vs 闭源之争

  • 核心辩论:开放权重是否会导致安全风险?
  • 扎克伯格的立场:"开源是默认选项"
  • 奥特曼的立场:"最前沿的模型不应该开源"
  • Anthropic 的中间路线:发表研究但不开源模型权重
  • 辛顿的警告:开源最强模型可能无法收回

七、许可证之争

  • 什么算"真开源"?OSI(Open Source Initiative)的定义之争
  • LLaMA 许可证:可商用但有限制,算不算开源?
  • "开放洗白"(Open Washing):公司声称开源但附加大量限制
  • 开源 AI 的商业模式:如果模型免费,靠什么赚钱?

八、开源作为地缘策略

  • 美国视角:用开源建立全球技术标准,压制竞争对手自建生态
  • 中国视角:开源降低了追赶成本,但也带来对美国技术栈的依赖
  • 芯片禁令的影响:硬件受限时,软件开源变得更重要还是更危险?
  • 未来:开源 AI 会成为"公共基础设施"还是"军备竞赛的武器"?

参考资料

待补充