世家 · 深度求索(DeepSeek)
一家从量化对冲基金孵化出来的中国创业公司——它用远低于硅谷的成本复刻出顶级推理大模型,2025 年 1 月的一夜间,让整个行业重新审视"算力即一切"的信条。
一、起源:一家量化基金与它的 GPU 集群
要理解 DeepSeek,必须先理解它的母体——幻方量化(High-Flyer Quant)。
2015 年 2 月,1985 年生于广东的梁文锋在浙江大学计算机系毕业后,与伙伴在杭州创立幻方量化。梁文锋本科期间就已深度参与量化交易算法研究——浙江大学信号系统与控制方向的博士肄业让他有数学基础,又精通工程实现。2016 年起幻方将全量交易策略迁移到深度学习,成为中国最早把深度神经网络用于 A 股量化的团队之一。
2019 年,幻方做出一个后来改变故事走向的决定:自建大规模 GPU 集群。当时国内量化同行大多依赖云厂商,幻方却一口气采购上万张 NVIDIA V100 和后来的 A100,自建数据中心,取名"萤火"。到 2022 年,幻方拥有超过 1 万张 A100,是中国最大的非互联网公司 GPU 集群之一。量化交易本不需要这么多算力,但梁文锋显然看到了更远的事——大模型。
二、2023 年 7 月:DeepSeek 独立成立
2023 年 7 月 17 日,深度求索人工智能研究有限公司在杭州余杭注册成立,法人梁文锋。它不是幻方的一个子部门,而是独立公司——但共享幻方的算力、资金和工程文化。定位明确:只做基础模型研究,不做应用产品。
这个定位在 2023 年的中国大模型圈里很另类。当时国内"百模大战"正酣,智谱、百川、月之暗面、MiniMax、零一万物、阶跃星辰——六小龙各自标定估值、竞速融资、抢客户。DeepSeek 反而保持极度克制:不融资、不 PR、不开产品发布会,核心研究员多是清华、北大、中科大、浙大的应届博士或青年研究员,平均年龄不到 30 岁。
2023 年 11 月,DeepSeek 发布第一代模型 DeepSeek LLM 7B/67B,开源了模型权重。性能接近当时的 LLaMA 2,但还不够惊艳。它的真正价值不在这代模型本身,而在"我们来了"这个信号。
三、技术创新的三次跃升
2024 年是 DeepSeek 从"又一家开源模型公司"变成"技术引领者"的一年。三项关键创新在这一年逐一兑现。
DeepSeek-Coder(2024 年 1 月)。一个专注代码生成的 67B 模型,在 HumanEval、MBPP 等编程基准上刷新开源记录。DeepSeek 的一个鲜明策略是:先用编程和数学这类"有确定答案"的领域把训练范式打磨好,再推广到通用模型。
DeepSeek-V2(2024 年 5 月)。这代模型首次引入两项架构创新:
- MLA(Multi-head Latent Attention,多头潜在注意力):把 KV 缓存压缩到原来的 1/10,大幅降低推理内存需求
- DeepSeekMoE:混合专家架构,236B 总参数但每次激活只有 21B,训练和推理成本极低
DeepSeek-V2 以约 1/10 的推理价格达到 GPT-4 级别性能,瞬间打乱了国内大模型 API 市场的价格体系。百度、阿里、字节、智谱相继下调价格——2024 年 5 月后的"中国大模型价格战"正是由 DeepSeek-V2 点燃的。
DeepSeek-V3(2024 年 12 月 26 日发布)。671B 参数 MoE 模型,训练只用了约 278 万 GPU 小时(H800),成本约 557.6 万美元——是同等规模闭源模型训练成本的几十分之一。DeepSeek 在技术报告里坦然公布这个数字,震动整个行业。
四、2025 年 1 月 20 日:R1 时刻
如果说 DeepSeek-V3 是技术炸弹,那 DeepSeek-R1 就是产业地震。
2025 年 1 月 20 日,DeepSeek 发布推理模型 R1——对标 2024 年 9 月 OpenAI 发布的 o1。它的核心贡献是:
- 纯强化学习训练推理能力:R1-Zero 版本不需要任何监督微调,直接用强化学习(GRPO 算法)从基座模型训练出强推理能力——这在学术界是公认难度极高的路径
- 推理能力达到 o1 级别:在数学(AIME、MATH-500)、编程(Codeforces、LiveCodeBench)、科学推理等基准上,R1 表现接近 o1-1217
- API 价格只有 o1 的 3%:输入每百万 tokens 0.55 美元,输出 2.19 美元——o1 同期约为输入 15 美元 / 输出 60 美元
- 完全开源:模型权重、训练细节、论文全部公开在 arXiv 和 Hugging Face
R1 发布之后几天内,Hugging Face 下载量超过百万。1 月 27 日周一美股开盘,NVIDIA 股价单日暴跌 17%,市值蒸发约 5890 亿美元——美股历史上最大单日市值损失。华尔街第一次系统性追问:如果大模型能用 600 万美元训练出来,硅谷那些百亿美元的 CapEx 还合理吗?
紧接着的两周里,DeepSeek App 登顶 132 个国家的 App Store 免费榜;Sam Altman 在 X 上罕见地发文称赞 DeepSeek-R1 是"令人印象深刻的模型,特别是考虑到其低成本";Dario Amodei 发文长评,既承认 DeepSeek 的技术实力,也暗示地缘政治焦虑;特朗普在白宫称 DeepSeek "对美国科技公司是一记警钟"。
五、为什么是 DeepSeek
R1 发布之后的半年里,全球 AI 圈反复追问一个问题:为什么是 DeepSeek?
答案有几个层次。
算力储备。幻方 2019 年起的 GPU 投资在 2022-2023 年转化为 DeepSeek 的基础设施——这是大多数中国大模型创业公司没有的"祖传家底"。当其他六小龙还在抢 A100 配额时,DeepSeek 已经有现成的万卡集群。
工程文化。幻方的高频量化基因让团队极度注重效率——每一行代码都要算清成本。MLA、MoE、FP8 训练、通信优化、算子融合——这些看似琐碎的工程优化累加起来,就是一个数量级的训练成本差异。
人才模型。DeepSeek 不从 Meta、Google 挖资深研究员,而是直接从顶尖高校招本土应届博士。这些年轻人没有海外大厂的路径依赖,敢于从零尝试"全栈创新"。创始人梁文锋在 2024 年极少数的一次公开采访里说:"真正的颠覆性创新不是跟在别人后面改参数,而是敢于在别人认为不可能的方向上投入。"
开源信念。在硅谷越来越闭源的 2024 年,DeepSeek 选择彻底开源——不只是权重,连训练细节都写进技术报告。这让它迅速占领了全球开源社区的心智。Meta 的 Yann LeCun 公开说:"DeepSeek 证明了开源可以追上闭源——这是我等了很久的事。"
六、出海与生态
R1 之后,DeepSeek 的影响超出了模型本身。
API 价格战。R1 发布后一周内,OpenAI 推出 o3-mini 大幅降价,Anthropic 推出更便宜的 Claude 3.5 Haiku 版本,Google 的 Gemini 2.0 Flash 降价——整个全球大模型 API 市场的价格基准线在 2025 年春被拉低了一个量级。
推理模型成为新标准。R1 之后,几乎所有头部模型都发布了带"推理"(reasoning / thinking)模式的版本——Google Gemini 2.5、Anthropic Claude 3.7、xAI Grok 3、Alibaba Qwen-Max 都跟进。"慢思考"从 OpenAI 独创变成了行业标配。
开源大模型崛起。Hugging Face 上基于 DeepSeek-R1 蒸馏或改造的模型迅速过千个。Meta Llama 4 提前发布以应对 DeepSeek 的冲击。智谱、阿里 Qwen、MiniMax 的后续开源版本都明显借鉴了 MLA 和 GRPO。
DeepSeek-V3.1 / R2(2025 年 Q3/Q4 发布):在代码、多模态、Agent 能力上继续追赶。到 2026 年初,DeepSeek 被国内用户广泛视为 "ChatGPT 在中国的替代品",App DAU 据报道超过 3000 万。
七、困境与地缘
DeepSeek 的成功也让它成为地缘政治的焦点。
算力限制。美国对中国的 AI 芯片出口管制从 2022 年起逐步收紧。2022 年禁运 A100/H100,2023 年扩大到 A800/H800。DeepSeek 2024-2025 年训练模型用的是 H800(H100 对华特供版,带宽和互连被限制)。未来若更严格的禁令落地(如 2025 年起讨论的"内存带宽阈值"),DeepSeek 的下一代模型可能面临算力断崖。
国际质疑。R1 发布后,意大利、韩国、澳大利亚、印度等多国政府机构禁止公务电脑使用 DeepSeek App,理由是"数据传输至中国境内"。美国国会多位议员呼吁禁止联邦设备使用。这让 DeepSeek 的国际化路径复杂化——技术再强,也难以绕开地缘叙事。
开源模式的可持续性。DeepSeek 不融资、不收费,完全靠母公司幻方"输血"。梁文锋多次表示"我们不缺钱"——但随着模型规模扩大,下一代 500B 甚至 1T 参数模型的训练成本会跳到数千万甚至上亿美元。幻方能否持续支撑?这是一个悬而未决的问题。
八、今日的 DeepSeek
到 2026 年春,DeepSeek 员工数约 200 人,仍然保持"小而精"的极客文化。它是 2026 年中国唯一在国际 AI 社区被普遍认可为"世界级"的大模型公司——甚至在很多指标上追平或超越美国同行。
梁文锋本人依然极少公开露面。2024 年 1 月他应国务院总理李强邀请参加企业家座谈会,是他最为显眼的一次公开活动。他在那次会议上说:"我们想证明,中国公司也可以做出世界级的原创创新。"那时 R1 还未发布,这句话听起来更像愿望。一年之后,世界已经听到了回答。
太史公曰
DeepSeek 之成,其道看似偶然:一家量化基金的溢出、几个刚毕业的博士、一个不融资不宣传的小公司——却在大模型最喧嚣的时刻砸出了那块最响的石头。然而细究之,偶然里藏着必然。幻方十年的算力积累,让它在别人缺 GPU 时有万卡;量化基因里的效率执念,让它敢做 MLA 和 MoE 这种"省到极致"的架构;对开源的坚定信念,让它在一周之内获得了闭源巨头多年积攒的全球心智。R1 的价值不在于它比 o1 强——它没有比 o1 强——而在于它证明了一条另一种路径:不必堆算力,不必融十亿美元,不必雇资深研究员;年轻人加上算力加上长期主义,就可以站在世界的最前沿。这条路是否可持续,还有待验证;但它已经永久地改变了整个行业对"大模型需要多少钱"的预设。在这个意义上,DeepSeek 是 AI 史上最后一个用"车库创业"精神改变格局的公司——哪怕它的车库里停着一万张 A100。
亲历者说
征集中
如果你曾在 DeepSeek 或幻方量化工作,欢迎提交贡献。
参考资料
- DeepSeek AI (2024). "DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model." arXiv:2405.04434.
- DeepSeek AI (2024). "DeepSeek-V3 Technical Report." arXiv:2412.19437.
- DeepSeek AI (2025). "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning." arXiv:2501.12948.
- 梁文锋访谈(2024 年 1 月)国务院总理企业家座谈会。
- 36氪 (2024). 幻方量化:一家量化私募的大模型野望.
- Bloomberg (2025). "DeepSeek's AI Model Shakes Silicon Valley." January 27, 2025.
- FT (2025). "The DeepSeek Shock: How a Chinese Startup Upended AI." February 2025.
- Amodei, D. (2025). "On DeepSeek and Export Controls." Personal essay, January 2025.
- The Information (2025). "Inside High-Flyer's Decade-Long Bet on GPUs."
- SemiAnalysis (2025). "The DeepSeek Cost Debate: What's Real and What's Noise."
- 虎嗅 (2025). DeepSeek 与中国 AI 的另一条路径.