世家 · 深度求索（DeepSeek）

一家从量化对冲基金孵化出来的中国创业公司——它用远低于硅谷的成本复刻出顶级推理大模型，2025 年 1 月的一夜间，让整个行业重新审视"算力即一切"的信条。

一、起源：一家量化基金与它的 GPU 集群

要理解 DeepSeek，必须先理解它的母体——幻方量化（High-Flyer Quant）。

2015 年 2 月，1985 年生于广东的梁文锋在浙江大学计算机系毕业后，与伙伴在杭州创立幻方量化。梁文锋本科期间就已深度参与量化交易算法研究——浙江大学信号系统与控制方向的博士肄业让他有数学基础，又精通工程实现。2016 年起幻方将全量交易策略迁移到深度学习，成为中国最早把深度神经网络用于 A 股量化的团队之一。

2019 年，幻方做出一个后来改变故事走向的决定：自建大规模 GPU 集群。当时国内量化同行大多依赖云厂商，幻方却一口气采购上万张 NVIDIA V100 和后来的 A100，自建数据中心，取名"萤火"。到 2022 年，幻方拥有超过 1 万张 A100，是中国最大的非互联网公司 GPU 集群之一。量化交易本不需要这么多算力，但梁文锋显然看到了更远的事——大模型。

二、2023 年 7 月：DeepSeek 独立成立

2023 年 7 月 17 日，深度求索人工智能研究有限公司在杭州余杭注册成立，法人梁文锋。它不是幻方的一个子部门，而是独立公司——但共享幻方的算力、资金和工程文化。定位明确：只做基础模型研究，不做应用产品。

这个定位在 2023 年的中国大模型圈里很另类。当时国内"百模大战"正酣，智谱、百川、月之暗面、MiniMax、零一万物、阶跃星辰——六小龙各自标定估值、竞速融资、抢客户。DeepSeek 反而保持极度克制：不融资、不 PR、不开产品发布会，核心研究员多是清华、北大、中科大、浙大的应届博士或青年研究员，平均年龄不到 30 岁。

2023 年 11 月，DeepSeek 发布第一代模型 DeepSeek LLM 7B/67B，开源了模型权重。性能接近当时的 LLaMA 2，但还不够惊艳。它的真正价值不在这代模型本身，而在"我们来了"这个信号。

三、技术创新的三次跃升

2024 年是 DeepSeek 从"又一家开源模型公司"变成"技术引领者"的一年。三项关键创新在这一年逐一兑现。

DeepSeek-Coder（2024 年 1 月）。一个专注代码生成的 67B 模型，在 HumanEval、MBPP 等编程基准上刷新开源记录。DeepSeek 的一个鲜明策略是：先用编程和数学这类"有确定答案"的领域把训练范式打磨好，再推广到通用模型。

DeepSeek-V2（2024 年 5 月）。这代模型首次引入两项架构创新：

MLA（Multi-head Latent Attention，多头潜在注意力）：把 KV 缓存压缩到原来的 1/10，大幅降低推理内存需求
DeepSeekMoE：混合专家架构，236B 总参数但每次激活只有 21B，训练和推理成本极低

DeepSeek-V2 以约 1/10 的推理价格达到 GPT-4 级别性能，瞬间打乱了国内大模型 API 市场的价格体系。百度、阿里、字节、智谱相继下调价格——2024 年 5 月后的"中国大模型价格战"正是由 DeepSeek-V2 点燃的。

DeepSeek-V3（2024 年 12 月 26 日发布）。671B 参数 MoE 模型，训练只用了约 278 万 GPU 小时（H800），成本约 557.6 万美元——是同等规模闭源模型训练成本的几十分之一。DeepSeek 在技术报告里坦然公布这个数字，震动整个行业。

四、2025 年 1 月 20 日：R1 时刻

如果说 DeepSeek-V3 是技术炸弹，那 DeepSeek-R1 就是产业地震。

2025 年 1 月 20 日，DeepSeek 发布推理模型 R1——对标 2024 年 9 月 OpenAI 发布的 o1。它的核心贡献是：

纯强化学习训练推理能力：R1-Zero 版本不需要任何监督微调，直接用强化学习（GRPO 算法）从基座模型训练出强推理能力——这在学术界是公认难度极高的路径
推理能力达到 o1 级别：在数学（AIME、MATH-500）、编程（Codeforces、LiveCodeBench）、科学推理等基准上，R1 表现接近 o1-1217
API 价格只有 o1 的 3%：输入每百万 tokens 0.55 美元，输出 2.19 美元——o1 同期约为输入 15 美元 / 输出 60 美元
完全开源：模型权重、训练细节、论文全部公开在 arXiv 和 Hugging Face

R1 发布之后几天内，Hugging Face 下载量超过百万。1 月 27 日周一美股开盘，NVIDIA 股价单日暴跌 17%，市值蒸发约 5890 亿美元——美股历史上最大单日市值损失。华尔街第一次系统性追问：如果大模型能用 600 万美元训练出来，硅谷那些百亿美元的 CapEx 还合理吗？

紧接着的两周里，DeepSeek App 登顶 132 个国家的 App Store 免费榜；Sam Altman 在 X 上罕见地发文称赞 DeepSeek-R1 是"令人印象深刻的模型，特别是考虑到其低成本"；Dario Amodei 发文长评，既承认 DeepSeek 的技术实力，也暗示地缘政治焦虑；特朗普在白宫称 DeepSeek "对美国科技公司是一记警钟"。

五、为什么是 DeepSeek

R1 发布之后的半年里，全球 AI 圈反复追问一个问题：为什么是 DeepSeek？

答案有几个层次。

算力储备。幻方 2019 年起的 GPU 投资在 2022-2023 年转化为 DeepSeek 的基础设施——这是大多数中国大模型创业公司没有的"祖传家底"。当其他六小龙还在抢 A100 配额时，DeepSeek 已经有现成的万卡集群。

工程文化。幻方的高频量化基因让团队极度注重效率——每一行代码都要算清成本。MLA、MoE、FP8 训练、通信优化、算子融合——这些看似琐碎的工程优化累加起来，就是一个数量级的训练成本差异。

人才模型。DeepSeek 不从 Meta、Google 挖资深研究员，而是直接从顶尖高校招本土应届博士。这些年轻人没有海外大厂的路径依赖，敢于从零尝试"全栈创新"。创始人梁文锋在 2024 年极少数的一次公开采访里说："真正的颠覆性创新不是跟在别人后面改参数，而是敢于在别人认为不可能的方向上投入。"

开源信念。在硅谷越来越闭源的 2024 年，DeepSeek 选择彻底开源——不只是权重，连训练细节都写进技术报告。这让它迅速占领了全球开源社区的心智。Meta 的 Yann LeCun 公开说："DeepSeek 证明了开源可以追上闭源——这是我等了很久的事。"

六、出海与生态

R1 之后，DeepSeek 的影响超出了模型本身。

API 价格战。R1 发布后一周内，OpenAI 推出 o3-mini 大幅降价，Anthropic 推出更便宜的 Claude 3.5 Haiku 版本，Google 的 Gemini 2.0 Flash 降价——整个全球大模型 API 市场的价格基准线在 2025 年春被拉低了一个量级。

推理模型成为新标准。R1 之后，几乎所有头部模型都发布了带"推理"（reasoning / thinking）模式的版本——Google Gemini 2.5、Anthropic Claude 3.7、xAI Grok 3、Alibaba Qwen-Max 都跟进。"慢思考"从 OpenAI 独创变成了行业标配。

开源大模型崛起。Hugging Face 上基于 DeepSeek-R1 蒸馏或改造的模型迅速过千个。Meta Llama 4 提前发布以应对 DeepSeek 的冲击。智谱、阿里 Qwen、MiniMax 的后续开源版本都明显借鉴了 MLA 和 GRPO。

DeepSeek-V3.1 / R2（2025 年 Q3/Q4 发布）：在代码、多模态、Agent 能力上继续追赶。到 2026 年初，DeepSeek 被国内用户广泛视为 "ChatGPT 在中国的替代品"，App DAU 据报道超过 3000 万。

七、困境与地缘

DeepSeek 的成功也让它成为地缘政治的焦点。

算力限制。美国对中国的 AI 芯片出口管制从 2022 年起逐步收紧。2022 年禁运 A100/H100，2023 年扩大到 A800/H800。DeepSeek 2024-2025 年训练模型用的是 H800（H100 对华特供版，带宽和互连被限制）。未来若更严格的禁令落地（如 2025 年起讨论的"内存带宽阈值"），DeepSeek 的下一代模型可能面临算力断崖。

国际质疑。R1 发布后，意大利、韩国、澳大利亚、印度等多国政府机构禁止公务电脑使用 DeepSeek App，理由是"数据传输至中国境内"。美国国会多位议员呼吁禁止联邦设备使用。这让 DeepSeek 的国际化路径复杂化——技术再强，也难以绕开地缘叙事。

开源模式的可持续性。DeepSeek 不融资、不收费，完全靠母公司幻方"输血"。梁文锋多次表示"我们不缺钱"——但随着模型规模扩大，下一代 500B 甚至 1T 参数模型的训练成本会跳到数千万甚至上亿美元。幻方能否持续支撑？这是一个悬而未决的问题。

八、今日的 DeepSeek

到 2026 年春，DeepSeek 员工数约 200 人，仍然保持"小而精"的极客文化。它是 2026 年中国唯一在国际 AI 社区被普遍认可为"世界级"的大模型公司——甚至在很多指标上追平或超越美国同行。

梁文锋本人依然极少公开露面。2024 年 1 月他应国务院总理李强邀请参加企业家座谈会，是他最为显眼的一次公开活动。他在那次会议上说："我们想证明，中国公司也可以做出世界级的原创创新。"那时 R1 还未发布，这句话听起来更像愿望。一年之后，世界已经听到了回答。

太史公曰

DeepSeek 之成，其道看似偶然：一家量化基金的溢出、几个刚毕业的博士、一个不融资不宣传的小公司——却在大模型最喧嚣的时刻砸出了那块最响的石头。然而细究之，偶然里藏着必然。幻方十年的算力积累，让它在别人缺 GPU 时有万卡；量化基因里的效率执念，让它敢做 MLA 和 MoE 这种"省到极致"的架构；对开源的坚定信念，让它在一周之内获得了闭源巨头多年积攒的全球心智。R1 的价值不在于它比 o1 强——它没有比 o1 强——而在于它证明了一条另一种路径：不必堆算力，不必融十亿美元，不必雇资深研究员；年轻人加上算力加上长期主义，就可以站在世界的最前沿。这条路是否可持续，还有待验证；但它已经永久地改变了整个行业对"大模型需要多少钱"的预设。在这个意义上，DeepSeek 是 AI 史上最后一个用"车库创业"精神改变格局的公司——哪怕它的车库里停着一万张 A100。

亲历者说

征集中

如果你曾在 DeepSeek 或幻方量化工作，欢迎提交贡献。

参考资料

DeepSeek AI (2024). "DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model." arXiv:2405.04434.
DeepSeek AI (2024). "DeepSeek-V3 Technical Report." arXiv:2412.19437.
DeepSeek AI (2025). "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning." arXiv:2501.12948.
梁文锋访谈（2024 年 1 月）国务院总理企业家座谈会。
36氪 (2024). 幻方量化：一家量化私募的大模型野望.
Bloomberg (2025). "DeepSeek's AI Model Shakes Silicon Valley." January 27, 2025.
FT (2025). "The DeepSeek Shock: How a Chinese Startup Upended AI." February 2025.
Amodei, D. (2025). "On DeepSeek and Export Controls." Personal essay, January 2025.
The Information (2025). "Inside High-Flyer's Decade-Long Bet on GPUs."
SemiAnalysis (2025). "The DeepSeek Cost Debate: What's Real and What's Noise."
虎嗅 (2025). DeepSeek 与中国 AI 的另一条路径.

世家 · 深度求索（DeepSeek） ​

一、起源：一家量化基金与它的 GPU 集群 ​

二、2023 年 7 月：DeepSeek 独立成立 ​

三、技术创新的三次跃升 ​

四、2025 年 1 月 20 日：R1 时刻 ​

五、为什么是 DeepSeek ​

六、出海与生态 ​

七、困境与地缘 ​

八、今日的 DeepSeek ​

亲历者说 ​

参考资料 ​