Skip to content

本纪第六 · 统计学习崛起(1993—2006)

1997 年 5 月 11 日,纽约曼哈顿。国际象棋世界冠军卡斯帕罗夫在第六盘棋中仅走了十九步就推倒了棋子——他输给了一台名叫深蓝的机器。全世界的报纸都把这当作"机器胜过人类"的证据。但深蓝的胜利靠的不是智能,而是每秒两亿步的暴力搜索。真正的革命正在别处悄悄发生:在贝尔实验室的白板上,一位苏联数学家正在用统计理论重新定义"学习"的含义;在伯克利的教室里,一位年轻教授正在教机器用概率而非逻辑来理解不确定的世界。AI 终于学会了一件它早该学会的事——让数据说话。

一、核心之争:规则还是数据?

第二次寒冬之后,AI 面临一个根本性的方向选择。

一边是延续了三十年的符号主义传统——用手工编写的规则和逻辑推理来表达智能。这条路线经过两次寒冬的打击已经声誉扫地,但在自然语言处理和知识表示等领域仍有坚守者。

另一边是一种完全不同的思路:不要试图告诉机器世界的规则,而是让机器从数据中自己发现规律。这条路线有两个分支——统计机器学习(以支持向量机和贝叶斯方法为代表)和神经网络(以反向传播为代表)。在 1990 年代,统计方法占据了上风。

这场范式转移不是在某一天突然发生的,而是在十多年间逐步完成的。它的推动力来自三个方向的汇合:统计学习理论提供了数学基础,互联网爆炸提供了海量数据,摩尔定律持续提升的计算能力让大规模数据处理成为可能。

二、支持向量机:优雅的分类器

瓦普尼克的统计学习理论

1990 年代 AI 最重要的理论突破来自一位在贝尔实验室(Bell Labs)工作的苏联移民数学家——瓦普尼克

瓦普尼克早在 1960 年代就与切尔沃宁基斯在苏联合作发展了统计学习理论(Statistical Learning Theory),提出了 VC 维(Vapnik-Chervonenkis Dimension)的概念——一种度量模型复杂度的数学工具。但这些工作在冷战时期几乎没有传入西方。1990 年移居美国后,瓦普尼克在贝尔实验室将他的理论付诸实践。

1995 年,瓦普尼克与丹麦裔美国计算机科学家科尔特斯合作发表了支持向量机(Support Vector Machine,SVM)的现代版本。SVM 的核心思想是:在数据点之间找到一个"最大间隔"的分类边界——不是随便找一条能把两类数据分开的线,而是找到那条离两边的数据点都尽可能远的线。这个"最大间隔"原则不仅直觉上合理,而且有严格的理论保证——间隔越大,模型在未见过的数据上的泛化能力越强。

更妙的是"核技巧"(Kernel Trick):通过一个数学变换,将原本线性不可分的数据映射到更高维的空间,在高维空间中找到线性分类面,然后映射回来——效果等价于在原始空间中画出一条复杂的非线性边界,但计算复杂度并不会爆炸。

SVM 在 1990 年代末到 2000 年代初横扫了几乎所有机器学习竞赛——手写数字识别、文本分类、生物信息学、图像分类。它成为了"后专家系统时代"的新宠,也是许多研究者职业生涯的起点。

SVM 的局限

但 SVM 也有它的天花板。它本质上是一个"浅层"模型——只学习一个分类边界,不学习数据的层次化表征。对于高度复杂的任务(如理解自然语言或识别复杂场景),这种浅层的特征工程方法终将力不从心。此外,SVM 的训练复杂度随数据量快速增长,在真正的"大数据"面前缺乏可扩展性。

这些局限在 2000 年代中期开始显现——恰好是深度学习即将登场的时候。

三、贝叶斯革命:不确定性的数学

珀尔与因果推理

符号 AI 的一个致命弱点是它无法优雅地处理不确定性。现实世界充满了噪声、歧义和不完整的信息,而经典逻辑只有"真"和"假"两个值。

以色列裔美国计算机科学家珀尔在 1988 年出版的《智能系统中的概率推理》(Probabilistic Reasoning in Intelligent Systems)一书中,提出了贝叶斯网络(Bayesian Network)——一种用有向无环图来表示变量之间概率依赖关系的框架。贝叶斯网络允许系统在不确定的环境中进行推理:给定部分观测,计算其他变量的概率分布。

珀尔的贡献远不止于一个技术工具。他后来发展出完整的因果推理(Causal Inference)数学框架,区分了"相关"和"因果"——这个区分对医学研究、社会科学和经济学都产生了深远影响。2011 年,珀尔因在 AI 领域的贡献获得图灵奖。

乔丹与概率图模型

美国计算机科学家乔丹在加州大学伯克利分校(UC Berkeley)建立了机器学习领域最具影响力的研究组之一。乔丹将概率图模型(Probabilistic Graphical Models)推广为一个统一的框架,涵盖贝叶斯网络、马尔可夫随机场和隐马尔可夫模型。他的工作为机器学习提供了严格的概率基础,使得"学习"不再是一个模糊的概念,而是可以用似然函数、后验分布和贝叶斯推断来精确描述的数学过程。

乔丹还培养了一批改变 AI 格局的学生——吴恩达后来成为深度学习的布道者和在线教育的先驱;本吉奥曾在乔丹组做博士后研究。

四、深蓝:一场被误读的胜利

1997 年 5 月

1997 年 5 月 11 日,IBM 的超级计算机"深蓝"(Deep Blue)在六盘比赛中以 3.5 比 2.5 击败了国际象棋世界冠军卡斯帕罗夫。这是人类历史上第一次在标准赛制的国际象棋比赛中,计算机击败在任世界冠军。

全世界的媒体为之沸腾。《新闻周刊》的封面标题写道:"大脑的最后一战"(The Brain's Last Stand)。公众的反应是惊惧交加——如果机器连国际象棋都赢了,还有什么是它不能做的?

但 AI 研究者的反应要冷静得多——甚至有些失望。深蓝的"智能"实质上是暴力搜索:它拥有 480 颗专用芯片,每秒可以评估约两亿个棋局位置,配合精心调校的评估函数和开局数据库来选择最佳走法。它没有"理解"国际象棋,没有"战略",更没有"直觉"——它只是在庞大的搜索树中找到了统计上最优的路径。

卡斯帕罗夫在赛后愤怒地指控 IBM 作弊——他怀疑某些关键时刻有人类棋手在幕后干预。IBM 起初拒绝提供深蓝的运行日志(后来在网上公布了部分日志),并据报道在比赛结束后拆解了机器——尽管也有说法称深蓝此后仍运行了数年。这场争议至今没有定论,但它揭示了一个更深的问题:当机器以人类无法理解的方式做出决策时,信任如何建立?

深蓝的遗产

深蓝对 AI 研究的直接影响有限——暴力搜索是一种特定于国际象棋的方法,不能推广到其他领域。但它的间接影响是深远的:它让公众重新关注了 AI,让"AI 寒冬"这个词从媒体上消失了一段时间,也让 IBM 的品牌价值大幅提升。

更重要的是,深蓝证明了一个原则:在某些有明确规则和有限状态空间的领域,计算能力本身就是一种"智能"——即使它和人类的智能完全不同。这个原则在后来的 AlphaGo 时代被更精妙地诠释。

五、互联网:数据的大爆炸

从稀缺到过剩

1990 年代中期,万维网从学术圈的工具变成了全球性的信息平台。雅虎(Yahoo!,1994)、亚马逊(Amazon,1995)、谷歌(Google,1998)相继成立。到 2000 年代初,互联网上的数据量已经远远超过了人类历史上所有图书馆藏书的总和。

这场数据大爆炸对 AI 的意义怎么强调都不为过。机器学习算法的性能在很大程度上取决于训练数据的质量和数量——更多的数据意味着更好的模型。互联网第一次让"大数据"成为可能:搜索引擎的查询日志、电商的用户行为、社交网络的文本和图片——所有这些都是可以用来训练机器学习模型的"免费"原材料。

谷歌的启示

谷歌的核心算法 PageRank 本身就是一种统计方法——通过分析网页之间的链接结构来评估每个网页的重要性,而不是试图"理解"网页的内容。谷歌的成功向整个行业传递了一个信号:在互联网规模的数据面前,简单的统计方法往往比复杂的规则系统更有效。

2000 年代初,谷歌开始在内部大规模使用机器学习——从搜索排名到广告定价,从垃圾邮件过滤到语音识别。它也率先开发了分布式计算框架 MapReduce(2004)和大规模存储系统 BigTable(2006),为在海量数据上训练机器学习模型提供了基础设施。这些工具后来被开源社区重新实现为 Hadoop 生态系统,进一步推动了数据驱动方法的普及。

Netflix 大奖赛

2006 年 10 月,视频租赁公司 Netflix 宣布了一场规模空前的机器学习竞赛——只要有人能把公司现有推荐算法 Cinematch 的准确率提升 10%,就能赢得一百万美元奖金。Netflix 公开了约 1 亿条匿名用户评分数据——这在当时是业界最大规模的开放数据集之一。

比赛持续了近三年,吸引了全球数千支队伍参与。最终的冠军是 "BellKor's Pragmatic Chaos" 团队,他们融合了数百个不同模型的预测结果——奇异值分解(SVD)、受限玻尔兹曼机、最近邻算法、梯度提升树——通过集成学习(Ensemble Learning)达成了 10.06% 的提升,在 2009 年 9 月赢得了百万大奖。

Netflix Prize 的影响远超一个具体问题的解决。它证明了两件事:其一,集成学习是榨取最后一滴性能的有效手段——这个规律在此后的 Kaggle 时代被反复验证;其二,公开数据集 + 明确指标 + 奖金激励,是推动特定领域快速进步的有效范式。推荐系统、协同过滤(Collaborative Filtering)和矩阵分解方法因这场比赛获得了跨越式的发展,也为后来 Netflix 本身转型为流媒体公司提供了算法底座。

六、"不叫 AI"的 AI

寒冬的后遗症之一是"AI"这个词的污名化。在整个 1990 年代和 2000 年代初,许多实际上在做 AI 的研究被重新包装在更"体面"的标签下:

  • 机器学习(Machine Learning)——听起来比"AI"谦逊得多
  • 数据挖掘(Data Mining)——强调实用价值而非理论野心
  • 模式识别(Pattern Recognition)——回避"智能"的暗示
  • 知识发现(Knowledge Discovery in Databases,KDD)——用"发现"代替"推理"
  • 信息检索(Information Retrieval)——搜索引擎的学术名称

这种更名策略在商业上是成功的——企业愿意为"数据挖掘"买单,但不愿意碰"AI"。在学术上,它也有积极的一面:摆脱了"通用智能"的包袱,研究者得以专注于具体的、可度量的、有明确评估标准的问题。机器学习竞赛(如 UCI 数据集、KDD Cup)建立了一套客观的基准测试文化——不再是"我的系统看起来很聪明",而是"我的系统在这个数据集上的准确率是多少"。

但这种务实也有代价。当"AI"变成了一堆分散的子领域——机器学习、NLP、计算机视觉、机器人学——彼此之间缺乏统一的理论框架时,一些更宏大的问题(如常识推理、通用智能、AI 安全)被边缘化了。这些问题要等到大语言模型时代才重新回到聚光灯下。

七、暗流与伏笔

第一,从"知识驱动"到"数据驱动"的范式转移已不可逆。 1993 年的 AI 研究者花大量时间手工编写规则;2006 年的 AI 研究者花大量时间收集和清洗数据。这个转变的意义怎么估计都不过分——它重新定义了"什么算 AI 研究",也重新定义了"什么样的人才做 AI"。统计学家、数学家和有数据工程能力的计算机科学家取代了知识工程师,成为 AI 的核心力量。

第二,SVM 的统治暗示了一个规律。 SVM 的成功不是因为它比神经网络更强大,而是因为它在当时的数据量和计算条件下更实用——训练快、理论清晰、调参简单。这暗示了 AI 方法的竞争不仅取决于算法本身的优劣,还取决于当时的硬件和数据生态。当数据更多、算力更强时,能够利用规模优势的方法(如深度神经网络)将取代那些在小数据上表现更优的方法。

第三,互联网改变了 AI 的经济学。 在互联网之前,收集训练数据是一项昂贵的人工劳动。互联网之后,数据变得近乎免费——用户在使用产品的过程中"自然地"生成了海量标注数据(搜索点击、商品评价、社交互动)。这不仅降低了机器学习的门槛,也创造了一种新的商业模式:用免费服务换取用户数据,再用数据训练模型来变现。谷歌和后来的 Facebook 就是这种模式的典范。

第四,杨立昆的 CNN 在等待它的时代。 杨立昆在 1998 年发表了 LeNet-5——一个用卷积神经网络识别手写数字的系统,在银行支票识别等应用中表现出色。但在 SVM 统治的年代,CNN 没有获得广泛关注。杨立昆后来回忆说,2000 年代是神经网络研究最"孤独"的时期——论文投不出去,资助拿不到,会议上的听众寥寥无几。但他、辛顿和本吉奥坚持了下来。他们的坚持将在下一个时代得到回报。

八、年表

年份事件关键人物
1988珀尔出版《智能系统中的概率推理》,提出贝叶斯网络珀尔
1995瓦普尼克与科尔特斯发表支持向量机(SVM)论文瓦普尼克科尔特斯
1997IBM 深蓝击败国际象棋世界冠军卡斯帕罗夫卡斯帕罗夫
1998谷歌成立,PageRank 算法将统计方法应用于网页排名佩奇布林
1998杨立昆发表 LeNet-5 卷积神经网络杨立昆
2001随机森林(Random Forests)算法提出布雷曼
2003贝叶斯网络在基因组学、医学诊断等领域广泛应用珀尔乔丹
2004谷歌发表 MapReduce 论文,开启大规模分布式数据处理
2006Netflix 宣布百万美元大奖赛,推动推荐系统和协同过滤研究
2006辛顿发表深度信念网络论文,深度学习一词开始回归辛顿

太史公曰

统计学习时代是 AI 历史上最"安静"的十三年——没有达特茅斯式的宣言,没有第五代式的国家计划,没有深蓝之后的短暂狂欢。但它可能是影响最深远的十三年。瓦普尼克用数学证明了一件此前只是直觉的事:学习的本质是在模型的复杂度和数据的充分性之间寻找平衡。珀尔用概率重新定义了推理——不是从公理到定理的演绎,而是在不确定性中做出最好的判断。互联网则用数据淹没了一切规则——当你有十亿个网页时,你不需要理解语言就能做出好的搜索引擎。这些洞察在当时看起来只是技术细节。但回头看,它们奠定了整个现代 AI 的方法论基础。深度学习的成功不是凭空出现的——它是统计学习思想加上海量数据加上摩尔定律的必然产物。

亲历者说

征集中

如果你了解这段历史的第一手资料或亲历者回忆,欢迎提交贡献


参考资料

  1. Vapnik, V. N. (1995). The Nature of Statistical Learning Theory. Springer.
  2. Cortes, C., & Vapnik, V. (1995). "Support-Vector Networks." Machine Learning, 20(3), 273–297.
  3. Pearl, J. (1988). Probabilistic Reasoning in Intelligent Systems. Morgan Kaufmann.
  4. Jordan, M. I. (1999). "An Introduction to Variational Methods for Graphical Models." Machine Learning, 37(2), 183–233.
  5. LeCun, Y., Bottou, L., Bengio, Y., & Haffner, P. (1998). "Gradient-Based Learning Applied to Document Recognition." Proceedings of the IEEE, 86(11), 2278–2324.
  6. Campbell, M., Hoane, A. J., & Hsu, F. (2002). "Deep Blue." Artificial Intelligence, 134(1-2), 57–83.
  7. Dean, J., & Ghemawat, S. (2004). "MapReduce: Simplified Data Processing on Large Clusters." OSDI'04.
  8. Breiman, L. (2001). "Random Forests." Machine Learning, 45(1), 5–32.
  9. Hinton, G. E., Osindero, S., & Teh, Y. W. (2006). "A Fast Learning Algorithm for Deep Belief Nets." Neural Computation, 18(7), 1527–1554.
  10. Hsu, F. (2002). Behind Deep Blue: Building the Computer that Defeated the World Chess Champion. Princeton University Press.
  11. Nilsson, N. J. (2009). The Quest for Artificial Intelligence. Cambridge University Press.