本纪第七 · 深度学习前夜(2006—2012)
2006 年,一位在多伦多大学已经坚守神经网络研究近三十年的英国人发表了一篇论文,证明深层网络可以被逐层预训练。这个发现本身并没有立刻改变世界——它改变的是一小群人的信念。三年后,一位华裔女科学家在普林斯顿大学带领团队开始标注数以百万计的图片,建成了一个叫 ImageNet 的数据集。再过三年,一块游戏显卡训练出的神经网络在这个数据集上碾压了所有传统方法。前夜的灯火已经点亮,只是大多数人还没有抬头看见。
一、核心之争:深度网络能学到什么?
统计学习时代的 AI 取得了巨大的实用成功——SVM 赢得竞赛,贝叶斯方法处理不确定性,谷歌用统计方法做出了世界上最好的搜索引擎。但这些方法有一个共同的局限:它们依赖于人工设计的特征(Hand-crafted Features)。
以图像识别为例。要让 SVM 识别一张照片中是否有猫,你首先需要把原始像素转换成有意义的特征——边缘方向、颜色直方图、纹理描述子。这些特征是由人类专家根据领域知识设计的。SVM 只负责最后一步:在这些特征的空间中画一条分类边界。
问题是:对于足够复杂的任务,人类无法设计出足够好的特征。一张照片中的猫可能是侧脸、正脸、蜷缩的、遮挡的、模糊的——什么样的手工特征能覆盖所有这些变体?
深度学习的核心承诺就是:让机器自己学习特征。不是一层特征,而是多层——从底层的边缘和纹理,到中层的部件和形状,到高层的物体和场景。每一层都在前一层的基础上构建更抽象的表征。这就是"深度"的含义——不是网络物理上的深度,而是表征的层次深度。
但在 2006 年之前,深度网络面临一个看似无法克服的技术障碍:梯度消失(Vanishing Gradient)。当网络层数增加时,反向传播的梯度信号在逐层传递中呈指数级衰减,导致底层权重几乎无法被更新。网络越深,训练越困难——这似乎形成了一个死结。
二、辛顿的突破:深度信念网络
逐层预训练
2006 年,辛顿在多伦多大学发表了一篇改变历史走向的论文——《深度信念网络的快速学习算法》(A Fast Learning Algorithm for Deep Belief Nets)。
辛顿提出了一种巧妙的策略来绕过梯度消失问题:逐层贪心预训练(Greedy Layer-wise Pretraining)。他不是一次性训练整个深度网络,而是把网络拆成若干层,每次只训练一层。具体做法是:先用无监督学习(受限玻尔兹曼机,Restricted Boltzmann Machine)训练第一层,学到数据的低层特征;然后固定第一层,用同样的方法训练第二层;依此类推,逐层向上。全部预训练完成后,再用有标签的数据对整个网络进行微调(Fine-tuning)。
这个策略的效果是惊人的。预训练为每一层的权重提供了一个好的"起点",使得后续的反向传播微调不再需要从随机初始化开始摸索——梯度消失的问题被大幅缓解了。
"深度学习"的命名
辛顿和他的合作者们需要一个名字来称呼这个重生的领域。"神经网络"这个词在经历了两次被打入冷宫后已经带有太多负面联想。"连接主义"听起来像哲学而非工程。辛顿选择了一个新词——"深度学习"(Deep Learning)。
这个命名是一个策略性的选择。"深度"强调了多层表征这一关键创新(也暗示了此前的"浅层"方法的局限);"学习"则与机器学习这个已被广泛接受的领域接轨。在一个"AI"仍然是脏词的年代,"深度学习"听起来既技术化又新鲜,没有历史包袱。
三巨头的坚守
辛顿不是独自在战斗。他与杨立昆(纽约大学)和本吉奥(蒙特利尔大学)在 2000 年代形成了一个紧密的联盟——后来被称为"深度学习三巨头"。
三人的处境在 2006 年之前极为艰难。杨立昆回忆说,在 SVM 统治的年代,他的神经网络论文被顶级会议拒稿是家常便饭。本吉奥在蒙特利尔同样孤独——他的 MILA 实验室(当时还叫 LISA)是全世界少数仍在认真研究神经网络的地方之一。辛顿在多伦多更是一个人扛着神经网络的大旗——从 1986 年的反向传播到 2006 年的深度信念网络,中间整整二十年几乎没有主流认可;若从他 1978 年在爱丁堡完成博士论文算起,更是坚守了近三十年。
2004 年,辛顿说服了加拿大高等研究院(CIFAR)设立了一个名为"神经计算与自适应感知"(Neural Computation and Adaptive Perception,NCAP)的研究项目,将三巨头和其他志同道合的研究者聚集在一起。CIFAR 的资助金额不大,但它的意义在于提供了一个制度化的平台——在整个学术界都不看好神经网络的年代,至少有一个组织愿意为它下注。
三、ImageNet:数据的基础设施
李飞飞的远见
如果说辛顿解决了"如何训练深度网络"的问题,那么李飞飞解决的是一个更基础的问题:"用什么数据来训练?"
2006 年,李飞飞在伊利诺伊大学厄巴纳-香槟分校(UIUC)任教期间萌生了一个大胆的想法,并在 2007 年转入普林斯顿大学(Princeton University)后正式启动了这个项目:构建一个涵盖人类视觉世界全部概念的大规模图像数据集。她给它取名为 ImageNet。
这个想法在当时被认为是疯狂的。计算机视觉社区习惯于在几百到几千张图片的小数据集上评测算法——Caltech-101(约 9,000 张)已经被认为是"大"的了。李飞飞的目标是一千四百万张图片,涵盖超过两万个类别,每张图片由人工标注。这个规模在当时看来不仅不必要,而且不可能完成。
李飞飞的天才之处在于她找到了一种可扩展的标注方法:利用亚马逊的 Mechanical Turk 众包平台,以极低的成本雇佣全球各地的标注者。经过三年的努力,ImageNet 在 2009 年首次发布(初版包含数百万张图片和数千个类别),此后持续扩展,最终增长到约 1,400 万张图片和超过 21,000 个类别。
ImageNet 大规模视觉识别挑战赛
2010 年,李飞飞和同事们发起了 ImageNet 大规模视觉识别挑战赛(ILSVRC),每年举办一次,要求参赛系统在 1,000 个类别、约 120 万张训练图片上进行图像分类。这个竞赛为计算机视觉建立了一个清晰、公平、可量化的评测基准——就像深蓝时代的国际象棋一样,提供了一个"智能的度量衡"。
2010 年和 2011 年的 ILSVRC 冠军都使用了传统的特征工程方法(如 SIFT + Fisher Vector + SVM),错误率在 25%-28% 之间。没有人预料到,2012 年将发生什么。
四、GPU:游戏显卡变成 AI 引擎
从像素到矩阵
深度学习的另一块拼图是计算能力。训练一个深度网络需要在海量数据上反复进行矩阵乘法和梯度计算——这恰好是图形处理单元(GPU)最擅长的事情。
GPU 最初是为游戏渲染设计的——把三维模型转换成屏幕上的像素需要大量的并行浮点运算。AI 研究者很早就注意到了这种并行能力,但在 2006 年之前,在 GPU 上编程极其痛苦——需要把计算任务伪装成"渲染管线"中的图形操作。
2006 年底,NVIDIA 宣布了 CUDA(Compute Unified Device Architecture)平台,并于 2007 年正式发布,第一次允许开发者用类似 C 语言的方式直接编写 GPU 通用计算程序。NVIDIA 的 CEO 黄仁勋做出了一个后来被证明极具远见的决定:不把 GPU 仅仅定位为游戏硬件,而是将其打造为通用的并行计算平台。
CUDA 的发布降低了 GPU 编程的门槛,吸引了一批 AI 研究者开始在 GPU 上训练神经网络。2009 年,斯坦福大学的吴恩达和他的学生发表了一项重要的实验成果,证明 GPU 训练深度网络的速度比 CPU 快了约 70 倍。这意味着原本需要几周的训练可以在几小时内完成——计算瓶颈被打开了一个缺口。
五、Watson 与 Siri:AI 重回公众视野
IBM Watson
2011 年 2 月,IBM 的沃森(Watson)系统在美国知名电视问答节目 Jeopardy! 中击败了两位传奇冠军——肯·詹宁斯(Ken Jennings)和布拉德·鲁特(Brad Rutter)。
Watson 与深蓝截然不同。深蓝靠暴力搜索解决一个规则明确的封闭问题;Watson 则需要理解自然语言中的双关语、隐喻和文化引用,在开放领域的知识库中检索答案。它的技术栈是一个复杂的混合体——包含信息检索、自然语言处理、机器学习和知识图谱等多种方法。
Watson 的胜利是 AI 重回公众视野的重要时刻。它证明了 AI 不仅能在棋盘游戏中击败人类,还能在需要"常识"和语言理解的任务中竞争——尽管 Watson 的"理解"仍然是统计性的,而非真正的语义理解。
Siri
同年 10 月,苹果公司(Apple)在 iPhone 4S 上推出了 Siri——第一个被主流消费者广泛使用的语音助手。Siri 的技术基础来自斯坦福研究院(SRI International)的 CALO 项目,由 DARPA 资助。
Siri 的准确率以今天的标准衡量并不出色,但它的意义在于产品化——它第一次让普通人每天都在和一个"AI"互动。语音识别、自然语言理解、对话管理——这些在学术论文中讨论了几十年的技术,终于变成了口袋里的工具。
Watson 和 Siri 共同完成了一件事:让"AI"这个词在公众话语中从贬义变回了褒义。这为即将到来的深度学习浪潮创造了有利的舆论环境。
六、暗流与伏笔
第一,三大要素在汇聚。 深度学习的爆发需要三个条件同时成熟:算法(深度信念网络、反向传播的改进)、数据(ImageNet、互联网规模的数据集)、算力(GPU + CUDA)。到 2012 年,这三个条件第一次同时具备了。这不是巧合,而是各自独立发展了数十年的技术线在一个时间点上的汇合。
第二,学术权力结构即将被颠覆。 2006-2012 年的 AI 学术界仍然由 SVM、核方法和概率图模型主导。顶级会议(如 NeurIPS、ICML)的审稿人大多对神经网络持怀疑态度。辛顿、杨立昆、本吉奥在这个生态中是"异类"。但 2012 年 AlexNet 的胜利将彻底翻转这个格局——从那以后,不做深度学习的研究者反而成了少数派。
第三,产业界准备好了。 谷歌、Facebook(现 Meta)、微软、百度等科技巨头在 2010 年代初都已经积累了海量用户数据,并且有足够的计算基础设施来训练大规模模型。它们需要的只是一种能够有效利用这些资源的方法——深度学习恰好就是这种方法。
第四,一场竞赛即将改变一切。 2012 年 9 月,辛顿的两名学生——克里热夫斯基和苏茨克维——将在 ImageNet 挑战赛上提交一个名为 AlexNet 的深度卷积神经网络。它的错误率将比第二名低 10 个百分点以上——一个如此巨大的差距,以至于评委最初以为数据出了错。那一刻,深度学习从前夜进入了黎明。
七、年表
| 年份 | 事件 | 关键人物 |
|---|---|---|
| 2004 | 辛顿说服 CIFAR 设立神经计算研究项目 | 辛顿 |
| 2006 | 辛顿发表深度信念网络论文,"深度学习"一词开始回归 | 辛顿 |
| 2007 | NVIDIA 正式发布 CUDA 平台,GPU 通用计算成为可能 | 黄仁勋 |
| 2007 | ImageNet 项目在普林斯顿大学正式启动 | 李飞飞 |
| 2009 | ImageNet 数据集首次发布 | 李飞飞 |
| 2009 | 吴恩达团队证明 GPU 训练神经网络比 CPU 快约 70 倍 | 吴恩达 |
| 2010 | 首届 ImageNet 大规模视觉识别挑战赛(ILSVRC)举办 | 李飞飞 |
| 2011 | IBM Watson 在 Jeopardy! 中击败人类冠军 | — |
| 2011 | 苹果发布 Siri,第一个主流消费级语音助手 | — |
| 2012 | AlexNet 以压倒性优势赢得 ILSVRC,深度学习革命爆发 | 辛顿、苏茨克维 |
太史公曰
深度学习前夜的故事,是少数人对抗主流的故事。辛顿在多伦多坚守了三十年,杨立昆在纽约独自耕耘,本吉奥在蒙特利尔默默积累——他们不是因为看到了确切的未来才坚持的,他们只是拒绝接受"神经网络已死"这个结论。李飞飞在所有人都觉得"几千张图片够了"的时候,执意标注了一千四百万张。黄仁勋在所有人都觉得 GPU 只是游戏硬件时,把 CUDA 变成了通用计算平台。这些选择在当时看起来都不太理性——资助难拿,论文难发,同行不屑。但回头看,正是这些"不理性"的坚持,为 2012 年的爆发准备了全部弹药。历史从不奖赏跟风者。它奖赏那些在寒冬中仍然种树的人。
亲历者说
征集中
如果你了解这段历史的第一手资料或亲历者回忆,欢迎提交贡献。
参考资料
- Hinton, G. E., Osindero, S., & Teh, Y. W. (2006). "A Fast Learning Algorithm for Deep Belief Nets." Neural Computation, 18(7), 1527–1554.
- Deng, J., Dong, W., Socher, R., Li, L., Li, K., & Fei-Fei, L. (2009). "ImageNet: A Large-Scale Hierarchical Image Database." CVPR 2009.
- Raina, R., Madhavan, A., & Ng, A. Y. (2009). "Large-scale Deep Unsupervised Learning using Graphics Processors." ICML 2009.
- Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). "ImageNet Classification with Deep Convolutional Neural Networks." NeurIPS 2012.
- Ferrucci, D. et al. (2010). "Building Watson: An Overview of the DeepQA Project." AI Magazine, 31(3), 59–79.
- Nickolls, J., Buck, I., Garland, M., & Skadron, K. (2008). "Scalable Parallel Programming with CUDA." ACM Queue, 6(2), 40–53.
- LeCun, Y., Bengio, Y., & Hinton, G. (2015). "Deep Learning." Nature, 521, 436–444.
- Russakovsky, O. et al. (2015). "ImageNet Large Scale Visual Recognition Challenge." IJCV, 115(3), 211–252.
- Bengio, Y. (2009). "Learning Deep Architectures for AI." Foundations and Trends in Machine Learning, 2(1), 1–127.
- Nilsson, N. J. (2009). The Quest for Artificial Intelligence. Cambridge University Press.