人工智能发展简史3:深度学习的萌芽与探索(1950-1980 年代)
1950-1980 年代是深度学习萌芽期。1950 年,青蛙视网膜神经元刺激选择性反应的发现,为感知机奠定生物基础;1957 年罗森布拉特发明感知机,1958 年造首台硬件感知机并发论文,其确立监督学习范式但仅处理线性问题。1969 年明斯基等指感知机无法解决非线性问题,莱特希尔报告致 1974-1980 年 AI 寒冬,神经网络研究停滞。1974 年沃波斯提反向传播算法未受重视,1986 年鲁梅
1 感知机的诞生:神经网络的起点
深度学习的故事要从 1950 年代说起。1950 年,两位科学家从青蛙的视觉系统中发现了一个惊人的现象:青蛙的视网膜神经元对外界刺激表现出高度的选择性反应。这一发现为后来的感知机理论奠定了生物学基础。
图 1从青蛙的视网膜神经元对外界刺激表现出高度的选择性反应
真正的突破发生在 1957 年。弗兰克・罗森布拉特(Frank Rosenblatt),这位心理学家出身的科学家,在康奈尔航空实验室发明了具有划时代意义的感知机(Perceptron)。感知机是一种基于生物神经元工作原理的人工神经网络,被认为是现代人工神经网络的开端
罗森布拉特的感知机不仅仅是一个算法概念,更是一个实实在在的硬件装置。1958 年,他成功制造出了世界上第一台硬件感知机 ——Mark I 感知机。这台机器由 400 个光电传感器模拟视网膜,通过机械装置调整权重,能够实时处理图像数据。在一次著名的演示中,每当这台机器猜错时,技术员就会用电击 "惩罚" 它一下。经过大约 50 次 "试错" 之后,这台机器竟然百分之百地 "学会了" 如何正确区分左右。
图 2弗兰克·罗森布拉特士在“感知机”上工作,他将其称作第一台“具有原创思想能力的机器”
1958 年,罗森布拉特在《The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain》一文中正式发表了感知机的研究成果。这篇论文的发表在当时引起了巨大轰动,媒体将感知机渲染为 "会学习的电子大脑",预言它很快就能识别照片中的人脸、阅读手写文字,甚至理解人类语言
感知机的核心思想是通过权重调整机制实现学习功能。它使用单位阶跃激活函数,如果输入大于 0 则输出为 1,否则为 0。这种简单的二元分类器虽然只能处理线性可分的模式识别问题,但却首次在工程上实践了神经元学习思想,确立了监督学习范式。
2 第一次 AI 寒冬:理想与现实的巨大落差
然而,感知机的辉煌并没有持续太久。1969 年,人工智能领域的权威人物马文・明斯基(Marvin Minsky)和西摩尔・帕尔特(Seymour Papert)出版了一本具有毁灭性影响的专著 ——《感知机》。在这本书中,他们用严格的数学证明指出了感知机的根本局限性:它无法解决异或(XOR)等非线性问题
图 3《感知机》
更糟糕的是,明斯基和帕尔特对多层神经网络的前景也持悲观态度,认为增加网络层数并不能从根本上解决问题。作为人工智能领域的泰山北斗,明斯基的权威性无可置疑。他的批判仿佛堵死了连接主义的道路,导致研究经费迅速枯竭,学术兴趣急剧转向符号主义方法。
与此同时,英国应用数学大师詹姆斯・莱特希尔爵士在给英国科学研究委员会的报告中,用详尽的数据批判了 AI 产业的发展现状,断言 "人工智能研究没有带来任何重要影响"。这份报告引发了西方各国政府大幅度削减 AI 研究经费,AI 领域陷入了长达十年的第一次寒冬(1974-1980 年)
在这场寒冬中,神经网络研究几乎完全停滞。许多研究项目被放弃,研究者被迫转向专家系统等符号主义方法。罗森布拉特本人也于 1971 年因船难英年早逝,年仅 43 岁,他的离去象征着早期连接主义探索的彻底沉寂。
3 反向传播算法:寒冬中的技术火种
尽管处于寒冬期,但仍有少数研究者坚持在神经网络领域进行探索。1974 年,保罗・沃波斯(Paul Werbos)在其博士论文中首次完整描述了反向传播算法,为多层神经网络的训练提供了理论基础然而,这一重要成果在当时并未引起足够重视。
反向传播算法的核心思想是通过误差的反向传播来调整网络权重。具体来说,算法首先进行前向传播计算输出结果,然后计算输出误差,接着通过链式法则逐层反向传播误差,最后根据误差梯度调整各层权重这种方法将调整网络权值的运算量从原来的与神经元数目的平方成正比,下降到只和神经元数目本身成正比,极大地提高了训练效率
直到 1986 年,这一算法才真正迎来了它的春天。大卫・鲁梅尔哈特(David E. Rumelhart)、杰弗里・辛顿(Geoffrey E. Hinton)和罗纳德・威廉姆斯(Ronald J. Williams)在《Nature》杂志上发表了具有里程碑意义的论文《Learning representations by back-propagating errors》,系统阐述了反向传播算法在多层神经网络中的应用。
图 4《Learning representations by back-propagating errors》
这篇论文的发表标志着深度学习的真正复兴。反向传播算法的成功应用解决了多层神经网络训练的难题,使得网络能够学习复杂的非线性函数,为后续的深度神经网络发展奠定了坚实基础。
更多推荐
所有评论(0)