人工智能、机器学习与神经网络原理解析:从达特茅斯会议到现代AI

引言:我们为何需要了解AI?

人工智能、机器学习、神经网络、GPT、大语言模型、生成式AI……这些词汇频繁出现在商业报道和日常生活中。你是否对它们的发展脉络、渊源和基本原理感到好奇?在万物皆可AI的时代,你是否担心被“割韭菜”或被动失业?

本视频旨在为零基础的观众理清人工智能的来龙去脉。

第一部分:智能的本质与人工智能的起源

1.1 什么是智能?

在日常生活中,我们如何判断一个物体是否拥有智能?

  • 当你对小狗发出“坐”的指令,它便坐下;你骂它,它会一脸幽怨。此时,我们认为这只小狗“有灵性”、“有智能”。

  • 相比之下,无论你如何呼唤一块石头,它都无动于衷,因此它是“无生命”的。

核心定义:智能的本质,就是通过收集信息,针对不同的情景作出针对性的反应。

生物学例证:中学实验中观察草履虫的应激性。在培养液一端滴肉汁,草履虫会聚集过去;加入盐粒,它们会四散逃跑。这种“趋利避害”的行为,便是最基础的智能体现。一旦草履虫失去这种反应,便意味着生命的终结,智能也随之消失。

1.2 从智能到人工智能

既然智能是“看情况做事”,那么人工智能 就是搭建一个能够根据不同的环境信息(输入),给出针对性输出和回应的系统。

  • 输出的形式:可以是动作、语言,也可以是一种判断或预测。

  • 实例:

    • 人脸识别:根据不同的人脸,反馈出对应的身份信息。

    • AlphaGo:针对复杂的棋局,给出最佳落子位置以争取胜利。

    • GPT:根据上文的语境和任务要求,生成合乎逻辑的对话和解决方案。

反例:如果上述系统出现混乱的输出(如把人全认成张三、在棋盘上乱下、回答牛头不对马嘴),那么它们就成了“Artificial Idiot”(人工智障)。

1.3 智能的数学化表述

智能的本质是一个不会乱来的“黑箱”。

用数学语言描述:智能就是找到情景信息(输入)与我们期望的智能行为(输出)之间的函数对应关系。

正如数学家Thomas Garrity在激情演讲中所言:“函数描述了世界!” 声音的传播、光的感知、矩阵的运算,世间万物都可以被函数所描述。

图灵测试的实质:如果人类无法区分对话的另一端是人还是AI,那么就认为这个AI具备了人类级别的智能。这正是在说,AI所实现的输入-输出函数关系,与人类没有区别。

1.4 人工智能的起点:达特茅斯会议

  • 时间与人物:1956年,包括麦卡锡、闵斯基、罗切斯特、香农等在内的十余位顶尖科学家齐聚达特茅斯学院。

  • 议题:如何制造出一种可以不断学习并模拟人类智能的机器?

  • 历史地位:这场为期一个多月的小型会议,被视为人工智能领域的起点。此后战胜李世石的AlphaGo、现今广泛应用的GPT,其思想源头皆在于此。

  • 荣誉:该领域在2018年获得图灵奖,并在今年(指视频制作年份)斩获诺贝尔物理学奖和化学奖。


第二部分:实现人工智能的三大流派

如何构建一个聪明的“黑箱”?科学家们提出了不同思路。

2.1 符号主义 - 基于逻辑与规则的推理

  • 核心思想:智能可以用符号的逻辑推理来模拟。人类的思考过程可以像算术一样,通过符号和规则计算出来。

  • 工作方式:

    • 将知识表示为逻辑规则(例如:IF 阴天(a)=True AND 湿度>70%(b)=True THEN 将要下雨(t)=True)。

    • 系统根据输入的事实(a和b为真),通过规则推导出结论(t为真)。

  • 成功典范:专家系统。

    • 原理:咨询人类专家,将领域知识(如疾病症状与诊断的对应关系)转化为大量规则。

    • 应用:曾在疾病诊断、金融咨询领域取得巨大成功。

  • 致命缺陷:

    • 规则模糊性:现实世界很多情况没有清晰规则,不同专家意见可能相左。

    • 能力上限:系统只能复制人类已有经验,无法超越专家水平,且一旦设计完成,能力便固化,难以持续学习进步。

2.2 联结主义 - 仿造大脑的神经网络

  • 核心思想:大自然已给出实现智能的答案——人类大脑。通过模拟神经元及其连接,构建人工神经网络,从而涌现出智能。

  • 灵感来源:生物神经元。树突接收信号,轴突传递信号,当总刺激超过阈值时,神经元“激活”。

2.3 机器学习 - 让机器自我学习的框架

  • 核心思想:不追求一开始就有完美的黑箱,而是允许黑箱不断变化,通过引导和学习,使其在特定任务上表现越来越好。这是一种“成长型心态”。

  • 生动类比:训狗。

    • 发出“坐”的指令(输入)。

    • 如果狗坐下(期望输出),给予狗粮奖励(正向激励)。

    • 如果狗无动于衷(错误输出),给予轻微惩罚(负向激励)。

    • 经过反复训练,狗学会了“坐”的指令与“坐下”行为之间的对应关系。

  • 机器学习的实现:将学习主体从狗变为机器。通过奖励(降低损失函数)和惩罚(增加损失函数),让机器自主调整内部参数,学会解决特定任务。

  • 强大之处:无需专家知识人为构建黑箱内部结构,仅需两样东西:

    • 一个强大且有学习能力的黑箱(模型)。

    • 足够多的数据。


第三部分:神经网络——万能黑箱的构造与演进

3.1 从感知机开始:最简单的智能单元

  • 基础概念:如何识别一个苹果?我们通过组合其特征(大小、颜色、气味等)来判断。

  • 感知机模型:

    • 输入:各种特征(如尺寸、颜色、甜度)。

    • 处理:每个特征乘以一个系数(权重)。正向特征(如红色、甜)乘正数,负向特征(如酸味)乘负数。

    • 求和与激活:将所有加权特征求和,减去一个阈值(b)。若结果大于0,则激活(输出1,表示是苹果);否则不激活(输出0,表示不是苹果)。

  • 灵活性:通过调整权重和阈值,同一个感知机可以用于识别不同的水果(如西瓜、山楂)。这个过程称为模式识别。

  • 与符号主义的渊源:早期神经网络(感知机)的设计很大程度上借鉴了逻辑推理,是用数值计算模拟逻辑。

  • 与神经科学的巧合:感知机的数学模型(输入加权求和、与阈值比较、决定是否激活)与生物神经元的活动模式高度相似。该模型最早由Pitts和McCulloch于1943年提出。

3.2 感知机的辉煌与寒冬

  • 第一台感知机:1957年,康奈尔大学的罗森布拉特制造出第一台能实际应用的感知机,用于判断图片中是男/女,或左/右箭头。

  • 意义:解决了计算机视觉中的一个核心难题——让计算机从像素数值矩阵中理解图像内容。

  • 过度乐观:媒体将感知机誉为“电子大脑”,乐观预测其很快将能识别人脸、实时翻译。这反映了人类对新兴技术常有的浪漫化想象。

  • 致命打击:1969年,马文·闵斯基在《感知机》一书中指出,感知机连最基本的“异或”逻辑运算都无法实现。

    • 异或问题:当两个输入相同时输出0,不同时输出1。

    • 根源:单个感知机在几何上是一条线性分类器(一条直线),无法用一条直线将异或的四种情况完美分开。

  • 后果:在权威的唱衰下,联结主义研究陷入长达数十年的寒冬,神经网络被视为“骗子的玩物”。

3.3 多层感知机与神经网络的复兴

  • 解决方案:既然一个神经元不行,那就将多个神经元组合起来,形成多层感知机。

  • 解决异或问题:

    • 第一层:两个神经元,分别学习识别输入(1,0)和(0,1)这两种模式。

    • 第二层:将第一层两个神经元的输出作为输入,通过加权组合,最终在(1,0)和(0,1)时激活,实现异或功能。

  • 万能近似定理:只要神经网络的深度(层数)和宽度(每层神经元数)足够大,理论上它可以拟合任何复杂的函数,表达任何一种智能所需的输入-输出关系。

  • 层次化概念理解:

    • 浅层神经元:识别基础特征(如笔画、边缘)。

    • 中层神经元:组合基础特征,形成复杂概念(如圆形、横线)。

    • 深层神经元:组合复杂概念,识别整体模式(如数字“9”是由一个圆形加一个右下角的尾巴构成)。

  • 网络结构的演进:

    • 卷积神经网络:受视觉系统启发,引入局部连接和权值共享,大幅减少参数,提升图像处理性能。

    • 残差网络:引入跳跃连接,解决深层网络训练困难的问题。

    • Transformer:当今GPT系列模型的基础架构,核心是注意力机制。


第四部分:神经网络的训练——梯度下降与反向传播

4.1 目标:找到“最好”的函数参数

  • 问题定义:智能的本质是找到一个函数,很好地拟合给定数据点所暗示的输入-输出关系。

  • 损失函数:用于定量衡量模型预测与真实值之间差距的函数。

    • 常用方法:最小二乘法,即所有数据点预测误差的平方和。

    • 核心思想:掌握规律 ≈ 损失函数很小。

  • 优化问题:训练神经网络就是寻找一组参数(权重和阈值),使得损失函数的值最小。对于GPT-3这样的模型,这意味着要同时调节1750亿个“旋钮”,是一个极其复杂的非凸优化问题。

4.2 梯度下降:在迷雾中下山

  • 场景比喻:你身处一座复杂地形的高山,大雾弥漫,只能感知脚下斜坡的陡峭程度。目标是以最有效的方式下到山谷(损失函数最低点)。

  • 核心思想:

    • 计算梯度:梯度是一个向量,指向当前位置函数值增长最快的方向。反之,负梯度方向就是函数值下降最快的方向。

    • 沿负梯度方向移动:向这个方向走一小步。

    • 迭代:重复步骤1和2,直至收敛。

  • 偏导数:对于多参数(多旋钮)情况,梯度由每个参数各自的偏导数组成。它表示固定其他参数时,损失函数随单个参数变化的变化率。

4.3 反向传播:高效计算梯度的引擎

  • 挑战:在复杂的多层神经网络中,如何高效地计算出损失函数对于所有数百万乃至数十亿参数的梯度?

  • 核心原理:链式法则。

    • 复合函数求导:如果 y = f(g(x)),那么 yx 的导数等于 fg 的导数乘以 gx 的导数。

    • 在神经网络中:从最终损失函数开始,利用链式法则,将梯度从输出层向后,一层一层地反向传播,直至输入层。在这个过程中,每一层只需要计算本地、基础的导数。

  • 总结:

    • 用反向传播计算每个参数的梯度。

    • 用梯度下降沿着梯度方向更新参数。

    • 循环迭代,使神经网络逐渐“学会”数据中的规律。


第五部分:神经网络的能力、局限与未来

5.1 泛化能力:举一反三的奥秘

  • 定义:泛化 是指模型对未在训练集中出现过的新数据做出准确预测的能力。

  • 类比:学生不仅会做练习册上的原题,还能解出从未见过的同类型新题。

  • 原理:模型通过学习数据中潜在的、底层的规律和趋势,而非死记硬背具体数据点,从而具备了推广能力。

  • 意义:正是强大的泛化能力,使得神经网络能够应用于围棋、自然语言处理、蛋白质结构预测等需要处理无限可能输入的复杂领域。

5.2 神经网络的局限性

  1. 相关不等于因果:

    1. 梗图示例:“如何区分柴犬和面包?”模型可能仅因两者都是“黄色”、“长条形”而错误分类。

    2. 现实危害:在预测犯罪等社会应用中,模型可能错误地将种族、性别等关联特征视为犯罪原因,加剧社会偏见。

  2. 黑箱特性:神经网络内部决策过程极其复杂,难以理解和解释。我们通常不知道它究竟基于什么做出了判断。

  3. 对抗样本:

    1. 现象:对一张熊猫图片添加人眼难以察觉的、精心构造的噪声后,模型会以高置信度将其识别为“乌龟”。

    2. 含义:揭示了神经网络感知世界的方式与人类存在根本性差异,其底层可能存在人类无法理解的“特征开关”,使其脆弱且不可控。

5.3 AI与就业:替代还是变革?

  • 可能受冲击的领域:数据充足、模式固定、重复性高的工作。例如:

    • 文秘、翻译、基础财务、底层程序员、模式化插画/摄影等。

  • AI的当前不足:

    • 在处理超出训练范围的全新、复杂问题时表现不佳。

    • 生成内容常缺乏人类情感的深度、模糊性和真正的创造性。

    • 在现实物理世界中的交互能力(如自动驾驶、机器人)发展缓慢。

  • 未来的工作形态:

    • 工作性质改变而非完全取代。AI将承担繁琐、基础性工作,人类则转向监督、决策、管理和提供真正创意的角色。

    • 人机协同:例如,AI生成初稿和素材,人类进行优化和创意深化;AI辅助科研计算和写作,人类提出核心思想和研究方向。

  • 总结:AI是一场革命,关键在于积极适应变化,提升自身技能,学会与AI协同工作。人类的创造力、情感和复杂情境下的智慧,目前仍是AI难以逾越的高地。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐