小白AI初学习
在输入边界填充零,控制特征映射的尺寸,防止信息过快流失,补零后叫做宽卷积,不补零叫做窄卷积。例如,一个3x3卷积核在不补零的情况下,输入一张256x256的图片,经过一层卷积,变成254x254,再经过一层,变成252x252)。是附加在神经元输出上的一个可学习的常数值,在一个神经元(或一个卷积核)的计算中,其标准操作是:①加权求和:输入数据与权重参数相乘后相加。针对数据的内在特性(如图像的空间局
目录
1、初步认识人工智能、机器学习、深度学习
1.1 人工智能、机器学习与深度学习的关系

三者直接是包含关系:
人工智能(AI)是一个最宽泛的概念,旨在让机器具备智能。
机器学习(ML)是实现AI的一种核心方法,即让机器从数据中自动学习规律,下小节再具体说一下机器学习。
深度学习(DL)是机器学习的一个子领域,使用深层神经网络模型,其在2010年前后,借助大数据、强算力(如GPU)和先进算法实现爆发,取得了突破性进展。
核心要素:
数据(基础)、算法(核心)、算力(引擎)、场景(目标)。
1.2 机器学习基本介绍
机器学习的本质是从基于规则到基于学习的范式转变。
早期AI系统(基于规则)依赖人类专家编写明确的逻辑判断(如“如果…则…”),这难以处理复杂、模糊或未知的规则。机器学习则通过从历史数据中自动归纳模型,解决了规则难以显性描述的难题,实现了从“编程”到“学习”的跨越。
机器学习是一种方法,它让计算机系统能够:
- 从“训练数据”(历史样本)中学习,自动构建一个“模型”。
- 然后利用该模型对“新的数据”进行预测或决策。

典型应用场景例如:
- 回归:预测连续值,如飞机滑行距离。
- 分类:判断类别,如信号是否异常。
- 聚类:对数据进行分组,如区分消费者群体。
2、机器学习介绍
2.1机器学习的基本术语和基本概念
2.1.1数据相关
数据集:用于机器学习任务的所有数据的集合。
样本:数据集中的每一条独立数据记录。
特征:描述样本的属性集合(如色泽、根蒂)。
特征值:样本在某个特征上的具体取值(如“青绿”、“蜷缩”)。
标签/目标值:样本的预测目标,在分类中是类别(如“好瓜”),在回归中是数值。
例如:

2.1.1.1数据集的划分
为了客观评估模型,需将原始数据集划分为:
训练数据集:用于训练模型,调整模型内部参数。
验证数据集:在训练中用于评估模型性能,调整模型超参数(如学习率),防止过拟合。
测试数据集:在模型训练完成后,用于最终、独立的性能评估,反映模型的真实泛化能力。
这种划分是机器学习实践的关键,确保了评估的公正性。测试集在训练过程中应完全“不可见”,否则评估结果会过于乐观,失去参考价值。当数据量较小时,常使用交叉验证来更充分地评估模型。
2.1.2误差与拟合
误差:模型预测值与真实值之间的差异。
训练误差:模型在训练集上的误差。
测试误差/泛化误差:模型在新样本(测试集)上的误差。
欠拟合:模型过于简单,训练误差和测试误差都很大。它没有学到数据中的基本规律。
过拟合:模型过于复杂,训练误差很小,但测试误差很大。它过度学习了训练数据中的噪声和细节,导致泛化能力差。
欠拟合和过拟合是机器学习中的核心矛盾。一个好的模型需要在“记忆训练数据”和“泛化到新数据”之间取得平衡。实践中,常通过增加数据、简化模型、正则化等方法来缓解过拟合。

损失函数:是量化模型预测“错误程度”的数学工具。模型训练的目标就是最小化损失函数。例如:
分类任务的损失函数示例:0-1损失,预测错误为1,正确为0。
回归任务的损失函数示例:绝对值损失,预测值与真实值差距超过阈值T记为1,否则为0。
2.1.2评估
基于混淆矩阵(Confusion Matrix)计算得出:
|
预测为正类 |
预测为负类 |
|
|
实际为正类 |
True Positive (TP) |
False Negative (FN) |
|
实际为负类 |
False Positive (FP) |
True Negative (TN) |
精确率:在所有预测为正的样本中,预测正确的比例。P = TP / (TP + FP)。其关注预测的准确性,例如垃圾邮件过滤(不希望把正常邮件判为垃圾邮件)。
召回率:在所有实际为正的样本中,被预测出来的比例。R = TP / (TP + FN)。关注查全率,例如疾病诊断(不希望漏掉任何病人)。
准确率:所有样本中,预测正确的比例,ACC = (TP + TN) / (TP+FP+TN+FN)。
F1-Score:精确率和召回率的调和平均数,是综合考量指标。
2.1.2.1ROC曲线与AUC
ROC曲线:以假正率FPR = FP / (FP+TN)为横轴,真正率TPR = TP / (TP+FN)(即召回率)为纵轴绘制的曲线。
AUC:ROC曲线下的面积。AUC值越接近1,模型性能越好。它衡量的是模型整体上将正例排在负例前面的能力。
精确率和召回率通常相互矛盾,需要根据具体业务场景权衡。例如,在金融风控中,对精确率要求高(误伤好用户代价大);在癌症筛查中,对召回率要求高(漏诊代价大)。ROC-AUC的优势在于对类别不平衡不敏感。
2.2机器学习类型与方法
2.2.1主要类型
机器学习主要分为两大类,区别在于数据是否有“标签”:
|
类型 |
输入数据 |
学习目标 |
典型算法 |
|
有监督学习 |
带有标签的数据 |
学习输入到标签的映射关系,用于预测新数据的标签。 |
分类:逻辑回归、SVM、决策树、随机森林、朴素贝叶斯、KNN、神经网络。 |
|
无监督学习 |
不带标签的数据 |
发现数据内部的结构、模式或分布。 |
聚类:K-Means、层次聚类、密度聚类。 |
有监督学习是当前应用最广的范式,但它依赖于大量高质量的标注数据,而数据标注成本高昂。无监督学习能探索数据的底层结构,是通向更高阶智能(如自主发现知识)的重要途径。
半监督学习和强化学习是其他分支。
2.2.1.1分类
分类是监督学习中最常见的任务,分类把不同数据划分开,旨在根据已知数据特征,为新的数据点分配一个离散的类别标签。
核心过程:通过训练数据集学习一个分类器,再用该分类器对未知数据进行预测。其核心是学习决策边界。

任务类型:
二分类:输出只有两种可能,如“男生/女生”、“垃圾邮件/正常邮件”、“西瓜甜/不甜”。
多分类:输出为多个类别之一,如“水果种类(苹果、香蕉、橙子)”、“动物种类”。
典型算法:
K近邻:基于距离度量,将新样本归类为其最邻近的K个样本中最普遍的类别。思想简单直观,但计算开销大。
决策树:通过一系列基于特征的“if-else”规则对数据进行划分,最终到达的叶子节点即为预测类别。模型具有可解释性。
2.2.1.2回归
回归是一种预测建模技术,研究自变量和连续型因变量之间的关系,预测连续变化的趋势,旨在预测一个连续型目标变量的值。
核心思想:找到一条(或一个超平面)最佳拟合已知数据点的曲线或函数,从而对新的输入值进行数值预测。

典型问题:“明天温度是多少?”、“房价预测”、“股票涨跌幅度”。
与分类的关键区别:回归的输出是连续的数值,而分类的输出是离散的标签。例如,预测明天是“冷”或“热”是分类,预测具体温度是“35.6℃”是回归。
模型复杂度:线性回归(一次)拟合简单趋势,而高次多项式能拟合更复杂的曲线,但需警惕过拟合风险——模型过度贴合训练数据中的噪声(数据中那些不遵循任何潜在规律、无法预测的随机波动或错误),导致在新数据上表现不佳。
2.2.1.3聚类
聚类是一种无监督学习任务,其发现数据内在的群组结构,目标是在没有预先定义标签的情况下,将数据中相似的对象自动划分到不同的组(簇)中。
核心目标:“物以类聚,人以群分”。其过程不关心每个簇的具体语义(即“这一簇叫什么”),只关心聚合的客观标准——相似性。
典型应用:市场细分(哪些客户偏好相似?)、社群发现、图像分割、异常检测(与其他点都不同的簇)。
经典算法:K-Means:算法首先随机初始化K个中心点,接着通过不断迭代“分配点-更新中心”的步骤,最终将数据划分为K个簇,使得同一簇内数据点相似度高,不同簇间相似度低。
2.2.2主要流程
一个完整的机器学习项目遵循一个迭代、循环的流程:
- 数据收集:获取与业务问题相关的原始数据。约占20%工作量。
- 数据清洗与组织:处理缺失值、异常值、格式标准化等。这是最耗时、最关键的步骤,约占60%的精力。数据质量直接决定模型性能上限!
- 特征提取与选择:从原始数据中构建和筛选出对预测目标最有信息量的特征。这需要领域知识,约占9%精力。
- 模型训练:使用训练集数据,通过算法学习模型参数。约占4%精力。
- 模型评估与测试:使用验证集调优,使用测试集进行最终性能评估。约占4%精力。
- 模型部署与整合:将训练好的模型投入实际生产环境,提供服务。约占3%精力。
其中模型综合构建流程:

3、从机器学习到深度学习
3.1传统机器学习:依赖“特征工程”
传统机器学习流程:原始数据 → 人工设计、提取特征 → 将特征向量输入机器学习模型(如SVM、逻辑回归)。

关键局限:模型的性能上限极度依赖于特征的质量。这要求从业者必须是领域专家+数据专家,需要花费大量时间与精力在“特征工程”上。对于图像、语音、文本等非结构化数据,人工设计有效特征异常困难。
3.2 深度学习:实现“表示学习”
深度学习流程:原始数据(如图像像素) → 输入深度神经网络 → 网络自动从数据中逐层学习从低阶到高阶的特征表示 → 最终输出结果。
相比较于传统机器学习的核心突破:深度学习,特别是卷积神经网络,能够端到端地进行学习。


- 浅层卷积核可能学习到边缘、角点等基础特征。
- 中层卷积核可能组合出纹理、部件等复杂模式。
- 深层卷积核则可能对应整个物体或高级语义概念。
范式转变:深度学习将重心从人工设计特征转移到了设计能自动学习特征的网络结构上。这是其成功处理非结构化数据的根本原因。但是这种转变并非替代,而是扩展。深度学习并非在所有任务上都优于传统机器学习。对于小样本、高维度、结构化数据,传统方法(如树模型)可能更高效、更可解释。深度学习的优势在于能从海量原始数据中自动挖掘出潜在的复杂模式。
4、深度学习介绍
4.1 神经网络的基本构成
神经网络受生物神经元(树突、细胞体、轴突)启发,有以下构成:
神经元:基本计算单元,进行加权求和与非线性变换。
层:神经元构成输入层、隐藏层、输出层。
网络:多层连接形成网络。图中清晰展示了随着隐藏层数增加,模型能拟合极其复杂的非线性决策边界,这是深度学习“深度”力量的直观体现。
4.2 单层感知机及其局限
结构:一种最简单的神经网络,无隐藏层。其公式为 y=∑wixi+b,本质上是一个线性分类器。

根本缺陷:单层感知机无法解决线性不可分问题(如经典的“异或”问题)。
4.3 多层感知机与非线性激活
结构突破:基于单层感知机,在输入与输出层之间引入一个或多个隐藏层,并引入如Tanh、ReLU等非线性激活函数。

理论保证:万能近似定理——只需一个包含足够多神经元的隐藏层,MLP就能以任意精度逼近任何连续函数。这使得解决复杂非线性问题成为可能。
能力验证:使用一个仅含一个隐藏层(15个神经元)的三层MLP,在MNIST手写数字识别任务上达到了98%的准确率,证明了即使简单深度模型的有效性。

4.4 感知机的困境
尽管MLP功能强大,但当面对图像这类高维、结构化数据时,其结构性缺陷还是很大。
例如将一张3x256x256的彩色图片“展平”为一维向量(196608维)输入全连接网络。与下一层哪怕只有1000个神经元连接,也会产生近2亿参数,导致计算和存储......。
而且展平操作会破坏了图像的二维空间结构(局部相关性),导致空间信息丢失,而识别物体很依赖这种结构。
平移不变性缺失,全连接网络难以自然地学习“无论猫在图片何处,它都是猫”这一特性。
从单层感知机到多层感知机,是从线性模型到非线性模型的大进步;从多层感知机到卷积神经网络,则是从通用结构到专用、高效结构的飞跃。针对数据的内在特性(如图像的空间局部性、平移不变性)设计相应的网络结构(如CNN的卷积、池化操作),是深度学习取得突破性进展的关键。
4.5深度网络四大核心算子与全连接层
4.5.1卷积算子:特征探测器
卷积算子是处理图像、语音等网格化数据的核心,其灵感来源于视觉皮层中的“感受野”。
滤波器:其值是通过网络训练得到的。不同的滤波器学习检测不同的底层特征,如边缘、纹理、角点。
卷积操作:在原始图片上从左往右、从上往下按照一定的步数滑动卷积矩阵,并且在每个位置上,我们都对两个矩阵的对应元素相乘后得到一个整数,这就是输出矩阵的元素。
Convolved Feature:在原图上滑动滤波器、点乘矩阵所得的矩阵成为卷积特征、激励映射或者特征映射。
步幅:每次滑过的像素数,步幅增大,输出尺寸减小,相当于降采样。
深度:卷积操作中用到的滤波器的个数。
补零:在输入边界填充零,控制特征映射的尺寸,防止信息过快流失,补零后叫做宽卷积,不补零叫做窄卷积。(在标准的卷积操作中,每个卷积层都会使特征图的尺寸缩小。例如,一个3x3卷积核在不补零的情况下,输入一张256x256的图片,经过一层卷积,变成254x254,再经过一层,变成252x252)。
偏置项:是附加在神经元输出上的一个可学习的常数值,在一个神经元(或一个卷积核)的计算中,其标准操作是:①加权求和:输入数据与权重参数相乘后相加。②加上偏置:将上述结果再加上偏置项 b。③非线性激活:将最终结果传入激活函数(如ReLU)。
4.5.1.1单通道卷积
核心操作:一个可学习的滤波器(或卷积核)在输入数据上滑动。在每个位置,滤波器与输入的局部区域进行逐元素相乘后求和,得到一个输出值。遍历整个输入后,生成一张特征图。

关键特性:
局部连接:每个输出值只与输入的一个小局部区域相关,大幅减少参数。
权值共享:同一个滤波器扫过整张输入,意味着无论特征出现在何处,都用同一组参数检测,赋予了网络平移不变性。
4.5.1.2多通道卷积
在处理彩色图像(RGB三通道)或多层特征图时,卷积核的“深度”与输入通道数一致。它在所有通道上分别进行卷积后,将结果相加,并加上一个偏置项,最终生成单通道输出。使用多个滤波器,即可产生多通道的输出特征图。

4.5.2激活算子:非线性之源
如果只有线性卷积层的堆叠,那么整个网络仍然是一个巨大的线性变换,无法拟合复杂函数。激活函数(激励函数)引入了非线性,扩大了模型的表达能力。
常见类型:
Sigmoid:σ(x)=1/(1+e−x),将输入压缩到(0,1)。早期常用,但易导致梯度消失,且输出非零中心。
Tanh:tanh(x)=(ex−e−x)/(ex+e−x),将输入压缩到(-1,1),是零中心的,缓解了Sigmoid的部分问题,但仍存在梯度饱和。
ReLU:f(x)=max(0,x),当前最主流的激活函数。计算简单,能有效缓解梯度消失,并带来网络稀疏性。
为什么必须使用?
没有非线性激活函数(f(x)=x)的深层网络,其表达能力等价于单层线性网络,因为每一层的输入都是上层输出的线性函数。
引入非线性后,网络才真正具备了拟合任意复杂函数的潜力,这是深度学习“深度”力量得以发挥的前提,例如:
考虑一个3层全连接网络:


4.5.3池化算子:信息聚合与降维
池化层通常跟在激活层后,对特征图进行下采样,其没有可训练参数。
最大池化:在滑动窗口内取最大值作为输出。这是最常用的方式。

核心作用:
平移、旋转、尺度不变性:局部区域的最大值对这些微小形变相对鲁棒。
降维与扩大感受野:显著减少特征图尺寸,从而降低后续计算量和参数。同时,池化后的一个像素点代表了原图一个区域的信息,相当于在更大尺度上聚合特征。
防止过拟合:通过降低特征维度,提供了一种轻微的正则化效果。
4.5.4全连接层:全局推理与决策
在多次卷积-池化后,得到的高维特征图会被“展平”,输入到一个或多个全连接层。充当网络的“决策中心”,负责整合前方网络层提取的局部特征,并将其映射到最终的样本标记空间(如分类概率)。
作用:将前面卷积层提取的分布式、层次化特征,进行全局整合与映射,最终输出到样本的标记空间(如图像类别概率)。它是网络的“决策大脑”。
结构:层内神经元与上一层所有神经元相连,实现特征的全交互。
见解:全连接层参数量巨大,常占整个网络参数的绝大部分(如在VGG中)。它是模型容量和过拟合风险的主要来源。近年趋势是减少或替换全连接层,例如使用全局平均池化直接生成类别特征向量,这能大幅减少参数并提升泛化能力。
更多推荐


所有评论(0)