深度学习基础

1.深度学习定义

什么是深度学习

你可以把它们理解为  “人工智能(AI)”  这个大领域下的嵌套关系:
人工智能 > 机器学习 > 深度学习

  1. 人工智能(AI):目标是使计算机能够完成通常需要人类智能才能处理的任务,例如:感知(看、听、说)、推理(逻辑分析)、学习(从经验中进步)、决策(解决问题)等。
  2. 机器学习(ML):机器学习是人工智能的一种方法。它涉及到算法和统计模型使用,使得计算机系统能够从数据中‘学习’和改进任务的执行,而不是通过明确的编程来实现。机器学习包括多种技术,如线性回归,支持向量机(svm),决策树等
  3. 深度学习:深度学习机器学习中的一种特殊方法,它使用称为神经网络的复杂结构,特别是‘深层’的神经网络,来学习和做出预测。深度学习特别处理大规模和高维度的数据,如图形,声音和文本。
深度学习与机器学习区别
  • 传统机器学习算术依赖人工设计特征,并进行特征提取,而深度学习方法不需要人工,而是依赖算法自动提取特征。
  • 深度学习模仿人类大脑的运行方式,从经验中学习获取知识。这也是深度学习被看做黑盒子,可解释性差的原因
主要区别对比表
方面 机器学习 深度学习
1. 数据表示与特征工程 高度依赖特征工程。需要数据科学家手动提取、选择和构造对预测任务有用的特征(如“图片中眼睛的边长”、“音频的频率峰值”)。这是最关键且最耗时的一步。 自动学习特征。输入原始数据(如图像像素、音频波形、文本词序列),深层神经网络会自动在每一层学习并提取从低级到高级的抽象特征。
2. 算法与模型结构 使用各种相对“浅层”的算法模型。 使用基于人工神经网络的模型,特别是具有很多“层”的模型(“深度”由此得来)。
经典算法举例 经典模型架构举例
- 线性/逻辑回归 - 卷积神经网络(CNN,用于图像)
- 决策树、随机森林 - 循环神经网络(RNN),Transformer(用于序列数据,如文本、语音)
- 支持向量机(SVM) - 深度信念网络等
- K-最近邻等
3. 数据需求量 可以在中小型数据集上表现良好。数据量过大时,某些传统模型可能性能饱和或计算效率低。 通常需要海量数据(如数百万张图片)才能发挥其强大威力,避免过拟合。数据量少时,效果可能不如精心设计的机器学习模型。
4. 计算资源需求 通常对算力要求相对较低,可以在普通CPU上运行。 计算密集型,尤其是训练阶段。通常需要强大的GPUTPU进行并行计算,训练时间可能很长。
5. 可解释性 通常可解释性较好。例如,决策树的规则、线性回归的系数都可以被人类理解,便于调试和信任。 常被称为“黑箱” 。很难解释网络内部的数百万个参数是如何协同工作做出最终决策的,知其然不知其所以然。
6. 执行任务与性能 擅长处理结构化数据(表格数据),在任务逻辑相对清晰、特征明确的领域非常有效。 非结构化数据(图像、声音、文本、视频)上具有颠覆性优势,在图像识别、自然语言处理、语音识别等复杂感知任务上达到了前所未有的高度。
深度学习特征
  • 所有深度学习都是机器学习,但并非所有机器学习都是深度学习。深度学习的崛起源于其在处理特定类型的大数据问题上的卓越 能力,尤其是那些传统机器学习算法难以处理的复杂问题。然而,对于某些任务和数据集,更简单的机器学习方法可能更加有效 和适合。
  • 在深度学习的过程中,每一层神经网络都对输入数据进行处理,从而学习到数据中的特征和模式。例如,在图像识别任务中,第 一层可能会识别边缘,第二层可能会识别形状,更深的层则可能识别复杂的对象特征,如面孔。这些层通过大量数据的训练,逐 渐优化它们的参数,从而提高模型的识别或预测能力。
  • 深度学习的关键之一是“反向传播”算法,它通过计算损失函数(即实际输出与期望输出之间的差异)并将这种误差反馈回网络 的每一层,来调整每层的权重。这种方法使得网络能够从错误中学习并不断改进
  • 深度学习的一个重要的概念是“特征学习”,这意味着深度学习模型能够自动发现和利用数据中的有用特征,而无需人工介入。 这与传统的机器学习方法不同,后者通常需要专家提前定义和选择特征。
    -深度学习的成功依赖于大量的数据和强大的计算能力。随着数据量的增长和计算技术的发展,深度学习模型在图像和语音识别、 自然语言处理、游戏、医疗诊断等多个领域取得了显著成就。它通过提供更精确和复杂的数据处理能力,推动了人工智能技术的 飞速发展。然而,这种技术也面临挑战,如需求大量的训练数据,模型的复杂性和不透明性,以及对计算资源的高需求。尽管如 此,深度学习仍然是当今最激动人心的技术前沿之一,其应用潜力巨大。

AI发展三要素

  • AI发展的核心三要素是数据、算法、算力,三者相互依存、协同作用。
  • 在人工智能(AI)与深度学习(DL)的算力体系中,CPU(中央处理器)、GPU(图形处理器)、TPU(张量处理器) 是最核心的三类计算单元。
特性 CPU (中央处理器) GPU (图形处理器) TPU (张量处理器)
核心设计目标 通用计算、强单核性能、复杂逻辑控制 大规模并行计算、处理图形与矩阵运算 专为AI加速、高效执行张量(Tensor)运算
核心架构 核心数较少(几个到几十个),但每个核心能力强,擅长处理复杂串行任务。 集成数百至数千个相对简单的核心,擅长同时处理海量简单计算(如像素或矩阵计算)。 采用脉动阵列等专用架构,针对神经网络矩阵乘加运算进行硬件级优化,效率极高。
核心优势 灵活通用、延迟低、可处理复杂任务和分支预测。 并行吞吐量巨大,非常适合AI训练和大规模科学计算。 AI计算能效比极高(单位能耗/时间完成更多AI运算),尤其擅长推理。
主要适用场景 操作系统、日常应用、数据库、服务器逻辑控制等。 AI模型训练、图形渲染、科学模拟、密码学等。 AI模型推理(及部分训练)、大规模云端AI服务。

使用场景

1. 计算机视觉(cv)

让机器“看懂”图像和视频。

  • 图像分类与识别:区分图片内容(如区分猫狗、识别植物种类)。
  • 目标检测与分割:在图像中定位并勾勒出物体(如自动驾驶识别行人车辆、医学图像分割病灶区域)。
  • 人脸识别:用于手机解锁、支付验证、安防监控。
  • 图像生成与增强:生成新图像(如AI绘画)、修复老照片、提升分辨率(超分辨率)。
2. 自然语言处理(NLP)

让机器“理解、生成和互动”人类语言。

  • 机器翻译:如Google翻译、DeepL等工具。
  • 文本生成与摘要:智能写作助手、新闻稿自动生成、长文档摘要。
  • 情感分析:分析评论、社交媒体内容的情感倾向(正面/负面)。
  • 智能对话系统:智能客服、虚拟助手(如Siri、小爱同学)背后的对话引擎。
3. 语音与音频处理

让机器“听清、听懂并生成”声音。

  • 语音识别:将语音转为文字(如会议转录、语音输入法)。
  • 语音合成:将文字转为自然流畅的语音(如智能播报、有声书)。
  • 音频生成与鉴定:生成音乐、声效,或鉴别伪造音频(深度伪造鉴定)。
4. 生成式人工智能

让机器进行“创造”,这是当前最热门的领域。

  • AIGC(AI生成内容) :根据文字描述生成图片(如Midjourney、DALL-E)、视频或3D模型。
  • 大语言模型:能进行复杂对话、编程、推理的AI(如ChatGPT、文心一言等),是NLP的集大成者。

深度学习框架

三大深度学习框架详解

1. TensorFlow

作为最早的主流工业级框架,TensorFlow 的核心特点是为大规模生产和部署而构建

  • 静态与动态图混合:早期以高效的静态计算图著称,后期全面支持 Eager Execution动态图,兼顾了开发灵活性和部署性能。
  • 强大的部署能力:拥有完整的部署工具链,如用于移动/嵌入式设备的 TensorFlow Lite 和用于浏览器的 TensorFlow.js,可以轻松将模型部署到几乎任何平台。
  • 庞大的生态系统:提供从高阶API(Keras)到低阶操作、从数据预处理(TFX)到模型服务的全套工具,并与Google Cloud及TPU硬件深度集成。
2. PyTorch

PyTorch 凭借其设计哲学,已成为学术界和工业界研究探索的首选

  • 动态计算图(Define-by-Run) :这是其成功的核心。程序在执行时动态构建计算图,这使得代码直观如Python,调试异常方便,极大提升了研究和实验迭代的效率。
  • Python原生风格:其API设计非常“Pythonic”,与NumPy等科学计算库无缝衔接,学习曲线平缓,深受研究人员和开发者喜爱。
  • 空前活跃的社区:几乎所有最新的研究论文和模型(如各类大语言模型)都会优先或同时提供PyTorch版本实现,形成了强大的生态正循环。
3. PaddlePaddle

PaddlePaddle 是百度开源、主打产业实践和全流程支持的深度学习平台。

  • 产业级特色工具:提供了大量面向实际应用场景的官方套件,如面向飞桨企业版的PaddleOCR(文字识别)、PaddleDetection(目标检测)、PaddleNLP(自然语言处理)等,开箱即用。
  • 全流程支持:强调“训练-推理一体化”,从模型开发、压缩、加密到多端(服务器、移动端、边缘设备)部署均有官方方案支持。
  • 国产化生态优势:对国产芯片(如华为昇腾、寒武纪等)和操作系统的适配和支持走在最前面,是国内许多企业实现技术自主可控的重要选择。
模型交换标准:ONNX

ONNX 的角色完全不同,它是连接不同框架与硬件平台的桥梁

  • 核心是开放格式:它定义了一种通用的、与框架和硬件无关的计算图模型表示格式。你可以将训练好的TensorFlow、PyTorch或PaddlePaddle模型导出为标准的.onnx文件
  • 实现跨平台推理:这个.onnx模型可以被各种推理引擎(如ONNX Runtime、TensorRT、OpenVINO等)在不同的硬件(CPU、GPU、NPU等)上高效运行。
  • 核心价值:解决了AI生态中的互操作性问题。允许开发者用最适合的框架进行研究,再用最优化的推理引擎进行部署,实现了一次训练,处处部署
特性维度 TensorFlow PyTorch PaddlePaddle ONNX
核心定位 工业级全栈框架 研究主导的灵活框架 产业级全流程平台 模型交换与部署标准
核心特点 生产部署成熟、生态庞大、支持TPU原生 动态图优先、灵活易调试、Python原生体验 动静统一、中文友好、国产硬件适配佳 开放式模型格式,实现跨框架、跨平台互通
突出优势 强大的生产工具链、跨平台部署、企业级支持 极佳的易用性与社区活力、研究领域事实标准 官方产业级套件丰富、从训练到部署一体化 打破框架壁垒,实现模型一次转换、多处运行
典型适用场景 大规模服务端部署、移动/嵌入式端、云计算平台 学术研究、快速原型验证、新算法实验 国内产业智能化应用、适配国产芯片环境 多框架模型统一部署、跨平台推理加速
代表厂商/社区 Google Meta 百度 微软牵头,开放社区

主流算法模型

1.卷积神经网络(CNN)
  • 适用于图像识别、视频分析、医学影像等。
  • 特别擅长处理带有空间关系的数据。
2.循环神经网络(RNN)及其变体(如LSTM、GRU)
  • 适用于时间序列数据处理,如语音识别、音乐生成、自然语言处理。
  • 能够处理序列数据中的时间动态性。
3.Transformer架构
  • 引领自然语言处理的新浪潮,如BERT、GPT系列。
  • 适用于复杂的语言理解和生成任务。
4.自编码器(Autoencoders):
  • 用于数据降维、去噪、特征学习等
  • 在异常检测和数据生成中也有应用。
5.生成对抗网络(GANs):
  • 用于图像生成、艺术创作、数据增强等。
  • 擅长生成逼真的图像和视频。
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐