深度学习基础（一）

你可以把它们理解为“人工智能（AI）”人工智能 > 机器学习 > 深度学习人工智能（AI）：目标是使计算机能够完成通常需要人类智能才能处理的任务，例如：感知（看、听、说）、推理（逻辑分析）、学习（从经验中进步）、决策（解决问题）等。机器学习（ML）：机器学习是人工智能的一种方法。它涉及到算法和统计模型使用，使得计算机系统能够从数据中‘学习’和改进任务的执行，而不是通过明确的编程来实现。机器学习包括

qq_42069927

160人浏览 · 2025-12-30 20:48:44

qq_42069927 · 2025-12-30 20:48:44 发布

深度学习基础

1.深度学习定义

什么是深度学习

你可以把它们理解为 “人工智能（AI）” 这个大领域下的嵌套关系：
人工智能 > 机器学习 > 深度学习

人工智能（AI）：目标是使计算机能够完成通常需要人类智能才能处理的任务，例如：感知（看、听、说）、推理（逻辑分析）、学习（从经验中进步）、决策（解决问题）等。
机器学习（ML）：机器学习是人工智能的一种方法。它涉及到算法和统计模型使用，使得计算机系统能够从数据中‘学习’和改进任务的执行，而不是通过明确的编程来实现。机器学习包括多种技术，如线性回归，支持向量机（svm），决策树等
深度学习：深度学习机器学习中的一种特殊方法，它使用称为神经网络的复杂结构，特别是‘深层’的神经网络，来学习和做出预测。深度学习特别处理大规模和高维度的数据，如图形，声音和文本。

深度学习与机器学习区别

传统机器学习算术依赖人工设计特征，并进行特征提取，而深度学习方法不需要人工，而是依赖算法自动提取特征。
深度学习模仿人类大脑的运行方式，从经验中学习获取知识。这也是深度学习被看做黑盒子，可解释性差的原因

主要区别对比表

方面	机器学习	深度学习
1. 数据表示与特征工程	高度依赖特征工程。需要数据科学家手动提取、选择和构造对预测任务有用的特征（如“图片中眼睛的边长”、“音频的频率峰值”）。这是最关键且最耗时的一步。	自动学习特征。输入原始数据（如图像像素、音频波形、文本词序列），深层神经网络会自动在每一层学习并提取从低级到高级的抽象特征。
2. 算法与模型结构	使用各种相对“浅层”的算法模型。	使用基于人工神经网络的模型，特别是具有很多“层”的模型（“深度”由此得来）。
	经典算法举例：	经典模型架构举例：
	- 线性/逻辑回归	- 卷积神经网络（CNN，用于图像）
	- 决策树、随机森林	- 循环神经网络（RNN），Transformer（用于序列数据，如文本、语音）
	- 支持向量机（SVM）	- 深度信念网络等
	- K-最近邻等
3. 数据需求量	可以在中小型数据集上表现良好。数据量过大时，某些传统模型可能性能饱和或计算效率低。	通常需要海量数据（如数百万张图片）才能发挥其强大威力，避免过拟合。数据量少时，效果可能不如精心设计的机器学习模型。
4. 计算资源需求	通常对算力要求相对较低，可以在普通CPU上运行。	计算密集型，尤其是训练阶段。通常需要强大的GPU或TPU进行并行计算，训练时间可能很长。
5. 可解释性	通常可解释性较好。例如，决策树的规则、线性回归的系数都可以被人类理解，便于调试和信任。	常被称为“黑箱” 。很难解释网络内部的数百万个参数是如何协同工作做出最终决策的，知其然不知其所以然。
6. 执行任务与性能	擅长处理结构化数据（表格数据），在任务逻辑相对清晰、特征明确的领域非常有效。	在非结构化数据（图像、声音、文本、视频）上具有颠覆性优势，在图像识别、自然语言处理、语音识别等复杂感知任务上达到了前所未有的高度。

深度学习特征

所有深度学习都是机器学习，但并非所有机器学习都是深度学习。深度学习的崛起源于其在处理特定类型的大数据问题上的卓越能力，尤其是那些传统机器学习算法难以处理的复杂问题。然而，对于某些任务和数据集，更简单的机器学习方法可能更加有效和适合。
在深度学习的过程中，每一层神经网络都对输入数据进行处理，从而学习到数据中的特征和模式。例如，在图像识别任务中，第一层可能会识别边缘，第二层可能会识别形状，更深的层则可能识别复杂的对象特征，如面孔。这些层通过大量数据的训练，逐渐优化它们的参数，从而提高模型的识别或预测能力。
深度学习的关键之一是“反向传播”算法，它通过计算损失函数（即实际输出与期望输出之间的差异）并将这种误差反馈回网络的每一层，来调整每层的权重。这种方法使得网络能够从错误中学习并不断改进
深度学习的一个重要的概念是“特征学习”，这意味着深度学习模型能够自动发现和利用数据中的有用特征，而无需人工介入。这与传统的机器学习方法不同，后者通常需要专家提前定义和选择特征。
-深度学习的成功依赖于大量的数据和强大的计算能力。随着数据量的增长和计算技术的发展，深度学习模型在图像和语音识别、自然语言处理、游戏、医疗诊断等多个领域取得了显著成就。它通过提供更精确和复杂的数据处理能力，推动了人工智能技术的飞速发展。然而，这种技术也面临挑战，如需求大量的训练数据，模型的复杂性和不透明性，以及对计算资源的高需求。尽管如此，深度学习仍然是当今最激动人心的技术前沿之一，其应用潜力巨大。

AI发展三要素

AI发展的核心三要素是数据、算法、算力，三者相互依存、协同作用。
在人工智能（AI）与深度学习（DL）的算力体系中，CPU（中央处理器）、GPU（图形处理器）、TPU（张量处理器） 是最核心的三类计算单元。

特性	CPU (中央处理器)	GPU (图形处理器)	TPU (张量处理器)
核心设计目标	通用计算、强单核性能、复杂逻辑控制	大规模并行计算、处理图形与矩阵运算	专为AI加速、高效执行张量（Tensor）运算
核心架构	核心数较少（几个到几十个），但每个核心能力强，擅长处理复杂串行任务。	集成数百至数千个相对简单的核心，擅长同时处理海量简单计算（如像素或矩阵计算）。	采用脉动阵列等专用架构，针对神经网络矩阵乘加运算进行硬件级优化，效率极高。
核心优势	灵活通用、延迟低、可处理复杂任务和分支预测。	并行吞吐量巨大，非常适合AI训练和大规模科学计算。	AI计算能效比极高（单位能耗/时间完成更多AI运算），尤其擅长推理。
主要适用场景	操作系统、日常应用、数据库、服务器逻辑控制等。	AI模型训练、图形渲染、科学模拟、密码学等。	AI模型推理（及部分训练）、大规模云端AI服务。

使用场景

1. 计算机视觉（cv）

让机器“看懂”图像和视频。

图像分类与识别：区分图片内容（如区分猫狗、识别植物种类）。
目标检测与分割：在图像中定位并勾勒出物体（如自动驾驶识别行人车辆、医学图像分割病灶区域）。
人脸识别：用于手机解锁、支付验证、安防监控。
图像生成与增强：生成新图像（如AI绘画）、修复老照片、提升分辨率（超分辨率）。

2. 自然语言处理（NLP）

让机器“理解、生成和互动”人类语言。

机器翻译：如Google翻译、DeepL等工具。
文本生成与摘要：智能写作助手、新闻稿自动生成、长文档摘要。
情感分析：分析评论、社交媒体内容的情感倾向（正面/负面）。
智能对话系统：智能客服、虚拟助手（如Siri、小爱同学）背后的对话引擎。

3. 语音与音频处理

让机器“听清、听懂并生成”声音。

语音识别：将语音转为文字（如会议转录、语音输入法）。
语音合成：将文字转为自然流畅的语音（如智能播报、有声书）。
音频生成与鉴定：生成音乐、声效，或鉴别伪造音频（深度伪造鉴定）。

4. 生成式人工智能

让机器进行“创造”，这是当前最热门的领域。

AIGC（AI生成内容） ：根据文字描述生成图片（如Midjourney、DALL-E）、视频或3D模型。
大语言模型：能进行复杂对话、编程、推理的AI（如ChatGPT、文心一言等），是NLP的集大成者。

深度学习框架

三大深度学习框架详解

1. TensorFlow

作为最早的主流工业级框架，TensorFlow 的核心特点是为大规模生产和部署而构建。

静态与动态图混合：早期以高效的静态计算图著称，后期全面支持 Eager Execution动态图，兼顾了开发灵活性和部署性能。
强大的部署能力：拥有完整的部署工具链，如用于移动/嵌入式设备的 TensorFlow Lite 和用于浏览器的 TensorFlow.js，可以轻松将模型部署到几乎任何平台。
庞大的生态系统：提供从高阶API（Keras）到低阶操作、从数据预处理（TFX）到模型服务的全套工具，并与Google Cloud及TPU硬件深度集成。

2. PyTorch

PyTorch 凭借其设计哲学，已成为学术界和工业界研究探索的首选。

动态计算图（Define-by-Run） ：这是其成功的核心。程序在执行时动态构建计算图，这使得代码直观如Python，调试异常方便，极大提升了研究和实验迭代的效率。
Python原生风格：其API设计非常“Pythonic”，与NumPy等科学计算库无缝衔接，学习曲线平缓，深受研究人员和开发者喜爱。
空前活跃的社区：几乎所有最新的研究论文和模型（如各类大语言模型）都会优先或同时提供PyTorch版本实现，形成了强大的生态正循环。

3. PaddlePaddle

PaddlePaddle 是百度开源、主打产业实践和全流程支持的深度学习平台。

产业级特色工具：提供了大量面向实际应用场景的官方套件，如面向飞桨企业版的PaddleOCR（文字识别）、PaddleDetection（目标检测）、PaddleNLP（自然语言处理）等，开箱即用。
全流程支持：强调“训练-推理一体化”，从模型开发、压缩、加密到多端（服务器、移动端、边缘设备）部署均有官方方案支持。
国产化生态优势：对国产芯片（如华为昇腾、寒武纪等）和操作系统的适配和支持走在最前面，是国内许多企业实现技术自主可控的重要选择。

模型交换标准：ONNX

ONNX 的角色完全不同，它是连接不同框架与硬件平台的桥梁。

核心是开放格式：它定义了一种通用的、与框架和硬件无关的计算图模型表示格式。你可以将训练好的TensorFlow、PyTorch或PaddlePaddle模型导出为标准的.onnx文件。
实现跨平台推理：这个.onnx模型可以被各种推理引擎（如ONNX Runtime、TensorRT、OpenVINO等）在不同的硬件（CPU、GPU、NPU等）上高效运行。
核心价值：解决了AI生态中的互操作性问题。允许开发者用最适合的框架进行研究，再用最优化的推理引擎进行部署，实现了一次训练，处处部署。

特性维度	TensorFlow	PyTorch	PaddlePaddle	ONNX
核心定位	工业级全栈框架	研究主导的灵活框架	产业级全流程平台	模型交换与部署标准
核心特点	生产部署成熟、生态庞大、支持TPU原生	动态图优先、灵活易调试、Python原生体验	动静统一、中文友好、国产硬件适配佳	开放式模型格式，实现跨框架、跨平台互通
突出优势	强大的生产工具链、跨平台部署、企业级支持	极佳的易用性与社区活力、研究领域事实标准	官方产业级套件丰富、从训练到部署一体化	打破框架壁垒，实现模型一次转换、多处运行
典型适用场景	大规模服务端部署、移动/嵌入式端、云计算平台	学术研究、快速原型验证、新算法实验	国内产业智能化应用、适配国产芯片环境	多框架模型统一部署、跨平台推理加速
代表厂商/社区	Google	Meta	百度	微软牵头，开放社区

主流算法模型

1.卷积神经网络（CNN）

适用于图像识别、视频分析、医学影像等。
特别擅长处理带有空间关系的数据。

2.循环神经网络（RNN）及其变体（如LSTM、GRU）

适用于时间序列数据处理，如语音识别、音乐生成、自然语言处理。
能够处理序列数据中的时间动态性。

3.Transformer架构

引领自然语言处理的新浪潮，如BERT、GPT系列。
适用于复杂的语言理解和生成任务。

4.自编码器（Autoencoders）：

用于数据降维、去噪、特征学习等
在异常检测和数据生成中也有应用。

5.生成对抗网络（GANs）：

用于图像生成、艺术创作、数据增强等。
擅长生成逼真的图像和视频。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

【TextIn大模型加速器 + 火山引擎】让AI读懂财报：30分钟搭建企业级金融分析Agent

2048 AI社区

霍华德马克斯的周期投资理论

本文章的目的在于全面、深入地剖析霍华德马克斯的周期投资理论。通过对该理论的核心概念、算法原理、数学模型等方面的详细讲解，帮助投资者更好地理解市场周期的运行规律，掌握在不同市场周期下的投资策略，从而提高投资决策的科学性和准确性。文章的范围涵盖了周期投资理论的各个方面，包括理论的起源、发展、核心要点，以及如何将理论应用于实际投资操作中。本文共分为十个部分。第一部分是背景介绍，包括目的和范围、预期读者、

2048 AI社区

全网都在喷的Manus，咋就冷不丁值几十亿美金了？

Manus算是把“首尾呼应”玩明白了。从2025年初首次亮相便炸场AI圈，到12月30日数十亿美金并入Meta，Manus一直都是聚光灯下的唯一主角。根据《晚点 LatePost》的披露，这笔Meta 成立以来金额第三高的收购案，仅用十余天就敲定了。但有意思的是，今年初Manus刚上线时，很多人并不看好这款产品，认为它“套壳”“没有价值”。这种观点并非站不住脚。因为随着模型能力外延到agent，像