简化的 AI 训练：基本数学原理解读

发表于·阅读时间 4 分钟·2024 年 7 月 6 日理解事物是如何运作的总是有益的。在本文中，我将提供一个非常简单的概述，介绍训练 AI 模型时使用的基本数学逻辑。我保证，如果你有基本的教育背景，以下示例将是可以理解的，并且你将对人工智能领域有稍微更深入的了解。

布客飞龙

466人浏览 · 2025-11-06 19:11:25

布客飞龙 · 2025-11-06 19:11:25 发布

原文：towardsdatascience.com/ai-training-simplified-the-essential-mathematics-explained-3a94ebeb4a3e?source=collection_archive---------3-----------------------#2024-07-06

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/a3901da2066a7295200ce541d39a5278.png

图片来自作者

AI 训练中使用的数学逻辑概述

https://eljand.medium.com/?source=post_page---byline--3a94ebeb4a3e--------------------------------https://towardsdatascience.com/?source=post_page---byline--3a94ebeb4a3e-------------------------------- Kristjan Eljand

·发表于Towards Data Science ·阅读时间 4 分钟·2024 年 7 月 6 日

–

理解事物是如何运作的总是有益的。在本文中，我将提供一个非常简单的概述，介绍训练 AI 模型时使用的基本数学逻辑。我保证，如果你有基本的教育背景，以下示例将是可以理解的，并且你将对人工智能领域有稍微更深入的了解。

创建用于销售预测的 AI

假设我们想创建一个新的 AI 模型来预测公司销售收入。我们有过去两个月的销售收入数据、广告费用和产品价格。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/9cb874a08c498e38e0d8d6969f58289c.png

插图来自作者

换句话说，我们想创建一个模型，告诉我们销售收入如何依赖于产品价格和广告支出。使用这样的工具，营销专家可以例如计算出，如果他们花费 50 欧元在广告上并将产品价格定为 6 欧元，预计的销售收入是多少。

AI 作为一个数学公式

本质上，AI 不过是一个数学公式（或一组公式）。我们的销售预测示例可以用如下数学公式表示：

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/98abc91070b945b1b2e4fee328741750.png

插图来自作者

公式是存在的，但我们不知道应该为模型的参数 m 和 n 分配什么值。换句话说，我们不知道增加广告费用和调整产品价格如何影响我们的销售收入。

开始学习

当我们开始训练人工智能时，我们可以将随机值分配给模型的参数。例如，我们最初将广告费用参数设置为 2，将价格参数设置为-2。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/ce9932df627412966705742e00891a50.png

作者插图

现在，我们简单地进行试验。如果我们将广告费用和产品价格分别乘以其相应的参数值，我们可以看到，最初的模型过于乐观。在第一个月，实际的销售收入是 5 欧元，而我们的模型预测了 30 欧元。在第二个月，实际的销售收入是 18 欧元，而我们的模型预测了 52 欧元。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/69c844a40714f744681ac291a2511f16.png

作者插图

学习规则

如果误差为 0，模型是完美的，不需要调整。

如果误差 > 0，说明模型给出了过于乐观的结果：

如果对应的输入特征（例如广告费用或产品价格）具有正值，则减少权重（参数）。
如果对应的输入特征具有负值，则增加权重（参数）。

如果误差 < 0，说明模型过于悲观：

如果对应的输入特征具有正值，则增加权重（参数）。
如果对应的输入特征具有负值，则减少权重（参数）。

根据学习规则，我们需要减少这两个参数，因为广告费用和产品价格都具有正值。例如，我们将广告费用的权重从 2 减少到 1，将价格参数从-2 减少到-3。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/d73a896ac9dff388f4cc0d0df44367ac.png

作者插图

如果我们重新计算，我们可以看到，模型现在预测得很准确。太好了，我们的第一个手动训练的人工智能模型已经准备好了。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/3852ef3159047ba35e2d0f2e5f31774d.png

作者插图

在未用于训练的数据上测试模型

如果你认为上面的模型好得令人难以置信，那你是对的。我们的模型在训练数据上表现得非常完美。为了评估模型的准确性，必须在未用于训练的数据上进行测试。

我们在 1 月和 2 月的数据上训练了我们的模型。现在，让我们检查模型在预测 3 月和 4 月的销售收入方面的表现如何。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/3a43a524b21f2f4dcc4bd119bae044eb.png

作者插图

从上表中，我们可以看到，模型预测 3 月的销售收入为 28 欧元（实际为 24 欧元），预测 4 月的销售收入为 21 欧元（实际为 18 欧元）。平均而言，我们的模型在新数据上的误差为 3.5 欧元，这就是我们可以称之为模型的准确度。

结论

总结来说，人工智能本质上是一个数学公式。在我们的例子中，这个公式有两个参数；而 GPT-4 模型有超过一万亿个（1 万亿 = 1,000,000,000,000）参数。两者都遵循相同的原则进行训练：逐渐调整模型的参数以减少误差。

还需要记住的是，人工智能是在训练数据上学习的，但其准确性只能通过未在训练中使用的数据（测试数据）来评估。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

《C语言疑难点 --- C语内存函数专题》

2048 AI社区

数字员工是什么？熊猫智汇如何助力企业提升销售效率？

2048 AI社区

大模型-vllm的知识点记录-1

较小的 max_num_batched_tokens 可以实现更好的 ITL，因为中断解码的预填充较少。较高的 max_num_batched_tokens 可以实现更好的 TTFT，因为您可以在批次中添加更多预填充。若生成配置中指定了 max_new_tokens，则会在服务器范围内对所有请求的输出 token 数量施加限制。它通过将计算绑定（预填充）和内存绑定（解码）请求定位到同一批次