softmax回归遇到的训练集准确率小于测试集准确率的问题

在训练初期，模型可能在某些batch中表现较差（尤其是初始batch），导致训练集整体准确率被拉低。），模型逐渐适应训练数据，训练集准确率会稳步提升并超过测试集。模型在初始阶段可能对训练数据欠拟合，而测试集的数据特性（如某些类别的偏向性）可能与初始参数偶然匹配，从而在测试集上表现更好。测试集可能包含更多简单样本或类别分布更均衡，在模型未充分训练时，这些样本的分类更容易，导致测试集准确率暂时高于训练

RedefineLim.

396人浏览 · 2025-03-16 15:15:26

RedefineLim. · 2025-03-16 15:15:26 发布

在阅读李沐老师的动手学深度学习文章时发现了在softmax回归中，当epoch < 2时训练集准确率可能低于测试集准确率
李沐老师文章插图
下面是几点原因:

参数初始化与学习率的影响
在训练初期（如前两个epoch），模型参数尚未充分更新，可能仍接近随机初始化的状态。若学习率较高（如代码中的lr=0.1），参数的剧烈调整可能导致训练集预测结果波动较大，而测试集在某个中间参数状态下可能偶然表现更好。
评估方式的差异
训练集的准确率通常按每个batch的累积平均计算，而测试集是在整个数据集上一次评估的。在训练初期，模型可能在某些batch中表现较差（尤其是初始batch），导致训练集整体准确率被拉低。而测试集在epoch结束后评估，可能恰好处于参数调整后的较优状态。
数据分布的暂时优势
测试集可能包含更多简单样本或类别分布更均衡，在模型未充分训练时，这些样本的分类更容易，导致测试集准确率暂时高于训练集。
欠拟合阶段
模型在初始阶段可能对训练数据欠拟合，而测试集的数据特性（如某些类别的偏向性）可能与初始参数偶然匹配，从而在测试集上表现更好。

随着训练的进行（epoch ≥ 2），模型逐渐适应训练数据，训练集准确率会稳步提升并超过测试集。这种现象在初期较为常见，尤其在参数更新剧烈或数据分布存在微小差异时。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

【大模型】 NeRF论文详细解读

NeRF（Neural Radiance Fields）是一种使用神经网络表示3D场景的方法，能够从稀疏的多视角图像中学习场景的连续表示，并合成任意新视角的高质量图像。新视角合成是NeRF的最终目标：给定训练时未见过的相机位姿，生成该视角下的图像。1. 数据加载├─ 加载多视角图像├─ 加载相机参数（内参、外参）└─ 划分训练集/验证集/测试集2. 模型初始化├─ 创建粗网络（Coarse Net

2048 AI社区

LlamaIndex核心组件学习笔记

这是我学习LlamaIndex框架的完整记录。通过9个递进式的本地demo，从零开始理解RAG系统的核心概念。包括Document、Node、Index、QueryEngine、ChatEngine等5个核心概念的详细讲解，以及单轮查询和多轮对话的实现方法。适合想要快速上手LlamaIndex的初学者。

2048 AI社区

AI学习笔记整理（42）——NLP之大规模预训练模型Transformer

多头注意力机制是核心，它允许模型并行关注不同位置的信息，计算过程包括查询（Q）、键（K）、值（V）矩阵的线性变换，然后通过缩放点积计算注意力权重，多头设计通过分组独立计算增强表达能力。Transformer：通常Attention会与传统的模型配合起来使用，但Google的一篇论文《Attention Is All You Need》中提出只需要注意力就可以完成传统模型所能完成的任务，从而摆脱传统