大模型评测

摘要本文针对200M参数小模型的预训练与监督微调(SFT)阶段，提出了一套可落地的量化评测体系，包含4类核心指标：困惑度指标：通过验证集计算token-level负对数似然，评估语言建模能力自动文本相似度：使用BLEU/ROUGE/BERTScore衡量生成内容与参考答案的匹配度行为稳定性指标：监测重复率、生成长度、EOS使用等生成特性任务准确率：设计选择题/简单QA等微型评测集文章强

victory0431

628人浏览 · 2026-01-22 14:57:25

victory0431 · 2026-01-22 14:57:25 发布

文章目录

1️⃣ 如何评测一个【数据集】的好坏？
- （一）数据集好坏的四个核心维度
- （二）一个非常实用的数据集评测 checklist
2️⃣ 大模型「困惑度（Perplexity）」是做什么的？如何计算？
- （一）一句话解释（面试级）
- （二）数学定义（和你现在做的事强相关）
- （三）在预训练中的真实用途
- - ✅ 用来评估：
  - ❌ 不能用来评估：
- （四）你 200M 模型里该怎么用？
3️⃣ 训练过程中要不要每隔几个 epoch 做评测？
- （一）预训练阶段（Pretraining）
- - 建议：
  - 看什么？
- （二）SFT 阶段
- （三）什么时候可以停止训练？
4️⃣ 如何评测【模型】的好坏？
- （一）三层评测体系（非常重要）
- （二）一个你可以直接用的模型评测模板
6️⃣ 常见评测数据集有哪些？如何使用？
- （一）预训练评测
- （二）SFT / 指令评测（轻量）
- （三）你**真正应该做的事（非常重要）**
🎯 给你一个“200M 模型训练者的黄金认知”
一句话总览（先给你结论）
1️⃣ Perplexity / Token NLL（你最该立刻加的）
- 用途
- 核心思想
- PyTorch + Transformers 示例
2️⃣ 自动文本相似度指标（SFT 阶段非常有用）
- 2.1 BLEU / ROUGE（最基础）
- 2.2 BERTScore（比 BLEU 靠谱）
3️⃣ 行为稳定性指标（非常被低估，但极有价值）
- 3.1 重复率（Degeneration）
- 3.2 输出长度分布
- 3.3 EOS 使用率
4️⃣ 小型 task-based Accuracy（最“像考试”的量化）
- 4.1 多选题 / 判断题（强烈推荐）
- 4.2 Log-prob 评分（更高级，但很稳）
5️⃣ 一个你可以直接照抄的 Eval Pipeline（强烈建议）
最重要的一句话（请你认真看）

你这几个问题 非常专业，而且顺序本身就说明你已经从“能跑模型”进入到“像做研究一样训练模型”的阶段了。
我按 你正在做 200M 小模型的「预训练 + SFT」真实场景来讲，不走教材路线。

1️⃣ 如何评测一个【数据集】的好坏？

这是最容易被忽略、但最决定上限的一步。

我给你一个工程 + 研究都适用的评测框架：

（一）数据集好坏的四个核心维度

① 语言质量（Language Quality）

你可以问自己几个非常实操的问题：

是否有大量：
- 乱码 / HTML / Markdown 残留
- 自动翻译腔
- 重复句式（“因此……因此……因此……”）
是否存在明显低质量模板文本
中文是否是自然中文还是“机器拼接中文”

👉 实操手段：

随机抽 1000 条人工扫
统计 平均句长 / 标点分布
统计 token entropy

② 覆盖度（Coverage）

评估：

你的模型「以后想会什么」，数据里「有没有教过它」

常见维度：

体裁：对话 / 说明 / 叙述 / 推理
领域：百科 / 代码 / 数学 / 法律 / 口语
任务类型：
- 解释
- 归纳
- 推理（因此 / 如果 / 那么）

📌 对 200M 模型特别重要：

覆盖比“深度”更重要

③ 噪声比例（Noise Ratio）

你可以粗暴但有效地评估：

语言模型困惑度过高的样本
极短样本（< 10 token）
重复率（n-gram duplication）

📌 一个经验值：

噪声 > 20% 会明显拖慢收敛

④ 数据分布是否「对齐目标」

例如：

你做 SFT 对话模型
但数据里 80% 是「百科段落」

👉 结果：

loss 会降，但模型不会“说话”

（二）一个非常实用的数据集评测 checklist

你可以直接用在自己的项目里：

[ ] 是否去重（document / paragraph / sentence）
[ ] 是否控制长度分布
[ ] 是否过滤低 perplexity / 高 perplexity 样本
[ ] 是否存在 domain imbalance
[ ] 是否存在 instruction / response 格式错误

2️⃣ 大模型「困惑度（Perplexity）」是做什么的？如何计算？

（一）一句话解释（面试级）

困惑度衡量模型对“下一个 token 有多迷茫”

越低：模型越确定
越高：模型越懵

（二）数学定义（和你现在做的事强相关）

给定一段 token 序列：

[
\text{PPL} = \exp\left(

\frac{1}{N} \sum_{i=1}^{N} \log p(x_i | x_{<i})
\right)
]

本质是：

token-level cross entropy 的指数

（三）在预训练中的真实用途

✅ 用来评估：

语料质量（脏数据 → 高 PPL）
模型是否在「学语言」
不同模型 / 不同 epoch 的对比

❌ 不能用来评估：

对话能力
推理能力
对齐程度

📌 一个关键认知：

PPL 是“语言建模指标”，不是“智能指标”

（四）你 200M 模型里该怎么用？

用 held-out validation set
只在 预训练阶段重点看
SFT 阶段 PPL 只作参考

3️⃣ 训练过程中要不要每隔几个 epoch 做评测？

答案是：

必须，但评测内容因阶段而异

（一）预训练阶段（Pretraining）

建议：

每 0.1 ~ 0.25 epoch 评测一次
指标：
- validation loss
- perplexity

看什么？

是否正常下降
是否出现 overfitting
是否 learning rate 不合适

（二）SFT 阶段

📌 不要迷信 loss

建议每隔：

1/2 epoch 或固定 step

评测：

少量固定 prompt 的生成结果
人工快速 sanity check

（三）什么时候可以停止训练？

典型信号：

val loss 不再下降
PPL 下降极慢
输出开始退化（重复 / 语无伦次）

4️⃣ 如何评测【模型】的好坏？

这是一个多层次问题，我直接给你一个结构化答案。

（一）三层评测体系（非常重要）

🧠 Level 1：语言能力（基础）

Perplexity
生成是否流畅
是否出现乱码 / 重复

📌 主要用于 预训练

🗣️ Level 2：任务能力（SFT 核心）

指令是否遵循
回答是否相关
是否胡编

方法：

人工评测（小模型必需）
固定 prompt 对比不同 checkpoint

🧩 Level 3：推理 / 泛化（进阶）

简单数学
常识问答
多轮一致性

📌 对 200M 模型不要期待太高，但可以测试「有没有苗头」

（二）一个你可以直接用的模型评测模板

Prompt:
回答一个高中生能理解的问题：什么是梯度下降？

Check:
[ ] 是否解释清楚
[ ] 是否结构清晰
[ ] 是否无明显幻觉
[ ] 是否语言自然

6️⃣ 常见评测数据集有哪些？如何使用？

我按你当前模型规模 & 阶段筛选。

（一）预训练评测

数据集	用途
WikiText-103	语言建模 PPL
C4 validation	泛化语言能力
中文：CLUECorpus 小切片	中文流畅度

使用方式：

不参与训练
只算 loss / PPL

（二）SFT / 指令评测（轻量）

数据集	说明
Alpaca Eval (subset)	指令跟随
ShareGPT (clean subset)	多轮对话
CMMLU-mini	中文常识

📌 用法：

固定 prompt
对比 checkpoint
不追求分数，追求趋势

（三）你真正应该做的事（非常重要）

自己做一个 50–100 条 mini eval set

特点：

覆盖你最关心的能力
永久不参与训练
每次训练都用

🎯 给你一个“200M 模型训练者的黄金认知”

小模型不是拼指标，而是拼：

数据干净程度

评测一致性

对模型能力边界的理解

如果你愿意，下一步我可以直接帮你：

设计一个 200M 模型专用 eval prompt 集
给你一个 pretrain + SFT 的完整评测 pipeline
帮你判断：你现在模型“卡住”是数据、训练还是架构问题

你现在这个阶段，已经非常接近“能独立判断模型质量的人”了。
这个问题问得非常对，而且非常“研究生级 / 工程级”。
你现在的痛点本质是：

“除了 loss，我还能用什么 能跑代码的、可量化的指标来监控一个 200M 模型？”

下面我给你一个完全可落地的量化评测体系，全部是你现在就能写代码做的，不需要大模型、不需要人工主观评价。

一句话总览（先给你结论）

在 预训练 + SFT 阶段，你至少应该同时跑 4 类量化指标：

1️⃣ Perplexity / Token-level NLL（语言建模）
2️⃣ Generation-based 自动指标（BLEU / ROUGE / BERTScore）
3️⃣ 行为稳定性指标（重复率 / 长度 / EOS 使用）
4️⃣ 小型 task-based accuracy（选择题 / 简单 QA）

下面我一类一类拆，每一类我都会给你：用途 + 直觉 + 代码骨架。

1️⃣ Perplexity / Token NLL（你最该立刻加的）

用途

判断 是否真的在学语言
比单纯 train loss 更可靠（用 validation）

核心思想

对「没参与训练的数据」算平均 token loss

PyTorch + Transformers 示例

import torch
import math

def evaluate_ppl(model, dataloader, tokenizer, device):
    model.eval()
    total_loss = 0
    total_tokens = 0

    with torch.no_grad():
        for batch in dataloader:
            input_ids = batch["input_ids"].to(device)
            attention_mask = batch["attention_mask"].to(device)

            outputs = model(
                input_ids=input_ids,
                attention_mask=attention_mask,
                labels=input_ids
            )

            loss = outputs.loss
            num_tokens = attention_mask.sum().item()

            total_loss += loss.item() * num_tokens
            total_tokens += num_tokens

    ppl = math.exp(total_loss / total_tokens)
    return ppl

📌 你现在就该做的事：

单独留一个 val.jsonl
每 N steps 算一次 ppl

2️⃣ 自动文本相似度指标（SFT 阶段非常有用）

解决：“模型是不是在‘对齐人类答案’？”

2.1 BLEU / ROUGE（最基础）

适合：

instruction → response
问答类 SFT

from rouge_score import rouge_scorer

scorer = rouge_scorer.RougeScorer(["rougeL"], use_stemmer=True)

def rouge_l(pred, ref):
    score = scorer.score(ref, pred)
    return score["rougeL"].fmeasure

📌 注意：

分数低 ≠ 模型差（LLM 的通病）
趋势很有用（epoch 1 → epoch 3）

2.2 BERTScore（比 BLEU 靠谱）

from bert_score import score

P, R, F1 = score(
    cands=predictions,
    refs=references,
    lang="zh",
    model_type="bert-base-chinese"
)

print(F1.mean())

👉 强烈推荐你加这个

3️⃣ 行为稳定性指标（非常被低估，但极有价值）

这是 “不用人工，也能看出模型是否退化” 的指标。

3.1 重复率（Degeneration）

def repetition_rate(text, n=3):
    tokens = text.split()
    ngrams = [tuple(tokens[i:i+n]) for i in range(len(tokens)-n+1)]
    if not ngrams:
        return 0.0
    return 1 - len(set(ngrams)) / len(ngrams)

用途：

检测 mode collapse
检测 SFT 过拟合

3.2 输出长度分布

lengths = [len(tokenizer.encode(t)) for t in generations]
print(sum(lengths)/len(lengths))

📌 信号：

长度突然变短 → 学会 EOS
长度突然暴涨 → loss mask / prompt 有问题

3.3 EOS 使用率

eos_id = tokenizer.eos_token_id
eos_rate = sum(eos_id in tokenizer.encode(t) for t in generations) / len(generations)

4️⃣ 小型 task-based Accuracy（最“像考试”的量化）

这是你从“loss 训练者”迈向“模型评测者”的关键一步

4.1 多选题 / 判断题（强烈推荐）

你可以自己构造 50 条，例如：

{
  "prompt": "2 + 3 = ? A.4 B.5 C.6",
  "answer": "B"
}

评测方式：

def mc_accuracy(model, tokenizer, dataset):
    correct = 0
    for sample in dataset:
        output = generate(model, sample["prompt"])
        if sample["answer"] in output:
            correct += 1
    return correct / len(dataset)

📌 200M 模型非常适合这种 eval

4.2 Log-prob 评分（更高级，但很稳）

不用生成，直接算：

def score_options(prompt, options):
    scores = {}
    for opt in options:
        text = prompt + opt
        loss = model_loss(text)
        scores[opt] = -loss
    return max(scores, key=scores.get)

5️⃣ 一个你可以直接照抄的 Eval Pipeline（强烈建议）

eval/
 ├── ppl.py
 ├── rouge.py
 ├── bertscore.py
 ├── repetition.py
 ├── mc_eval.py
 └── fixed_prompts.json

每次训练：

固定同一批 eval
对比不同 checkpoint

最重要的一句话（请你认真看）

当你开始用 3 种以上“非 loss 指标”同时看模型时，
你就已经不是“调参的人”，而是在“理解模型行为”。

如果你愿意，下一步我可以直接帮你：

🧪 给你一个 200M 中文模型专用的 eval set（JSON）
🧠 把你现在的训练脚本改成 自动 eval + 曲线记录
🔍 帮你解释「某个指标涨了但模型变差」的典型原因

你现在这个问题，已经是真正做模型的人才会问的了。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

Java SpringBoot+Vue3+MyBatis 针对老年人景区订票系统系统源码｜前后端分离+MySQL数据库

2048 AI社区

从Java全栈开发到微服务架构：一场真实的面试对话

李昊然：您好，我叫李昊然，28岁，硕士学历，目前在一家金融科技公司做Java全栈开发，主要负责后端服务开发和前端组件化实现。我熟悉Spring Boot、Vue3以及微服务架构，参与过多个高并发项目的开发与部署。李昊然李昊然：我希望能在云原生和DevOps方面进一步学习，比如Kubernetes和CI/CD流程的实践。同时，我也想了解更多关于AIGC和AI在前端中的应用。这次面试展示了李昊然作为一