AI命名实体识别常见面试篇

命名实体识别（Named Entity Recognition, NER）是信息抽取、知识图谱、智能问答等任务的基础模块。在工业界，NER 广泛应用于：🏥 医疗：识别病历中的疾病、药品、手术名称⚖️ 法律：抽取合同中的主体、金额、时

石去皿

227人浏览 · 2026-02-21 13:30:58

石去皿 · 2026-02-21 13:30:58 发布

📚 命名实体识别（NER）常见面试题精讲

——从经典模型到工业实践，系统梳理序列标注核心考点
作者：石去皿｜标签：#NLP #面试宝典 #CRF #HMM #深度学习
更新时间：2026年2月

🔖 前言：为什么 NER 是 NLP 面试必考？

命名实体识别（Named Entity Recognition, NER）是信息抽取、知识图谱、智能问答等任务的基础模块。
在工业界，NER 广泛应用于：

🏥 医疗：识别病历中的疾病、药品、手术名称
⚖️ 法律：抽取合同中的主体、金额、时间节点
🛒 电商：解析商品评论中的品牌、型号、属性词
🤖 智能客服：理解用户意图中的关键实体

因此，序列标注模型（HMM/CRF/BiLSTM-CRF/BERT-CRF）的原理、优缺点、工程实现，成为算法岗/NLP 工程师面试的高频考点。

💡 本文定位：不堆砌公式，聚焦面试高频问题 + 本质理解 + 工程视角补充，助你高效备战。

🌐 技术演进脉络（背景知识速览）

阶段	代表模型	核心思想	局限
规则时代	正则+词典	人工定义匹配模式	泛化差、维护成本高
统计时代	HMM → CRF	概率建模 + 特征工程	HMM假设强；CRF依赖特征设计
深度学习	BiLSTM-CRF	自动特征提取 + 序列解码	需标注数据、长程依赖仍受限
预训练时代	BERT-CRF / Prompt	上下文语义理解 + 少样本适配	计算成本高、推理延迟

📌 面试关键认知：

理解每一代方法的改进动机（解决了上一代的什么问题），比死记公式更重要。

🔹 一、CRF 高频面试题精解（附本质解读）

1.1 什么是 CRF？核心思想一句话总结

CRF 是一种判别式概率图模型，在给定观测序列 x 的条件下，对标签序列 y 进行全局联合概率建模，通过特征函数灵活融合上下文信息，并用全局归一化避免局部决策偏差。

✅ 面试加分回答：
“CRF 的本质是结构化预测——它不独立预测每个位置的标签，而是将整个序列作为输出单元，在解码时考虑标签间的转移约束（如 B-PER 后只能接 I-PER 或 O），从而保证输出序列的合法性。”

1.2 CRF 三个基本问题（对比 HMM，突出差异）

问题	CRF 解法	为什么这样设计？
概率计算	前向 - 后向算法	高效计算配分函数 Z(x)，避免枚举所有序列
参数学习	L-BFGS / SGD + 梯度	判别模型直接优化 P(y\|x)，无需建模 P(x)
序列预测	维特比算法（动态规划）	在指数级搜索空间中，用最优子结构快速找全局最优路径

💡 高频追问：为什么 CRF 用全局归一化能避免标记偏置？
→ 因为 HMM/MEMM 每步局部 softmax，会偏好转移出边少的状态（“偷懒”）；而 CRF 的 Z(x) 对整个序列归一化，迫使模型在所有可能路径间公平竞争。

（其余题目如 1.3~1.6 保持原逻辑，补充工程视角解读，此处略）

🔹 二、HMM 面试题：理解假设的「双刃剑」

2.3 两个假设的深层影响

✅ 齐次马尔可夫假设 → 状态转移只依赖前一时刻  
   • 好处：将 P(y₁,...,yₜ) 分解为连乘，计算可行  
   • 坏处：无法建模长距离依赖（如跨句实体、指代消解）

✅ 观测独立性假设 → 当前观测只依赖当前状态  
   • 好处：P(x\|y) = ∏P(xᵢ\|yᵢ)，参数可估  
   • 坏处：忽略上下文语义（如"苹果"在"吃苹果"vs"苹果公司"中含义不同）

🎯 面试话术：

“HMM 的假设是工程妥协——用建模能力换计算效率。在数据少、实时性要求高的场景仍有价值；但在复杂 NLP 任务中，需用 CRF 或深度学习放松假设。”

🔹 三、延伸考点：现代 NER 实践指南

✅ 模型选型决策树（面试高频情景题）

Q: 业务场景：医疗NER，标注数据<1k，要求可解释+易部署  
→ 选 CRF + 人工特征（词典/规则/词性），小而美  

Q: 电商评论NER，数据10w+，需支持新实体快速迭代  
→ 选 BERT-CRF + 主动学习，平衡效果与迭代成本  

Q: 跨语言/低资源场景  
→ 选 mBERT/XLM-R + Prompt 模板，迁移学习

✅ 工程避坑清单

# 1. 标签体系：优先用 BIOES（比 BIO 更易收敛）
# 2. 数据增强：实体替换/回译/EDA，缓解长尾分布
# 3. 推理优化：CRF 解码用 beam search + 早停；BERT 用 ONNX 量化
# 4. 评估陷阱：严格按实体级（非 token 级）计算 F1！

🔚 结语：面试准备建议

1️⃣ 基础层：能手推 HMM 前向算法、CRF 特征函数形式
2️⃣ 理解层：说清"为什么 CRF 比 HMM 适合 NER"
3️⃣ 实践层：复现一个 BiLSTM-CRF（GitHub 有开源模板）
4️⃣ 视野层：了解 Prompt-NER / 少样本 NER 等前沿方向