大模型为什么要词向量嵌入Embedding?

大模型小知识（面试八股）

MUTA️

154人浏览 · 2025-09-19 20:40:14

MUTA️ · 2025-09-19 20:40:14 发布

参考视频：面试必刷：大模型为什么要设计大规模词向量嵌入层（Embedding）？_哔哩哔哩_bilibili

回答从这几个方面入手：

1. embedding的作用

2. 为什么需要大规模？
3. 大规模词嵌入带来的问题以及解决手段？

Embedding的作用

语言中的词语本质上是离散的符号，不适合直接输入神经网络。

通过词向量嵌入（Embedding）层，可以将离散词映射到连续、稠密的低维实数向量空间。

这样，模型就能在向量空间中计算词与词之间的相似度和关系，捕捉词语的语义和句法信息，从而更好地理解语言。

大规模词嵌入的必要性

自然语言词汇量庞大，尤其是多语言模型中，词汇表规模更是异常巨大。

设计大规模的词嵌入表可以覆盖更多专业词汇、低频词和特殊符号，减少“未知词”（Out-Of-Vocabulary）对模型性能的影响。

同时，大规模词嵌入使得模型能够学习更加细致和丰富的语义表示，比如同一个词在不同上下文中的多义性，提升模型对复杂语言现象的理解和生成能力。

大规模词嵌入带来的问题以及解决手段

大规模词向量嵌入参数量庞大，导致训练和推理时计算资源和存储开销显著增加。为了解决这些问题，常用的方法包括：

分词（Tokenization）和子词单元（Subword units）：通过将词拆分为更小的单元，减少词表规模，同时保留对词义的表达能力。
哈希嵌入（Hash Embedding）等参数共享技术：有效压缩嵌入参数规模，减小内存占用。
稀疏表示或低秩分解：进一步减少嵌入层的参数量，提升计算效率。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

别再让噪声干扰RAG！Hybrid Search+Reranker终极指南：10步滤除无关信息，召回率飙升90%！

2048 AI社区

Gridview：让 HPC 作业管理真正“看得见、点得着、跑得快”

Gridview是一款面向高性能计算(HPC)的作业管理系统，通过Web界面实现算力资源的可视化管理和智能化调度。该系统将传统复杂的命令行操作简化为表单式提交，提供作业模板、实时监控、跨集群统一管理等功能，大幅降低HPC使用门槛。Gridview支持科研计算、AI训练、工业仿真等多场景应用，具备团队协作、资源配额、安全审计等企业级功能，并能量化分析作业成功率、资源利用率等关键指标。该系统旨在提升H

2048 AI社区

AI应用架构师在AI评估系统领域的成果与突破

准确性评估：如何准确衡量AI模型预测或分类的正确性？不同类型的任务（如回归、分类、序列预测）需要不同的准确性度量指标，且要考虑数据的不平衡性对指标的影响。性能评估：除了准确性，模型的计算效率、内存占用等性能指标也至关重要。特别是在资源受限的环境（如移动设备、物联网终端）中，如何优化模型性能是一个关键问题。可靠性评估：AI模型在面对新的、未见过的数据时表现如何？如何评估模型的泛化能力，以确保其在实际