大模型面试必看：18 道高频精选题 + 解析，助你轻松拿下 offer（附收藏指南）

黑帽子唐哥

670人浏览 · 2025-09-01 15:35:43

黑帽子唐哥 · 2025-09-01 15:35:43 发布

一、目前主流的开源模型体系有哪些？

目前主流的开源模型体系分为三种：

第一种：prefix Decoder 系

介绍：输入双向注意力，输出单向注意力。
代表模型 ：ChatGLM、ChatGLM2、U-PaLM。

第二种：causal Decoder 系

介绍：从左到右的单向注意力。
代表模型 ：LLaMA-7B、LLaMa 衍生物。

第三种：Encoder-Decoder

介绍：输入双向注意力，输出单向注意力。
代表模型 ：T5、Flan-T5、BART。

三类体系核心差异对比

为更清晰地理解三类体系的适用场景，可通过下表总结其核心差异：

体系类别	注意力机制	核心优势	典型适用场景	代表模型举例
Prefix Decoder	双向（输入）+ 单向（输出）	平衡理解与生成效率	对话交互、复杂问题解答	ChatGLM 系列、U-PaLM
Causal Decoder	纯单向	生成效率高、长文本表现好	创造性写作、长文本生成	LLaMA-7B、Alpaca、Vicuna
Encoder-Decoder	双向（Encoder）+ 单向（Decoder）	输入输出匹配精准	机器翻译、多文档摘要、文本纠错	T5、Flan-T5、BART

在这里插入图片描述

二、prefix Decoder 和 causal Decoder 和 Encoder-Decoder 区别是什么？

prefix Decoder、causal Decoder 和 Encoder-Decoder 的区别在于 attention mask 不同：

Encoder-Decoder ：

在输入上采用双向注意力，对问题的编码理解更充分。
适用任务 ：在偏理解的 NLP 任务上效果好。
缺点：在长文本生成任务上效果差，训练效率低。

causal Decoder ：

自回归语言模型，预训练和下游应用是完全一致的，严格遵守只有后面的 token 才能看到前面的 token 的规则。
适用任务 ：文本生成任务效果好。
优点：训练效率高，zero-shot 能力更强，具有涌现能力。

prefix Decoder ：

特点：prefix 部分的 token 互相能看到，是 causal Decoder 和 Encoder-Decoder 的折中。
缺点：训练效率低。

在这里插入图片描述

三、大模型 LLM 的训练目标是什么？

语言模型 ：根据已有词预测下一个词，训练目标为最大似然函数。
去噪自编码器 ：随机替换掉一些文本段，训练语言模型去恢复被打乱的文本段。目标函数实现难度更高，采用去噪自编码器作为训练目标的任务有 GLM-130B、T5。

训练效率说明 ：Causal Decoder 结构会在所有 token 上计算损失，而 Prefix Decoder 只会在输出上计算损失。

四、涌现能力是啥原因？

根据前人分析和论文总结，大致是 2 个猜想：

任务的评价指标不够平滑。
复杂任务 vs 子任务：假设某个任务 T 有 5 个子任务 Sub-T 构成，每个 Sub-T 随着模型增长，指标从 40% 提升到 60%，但最终任务的指标只从 1.1% 提升到了 7%，即宏观上看到涌现现象，但子任务效果其实是平滑增长的。

五、为何现在的大模型大部分是 Decoder-only 结构？

Decoder-only 结构模型在没有任何微调数据的情况下，zero-shot 的表现能力最好。而 Encoder-Decoder 则需要在一定量的标注数据上做 multitask-finetuning 才能激发最佳性能。
目前的 Large LM 的训练范式是在大规模语料上做自监督学习，零样本性能更好的 Decoder-only 架构能更好地利用这些无标注的数据。
从理论上看，Encoder 的双向注意力可能存在低秩问题，这可能会削弱模型的表达能力。对生成任务而言，引入双向注意力并无实质好处。而 Encoder-Decoder 模型架构在某些场景下表现更好，大概率是因为其多了一倍参数。因此，在同等参数量、同等推理成本下，Decoder-only 架构是更优的选择。

六、简单介绍一下大模型【LLMs】

定义：大模型一般指 1 亿以上参数的模型，但这个标准在不断升级，目前已有万亿参数以上的模型。大语言模型（Large Language Model，LLM）是针对语言的大模型。

七、大模型【LLMs】后面跟的 175B、60B、540B 等指什么？

这些一般指参数的个数，B 是 Billion（十亿）的意思，175B 即 1750 亿参数，这是 ChatGPT 大约的参数规模。

八、大模型【LLMs】具有什么优点？

可以利用大量的无标注数据来训练通用的模型，再用少量的有标注数据微调模型以适应特定任务，降低数据标注成本和时间，提升模型泛化能力。
能利用生成式人工智能技术产生新颖、有价值的内容，如图像、文本、音乐等，为创意、娱乐、教育等领域带来更好的体验和效果。
可利用涌现能力（Emergent Capabilities）完成一些之前无法完成或难以完成的任务，像数学应用题、常识推理、符号操作等，反映模型的智能水平和推理能力。

九、大模型【LLMs】具有什么缺点？

需消耗大量计算资源和存储资源来训练和运行，增加经济和环境负担。例如，训练一个 GPT-3 模型约需 30 万美元，且产生约 284 吨二氧化碳排放。
要面对数据质量与安全性问题，如数据偏见、数据泄露、数据滥用等，可能导致模型输出不准确或不道德内容，损害用户或社会利益。
还需应对可解释性、可靠性、可持续性等挑战，如理解和控制模型行为、保证模型正确性和稳定性、平衡模型效益和风险等，这些需要各方研究与合作，以保障大模型健康发展。

以下是新增的两个问题：

十、大模型【LLMs】主要的应用领域有哪些？

自然语言处理（NLP）领域 ：如文本生成（创作小说、新闻稿、广告文案等）、文本分类（情感分析、垃圾邮件分类等）、问答系统（智能客服、知识问答平台等）、机器翻译（语言互译）、文本摘要（生成文章摘要、新闻摘要等）、语音识别与合成（语音助手、语音导航等）。
图像与视觉领域 ：可应用于图像描述生成（为图片自动生成描述性文字）、图像问答（回答关于图片内容的问题）、图像编辑与生成（根据文字描述生成或修改图像）等。
跨领域应用 ：在医疗健康领域，可用于辅助医学影像分析、医疗文献解读、疾病预测与诊断等；在金融领域，可进行风险评估、投资决策辅助、智能客服等；在教育领域，能实现个性化学习辅导、智能答疑、作文批改等；在工业领域，有助于质量检测、故障诊断、生产流程优化等。

十一、大模型【LLMs】如何进行评估与优化？

评估指标 ：
1. 生成质量指标 ：包括 perplexity（困惑度，用于衡量模型对文本的预测能力，值越低表示模型越好）、BLEU（用于评估机器翻译等生成文本与参考文本的相似度）、ROUGE（常用于文本摘要任务的自动评价）。
2. 内容相关性和准确性 ：通过人工评估或与知识库对比，判断模型生成内容是否与输入相关且准确。
3. 连贯性和一致性 ：评估生成文本的逻辑连贯性，是否在长文本生成中保持一致的主题和风格。
4. 零样本（zero-shot）和少样本（few-shot）学习能力 ：考察模型在没有或仅有少量示例的情况下完成新任务的能力。
优化方法 ：

数据优化 ：增加数据量、提高数据质量、数据增强（如通过同义词替换、句式变换等方式扩充数据集）。
模型架构改进 ：如调整模型的层数、宽度、注意力机制等结构，或采用新的架构设计提升性能。
训练算法优化 ：改进优化器（如采用 AdamW 等更高效的优化算法）、调整学习率调度策略、应用混合精度训练等提高训练效率和效果。
正则化技术 ：防止模型过拟合，如采用 dropout、权重衰减等方法。
持续学习与模型微调 ：在新数据或新任务上对模型进行持续训练，以适应不断变化的数据分布和任务需求。

十二、什么是生成式大模型？

生成式大模型（简称大模型 LLMs）是指能用于创作新内容（如文本、图片、音频、视频等）的深度学习模型。其与普通深度学习模型的主要区别在于：

模型参数量更大：通常在 Billion 级别。
可通过条件或上下文引导生成内容：这也是 prompt engineer 产生的基础。

十三、大模型是怎么让生成的文本丰富而不单调的呢？

训练角度：

基于 Transformer 的模型参数量巨大，有助于学习多样化的语言模式与结构。
各种模型微调技术（如 P-Tuning、Lora）降低微调成本，使模型在垂直领域能力增强。
在训练中加入设计好的 loss，抑制生成单调内容。

推理角度：

基于 Transformer 的模型引入参数与策略（如 temperature、nucleus sampler）改变生成内容。

十四、LLMs 复读机问题

1 什么是 LLMs 复读机问题？

LLMs 复读机问题表现为字符、语句、章节级别的重复，以及针对不同 prompt 生成类似内容且有效信息少、信息熵低。

2 为什么会出现 LLMs 复读机问题？

数据偏差：训练数据中存在大量重复文本或某些特定的句子或短语出现频率较高。
训练目标的限制：基于自监督学习的方法，可能使模型倾向于生成与输入相似的文本。
缺乏多样性的训练数据：训练数据缺乏多样性的语言表达和语境。
模型结构和参数设置：模型的注意力机制和生成策略可能导致模型倾向于复制输入的文本。
induction head 机制的影响：模型会倾向于从前面已经预测的词中挑选最匹配的词。
信息熵角度分析：在模型生成采样时，信息淹没可能导致模型预测不出来下一个词，从而从前面的词中挑选。

3 如何缓解 LLMs 复读机问题？

3.1 Unlikelihood Training

思路：在训练中加入对重复词的抑制来减少重复输出；

介绍式中集合C代表上文生成的token，本身likelihood training loss是要促使模型学习到原标签中自然的语言逻辑，而修改后的loss不仅要促进模型学习到真实标签的语言自然性，也要通过unlikelihood loss抑制模型，使其尽量不生成集合C中的token。一般对于生成式任务，只需要在原模型基础上加入unlikelihood training进行sentence级别finetune即可，不需要通过token级别的unlikelihood和likelihood loss叠加训练。 （如果进入叠加训练虽然会降低重复率，但是句子困惑度会升高，准确率会下降）

在这里插入图片描述

注：上图为论文中的结果，其中seq-rep-4代表4-gram重复率；uniq-seq代表总共出现的不同词的个数；ppl代表句子困惑度；acc代表句子准确性；rep代表前词重复率；wrep代表加权前词重复率。从这些指标中可以明显观察到，unlikelihood training能降低整体生成句子的重复度。

unlikelihood training方法是一种表现不错的抑制重复方式，但其中集合C的设计比较困难。针对不同的任务，集合C都需要进行精心的设计，才能保证在生成精度基本不降的情况下抑制模型生成重复与单调的结果。（该方法仅能解决1.1节中阐述的前两种重复问题，无法解决输入多次相同prompt输出单调性的问题）

参考：NEURAL TEXT DEGENERATION WITH UNLIKELIHOOD TRAINING

3.2 引入噪声

在生成文本时，引入一些随机性或噪声，例如通过采样不同的词或短语，或者引入随机的变换操作，以增加生成文本的多样性。这可以通过在生成过程中对模型的输出进行采样或添加随机性来实现。

3.3 Repetition Penalty

思路：重复性惩罚方法通过在模型推理过程中加入重复惩罚因子，对原有softmax结果进行修正，降低重复生成的token被选中的概率

在这里插入图片描述

注：其中T代表温度，温度越高，生成的句子随机性越强，模型效果越不显著；I就代表惩罚项， c代表我们保存的一个list，一般为1-gram之前出现过的单词，theta值一般设置为1.2，1.0代表没有惩罚。

重复性惩罚方法是一种简单有效的重复抑制手段，因为它通过提高I值，有效降低集合c中词再次被选中的概率。当然，类似与unlikelihood training，本方法也可以通过设置不同的c集合来改变惩罚的方向。

参考：CTRL: A CONDITIONAL TRANSFORMER LANGUAGE MODEL FOR CONTROLLABLE GENERATION

Huggingface中，model.generate已经包含此参数，仅需设置repetition_penalty=p（p>1.0）即可开启重复惩罚因子

3.4 Contrastive Search

动机：Contrastive Search方法是为了解决原先解码方法，例如Beam Search，在采用最大化生成方式解码时出现解码退化的问题即生成的文本不自然的，并包含文本重复而提出的一种解决方案。
思路：对比loss以及对比搜索两个创新点，从模型训练和模型推理层面缓解了生成式模型重复以及单调问题。

其中对比loss通过在原loss基础上添加对比loss，即对比token间相似度的方式去解决生成式模型重复单调问题，公式如下：

在这里插入图片描述

就是余弦相似度，下图给出了训练前后token间的相似度：

在这里插入图片描述

从图上可以明显看出token间相似度降低了，token间相似度降低即不同token在高维空间表征分离能有效降低模型仅生成个别重复词或字的概率。

3.5 Beam Search

思路：Beam Search是对贪心策略一种改进。思路简单，就是稍微放宽考察的范围。在每一个时间步，不再只保留当前分数最高的1个输出，而是保留num_beams个。当num_beams=1时集束搜索（Beam Search）就退化成了贪心搜索。Beam Search虽然本质上并没有降低重复率的操作，但是该策略确实在结果上优化了部分生成结果，降低了一定的重复率。

下图是一个实际的例子，每个时间步有ABCDE共5种可能的输出，图中的num_beams=2，也就是说每个时间步都会保留到当前步为止条件概率最优的2个序列。

在这里插入图片描述

Beam search理论上仅是为了解决贪婪搜索给到的答案仅局部最优，而全局搜索又在时间复杂度上不可行而提出的折中算法，并不能对大模型中的任何重复问题进行修正，甚至有可能增大重复概率。但从翻译的测试实验结果来看，它确实在一定程度上改变了模型Softmax后的分布情况，优化了输出的结果，所以在部分大模型任务上能抑制重复生成问题。

注：Huggingface中，model.generate中已经包含此参数，仅需设置num_beams=2即可开启集束搜索。

3.6 TopK sampling

思路：TopK通过对Softmax的输出结果logit中最大的K个token采样来选择输出的token，该方法存在的问题是当概率分布很极端时，即模型很确定下一个token时，容易造成生成错误。以下图为例，TopK采样会选择最大的K个 token，并通过logit值对K个token进行采样，相比于贪心搜索增添了随机性，相当于同样的输入，多次经过 TopK采样生成的结果大概率不会一样。

在这里插入图片描述

TopK采样是一种行之有效，能简单暴力的解决所有重复单调问题的方案之一，当然它存在的最大问题是最后生成的句子存在狗屁不通现象，并不能保证句子的通顺度以及对prompt的忠诚度。

Huggingface中，model.generate中已经包含此参数，需设置do_sample=True，开启采样模式，同时设置top_k值，top_k值默认为50

3.7 Nucleus sampler

思路：Nucleus sampler俗称TopP采样，一种用于解决TopK采样问题的新方法，该采样方式不限制K的数目，而是通 Softmax后排序token的概率，当概率大于P时停止，相当于当模型很确定下一个token时，可采样的K也会很少，减少异常错误发生的概率。以下图为例，TopP采样会不断选择logit中最大概率的token，放入一个list中，直到list中计算的总概率大于设置的TopP值，后对list中的token概率进行重新计算，最终根据计算出来的概率值对list中的token进行采样。

在这里插入图片描述

Nucleus sampler是对简单暴力的TopK采样修改后的方法，也能解决所有重复单调问题，相比TopK，该方法生成的句子通顺度以及对prompt的忠诚度更佳，一般选择它，而不选择TopK。

注：Huggingface中，model.generate中已经包含此参数，需设置do_sample=True，开启采样模式，同时设置top_p值，top_p值默认为1.0

3.8 Temperature

生成模型中抽样包含随机性，因此每次生成时，相同的prompt可能会产生不同的输出。温度是用于调整随机程度的数字。

在这里插入图片描述

采样时如何选择温度?

较低的温度意味着较少的随机性；温度为 0 将始终产生相同的输出。执行具有“正确”答案的任务，对于总结类，翻译类等具有明确答案的任务，较低的温度（小于1）更合适。 如果模型开始自我重复，则表明温度设置过低。高温意味着更多的随机性，这可以帮助模型给出更有创意的输出。如果模型开始偏离主题或给出无意义的输出，则表明温度过高。温度调整公式如下：

在这里插入图片描述

Temperature参数就是前面介绍repetition penalty中的T参数。

提高Temperature配合上文两种采样算法，可以达到生成更激进创新性回答的需求，但生成句子的稳定性不可控。

Huggingface中，model.generate中已经包含此参数，仅需设置temperature，默认为1.0

3.9 No repeat ngram size

该方法是一种最暴力抑制重复的方法，通过限制设置的ngram不能出现重复，如果重复，就选概率次大的一个，来强制模型不生成重复的token。

该功能一般都会开启，来保证生成的句子不犯很离谱的连续重复问题。

Huggingface中，model.generate中已经包含此参数，仅需设置no_repeat_ngram_size=N即可

3.10 重复率指标检测

监测重复生成结果的指标，如 seq-rep-N，uniq-seq，rep，wrep 等。在监测到异常生成结果时，通过加入特殊字符，修改prompt表达等形式来重新生成结果。

通过我们的测试，通过切分或加入特殊字符的方式确实能让本身异常的翻译结果恢复正常，但潜在风险是翻译的语序可能会出现一定的问题。（对其他领域生成结果的影响有待进一步探索）

3.11 后处理和过滤

对生成的文本进行后处理和过滤，去除重复的句子或短语，以提高生成文本的质量和多样性。可以使用文本相似度计算方法或规则来检测和去除重复的文本。

3.12 人工干预和控制

对于关键任务或敏感场景，可以引入人工干预和控制机制，对生成的文本进行审查和筛选，确保生成结果的准确性和多样性。

十五、llama 输入句子长度理论上可以无限长吗？

限制在训练数据。理论上rope的llama可以处理无限长度，但实际上存在一些限制和挑战。下面是一些相关的考虑因素：

计算资源：生成长句子需要更多的计算资源，包括内存和计算时间。由于LLMs通常是基于神经网络的模型，计算长句子可能会导致内存不足或计算时间过长的问题。
模型训练和推理：训练和推理长句子可能会面临一些挑战。在训练阶段，处理长句子可能会导致梯度消失或梯度爆炸的问题，影响模型的收敛性和训练效果。在推理阶段，生成长句子可能会增加模型的错误率和生成时间。
上下文建模：LLMs是基于上下文建模的模型，长句子的上下文可能会更加复杂和深层。模型需要能够捕捉长句子中的语义和语法结构，以生成准确和连贯的文本。

尽管存在这些挑战，研究人员和工程师们已经在不断努力改进和优化LLMs，以处理更长的句子。例如，可以采用分块的方式处理长句子，将其分成多个较短的片段进行处理。此外，还可以通过增加计算资源、优化模型结构和参数设置，以及使用更高效的推理算法来提高LLMs处理长句子的能力。

十六、什么情况用 Bert 模型，什么情况用 LLaMA、ChatGLM 类大模型？

Bert 的模型由多层双向的Transformer编码器组成，由12层组成，768隐藏单元，12个head，总参数量110M，约1.15亿参数量。NLU（自然语言理解）任务效果很好，单卡GPU可以部署，速度快，V100GPU下1秒能处理2千条以上。

ChatGLM-6B, LLaMA-7B模型分别是60亿参数量和70亿参数量的大模型，基本可以处理所有NLP任务，效果好，但大模型部署成本高，需要大显存的GPU，并且预测速度慢，V100都需要1秒一条。

NLU 任务：Bert 模型效果好，部署成本低，速度快。
NLG 任务：LLaMA、ChatGLM 类大模型效果好，但部署成本高，预测速度慢。

十七、各个专业领域是否需要各自的大模型来服务？

通常需要，原因包括领域特定知识、语言风格和惯用语、领域需求差异、数据稀缺性等。不过，也可共享通用模型和技术，在通用模型基础上进行微调和定制。

十八、如何让大模型处理更长的文本？

动机：

目前绝大多数大模型支持的 token 最大长度为 2048，序列长度直接影响 Attention 计算复杂度，太长影响训练速度。

方法：

LongChat：
1. 将新长度压缩到原来 2048 长度上，复用原来的位置信息。
2. 用训练 Vicuna 的对话语料做微调，截断超过 16k 的文本。
其他方法：
1. 稀疏化。
2. Multi-Query Attention。
3. 真正出路可能是 Linear Attention，如 Linear Transformer 和 RWKV。

那么，如何系统的去学习大模型LLM？

作为一名从业五年的资深大模型算法工程师，我经常会收到一些评论和私信，我是小白，学习大模型该从哪里入手呢？我自学没有方向怎么办？这个地方我不会啊。如果你也有类似的经历，一定要继续看下去！这些问题啊，也不是三言两语啊就能讲明白的。

所以我综合了大模型的所有知识点，给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢，我就曾放空大脑，以一个大模型小白的角度去重新解析它，采用基础知识和实战项目相结合的教学方式，历时3个月，终于完成了这样的课程，让你真正体会到什么是每一秒都在疯狂输出知识点。

由于篇幅有限，⚡️ 朋友们如果有需要全套《2025全新制作的大模型全套资料》，扫码获取~
在这里插入图片描述

为什么要学习大模型？

我国在A大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年，人才缺口已超百万，凸显培养不足。随着AI技术飞速发展，预计到2025年,这一缺口将急剧扩大至400万,严重制约我国AI产业的创新步伐。加强人才培养,优化教育体系,国际合作并进是破解困局、推动AI发展的关键。

在这里插入图片描述

👉大模型学习指南+路线汇总👈

我们这套大模型资料呢，会从基础篇、进阶篇和项目实战篇等三大方面来讲解。
在这里插入图片描述

👉①.基础篇👈

基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程，带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念，用最易懂的方式带你入门大模型。
在这里插入图片描述

👉②.进阶篇👈

接下来是进阶篇，你将掌握RAG、Agent、Langchain、大模型微调和私有化部署，学习如何构建外挂知识库并和自己的企业相结合，学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
在这里插入图片描述

👉③.实战篇👈

实战篇会手把手带着大家练习企业级的落地项目（已脱敏），比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等，从而帮助大家更好的应对大模型时代的挑战。
在这里插入图片描述

👉④.福利篇👈

最后呢，会给大家一个小福利，课程视频中的所有素材，有搭建AI开发环境资料包，还有学习计划表，几十上百G素材、电子书和课件等等，只要你能想到的素材，我这里几乎都有。我已经全部上传到CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
在这里插入图片描述
相信我，这套大模型系统教程将会是全网最齐全最易懂的小白专用课！！

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

秘籍在手！提示工程架构师如何在认知计算与提示工程融合中胜出

我是张三，一名资深的提示工程架构师，专注于认知计算与提示工程的融合。我曾参与多个医疗AI项目，构建了融合认知计算的诊断提示系统，提升了医生的诊断效率。我的博客会分享更多关于提示工程、认知计算的实战经验，欢迎关注！（注：本文中的案例、代码均为虚构，仅用于说明问题。评论区互动：你在融合认知计算与提示工程时遇到了什么挑战？欢迎分享你的经验！