大模型LLM介绍

(英文：Large Language Model，缩写LLM)大型语言模型是一种基于深度学习的人工智能系统，通过分析海量文本数据学习语言模式、世界知识和推理能力。这些模型通常包含数十亿甚至数千亿个参数，能够生成类似人类的文本、回答问题、翻译语言以及执行各种与语言相关的任务。

Xyz_Overlord

902人浏览 · 2025-08-04 20:57:59

Xyz_Overlord · 2025-08-04 20:57:59 发布

1.大模型概述

大语言模型概念

(英文：Large Language Model，缩写LLM)

大型语言模型是一种基于深度学习的人工智能系统，通过分析海量文本数据学习语言模式、世界知识和推理能力。这些模型通常包含数十亿甚至数千亿个参数，能够生成类似人类的文本、回答问题、翻译语言以及执行各种与语言相关的任务。

名称的由来

为了探索性能的极限，许多研究人员开始训练越来越多庞大的语言模型，例如拥有1750亿参数的GPT-3和5400亿参数的PaLM。尽管这些大型语言模型与小型语言模型（例如BERT的3.3亿参数和GPT-2的15亿参数）使用相似的架构和预训练任务，但它们展现出截然不同的能力，尤其在解决复杂任务时表现出了惊人的潜力，这被称为“涌现能力”。因此，研究界给这些庞大的语言模型起了个名字，称之为“大语言模型（LLM）”。

核心技术原理

Transformer架构：现代LLM大多基于Google 2017年提出的Transformer架构，使用自注意力机制处理文本序列
预训练-微调范式：
- 预训练：在海量无标注数据上训练，学习语言通用表示
- 微调：在特定任务数据上进一步调整模型
核心组件：
- 注意力机制
- 位置编码
- 多层神经网络

2.主流的LLM模型

非国产:

GPT系列（OpenAI）：GPT-3、GPT-4等，以强大的生成能力著称
BERT（Google）：双向Transformer模型，擅长理解任务
PaLM（Google）：Pathways语言模型，大规模多任务模型
LLaMA（Meta）：开源系列模型，包括LLaMA-2等
Claude（Anthropic）：注重安全性和对齐的模型
T5（Google）：发布的多任务预训练语言模型，等。

国产大模型:

通义千问（Qwen系列，阿里巴巴）
DeepSeek系列（深度求索）
ChatGLM系列（智谱AI），等。

下面介绍一下常用的几种大语言模型架构：

1. GPT系列（Generative Pre-trained Transformer）

架构类型：仅使用Transformer的解码器（Decoder-only），采用单向自注意力（仅左侧上下文）

特点：自回归生成（逐词预测），适合文本续写和创作，但缺乏双向上下文理解能力。

2. BERT（Bidirectional Encoder Representations from Transformers）

架构类型：仅使用Transformer的编码器（Encoder-only），采用双向自注意力（全句上下文）

特点：通过遮蔽词预测（MLM）和下一句预测（NSP）任务学习双向语义，擅长理解任务（如分类、问答）。

3. T5（Text-to-Text Transfer Transformer）

架构类型：完整的编码器-解码器结构（Encoder-Decoder），结合双向编码和自回归生成

特点：将所有任务统一为“文本到文本”转换（如输入“翻译：A”输出“B”），灵活性高。

4. LLaMA模型: 基于 Transformer 解码器（Decoder-only）架构的自回归语言模型，由 Meta（原

Facebook）开发并开源。
5. Qwen

解码器+RoPE+MoE。

6. DeepSeek

编码器-解码器+MoE+MLA。

7. ChatGLM

解码器变体（GLM）+2D位置编码。

开源社区

模型社区：Hugging Face。

国产社区：魔搭ModelScope（阿里巴巴）,飞桨AI星河社区（百度），等。

LLM主要类别架构和原因

Encoder-Only、Decoder-Only、Encoder-Decoder。

大多数的大模型都是Decoder only架构,这是什么原因导致的呢?

除了训练效率和工程实现上的优势外，在理论上是因为Encoder的双向注意力会存在低秩问题（），这可能会削弱模型表达能力，就生成任务而言，引入双向注意力并无实质好处.
而Encoder-Decoder架构之所以能够在某些场景下表现更好，大概只是因为它多了一倍参数。所以，在同等参数量、同等推理成本下，Decoder-only架构就是最优选择了。
更好的Zero-Shot性能、更适合于大语料自监督学习:decoder-only 模型在没有任何 tuning 数据的情况下、zero-shot 表现最好，而 encoder-decoder 则需要在一定量的标注数据上做 multitaskfnetuning 才能激发最佳性能。
效率问题:decoder-only支持一直复用KV-Cache，对多轮对话更友好，因为每个Token的表示之和它之前的输入有关，而encoder-decoder和PrefixLM就难以做到。

大模型的特点

LLM具有多种显著特点，这些特点使它们在自然语言处理和其他领域中引起了广泛的兴趣和研究。以下是LLM的一些主要特点：

1. 巨大的规模：LLM通常具有巨大的参数规模，可以达到数十亿甚至数千亿个参数。这使得它们能够捕捉更多的语言知识和复杂的语法结构。
2. 预训练和微调：LLM采用了预训练和微调的学习方法。它们首先在大规模文本数据上进行预训练（无标签数据），学会了通用的语言表示和知识，然后通过微调（有标签数据）适应特定任务，从而在各种NLP任务中表现出色。
3. 上下文感知：LLM在处理文本时具有强大的上下文感知能力，能力理解和生成依赖于前文的文本内容。这使得它们在对话、文章生成和情境理解方面表现出色。
4. 多语言支持：LLM可以用于多种语言，不仅限于英语。它们的多语言能力使得跨文化和跨语言的应用变得更加容易。
5. 多模态支持：一些LLM已经扩展到支持多模态数据，包括文本、图像和语音。这意味着它们可以理解和生成不同媒体类型的内容，实现更多样化的应用。
6. 涌现能力：LLM表现出令人惊讶的涌现能力，即在大规模模型中出现但在小型模型中不明显的性能提升。这使得它们能够处理更复杂的任务和问题。
7. 多领域应用：LLM已经被广泛应用于文本生成、自动翻译、信息检索、摘要生成、聊天机器人、虚拟助手等多个领域，对人们的日常生活和工作产生了深远的影响。
8. 伦理和风险问题：尽管LLM具有出色的能力，但它们也引发了伦理和风险问题，包括生成有害内容、隐私问题、认知偏差等。因此，研究和应用LLM需要谨慎。