大模型入门指南：基础概念与原理一文搞懂

1、LLM的基础概念2、业内LLM的对比3、transformer架构4、AI开发的技术基建5、AI开发的学习网站

玦尘、

1154人浏览 · 2025-05-21 11:41:32

玦尘、 · 2025-05-21 11:41:32 发布

一、LLM的基础概念

概念使用 https://docs.langchain4j.info/tutorials/chat-and-language-models
社区生态 https://docs.langchain4j.info/category/%E9%9B%86%E6%88%90
AI社区 https://huggingface.co/

面向开发者的大模型手册 - LLM Cookbook
https://datawhalechina.github.io/llm-cookbook/#/
中文版的大模型入门教程，围绕吴恩达老师的大模型系列课程展开。涵盖几乎所有的知识课程，比较全面

动手学大模型应用开发 https://datawhalechina.github.io/llm-universe/#/
本项目是一个面向小白开发者的大模型应用开发教程，旨在基于阿里云服务器，结合个人知识库助手项目，通过一个课程完成大模型开发的重点入门。本项目主要包括三部分内容：LLM 开发入门；LLM 开发技巧；LLM 应用实例

1.1 LLM - 大语言模型

Large Language Model，称为大语言模型，是由具有大量参数（通常数十亿个权重或更多）的人工神经网络组成的一类语言模型，使用自监督学习或半监督学习对大量未标记文本进行训练。

哪里“大”？

参数规模大：LLM的核心特征在于其参数量级，通常达到数十亿甚至数千亿级别。这些参数通过自注意力机制捕捉语言中的复杂模式和上下文关系。
训练数据量大：大模型通过大量的数据进行训练，以提高模型的泛化能力和性能。数据量的增加使得模型能够捕获更复杂和细微的规律‌。
计算资源需求大：训练和运行LLM需要大规模并行计算能力，训练一个大型语言模型可能需要数百甚至数千个GPU协同工作数周甚至数月。

1.2 Token

token 是模型用来表示自然语言文本的基本单位，也是我们的计费单元，可以直观的理解为“字”或“词”；通常 1 个中文词语、1 个英文单词、1 个数字或 1 个符号计为 1 个 token。
一般情况下模型中 token 和字数的换算比例大致如下：

1 个英文字符 ≈ 0.3 个 token。
1 个中文字符 ≈ 0.6 个 token。

但因为不同模型的分词不同，所以换算比例也存在差异，每一次实际处理 token 数量以模型返回为准。
Token广泛出现在大模型的各种参数限制及其定价上，一般来说分为四类：

● 上下文长度：例如DeepSeek-R1的最大输出长度为64K，即最大支持的上下文token个数64000，超出后会触发上下文截断（工程层面的策略，非模型原生能力）
● 最大输出长度：例如DeepSeek-V3的最大输出长度为8K，即8000个tokens
● 百万tokens计费
● 最大思维链长度（DeepSeek-R1）
在这里插入图片描述

从用户输入到最终嵌入模型 - Token的处理过程

在这里插入图片描述

1.3 提示词 Prompt

LearningPrompt
https://learningprompt.wiki/zh-Hans/docs/chatGPT/tutorial-basics/brief-introduction
prompt基础知识/进阶调优/调优原则/技巧
Prompt是一段文本或指令，用于明确任务需求并引导模型生成符合预期的结果。它类似于人类与模型之间的“编程语言”，通过调整输入内容来影响输出质量。通俗地说，就是给AI模型提供一个“提示”或“指引”，帮助它更好地理解和完成任务。例如，输入“为冰淇淋店写一个标语”会触发模型生成相关文案。

Prompt四要素：

核心指令（Directive）：明确告诉模型需要执行什么任务，如”将以下英文句子翻译成法语”。
上下文背景（Context）：提供背景信息帮助模型理解任务场景，如”这是一封正式的商务邮件”。
示例（Examples）：在少样本学习中提供任务样例，展示输入输出格式。
输入内容（Input）：需要模型处理的具体数据或问题。
输出信息（Output）：对输出格式要要求时，需要写明格式、所需信息。
附加信息（Additional Infomation）：包括约束条件、参考资料等特殊要求。

以下是一个比较完整的Prompt示例：

# 人设
商业顾问专家

## 注意
1. 角色设计的深入思考可以确保商业顾问专家在提供咨询时既专业又具有针对性。
2. 专家设计应考虑用户在商业环境中的需求和关注点，如市场分析、风险管理等。
3. 通过情感提示的方法来强调商业顾问在帮助用户实现商业目标时的重要性和情感层面。

## 性格类型指标
INTJ（内向直觉思维判断型）

## 背景
商业顾问专家的存在是为了帮助用户在商业决策过程中提供专业的建议和解决方案，以促进企业的健康发展和市场竞争力。

## 约束条件
- 必须遵循商业道德和法律规定
- 在提供建议时需要考虑企业的长期利益和可持续发展

## 定义
- 商业顾问：为企业或个人提供专业建议和解决方案，帮助他们实现商业目标的专业人士。
- 市场分析：对市场状况、消费者行为、竞争对手等进行深入研究，以预测市场趋势和制定相应策略的过程。

## 目标
- 提供基于数据和市场研究的商业建议
- 帮助用户识别和评估商业机会与风险
- 促进企业的战略规划和执行

## 技能
为了在限制条件下实现目标，该专家需要具备以下技能：
  1. 市场分析能力
  2. 风险评估和管理技巧
  3. 战略规划和执行能力

## 价值观
- 以客户为中心，提供量身定制的解决方案
- 重视创新和持续改进
- 坚持诚信和透明度

## 工作流程
- 第一步：了解用户的具体需求和商业目标
- 第二步：收集和分析市场数据，评估外部环境和内部资源
- 第三步：识别商业机会和潜在风险
- 第四步：制定战略建议和行动计划
- 第五步：与用户沟通建议和计划，确保理解一致
- 第六步：监督实施过程，提供必要的调整和支持

# Initialization
您好，作为商业顾问专家，我将严格遵循上述步骤，为您提供专业的商业建议和解决方案，帮助您实现商业目标。让我们开始吧。

1.4 提示词工程 Prompt Engineering

Prompt Engineering 提示工程：释放大语言模型潜力的关键技术

提示工程是一门精心设计输入指令以引导大型语言模型(LLM)生成高质量输出的艺术与科学。它通过优化与AI的”对话方式”，将通用模型转变为特定领域的”专家助手”。从技术角度看，提示工程是设计、优化和实施提示或指令的实践，这些提示或指令用于引导大型语言模型的输出，以帮助完成各种任务。

为什么称之为“工程”

提示词工程并不是简单的写一句话让模型输出结果，它符合“工程”的核心逻辑：

需求分析：明确用户意图（如生成、推理、摘要、角色扮演）、目标输出格式（文本、代码、JSON 等）、约束条件（长度、风格、合规性）。
结构设计：使用模板化框架（如 “指令 + 上下文 + 示例 + 输出要求” 的 CoT 提示），或引入特殊格式（分隔符、JSON schema）引导模型。
测试与调优：通过 A/B 测试对比不同提示的效果（如准确率、相关性、安全性），利用指标（如 BLEU、ROUGE、人工评分）量化性能。
迭代优化：根据模型反馈（如幻觉、错误推理）调整提示策略（如添加 “思考步骤”、示例校准、约束限制词）。

1.5 多模态

通俗理解一下“模态”，模态就是指信息的形态，例如文本、图像、音频、视频、传感器数据（信号等）等，这些是信息的不同展现形态，我们称之为“模态”。

那么，“多模态”，就是多种信息形态的组合。

大模型多模态的理解：我们把大模型当做一个有着输入端和输出端的机器，我们希望能够以多种形式（例如输入文本+音频+视频…）向机器输入信息，这些信息经过处理后，再输出多种形式的信息（例如输出文本、视频、音频等）。具备多模态能力的大模型，就是是指能够同时理解、处理和生成多种类型数据（如文本、图像、音频、视频等）的AI模型。

为什么要有多模态？

纯文本能满足的市场需求有限，人类具备“五感”，天然倾向于多模态交互模式（语音交互、图片、视频），多模态开发了更广阔的场景：例如医疗影像分析、自动驾驶等，这些领域有巨大的商业市场和前景。

多模态输入处理过程

在这里插入图片描述

多模态大模型 vs 专精大模型

简单提一个问题，为什么不能统一做成一个多模态的大模型么？

答案是暂时不行，多模态大模型，虽然样样通，但是样样不精。

性能天花板问题：通用多模态大模型虽然“什么都会一点”，但它对每个模态的能力都有限制（尤其在生成任务上），而专精模型在设计上可以使用更加适合这个模态的架构。
训练成本问题：多模态大模型需要处理各类异构数据，训练难度高，成本极大，不如专精模型可以小规模、快迭代。
落地需求差异：实际落地的客户需求可能是围绕着某个特定任务，例如要一个“视频生成不卡顿”模型，在实际应用中，专精模型更可靠。
调优难度：多模态模型参数量极大，一微调容易影响整体能力，而专精模型小、模块清晰，微调更便捷。
评估标准不同：通用多模态模型的效果评估很麻烦，不同模态有不同的评估方法，例如图像 → 看 Inception Score / FID，文本 → 看 BLEU / ROUGE等，很难一个模型在各个维度都能做到工业级水准的优秀水平。

1.6 大模型的评测维度

评测维度	定义	应用场景
准确性 (Accuracy)	模型在任务中正确预测的比例。	适用于分类任务，衡量模型整体表现。
精确率 (Precision)	在模型预测为正例的样本中，实际为正例的比例。	适用于分类不平衡的场景，如疾病预测、欺诈检测。
召回率 (Recall)	在所有实际为正例的样本中，被模型正确预测为正例的比例。	用于需要确保尽量捕捉所有正例的场景。
F1 分数 (F1 Score)	精确率和召回率的调和平均数，平衡两者的重要性。	在精确率和召回率不平衡的任务中综合评估模型。
鲁棒性 (Robustness)	模型在面对不同数据噪声、扰动或不确定性的情况下表现的稳定性。	测试模型在输入数据变化下的稳定性，如处理噪音或意外输入。
推理速度 (Inference Speed)	模型进行预测时所需的时间，通常以毫秒或秒为单位。	用于实时应用，如自动驾驶、在线推荐系统，需保证低延迟。
内存占用 (Memory Usage)	模型在运行时所需的内存量。	对于嵌入式设备、边缘计算等资源受限环境，需要评估模型是否能运行。
可解释性 (Interpretability)	模型决策过程的透明度，用户是否能理解模型如何做出预测。	在医疗、金融等领域，要求模型决策过程清晰可解释，尤其是合规性和信任问题。
训练时间 (Training Time)	模型训练所需的时间。	对于大规模数据和计算资源有限的环境，评估训练效率非常重要。
泛化能力 (Generalization)	模型在未见过的新数据上的表现能力，避免过拟合。	测试模型在不同数据集上的表现，确保其不会仅仅记住训练数据。

1.7 模型的预训练和微调

预训练

定义：
预训练是指利用大规模无标注数据（如文本、图像等）对模型进行初始训练，使其学习通用特征。这一阶段的模型参数通常是随机初始化的，通过自监督学习任务（如掩码语言建模、图像重建等）捕捉数据中的底层结构和语义信息。

核心特点：

数据需求：依赖海量无监督数据（如ImageNet图片库、维基百科文本）。
训练目标：学习通用特征（例如语言中的语法规则、图像的边缘纹理）。
资源消耗：计算成本高，需多GPU并行训练。

典型应用：
构建基础模型（如BERT、GPT、ResNet），作为后续任务的特征提取器或初始化参数。

微调

定义：
在预训练模型的基础上，针对特定任务或领域，使用少量标注数据进一步调整模型参数，使其适应新任务的需求。

核心特点：

数据需求：小规模标注数据（如分类任务的标签、问答对的答案）。
训练目标：优化模型在特定任务上的性能（如情感分类、医学图像识别）。
资源消耗：计算成本较低，可通过参数高效微调（如LoRA、QLoRA）减少资源占用。

典型应用：
将通用模型（如GPT-4）适配到垂直领域（如法律咨询、金融分析）

模型微调的过程：

准备食材：数据预处理
● 做什么：清洗数据（去掉错别字、重复内容），标注数据（比如给每句话标上情感标签）
● 举例：你要教AI写美食评论，先收集1000条用户真实评论，标注哪些是好评、差评
● 注意：数据量不能太少！就像学做菜只看3个菜谱，肯定学不会复杂的满汉全席。
选锅点火：加载预训练模型
● 做什么：直接用现成的“大厨技能包”（比如ChatGPT、文心一言）
● 举例：就像你学做川菜，先找一个会做饭的师傅，他本来就会切菜、掌握火候，你只需要教他配菜、调味等
调整火候：微调训练
● 做什么：用你的数据教模型适应新任务，调整参数（学习率、训练轮次）
● 举例：师傅第一次做水煮鱼太淡，你告诉他“下次多放两勺盐”，反复练习直到味道达标

关键：
● 学习率太大 → 像猛火炒菜容易糊（模型学歪）
● 学习率太小 → 像小火炖煮效率低（训练慢）

高级技巧：
如果想让AI生成的内容更符合人类喜好（比如写诗更押韵），可以加两步：

训练“评分员”：奖励模型
● 做什么：让另一个模型学会打分，判断生成内容的好坏
● 举例：你写10首打油诗，人工标出分数（80分、60分），让评分员学习你的审美标准
用“奖励”引导AI：强化学习
● 做什么：AI生成内容后，评分员给它打分，高分奖励、低分惩罚
● 举例：AI第一次写诗押韵得5分，调整后押韵+意境得8分，逐步优化

效果评估：

看数据指标（像考试分数）
准确率：分类任务中，100条测试数据对了90条 → 准确率90%
损失值：数值越低越好，比如从1.2降到0.3说明模型进步明显
命中率：检索任务中，模型找到正确答案的比例（比如80%）
人工抽查（像试吃环节）
随机测试：让AI生成10条内容，人工检查是否符合要求
举例：微调后AI写的美食评论，是否有“口感酥脆”“酱汁浓郁”等关键词？
对比实验
对照组：对比微调前后的表现，比如原来准确率60%，现在85%
竞品对比：和ChatGPT等通用模型比，你的专用模型是否更精准
持续监控
上线后跟踪：实际使用中发现新问题（比如遇到方言识别不了），继续补充数据微调

预训练与微调的区别

维度	预训练	微调
数据	大规模无标注数据（如 TB 级文本）	小规模标注数据（如千张图片）
参数初始化	随机初始化	基于预训练参数初始化
训练目标	学习通用特征（如语言结构、图像特征等）	优化特定任务性能（如分类准确率、回归性能等）
资源需求	高（需要多卡并行计算，显存和计算力要求较高）	低（可以使用单卡运行，适用于更小规模的任务）
典型模型	BERT、ResNet、GPT系列等大规模预训练模型	适配后的任务专用模型，如BERT微调版、ResNet微调版等

二、业内大模型对比

维度	GPT-4o	DeepSeek	通义千问（阿里）	混元（腾讯）	豆包（字节跳动）
技术背景	美国 OpenAI，依托全球数据与顶尖算力	中国深度求索，专注低算力优化	阿里巴巴旗下，集成阿里云生态	腾讯研发，采用 MoE 架构与自研芯片	字节跳动研发，基于 MoE 架构
中文能力	可处理中文，但本地化能力一般	中文理解领先，长文本、古文解析更优	中文处理强，支持粤语等方言	中文优化显著，复杂数学与代码能力增强	中文评测综合排名第一，支持13种方言识别
多模态支持	文本 / 图像 / 视频	主要支持文本	文本 / 图像 / 视频	文本 / 图像 / 视频	文本 / 图像 / 视频
多语言支持	支持多语言，全球化能力强	主要面向中文，国际化扩展中	支持中英等8种语言，含语音识别	中文为主，多语言能力较弱	支持40+语言，具备跨语种同声传译能力
架构类型	Transformer	MoE（Mixture of Experts）	MoE（专家混合模型）	Transformer + MoE 层间异构结构	MoE，激活部分专家网络以节省计算
模型规模	万亿级参数，多模态融合模型	参数规模适中，优化计算效率	与 GPT-4o 相近，规模较大	万亿级层间异构 MoE 架构	千亿级参数，推理时仅激活约20B参数

为什么各个公司需要自研大模型

一、商业化壁垒：构建差异化竞争优势

行业定制化刚需
○ 通用大模型（如 GPT-4）在标准化任务（聊天、文本生成）表现优异，但金融风控（需解析财报附注）、医疗诊断（需遵循临床指南）、法律合同审查（需匹配行业法规）等场景需要深度领域知识注入。
○ 案例：平安自研 “平安智脑”，融合 20 万份保险条款和 10 万份医疗影像数据，在保单智能核保效率上比通用模型提升 40%，错误率降低 65%。
○ 自研模型可针对垂直场景优化交互逻辑，例如美团大模型针对 “外卖配送路径规划”，将历史订单数据（地址分布、配送时段）嵌入模型，配送时效预测误差缩小 30%。
数据资产闭环控制
○ 企业核心数据（用户行为、交易记录、供应链信息）是 AI 模型的 “燃料”，自研大模型可实现数据输入 - 训练 - 输出的闭环管理，避免敏感数据外流于第三方 API。
○ 风险案例：某电商平台使用第三方模型分析用户购物车数据，因数据传输链路加密不足，导致竞品通过模型输出反推其热销商品策略。
○ 数据积累形成 “飞轮效应”：自研模型持续吸收业务数据迭代，例如抖音大模型通过用户短视频互动数据（停留时长、点赞热区）优化推荐策略，用户日均使用时长增加 22%。
成本长期优化
○ 通用模型按 Token 计费（如 GPT-4o 每千 Token 约 0.03 美元），对高频调用场景（日均百万次查询的客服系统）而言，年成本可能超千万元。自研模型初期投入高（算力、人才、数据标注），但规模化后边际成本趋近于零。
○ 测算：某银行客服系统使用第三方模型年成本 800 万元，自研部署后，3 年内硬件折旧 + 维护成本仅为 450 万元，且支持离线部署降低网络费用。

二、安全性与合规性：筑牢数据安全防线

敏感数据本地化处理
○ 金融、医疗、政务等领域要求数据 “不出域”：
○ 第三方模型存在 “数据泄露暗箱”：2024 年某车企使用外部模型分析车辆传感器数据，因模型训练数据包含竞品参数，被指控商业机密泄露。
动态风险管控能力
- 自研模型可嵌入企业专属风控规则
合规审计可追溯性
○ 监管要求 AI 决策 “可解释、可审计”

三、技术自主性：摆脱外部依赖枷锁

应对供应链风险
○ 国际局势动荡下，技术封锁可能导致外部模型断供
敏捷迭代与技术创新
○ 通用模型更新周期长（如 GPT-4o 一年仅 1-2 次大版本更新），自研模型可按业务需求快速迭代
技术栈深度整合
○ 自研模型可与企业现有技术体系无缝融合

四、生态构建：打造技术闭环生态

产品矩阵协同效应
○ 自研大模型是企业 “AI 生态” 的核心枢纽
开发者生态绑定
○ 企业通过开放自研模型 API / 工具链，吸引第三方开发者共建生态
硬件 - 软件协同优化
○ 自研模型可针对企业自有硬件定制化

五、数据壁垒：构建不可复制的护城河

行业数据垄断性优势
○ 某些领域的数据具有 “独家性” 和 “不可复现性”
数据质量绝对控制权
○ 通用模型训练数据混杂（含错误、过时信息），自研模型可确保数据 “纯净度”

六、政策与战略层面：顺应时代必然选择

国产化替代政策驱动
○ 各国政府推动 “AI 自主可控”
国家安全战略需求
○ 关键基础设施（能源、通信、交通）若依赖外部模型，存在 “后门风险”
企业战略卡位
○ 自研大模型是 “第四次工业革命” 的入场券

七、成本与效率：长期主义的必然选择

边际成本趋零效应
○ 自研模型的固定成本（算力、人才）在初期较高，但随着用户规模扩大，单用户服务成本趋近于零
避免 “双重付费” 陷阱
○ 使用外部模型需支付 “数据采集费 + API 调用费 + 结果修正费”，而自研模型可省去中间环节

八、品牌与组织：重塑企业技术形象

技术领导力背书
○ 自研大模型是企业 “技术实力” 的显性标志
组织敏捷性进化
○ 自研大模型倒逼企业进行 “数字化组织变革”

三、大模型架构

Transformer架构简介

Transformer是一种基于注意力机制的深度学习模型，专门处理序列数据（如文本、语音）。它由Google在2017年提出，取代了传统的循环神经网络（RNN），成为大语言模型（如GPT、BERT）的核心架构。

简单比喻：

想象你要理解一句话的意思，RNN需要像逐字阅读一样按顺序处理，而Transformer可以“一眼扫过整句话”，同时分析所有单词之间的关系，因此速度更快、效率更高。

核心组件

(1) 自注意力机制（Self-Attention）

功能：让模型捕捉序列中任意位置之间的关联。例如，分析句子“苹果手机很好用”时，模型能自动关联“苹果”和“手机”，而不是单独理解每个词。
通俗理解：就像读书时，你的大脑会同时关注当前句子和前后文的关键信息，自注意力机制让模型具备这种能力。

(2) 多头注意力（Multi-Head Attention）

功能：将自注意力拆分成多个“视角”（如语法、语义、上下文等），分别分析后再合并结果。例如，一个头关注动词与宾语的关系，另一个头关注时间顺序。
作用：增强模型对复杂关系的理解，避免单一视角的局限性。

(3) 位置编码（Positional Encoding）

功能：给每个单词添加位置信息。因为Transformer不按顺序处理数据，需要额外告诉模型单词的位置（如“猫在狗旁边”和“狗在猫旁边”含义不同）。
实现：通过数学公式或可学习的参数，为每个位置生成唯一编码。

(4) 编码器与解码器结构

编码器：将输入文本（如中文句子）压缩成“抽象语义表示”，捕捉整体含义。
解码器：根据编码器的输出，逐步生成目标序列（如英文翻译）。某些模型（如GPT）仅用解码器，BERT仅用编码器4。

(5) 前馈神经网络 & 残差连接 & 层归一化

前馈网络：对每个位置的表示进行非线性变换，增强模型表达能力。
残差连接：防止深层网络训练时梯度消失，让模型更容易优化。
层归一化：‌归一化的核心作用在于消除数据量纲差异、加速模型训练并提升泛化能力‌。

在这里插入图片描述

我们可以把 Transformer 架构类比成一个「翻译小分队」，每个组件就像团队里的不同角色，分工合作完成翻译任务。比如要把英文句子 “The cat sat on the mat”（猫坐在垫子上）翻译成中文，看看这些 “队员” 怎么配合：

1. 输入层 + 位置编码：给单词 “排队” 并贴标签

输入层：首先把每个单词（The, cat, sat, on, the, mat）变成模型能理解的 “数字卡片”（词嵌入），就像给每个单词发一张 “身份牌”。
位置编码：但光有身份牌不够，顺序很重要！比如 “cat sat” 和 “sat cat” 意思不同，所以给每个单词额外贴一个 “位置标签”（1 号、2 号…6 号），告诉团队 “谁先谁后”，就像排队时每个人记住自己的位置。

类比： 就像一群人排队买票，每个人既有 “自己是谁” 的身份（词嵌入），也有 “排在第几个” 的位置（位置编码），缺一不可。

2. 自注意力机制：“交头接耳” 的信息共享

每个单词需要理解自己在句子中的角色：比如 “cat”（猫）是主语，要知道前面是 “The”（这只），后面是 “sat”（坐）。这时候，自注意力机制让每个单词 “看向” 其他所有单词，计算彼此的关联度（权重）。
- 比如 “cat” 会想：“The” 和我关系最近（“The cat” 表示 “这只猫”），“sat” 是我做的动作，“mat” 是我坐的地方，所以重点关注它们。
- 每个单词最终的 “理解”= 自己的信息 + 周围相关单词的信息，就像开会时每个人发言前，先听听其他人说了什么，再整合出自己的想法。

类比： 小组讨论翻译时，每个人（单词）不会孤立思考，而是先 “听” 其他人的发言（其他单词的信息），比如 “cat” 听到 “mat” 就知道和 “垫子” 有关，从而更准确理解自己的意思。

3. 多头注意力：多个小组从不同角度分析

多头注意力相当于派出多个 “小分队” 同时工作，每个小分队用不同的 “视角” 分析句子：
- 第一队关注语法（比如 “cat” 是名词，“sat” 是动词）；
- 第二队关注词义（“mat” 是 “垫子” 还是 “哑光”）；
- 第三队关注逻辑（“猫坐在垫子上” 的动作顺序）。
每个小分队独立计算注意力，最后把结果 “合并”，让每个单词的信息更全面。

类比： 就像翻译时，有人负责语法检查，有人负责查词典，有人负责流畅度，最后把大家的意见汇总，得到更准确的翻译。

4. 前馈神经网络：深加工每个单词的 “想法”

每个单词整合完上下文信息后，进入一个 “深加工工厂”（前馈神经网络），把抽象的数字信号进一步处理，比如调整数值让 “cat” 更贴近 “猫” 的含义，让 “sat” 更贴近 “坐” 的动作。

类比： 就像每个人在讨论后，自己再 “消化” 一下信息，把听到的内容转化成自己能输出的具体想法（比如 “cat” 确定翻译成 “猫” 而不是 “猫咪”）。

5. 残差连接 + 层归一化：防止 “信息丢失” 和 “节奏混乱”

残差连接：在深加工时，担心过度处理会丢失原始信息，所以把 “原始身份牌”（输入层的词嵌入）直接加到深加工后的结果里，就像 “留一手”，确保不会跑偏。
层归一化：团队里每个人的 “思考强度” 不同，有的太激进，有的太保守，层归一化就像 “节奏调节器”，把大家的输出调整到相似的 “水平”，方便后续合作。

类比： 残差连接像 “备份”，防止翻译时漏翻关键单词；层归一化像 “统一口音”，让每个人的表达风格一致，方便最后整合。

6. 编码器和解码器（以翻译为例）：分工处理 “输入” 和 “输出”

编码器（处理输入英文）：前面的所有组件（输入层、自注意力、前馈网络等）组成编码器，把英文句子 “The cat sat on the mat” 转化为包含上下文信息的 “团队共识”（编码向量）。
解码器（生成中文输出）：解码器类似编码器，但还会 “偷看” 已经生成的中文单词（比如先生成 “猫”，再根据 “猫” 和编码向量生成 “坐”，依此类推），最终输出 “猫坐在垫子上”。

类比： 编码器像 “理解小组”，把英文吃透并总结成备忘录；解码器像 “输出小组”，根据备忘录和已经说出来的中文，一句一句把翻译 “说” 出来。

总结：Transformer 如何协同工作？

输入层给单词发 “身份牌”，位置编码标顺序，就像排队领任务；
自注意力让单词 “交头接耳”，知道自己和周围单词的关系（比如 “cat” 知道自己是主语）；
多头注意力派多个小组从不同角度分析（语法、词义、逻辑），确保理解全面；
前馈网络深加工每个单词的含义，让 “cat” 更像 “猫”；
残差连接和层归一化确保信息不丢、节奏统一；
编码器把英文变成 “团队共识”，解码器根据共识生成中文，就像接力赛一样一环扣一环。

MoE架构

用通俗的话术来解释MoE就是 “分工合作 + 专业的事情交给专业的人” 。如果有一个包括了多个领域知识的复杂问题，我们该使用什么样的方法来解决呢？最简单的办法就是把各个领域的专家集合到一起来攻克这个任务，当然我们事先要把不同的任务先分离出来，这样才便于分发给不同领域的专家，让他们来帮忙处理，最后再汇总结论。

MoE模型主要分为两个部分，即稀疏 MoE 层和门控网络。

稀疏 MoE 层: 这些层代替了传统 Transformer 模型中的前馈网络 (FFN) 层。MoE 层包含若干“专家”(例如 8 个)，每个专家本身是一个独立的神经网络。在实际应用中，这些专家通常是前馈网络 (FFN)，但它们也可以是更复杂的网络结构，甚至可以是 MoE 层本身，从而形成层级式的 MoE 结构。
门控网络或路由: 这个部分用于决定哪些令牌 (token) 被发送到哪个专家，同时也用复杂的机制来保证负载均衡。例如，在下图中，“More”这个令牌可能被发送到第二个专家，而“Parameters”这个令牌被发送到第一个专家。有时，一个令牌甚至可以被发送到多个专家。令牌的路由方式是 MoE 使用中的一个关键点，因为路由器由学习的参数组成，并且与网络的其他部分一同进行预训练。

在这里插入图片描述

Transformer架构和MoE架构的对比

对比维度	Transformer 架构	MoE 架构（Mixture of Experts）
基本结构	基于自注意力机制（Self-Attention）和前馈网络（FFN）堆叠，全参数参与计算	由多个专家网络和门控机制组成，仅激活部分专家网络进行计算
参数量与计算效率	参数量密集，计算资源需求高，训练成本高	总参数量大，但每次仅激活部分专家，显著降低实际计算成本
训练难度	训练稳定，梯度更新均匀，需大量数据防止过拟合	路由机制复杂，需防止“专家倾斜”，训练策略要求高
并行化能力	支持高度并行化，适合处理长序列数据	专家可并行计算，但动态路由可能成为瓶颈
数据处理能力	擅长长距离依赖建模，适合序列任务如文本生成、翻译等	专家分工处理多样任务，适用于多模态、大规模复杂推理任务
资源消耗	显存占用高，推理延迟大，需加载全部参数	显存占用较低，仅加载激活专家，推理速度快
优势	1. 模型稳定，适合通用任务 2. 并行能力强 3. 结构统一，易扩展	1. 计算效率高，适合大模型 2. 多任务灵活 3. 资源利用更优
局限性	1. 参数冗余，训练成本高 2. 超长序列计算复杂度高	1. 专家负载不均可能影响性能 2. 路由机制复杂，可能引入不稳定性
典型应用场景	文本生成（如 GPT 系列）、机器翻译、语言理解（如 BERT）	超大规模模型（如 Switch-Transformer）、多任务学习、边缘轻量部署
代表模型	BERT、GPT-3、T5	Switch-Transformer、DeepSeek MoE、GLaM

四、AI的技术基建

开发AI我们需要了解哪些技术？需要学习哪些组件？首先需要了解下做AI开发的产物概念。

LangGraph中文文档
https://github.langchain.ac.cn/langgraph/tutorials/introduction/
langgraph中文文档-构建agent

【LangChain教程】2025年吃透LangChain+LangGraph快速入门与底层原理教程
LangChain视频课程，快速入门

LangChain 中文入门教程 https://github.com/liaokongVFX/LangChain-Chinese-Getting-Started-Guide
LangChain 是一个用于开发由语言模型驱动的应用程序的框架。他主要拥有 2 个能力：可以将 LLM 模型与外部数据源进行连接；允许与LLM 模型进行交互

基于langchain实现RAG
https://python.langchain.ac.cn/docs/introduction/
基于llamaIndex实现RAG
https://www.aidoczh.com/llamaindex/use_cases/q_and_a/

langchain4j Java版工程
https://github.com/langchain4j/langchain4j-examples/tree/main
langchain4j Java版工程，适合自学入门

4.1 RAG

RAG全称是Retrieval Augmented Generation，检索增强生成，是一种将信息检索与文本生成结合的技术，旨在利用外部知识库（如文档、数据库）补充大语言模型（LLM）的内部知识，从而生成更准确、上下文相关的回答。其核心思想是模仿人类“查阅资料”的行为，动态整合最新信息以减少模型幻觉（即生成错误或虚构内容）。

从字面意义上理解，RAG分为三块功能：

检索：根据用户的查询内容，从外挂知识库获取相关信息。具体来说，就是将用户的查询通过嵌入模型转换成向量，以便与向量数据库中存储的知识相关的向量进行比对。通过相似性搜索，从向量数据库中找出最匹配的前 K 个数据。
增强：将用户的查询内容和检索到的相关知识一起嵌入到一个预设的提示词模板中。
生成：将经过检索增强的提示词内容输入到大语言模型（LLM）中，以此生成所需的输出。流程图如下所示：

综合上述知识，我们需要了解的RAG开发工具和框架如下：

嵌入模型

嵌入模型（Embedding Models）是一种将非结构化数据（如文本、图像、音频）转换为低维连续向量表示的机器学习模型。这些向量能够捕捉数据的语义、上下文或特征信息，使得机器可以通过数学方法（如余弦相似度）比较、聚类或分类数据。

中文嵌入模型排行榜：https://huggingface.co/spaces/mteb/leaderboard

向量数据库

向量数据库是一种专门管理高维向量数据的数据库，其核心在于将数据（如文本、图像、视频）转化为数值向量（即嵌入向量），并在多维空间中存储和检索这些向量。与传统数据库不同，它通过计算向量之间的相似性（如余弦相似度）实现高效查询，尤其擅长处理非结构化数据和相似性搜索任务。

向量数据库和传统关系数据库的区别

维度	向量数据库	传统关系型数据库
数据模型	多维向量，无固定模式	表格结构，严格预定义模式
查询方式	相似性搜索（如语义匹配、近邻检索）	精确查询（如 SQL 条件过滤、JOIN 操作）
适用场景	非结构化数据，AI/ML 应用（如图像、文本、音频）	结构化数据，事务处理（如订单、财务系统）
扩展性	水平扩展为主，采用分布式架构	垂直扩展为主，通过提升单机性能实现扩容
性能优化	支持向量化计算、ANN 索引、并行处理	依赖行/列级索引、缓冲池、事务锁机制优化性能
典型工具	Faiss、Pinecone、Milvus、Weaviate	MySQL、PostgreSQL、Oracle、SQL Server

RAG开发中常用的向量数据库

数据库	核心优势	适用场景
Pinecone	云托管、自动扩展、支持混合搜索（稠密+稀疏）	实时推荐系统、低运维云端 AI 应用
Milvus	支持超大规模处理、多模态数据、高活跃开源社区支持	图像搜索、十亿级向量的 NLP 检索系统
Faiss	GPU 加速、高度可定制、索引类型丰富	学术研究场景、中小规模推荐或相似度匹配系统
Weaviate	原生语义搜索、模块化架构、支持 GraphQL 查询	知识库构建、语义检索、带复杂元数据过滤的 AI 系统

分块策略

在构建 RAG（Retrieval-Augmented Generation）系统时，文本分块的长度对大模型的输出质量有着至关重要的影响。过长的文本块会带来一系列问题：

语义模糊
降低召回精度
输入受限

合理的文本分块策略是提升 RAG 系统性能和大模型回答质量的关键，常见的分块策略：
固定大小分块
● 定义：按预定义字符数、词数或标记数划分文本（如每500字符或100词），适用于快速处理非结构化数据（如日志、表格数据）。
● 优点：实现简单、计算高效，适合初步索引或大规模数据预处理。
● 缺点：可能截断语义单元（如句子、段落），导致上下文断裂，影响复杂任务的准确性。

语义分块
● 定义：基于自然语言边界（段落、主题变化）分割文本，保持块内语义一致性。例如，利用Markdown结构或句子主题划分。
● 优点：避免信息碎片化，提升检索相关性和生成内容连贯性，适合摘要、问答等任务。
● 挑战：需复杂NLP工具（如spaCy、NLTK）支持，计算成本较高。

混合分块
● 策略：结合固定分块和语义分块。例如，先快速索引固定块，再通过语义分析优化检索。
● 应用场景：企业客服系统（快速响应+语义校验）、学术研究（处理多样文本类型）。
● 优势：平衡速度与准确性，适应动态需求。

RAG开发框架

LangChain：通用AI应用的“多面手”

设计目标：
以模块化设计为核心，支持灵活构建复杂的多步骤AI应用，适用于需整合多种工具和服务的场景。

核心功能与优势：

模块化架构：提供数据加载、分割、索引、生成等独立模块，用户可自定义流程链（如结合数据库、API、PDF处理等），适合高度定制化需求。
广泛集成能力：支持与多种LLM（如GPT-4、Hugging Face模型）、外部工具（如数据库、搜索引擎）无缝集成，适合构建交互式代理或多模型协作系统。
复杂状态管理：支持对话记忆与长期状态跟踪，适合需维护多轮对话的聊天机器人或动态任务处理场景。
生态系统成熟：拥有LangSmith（监控工具）、LangServe（部署服务）等企业级产品，社区资源丰富，学习资料和案例充足。

典型场景：

多工具协作（如先检索数据库再调用API生成报告）
需要自定义流程的智能代理开发
长期对话系统（如客服机器人）

LlamaIndex：专注于高效检索的“专家”

设计目标：
以简化RAG流程为核心，优化数据索引与检索效率，适合快速搭建基于私有数据的问答系统。

核心功能与优势：

一站式索引构建：通过VectorStoreIndex.from_documents()等接口，自动完成数据加载、分块、向量化，大幅减少代码量。
高效检索算法：采用语义相似性排序与树状索引结构（如GPTTreeIndex），支持复杂查询（如子查询、多级检索）和超大规模数据的高性能处理。
数据连接便捷：通过LlamaHub提供预置数据连接器，可直接从Notion、SQL数据库等50+来源导入数据，无需预处理。
轻量化与易用性：抽象底层复杂性（如自动选择向量库），学习曲线较LangChain更低，适合快速原型开发。

典型场景：

企业知识库问答系统
法律文档或医疗报告的结构化检索
需要快速验证RAG可行性的项目

关键差异对比

维度	LangChain	LlamaIndex
设计哲学	通用性优先，支持复杂流程与多工具集成	专注RAG，优化检索效率与简化流程
代码复杂度	需手动组装模块，学习曲线陡峭	高阶API封装，代码更简洁
检索性能	依赖用户配置，灵活性高但需调优	内置优化算法，检索速度更快
适用数据规模	中小规模数据，侧重多样性处理	海量数据的高效索引与查询
社区与生态	企业级工具完善，社区活跃	发展迅速，专注RAG相关功能扩展

选型建议

选择LangChain的情况：

需要整合多种工具（如数据库+API）
构建多步骤逻辑（如先检索、再生成、后调用外部服务）
长期维护复杂对话状态或开发智能代理

选择LlamaIndex的情况：

核心需求为快速搭建基于私有数据的问答系统
处理大规模文本数据（如企业知识库）
需要高级检索功能（如子查询、混合索引）

4.2 AI Agent

agent-tutorial
https://github.com/datawhalechina/agent-tutorial
本教程是 Datawhale 成员写作的关于 Agent 的教程，特点是通过实践引导学习者加深对Agent的理解。

LangGraph中文文档 https://github.langchain.ac.cn/langgraph/tutorials/introduction/
langgraph中文文档-构建agent

AI Agent指的是有能力主动思考和行动的智能体，能够以类似人类的方式工作，通过大模型来“理解”用户需求，主动“规划”以达成目标，使用各种“工具”来完成任务，并最终“行动”执行这些任务。 AI Agent不同于传统的人工智能，它具备通过独立思考、调用工具去逐步完成给定目标的能力。 AI Agent本质是一个控制LLM来解决问题的代理系统。

在这里插入图片描述

规划 - 思维链和思维树

思维链（Chain of Thought, CoT）和思维树（Tree of Thoughts, ToT）本质上是两种基于Prompt工程优化的方法，其核心目标是通过结构化推理路径的设计，提升大型语言模型（LLM）在复杂任务中的表现。

思维链（CoT）

思维链（CoT）是一种线性推理方法，让 AI 逐步拆解问题、依次推理得出最终答案，适用于确定性问题，比如数学计算、逻辑推理、代码生成等。

在《Large language models are zero-shot reasoners》这篇论文的测试中，在向 LLM 提问的时候追加 “Let’s think step by step” 后，在数学推理测试集 GSM8K 上的推理准确率从 10.4% 提升到了 40.7%。而 Agent 作为智能体代理，能够根据给定的目标自己创建合适的 prompt，可以更好地激发大模型的推理能力。

CoT特点：

分解问题：将复杂任务拆解为多个子步骤（如“先分析生态问题成因，再提出治理措施”）；
逐步生成：模型需依次输出每一步的结论，最终整合答案

两种形式：
Zero-shot CoT

仅需单一提示语，工程成本极低，但对提示模板敏感（如“Let’s think step by step”效果最佳）。
在跨任务和领域时更具通用性，但可能因缺乏引导导致不稳定性。

Few-shot CoT

需人工设计高质量示例，且示例顺序和内容显著影响结果。
示例与任务匹配时表现优异，但跨领域时性能下降明显（如从常识推理迁移到数学推理）

思维树（ToT）

CoT仅支持单一路径推理，而ToT引入树状结构，允许模型在Prompt中探索多种可能的解题路径。例如，在解决数学题时，模型可同时尝试不同公式或假设，并通过评估筛选最优解。

ToT的特点：

动态决策：模型可回溯、修正错误路径（如通过深度优先搜索算法调整策略）；
灵活适配：针对开放性问题（如政策设计），支持生成多方案并对比优劣

ReAct框架

Reasoning and Action，推理和行动。ReAct这个框架，就是要让开发者一步步引导LLM进行推理，然后根据推理的结果，判断采取哪个行动。

ReAct框架的核心组件：

思维链（Chain of Thought）：将一个大的复杂任务进行拆解，拆解成多个思维步骤。
推理（Reasoning）：负责分析和处理输入的数据，生成有效的决策。
行动（Action）：执行具体的操作，比如搜索、执行代码，或者其余自定义的行动。
观察（Observation）：监控和收集环境反馈的数据，为下一步的推理和行动提供依据。

推理1：用户想知道2025年周杰伦最新的演唱会是时间和地点是什么，需要查找最新的信息。
行动1：调用Google的搜索API进行搜索。
观察1：搜索结束，搜索的结果中出现一些关于《2025年周杰伦最新的演唱会》的网页信息。

推理2：搜索出来的网页较多，大概浏览前6个网页的具体内容。
行动2：点击第一个网页，开始浏览。
观察2：浏览结束，浏览的网页内容提及到了2025年周杰伦最新的演唱会信息。

推理3：针对网页的内容进行，问题的总结。
结果：将最终的答案输出给用户。

4.3 MCP

官方文档：https://modelcontextprotocol.io/docs/getting-started/intro
MCP官方资源：https://github.com/modelcontextprotocol/servers
Smithery（MCP查询）：https://smithery.ai

MCP（Model Context Protocol）是大语言模型和外部应用/数据交互的一种协议，可以让模型在对话时直接获取到结构化的上下文信息（比如用户数据、应用状态、外部工具接口等）。

对MCP的理解

传统AI集成的问题:这种为每个数据源构建独立连接的方式，可以被视为一个M*N问题。
问题:架构碎片化，难以扩展，限制了AI获取必要上下文信息的能力
MCP解决方案:提供统一且可靠的方式来访问所需数据，克服了以往集成方法的局限性

MCP工作原理

在这里插入图片描述

数据流向图：

在这里插入图片描述

五、AI的学习网站（引用链接汇总）

概念使用 https://docs.langchain4j.info/tutorials/chat-and-language-models
社区生态 https://docs.langchain4j.info/category/%E9%9B%86%E6%88%90
AI社区 https://huggingface.co/

面向开发者的大模型手册 - LLM Cookbook
https://datawhalechina.github.io/llm-cookbook/#/
中文版的大模型入门教程，围绕吴恩达老师的大模型系列课程展开。涵盖几乎所有的知识课程，比较全面

动手学大模型应用开发 https://datawhalechina.github.io/llm-universe/#/
本项目是一个面向小白开发者的大模型应用开发教程，旨在基于阿里云服务器，结合个人知识库助手项目，通过一个课程完成大模型开发的重点入门。本项目主要包括三部分内容：LLM 开发入门；LLM 开发技巧；LLM 应用实例

agent-tutorial
https://github.com/datawhalechina/agent-tutorial
本教程是 Datawhale 成员写作的关于 Agent 的教程，特点是通过实践引导学习者加深对Agent的理解。

LangGraph中文文档
https://github.langchain.ac.cn/langgraph/tutorials/introduction/
langgraph中文文档-构建agent

【LangChain教程】2025年吃透LangChain+LangGraph快速入门与底层原理教程
LangChain视频课程，快速入门

LangChain 中文入门教程
https://github.com/liaokongVFX/LangChain-Chinese-Getting-Started-Guide
LangChain 是一个用于开发由语言模型驱动的应用程序的框架。他主要拥有 2 个能力：可以将 LLM 模型与外部数据源进行连接；允许与 LLM 模型进行交互

基于langchain实现RAG
https://python.langchain.ac.cn/docs/introduction/
基于llamaIndex实现RAG
https://www.aidoczh.com/llamaindex/use_cases/q_and_a/

langchain4j Java版工程
https://github.com/langchain4j/langchain4j-examples/tree/main
langchain4j Java版工程，适合自学入门

LearningPrompt
https://learningprompt.wiki/zh-Hans/docs/chatGPT/tutorial-basics/brief-introduction
prompt基础知识/进阶调优/调优原则/技巧

AI工具集
https://ai-bot.cn/ai-app-store/
涵盖了市面上大部分的AI工具以及相关资讯，比较全面，可以更早的感知到AI技术的变化
在这里插入图片描述