【智能体开发】《LangChain核心技术与LLM项目实践》_3.[第1章基础入门] 预训练与微调技术：让模型更懂你的业务场景

机器爱上学习

28人浏览 · 2026-06-24 08:31:18

机器爱上学习 · 2026-06-24 08:31:18 发布

在这里插入图片描述

从零到精通：预训练与微调技术如何让大模型从"通才"变身"业务专家"？一文打通LLM落地的任督二脉，告别"模型很强大，但用不起来"的困境！

预训练技术：大模型的"九年义务教育"
微调技术：从通才到专家的蜕变
RLHF：人类反馈的魔法
业务场景落地：从实验室到生产线
LangChain集成：实战中的最佳实践

嗨，大家好呀，我是你的老朋友精通代码大仙。接下来我们一起学习《LangChain核心技术与LLM项目实践》，震撼你的学习轨迹！

“看了那么多大模型Demo，一到自己业务上就拉胯。”

这句话是不是戳中你了？我见过太多同学，GPT-4玩得飞起，ChatGLM本地也跑起来了，但真要让模型回答自己公司的产品问题、处理行业专属任务，立马就"人工智障"了。

为啥？因为预训练大模型是"通才"，而你的业务需要"专家"。

今天咱们就聊聊预训练与微调这对黄金搭档，看看怎么让大模型真正"懂"你的业务。这章内容是你后续用LangChain做项目的基础，搞不明白这个，后面的RAG、Agent都是空中楼阁。

1. 预训练技术：大模型的"九年义务教育"

点题：什么是预训练？

预训练就像让模型先上完九年义务教育，再选专业。模型在海量无标注文本上"自学"，掌握语言规律、世界知识、推理能力。

核心三件套：

自监督学习是关键——不需要人工标注，模型自己设计任务来学习。比如遮住一句话中的某个词，让模型预测（MLM，Masked Language Model）；或者给定上文，预测下一个词（CLM，Causal Language Model）。

痛点分析：新手容易踩的坑

坑一：以为预训练和自己没关系

“我又不训练GPT-4，学这个干嘛？”——这是最常见的误区。你不训练基础模型，但你要理解它啊！不知道模型怎么学的，你怎么知道它能做什么、不能做什么？

有个学员让我印象深刻。他用ChatGLM做医疗问答，发现模型总是"编"一些不存在的药品说明书。他疯狂调Prompt，加了一堆"请只基于事实回答"的限制，效果还是差。

为啥？因为预训练阶段模型见过太多网络文本，包括大量错误的医疗信息。模型不是"故意"撒谎，它只是学会了这种生成模式。你不理解预训练的数据偏见，就只能治标不治本。

坑二：混淆MLM和CLM的适用场景

# 错误认知：BERT和GPT随便换着用
from transformers import BertTokenizer, GPT2Tokenizer

# 新手常犯的错误：用BERT做生成任务
bert_tokenizer = BertTokenizer.from_pretrained("bert-base-chinese")
# 然后试图让BERT续写故事... 结果惨不忍睹

# 或者用GPT做理解任务，效果也打折扣
gpt_tokenizer = GPT2Tokenizer.from_pretrained("gpt2")
# 直接拿来做语义相似度判断，没有[CLS]向量可用

BERT（MLM）是"完形填空"高手，擅长理解；GPT（CLM）是"接龙"高手，擅长生成。用反了就是自找苦吃。

坑三：忽视预训练数据的"时代烙印"

GPT-3的知识截止到2021年，ChatGLM-6B的知识也有时间边界。有同学问模型"2024年奥运会举办城市"，模型一本正经胡说八道——因为它预训练时根本没见过这信息。

解决方案：正确理解预训练

第一，建立"预训练决定能力边界"的认知

# 快速测试模型的知识边界
test_prompts = [
    "2024年巴黎奥运会的中国首金项目是？",  # 时间敏感知识
    "请解释量子纠缠现象",  # 科学常识
    "我们公司内部系统X的使用方法是？",  # 私有知识（必然不知道）
]

# 预期：前两个可能有答案，第三个一定没有
# 这就是预训练数据的边界

第二，根据任务选对模型类型

任务类型	推荐架构	代表模型
文本分类、语义匹配	编码器（MLM）	BERT、RoBERTa
文本生成、对话	解码器（CLM）	GPT、LLaMA、ChatGLM
翻译、摘要（理解+生成）	编码器-解码器	T5、BART

第三，学会"读"模型卡片（Model Card）

Hugging Face上的每个模型都有卡片，告诉你：

训练数据来源和时间
已知偏见和限制
推荐用途

花5分钟读一遍，能少走很多弯路。

小结

预训练是大模型的"出厂设置"，理解它才能知道模型的能力边界和固有偏见。别急着调Prompt，先搞清楚你手里的模型"学过什么"、“怎么学的”。

2. 微调技术：从通才到专家的蜕变

点题：微调的本质是什么？

预训练模型是"高中生"，微调就是让它"考个职业证书"。用少量领域数据，调整模型参数，让模型掌握特定技能。

微调技术演进：

痛点分析：微调的"血泪史"

坑一：全量微调的"显卡噩梦"

LLaMA-2-7B有70亿参数，全量微调需要多少显存？参数本身需要14GB（FP16），优化器状态需要28GB，梯度需要14GB，激活值还需要一堆… 没有40GB显存想都别想。

我见过最惨的案例：一个团队买了4张3090（24GB*4=96GB），兴高采烈要全量微调13B模型。结果一跑就OOM，因为分布式训练的通信开销和冗余存储，实际可用远低于理论值。折腾两周，项目延期，老板发火。

#  naive的全量微调尝试（新手常见）
from transformers import AutoModelForCausalLM, Trainer

model = AutoModelForCausalLM.from_pretrained(
    "meta-llama/Llama-2-13b-hf",
    torch_dtype="auto",
    device_map="auto"  # 以为自动分配就万事大吉
)

# 然后直接上Trainer...
# 结果：CUDA out of memory

坑二：数据量迷信——“数据越多越好？”

有同学收集了100万条领域数据，心想"这次稳了"。结果微调出来的模型反而比预训练模型还蠢，出现严重的灾难性遗忘（Catastrophic Forgetting）——学会了新知识，把旧知识全忘了。

更隐蔽的问题是数据质量。我见过一个客服机器人项目，训练数据是从历史聊天记录里扒的，里面充斥着"亲，在的呢"、“好的呢亲"这种套话。微调后的模型变成了"复读机”，只会说车轱辘话。

坑三：LoRA参数设置的"玄学"

# 复制粘贴的配置，不知道为什么
from peft import LoraConfig

lora_config = LoraConfig(
    r=8,  # 秩，为什么是8？因为教程写的8
    lora_alpha=16,  # 缩放参数，为什么是16？因为2*r
    target_modules=["q_proj", "v_proj"],  # 为什么是这两个？不知道
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM"
)

r=8还是r=64？target_modules选哪些？这些不是拍脑袋定的，但新手只能"抄作业"，调不好就怪LoRA不行。

解决方案：高效微调的实战策略

策略一：参数高效微调（PEFT）的正确打开方式

LoRA（Low-Rank Adaptation）是性价比之王。核心思想：模型参数的更新是低秩的，用两个小矩阵模拟大矩阵的更新。

# 正确的LoRA配置思路
from peft import LoraConfig, get_peft_model
import torch

# 先分析模型结构，找到注意力层
# 以LLaMA为例，打印看看有哪些模块
model = AutoModelForCausalLM.from_pretrained("your-model")
for name, module in model.named_modules():
    if "proj" in name:
        print(f"{name}: {module.__class__.__name__}")

# 根据分析结果配置
lora_config = LoraConfig(
    r=64,  # 复杂任务可以加大，简单任务r=8足够
    lora_alpha=16,  # 通常设为r/2或r/4
    target_modules=[
        "q_proj", "k_proj", "v_proj", "o_proj",  # 注意力全参与
        "gate_proj", "up_proj", "down_proj"  # MLP层也加入
    ],
    lora_dropout=0.05,
    use_rslora=True,  # 秩稳定LoRA，大r更稳定
    bias="none",
    task_type="CAUSAL_LM"
)

model = get_peft_model(model, lora_config)
print(f"可训练参数: {model.print_trainable_parameters()}")
# 典型输出：可训练参数占总参数的0.5%-2%

显存对比（以LLaMA-2-7B为例）：

方法	训练显存	可训练参数
全量微调	~80GB	7B
LoRA (r=8)	~16GB	~4M (0.06%)
LoRA (r=64)	~20GB	~35M (0.5%)
QLoRA (4bit)	~10GB	~35M

策略二：数据准备的黄金法则

# 数据质量检查清单
def validate_training_data(examples):
    issues = []
    for i, ex in enumerate(examples):
        # 1. 长度检查
        if len(ex["instruction"]) + len(ex["input"]) > 2048:
            issues.append(f"样本{i}: 输入过长")
        
        # 2. 内容检查
        if ex["output"].count("亲") > 3 or ex["output"].count("呢") > 3:
            issues.append(f"样本{i}: 疑似套话过多")
        
        # 3. 多样性检查
        # 用简单启发式：输出长度分布
        output_lengths = [len(ex["output"]) for ex in examples]
        if max(output_lengths) / min(output_lengths) > 10:
            issues.append("输出长度分布不均，建议分层采样")
    
    return issues

# 数据配比：领域数据 vs 通用数据
# 推荐比例：领域:通用 = 7:3 或 8:2
# 防止灾难性遗忘的关键！

策略三：微调的"三段式"流程

# 阶段1：warmup，低学习率熟悉数据
training_args_stage1 = TrainingArguments(
    learning_rate=1e-5,  # 很低
    num_train_epochs=0.5,  # 半轮
    warmup_ratio=0.1,
)

# 阶段2：主力训练
training_args_stage2 = TrainingArguments(
    learning_rate=2e-4,  # LoRA可以较高
    num_train_epochs=2,
    lr_scheduler_type="cosine",
)

# 阶段3：退火，精细调整
training_args_stage3 = TrainingArguments(
    learning_rate=1e-5,
    num_train_epochs=0.5,
)

小结

微调不是"大力出奇迹"，而是"精准手术"。选对方法（LoRA）、备对数据（质量>数量）、调好流程（三段式），小资源也能办大事。

3. RLHF：人类反馈的魔法

点题：为什么需要人类反馈？

预训练让模型"会说话"，微调让模型"说对的话"，但RLHF（Reinforcement Learning from Human Feedback）让模型"说人爱听的话"。

痛点分析：RLHF的"高门槛"

坑一：奖励模型的"标注地狱"

训练奖励模型需要大量对比数据：对同一个问题，人工标注哪个回答更好。一个高质量的偏好数据集，动辄需要数万条人工标注。

有个做教育AI的朋友，团队5个人标了两周，才攒了3000条偏好数据。结果奖励模型训练出来，对"哪个回答更好"的判断和人类一致性只有60%——基本靠猜。

坑二：PPO训练的"不稳定"

PPO（Proximal Policy Optimization）是RLHF的经典算法，但超参数极其敏感。学习率稍大，模型就开始"奖励黑客"（Reward Hacking）——找到漏洞刷高分，而不是真正变好。

典型症状：模型输出变得冗长，因为奖励模型倾向于给长回答打高分。或者模型开始重复某些"安全"的套话。

# PPO训练的典型崩溃
# 正常回答："巴黎是法国首都，位于塞纳河畔..."
# 奖励黑客后的回答："巴黎是法国首都。巴黎是法国首都。巴黎是...
# 巴黎是一个非常美丽的城市，有很多景点，比如埃菲尔铁塔...
# （无限套娃，因为长=高分）"

坑三：DPO的"甜蜜陷阱"

DPO（Direct Preference Optimization）省去了奖励模型，直接用偏好数据优化策略模型，简单高效。但新手容易误以为DPO"不需要调参"，结果模型要么没变化，要么崩溃。

解决方案：RLHF的平民化实践

方案一：小规模RLHF的可行路径

# 用DPO做轻量级对齐（推荐入门）
from trl import DPOTrainer
from peft import LoraConfig

# DPO数据格式：prompt, chosen, rejected
dpo_dataset = [
    {
        "prompt": "如何学习Python？",
        "chosen": "建议从基础语法开始，配合小项目实践...",
        "rejected": "Python很简单，随便看看就会了..."
    },
    # ... 更多对比数据
]

# 关键：数据量可以少，但质量必须高
# 500-1000条高质量偏好数据，就能有明显效果

dpo_config = DPOConfig(
    beta=0.1,  # 控制与参考模型的偏离程度，关键参数！
    learning_rate=5e-7,  # DPO需要很低的学习率
    num_train_epochs=1,  # 通常1-2轮足够
)

trainer = DPOTrainer(
    model=model,
    ref_model=ref_model,  # 冻结的参考模型
    args=dpo_config,
    train_dataset=dpo_dataset,
    tokenizer=tokenizer,
)

方案二：替代方案——RAG+Prompt工程

如果资源实在有限，可以用"伪RLHF"：

# 用规则+检索实现类似效果
class PreferenceGuidedRAG:
    def __init__(self):
        self.good_examples = load_good_examples()  # 收集的优秀回答
        self.bad_patterns = load_bad_patterns()    # 要避免的模式
    
    def generate(self, query):
        # 检索相似的好例子作为上下文
        context = self.retrieve_similar(query, self.good_examples)
        
        # 构造带偏好的Prompt
        prompt = f"""参考以下优秀回答的风格：
{context}

要求：
- 回答要具体，避免空泛
- 分点说明，结构清晰
- 不要出现：{self.bad_patterns}

问题：{query}
"""
        return llm.generate(prompt)

方案三：评估RLHF效果的关键指标

# 不要只看loss，要建立多维评估
def evaluate_alignment(model, test_cases):
    results = {
        "helpfulness": [],  # 有用性：是否解决了问题
        "harmlessness": [], # 安全性：是否有害内容
        "honesty": [],      # 诚实性：是否承认不知道
        "conciseness": [],  # 简洁性：是否简洁不啰嗦
    }
    
    for case in test_cases:
        response = model.generate(case["prompt"])
        
        # 有用性：可以用GPT-4打分
        results["helpfulness"].append(
            gpt4_score(case["prompt"], response, dimension="helpful")
        )
        
        # 诚实性：检查是否虚构
        if "我不知道" in response or "无法确认" in response:
            results["honesty"].append(1.0)  # 承认不知道=诚实
        elif contains_fabrication(response, case["ground_truth"]):
            results["honesty"].append(0.0)  # 虚构=不诚实
        else:
            results["honesty"].append(0.5)
    
    return {k: sum(v)/len(v) for k, v in results.items()}

小结

RLHF是"锦上添花"，不是"雪中送炭"。先把SFT做好，有条件再上RLHF。DPO降低了门槛，但数据质量仍是核心。没资源做RLHF？RAG+精心设计的Prompt也能达到80%效果。

4. 业务场景落地：从实验室到生产线

点题：微调项目的完整流程

痛点分析：落地环节的"死亡陷阱"

坑一：需求不清就开工

“我们要做个智能客服”——这句话等于没说。是回答产品咨询？还是处理售后投诉？是多轮对话还是单轮问答？需要对接订单系统吗？

我见过最离谱的项目：团队微调了两个月，发现业务方其实需要的是"能转人工的兜底系统"，而不是"能回答所有问题的AI"。方向错了，努力白费。

坑二：数据泄露的"隐形炸弹"

# 危险的训练数据
training_data = [
    {
        "instruction": "查询用户13800138000的订单",
        "input": "",
        "output": "用户13800138000在2024-01-15购买了iPhone 15，订单号ORD20240115001，地址：北京市海淀区..."
    }
]
# 问题：手机号、订单号、地址——全是敏感信息！

微调后的模型会"记住"训练数据中的个人信息。如果模型部署后被诱导，可能泄露隐私。这不是技术问题，是法律风险。

坑三：评估与业务脱节

技术团队用Perplexity、BLEU评分，业务方看的是"客户满意度"、“问题解决率”。两边说的不是同一种语言，导致"指标好看，业务不买账"。

解决方案：工程化的落地方法

方法一：需求分析的"五问法"

# 项目启动前的必问清单
project_checklist = {
    "场景": "用户会在什么情况下使用？频率如何？",
    "输入": "用户会提供什么信息？文本/图片/结构化数据？",
    "输出": "期望模型返回什么格式？自由文本/JSON/特定模板？",
    "边界": "哪些情况必须拒绝？哪些必须转人工？",
    "指标": "怎么算成功？量化指标是什么？"
}

# 示例：医疗问诊助手
answers = {
    "场景": "患者描述症状，获取初步建议，非诊断",
    "输入": "症状描述文本，可能包含检查报告图片",
    "输出": "结构化建议：可能原因（非确诊）、建议科室、注意事项",
    "边界": "涉及处方药、手术建议必须拒绝并建议就医",
    "指标": "科室推荐准确率>85%，用户满意度>4.0/5"
}

方法二：数据安全的"三道防线"

import re
from typing import Dict, List

class DataSanitizer:
    """数据脱敏处理器"""
    
    PATTERNS = {
        "phone": r"1[3-9]\d{9}",
        "id_card": r"\d{17}[\dXx]",
        "email": r"[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}",
        "order_id": r"ORD\d{10,}",  # 业务特定的单号格式
    }
    
    def sanitize(self, text: str) -> str:
        """脱敏处理"""
        result = text
        for name, pattern in self.PATTERNS.items():
            result = re.sub(pattern, f"[{name.upper()}]", result)
        return result
    
    def validate(self, dataset: List[Dict]) -> List[str]:
        """检查残留敏感信息"""
        issues = []
        for i, item in enumerate(dataset):
            combined = item.get("instruction", "") + \
                      item.get("input", "") + \
                      item.get("output", "")
            for name, pattern in self.PATTERNS.items():
                if re.search(pattern, combined):
                    issues.append(f"样本{i}: 包含未脱敏的{name}")
        return issues

# 使用示例
sanitizer = DataSanitizer()
clean_data = [
    {
        "instruction": "查询用户[PHONE]的订单",
        "input": "",
        "output": "用户[PHONE]的订单[ORDER_ID]已发货..."
    }
]

方法三：业务对齐的评估体系

# 建立技术与业务的桥梁
class BusinessAlignedEvaluator:
    def __init__(self):
        self.metrics = {
            # 技术指标
            "perplexity": 0,      # 流畅度
            "bleu": 0,            # 与参考答案的匹配
            
            # 业务指标（需要人工或GPT-4评估）
            "helpfulness": 0,     # 是否解决了用户问题
            "accuracy": 0,        # 事实准确性
            "safety": 0,          # 安全性
            
            # 产品指标
            "user_satisfaction": 0,  # 用户满意度
            "task_completion": 0,    # 任务完成率
            "escalation_rate": 0,    # 转人工率（过高过低都不好）
        }
    
    def evaluate_batch(self, predictions, references, user_feedbacks):
        # 技术指标自动计算
        self.metrics["perplexity"] = calculate_ppl(predictions)
        self.metrics["bleu"] = calculate_bleu(predictions, references)
        
        # 业务指标用GPT-4或规则评估
        self.metrics["helpfulness"] = gpt4_evaluate_helpfulness(predictions)
        
        # 产品指标来自真实用户反馈
        self.metrics["user_satisfaction"] = sum(user_feedbacks) / len(user_feedbacks)
        
        return self.metrics
    
    def generate_report(self):
        """生成业务能看懂的报告"""
        return f"""
        模型评估报告
        ============
        流畅度得分：{self.metrics['perplexity']:.2f}（越低越好）
        回答质量：{self.metrics['helpfulness']:.2%}（GPT-4评估）
        
        用户满意度：{self.metrics['user_satisfaction']:.2f}/5.0
        任务完成率：{self.metrics['task_completion']:.2%}
        
        建议：{'可上线' if self.metrics['user_satisfaction'] > 4.0 else '需优化'}
        """

小结

业务落地不是"模型训练完就完事"。需求要挖深、数据要脱敏、评估要对齐业务指标。记住：技术团队的目标是"让业务成功"，不是"让loss降低"。

5. LangChain集成：实战中的最佳实践

点题：LangChain如何串联微调模型？

LangChain的价值在于"编排"——把微调好的模型，和记忆、工具、检索等组件组合成完整应用。

痛点分析：集成的"最后一公里"

坑一：模型加载的"版本地狱"

# 新手常遇到的报错
from langchain.llms import HuggingFacePipeline  # 旧版，已废弃
from transformers import pipeline

# 或者
from langchain_community.llms import HuggingFacePipeline  # 新版

# 更混乱的：peft模型怎么加载？
# base model + adapter 还是合并后的模型？

LangChain版本迭代快，社区版（langchain_community）和核心版分离，很多教程的代码直接跑不通。

坑二：微调模型与RAG的"配合问题"

微调模型学会了领域知识，RAG又检索领域文档，两者怎么配合？简单叠加会导致：

模型"太自信"，无视检索内容
或者模型"太听话"，机械复述检索内容，失去微调带来的推理能力

坑三：成本控制的"隐形杀手"

#  naive的实现：每次请求都加载模型
def handle_request(query):
    model = load_7b_model()  # 加载需要10秒，占用20GB显存
    result = model.generate(query)
    return result  # 请求结束，模型释放？不，可能内存泄漏！

# 并发一上来，服务器直接崩溃

解决方案：优雅的集成方案

方案一：正确的模型加载方式

# LangChain 0.1.x+ 的标准做法
from langchain_huggingface import HuggingFacePipeline
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
from peft import PeftModel
import torch

class FineTunedModelLoader:
    def __init__(self):
        self.model = None
        self.tokenizer = None
        self.llm = None
    
    def load(self, base_path: str, adapter_path: str = None):
        """加载微调模型，支持LoRA Adapter"""
        
        # 1. 加载tokenizer
        self.tokenizer = AutoTokenizer.from_pretrained(
            base_path,
            trust_remote_code=True,
            padding_side="left"  # 生成任务通常left pad
        )
        if self.tokenizer.pad_token is None:
            self.tokenizer.pad_token = self.tokenizer.eos_token
        
        # 2. 加载基础模型（4bit量化节省显存）
        base_model = AutoModelForCausalLM.from_pretrained(
            base_path,
            torch_dtype=torch.bfloat16,
            device_map="auto",
            load_in_4bit=True,  # QLoRA推理
            trust_remote_code=True
        )
        
        # 3. 加载LoRA Adapter（如果有）
        if adapter_path:
            model = PeftModel.from_pretrained(base_model, adapter_path)
            model = model.merge_and_unload()  # 合并，推理更快
        else:
            model = base_model
        
        self.model = model
        
        # 4. 创建pipeline
        pipe = pipeline(
            "text-generation",
            model=model,
            tokenizer=self.tokenizer,
            max_new_tokens=512,
            temperature=0.7,
            top_p=0.9,
            repetition_penalty=1.1,
            return_full_text=False,  # 只返回生成部分
        )
        
        # 5. 包装为LangChain LLM
        self.llm = HuggingFacePipeline(pipeline=pipe)
        
        return self.llm
    
    def get_llm(self):
        """单例模式，避免重复加载"""
        if self.llm is None:
            raise RuntimeError("Model not loaded. Call load() first.")
        return self.llm

# 全局单例
_model_loader = FineTunedModelLoader()

def get_fine_tuned_llm():
    return _model_loader.get_llm()

方案二：微调模型+RAG的协同策略

from langchain.chains import RetrievalQA
from langchain.prompts import PromptTemplate

# 关键：设计让微调能力和RAG互补的Prompt
DOMAIN_RAG_TEMPLATE = """你是{domain}领域的专业助手。基于你的专业知识，结合以下参考资料回答问题。

参考资料（可能相关）：
{context}

注意：
1. 优先使用你的专业知识，参考资料仅作补充验证
2. 如果参考资料与你的知识冲突，以你的知识为准，但需说明
3. 如果参考资料提供了你未知的新信息，请整合进回答

用户问题：{question}

专业回答："""

class DomainExpertRAG:
    def __init__(self, fine_tuned_llm, retriever, domain_name):
        self.llm = fine_tuned_llm
        self.retriever = retriever
        self.domain = domain_name
        
        self.prompt = PromptTemplate(
            template=DOMAIN_RAG_TEMPLATE,
            input_variables=["context", "question", "domain"]
        )
        
        self.qa_chain = RetrievalQA.from_chain_type(
            llm=self.llm,
            chain_type="stuff",  # 简单直接
            retriever=self.retriever,
            return_source_documents=True,
            chain_type_kwargs={"prompt": self.prompt}
        )
    
    def query(self, question: str):
        # 动态注入领域名
        result = self.qa_chain.invoke({
            "query": question,
            "domain": self.domain
        })
        return result

# 使用场景：法律领域
legal_rag = DomainExpertRAG(
    fine_tuned_llm=load_legal_finetuned_model(),
    retriever=legal_doc_retriever,
    domain_name="法律"
)

方案三：生产环境的成本控制

# 方案A：模型缓存 + 请求队列
from functools import lru_cache
import asyncio
from concurrent.futures import ThreadPoolExecutor

class ModelServing:
    def __init__(self, max_concurrent=4):
        self.llm = load_model_once()  # 启动时加载
        self.semaphore = asyncio.Semaphore(max_concurrent)
        self.executor = ThreadPoolExecutor(max_workers=max_concurrent)
    
    async def generate(self, prompt: str) -> str:
        async with self.semaphore:  # 限流
            # 同步模型在异步环境中运行
            loop = asyncio.get_event_loop()
            result = await loop.run_in_executor(
                self.executor,
                lambda: self.llm.invoke(prompt)
            )
            return result

# 方案B：模型路由（大小模型配合）
class SmartRouter:
    def __init__(self):
        self.small_model = load_1b_model()   # 快，便宜
        self.large_model = load_7b_model()   # 慢，贵，但能力强
    
    def route(self, query: str) -> str:
        # 简单启发式路由
        if len(query) < 20 and "简单" in query:
            return self.small_model.invoke(query)
        
        # 复杂查询用大模型
        if self.needs_deep_reasoning(query):
            return self.large_model.invoke(query)
        
        # 默认先用小模型，不满意再升级
        small_result = self.small_model.invoke(query)
        if self.is_confident(small_result):
            return small_result
        return self.large_model.invoke(query)
    
    def needs_deep_reasoning(self, query: str) -> bool:
        # 基于关键词或轻量级分类器判断
        complex_indicators = ["分析", "比较", "为什么", "如何优化"]
        return any(w in query for w in complex_indicators)

小结

LangChain是"胶水"，把微调模型粘进业务系统。重点解决：加载要规范、RAG要协同、成本要控制。别让技术债在最后一公里爆发。

写在最后

聊完预训练、微调、RLHF、业务落地、LangChain集成，你会发现大模型应用是个系统工程。没有银弹，只有权衡。

预训练决定了模型的"底色"，微调塑造了"专长"，RLHF对齐了"偏好"，工程化保证了"可用"。每一步都有坑，但每一步都有路。

作为过来人，我想说几句心里话：

第一，别怕资源少。 LoRA、QLoRA、DPO这些技术，就是为了让小团队也能玩转大模型。我见过太多"单卡侠"做出惊艳的项目，关键是方法对，不是卡多。

第二，数据质量永远大于数量。 100条精心标注的数据，可能胜过10000条爬来的垃圾。花时间清洗数据、设计标注指南，回报率极高。

第三，和业务站在一起。 技术人容易沉迷指标，但老板看的是收入，用户看的是体验。定期去听听客服录音、看看用户反馈，比调参更有价值。

第四，保持迭代心态。 第一版模型大概率不够好，上线、收集反馈、再训练，这是常态。完美主义是落地的敌人。

编程之路不易，但每一步成长都算数。预训练与微调这项技术，值得你花时间啃透——它是大模型时代的"基本功"，就像当年学数据库要懂索引、学Web要懂HTTP一样。

保持好奇，持续学习，你也能成为驾驭大模型的高手。咱们下章见！

关注私信备注：“资料代找获取”，全网计算机学习资料代找：例如:
《课程：2026 年多模态大模型实战训练营》
《课程：AI 大模型工程师系统课程 (22 章完整版持续更新)》
《课程：AI 大模型系统实战课第四期 (2026 年开课持续更新)》
《课程：2026 年 AGI 大模型系统课 23 期》
《课程：2026 年 AGI 大模型系统课 21 期》
《课程：AI 大模型实战课 8 期 (2026 年 2 月最新完结版)》
《课程：AI 大模型系统实战课三期》
《课程：AI 大模型系统课程 (2026 年 2 月开课持续更新)》
《课程：AI 大模型全阶课程 (2025 年 12 月开课 2026 年 6 月结课)》
《课程：AI 大模型工程师全阶课程 (2025 年 10 月开课 2026 年 4 月结课)》
《课程：2026 年最新大模型 Agent 开发系统课 (持续更新)》
《课程：LLM 多模态视觉大模型系统课》
《课程：大模型 AI 应用开发企业级项目实战课 (2026 年 1 月开课)》
《课程：大模型智能体线上速成班 V2.0》
《课程：Java+AI 大模型智能应用开发全阶课》
《课程：Python+AI 大模型实战视频教程》
《书籍：软件工程 3.0: 大模型驱动的研发新范式.pdf》
《课程：人工智能大模型系统课 (2026 年 1 月底完结版)》
《课程：AI 大模型零基础到商业实战全栈课第五期》
《课程：Vue3.5+Electron + 大模型跨平台 AI 桌面聊天应用实战 (2025)》
《课程：AI 大模型实战训练营从入门到实战轻松上手》
《课程：2026 年 AI 大模型 RAG 与 Agent 智能体项目实战开发课》
《课程：大模型训练营配套补充资料》

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

Nature Biomedical Engineering 重磅：BINDS 多模态 AI 无创诊断乳腺癌，AUC 达 0...

2048 AI社区

59｜回归与发布：让改动可追踪、可回滚

本文介绍了在AI编程时代保护项目成果的三大核心策略：1. 使用Git作为"后悔药"，通过版本控制快速回退失败修改；2. 让AI编写回归测试脚本，确保新功能不影响原有功能；3. 建立迭代复盘模板，记录每次修改的改动范围、问题及修复方案。文章总结了完整的"个人AI编程工作流"闭环：从需求拆解、生成自检到回归发布，强调Git存档和测试脚本的重要性。这套方法论让开发者能够安全高效地进行AI辅助编程，为后续