Context、RAG、Memory 不是互斥,而是互补上下文工程用于会话即时优化,RAG用于把权威文档注入生成,长期记忆用于跨会话个性化


一、Context/RAG/Memory 一表说明

维度 上下文工程 RAG 长期记忆
本质 控制输入 → 激活模型内在能力 引入外部证据 → 抑制幻觉 持久化状态 → 构建个体认知
数据 会话内示例/摘要 外部文档库 用户历史/事件/偏好
持久性 临时(策略可存) 文档持久,检索临时 持久+衰减+删除
检索 规则/摘要压缩 向量+BM25+重排 向量+时间+标签检索
成本 中(检索+重排) 高(存储+合规+维护)
延迟 几乎无 中~高 中(取决于索引)
核心价值 快、准、可控 真、可溯 个性、连续、忠诚
致命风险 上下文窗口耗尽 检索出错 = 生成出错 错误记忆 = 信任崩塌
一句话定位 上下文是有限有形状的容器 检索是显微镜 记忆是大脑皮层

上下文工程让你“说对话”,RAG让你“说对事”,长期记忆让你“记得谁在说话”


1.1 常见实现

1.1.1 步骤

1.先用上下文工程 —— 0成本提效,先跑通闭环

2.再上RAG —— 只对关键文档启用,避免全库检索

3.最后建记忆 —— 仅存“用户身份+关键状态+偏好”,非全部对话

4.缓存+压缩+遗忘 —— 成本杀手三件套

5.隐私即设计 —— GDPR(欧盟标准真是严格)不是补丁,是架构底座

1.1.2 工具
类型 工具
上下文 LangChain(模板)、PromptLayer
RAG LlamaIndex + Chroma/FAISS + GPT-4-turbo
记忆 Redis(键值)、Pinecone(向量)、Zep(带策略)

1.2 特殊说明:Context 与 Prompt 的关系

Context 是数据,Prompt 是指令,我们给模型的不是“所有信息”,而是“怎么用关键信息”

维度 Context(上下文) Prompt(提示)
本质 原始数据(what) 控制逻辑(how + format + constraint)
来源 检索、记忆、API、历史对话 模板 + 上下文摘要 + 用户问题
目标 提供证据 指导推理、格式、引用、优先级
处理重点 召回质量、去重、摘要、隐私过滤 模板稳定、token 节约、来源标注、指令清晰
存储 长期可存(向量库/知识图谱) 动态构造,模板缓存,实例不存
风险 过时、冗余、冲突、泄露 指令模糊、token 超限、角色混淆、注入攻击
1.2.1 用示例说明差异

示例:会议议程生成(真实工程流)

用户问

“生成下周会议议程,基于上次记录和政策文档,标注来源。”

▶ Context(原材料池,非直接输入)

记忆_2024-05-10:上次会议“预算审批延迟”

RAG_003:《差旅报销政策v3》第2条:“超5k需CTO审批”

API_日程:张三 6/3 14:00–15:00 忙

冗余原文:2000字会议纪要全文 (不进 prompt)

▶ Prompt(最终输入模型的文本)

你是一个专业会议助理。输出格式严格为:

  1. 每项议程:【标题】(来源:记忆_X / 文档_Y)
  2. 总时长≤30分钟
  3. 冲突时间自动跳过
  4. 无来源内容,禁止生成

二、Context/RAG/Memory 在有限资源下的取舍

2.1 原则

Context/RAG/Memory → 对应 可控性 | 可验证性 | (记忆)连续性

可控性 | 可验证性 | 连续性 → 先选其二,三者全满必“费钱&费事&费人”

●限制:上下文窗口、语义冲突、延迟成本、合规摩擦

●三者全部进步,需要技术底层全面革新


2.2 每对组合 = 一种系统架构

组合 核心策略 放弃什么 适用场景
可控 + 可验证 严格Prompt + 白名单RAG 长期记忆 合规问答、法律/金融审计
可控 + 记忆 策略化摘要回填 + 信任分级 极致事实验证 个人助理、CRM、项目跟踪
可验证 + 记忆 分层检索 + 冲突打分 + UI溯源 输出精确控制 医疗/金融顾问助手

记忆是“主观历史”,RAG是“客观事实”,可控是“规则约束”——三者在语义层天然对抗


2.3 折中的办法 - 是“逼近”,不是“解决”

1.分层召回:先记忆,再RAG,择优注入(不全塞)

2.动态摘要:记忆压缩为语义标签,减少token消耗多反而质量下降(也是一种通胀)

3.可信度引擎:给每条证据打分(来源权威性 + 时间新鲜度 + 用户确认)

4.异步预载:后台缓存高频记忆/文档,不卡用户响应

5.后处理控制:模型输出后,用规则层过滤/重写,保留可控性

所有方案共性:不追求“同时全量”,而追求“智能选择”


2.4 产品在一定条件下,实现“可接受解”的路线图

阶段 优先级 动作
MVP 控制 + 可验证 无记忆,RAG+模板,100%可审计
成长期 控制 + 记忆 可控摘要记忆,禁用自动RAG回填
成熟期 可验证 + 记忆 多源融合 + 冲突提示 + 用户决策UI

永远保留一层策略审计层(极大可能性是类Excel的产品呈现形式) —— 即使选了“可验证+记忆”,也别让模型自由发挥。


三、Context/RAG/Memory 三元结构

**S = (C, R, M)**—— 会话上下文、外部证据、长期记忆 ——三者并行检索 → 融合裁剪 → 有痕写回


3.1 伪代码表示核心流程和接口

用户提问 → 并行查C/R/M → 按分数和token预算裁剪 → 拼成带来源的prompt → 生成 → 选中结果触发写M(需确认)

3.2 示例说明 Context/RAG/Memory

客服+产品手册+个人偏好场景

●
●
●
markdown
[SYSTEM]
你是一个智能客服助手。回答必须:
- 仅使用下方标注来源的信息
- 无法确认时,回答“根据现有信息无法确定”
- 每个结论后标注来源(如:记忆_3 / 文档_P12)
- 避免重复、避免假设、避免情感化语言

[USER]
用户问题:{user_query}

[CONTEXT]
--- 记忆_1(用户偏好) ---
{user_preference_summary}
--- 文档_P12(产品手册) ---
{doc_snippet_1}
--- 文档_P15(FAQ) ---
{doc_snippet_2}
--- 记忆_5(历史工单) ---
{ticket_summary}
--- (最多再加1条top-k检索结果) ---

请按上述信息作答,不要扩展。

回填优先级策略

1.用户偏好(影响语气/定制)

2.当前问题直接相关文档

3.历史相似工单

4.RAG 检索 top-k(仅当匹配度 > x)

四、0基础怎么入门AI大模型?

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
在这里插入图片描述

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐