Spring AI 系列之读懂大模型核心概念

Embedding是将文本、图像等数据转换为高维向量的技术。语义相似的文本在向量空间中距离更近。示例“这个多少钱” ↔ “这个什么价格”（距离近，语义相似）“我想要这个” ↔ “这个给我吧”（距离近，语义相似）技术方向核心要点大模型选择根据场景选择通用模型（GPT-4o/DeepSeek）或垂直模型（Claude/星火）Prompt工程明确目标、提供上下文、使用CoT提升推理能力RAG架构结合向量

smileNicky

316人浏览 · 2026-02-28 11:39:33

smileNicky · 2026-02-28 11:39:33 发布

🚀 Spring AI 入门：一文读懂大模型核心概念

从LLM到RAG，图解人工智能关键技术

一、大语言模型（LLM）发展全景

大语言模型（Large Language Model，LLM）是当今人工智能领域的核心技术。从2018年的GPT-1到2025年的GPT-4.5，参数规模从1.17亿暴增至18万亿，能力呈指数级增长。

大模型发展时间线

主流模型对比

类别	代表模型	研发公司	核心亮点	典型场景
通用大模型	GPT-4o	OpenAI	全模态交互，128k上下文	科研、创意产业
	Gemini 2.0 Pro	Google	实时搜索，20种语言切换	教育、企业服务
	DeepSeek-R1	深度求索	开源可商用，成本仅国际模型1/10	工业优化、全球化部署
垂直领域模型	Claude 3 Opus	Anthropic	200k超长上下文，误判率<0.1%	法律合规、医疗审查
	星火X1	科大讯飞	中文数学能力国内第一	医疗诊断、教育解题

二、核心技术储备：构建AI知识体系

要掌握大模型技术，需要具备以下知识基础：

AI技术栈

关键技术模块

基础架构：Transformer、BERT、GPT、MoE（混合专家模型）
神经网络：浅层/深层神经网络、向量数据库、Embeddings
机器学习：深度学习、强化学习、无监督/有监督学习
NLP技术：自然语言处理（NLP）、自然语言理解（NLU）、自然语言生成（NLG）

三、Prompt Engineering：与大模型对话的艺术

Prompt Engineering是设计和优化输入提示以获得预期输出的过程。以下是核心技巧：

1. 基础原则

原则	说明	示例
明确目标	清晰描述任务	“告诉我关于气候变化的事情” → “简要描述气候变化的主要原因及其对农业的影响”
提供上下文	给模型必要的背景	“作为一名高中生，请用简单语言解释微积分基本概念”
使用具体指示	避免模糊不清	“写一篇关于技术的文章” → “写一篇关于AI在医疗领域应用的文章，包含应用场景、优势和挑战”

2. 进阶技巧：思维链（Chain of Thought）

零样本提示（Zero-shot）：直接提问，不提供示例
少样本提示（Few-shot）：提供2-3个示例，引导模型理解任务模式
思维链提示（CoT）：要求模型"让我们逐步思考"，显著提升推理准确性

示例对比：

普通提示：
"我去市场买了10个苹果。我给邻居2个苹果和修理工2个苹果。
然后我去买了5个苹果并吃了1个。我还剩下多少苹果？"
输出：11个苹果（错误）

 CoT提示：
"我去市场买了10个苹果...我还剩下多少苹果？让我们逐步思考。"
输出：
首先，您从10个苹果开始。
您给了邻居和修理工各2个苹果，所以您还剩下6个苹果。
然后您买了5个苹果，所以现在您有11个苹果。
最后，您吃了1个苹果，所以您还剩下10个苹果。（正确）

四、RAG：检索增强生成技术详解

RAG（Retrieval-Augmented Generation）是当前企业级AI应用的核心技术，它通过检索外部数据来增强大模型的生成效果。

4.1 为什么需要RAG？

大模型存在以下局限：

知识截止：无法获取训练数据之后的信息
幻觉问题：可能生成看似合理但实际错误的内容
领域知识不足：对专业领域理解有限

4.2 RAG工作原理

RAG流程图

核心流程：

索引（Indexing）：将文档分割成chunks，通过Embedding模型转换为向量，存入向量数据库
检索（Retrieval）：用户查询向量化，匹配向量库中最相似的Top-K chunks
生成（Generation）：将检索到的上下文与用户问题组合，提交给LLM生成回答

4.3 RAG vs 微调（Fine-tuning）

维度	RAG（检索增强）	Fine-tuning（微调）
类比	毕业后做老总，配备业务负责人辅助决策	毕业后系统学习7年医学，成为专业医生
知识更新	实时检索，永远最新	依赖训练数据，需要重新训练
成本	较低，只需维护知识库	较高，需要大量计算资源
适用场景	需要最新数据、多领域知识	特定领域深度优化

五、向量数据库与Embedding技术

5.1 什么是Embedding？

Embedding是将文本、图像等数据转换为高维向量的技术。语义相似的文本在向量空间中距离更近。

向量Embedding示意图

示例：

“这个多少钱” ↔ “这个什么价格”（距离近，语义相似）
“我想要这个” ↔ “这个给我吧”（距离近，语义相似）

5.2 向量相似度计算

向量距离计算

余弦相似度：衡量向量夹角，值越大越相似（范围[-1,1]）
欧氏距离：衡量空间直线距离，值越小越相似

5.3 文档分割策略

RAG系统需要将长文档切分为chunks，常用方法：

方法	说明	适用场景
按句子切分	以。?!等标点分割	保持语义完整性
固定字符数	每N个字符切分	简单快速
滑动窗口	固定长度+重叠区域	保持上下文连贯
递归切分	优先按段落→句子→字符	推荐方案，平衡效果

六、实战：Java调用大模型API

使用Spring AI可以通过简单的Java代码实现与大模型交互：

// 构建HTTP客户端
OkHttpClient client = new OkHttpClient().newBuilder()
    .connectTimeout(20, TimeUnit.SECONDS)
    .readTimeout(20, TimeUnit.SECONDS)
    .build();

// 构建请求体
String json = String.format("""
    {
        "model": "%s",
        "messages": [{"role": "user", "content": "%s"}]
    }
    """, model, prompt);

RequestBody body = RequestBody.create(
    MediaType.parse("application/json"), json);

// 发送请求
Request request = new Request.Builder()
    .url("https://api.deepseek.com/v1/chat/completions")
    .method("POST", body)
    .addHeader("Authorization", "Bearer " + API_KEY)
    .build();

Response response = client.newCall(request).execute();

七、总结与展望

技术方向	核心要点
大模型选择	根据场景选择通用模型（GPT-4o/DeepSeek）或垂直模型（Claude/星火）
Prompt工程	明确目标、提供上下文、使用CoT提升推理能力
RAG架构	结合向量检索+大模型生成，解决知识更新和幻觉问题
Embedding	将语义转化为数学向量，实现高效相似度检索

随着DeepSeek-R1等开源模型的崛起，AI技术门槛正在快速降低。掌握这些核心概念，将帮助你在Spring AI开发中游刃有余，构建出更智能、更可靠的企业级应用。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

GitHub 关注突破 2w，我总结了 10 个涨星涨粉技巧！

要说我去年最骄傲的事，肯定是自己的程序员朋友们都知道，你想在这个「没有粘性」的平台上获取关注者有多不容易。我的这个成绩，在 GitHub 中国区关注者排行榜中已经排到前 7 了，再往前都是元老级前辈。如今有了 AI 的加持，想做个开源项目比以前容易太多了，但很多同学发完之后 Star 寥寥无几，涨关注就更难了。

2048 AI社区

大模型本地部署教程：小白程序员必备，轻松收藏学起来！

2048 AI社区

C语言内存函数

因此在这种情况下，代码采用“从后往前拷贝”的方式。先把 dst 和 src 指针都移动到各自区域的最后一个字节位置，即加上 count 再减 1，然后在循环中每次复制一个字节，并让指针向前移动。注意，这种实现方式是从低地址向高地址顺序拷贝的，因此当源内存和目标内存发生重叠时，可能会导致数据错误。函数的作用是把源地址 src 指向的内存中的 count 个字节复制到目标地址 dst 中，并返回目标地