目录

  1. 目标
  2. 前言
  3. 一、全景图:技术是如何一层层搭起来的?
  4. 二、基础层:大模型——AI的“基本脑力”
  5. 三、交互调度层:让大脑“会干活”的三个关键
  6. 四、应用工具层:我们实际使用的平台(怎么选?)
  7. 五、特别探讨:Java后端与AI智能体是什么关系?
  8. 六、给实习生的上手建议与思考
  9. 结语

目标

本文旨在为刚接触AI领域的开发者、实习生或技术新人,提供一张清晰的“技术地图”。我们将抛开晦涩的术语,以“如何用AI解决实际问题”为线索,自上而下地串讲大模型、Prompt、Agent、MCP等核心概念,并对比主流工具(如Cursor、Coze、Dify),最后探讨Java后端等传统技术如何融入这个新范式。目标是帮助你快速建立认知框架,并知道第一步该踩在哪里


前言

是不是感觉AI领域的新概念层出不穷?“大模型、Agent、RAG、MCP、Dify…”这些词天天见,却像雾里看花,不知道它们之间到底是什么关系,更不知道作为一名开发者该如何上手?

作为一名同样从困惑中走来的技术人,我尝试将这段时间的学习与实习实践,梳理成这份 “AI技术栈串讲笔记”。它没有深奥的理论,而是试图用最直白的逻辑,为你画出一张技术连接的地图,讲清楚:

  • 这些时髦的技术名词,到底谁是谁?是如何一层层协作,最终变成我们能用的工具的?
  • 面对五花八门的平台和工具,作为一个新人到底该怎么选?
  • 我已有的技能(比如Java后端),在这个AI时代该如何定位和发力?

希望这份笔记能帮你拨开迷雾,建立起对现代AI应用开发技术栈的宏观认知。


一、全景图:技术是如何一层层搭起来的?

理解AI技术栈最好的方式,就是把它想象成“盖房子”,每一层都构建在下一层的基础之上,共同协作解决复杂问题。

AI技术栈从底层到顶层可以分为以下几层:

  1. 基础层:大模型提供“基本智力”,是整个技术栈的基石
  2. 交互调度层:通过Prompt、Agent、MCP等技术,让AI“会干活”
  3. 应用工具层:各类平台和工具,是我们直接使用的“软件”
  4. 应用层:我们能实现的功能,解决实习/工作中的实际问题

基础层
大模型:提供“基本智力”

交互调度层
Prompt/Agent/MCP:
让AI“会干活”

应用工具层
各类平台:我们直接使用的“软件”

我们能实现的功能
解决实习/工作中的实际问题

让我们顺着这个结构,一层层拆解。

二、基础层:大模型——AI的“基本脑力”

大模型是这一切的基石,就像手机的芯片。它通过学习海量数据,具备了理解、生成和推理的基本能力,是整个AI技术栈的底层驱动力。

2.1 大模型的分类

根据模型的能力范围和应用场景,大模型主要分为两类:

2.1.1 “通才”型模型

这类模型拥有广泛的知识覆盖和通用能力,就像一个博学多才的全能选手,能够处理多种类型的任务:

  • 代表模型:GPT-4(OpenAI)、文心一言(百度)、通义千问(阿里)、Llama 3(Meta)、Gemini(Google)
  • 核心能力:自然语言理解与生成、多模态处理(文本+图像+音频)、逻辑推理、数学计算、常识问答
  • 适用场景:通用对话、内容创作、数据分析、学习辅助、创意设计
2.1.2 “专才”型模型

针对特定领域深度优化,在专业任务上表现更为出色:

专长领域 核心能力 代表模型 应用场景
代码编程 代码生成、理解、调试、重构 GitHub Copilot、CodeLlama、Cursor AI 辅助编程、代码审查、自动化测试
长文本处理 超长文档理解、摘要、问答 Kimi、DeepSeek-R1、Claude 3 法律文档分析、学术论文阅读、书籍总结
图像生成与编辑 高质量图像生成、风格转换、内容编辑 Midjourney、Stable Diffusion、DALL-E 3 创意设计、UI/UX原型、营销素材制作
音频处理 语音合成、识别、翻译、音乐生成 Whisper(OpenAI)、AudioCraft(Meta) 语音助手、播客生成、音乐创作
多模态整合 文本+图像+音频+视频的综合理解与生成 GPT-4V、Gemini Ultra、文心一言4.0 多模态内容创作、智能视频编辑

2.2 大模型的关键增强手段

我们很少直接使用“裸”模型,通常需要通过以下技术手段增强其能力,使其更适合特定场景:

2.2.1 微调(Fine-tuning)
  • 定义:使用特定领域的数据对预训练大模型进行进一步训练,使其更擅长该领域的任务
  • 实现方式
    • 全参数微调:调整模型所有参数,效果最好但计算资源消耗大
    • LoRA(Low-Rank Adaptation):只微调少量参数,训练成本低,适合资源受限场景
    • QLoRA:结合量化技术的LoRA,进一步降低资源消耗
  • 适用场景:公司客服问答、行业专业知识问答、特定风格内容生成
  • 优势:模型能够深度掌握特定领域知识,生成内容更准确
2.2.2 RAG(Retrieval-Augmented Generation)
  • 定义:检索增强生成,为模型配备一个“实时资料库”,回答问题时先检索相关资料再生成答案
  • 核心流程
    1. 构建知识库:将结构化或非结构化数据(文档、网页、数据库等)转换为向量存储
    2. 查询理解:分析用户问题,提取关键词和意图
    3. 相似性检索:从知识库中检索与问题最相关的文档片段
    4. 生成答案:结合检索到的资料和模型自身知识,生成准确、有据可查的答案
  • 适用场景:企业知识库问答、实时信息查询、产品文档问答
  • 优势
    • 减少模型“幻觉”,提高答案准确性
    • 支持实时更新知识,无需重新训练模型
    • 能够引用来源,增强答案可信度
2.2.3 量化(Quantization)
  • 定义:将模型参数从高精度(如FP32)转换为低精度(如INT8、INT4),减少模型大小和计算资源消耗
  • 核心技术
    • 权重量化:压缩模型权重
    • 激活量化:压缩模型推理过程中的激活值
    • 动态量化:根据数据分布动态调整量化精度
  • 适用场景:边缘设备部署、低成本推理服务、移动端AI应用
  • 优势:降低推理成本,提高模型部署灵活性
2.2.4 蒸馏(Distillation)
  • 定义:将大模型的知识迁移到小模型中,使小模型具备接近大模型的能力
  • 核心流程
    1. 用大模型生成大量高质量样本
    2. 用这些样本训练小模型
    3. 引导小模型模仿大模型的输出和推理过程
  • 适用场景:资源受限环境、实时推理服务、移动端应用
  • 优势:在保持较高性能的同时,显著降低模型大小和计算成本

三、交互调度层:让大脑“会干活”的三个关键

有了大脑,我们还需要让它理解指令、学会使用工具。这就是本层的核心,它负责连接底层大模型和上层应用,让AI能够真正解决实际问题。

3.1 Prompt(提示词):与AI沟通的“说话艺术”

Prompt是我们与AI沟通的桥梁,它的质量直接决定了AI输出的效果。好的Prompt能让AI准确理解我们的需求,生成高质量的结果。

3.1.1 Prompt设计的核心原则
  • 明确性:清晰表达需求,避免模糊和歧义
  • 具体性:提供足够的上下文和细节
  • 结构性:合理组织信息,使用清晰的逻辑结构
  • 引导性:引导AI按照我们期望的方式思考和生成
3.1.2 Prompt设计的常用技巧
基础技巧:明确角色、任务、步骤、格式
  • 角色设定:给AI分配一个具体的身份,明确其专业领域和风格
  • 任务描述:清晰说明AI需要完成什么任务
  • 步骤指导:如果任务复杂,可以分解为多个步骤,引导AI逐步完成
  • 格式要求:明确输出的格式、长度、结构等

示例对比

类型 Prompt内容 效果差异
差提示 “写个简介。” 内容空洞,缺乏针对性,可能不符合预期风格
好提示 “你是一名手机产品经理。请用活泼的网络语言,分三个核心卖点,为XX新款手机撰写一段200字以内的微博发布文案。” 内容针对性强,风格符合要求,结构清晰,易于使用
进阶技巧:引导复杂思考
  • 思维链(Chain of Thought):引导AI一步步推理,适合解决逻辑问题
    • 示例:“我有10个苹果,吃了3个,又买了5个,现在有多少个?请一步步思考。”
  • 思维树(Tree of Thought):引导AI探索多种解决方案,然后选择最优方案
    • 示例:“请为公司年会设计3种不同的主题方案,包括活动流程、预算和预期效果,然后推荐最优方案并说明理由。”
  • Few-shot Learning:提供少量示例,让AI学习我们期望的输出格式和风格
    • 示例:“请模仿以下风格写一段产品描述:
      示例1:‘这款笔记本电脑轻薄便携,续航持久,适合商务人士使用。’
      示例2:‘这款耳机音质清晰,佩戴舒适,适合长时间听音乐。’
      请描述:智能手表”
高级技巧:控制输出质量
  • 温度(Temperature):控制AI输出的随机性,温度越低,输出越确定;温度越高,输出越多样
  • Top-p/Top-k:控制AI选择词汇的范围,top-p值越小,输出越集中;top-k值越小,输出越保守
  • 指令微调:结合微调技术,让模型更好地理解特定类型的指令

3.2 Agent(智能体):能自动跑腿的“AI同事”

Agent是大模型能力的延伸,它能够理解复杂任务,自主规划执行步骤,调用外部工具,并根据执行结果调整策略,最终完成任务。

3.2.1 Agent的核心组成

一个完整的Agent通常包括以下核心组件:

  • 大模型(LLM):提供“大脑”,负责理解任务、生成规划和做出决策
  • 规划器(Planner):将复杂任务分解为可执行的子任务,并制定执行顺序
  • 记忆系统(Memory):存储和管理Agent的历史交互、状态信息和知识库
  • 工具调用(Tool Use):调用外部工具(API、数据库、应用程序等)完成具体操作
  • 执行器(Executor):执行规划的子任务,并处理执行结果
  • 反思机制(Reflector):根据执行结果反思和调整策略,优化后续执行
3.2.2 Agent的工作流程

以“周报助手”Agent为例,其工作流程如下:

  1. 任务理解:接收用户指令“整理本周工作”,理解任务需求
  2. 规划生成
    • 查看用户日历,获取本周会议安排
    • 调用项目管理工具,获取本周任务列表
    • 读取会议纪要和任务完成情况
    • 总结内容,生成周报草稿
  3. 工具调用:依次调用日历API、项目管理工具API、文档阅读工具等
  4. 执行监控:监控每个工具调用的执行结果,确保任务顺利进行
  5. 结果整合:将各工具返回的信息整合,生成最终的周报草稿
  6. 交付结果:将生成的周报草稿呈现给用户
3.2.3 Agent的类型

根据不同的应用场景和设计理念,Agent可以分为多种类型:

Agent类型 核心特点 代表应用 适用场景
单智能体 独立完成任务,结构相对简单 AutoGPT、ChatGPT Plugins 相对简单的自动化任务,如信息查询、文档生成
多智能体协作 多个Agent各司其职,相互协作完成复杂任务 MetaGPT、Swarm 复杂项目,如产品开发、内容创作、数据分析
角色型智能体 拥有特定角色和专业知识,专注于特定领域 律师Agent、医生Agent、设计师Agent 专业领域咨询、辅助决策
工具增强型智能体 深度集成多种外部工具,扩展能力边界 Cursor、Cline 开发者工具、生产力工具
自主型智能体 具备自主目标设定和执行能力,无需人类干预 AutoGPT(高级模式) 长期项目管理、自主学习、探索性任务
3.2.4 Agent的应用场景
  • 个人助理:日程管理、邮件处理、信息查询、文档生成
  • 工作自动化:周报生成、会议纪要、数据分析、报告撰写
  • 专业咨询:法律建议、医疗咨询、财务分析、投资建议
  • 内容创作:文章写作、视频脚本、广告文案、社交媒体内容
  • 软件开发:代码生成、调试、测试、文档编写
  • 客户服务:智能客服、投诉处理、问题解答、产品推荐

3.3 MCP协议:智能体的“标准工具箱接口”

MCP(Model Control Protocol)是一套用于连接AI模型与外部工具的统一通讯协议,它定义了模型如何调用工具、工具如何返回结果的标准格式和流程。

3.3.1 MCP协议的核心价值
  • 统一接口:为不同的AI模型和外部工具提供统一的通讯标准,解决“接口碎片化”问题
  • 简化集成:开发者只需实现一套MCP接口,就能被所有支持MCP的模型调用
  • 跨平台兼容:支持不同类型的模型(大模型、小模型)和工具(API、应用程序、硬件设备)
  • 安全可控:提供权限管理、调用监控、日志记录等安全机制
  • 易于扩展:支持新类型的工具和模型,能够适应AI技术的快速发展
3.3.2 MCP协议的工作原理
  1. 工具注册:工具提供者将工具的描述信息(名称、功能、参数、返回格式等)注册到MCP服务
  2. 模型发现:AI模型通过MCP服务发现可用的工具
  3. 工具调用:模型按照MCP协议格式生成调用请求,发送给目标工具
  4. 结果返回:工具执行完成后,按照MCP协议格式返回结果给模型
  5. 结果处理:模型处理工具返回的结果,继续执行后续任务
3.3.3 MCP协议与其他协议的对比
协议类型 核心特点 优势 劣势
MCP 专为AI模型与工具交互设计的统一协议 统一标准,简化集成,跨平台兼容 相对较新,生态尚在发展中
RESTful API 传统的API调用协议 成熟稳定,广泛应用 接口格式不统一,集成复杂度高
gRPC 高性能的远程调用协议 性能优异,支持多种语言 实现复杂度高,学习成本高
GraphQL 灵活的数据查询协议 按需获取数据,减少网络请求 实现复杂度高,缓存机制复杂
3.3.4 MCP协议的应用前景
  • 开发者生态:越来越多的AI开发工具开始支持MCP协议,如Cursor、Cline等
  • 企业集成:企业可以将内部系统封装为MCP工具,供AI模型调用,实现业务自动化
  • 跨平台协作:支持不同平台的AI模型和工具相互协作,打破技术壁垒
  • 标准化发展:MCP协议有望成为AI模型与工具交互的行业标准,推动AI生态的健康发展

四、应用工具层:我们实际使用的平台(怎么选?)

这一层是我们直接上手操作的产品。根据你的角色和需求,可以这样选择:

平台类型 适合谁? 核心特点 代表工具 实习/工作场景举例
零代码/低代码智能体平台 非技术同学、快速原型验证 可视化搭建,拖拽配置,门槛极低,快速实现想法。 扣子(Coze)腾讯元器阿里通义 半小时为部门搭建一个“面试问题收集与自动分类”机器人。
面向开发者的AI编程工具 程序员、开发者 深度集成在IDE中,辅助代码编写、理解、调试和重构。 CursorClineCodeium 用Cursor让AI解释一段复杂的开源代码逻辑,或自动生成单元测试。
全功能AI应用开发框架 需要深度定制和集成的开发者 提供完整的前后端框架,用于搭建企业级AI应用、工作流或类似ChatGPT的网站。 DifyLangChainLlamaIndex 为公司内部搭建一个集成知识库的智能客服系统。

同类工具简单对比(编程工具为例)

  • Cursor:体验流畅,代码理解和生成能力出众,目前最受开发者欢迎。
  • Cline:开源,对MCP协议支持好,适合喜欢定制和折腾的开发者。
  • VSCode + Copilot:经典组合,稳定可靠,插件生态丰富。

在我实习的公司中,为了保证信息安全,大模型都是部署在内网环境,所以我们借助的ai工具就是cline+vscode的开发形式,使用上来说不如这种集成的AI的IDE好用.不过公司根据注重信息安全的角度就可以理解.

平时自己使用TRAE感觉就可以,比较对应没有工资的大学生来说cursor还是有点轻奢.

五、特别探讨:Java后端与AI智能体是什么关系?

这是一个非常实际的问题。传统后端与AI智能体不是取代关系,而是协作共生。简单来说:Java后端是稳定可靠的“执行者”和“数据管家”,而AI智能体是聪明的“调度员”和“决策大脑”

Java后端与AI智能体的协作模式可以概括为:

  1. 传统Java后端:包括数据库、业务逻辑层(Spring/MyBatis)和RESTful API,负责数据存储、业务执行和提供服务接口
  2. AI智能体:包括大模型(“决策大脑”)和规划与工具调用(“调度中心”),负责理解用户需求、制定执行计划和调用工具
  3. 协作方式
    • AI智能体通过API/MCP调用Java后端服务
    • Java后端执行具体业务逻辑或查询数据,返回结果给AI智能体
    • AI智能体整合结果,生成最终响应返回给用户

Java后端在AI时代的新角色

  1. 成为智能体的“双手”:将你的业务服务(如订单创建、数据查询)封装成标准的APIMCP工具,供智能体调用。
  2. 成为智能体的“记忆中枢”:管理智能体所需的长期状态、对话历史,并提供RAG所需的企业知识库数据源。
  3. 直接集成AI能力:使用 Spring AI 等框架,在Spring Boot应用中直接集成大模型,为后端服务增加智能接口。

AI智能体

传统Java后端

被Agent通过
API/MCP调用

触发业务执行
或查询数据

数据库

业务逻辑层
Spring/MyBatis

RESTful API

大模型
“决策大脑”

规划与工具调用
“调度中心”

用户提出自然语言需求

返回复杂任务的执行结果

六、给实习生的上手建议与思考

  1. 从“用”开始,建立直觉:先别纠结概念。免费注册扣子(Coze),拖拽创建一个简单机器人;安装Cursor,让它帮你写段代码。动手是理解最快的方式。
  2. 用“工作流”视角审视任务:分析你的日常重复性工作(会议纪要、数据整理、测试),思考能否用上述某一层技术自动化其中一环。
  3. 建立“技术栈”思维:面对一个需求,顺着全景图思考:
    • 需要什么“大脑”?(选模型)
    • 如何让它理解任务?(设计Prompt/Agent)
    • 需要操作哪些外部系统?(找MCP工具)
    • 用什么平台实现最合适?(选工具)
  4. 平滑升级你的技能:如果你是Java后端,路径可以是:
    • 巩固基础:确保能熟练开发RESTful API。
    • 服务“AI化”:将你的API包装成MCP工具,在Coze或Dify中被智能体调用。
    • 主动集成:学习 Spring AI,探索在Java生态中集成大模型能力。

结语

技术浪潮奔涌,但解决实际问题的工程能力永远核心。你掌握的严谨逻辑、系统设计能力(如Java后端)是宝贵的“硬实力”。AI智能体开发带来的,是一种新的“软技能”——与不确定性共舞,学会设计和引导。

希望这份“地图”能帮助你清晰启程。保持好奇,动手为先,在构建的过程中,你会发现这些层层叠叠的技术,最终都服务于那个最简单的目标:让机器更好地帮助我们解决问题

像当一个程序猿真的得是学无止境啊,在我刚入大学的时候刚接触gpt,如今不过短短几年,还没毕业.这些新的技术就如雨后春笋般涌现.

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐