AI大模型云端对话+调用API+本地部署

JioJio-zjj

687人浏览 · 2026-01-23 17:58:09

JioJio-zjj · 2026-01-23 17:58:09 发布

一、AI三种部署使用方式

1.对于本地部署、API调用和云端对话区别

第一种（云端对话式）：例如通过网页或App直接与AI聊天，数据在服务商服务器处理，隐私性较弱
第二种（调用云端API）：通过编程调用服务商API，数据仍经过第三方，隐私性中等
第三种（本地部署）：
严格意义上的本地部署：指在自己的物理硬件（如个人电脑、公司服务器）上运行模型，算力完全由本地承担
租用云端服务器部署模型：这通常称为“云端私有部署”或“自托管在云上”，虽然服务器在云端，但你对环境有完全控制权，模型和数据不经过第三方AI服务商，算力由租用的云服务器承担，而非本地设备

2.三种方式的具体操作

1. 云端对话式

直接访问AI服务网站（如ChatGPT、文心一言）或下载官方App
注册账号，登录后即可在输入框中对话

2. 调用API

编程代码调用的方式：

注册AI服务商平台（如OpenAI、智谱AI）获取API密钥
安装对应SDK或直接发送HTTP请求（常用Python的requests库）
编写代码，构造请求（包含API密钥、输入文本等），发送到API端点，解析返回的JSON响应

3. 本地部署

选择模型：从开源平台（如Hugging Face）下载模型文件（如LLaMA、ChatGLM）
准备环境：安装Python、深度学习框架（如PyTorch、TensorFlow）及依赖。
硬件要求：需要较强算力，建议配备GPU（如NVIDIA显卡）并安装CUDA驱动
运行模型：加载模型，编写推理代码进行对话或任务
云端服务器部署：在云平台（如AWS、阿里云）租用GPU实例，通过SSH远程连接，后续步骤与本地类似，但需配置网络和安全组

注意：调用API：默认无联网功能，模型仅基于训练数据生成回复，但部分服务商提供联网插件（如ChatGPT的Browse功能），需额外开启或付费
本地部署：默认无联网功能，模型是静态的。但可以自行编程实现联网，例如在本地部署的模型中集成搜索引擎API，让模型先获取实时信息再生成回答，这需要额外的开发

云端对话：

3.联网功能和RAG区别

1. 联网功能：一个“黑盒”的RAG服务
- 检索源固定：通常只检索公共互联网（如通过Bing搜索），你无法控制或指定它去检索哪些特定网站、数据库或内部文档
- 检索过程不可见：你不知道它具体检索了哪几条结果，过程不透明
- 整合简单：用户只需点击“联网”开关，无需任何开发
- 适用范围：解决通用、公开的实时信息获取问题

例如：工作流程（以1月26日查询为例）

2. RAG：一个“白盒”的、可深度定化的架构
- 检索源完全自定义：可以是你公司的内部知识库、产品文档、数据库、邮件、甚至是个人笔记，这是与联网功能最大的不同
- 检索过程可优化：你可以精心设计如何将用户问题转为查询词、用什么算法检索、对结果做重排序和过滤
- 需要自行开发：需要搭建检索系统、嵌入模型、设计整合逻辑
- 适用范围：构建专属的、专业的、安全的智能问答系统

例如：工作流程

联网功能就像“让AI助手拥有了一个内置的、只能上网的实习生”，你需要什么，它就上网去搜，然后把搜到的东西总结给你，你管不了它具体怎么搜，也管不了它去看哪些内部文件
RAG就像“你为AI助手配备了一个高度专业的私人档案管理员”，这个管理员只在你指定的、精心整理的档案库里查找资料，并且查找方式可以由你精确指导

所有“联网功能”都可以看作是RAG的一种，但RAG能做的远不止联网，这其实就是服务商为你内置好的一个便捷版RAG系统，但它只打开了通往公共互联网的通道，如果你想为自己的数据构建一个这样的“联网”能力，就需要自己动手实现RAG架构

二、AI学习应用

第一阶段：初阶应用

1.大模型 AI 能干什么？

自然语言处理（对话、翻译、文本生成等）+图像处理+自动驾驶+医疗健康

2.大模型是怎样获得「智能」的？

生成式模型（从海量数据中学习）+神经网络和机器学习（模型会不断优化自身）+Token的语言理解（模型处理单词字符句子一部分，拼凑理解）+先进的架构支持（自注意力机制和并行处理）

3.用好 AI 的核心心法

明确需求+分解复杂问题（分阶段提问）+给AI补洞（对于没有回答上的点，继续追问）+避免废话（可给AI一个具体例子）+双重确定（对于比较严肃专业邻域，追加需求符合规定）

4.大模型应用业务架构

5.大模型应用技术架构

参考这个博主的图片

收藏级！24张图全景解析AI大模型应用架构设计（小白&程序员必备_ai大模型私有化部署架构图-CSDN博客

6.代码示例：向 GPT-3.5 灌入新知识

已经训练好的模型本身是不能直接灌入新知识的，只不过可以通过微调、RAG和系统提示这三种方式来让模型回答问题时能够利用我提供的新信息

7.提示工程的意义和核心思想

将大模型的“潜力”转化为解决实际问题的“生产力”，其核心思想是：通过角色设定、结构化指令、思维链引导、示例示范和明确约束，来精确地塑造模型的输出

8.Prompt 典型构成

角色+上下文+例子+输入+输出

参考这个博主的内容：

完整教程：深入理解 AI Prompt 的六大核心构成：从理论到实战的全面解析大模型AI Prompt - clnchanpin - 博客园

9.指令调优方法论

后期微调，让模型学会再接受到自然语言指令是，可以理解指令并完成任务（加入大量的指令和任务示例）

10.思维链和思维树

深度思考时前面的思考步骤

思维链：将提问->回答，变成了提问->推理->返回答案

思维树：允许回溯，探索从一个基本想法产生的多个推理分支

11.Prompt 攻击和防范

参考下面博主链接

大模型攻防｜Prompt 提示词攻击_提示词注入-CSDN博客

第二阶段：高阶应用

1.为什么要做 RAG

解决“幻觉”现象，一本正经的胡说八道的现象，主要是由于模型训练到某个时间点就停止了，并且专业领域补精通，拿不到私有数据，没有依据，所以RAG（检索增强生成）相当于给大模型一个外置的数据库。将私有数据处理之后存到向量数据库里，用户提问时，系统到这个数据库和里面去找，并将找到的数据和问题整合，送给大模型，大模型接受这个有背景数据的提示词，进行回答
2.搭建一个简单的 ChatPDF
3.检索的基础概念
4.什么是向量表示（Embeddings）
5.向量数据库与向量检索
6.基于向量检索的 RAG
7.搭建 RAG 系统的扩展知识
8.混合检索与 RAG-Fusion 简介
9.向量模型本地部署

（之后完善下面内容）

第三阶段：模型训练

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建

第四阶段：商业闭环

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案