DeepSeek的使用与提示词工程

阿里的零码 lingma IDE可以用用；对标 cursorQwen3-coder 跟Claude 齐平大模型的部署工具：011ama个人学习用；V11m企业用支持多人并发。

xuanwuziyou

426人浏览 · 2025-08-04 16:54:02

xuanwuziyou · 2025-08-04 16:54:02 发布

阿里的零码 lingma IDE可以用用；对标 cursor
Qwen3-coder 跟Claude 齐平
大模型的部署工具：Ollama个人学习用；Vllm企业用支持多人并发

DeepSeek的使用

DeepSeek-V3 2024.12 推出，速度快便宜价格降到 1%，训练成本
降到之前的不足 1/10，训练成本约600万美金

DeepSeek-R1 2025.1火了，开源了其使用MIT License，允许
用户任意自由的使用和商业化

随后小模型也火了：蒸馏小模型其中 Qwen2B和Qwen70B已基本对
标 OpenAI o1-mini的效果

DeepSeek的创新点：

1 LMA 通过低秩键值联合压缩的注意力机制，显著减少KV缓存的同
时提高计算效率，类似于把4M图片压缩为200K但仍然保留了 98% 的
信息。用很小的信息损失降低了极大的存储成本。

2 MOE 混合专家架构有公共的专家，有独特的专家总参数量很
大，但每次训练或推理时只激活了很少的链路，训练成本大大降低
训练速度显著提高，类似于医院的有一定医学知识的分诊台

Qwen3-Coder-480B-A35B-Instruct模型：480B 完整尺寸的模型
参数大小，激活的参数量是 35B，推理速度就快很多

3 混合精度模型关键的地方用全精度其它使用最小的精度，不够用
了再升一下精度

4 训练策略方，用了多token预测，提高了速度

5 DeepSeek-R1的推理能力强大

5.1 强化学习驱动
5.2 长链推理(CoT)技术

DeepSeek-R1-Zero纯强化学习（不是人把棋谱喂给机器
alphaGo战胜李世石就是用了alphaGo用了纯强化学习自我对弈了
3000万盘棋赢棋标记这盘好输棋标记这盘差最后找到一些规
律）推理模型会先产生 think 再产生 answer，可以给一个回答

模型蒸馏：把知识迁移到小模型中
量化：降低模型参数的存储精度，速度会变快精度：32bit
16bit 8bit

DeepSeek的模型尺寸

注意：B是billion（十亿）的意思

小模型(1.5B-4B)：
1.5B (15亿个参数) 可部署于个人笔记本无需显卡
7/8B 需要显卡如4090 7B个人使用

14B
特点：响应快硬件需求低，但基本户能力薄弱，无法胜任复杂任务
（如7B模型在基础文本生成任务中表现不稳定，甚至不及格）

中尺寸(32B及以上)：
32B 企业入门使用成本约10万
70B 特点：性能接近满血版(32B约实现671B的90%的性能)，可满足专业领域需求，但本地化部署成本较高（需64GB内存、80GB显存等）

满血版：
671B 满血版成本约300万
特点：性能最强，适合超大规模AI研究、AGI探索，但部署成本极
高（需多节点分布式训练，硬件需求极高）
DeepSeek-r1容易产生幻觉，建议用 Qwen3

Qwen3的模型尺寸

0.6B/1.7B 适用本地测试、科研或边缘设备如工控机部署

4B 适用于手机端应用

8B 建议使用企业也能用个人能用，适用于电脑或汽车端的对话
系统、语音助手
（可以用AutoDL上用一个4090的显卡有24G显
存) 几乎媲美671B的DeepSeek

32B 建议使用适合企业复杂任务落地
老师给企业部署了 8B和32B

30B-A3B 和235B-A22B 分别适合云端高效部署和旗舰级高性能场
景如数学证明代码生成
235B-A22B在基准测试中可与 DeepSeek-R1、Grok-3等顶尖模
型竞争

Qwen3模型支持思考模式（逐步推理）和非思考模式（快速响
应），并支持119中语言和方言，具备更强的 Agent能力和原生
MCP支持。

如何多并发：用vllm 同时做一些冗余和多卡

Case 物理世界中的小球碰撞

需要用 DeepSeek-r1
不太复杂的任务或绝大部分任务用v3，涉及数学和物理原理的用可推
理的r1（但r1有幻觉简单任务容易出现很多额外的内容导致结果误
差)

vllm使用

vllm是一个高速推理框架，用于提升LLM的吞吐量与内存使用效率。
支持量化技术、分布式推理。

modelScope网站上可以下载模型文件

也可以用modelscope的命令行下载模型文件

模型下载

from modelscope import snapshot download
snapshot download(`deepseek-ai/
DeepSeek-R1 -Distill-Qwen-7B', cache dir='/root/
autodl-tmp/models')

#注意snapshot download方法的第一个参数在modelscope官网的
模型详情页模型名称边上可以赋值

模型部署方式

方法一用vllm进行部署
方法二在python文件中调用部署好的模型（模型就是文件）
方法三用ollama(ollama.com/library 其官方模型库)
下载模型：ollama pull deepseek-r1:1.5b
删除模型：ollama rm deepseek-r1:1.5b
运行模型：ollama run deepseek r1:1.5b
ollama运行起来后可使用 ollama REST API，可用
FastAPI或flask来封装

私有化部署的局限：(AutoDL上可以租显存)
1 模型尺寸不会太大
2没有上网环境

提示词工程 Prompt

对于推理模型，提示语更简洁，无需指导其步骤；
对于通用模型需要引导推理步骤
模型选择：创意类任务选通用模型，数学、物理等推理类任务用推理模型

prompt编写原则

1 具体指导给与明确的指导和约束

2 简洁明了使用简练、清晰的语言表达prompt

3 适当引导通过示例或问题边界引导模型（把大模型当成一个实习生当成一个人训练别人帮自己干活)

4 迭代优化跟进输出结果，持续调整和优化

Prompt的组成（重要性从前到后）：

1 任务始终以动词开始任务句子如生成给以写作，明确表达目
标，可以多个

2 上下文提供上下文背景所处环境

3 示例提供具体的例子，可提高输出质量；没有示例时候可以让
GPT帮忙生成示例

4 角色希望AI扮演的角色，可以是具体的人，也可以是虚构的角色

5 格式希望输出的格式，如表格、列表、段落等

6 语气指定输出的语气，如正式、非正式、幽默

注意：写prompt是一个不断尝试和调整的过程。

Prompt编写技巧

1 限制模型输出的格式比如用json

2 使用分隔符区分输入的不同部分

3 提供样例

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

上下文协议（MCP）Java SDK 指南

我们先通过这个类，定义一个非常简单的 MCP 工具，用来打印收到的提示词（prompt），该方法返回一个.build();});这里我们首先定义了输入的 JSON Schema，用来为用户输入建立一个清晰的契约。接着，使用该输入 Schema 来实例化一个Tool，在处理逻辑中提取出prompt参数，并最终返回包含该prompt的结果。在本文中，我们首先回顾了 MCP 及其 Java SDK 的整