DeepSeek的使用与提示词工程
阿里的零码 lingma IDE可以用用;对标 cursorQwen3-coder 跟Claude 齐平大模型的部署工具:011ama个人学习用;V11m企业用 支持多人并发。
阿里的零码 lingma IDE可以用用;对标 cursor
Qwen3-coder 跟Claude 齐平
大模型的部署工具:Ollama个人学习用;Vllm企业用 支持多人并发
DeepSeek的使用
DeepSeek-V3 2024.12 推出,速度快 便宜价格降到 1%,训练成本
降到之前的不足 1/10,训练成本约600万美金
DeepSeek-R1 2025.1火了,开源了 其使用MIT License,允许
用户任意自由的使用和商业化
随后 小模型也火了:蒸馏小模型 其中 Qwen2B和Qwen70B已基本对
标 OpenAI o1-mini的效果
DeepSeek的创新点:
1 LMA 通过低秩键值联合压缩的注意力机制,显著减少KV缓存的同
时提高计算效率,类似于把4M图片压缩为200K但仍然保留了 98% 的
信息。用很小的信息损失降低了极大的存储成本。
2 MOE 混合专家架构 有公共的专家,有独特的专家 总参数量很
大,但每次训练或推理时只激活了很少的链路,训练成本大大降低
训练速度显著提高,类似于 医院的有一定医学知识的分诊台
Qwen3-Coder-480B-A35B-Instruct模型:480B 完整尺寸的模型
参数大小,激活的参数量是 35B,推理速度就快很多
3 混合精度模型 关键的地方用全精度 其它使用最小的精度,不够用
了再升一下精度
4 训练策略方,用了 多token预测,提高了速度
5 DeepSeek-R1的推理能力强大
5.1 强化学习驱动
5.2 长链推理(CoT)技术
DeepSeek-R1-Zero纯强化学习(不是人把棋谱喂给机器
alphaGo战胜李世石就是用了alphaGo用了纯强化学习 自我对弈了
3000万盘棋 赢棋标记这盘好 输棋标记这盘差 最后找到一些规
律)推理模型会先产生 think 再产生 answer,可以给一个回答
模型蒸馏:把知识迁移到小模型中
量化:降低模型参数的存储精度,速度会变快 精度:32bit
16bit 8bit
DeepSeek的模型尺寸
注意:B是billion(十亿)的意思
小模型(1.5B-4B):
1.5B (15亿个参数) 可部署于个人笔记本 无需显卡
7/8B 需要显卡 如4090 7B个人使用
14B
特点:响应快 硬件需求低,但基本户能力薄弱,无法胜任复杂任务
(如7B模型在基础文本生成任务中表现不稳定,甚至不及格)
中尺寸(32B及以上):
32B 企业入门使用 成本约10万
70B 特点:性能接近满血版(32B约实现671B的90%的性能),可满足专业领域需求,但本地化部署成本较高(需64GB内存、80GB显存等)
满血版:
671B 满血版 成本约300万
特点:性能最强,适合超大规模AI研究、AGI探索,但部署成本极
高(需多节点分布式训练,硬件需求极高)
DeepSeek-r1容易产生幻觉,建议用 Qwen3
Qwen3的模型尺寸
0.6B/1.7B 适用本地测试、科研或边缘设备如工控机部署
4B 适用于手机端应用
8B 建议使用 企业也能用 个人能用,适用于电脑或汽车端的对话
系统、语音助手
(可以用AutoDL上用一个4090的显卡 有24G显
存) 几乎媲美671B的DeepSeek
32B 建议使用 适合企业复杂任务落地
老师给企业部署了 8B和32B
30B-A3B 和235B-A22B 分别适合云端高效部署和旗舰级高性能场
景 如数学证明 代码生成
235B-A22B在基准测试中可与 DeepSeek-R1、Grok-3等顶尖模
型竞争
Qwen3模型支持 思考模式(逐步推理)和 非思考模式(快速响
应),并支持119中语言和方言,具备更强的 Agent能力和原生
MCP支持。
如何多并发:用vllm 同时做一些冗余和多卡
Case 物理世界中的小球碰撞
需要用 DeepSeek-r1
不太复杂的任务或绝大部分任务用v3,涉及数学和物理原理的用可推
理的r1(但r1有幻觉 简单任务容易出现很多额外的内容 导致结果误
差)
vllm使用
vllm是一个高速推理框架,用于提升LLM的吞吐量与内存使用效率。
支持量化技术、分布式推理。
modelScope网站上可以下载模型文件
也可以用modelscope的命令行下载模型文件
模型下载
from modelscope import snapshot download
snapshot download(`deepseek-ai/
DeepSeek-R1 -Distill-Qwen-7B', cache dir='/root/
autodl-tmp/models')
#注意snapshot download方法的第一个参数在modelscope官网的
模型详情页模型名称边上可以赋值
模型部署方式
方法一 用vllm进行部署
方法二 在python文件中调用部署好的模型(模型就是文件)
方法三 用ollama(ollama.com/library 其官方模型库)
下载模型:ollama pull deepseek-r1:1.5b
删除模型:ollama rm deepseek-r1:1.5b
运行模型:ollama run deepseek r1:1.5b
ollama运行起来后可使用 ollama REST API,可用
FastAPI或flask来封装
私有化部署的局限:(AutoDL上可以租显存)
1 模型尺寸不会太大
2没有上网环境
提示词工程 Prompt
对于推理模型,提示语更简洁,无需指导其步骤;
对于通用模型需要引导推理步骤
模型选择:创意类任务选通用模型,数学、物理等推理类任务用推理模型
prompt编写原则
1 具体指导 给与明确的指导和约束
2 简洁明了 使用简练、清晰的语言表达prompt
3 适当引导 通过示例或问题边界引导模型 (把大模型当成一个实习生 当成一个人 训练别人帮自己干活)
4 迭代优化 跟进输出结果,持续调整和优化
Prompt的组成(重要性从前到后):
1 任务 始终以动词开始任务句子 如生成给以 写作,明确表达目
标,可以多个
2 上下文 提供上下文背景 所处环境
3 示例 提供具体的例子,可提高输出质量;没有示例时候可以让
GPT帮忙生成示例
4 角色 希望AI扮演的角色,可以是具体的人,也可以是虚构的角色
5 格式 希望输出的格式,如表格、列表、段落等
6 语气 指定输出的语气,如正式、非正式、幽默
注意:写prompt是一个不断尝试和调整的过程。
Prompt编写技巧
1 限制模型输出的格式 比如用json
2 使用分隔符区分输入的不同部分
3 提供样例
更多推荐


所有评论(0)