大模型开发完全指南：选型策略与四大核心法则，产品经理与开发者的必备宝典！

文章系统介绍大模型选型方法论与开发入门知识，涵盖主流模型厂商、评判模型能力的核心维度（知识新鲜度、记忆能力等）及不同尺寸模型适用场景，深入解析四大核心法则：模型无记忆（多轮对话通过传递历史实现）、指令有层级（System Prompt定义AI角色）、万物皆Token（多模态输入成本考量）及回归官方文档。帮助产品经理和开发者建立对大模型开发的正确认知，为AI应用开发提供实战指导。

猿类崛起@

607人浏览 · 2025-11-13 14:27:08

猿类崛起@ · 2025-11-13 14:27:08 发布

开篇

对于产品经理来说，模型是AI应用的大脑，选型是产品成败的「第一道关卡」。如果选错了，后面再多的努力都可能是白费。此外，对于LLM应用开发，PM不一定要会写代码，但必须理解模型工作的「基本原理」。

因此我系统地梳理了市面上的主流模型，总结了一套「选型方法论」，并将那些看似复杂的开发概念，提炼成了「四大核心法则」。掌握它们，你就能建立起对大模型开发的正确认知。

本文分为两大部分，可以选择你感兴趣的部分进行查看～

1、如何选择模型？

主流模型概览
评判模型能力的几个核心维度
不同维度下的模型对比
模型尺寸与适用任务
学习思路

2、大模型开发入门

大模型本身没有多轮对话能力
不同角色（platform、system、user）及优先级
多模态模型怎么算token？
学会看官方文档

✨ 第一部分：如何选择模型？

市面上的主流模型

1、主流模型厂商

（1）硅谷一线

OpenAI (GPT系列)
Anthropic (Claude系列)
Google (Gemini系列)
Meta (Llama系列)

👉 技术潮流的定义者

（2）国内双雄

DeepSeek (深度求索)
Qwen (阿里通义千问)

👉 技术紧随其后，尤其在开源和中文能力上表现出色。

据统计，全世界的微调模型中，有80%是基于Qwen的。

（3）国内其他

Doubao (字节豆包)
Kimi (月之暗面)
GLM (智谱清言)

👉 在特定能力（如长文本、性价比）上非常有竞争力。

2、最贵的模型：推理模型

【代表模型】

OpenAl-01，o3(多模态)
Gemini 2.0 Flash Thinking(多模态)
DeepSeek R1
Qwen

【适用场景】

需要复杂规划、深度思考和严谨逻辑的任务，如代码生成、数学竞赛题、科学计算、企业级的复杂业务流程规划等。

3、旗舰模型（全能优等生）

【代表模型】

GPT-4o(多模态)
GPT-5
Geminl Pro系列(1.5，2.0)
Claude Sonnet系列、Opus系列(3.5)
Meta Llama 3.1
DeepSeek V3、Qwen 72B

【适用场景】

对话体验、内容创作、知识问答、逻辑分析等绝大多数主流任务。

4、轻量级模型

【代表模型】

GPT-4o mini，GPT-5 mini
Gemini 2.5 Flash
Claude 3.5 Haiku

【适用场景】

高并发的客服、内容摘要、意图识别、简单指令执行等对成本和速度要求高的场景。

💡 小帖士：

日常工作中，可以把自己领域内的一些「困难case」记录下来，形成一个私人测试集。每当有重磅新模型发布时，花十几分钟跑一遍这个测试集，很快就能对它的能力边界和脾性建立起体感。

模型的几个能力维度

了解了主流模型之后，还需要一套标尺来衡量一个模型的能力，可以从以下几个核心维度去拆解：

1、训练截止日期（知识的新鲜度与深度）

（1）新鲜度

这决定了模型能不能和你聊最近发生的事。

比如，你可以问它“评价一下OpenAI发布的Sora2这个产品”，如果它的训练数据截止到2024年，它就无法回答。

（2）深刻度（更为关键）

**互联网上资料越多的知识，模型掌握得越深刻。**相反，小众、冷门的知识，它可能只是一知半解。
**模型内化记忆的知识，远比通过RAG临时喂给它的知识更深刻。**前者是模型「消化吸收」过的，后者只是「看了一眼小抄」。
模型具备惊人的融会贯通能力。 有些知识在中文互联网上不存在，但在英文世界里很丰富。就算用中文去问，顶尖模型也能很好地回答，因为它已经把不同语言的知识“打通”了。

2、知识记忆能力

这指的是模型能够准确回忆和复述事实性知识的能力。参数量越大的模型，记忆力通常越好。

3、复杂推理

这不仅仅是知识记忆，而是模型进行逻辑推导、多步规划和解决问题的能力。比如，给它一个复杂的数学应用题，它需要先理解题意，拆解步骤，进行计算，最后得出答案。这是区分「学霸」和「普通学生」的关键。

4、复杂指令的遵守能力

这衡量了模型是否「听话」。比如，让它“写一首关于夏天的五言绝句，必须包含‘蝉’和‘雨’两个字，并且要用比喻的修辞手法，最后生成一个JSON格式的输出”。指令越复杂，就越考验模型。

5、代码能力

代码是纯粹的逻辑语言，所以模型的代码能力往往是其逻辑推理能力的最佳「试金石」。一个能写出高质量、无bug代码的模型，通常在其他逻辑任务上也不会差。

一直在更新，更多的大模型学习和面试资料已经上传带到CSDN的官方了，有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

几个维度对比模型

了解了标尺，就可以根据以下三个方面具体地对比选择了～

1、推理vs非推理

（1）非推理模型

GPT-4、GPT-4o、DeepSeek V3、GPT-5 main

仅支持快思考。

💡 反应迅速，擅长处理大部分日常对话和创作任务。

（2）推理模型

o1，o3，GPT-5-thinking
Gemini 2.0 Flash Thinking，Claude 3.7 Thinking
Deepseek R1、Qwen也有推理模型

默认“慢思考”，有时候只是说一句“你好”也要思考半天。

💡 这保证了在复杂任务上的高质量，但也带来了更高的延迟和成本。

（3）新一代混合模型

Claude 4.0(不区分thinking)
Qwen 3.0
GPT-5(实际上在ChatGPT里是通过路由分发实现的)

自动判断当前任务，该走快思考，还是慢思考

👉 这代表了未来的趋势，开发者甚至可以在API里直接设置思考时长或算力预算，达到效果和成本的最佳平衡。

2、文本vs多模态

硅谷顶尖玩家的主流模型，如GPT-4o、Gemini，均已默认支持多模态（文本、图片、音频、视频的混合输入输出）。
中国主流的两家DeepSeek和Qwen，旗舰模型尚未实现文本模型和多模态模型的统一。
字节的Seed 1.6系列模型已经实现

多模态和文本的统一，是应用落地的必然趋势。

3、模型尺寸：旗舰大尺寸 vs 中档 vs 小尺寸

（1）顶配旗舰模型：500B以上

DeepSeekR1(670B，DeepSeek主打)
Claude 4.0、OpuS、GPT4.5、GPT-4原始版(2万亿参数)、Gemini Ultra

参数量很大，运行成本极高（DeepSeek用了MOE架构(自学任务)）

（2）中档旗舰模型:100B-300B为主

GPT-4o(据传200B)
o1系列(据传以4o作为基座)
GPT-5(推测)
Claude 4.0 Sonnet(据传200B)(Anthropic主打)
Gemini 2.5 Pro(据传100B-200B)谷歌主打
Qwen 3 235B

🌟 这是各大公司主推的“明星产品”，能力全面，是大部分产品的核心驱动力。

（3）中档主力模型：72B、32B

Qwen 3 72B(阿里主打)
Llama 3 72B

企业微调私有化部署的“偏大”的模型

（4）小尺寸主力模型:7B

GPT 4.1 mini
Gemini Flash系列
Qwen37B、LLAMA38B

各种企业微调模型的主力尺寸

（5）端侧微小模型：3B及以下

苹果、小米、谷歌等有手机业务的厂商
少数创业公司如面壁智能会关注
Qwen系列也会包含3B左右尺寸

不同尺寸适用任务

作为PM，理解尺寸和任务的匹配关系，直接关系到产品成本和用户体验。

1、模型参数量与知识记忆之间的关系

（1）必要条件

在当前以transformer架构为主的阶段，参数量大是知识记忆能力强的必要条件。一般来说，72B以上是基础知识水平达标的门槛。

（2）知识压缩率

万亿参数模型，相当于把互联网上的百科知识以很低的压缩率（比如80%）内化记忆了，损失少，包括一些小众的知识。而7B模型，知识的「蒸馏」损失会大很多，可能只记得“中国的首都是北京”，但不知道“赫尔巴特学派在19世纪德国教育思想史中的具体影响”这类小众知识。

（3）事实性问答

GPT4.5(万亿参数) > GPT4o(据传是100B左右) >> GPT4omini(据传是8B左右)

2、模型参数偏大还是偏小？

（1）越大越好——Anthropic研究员

认为今天的万亿模型相比人脑依然太小，模型内部存在大量参数复用，说明参数还远远不够用。

（2）相反的观点——Sam Altman、AndrejKarpathy

认为未来应该是小尺寸、但推理能力极强的核心模型，知识和工具都可以依赖外部调用（RAG、Tool-use）。

这就像一个绝顶聪明的奥赛选手，虽然知识储备不多，但理论上解决问题能力极强，只要你允许他打小抄（调用外部知识库）、允许他使用外部工具（代码、电脑任你使用）。

💡 GPT-5虽然是千亿模型，其实也是类似的思路。

另外还有模型参数大小和成本的考量。OpenAI内部应该有比公开给用户使用的这几个模型参数还大很多的模型，用来当作教师模型。

👉 PM如何思考：

这两种思路并不矛盾。PM的任务是根据产品场景做权衡。如果你的应用是事实性知识问答，大模型是基础保障。如果你的应用是基于私有知识库的客服，一个小而精、指令遵循能力强的模型，配合高效的RAG，可能是性价比最高的选择。

学习思路

👉 由顶而下

1、优先学习全世界最前沿的LLM开发范式

先去体验OpenAI、Claude 3.5这些顶尖模型，理解当前技术能达到的天花板在哪里。这会让你建立起正确的「品味」。

2、学习顶尖团队的落地案例：

去研究微软Office Copilot、LinkedIn等团队是如何将LLM融入产品的。学习他们的完整过程，建立清晰的“心智模型”。之前我有发一个笔记，是关于学习AI Agent的一个公开资料入口，核心就是要首先学习顶尖团队的实践经验。

3、国内落地现状

各个大模型厂商/B端企业落地的范式，经常基于落后模型，导致落地效果很差，开发者也不知道如何能突破。

但当你见过了最好的范式，再回头去看国内的落地现状或使用能力稍差的模型时，你就更容易诊断出问题所在，并知道如何通过工程手段（如优化Prompt、改进RAG策略）去弥补。

💡 国产模型和落后模型，会不断追上、对标领先模型，所以现在我们学习的前沿知识，短期内不会过时的。

✨ 第二部分：大模型开发入门

大模型本身没有多轮能力

你可能会觉得，ChatGPT这类应用记性很好，能和你连续聊上几百回合。但一个颠覆认知的事实是：大模型****本身是「无状态」的，它没有任何记忆。

每一次你发送请求，对于模型来说都是一次全新的、独立的任务。它完全不记得你上一秒钟跟它说了什么。

💡 形象地理解：

就像电影《初恋50次》的女主角，她的记忆只能持续一天。她的男友必须每天都重新告诉她他们之间的故事，她才能“记起”他们的情侣关系。

那所谓的「多轮对话能力」是怎么实现的呢？

答案很简单：工程师在每次请求时，都把你们之前的对话历史，像「前情提要」一样，重新打包发给了模型。

# 伪代码演示
# 第一轮
你的输入: "你好"
模型看到的: "你好"
模型回复: "你好！有什么可以帮你的吗？"
# 第二轮
你的输入: "我叫晨光"
模型看到的: "用户: 你好
助手: 你好！有什么可以帮你的吗？
用户: 我叫晨光 "
模型回复: "好的，晨光！很高兴认识你。"

总结一下～

想要获得连贯的多轮效果，关键不在模型「会不会」，而在你如何组织与传递历史内容。

🌟 产品经理视角

（1）成本意识

上下文越长，消耗的Token就越多，API调用成本越高。设计需要长线记忆的产品功能（如专属AI助理）时，必须考虑成本控制策略（如历史摘要、选择性遗忘）。

（2）体验边界

所有模型都有上下文窗口上限。当对话历史超过这个长度时，模型就会开始「失忆」。PM需要为产品设计合理的交互来处理这种情况（如提示用户开启新对话、上下文切断）。

（3）技术方案

RAG（检索增强生成）和多轮对话是两回事。RAG是给模型看「外部知识」（小抄），而多轮对话是让模型回顾「聊天记录」。

消息角色与优先级

和模型交互时，指令并非生而平等，它们存在一个清晰的优先级「金字塔」。理解这个层级，能帮你更好地设计AI的行为边界。

（1）🥇 Platform (平台层)

这是模型厂商（如OpenAI）写在模型底层的最高指令，通常是关于安全、道德和行为准则的硬性约束。开发者无法查看或修改。

例如：“绝对不能生成有害内容。”

（2）🥈 System / Developer (系统/开发者层)

这是你在开发应用时，通过API设置的「系统提示词」（System Prompt）。它定义了AI的角色、性格、说话风格和任务目标。

例如：“你是一个风趣幽默的旅行规划师，要用海盗的口吻回答问题。”

（3）🥉 User (用户层)

这是终端用户在你的产品界面输入的内容。

例如：“帮我规划一个去夏威夷的行程。”

当指令发生冲突时，优先级高的会覆盖优先级低的：Platform > System > User。 这就是为什么无论你怎么诱导，通常都无法让模型输出黄赌毒内容（Platform层拦截），以及为什么AI会坚持自己的角色设定（System层指令优先于User层）。

总结一下～

当三者发生冲突时，优先级从高到低依次是：

platform > developer/instructions > user

再赘述一下，有时候会看到assistant这个角色，这是指模型生成的回答，只是模型消息的代指，不要和上面三个概念搞混了～

🌟 产品经理视角

（1）产品定调

System Prompt是产品经理定义AI「人设」和「核心能力」的最重要工具。产品文档里应该有专门章节来设计和迭代System Prompt。（这是PM关于Prompt工程的核心工作）

（2）边界设计

通过System Prompt可以建立产品的「护栏」，防止用户通过输入（User Prompt）让AI偏离其核心功能定位。

多模态模型计费与token

当我们在谈论模型成本时，绕不开一个核心单位：Token。

一个常见的误区是，只有文本才算Token。实际上，在先进的多模态模型（如GPT-4o, Gemini）中，无论是文本、图片、音频还是视频，最终都会被转换成模型能理解的Token来进行处理和计费。

怎么算？

不需要关心背后复杂的编码算法。只需要记住一个原则：

输入的内容越多、越复杂（比如高清大图 vs 低分辨率缩略图），转化的Token就越多，费用就越高。

去哪看？

各大模型厂商的官网上都有明确的定价页面（一般在Pricing），会详细说明不同类型输入的计费标准。

🌟 产品经理视角:

（1）成本建模

在设计包含图片上传、音视频分析等功能时，必须将多模态Token的成本纳入考量。例如，可以限制用户上传的图片尺寸或视频时长来控制成本。

（2）功能定价

理解Token成本是为AI功能进行合理定价的基础。高消耗的功能（如视频摘要）自然应该对应更高的价格。

官方文档怎么读？

二手知识和教程固然有价值，但**官方文档永远是AIPM****最可靠、最权威的信息来源。**它更新最快、描述最准。

当你需要了解一个模型的确切能力、API如何调用、参数如何设置时，第一选择就是去官网查阅文档。

去哪找？

👉 官网的开发者中心/文档中心，直接进入 Docs。

比如OpenAI入口：https//platform.openai.com/docs

怎么读？

💡 之前如果没有看过官方文档，直接去看可能会不知从何看起。没关系～一开始都会这样，当你尝试看过一两次，你就会轻松摸清官方文档的「套路」😎

**快速开始：**先跟着跑通一个最简单的“Hello World”示例，建立体感。
**核心部分：**精读核心概念部分，理解背后的原理。
API参考**：**当作字典，在需要时查阅具体的参数和用法。

为了让你更有体感，这里有几个从「单轮」到「多轮」的极简代码示例（python），它们清晰地展示了前面提到的法则：👇

（1）最简单的单轮对话

# 引入OpenAI库from openai import OpenAI
client = OpenAI()
# 创建请求，模型为gpt-4o，输入为一句话
response = client.chat.completions.create(
  model="gpt-4o",
  messages=[
    {
     "role": "user",
     "content": "写一个关于独角兽的晚安故事，一句话就行。"
     }
  ]
)
# 打印模型的回复
print(response.choices[0].message.content)

（2）加入系统指令，让AI扮演角色

from openai import OpenAI
client = OpenAI()
response = client.chat.completions.create(
  model="gpt-4o",
  messages=[
    # 这是System层的指令，定义AI的角色
    {
      "role": "system", 
      "content": "你现在是一只爱说冷笑话的猫。"
    },
    # 这是User层的输入
    {
      "role": "user", 
      "content": "今天天气怎么样？"
    }
  ]
)
print(response.choices[0].message.content)

（3）实现「多轮对话」（把历史喂回去）

from openai import OpenAI
client = OpenAI()
response = client.chat.completions.create(
  model="gpt-4o",
  # messages列表里包含了完整的对话历史
  messages=[
    {
      "role": "user", 
      "content": "你好，我叫晨光。"
    },
    {
      "role": "assistant", 
      "content": "晨光你好！有什么可以帮你的吗？"
    },
    {
      "role": "user", 
      "content": "你还记得我叫什么吗？"
    } # 模型通过看到上一轮历史来回答
  ]
)
print(response.choices[0].message.content)

✨ 总结一下

今天我们探讨了大模型开发的四大核心法则：

模型无记忆：「多轮对话」是通过传递历史上下文实现的。
指令有层级：System Prompt是定义AI角色的关键。
万物皆Token：多模态输入的成本需纳入考量。
回归官方文档：它是你最可靠的信息来源。

理解这些底层逻辑，会让我们在AI PM的道路上走得更稳、看得更远。

最后

我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包：

✅AI大模型学习路线图
✅Agent行业报告
✅100集大模型视频教程
✅大模型书籍PDF
✅DeepSeek教程
✅AI产品经理入门资料

如果你也想通过学大模型技术去帮助自己升职和加薪，可以扫描下方链接👇👇

在这里插入图片描述

为什么说现在普通人就业/升职加薪的首选是AI大模型？

人工智能技术的爆发式增长，正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议，到全国两会关于AI产业发展的政策聚焦，再到招聘会上排起的长队，AI的热度已从技术领域渗透到就业市场的每一个角落。

智联招聘的最新数据给出了最直观的印证：2025年2月，AI领域求职人数同比增幅突破200% ，远超其他行业平均水平；整个人工智能行业的求职增速达到33.4%，位居各行业榜首，其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张，也让人才供需矛盾愈发突出。麦肯锡报告明确预测，到2030年中国AI专业人才需求将达600万人，人才缺口可能高达400万人，这一缺口不仅存在于核心技术领域，更蔓延至产业应用的各个环节。

在这里插入图片描述

资料包有什么？

①从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点
在这里插入图片描述

② AI大模型学习路线图（还有视频解说）

全过程AI大模型学习路线

在这里插入图片描述

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了，这些是我精选出来的

在这里插入图片描述

④各大厂大模型面试题目详解

在这里插入图片描述

⑤ 这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频教程由智泊AI老师录制，且资料与智泊AI共享，相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

在这里插入图片描述