说个事实:2026年Q1,"大模型应用开发"相关岗位招聘量同比涨了78%。

不是算法岗。是"应用开发"岗。

我翻了BOSS直聘和拉勾上近200条JD,发现一个很有意思的现象——企业对"会用大模型"的人要求越来越具体了。不是"了解AI"这种模糊描述,而是明确要求:

  • 能搭建RAG知识库系统

  • 能开发多Agent协作工作流

  • 能做模型微调和部署上线

  • 能设计企业级Prompt工程体系

这些技能,全部属于AI产业的第三层——模型落地层

今天这篇不是聊行业趋势的,是纯技术拆解。5个核心岗位,每个岗位的技术栈、学习路径、踩坑点,一个一个讲清楚。


先搞清楚:AI产业5层,模型落地层在哪?

很多人一提AI就觉得是训练ChatGPT。实际上AI产业分5层:

层级 方向 门槛 普通人能进?
第一层 芯片(GPU制造) 极高
第二层 算力(云基础设施) 中高 ✅ IT人
第三层 模型(训练+落地) 上半极高/下半中 ✅ 下半部分
第四层 数字应用(AI工具) ✅ 所有人
第五层 物理应用(机器人) ❌ 太早

模型层分两半,差距比算力层和芯片层的差距还大:

上半部分:基座模型训练。 ChatGPT、DeepSeek、通义千问怎么训出来的——几千张GPU、几百人团队、几亿美金。字节训练豆包光算力成本就烧了几十亿。普通人进不去。

下半部分:模型应用落地。 把训好的模型接进业务系统,让它解决实际问题——RAG、Agent、微调、模型部署。普通人的机会全在这里。


① RAG工程师

这岗位干嘛的?

把企业的文档、知识库、数据库接进大模型,让AI能"读懂"内部资料并准确回答问题。

听起来简单,实际做起来坑很多。

核心技术栈

向量数据库:Milvus / Pinecone / Weaviate / Qdrant
编排框架:  LangChain / LlamaIndex
Embedding: text-embedding-3-large / bge-large-zh
大模型API:  通义千问 / DeepSeek / GLM-4

一个最小可用的RAG系统长什么样?

from langchain.vectorstores import Milvus
from langchain.embeddings import OpenAIEmbeddings
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.document_loaders import DirectoryLoader
​
# 1. 加载文档
loader = DirectoryLoader("./knowledge_base", glob="**/*.md")
docs = loader.load()
​
# 2. 文本分块(这个参数很关键,chunk_size和overlap直接影响召回质量)
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,
    chunk_overlap=50,
    separators=["\n\n", "\n", "。", " "]
)
chunks = text_splitter.split_documents(docs)
​
# 3. 向量化并存入Milvus
embeddings = OpenAIEmbeddings(model="text-embedding-3-large")
vectorstore = Milvus.from_documents(
    chunks,
    embeddings,
    connection_args={"host": "localhost", "port": "19530"},
    collection_name="enterprise_kb"
)
​
# 4. 检索
retriever = vectorstore.as_retriever(search_kwargs={"k": 3})
results = retriever.get_relevant_documents("公司年假政策是什么?")

踩坑记录

坑1:chunk_size怎么选?

没有万能值。文档结构规整(FAQ、政策文档)用小chunk(300-500),技术文档用大chunk(800-1200)。overlap设为chunk_size的10-15%就行,太大会有重复内容干扰排序。

坑2:召回率低怎么办?

单路向量检索的召回天花板大概在70%左右。生产环境建议加混合检索(向量+关键词),用BM25做关键词召回,再和向量召回结果做RRF融合:

from langchain.retrievers import BM25Retriever, EnsembleRetriever
​
bm25_retriever = BM25Retriever.from_documents(chunks, k=3)
vector_retriever = vectorstore.as_retriever(search_kwargs={"k": 3})
​
ensemble = EnsembleRetriever(
    retrievers=[bm25_retriever, vector_retriever],
    weights=[0.4, 0.6]  # 关键词权重略低,向量权重略高
)

坑3:Milvus部署太重?

本地开发用Chroma,轻量级,pip install就能跑。上生产再切Milvus。

转型建议

后端开发转RAG最顺。你已经会写代码、懂API,缺的就是向量数据库和Embedding的概念。系统学2个月,做一个企业知识库项目,简历上就能写。


② Agent开发工程师

这岗位干嘛的?

开发能自主完成任务的AI智能体。不是聊天机器人,是能调用工具、执行多步操作、完成复杂工作流的AI。

比如用户说"帮我分析上周的销售数据并生成报告"——Agent需要自动完成:读取数据库 → 数据清洗 → 调用分析模型 → 生成图表 → 输出报告。全程不需要人工干预。

核心技术栈

Agent框架: LangGraph / AutoGen / CrewAI
工具调用:  Function Calling / OpenAI Tools API
编排逻辑:  状态机 / DAG工作流
记忆管理:  短期记忆(对话上下文)/ 长期记忆(向量存储)

一个多Agent协作的例子

from langgraph.graph import StateGraph, END
from typing import TypedDict, Annotated
import operator
​
class AgentState(TypedDict):
    query: str
    research_result: str
    code_result: str
    review_result: str
    final_answer: str
​
def researcher(state: AgentState):
    """调研Agent:搜索相关信息"""
    # 调用搜索工具获取信息
    return {"research_result": f"关于'{state['query']}'的调研结果..."}
​
def coder(state: AgentState):
    """编码Agent:根据调研结果写代码"""
    # 调用代码生成工具
    return {"code_result": f"基于调研结果生成的代码..."}
​
def reviewer(state: AgentState):
    """审查Agent:检查代码质量"""
    # 调用代码审查工具
    return {"review_result": f"代码审查意见..."}
​
# 构建工作流
graph = StateGraph(AgentState)
graph.add_node("researcher", researcher)
graph.add_node("coder", coder)
graph.add_node("reviewer", reviewer)
​
graph.set_entry_point("researcher")
graph.add_edge("researcher", "coder")
graph.add_edge("coder", "reviewer")
graph.add_edge("reviewer", END)
​
app = graph.compile()
result = app.invoke({"query": "分析Q1销售数据趋势"})

踩坑记录

坑1:Agent循环调用死循环。

必须设最大迭代次数。LangGraph里用recursion_limit参数控制,超过次数强制终止。

坑2:工具调用的JSON格式不稳定。

大模型生成的Function Call参数经常格式不对。生产环境必须做schema校验 + 重试机制,至少重试2次。

坑3:多Agent之间的状态传递。

用TypedDict定义好状态结构,每个Agent只修改自己负责的字段。千万别用全局变量,调试起来是噩梦。

转型建议

后端转Agent开发是目前回报率最高的转型路径。你需要的不是AI算法知识,而是工程能力——工作流设计、错误处理、状态管理。这些你本来就会。


③ 模型微调工程师

这岗位干嘛的?

用企业自己的数据对开源模型做微调,让模型更懂特定领域。

比如用法律文书微调一个法律AI,用医疗数据微调一个诊断AI,用公司内部话术微调一个客服AI。

核心技术栈

微调方法:  LoRA / QLoRA / Full Fine-tuning
框架:     Hugging Face PEFT / Transformers
基础模型:  Qwen2.5 / DeepSeek / Llama3
数据准备:  数据清洗 / 格式转换 / 质量筛选

QLoRA微调最小示例

from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
from peft import LoraConfig, get_peft_model, TaskType
from datasets import Dataset
import torch
​
# 1. 加载基础模型(4bit量化,省显存)
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_compute_dtype=torch.float16
)
​
model = AutoModelForCausalLM.from_pretrained(
    "Qwen/Qwen2.5-7B-Instruct",
    quantization_config=bnb_config,
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2.5-7B-Instruct")
​
# 2. 配置LoRA(只训练少量参数,显存需求大幅降低)
lora_config = LoraConfig(
    task_type=TaskType.CAUSAL_LM,
    r=16,           # LoRA秩,越大表达能力越强但越容易过拟合
    lora_alpha=32,
    lora_dropout=0.05,
    target_modules=["q_proj", "v_proj"]  # 只对attention的Q和V做LoRA
)
​
model = get_peft_model(model, lora_config)
model.print_trainable_parameters()
# 输出类似:trainable params: 13M || all params: 7B || trainable%: 0.19%
​
# 3. 准备数据(关键:数据质量 > 数据数量)
train_data = [
    {"instruction": "请根据公司政策回答年假问题", "output": "根据《员工手册》第4.2条..."},
    # ... 至少500-1000条高质量数据
]
dataset = Dataset.from_list(train_data)
​
# 4. 训练(单张24G显卡就能跑)
from transformers import TrainingArguments, Trainer
​
training_args = TrainingArguments(
    output_dir="./lora_output",
    num_train_epochs=3,
    per_device_train_batch_size=4,
    learning_rate=2e-4,
    fp16=True,
    logging_steps=10,
    save_strategy="epoch"
)
​
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=dataset,
    tokenizer=tokenizer
)
trainer.train()

踩坑记录

坑1:数据质量决定一切。

1000条高质量数据 > 10000条垃圾数据。微调前必须做数据清洗:去重、去噪、格式统一。我见过有人拿爬虫抓的网页直接微调,结果模型输出全是HTML标签。

坑2:过拟合。

训练loss降得很漂亮,但测试效果一塌糊涂。LoRA的r值不要设太大,7B模型r=16足够了。加个eval set,每轮看测试loss,测试loss开始上升就停。

坑3:显存不够。

用QLoRA + gradient checkpointing + 8bit优化器,7B模型单张24G显卡就能跑。如果还不够,考虑用DeepSpeed的ZeRO-2。

转型建议

运维和测试转微调最顺。你已经懂服务器、懂部署,缺的是模型训练的基础概念。微调这个方向有个容易被忽略的价值——行业壁垒。你用法律数据微调过模型,你就比纯技术人员更懂法律AI的需求。


④ AI应用开发工程师

这岗位干嘛的?

把AI能力封装成面向用户的产品。AI客服、AI写作助手、AI数据分析工具——用户直接用的那些东西。

核心技术栈

后端:     FastAPI / Flask + 大模型API
前端:     React / Vue + 流式输出(SSE)
AI能力:   OpenAI API / 通义千问API / 本地模型
部署:     Docker + Nginx

流式输出是标配

AI应用和传统Web应用最大的区别:用户等不了10秒才看到结果。必须做流式输出(Server-Sent Events):

from fastapi import FastAPI
from fastapi.responses import StreamingResponse
import asyncio

app = FastAPI()

async def generate_stream(prompt: str):
    """模拟流式输出"""
    response = await call_llm_api(prompt, stream=True)
    async for chunk in response:
        if chunk.choices[0].delta.content:
            yield f"data: {chunk.choices[0].delta.content}\n\n"
    yield "data: [DONE]\n\n"

@app.get("/chat")
async def chat(prompt: str):
    return StreamingResponse(
        generate_stream(prompt),
        media_type="text/event-stream"
    )

踩坑记录

坑1:并发问题。

大模型API有QPS限制,用户多了直接限流。生产环境必须做请求队列 + 限流 + 降级。降级方案:限流时返回预设的常见问题回答。

坑2:Token计费。

一个用户一次对话可能消耗几千Token,100个并发用户一天就是几百万Token。必须做Token计数和成本监控,不然月底账单能吓死人。

转型建议

前端转AI应用开发最顺。前端开发者天然懂用户交互、懂产品体验,而AI产品目前最大的问题不是技术不行,是体验太差。能做出"普通人愿意用"的AI产品的人,比能调优模型参数的人更稀缺。


⑤ Prompt工程师

这岗位干嘛的?

设计和优化AI的提示词体系,让模型输出更准确、更稳定。

不需要写代码,但需要强逻辑思维和文字表达能力。

核心技能

提示词设计:  角色设定 / Few-shot / Chain-of-Thought / 结构化输出
评估体系:   输出质量评分 / A/B测试 / 回归测试
工程化:     提示词版本管理 / 自动化测试 / 效果监控

一个结构化Prompt的例子

## 角色
你是一个企业级客服AI助手,专门回答员工关于公司制度的问题。

## 规则
1. 只根据提供的知识库内容回答,不得编造信息
2. 如果知识库中没有相关信息,明确告知"该问题暂未收录,请联系HR"
3. 回答格式:先给结论,再给依据(引用具体条款编号)

## 知识库
{context}

## 用户问题
{question}

## 输出格式
【结论】xxx
【依据】《xxx》第x.x条:xxx

踩坑记录

坑1:Prompt在不同模型上表现差异大。

同一个Prompt,GPT-4表现好,DeepSeek可能输出格式不对。生产环境必须对每个目标模型做单独测试和调优。

坑2:长Prompt的"中间遗忘"。

超过4000 Token的Prompt,模型对中间部分的信息注意力会下降。关键信息放在Prompt的开头和结尾,中间放补充说明。

转型建议

非技术背景转Prompt工程最顺。如果你有某个行业的深度经验(法律、医疗、教育、金融),加上Prompt工程能力,在市场上非常稀缺。行业经验 + AI能力 = 别人替代不了你。


转型路径总结

你的背景 最顺的方向 学习周期 关键要补的
后端(1-3年) RAG / Agent 2-3个月 向量数据库、Prompt工程
前端(1-3年) AI应用开发 2-3个月 Python、大模型API
运维/测试(1-5年) 模型部署/微调 3-4个月 Docker/K8s、PEFT
零基础/非IT Prompt工程 1-2个月 逻辑思维、行业知识

系统学习推荐走ACP大模型工程师认证的路径,课程覆盖RAG、Agent、微调、部署全链路,偏实战。但说清楚:认证是加分项,不是门票。真正决定你能不能拿到offer的,是你能不能搭出一个能用的系统。


最后说两句

模型落地层是当前AI产业里需求增长最快、供给最不足的方向。每家企业都想用AI,但绝大多数企业不需要从零训练模型,他们需要的是把现有的模型接进来、调好、用起来。

你不需要成为黄仁勋,不需要训练大模型。你只需要会用AI工具、懂Prompt工程、能搭建RAG系统或开发Agent——这些技能,2-3个月就能学会。

最大成本不是钱,是时间。但你不行动,时间也在走。


本文为AI职业科普与技术学习参考,所有薪资均为市场公开区间示例(参考),不构成就业承诺或收益保证。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐