第0章:学习目标与前置知识

一、学习目标

1.1 全链路能力构建

LLMOps 需要构建从研究到落地的完整能力链条,包括:

数据工程
模型训练/微调
模型评估
模型部署
推理服务
监控观测
质量治理
成本优化
安全合规
SRE保障

1.2 核心能力矩阵

能力域 关键技能 产出物
数据工程 数据清洗、标注、向量化、质量评估 高质量训练/评估数据集
模型工程 微调、对齐、量化、蒸馏 优化后的领域模型
评估工程 离线评估、在线AB、指标设计 评估报告、改进建议
部署工程 容器化、K8s编排、GPU调度 高可用推理服务
监控工程 指标采集、日志分析、追踪 可观测性平台
治理工程 质量控制、安全防护、合规审计 治理策略与规则
成本工程 资源优化、缓存策略、容量规划 成本优化方案
SRE工程 CI/CD、灰度发布、应急响应 稳定性保障体系

1.3 能力成长路径

专家阶段
高级阶段
中级阶段
初级阶段
全链路架构设计
成本容量规划
SRE体系建设
技术创新引领
分布式训练
性能优化
可观测性建设
安全合规治理
模型微调与对齐
向量数据库应用
推理服务部署
评估体系建设
理解LLM基本概念
掌握Prompt工程
使用云API集成
简单RAG实现

二、前置知识体系

2.1 Linux/Unix 系统基础

关键知识点
  • 系统管理:进程管理、内存管理、文件系统、用户权限
  • Shell编程:Bash/Zsh脚本、自动化运维、日志处理
  • 性能调优:CPU/内存/IO分析、系统调优参数
  • 网络基础:TCP/IP、防火墙、负载均衡、DNS
应用场景
Linux基础
模型服务器管理
日志分析与处理
性能监控与调优
自动化脚本开发
GPU服务器维护
推理日志分析
资源瓶颈定位
CI/CD流水线

2.2 容器与Kubernetes

关键知识点
  • Docker:镜像构建、容器运行、网络与存储、多阶段构建
  • Kubernetes:Pod/Deployment/Service、调度与亲和性、存储卷、配置管理
  • GPU调度:NVIDIA Device Plugin、GPU共享、MIG、时间切片
  • 服务网格:Istio/Linkerd、流量管理、可观测性
K8s部署LLM架构
Kubernetes集群
推理节点池
应用层
网关层
存储层
模型存储 PV
向量数据 PV
日志存储 PV
Ingress Nginx
Service Mesh
vLLM Deployment
模型推理
Triton Deployment
多模型服务
向量服务
Milvus
GPU Node 1
8xA100
GPU Node 2
8xA100
GPU Node N
8xA100

2.3 网络基础

关键知识点
  • 协议栈:HTTP/HTTPS、gRPC、WebSocket、SSE(Server-Sent Events)
  • 负载均衡:L4/L7负载、会话保持、健康检查
  • 网络优化:TCP调优、连接池、超时策略
  • 安全:TLS/mTLS、防火墙、DDoS防护
LLM推理网络架构
HTTPS
TLS
gRPC/HTTP
gRPC/HTTP
gRPC/HTTP
NCCL/RDMA
NCCL/RDMA
NCCL/RDMA
长连接
连接池
连接池
客户端
CDN/边缘节点
负载均衡器
Nginx/Envoy
推理实例1
推理实例2
推理实例N
GPU集群通信
向量数据库

2.4 GPU基础

关键知识点
  • CUDA编程:核函数、内存层次、并行模式
  • NCCL通信:集合通信、多GPU并行、拓扑优化
  • 显存管理:显存分配、内存池、OOM处理
  • 性能分析:nvprof、nsys、nvidia-smi、DCGM
GPU资源管理流程
分配
分配
分配
监控
监控
监控
反馈
GPU资源池
资源调度器
训练任务
独占模式
推理任务
共享模式
评估任务
时间切片
全卡资源
8xA100
MIG分片
3g.20gb
时间切片
50%算力
DCGM指标
Prometheus
告警与自动伸缩

2.5 Python编程

关键知识点
  • 核心库:numpy、pandas、asyncio、multiprocessing
  • ML框架:PyTorch、Transformers、PEFT、TRL
  • Web框架:FastAPI、Flask、Gradio、Streamlit
  • 工具库:requests、pydantic、loguru、typer
LLMOps Python技术栈
基础层
数据层
核心层
应用层
PyTorch
深度学习
asyncio
异步IO
pydantic
数据验证
Datasets
数据处理
Pandas
数据分析
pymilvus
向量检索
Transformers
模型加载
PEFT
高效微调
vLLM
推理引擎
LangChain
应用编排
FastAPI
API服务
Gradio
Demo界面
Streamlit
内部工具

2.6 Git/CI/CD

关键知识点
  • 版本控制:Git工作流、分支策略、代码审查
  • CI/CD工具:Jenkins、GitLab CI、GitHub Actions、Tekton
  • 制品管理:模型版本、镜像仓库、依赖管理
  • 发布策略:蓝绿、金丝雀、灰度、回滚
LLMOps CI/CD流程
语法检查
单元测试
安全扫描
通过
失败
开发环境
测试环境
生产环境
正常
异常
代码提交
代码检查
Linting
Unit Test
Security Scan
质量门禁
构建镜像
通知开发者
推送镜像仓库
部署环境
Dev自动部署
Test自动部署
Prod人工审批
金丝雀发布
监控指标
健康检查
逐步放量
自动回滚
全量发布

2.7 云平台基础

关键知识点
  • IaaS:虚拟机、网络、存储、GPU实例
  • PaaS:托管K8s、数据库、对象存储
  • MLaaS:SageMaker、Vertex AI、Azure ML
  • 成本管理:资源标签、成本分析、预留实例
云原生LLMOps架构
云平台服务
计算资源
存储服务
AI服务
监控运维
日志服务
CloudWatch
监控告警
Prometheus
追踪服务
X-Ray
托管LLM
Bedrock/GPT
向量数据库
Pinecone
MLOps平台
SageMaker
对象存储
S3/OSS
文件系统
EFS
数据库
RDS/DynamoDB
GPU实例
A100/H100
托管K8s
EKS/GKE
Serverless
Lambda

三、DevOps实践基础

3.1 基础设施即代码(IaC)

关键工具
  • Terraform:多云资源编排
  • Ansible:配置管理与自动化
  • Helm:K8s应用包管理
  • ArgoCD:GitOps持续部署
IaC工作流程
Terraform
Ansible
Helm
成功
失败
基础设施代码
版本控制
Git
代码审查
PR/MR
自动化验证
Plan预览
Syntax检查
Lint检查
人工审批
Apply执行
状态管理
监控验证
记录变更
自动回滚

3.2 监控与可观测性

三大支柱
可观测性三大支柱
Metrics
指标
Logs
日志
Traces
追踪
Prometheus
时序数据库
Loki/ES
日志聚合
Jaeger/Tempo
分布式追踪
Grafana
统一可视化
告警规则
PagerDuty/钉钉
告警通知
仪表盘
业务监控
技术监控

四、学习方法建议

4.1 理论与实践结合

遇到问题
理解原理
性能瓶颈
积累经验
理论学习
动手实验
项目实战
总结提炼
知识沉淀
深入研究
优化实践

4.2 学习资源推荐

类型 资源 说明
在线课程 Andrew Ng - ML/DL课程 基础理论
论文 Attention is All You Need Transformer原理
开源项目 Hugging Face Transformers 模型库与工具
社区 GitHub、Stack Overflow 问题解答
博客 OpenAI Blog、Google AI Blog 前沿动态
书籍 《深度学习》花书 系统学习

4.3 能力验证清单

前置知识验证
  • 能独立部署和维护Linux服务器
  • 熟练使用Docker构建和运行容器
  • 能在K8s上部署和管理应用
  • 理解TCP/IP协议和网络调优
  • 掌握CUDA基础和GPU监控
  • 能用Python开发Web服务和数据处理
  • 熟悉Git工作流和CI/CD流程
  • 了解至少一个公有云平台

五、从运维到LLMOps的转型路径

5.1 能力迁移映射

LLMOps能力
传统运维能力
扩展
升级
增强
适配
深化
GPU服务器管理
模型服务部署
推理监控
模型回滚
推理性能优化
服务器管理
应用部署
监控告警
故障处理
性能优化

5.2 新增技能树

LLMOps新技能
AI/ML基础
模型工程
数据工程
深度学习原理
Transformer架构
评估指标
模型微调
量化压缩
推理优化
数据标注
向量化
RAG构建

六、总结

本章建立了LLMOps学习的基础框架:

  1. 明确目标:全链路能力构建,从数据到SRE的完整闭环
  2. 夯实基础:Linux、容器、网络、GPU、Python、CI/CD、云平台
  3. 方法论:理论实践结合,持续学习迭代
  4. 转型路径:从传统运维到AI运维的能力升级

接下来的章节将逐步深入各个专业领域,构建完整的LLMOps知识体系。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐