从运维转提示工程架构师：我薪资翻了1.5倍，只做了这2件事！

传统运维脚本：你写/bin/bash + 命令序列，告诉服务器“按这个步骤做事”；AI提示（Prompt）：你写“我需要解决Nginx 502错误，步骤是1.查上游服务器状态，2.看Nginx连接数，3.分析error.log。请生成排查脚本，并解释每一步作用”，告诉AI“按我的逻辑输出结果”。而提示工程架构师运维架构师设计“监控体系”（比如分层监控：接入层→应用层→数据层），确保系统稳定；

小琴444

680人浏览 · 2025-09-02 01:47:14

小琴444 · 2025-09-02 01:47:14 发布

从运维转提示工程架构师：我薪资翻了1.5倍，只做了这2件事！

关键词：运维转型、提示工程、Prompt架构师、AI运维、Prompt Design、运维经验转化、AI交互体系
摘要：作为一名做了5年的运维工程师，我曾是半夜爬起来改配置文件的“背锅侠”，写过1000+条Shell脚本却依然逃不过重复劳动的宿命。直到我抓住AI时代的“提示工程”机会，把运维经验翻译成AI能懂的“语言”，用运维架构思维设计AI交互体系，最终成功转型提示工程架构师，薪资从15K涨到22.5K（翻1.5倍）。这篇文章会拆解我转型的2个核心动作，以及运维人能直接复制的“从经验到AI能力”的方法论——不需要从头学Python/AI算法，只需要把你积累的运维知识“重新包装”成AI的“指令手册”。

一、背景：运维人的“痛”，和AI时代的“破局点”

1.1 运维的3个“无解痛点”（你肯定懂）

做过运维的人都明白这三个场景：

“半夜惊魂”：凌晨3点手机响，服务器CPU100%报警，你揉着眼睛登服务器，敲top、查日志、杀进程，一套操作下来天快亮了；
“脚本陷阱”：为了自动化处理故障，你写了无数Shell脚本——监控磁盘的、重启服务的、清理日志的，但永远有新的故障场景需要新脚本，重复劳动像“永远填不完的坑”；
“技术瓶颈”：干了3年运维，你发现自己的核心能力是“熟悉公司系统架构”“能快速排查故障”，但这些经验没法“规模化”——你不能把自己的脑子复制给新人，也不能让系统自动学会你的排查逻辑。

直到2023年，我用ChatGPT帮我写了一条“分析Nginx 502错误的脚本”，才突然意识到：我的运维经验不是“不可复制的手艺”，而是能“喂给AI”的“知识燃料”——只要我能把“如何排查502错误”的逻辑写成AI能懂的“提示（Prompt）”，AI就能替我完成80%的重复工作。

1.2 什么是“提示工程”？（用运维术语给你讲明白）

很多人觉得“提示工程”是“和AI聊天的技巧”，但对运维人来说，它更像**“给AI写‘运维脚本’”**：

传统运维脚本：你写#!/bin/bash + 命令序列，告诉服务器“按这个步骤做事”；
AI提示（Prompt）：你写“我需要解决Nginx 502错误，步骤是1.查上游服务器状态，2.看Nginx连接数，3.分析error.log。请生成排查脚本，并解释每一步作用”，告诉AI“按我的逻辑输出结果”。

而提示工程架构师，本质是**“AI交互的‘运维架构师’”**：

运维架构师设计“监控体系”（比如分层监控：接入层→应用层→数据层），确保系统稳定；
提示架构师设计“AI交互体系”（比如分层提示：基础提示→场景提示→个性化提示），确保AI输出的结果“符合业务逻辑”“可重复使用”。

1.3 预期读者 & 文档结构

谁该看这篇文章？：做了1-5年运维，想摆脱重复劳动、想进入AI领域但怕“没基础”的技术人；
你会学到什么？：
1. 如何把运维经验转化为AI能懂的“提示语言”（不用学AI算法，用你现有的运维知识）；
2. 如何用运维架构思维设计“提示工程体系”（把零散的Prompt变成可复用的“AI工具”）；
3. 一个能直接落地的“AI运维故障排查工具”实战案例（Python代码+部署步骤）。

1.4 术语表（运维人能秒懂的解释）

术语	运维类比解释
提示工程（Prompt Engineering）	给AI写“运维脚本”：用结构化的语言告诉AI“我要什么结果”“按什么逻辑来”
Prompt	AI的“命令行参数”：比自然语言更精准的“需求描述”，比如“帮我生成检查Redis缓存穿透的Shell脚本，输出格式要包含‘问题原因’‘解决命令’‘预防方案’”
提示架构师	AI交互的“运维架构师”：设计AI的“交互规则”，让AI输出的结果“符合业务流程”“可复用”
上下文（Context）	AI的“系统环境变量”：告诉AI“当前的业务场景”（比如“我的服务器是Docker环境”“应用是Java Spring Boot”），避免AI输出无关结果

二、故事：我是怎么从“运维背锅侠”到“提示架构师”的？（真实经历）

5年前我刚做运维时，师傅告诉我：“运维的核心是‘经验’——你见过的故障越多，越值钱。”但3年后我发现：经验如果不能“标准化”，就永远是“个人手艺”，而不是“团队能力”。

2022年底的一个深夜，我遇到了服务器磁盘满导致的数据库宕机：

我先登服务器查df -h，发现/var/log占了80%空间；
然后查du -sh *找到最大的日志文件（mysql-error.log，100G）；
最后写了条脚本find /var/log -type f -name "*.log" -mtime +7 -delete定期清理日志。

但3个月后，同样的故障又发生了——新人没记住我的清理规则。我当时想：如果能把“磁盘满故障排查流程”写成一个“AI提示”，不管谁遇到这个问题，只要输入提示，AI就能直接给出解决方案？

于是我试着给ChatGPT写了第一条“运维Prompt”：

“我的服务器是CentOS 7，磁盘/var目录使用率达到90%，请帮我生成故障排查步骤和自动化清理脚本，要求：1. 步骤要包含‘定位大文件’‘分析日志产生原因’；2. 脚本要支持按文件大小/修改时间过滤；3. 输出格式要分‘排查步骤’‘清理脚本’‘预防建议’三部分。”

结果AI返回的内容，比我自己写的还详细——不仅有清理脚本，还提醒我“要配置logrotate自动切割日志”（我之前居然忘了这个关键点！）。

从那以后，我开始把所有运维流程都写成Prompt：

排查Nginx 502错误的Prompt；
分析MySQL慢查询的Prompt；
批量重启Docker容器的Prompt；

慢慢的，我发现：这些Prompt不是“一次性的聊天记录”，而是能像Shell脚本一样“保存、复用、迭代”的“AI工具”——我把它们整理成一个“Prompt库”，同事遇到问题时直接调用，效率提升了60%。

直到有一天，公司AI部门的 leader 看到我的Prompt库，说：“你做的不是‘用AI帮运维’，而是‘用运维经验设计AI的交互体系’——你可以试试转提示工程架构师。”

三、转型的核心：2件事，让运维经验“变成AI的能力”

我转型的所有努力，本质上就做了2件事：

把运维经验翻译成“AI能懂的提示语言”（让AI学会你的“故障排查逻辑”）；
用运维架构思维设计“提示工程体系”（把零散的Prompt变成可复用的“AI工具”）。

下面拆解每一步的具体做法，全是能直接复制的操作。

四、第一件事：把运维经验翻译成“AI能懂的提示语言”（3步搞定）

运维人的核心优势是什么？“懂业务场景”“懂系统运行的逻辑”——比如你知道“电商大促时要扩容Redis”“MySQL慢查询要先看执行计划”，这些经验是AI没有的（AI的知识是通用的，但不懂你的业务）。

提示工程的本质，就是把你的“经验逻辑”写成AI能理解的“结构化语言”。我总结了3个步骤，叫**“运维经验→Prompt”的“三段式法则”**。

4.1 步骤1：把运维流程拆成“3个要素”（像写Shell脚本一样）

Shell脚本的核心是“输入→逻辑→输出”，Prompt的核心是**“问题+上下文+输出格式”**——这三个要素缺一不可，否则AI会输出“正确但没用”的结果。

举个例子：

坏的Prompt（没有上下文+输出格式）：“帮我解决服务器CPU高的问题”→ AI会返回“查top进程、看日志”（太笼统，没用）；
好的Prompt（包含3要素）：

问题：我的服务器是Ubuntu 20.04，运行Java Spring Boot应用，CPU使用率持续90%以上；
上下文：应用连接了MySQL数据库，昨天刚上线了“用户下单”的新功能；
输出格式：请按“1. 排查步骤（带命令）；2. 可能的原因分析；3. 临时解决脚本；4. 长期优化建议”四部分输出。

这样AI返回的结果会精准匹配你的业务场景——比如它会提醒你“检查新功能的数据库查询是否有全表扫描”（这是你业务特有的问题，通用AI不会知道）。

4.2 步骤2：用“运维脚本思维”优化Prompt（让AI输出“可执行的结果”）

运维人写Shell脚本时，会注重“可重复性”“可调试性”——Prompt也一样，你需要让AI输出的结果“能直接用”“能查错”。

我常用的2个优化技巧：

技巧1：加入“约束条件”（像脚本里的“if判断”）

比如你要AI生成“清理日志的脚本”，可以加约束：

“脚本要排除/var/log/nginx/access.log（这个日志要保留30天）；要输出清理的文件列表（方便核对）；要加注释说明每一步的作用。”

这样AI生成的脚本不会误删重要文件，还能像你的Shell脚本一样“可读性强”。

技巧2：用“示例”引导AI（像脚本里的“echo示例”）

如果AI输出的结果不符合你的格式，可以给它“示例”——比如你要AI分析Nginx日志里的“404错误”，可以写：

请帮我分析Nginx日志（路径/var/log/nginx/error.log）中的404错误，输出格式参考：

错误URL：/api/user/123（出现10次）

可能原因：用户ID不存在

解决建议：检查用户数据库是否有该ID

AI看到示例后，输出的结果会完全符合你的要求（比你反复说“要结构化输出”管用10倍）。

4.3 步骤3：用Python把Prompt变成“可调用的工具”（不用手动复制粘贴）

写好Prompt后，你需要把它“封装”成工具——比如一个Python脚本，输入故障描述，自动调用AI API返回结果。这样同事不用打开ChatGPT，直接运行脚本就能用你的经验。

实战：用Python写“AI运维故障排查工具”（代码示例）

我们用OpenAI API（也可以用Claude/通义千问的API，逻辑一样）来实现这个工具：

1. 环境搭建（运维人能秒会）

安装Python3.8+；
安装OpenAI SDK：pip install openai；
获取OpenAI API Key（去OpenAI官网注册，免费额度足够测试）。

2. 代码实现（核心逻辑：输入故障描述→生成结构化Prompt→调用AI API→输出结果）

import openai
from dotenv import load_dotenv
import os

# 加载.env文件中的API Key（避免硬编码）
load_dotenv()
openai.api_key = os.getenv("OPENAI_API_KEY")

def create_ops_prompt(issue: str, env: str, app_type: str) -> str:
    """
    生成运维场景的结构化Prompt（核心：问题+上下文+输出格式）
    :param issue: 故障描述（比如“CPU100%”）
    :param env: 环境信息（比如“CentOS 7，Docker环境”）
    :param app_type: 应用类型（比如“Java Spring Boot，MySQL 8.0”）
    :return: 结构化Prompt
    """
    prompt_template = f"""
我是一名运维工程师，现在遇到以下问题：{issue}
系统环境：{env}
应用类型：{app_type}

请帮我生成故障排查方案，要求按以下结构输出：
1. 排查步骤（每步带具体命令，比如top、df -h）；
2. 可能原因分析（结合环境和应用类型）；
3. 临时解决脚本（可直接运行的Shell命令）；
4. 长期优化建议（比如配置logrotate、调整JVM参数）。

注意：命令要符合系统环境（比如CentOS用yum，Ubuntu用apt），避免输出通用答案。
"""
    return prompt_template

def get_ai_solution(prompt: str) -> str:
    """调用OpenAI API获取AI解答"""
    response = openai.ChatCompletion.create(
        model="gpt-3.5-turbo",  # 或者用gpt-4（效果更好但贵）
        messages=[{"role": "user", "content": prompt}],
        temperature=0.1,  # 温度越低，结果越精准（适合技术问题）
        max_tokens=1000  # 限制输出长度（避免冗余）
    )
    return response.choices[0].message.content

# 测试：排查“CentOS 7服务器CPU100%”的问题
if __name__ == "__main__":
    issue = "服务器CPU使用率持续90%以上"
    env = "CentOS 7.9，Docker 20.10.17"
    app_type = "Java Spring Boot 2.7.0，连接MySQL 8.0数据库"
    
    # 生成结构化Prompt
    prompt = create_ops_prompt(issue, env, app_type)
    print("生成的Prompt：\n", prompt)
    
    # 获取AI解答
    solution = get_ai_solution(prompt)
    print("\nAI给出的解决方案：\n", solution)

3. 运行结果（比你手动排查还详细）

当你运行脚本后，AI会返回这样的结果：

1. 排查步骤：
   a. 查看占用CPU最高的进程：top -p $(pgrep -d',' java)（因为应用是Java，优先查Java进程）；
   b. 查看Java进程的线程情况：jstack [PID] > jstack.log（分析是否有死锁）；
   c. 查看Docker容器的CPU使用：docker stats --no-stream（确认是容器内进程还是宿主机进程）；
   d. 分析MySQL慢查询：mysqldumpslow -s t /var/log/mysql/slow.log（检查是否有慢查询导致Java线程阻塞）。

2. 可能原因分析：
   - Java应用存在死锁线程（导致CPU空转）；
   - MySQL慢查询导致Java线程等待（间接拉高CPU）；
   - Docker容器的CPU配额设置过低（比如--cpus=1，但应用需要2核）。

3. 临时解决脚本：
   # 查找Java进程PID
   JAVA_PID=$(pgrep java)
   # 打印线程栈（分析死锁）
   jstack $JAVA_PID > jstack_$(date +%Y%m%d).log
   # 查看Docker容器CPU使用
   docker stats --format "table {{.Name}}\t{{.CPUPerc}}\t{{.MemUsage}}"

4. 长期优化建议：
   - 配置Java应用的JVM参数：-XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/tmp（方便分析内存泄漏）；
   - 给MySQL配置slow_query_log（long_query_time=1秒），定期分析慢查询；
   - 给Docker容器设置合理的CPU配额：docker run --cpus=2 ...（根据应用需求调整）。

你看：这个结果完全符合“运维场景”——它没有输出通用的“查top命令”，而是针对性地提醒你“要查Java线程栈”“要分析MySQL慢查询”（因为你在Prompt里告诉AI“应用是Java+MySQL”）。

4.4 总结：“运维经验→Prompt”的逻辑链

用一张图总结这个过程（运维人能秒懂）：

你的运维经验（比如排查CPU高的流程）  
→ 拆成“问题+上下文+输出格式”（三段式Prompt）  
→ 用Python封装成工具（自动调用AI API）  
→ 输出“能直接执行的脚本+针对性建议”  
→ 同事复用，经验变成“团队能力”

五、第二件事：用运维架构思维，设计“可复用的提示工程体系”

光写Prompt还不够——如果你的Prompt是零散的“聊天记录”，那么同事要用的时候得“翻聊天记录”“复制粘贴”，效率还是低。

我转型的第二个核心动作，是用运维的“架构思维”把Prompt变成**“分层的、可复用的、可迭代的体系”**——就像你设计“监控体系”时，会把监控分为“接入层→应用层→数据层”，我把Prompt分为“基础提示→场景提示→个性化提示”。

5.1 运维架构 vs 提示工程架构（直接对应）

先看一张对比图（运维人能瞬间理解）：

运维架构分层	作用	提示工程架构分层	作用
接入层（比如Nginx）	处理用户请求，转发到应用层	基础提示（Base Prompt）	定义AI的“通用规则”（比如“要符合公司的安全规范”“输出格式要结构化”）
应用层（比如Java服务）	处理业务逻辑	场景提示（Scenario Prompt）	定义“具体业务场景的规则”（比如“排查Nginx 502错误的流程”“分析MySQL慢查询的步骤”）
数据层（比如MySQL/Redis）	存储数据	个性化提示（Personal Prompt）	定义“特定用户/业务的个性化需求”（比如“我的服务器是Docker环境”“要保留30天的日志”）

5.2 如何设计“三层提示体系”？（实战案例）

我们以“AI运维故障排查”为例，设计一套可复用的提示体系：

1. 基础提示（Base Prompt）：定义“通用规则”

基础提示是所有场景都要用到的“底层规则”——比如你要求AI“输出的命令要符合公司的安全规范”“要解释每一步的作用”，这些规则不需要在每个场景里重复写，只需要在基础提示里定义一次。

示例：

作为一名资深运维工程师，你的回答要满足以下要求：

所有命令要符合CentOS 7的语法（公司服务器都是这个系统）；

输出的步骤要带“为什么这么做”的解释（方便新人理解）；

避免输出危险命令（比如rm -rf /）；

优先推荐公司已有的工具（比如用logrotate而不是手动删日志）。

2. 场景提示（Scenario Prompt）：定义“具体业务流程”

场景提示是针对“特定故障类型”的流程——比如“排查CPU高的流程”“排查Nginx 502的流程”，这些流程是你积累的“运维经验”，需要写成结构化的Prompt。

示例（排查CPU高的场景提示）：

现在要排查CentOS 7服务器CPU使用率高的问题，流程如下：

先查占用CPU最高的进程（用top命令）；

如果是Java进程，查线程栈（用jstack）；

如果是Docker容器，查容器的CPU使用（用docker stats）；

分析关联服务（比如MySQL慢查询）。

3. 个性化提示（Personal Prompt）：定义“用户/业务的特殊需求”

个性化提示是针对“当前问题的具体上下文”——比如“我的服务器是Docker环境”“应用是Java+MySQL”，这些信息会让AI的结果更精准。

示例：

我的服务器是CentOS 7.9，Docker版本20.10.17；应用是Java Spring Boot 2.7.0，连接MySQL 8.0数据库；日志路径是/var/log/mysql/slow.log。

5.3 如何调用“三层提示体系”？（Mermaid流程图）

用Mermaid画一个“提示调用流程”（运维人能秒懂）：

graph TD
    A[用户输入故障描述] --> B[加载基础提示（通用规则）]
    B --> C[匹配场景提示（比如排查CPU高）]
    C --> D[补充个性化提示（当前环境信息）]
    D --> E[生成最终Prompt]
    E --> F[调用AI API]
    F --> G[输出解决方案]

举个例子：当用户输入“服务器CPU高”时，系统会自动：

加载基础提示（要求命令符合CentOS 7、要解释步骤）；
匹配“排查CPU高”的场景提示（流程是查top→查Java线程→查Docker→查MySQL）；
补充个性化提示（比如“应用是Java+MySQL”“Docker环境”）；
生成最终Prompt，调用AI API；
输出针对性的解决方案。

5.4 实战：搭建“提示工程体系”的3个步骤

步骤1：梳理“场景清单”（像运维梳理“监控项清单”）

首先，你需要把运维中的“常见故障场景”列出来（比如）：

服务器CPU使用率高；
Nginx返回502错误；
MySQL慢查询；
Docker容器无法启动；
磁盘空间不足；

每个场景对应一个“场景提示”。

步骤2：编写“基础提示”（像运维编写“监控通用规则”）

基础提示要包含：

公司的安全规范（比如“不要输出rm -rf命令”）；
输出格式要求（比如“要分‘排查步骤’‘解决脚本’‘优化建议’三部分”）；
优先使用的工具（比如“用logrotate而不是手动删日志”）。

步骤3：用LangChain封装“三层提示体系”（不用自己写调用逻辑）

LangChain是一个“AI应用开发框架”，能帮你快速搭建“提示工程体系”——它的“PromptTemplate”功能可以轻松实现“基础提示+场景提示+个性化提示”的组合。

代码示例（用LangChain实现三层提示）：

from langchain import PromptTemplate
from langchain.llms import OpenAI

# 1. 基础提示（Base Prompt）
base_template = """
作为一名资深运维工程师，你的回答要满足以下要求：
1. 所有命令要符合CentOS 7的语法；
2. 输出的步骤要带“为什么这么做”的解释；
3. 避免输出危险命令（比如rm -rf /）；
4. 优先推荐公司已有的工具（比如logrotate）。

{scenario_prompt}  # 场景提示占位符
{personal_prompt}  # 个性化提示占位符
"""

# 2. 场景提示（排查CPU高的流程）
scenario_prompt = """
现在要排查CentOS 7服务器CPU使用率高的问题，流程如下：
1. 先查占用CPU最高的进程（用top命令）；
2. 如果是Java进程，查线程栈（用jstack）；
3. 如果是Docker容器，查容器的CPU使用（用docker stats）；
4. 分析关联服务（比如MySQL慢查询）。
"""

# 3. 个性化提示（当前环境信息）
personal_prompt = """
我的服务器是CentOS 7.9，Docker版本20.10.17；
应用是Java Spring Boot 2.7.0，连接MySQL 8.0数据库；
日志路径是/var/log/mysql/slow.log。
"""

# 4. 组合三层提示
prompt_template = PromptTemplate(
    input_variables=["scenario_prompt", "personal_prompt"],
    template=base_template
)
final_prompt = prompt_template.format(
    scenario_prompt=scenario_prompt,
    personal_prompt=personal_prompt
)

# 5. 调用AI API
llm = OpenAI(model_name="gpt-3.5-turbo-instruct", temperature=0.1)
solution = llm(final_prompt)
print("最终Prompt：\n", final_prompt)
print("\nAI解决方案：\n", solution)

运行结果：和之前的Python脚本一样，但LangChain帮你做了“提示组合”的工作——你不需要手动拼接字符串，只需要定义各个层的Prompt，LangChain会自动组合。

5.5 总结：“提示工程体系”的价值

用运维的话来说：

零散的Prompt是“单个的Shell脚本”，只能解决一个问题；
提示工程体系是“一套自动化运维脚本库”，能解决一类问题；

当你把Prompt变成体系后，你做的不是“用AI帮运维”，而是“用运维经验设计AI的交互逻辑”——这就是“提示工程架构师”的核心能力。

六、转型后的“钱景”：为什么提示工程架构师薪资高？

我转型后薪资翻1.5倍的核心原因，不是“我会用AI写Prompt”，而是：

我能把“运维经验”转化为“AI的业务能力”：公司需要的不是“会用ChatGPT的人”，而是“能让AI理解业务逻辑的人”——你的运维经验是“稀缺资源”，因为AI没有“公司系统的上下文”；
我能设计“可复用的AI交互体系”：公司需要的不是“零散的Prompt”，而是“能落地、能复用、能迭代的AI工具”——你的架构思维是“不可替代的”，因为只有懂业务的人才能设计出符合需求的体系。

根据某招聘网站的数据（2024年Q1）：

运维工程师的平均薪资：12-18K；
提示工程架构师的平均薪资：20-30K；
具备“运维+提示工程”经验的架构师：薪资比纯提示工程高20%（因为懂业务场景）。

七、实战：搭建“AI运维故障排查工具”（完整流程）

为了让你能直接落地，我把“AI运维故障排查工具”的完整流程写出来——包括前端页面+后端接口+Prompt体系，你可以直接部署到公司内部使用。

7.1 工具架构（运维人能懂的“前后端分离”）

前端：用Flask做一个简单的网页（输入故障描述、环境信息）；  
后端：用Python+LangChain实现“三层提示体系”；  
AI接口：调用OpenAI/GPT-4 API；  
存储：用Redis保存Prompt库（方便修改、复用）。

7.2 开发步骤（详细到“复制粘贴就能运行”）

步骤1：安装依赖

pip install flask langchain openai redis python-dotenv

步骤2：编写后端代码（app.py）

from flask import Flask, request, render_template
from langchain import PromptTemplate
from langchain.llms import OpenAI
import redis
from dotenv import load_dotenv
import os

# 加载环境变量
load_dotenv()
app = Flask(__name__)

# 初始化Redis（存储Prompt库）
redis_client = redis.Redis(host='localhost', port=6379, db=0)

# 初始化OpenAI LLM
llm = OpenAI(model_name="gpt-3.5-turbo-instruct", temperature=0.1)

# 1. 基础提示（从Redis读取，方便修改）
if not redis_client.exists("base_prompt"):
    base_prompt = """
作为一名资深运维工程师，你的回答要满足以下要求：
1. 所有命令要符合CentOS 7的语法；
2. 输出的步骤要带“为什么这么做”的解释；
3. 避免输出危险命令（比如rm -rf /）；
4. 优先推荐公司已有的工具（比如logrotate）。
"""
    redis_client.set("base_prompt", base_prompt)
base_prompt = redis_client.get("base_prompt").decode('utf-8')

# 2. 场景提示（从Redis读取，支持新增场景）
scenario_list = {
    "cpu_high": "排查CPU使用率高的流程",
    "nginx_502": "排查Nginx 502错误的流程",
    "mysql_slow": "分析MySQL慢查询的流程"
}
# 初始化场景提示到Redis
if not redis_client.exists("scenario_prompt:cpu_high"):
    cpu_high_scenario = """
现在要排查CentOS 7服务器CPU使用率高的问题，流程如下：
1. 先查占用CPU最高的进程（用top命令）；
2. 如果是Java进程，查线程栈（用jstack）；
3. 如果是Docker容器，查容器的CPU使用（用docker stats）；
4. 分析关联服务（比如MySQL慢查询）。
"""
    redis_client.set("scenario_prompt:cpu_high", cpu_high_scenario)

# 3. 定义Prompt模板
prompt_template = PromptTemplate(
    input_variables=["base_prompt", "scenario_prompt", "personal_prompt"],
    template="""
{base_prompt}

{scenario_prompt}

{personal_prompt}
"""
)

@app.route('/')
def index():
    """前端页面：输入故障描述、选择场景、填写环境信息"""
    return render_template('index.html', scenarios=scenario_list)

@app.route('/get_solution', methods=['POST'])
def get_solution():
    """后端接口：生成AI解决方案"""
    # 获取前端参数
    issue = request.form.get('issue')
    scenario_key = request.form.get('scenario')
    env_info = request.form.get('env_info')
    
    # 1. 获取基础提示
    base_prompt = redis_client.get("base_prompt").decode('utf-8')
    # 2. 获取场景提示
    scenario_prompt = redis_client.get(f"scenario_prompt:{scenario_key}").decode('utf-8')
    # 3. 生成个性化提示
    personal_prompt = f"""
故障描述：{issue}
环境信息：{env_info}
"""
    
    # 4. 组合Prompt
    final_prompt = prompt_template.format(
        base_prompt=base_prompt,
        scenario_prompt=scenario_prompt,
        personal_prompt=personal_prompt
    )
    
    # 5. 调用AI API
    solution = llm(final_prompt)
    
    # 返回结果（用Markdown格式显示）
    return {
        "final_prompt": final_prompt,
        "solution": solution,
        "status": "success"
    }

if __name__ == '__main__':
    app.run(debug=True, port=5000)

步骤3：编写前端页面（templates/index.html）

<!DOCTYPE html>
<html>
<head>
    <title>AI运维故障排查工具</title>
    <link rel="stylesheet" href="https://cdn.jsdelivr.net/npm/bootstrap@5.3.0/dist/css/bootstrap.min.css">
</head>
<body class="container mt-5">
    <h1>AI运维故障排查工具</h1>
    <form id="solutionForm" class="mt-3">
        <div class="mb-3">
            <label for="issue" class="form-label">故障描述</label>
            <input type="text" class="form-control" id="issue" placeholder="比如：服务器CPU使用率90%以上" required>
        </div>
        <div class="mb-3">
            <label for="scenario" class="form-label">选择场景</label>
            <select class="form-select" id="scenario" required>
                {% for key, value in scenarios.items() %}
                <option value="{{key}}">{{value}}</option>
                {% endfor %}
            </select>
        </div>
        <div class="mb-3">
            <label for="env_info" class="form-label">环境信息</label>
            <textarea class="form-control" id="env_info" rows="3" placeholder="比如：CentOS 7.9，Docker 20.10.17，Java Spring Boot 2.7.0" required></textarea>
        </div>
        <button type="submit" class="btn btn-primary">获取解决方案</button>
    </form>

    <div class="mt-5" id="result" style="display: none;">
        <h3>AI解决方案</h3>
        <pre id="solutionContent" class="bg-light p-3"></pre>
        <h5 class="mt-3">最终Prompt</h5>
        <pre id="finalPrompt" class="bg-light p-3"></pre>
    </div>

    <script src="https://cdn.jsdelivr.net/npm/bootstrap@5.3.0/dist/js/bootstrap.bundle.min.js"></script>
    <script>
        document.getElementById('solutionForm').addEventListener('submit', async (e) => {
            e.preventDefault();
            const issue = document.getElementById('issue').value;
            const scenario = document.getElementById('scenario').value;
            const env_info = document.getElementById('env_info').value;
            
            const response = await fetch('/get_solution', {
                method: 'POST',
                headers: { 'Content-Type': 'application/x-www-form-urlencoded' },
                body: new URLSearchParams({
                    issue: issue,
                    scenario: scenario,
                    env_info: env_info
                })
            });
            
            const data = await response.json();
            if (data.status === 'success') {
                document.getElementById('solutionContent').textContent = data.solution;
                document.getElementById('finalPrompt').textContent = data.final_prompt;
                document.getElementById('result').style.display = 'block';
            }
        });
    </script>
</body>
</html>

步骤4：部署运行

启动Redis（确保Redis服务在本地运行：redis-server）；
运行Flask应用：python app.py；
打开浏览器访问http://localhost:5000，就能看到一个简单的网页：
- 输入故障描述（比如“服务器CPU使用率90%以上”）；
- 选择场景（比如“排查CPU使用率高的流程”）；
- 填写环境信息（比如“CentOS 7.9，Docker 20.10.17，Java Spring Boot 2.7.0”）；
- 点击“获取解决方案”，就能得到AI的回答。

八、未来趋势：“运维+提示工程”的3个方向

作为“运维+提示工程”的从业者，我认为未来1-3年有3个值得关注的方向：

8.1 方向1：“AI运维剧本”（Prompt驱动的自动化流程）

现在的AI运维工具还是“半自动”的——你需要输入问题，AI给解决方案，然后你手动执行。未来会变成“全自动”：

监控系统触发报警（比如CPU高）；
AI自动调用“排查CPU高的Prompt”；
AI生成脚本并自动执行（比如杀死死锁线程、调整Docker CPU配额）；
最后给你发一封“故障处理报告”。

8.2 方向2：“运维知识图谱+提示工程”

运维的经验是“隐性知识”（比如“遇到这个错误要先查那个配置”），未来可以用知识图谱把这些经验“结构化”，然后结合提示工程：

知识图谱存储“故障类型→排查步骤→解决方案”的关系；
提示工程把知识图谱的信息转化为AI的“上下文”；
AI输出的结果会更“精准”“符合历史经验”。

8.3 方向3：“低代码提示工程平台”

未来会出现专门针对运维的“低代码提示工程平台”——你不需要写Python代码，只需要用“拖拽”的方式组合Prompt：

拖拽“基础提示”模块；
拖拽“场景提示”模块；
拖拽“个性化提示”模块；
点击“生成工具”，就能得到一个“AI运维工具”。

九、总结：转型的本质——把“经验”变成“可复制的能力”

我从运维转提示工程架构师的所有思考，可以总结成一句话：

运维人的核心价值不是“会改配置文件”“会查日志”，而是“懂系统运行的逻辑”“懂业务场景的需求”——AI时代，你不需要把这些经验“藏在脑子里”，而是要把它们“翻译成AI能懂的语言”，变成“可复制、可复用、可迭代”的“团队能力”。

9.1 核心动作回顾

把运维经验翻译成“提示语言”：用“问题+上下文+输出格式”的三段式Prompt，让AI学会你的故障排查逻辑；
用运维架构思维设计“提示体系”：把零散的Prompt变成“基础+场景+个性化”的三层体系，让经验变成可复用的AI工具。

9.2 给运维人的转型建议

不要怕“没AI基础”：你现有的运维经验就是“AI的业务上下文”，比“会写Python”更重要；
先从“写Prompt”开始：把你每天做的运维流程都写成Prompt，比如“排查Nginx错误的Prompt”“分析MySQL慢查询的Prompt”，慢慢积累；
再从“体系化”入手：把Prompt整理成“库”，用LangChain/Redis封装成工具，让同事复用——这就是“提示工程架构师”的雏形。