实战案例：某市政府AI系统的提示工程改造全过程

基于现状评估，我们制定了SMART改造目标准确性：政策问题准确率提升至90%以上；完整率：复杂问题（如社保转移、户籍办理）的信息完整率提升至95%；合规率：敏感信息脱敏率100%，且符合《个人信息保护法》要求；多轮对话能力：上下文理解准确率提升至85%（能记住前3轮对话内容）；易用性：语言通俗化率（用“大白话”代替专业术语）提升至90%。同时，我们明确了非功能性需求提示模板可维护（政府工作人员无需

Python编程之道

718人浏览 · 2026-02-18 00:12:49

Python编程之道 · 2026-02-18 00:12:49 发布

实战案例：某市政府AI系统的提示工程改造全过程

一、引言：当“笨AI”遇到“急市民”

1.1 一个真实的痛点场景

清晨8点，市民李阿姨拿着刚打印的社保缴费记录，站在市政务服务中心的大厅里。她昨天通过“市政务服务AI助手”咨询“社保转移需要哪些材料”，得到的回复是“请携带身份证和社保卡”。可今天到了窗口，工作人员却告诉她还需要“原参保地的缴费凭证”——这是AI没提到的。
“我都70岁了，来回跑一趟容易吗？”李阿姨的抱怨不是个例。据市政务服务中心统计，2023年第三季度，AI助手的有效解决率仅为62%，其中意图识别错误（如把“社保转移”误判为“社保补缴”）和信息遗漏（如忘记提醒关键材料）占比达75%，导致市民重复咨询率上升30%，窗口压力骤增。

1.2 为什么需要“提示工程改造”？

在数字政府建设中，AI助手是连接市民与政府服务的“第一窗口”。但传统AI系统的痛点显而易见：

“听不懂”：用户问题表述模糊（如“我想把社保转到老家”），模型无法准确识别意图；
“答不全”：政策细节复杂（如社保转移需分“统筹账户”和“个人账户”），模型易遗漏关键信息；
“不安全”：用户可能误输入身份证号、手机号等敏感信息，模型未做脱敏处理；
“不会聊”：多轮对话中，模型无法记住上下文（如用户问“材料齐了吗？”，模型回复“请重新描述问题”）。

而**提示工程（Prompt Engineering）**正是解决这些问题的关键——通过优化模型的输入指令，引导AI更准确、合规、人性化地处理政府服务场景的需求。

1.3 本文目标

本文将以**某市政府“政务服务AI助手”**的改造案例为核心，详细拆解提示工程在政府AI系统中的应用流程：

如何通过现状评估定位旧系统的核心问题？
如何结合政府场景需求设计有效提示？
如何通过测试迭代让AI从“笨”变“聪明”？
改造后，AI助手的性能提升了多少？

读完本文，你将掌握政府AI系统提示工程的实战方法论，并能复用这些技巧解决自己场景中的AI应用问题。

二、基础知识：政府AI系统与提示工程的“适配性”

在进入实战前，我们需要先明确两个关键问题：政府AI系统的核心需求是什么？ 以及提示工程如何解决这些需求？

2.1 政府AI系统的核心需求

政府服务的特殊性（公益属性、合规要求、用户多样性）决定了其AI系统的需求优先级：

准确性：必须严格遵循政策法规（如《社会保险法》《个人信息保护法》），不能给出错误信息；
合规性：需处理敏感信息（身份证、手机号、住址），必须脱敏；
易用性：用户包括老年人、残障人士等，语言需通俗（避免“统筹账户”等专业术语），流程需简洁；
可维护性：政策会更新（如社保缴费基数调整），需快速调整AI回复，无需重新训练模型；
多轮对话能力：能处理复杂问题（如“社保转移+异地就医”组合查询），保持上下文连贯。

2.2 提示工程如何解决这些需求？

提示工程是通过设计更有效的输入指令，让大语言模型（LLM）输出符合预期的结果。其核心逻辑是：用“人类的语言”告诉模型“你是谁、要做什么、怎么做”。

针对政府AI的需求，提示工程的关键技巧包括：

角色设定：给模型赋予“政府服务助手”的身份，明确其职责（如“准确解答政策问题，引导用户联系官方渠道”）；
规则约束：加入合规要求（如“遇到敏感信息需隐藏中间四位”）；
示例引导：用少样本提示（Few-shot Prompting）教模型如何处理常见问题（如“社保转移材料清单”）；
上下文管理：用多轮对话提示（Multi-turn Prompting）让模型记住之前的对话内容；
链式思考（CoT, Chain of Thought）：让模型“一步步思考”，避免直接给出错误结论（如“先确认用户参保地，再告知转移流程”）。

2.3 改造前的系统架构

本次改造的对象是某市政府2022年上线的“政务服务AI助手”，其旧架构如下：

模型：采用某开源LLM（参数规模7B），未做fine-tuning（微调）；
提示设计：仅用简单指令（如“回答用户的问题”），无角色设定或规则约束；
数据来源：依赖政府公开的政策文档（未结构化），无实时数据对接；
交互方式：单轮对话（用户问一句，AI答一句）。

这种架构导致的问题是：模型“无约束”，输出全靠“猜测”，无法满足政府服务的严格要求。

三、核心实战：从“痛点”到“解决方案”的五步改造

3.1 第一步：现状评估——用数据定位问题

改造的第一步不是“直接改提示”，而是用数据找出旧系统的“病灶”。我们通过三种方式收集数据：

3.1.1 用户投诉分析

提取2023年第三季度的1200条投诉记录，分类统计问题类型：

问题类型	占比	典型案例
意图识别错误	35%	用户问“社保转到老家要什么材料”，AI回复“社保补缴流程”
信息遗漏	28%	未提醒“原参保地缴费凭证”
敏感信息泄露	12%	用户输入身份证号，AI直接显示完整号码
多轮对话中断	15%	用户问“材料齐了吗？”，AI回复“请重新描述问题”
语言不通俗	10%	用“统筹账户”“个人账户”等术语，用户听不懂

3.1.2 模型输出评估

随机选取1000条旧系统的对话记录，用准确率（是否符合政策）、完整率（是否包含所有关键信息）、合规率（是否脱敏敏感信息）三个指标评估：

准确率：62%（仅能正确回答简单问题，如“社保缴费时间”）；
完整率：55%（复杂问题如“社保转移”，平均遗漏2-3个关键材料）；
合规率：70%（仅50%的敏感信息被脱敏，且脱敏方式不统一）。

3.1.3 用户调研

通过线上问卷（1000份）和线下访谈（50人），了解用户对AI助手的期待：

82%的用户希望“用口语化的方式回答”；
75%的用户担心“个人信息被泄露”；
68%的用户需要“多轮对话，不用重复说问题”。

结论：旧系统的核心问题是——模型无角色约束、无规则引导、无上下文记忆。

3.2 第二步：需求定义——明确“改造目标”

基于现状评估，我们制定了SMART改造目标（具体、可衡量、可实现、相关性、时效性）：

准确性：政策问题准确率提升至90%以上；
完整率：复杂问题（如社保转移、户籍办理）的信息完整率提升至95%；
合规率：敏感信息脱敏率100%，且符合《个人信息保护法》要求；
多轮对话能力：上下文理解准确率提升至85%（能记住前3轮对话内容）；
易用性：语言通俗化率（用“大白话”代替专业术语）提升至90%。

同时，我们明确了非功能性需求：

提示模板可维护（政府工作人员无需懂代码，就能修改提示）；
响应时间≤2秒（避免用户等待）；
支持实时政策更新（如社保缴费基数调整，24小时内同步至AI回复）。

3.3 第三步：提示设计——给AI“立规矩、教方法”

提示设计是改造的核心。我们结合政府场景需求，采用**“角色-规则-示例-上下文”**四要素模型，设计了全新的提示体系。

3.3.1 要素1：角色设定——让AI“知道自己是谁”

旧提示：“回答用户的问题。”
新提示：

角色：你是某市政府“政务服务AI助手”，职责是为市民提供准确、合规、通俗易懂的政府服务咨询（包括社保、户籍、教育、医疗等领域）。
定位：你的回答是“官方引导”，而非“最终结论”——如果问题涉及具体办理流程，需引导用户联系对应部门（如“请携带材料到市社保局窗口办理，咨询电话：12333”）。

设计逻辑：给AI赋予“政府工作人员”的身份，让其输出更符合政府服务的语气（严谨、耐心），同时明确“边界”（不做超出职责的回答）。

3.3.2 要素2：规则约束——让AI“知道什么不能做”

针对合规性和准确性需求，我们加入了强制规则：

规则1（合规性）：遇到用户输入的敏感信息（身份证号、手机号、银行卡号），需自动隐藏中间四位（如身份证号“110101XXXX1234”）；
规则2（准确性）：回答必须引用政策依据（如“根据《某省社会保险转移接续办法》（X政发〔2023〕12号），社保转移需提供以下材料：……”）；
规则3（易用性）：避免使用专业术语，用“大白话”解释（如把“统筹账户”说成“单位给你交的那部分社保钱”）；
规则4（边界性）：如果不确定答案，需回复“针对这个问题，建议你联系XX部门咨询，电话：XXX”，不得猜测。

设计逻辑：用“禁止性规则”和“强制性要求”约束AI的输出，避免违规或错误。例如，当用户输入“我的身份证号是110101197001011234”，AI会自动回复“你的身份证号（110101XXXX01011234）已收到，我们会为你保密”。

3.3.3 要素3：示例引导——让AI“知道怎么做”

针对“意图识别错误”和“信息遗漏”问题，我们采用少样本提示（Few-shot Prompting），给AI提供“正确示例”，教它如何处理常见问题。

例如，针对“社保转移”问题，我们设计了以下示例：

用户问题：我想把社保从北京转到上海，需要什么材料？
正确回答：根据《某省社会保险转移接续办法》（X政发〔2023〕12号），社保转移需提供以下材料：

身份证原件及复印件；

社保卡原件及复印件；

原参保地社保经办机构出具的《基本养老保险参保缴费凭证》；

新参保地社保经办机构出具的《基本养老保险关系转移接续联系函》。
（提示：请携带以上材料到市社保局窗口办理，咨询电话：12333）

设计逻辑：示例是“具象的指导”，比抽象的规则更有效。通过给AI看“正确的回答是什么样的”，它能快速学会如何处理同类问题。我们总共设计了120个常见问题示例（覆盖社保、户籍、教育等10个领域），放入提示模板中。

3.3.4 要素4：上下文管理——让AI“记住之前的对话”

针对“多轮对话中断”问题，我们采用多轮对话提示（Multi-turn Prompting），让AI记住前3轮的对话内容。

例如，以下是一个多轮对话的提示设计：

上下文：
用户1：我想把社保从北京转到上海，需要什么材料？
AI1：（根据示例回复材料清单）
用户2：材料齐了，接下来怎么办理？
当前用户问题：材料齐了，接下来怎么办理？
提示：请结合上下文（用户之前问了社保转移的材料，现在问办理流程），回答用户的问题。

设计逻辑：将之前的对话内容作为“上下文”输入模型，让AI理解“用户的问题是基于之前的对话”。例如，当用户问“材料齐了，接下来怎么办理？”，AI会回复“请携带材料到市社保局窗口提交，工作人员会为你办理转移手续。办理完成后，你会收到短信通知”，而不是“请重新描述问题”。

3.3.5 最终提示模板

将以上四要素整合，我们得到了最终的提示模板（以“社保转移”为例）：

角色：你是某市政府“政务服务AI助手”，职责是为市民提供准确、合规、通俗易懂的政府服务咨询。
规则：

遇到敏感信息（身份证号、手机号），隐藏中间四位；

回答必须引用政策依据；

用“大白话”解释专业术语；

不确定答案时，引导用户联系官方渠道。
示例：（社保转移材料的正确回答）
上下文：（用户之前的对话内容）
当前用户问题：（用户的最新问题）
要求：请结合角色、规则、示例和上下文，回答用户的问题。

注：为了让政府工作人员能快速修改提示，我们将提示模板存储在可视化配置平台（如飞书多维表格）中，无需代码即可调整角色、规则或示例。

3.4 第四步：敏感信息处理——用“技术+规则”双重保障

政府AI系统的“敏感信息处理”是红线，必须100%准确。我们采用**“规则引擎+LLM”**的双重机制：

3.4.1 第一步：规则引擎过滤

通过正则表达式识别用户输入中的敏感信息：

身份证号：匹配18位或15位数字（如\d{15}|\d{18}）；
手机号：匹配11位数字（如\d{11}）；
银行卡号：匹配16-19位数字（如\d{16,19}）。

一旦识别到敏感信息，规则引擎会自动隐藏中间四位（如“110101XXXX1234”），并将处理后的内容输入LLM。

3.4.2 第二步：LLM二次校验

即使规则引擎漏过了某些敏感信息（如用户用“身份证号码是110101197001011234”这样的表述），LLM也会通过提示中的规则约束（“遇到敏感信息需隐藏中间四位”）进行二次校验。例如，当用户输入“我的身份证号是110101197001011234”，LLM会回复“你的身份证号（110101XXXX01011234）已收到，我们会为你保密”。

3.4.3 效果验证

我们随机选取1000条包含敏感信息的用户输入，测试敏感信息处理效果：

规则引擎识别率：98%（漏过的2%是用户用“身份证”代替“身份证号”的情况）；
LLM二次校验率：100%（漏过的2%被LLM识别并处理）；
最终脱敏率：100%（符合《个人信息保护法》要求）。

3.5 第五步：测试与迭代——用“真实数据”优化提示

提示设计不是“一劳永逸”的，必须通过真实用户数据不断迭代。我们采用“小范围测试→大规模上线→持续优化”的迭代流程：

3.5.1 小范围测试（100用户）

选择100名志愿者（包括老年人、年轻人、残障人士），让他们使用改造后的AI助手，收集反馈：

问题1：有用户反映“AI回复的政策依据太冗长”（如“根据《某省社会保险转移接续办法》（X政发〔2023〕12号）”）；
解决方案：在提示中加入“政策依据可简化为‘根据某省2023年12号文件’”；
问题2：有老年人反映“AI回复的‘大白话’还是不够通俗”（如“单位给你交的那部分社保钱”）；
解决方案：将“单位给你交的那部分社保钱”改为“公司给你交的社保钱”（更口语化）。

3.5.2 大规模上线（10万用户）

2023年11月，改造后的AI助手正式上线，覆盖10万用户。我们通过埋点系统收集以下数据：

准确率：92%（较改造前提升30%）；
完整率：96%（较改造前提升41%）；
合规率：100%（较改造前提升30%）；
多轮对话准确率：88%（较改造前提升73%）；
用户满意度：91%（较改造前提升29%）。

3.5.3 持续优化（每月迭代）

我们建立了**“用户反馈→提示优化”**的闭环机制：

每月收集1000条用户反馈（通过APP评分、电话回访）；
分析反馈中的问题（如“AI没提到异地就医的备案流程”）；
调整提示模板（如在“社保”领域的示例中加入“异地就医备案流程”）；
重新测试并上线。

例如，2024年1月，有用户反馈“AI没提到异地就医需要提前备案”，我们立即在“社保”领域的示例中加入以下内容：

用户问题：我要去上海看病，社保能报销吗？
正确回答：根据某省2023年15号文件，异地就医需提前在“某省政务服务网”办理备案。备案后，可在上海的定点医院直接结算。备案流程：登录“某省政务服务网”→点击“异地就医备案”→填写个人信息→提交材料→等待审核（1-3个工作日）。

调整后，“异地就医”问题的准确率从85%提升至95%。

四、进阶探讨：政府AI提示工程的“最佳实践”与“避坑指南”

4.1 最佳实践

4.1.1 建立“提示模板库”

将常见问题的提示模板分类存储（如社保、户籍、教育），并标注“适用场景”“更新时间”“维护人”。例如：

模板名称	适用场景	更新时间	维护人
社保转移提示	社保转移咨询	2024-01-05	张三（社保局）
户籍办理提示	户籍迁入咨询	2024-02-10	李四（公安局）

这样，当政策更新时，维护人只需修改对应的模板，无需重新训练模型。

4.1.2 结合“领域知识图谱”

政府政策是结构化的（如“社保转移需提供A、B、C材料”），我们可以将政策数据构建成领域知识图谱（Knowledge Graph），并将其融入提示中。例如，当用户问“社保转移需要什么材料”，AI会从知识图谱中提取“材料清单”，并按照提示中的规则（引用政策依据、用大白话解释）输出回答。

4.1.3 监控“提示效果”

通过A/B测试监控提示的效果：

将用户分成两组，一组使用旧提示，一组使用新提示；
比较两组的准确率、完整率、用户满意度；
如果新提示效果更好，就全面上线；否则，继续优化。

4.2 避坑指南

4.2.1 避免“过度提示”

提示不是“越长越好”，过度的规则或示例会让模型“混乱”。例如，如果你给AI的提示包含10条规则和20个示例，模型可能无法记住所有内容，导致输出错误。建议提示长度控制在500字以内（约占模型上下文窗口的10%）。

4.2.2 避免“忽略用户多样性”

政府用户包括老年人、残障人士、外来务工人员等，他们的语言习惯和需求不同。例如，老年人可能更喜欢用“大白话”，而外来务工人员可能更关注“异地办理”的问题。建议针对不同用户群体设计“个性化提示”（如给老年人的提示用更简单的语言，给外来务工人员的提示加入“异地办理”的示例）。

4.2.3 避免“依赖LLM的‘自我约束’”

LLM的“自我约束”能力是有限的，必须用规则引擎进行补充。例如，敏感信息处理不能完全依赖LLM的“提示规则”，必须用正则表达式进行前置过滤，否则可能出现“漏脱敏”的情况。

五、结论：从“笨AI”到“聪明助手”的蜕变

5.1 改造效果总结

通过本次提示工程改造，某市政府“政务服务AI助手”的性能得到了显著提升：

指标	改造前	改造后	提升幅度
政策问题准确率	62%	92%	+30%
复杂问题完整率	55%	96%	+41%
敏感信息脱敏率	70%	100%	+30%
多轮对话准确率	15%	88%	+73%
用户满意度	62%	91%	+29%