架构篇 - 构建AI应用：从单一模型到复杂系统

当你掌握了Prompt Engineering和模型微调后，是否曾遇到这样的困境：模型明明很"聪明"，却记不住你刚上传的文档内容？欢迎来到AI应用架构的世界——在这里，我们将让AI从"聪明的实习生"进化成"拥有整个公司资源支持的专业团队"。在这个新时代，最重要的技能不是如何调用API，而是如何设计数据流、如何选择工具、如何规划任务、如何确保系统可靠性——这就是AI工程师与普通用户的本质区别。这就是

@sinner

636人浏览 · 2025-11-24 16:45:00

@sinner · 2025-11-24 16:45:00 发布

在这里插入图片描述

当你掌握了Prompt Engineering和模型微调后，是否曾遇到这样的困境：模型明明很"聪明"，却记不住你刚上传的文档内容？或者无法执行一个需要多步骤、多工具协作的复杂任务？欢迎来到AI应用架构的世界——在这里，我们将让AI从"聪明的实习生"进化成"拥有整个公司资源支持的专业团队"。

一、开篇思考：为什么单个模型无法解决复杂问题？

让我们直面一个现实：无论模型多么强大，它都存在固有的局限性：

知识截止性：模型只知道其训练数据截止时间点的信息，无法感知实时变化。
缺乏真实记忆：每次对话都是新的开始，无法持久化学习用户提供的私有知识。
“纸上谈兵”：模型可以讨论如何调用API，但无法真正执行；可以描述编程问题，但无法运行代码验证。
幻觉风险：在专业领域，模型的"自信胡说"可能造成严重后果。

新的范式正在出现：我们不应该问"模型能做什么"，而应该问"如何构建一个以模型为核心的系统来解决实际问题"？

二、核心架构模式一：RAG——为AI装上“外部大脑”

2.1 RAG解决了什么根本问题？

想象一下，你聘请了一位博闻强识的专家，但他不允许带任何参考资料进入考场。这就是基础大模型的处境。RAG的核心思想很简单：在需要时，为模型提供相关的参考文档。

技术定义：检索增强生成是一种通过从外部知识库检索相关信息，并将其作为上下文提供给大模型，从而改善生成质量的技术架构。

2.2 RAG系统的工作流程详解

一个完整的RAG系统就像一家高效的研究图书馆：

[用户提问] → [查询理解] → [向量数据库检索] → [知识增强] → [LLM生成] → [最终答案]

让我们拆解这个流程中的关键技术环节：

A. 文档处理与向量化

from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.embeddings import HuggingFaceEmbeddings
from langchain_community.vectorstores import Chroma

# 1. 文档加载与分割
documents = load_your_documents()  # 从PDF、Word、网页等加载
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000,
    chunk_overlap=200  # 保持上下文连贯
)
chunks = text_splitter.split_documents(documents)

# 2. 文本向量化
embeddings = HuggingFaceEmbeddings(
    model_name="BAAI/bge-small-zh-v1.5"  # 优秀的中文嵌入模型
)

# 3. 构建向量数据库
vectorstore = Chroma.from_documents(
    documents=chunks,
    embedding=embeddings,
    persist_directory="./chroma_db"
)

B. 智能检索与重排

from langchain.retrievers import ContextualCompressionRetriever
from langchain.retrievers.document_compressors import CrossEncoderReranker
from sentence_transformers import CrossEncoder

# 使用交叉编码器进行检索结果重排，提升精度
cross_encoder = CrossEncoder('BAAI/bge-reranker-large')
compressor = CrossEncoderReranker(model=cross_encoder, top_n=5)
compression_retriever = ContextualCompressionRetriever(
    base_compressor=compressor,
    base_retriever=vectorstore.as_retriever(search_kwargs={"k": 10})
)

C. 生成增强的答案

from langchain.prompts import ChatPromptTemplate
from langchain_community.chat_models import ChatOpenAI

# 构建包含上下文的提示词模板
template = """
你是一个专业的助手，请基于以下背景信息回答问题。

背景信息：
{context}

问题：{question}

请根据背景信息提供准确的回答。如果背景信息中没有相关信息，请明确说明你不知道，不要编造信息。
"""
prompt = ChatPromptTemplate.from_template(template)

# 创建RAG链
llm = ChatOpenAI(model="gpt-4")
rag_chain = prompt | llm

# 使用链
question = "我们公司最新的请假政策是什么？"
retrieved_docs = compression_retriever.get_relevant_documents(question)
context = "\n\n".join([doc.page_content for doc in retrieved_docs])

answer = rag_chain.invoke({
    "context": context, 
    "question": question
})

2.3 RAG架构的进阶优化

查询转换：在检索前对用户问题进行优化：

查询扩展：“AI” → “人工智能机器学习深度学习”
多视角查询：对复杂问题生成多个子问题分别检索

递归检索：先检索到高级别文档，再基于这些文档的内容进行更深度的检索

HyDE技术：让模型先假设性生成一个答案，然后用这个假设答案去检索，往往能找到更相关的文档

三、核心架构模式二：AI Agent——从“工具人”到“自主执行者”

如果说RAG扩展了AI的"知识"，那么Agent则扩展了AI的"能力"。

3.1 Agent的核心思维框架：ReAct模式

ReAct（Reasoning + Acting）是目前最有效的Agent推理框架：

[思考] → [行动] → [观察] → [思考] → [行动] → ... → [最终答案]

一个完整的工作循环：

思考：分析当前情况，决定下一步该做什么
行动：调用合适的工具执行具体操作
观察：获取工具执行的结果
循环：基于观察结果继续思考，直到问题解决

3.2 构建你的第一个AI Agent系统

让我们创建一个能够解决现实世界问题的研究助手Agent：

from langchain.agents import AgentExecutor, create_react_agent
from langchain import hub
from langchain_community.tools import Tool
from langchain_community.utilities import SerpAPIWrapper
from langchain_community.llms import Ollama

# 1. 定义Agent可用的工具
search = SerpAPIWrapper()
search_tool = Tool(
    name="Search",
    func=search.run,
    description="用于搜索当前事件和最新信息"
)

def calculator(expression):
    """执行数学计算"""
    try:
        return eval(expression)
    except:
        return "计算错误"

calc_tool = Tool(
    name="Calculator",
    func=calculator,
    description="用于执行数学计算"
)

tools = [search_tool, calc_tool]

# 2. 创建Agent
llm = Ollama(model="llama3.1:8b")
prompt = hub.pull("hwchase17/react")
agent = create_react_agent(llm, tools, prompt)

# 3. 执行Agent
agent_executor = AgentExecutor(
    agent=agent, 
    tools=tools, 
    verbose=True,
    handle_parsing_errors=True
)

# 让Agent解决一个复杂问题
result = agent_executor.invoke({
    "input": "请搜索特斯拉最新的季度财报，计算其电动汽车交付量的同比增长率，并分析主要原因。"
})

3.3 高级Agent模式

多智能体系统：创建多个 specialized 的Agent协作解决问题：

from langchain.agents import initialize_agent

# 定义不同角色的Agent
research_agent = initialize_agent(research_tools, llm, agent="zero-shot-react-description")
analysis_agent = initialize_agent(analysis_tools, llm, agent="zero-shot-react-description")
writing_agent = initialize_agent(writing_tools, llm, agent="zero-shot-react-description")

# 构建协作流程
def research_report_workflow(topic):
    # 研究Agent收集信息
    facts = research_agent.run(f"收集关于{topic}的最新事实和数据")
    
    # 分析Agent进行深度分析
    insights = analysis_agent.run(f"基于以下信息进行分析：{facts}")
    
    # 写作Agent生成报告
    report = writing_agent.run(f"基于事实{facts}和见解{insights}撰写专业报告")
    
    return report

计划-执行模式：让Agent先制定完整计划，再按步骤执行：

from langchain_experimental.plan_and_execute import PlanAndExecute, load_agent_executor, load_chat_planner

planner = load_chat_planner(llm)
executor = load_agent_executor(llm, tools, verbose=True)
agent = PlanAndExecute(planner=planner, executor=executor, verbose=True)

result = agent.run("为我们公司设计一个完整的社交媒体营销活动")

四、架构实战：构建企业级AI知识管理系统

让我们综合运用RAG和Agent技术，构建一个真实可用的系统：

系统架构设计

用户界面 (Web/Mobile)
    ↓
API网关 (FastAPI/Flask)
    ↓
AI Orchestration层 (LangChain/LlamaIndex)
    ↓
工具层 ←→ 外部服务
    ├─ 向量数据库 (Chroma/Pinecone)
    ├─ 关系数据库 (PostgreSQL)
    ├─ 搜索引擎 (SerpAPI)
    ├─ 内部API
    └─ 文件存储

核心实现代码

from typing import List, Dict, Any
from langchain.agents import AgentExecutor
from langchain.memory import ConversationBufferWindowMemory
from langchain.schema import BaseOutputParser
import json

class EnterpriseKnowledgeAgent:
    def __init__(self):
        self.llm = Ollama(model="qwen2.5:7b")
        self.memory = ConversationBufferWindowMemory(k=10)
        self.tools = self._setup_tools()
        self.agent = self._create_agent()
    
    def _setup_tools(self) -> List[Tool]:
        """设置企业专用工具集"""
        # 内部文档检索工具
        doc_retriever = self._setup_rag_system()
        doc_tool = Tool(
            name="InternalDocuments",
            func=doc_retriever.get_relevant_documents,
            description="检索内部文档和政策信息"
        )
        
        # 员工目录查询工具
        employee_tool = Tool(
            name="EmployeeDirectory", 
            func=self._query_employee_db,
            description="查询员工联系信息和部门"
        )
        
        # 业务数据查询工具
        business_tool = Tool(
            name="BusinessData",
            func=self._query_business_system,
            description="查询销售、客户等业务数据"
        )
        
        return [doc_tool, employee_tool, business_tool]
    
    def _create_agent(self) -> AgentExecutor:
        """创建企业级Agent"""
        prompt = self._create_enterprise_prompt()
        agent = create_react_agent(self.llm, self.tools, prompt)
        return AgentExecutor(
            agent=agent,
            tools=self.tools,
            memory=self.memory,
            verbose=True,
            max_iterations=5
        )
    
    def _create_enterprise_prompt(self) -> str:
        """企业专用提示词"""
        return """
        你是公司内部的AI助手，拥有访问各种内部系统的权限。
        
        公司背景：{company_context}
        当前用户：{user_department}部门的{user_name}
        对话历史：{chat_history}
        
        请使用可用工具来获取准确信息，不要编造答案。
        对于涉及敏感信息的问题，请确认用户权限。
        
        问题：{input}
        
        请逐步思考并使用合适工具：
        {agent_scratchpad}
        """
    
    def query(self, question: str, user_context: Dict[str, Any]) -> str:
        """处理用户查询"""
        enhanced_input = {
            "input": question,
            "company_context": user_context.get("company_info"),
            "user_department": user_context.get("department"),
            "user_name": user_context.get("name")
        }
        
        try:
            response = self.agent.invoke(enhanced_input)
            return response["output"]
        except Exception as e:
            return f"处理查询时出现错误：{str(e)}"

# 使用示例
agent = EnterpriseKnowledgeAgent()
response = agent.query(
    "请找出我们部门上季度的销售数据，并与市场部的数据对比分析",
    {"department": "销售部", "name": "张三", "company_info": "某科技公司"}
)

五、生产环境部署考量

5.1 性能与可扩展性

缓存策略：对频繁查询进行向量检索结果缓存
异步处理：对耗时操作使用异步编程
负载均衡：在多GPU服务器间分配推理负载

5.2 监控与可观测性

from prometheus_client import Counter, Histogram, generate_latest
import time

# 定义监控指标
REQUEST_COUNT = Counter('requests_total', 'Total API Requests')
REQUEST_DURATION = Histogram('request_duration_seconds', 'Request latency')
ERROR_COUNT = Counter('errors_total', 'Total Errors')

def monitor_ai_system(func):
    """监控装饰器"""
    def wrapper(*args, **kwargs):
        REQUEST_COUNT.inc()
        start_time = time.time()
        try:
            result = func(*args, **kwargs)
            duration = time.time() - start_time
            REQUEST_DURATION.observe(duration)
            return result
        except Exception as e:
            ERROR_COUNT.inc()
            raise e
    return wrapper

5.3 安全与权限

输入净化：防止提示词注入攻击
输出过滤：对生成内容进行安全检查
访问控制：基于角色的工具使用权限管理

六、结语：从模型调用到AI系统工程

通过本文，你已经看到了AI应用开发的完整演进路径：

单一模型 → 解决简单问答
RAG系统 → 解决知识实时性和准确性问题
AI Agent → 解决复杂任务执行问题
企业级系统 → 解决规模化、安全、可靠的生产需求

真正的AI竞争力，不再来自于找到最强大的模型，而是来自于设计最优雅的系统架构，将多个相对简单的组件组合成能够解决复杂现实问题的智能系统。

在这个新时代，最重要的技能不是如何调用API，而是如何设计数据流、如何选择工具、如何规划任务、如何确保系统可靠性——这就是AI工程师与普通用户的本质区别。

下一篇预告

《实战篇（一）- 开发你的第一个AI原生应用：智能文档分析助手》

你将亲手构建：一个综合运用RAG、Agent和现代Web技术的完整AI应用。
技术栈亮点：
- 前端：使用Streamlit构建交互式界面
- 后端：FastAPI + 向量数据库 + 多模型调度
- 核心功能：文档解析、智能问答、自动摘要、知识图谱构建
部署上线：从本地开发到云服务器部署的完整CI/CD流程。

思考与实践：
回顾你所在组织的业务流程，哪个环节最需要但还缺乏智能化的支持？如果给你RAG和Agent这两大"武器"，你会优先解决哪个业务痛点？在评论区分享你的AI系统设计思路，让我们共同探讨实现路径！

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

【LLM】DeepSeekMath-V2模型

2048 AI社区

Java面试终极挑战：从企业协同SaaS的WebFlux到AI Agent，谢飞机能否逆袭？

在一个阳光明媚的下午，我们的老朋友谢飞机，一位在Java世界里“随波逐流”的程序员，正襟危坐，对面是某互联网大厂企业协同SaaS业务线的资深面试官。面试官面容严肃，目光如炬，似乎能穿透飞机那件格子衫，直达他那颗因紧张而狂跳的心。：“谢飞机是吧？简历上说你精通Java微服务和高并发架构，还对AI有浓厚兴趣。我们今天就聊聊这方面。准备好了吗？：“（深吸一口气，强作镇定）准备好了，面试官您尽管问！

2048 AI社区

详细介绍Agent to Agent

A2A系统综述：多智能体协作技术概述 Agent-to-Agent（A2A）指多个自主智能体通过协作、竞争或协议共享完成复杂任务，代表AI从单智能体向多智能体自治系统的演进。A2A分为协作式、竞争式、互评式、协议驱动和自组织五大范式，广泛应用于软件工程、企业自动化、科研、教育等领域。其架构包括调度层（Orchestrator）、Agent层（独立推理、记忆、工具）、通信系统及共享内存。核心挑战包括