DataWhale 《动手学 Agent 应用开发》Task 1
首先,系统梳理了智能体技术的定义、架构和应用现状,指出目前业界对Agent的定义尚未统一,但普遍认同其核心在于大模型结合记忆、规划和工具使用能力。文章将Agent系统划分为工作流和自主智能体两类,分别适用于流程固定和开放性问题场景,并详细分析了其组成模块和设计模式。国内外主流开发框架和产品案例也被纳入讨论。 之后本文聚焦金融行业,总结了金融智能体的核心能力模块和典型应用场景,包括客户服务、信用评估
·
一、《Agent应用开发与落地全景》
1. 智能体 (Agent) 定义
- 现状: 目前从学术界到产业界,对于大模型领域的 Agent 还没有形成统一的、明确的共识。任何非单次大模型调用的系统都可能被称为 “agent”。
- Lilian Weng (前 OpenAI 研究副总裁) 的定义: Agent = 大模型 + 记忆 + 主动规划 + 工具使用。
- LangChain 作者 Horrison 的定义: Agent 是一个使用 LLM (大语言模型) 来决定应用程序控制流的系统。
- 吴恩达 & Horrison 的观点: 不必拘泥于一个系统“是否是 Agent”,更应关注其具备 “agentic” (智能属性) 的程度,这是一个渐进的概念,类似于自动驾驶的 L1-L4 分级。
2. 智能体系统 (Agentic System) 的划分
从系统架构上,Agentic System 主要分为两大类:
- 工作流 (Workflow): 通过预先定义的代码路径来编排 LLM 和工具,侧重于流程的固定性和可预测性。
- 自主智能体 (Autonomous Agent): 由 LLM 动态地控制决策和工具的使用,自主规划任务,侧重于灵活性和自我决策。
适用场景:
- 对于任务明确、步骤可预定义的场景,适合使用工作流。
- 对于任务步骤难以预知、需要长期自主规划的场景,适合使用自主智能体。
- 很多场景下,通过 RAG (检索增强生成) 和 prompt 优化可能已经足够,增加系统复杂度需要权衡成本和延迟。
3. 智能体系统 (Agentic System) 组成模块
基础模块:增强型 LLM
智能体系统的基础是具备检索、工具使用和记忆能力的增强型 LLM,通常通过 API 进行调用。
工作流 (Workflow) 的常见模式
- 提示链 (Prompt Chaining): 按顺序拆分任务,上一步的输出作为下一步的输入。
- 路由 (Routing): 根据输入的不同,将其分配给最合适的后续任务、提示词或工具。
- 并行 (Parallelization): 同时执行多个任务,然后将输出结果聚合在一起。
- 协调者-工作者 (Orchestrator-Workers): 由一个协调者 LLM 拆解任务,分配给多个专注执行子任务的工作者 LLM。
- 评估-优化循环 (Evaluator-Optimizer): 一个 LLM 负责生成解决方案,另一个 LLM 负责评估、提供反馈并进行优化,循环往复。
自主智能体 (Autonomous Agent)
- 核心组件:
- 规划模块: 进行子目标拆解和通过自我反思来优化策略。
- 记忆系统: 包括用于上下文的短期记忆和用于外部存储的长期记忆。
- 工具使用: 调用外部 API 等工具来获取实时信息或扩展功能。
- 特点:
- 在执行过程中能从环境中获取真实反馈。
- 支持人工检查点干预。
- 需要设置终止条件以防无限运行。
4. 国内外 Agent 平台、框架与产品
构建框架与平台
- 全代码框架 (开源):
- LangChain & LangGraph
- LlamaIndex
- 低代码平台 (开源):
- 毕昇 (BISHENG)
- Dify
- Coze
- FastGPT
Agent 产品示例
- ChatGPT DeepResearch
- Manus
- 扣子空间
- 毕昇灵思
- AutoGLM 沉思
5. 总结
- Agent 定义: Agent 的定义仍在发展中,更有效的方式是讨论系统所具备的 “agentic” 属性的程度。
- 系统划分: Agentic System 在架构上可分为自主智能体 (Autonomous Agent) 和工作流 (Workflow)。
- 自主智能体: 适用于步骤难以预知的开放性问题,核心在于规划、记忆和工具使用。
- 工作流: 适用于流程固定的任务,包含多种设计模式。设计时应从简单方案出发,根据需求逐步优化,避免过度复杂。
二、金融领域 Agent应用产品的盘点与理解
1. 定义与核心特性
项目 | 内容说明 |
---|---|
什么是金融智能体 | 基于大语言模型与人工智能技术构建的自治系统或软件组件,能感知环境(数据、市场、用户行为等),规划与执行任务,以达成金融业务目标。智能体区别于规则系统在于主动性、环境感知与决策能力。 |
核心能力模块 | 通常包括: 1. 感知模块:获取实时或近实时市场与运营数据 2. 记忆机制:保存历史状态与用户画像,用于推理与预测 3. 工具接口:调用市场数据、风控系统、合规系统等 4. 决策模块:根据目标、风险偏好和业务规则制定策略 5. 执行动作:交易、审批、报告生成、客户服务等 6. 监控与反馈:评估效果并调整策略,同时保证合规性与可解释性 |
2. 典型应用场景与案例
场景 | 智能体作用 | 案例 |
---|---|---|
客户服务与咨询 | 理解客户问题与意图,提供自然对话与建议 | 英智金融助手用于客户咨询与理财产品信息提供。 |
信用评估与贷款审批 | 分析申请人财务状况与历史记录,快速判断信用风险 | 英智金融助手用于信贷审批与信用评估。 |
投资决策与资产管理辅助 | 提供市场分析、组合建议与策略调整建议 | FinMem是一个用于股票交易的智能体框架,具备分层记忆与角色设定,可以在真实数据上提升表现。 |
风险管理与合规审查 | 异常监测、反欺诈与消费者保护审查 | 拓尔思推出金融消费者保护智能体解决方案,用于银行在强监管要求下的审查。 |
市场分析与量化交易 | 多模态数据处理、趋势识别与执行策略 | FinAgent是一个多模态基础智能体,用于金融交易任务,包括历史数据、新闻文本与图表。 |
营销与产品创新 | 个性化推荐、客户画像分析与新产品开发辅助 | 蚂蚁集团在营销及客户画像上有多个智能体场景。 |
3. 前沿研究框架与产品
名称 | 特点与用途 |
---|---|
FinMem | 用于交易决策,设有分层记忆与角色配置,能处理多源信息并优化投资收益。 |
FinCon | 一个多智能体框架,模拟投资机构中分析师与管理者角色,具备风险控制机制及信念反馈机制。 |
FinAgent | 多模态基础智能体,支持文本数值图表等多种类型数据输入,有工具增强能力,广泛应用于量化交易与市场分析任务。 |
4. 优点与带来价值
- 显著提升效率,节约人工成本
- 提高实时响应能力与敏锐性
- 强化个性化与精细化服务
- 降低人为错误与延误
- 提高合规性与审计追踪能力
5. 挑战与风险
挑战或风险 | 详情 |
---|---|
数据质量与整合困难 | 不同系统格式不一,延迟与缺失常见 |
模型可信性 | 可能出现误判或“幻觉”式错误 |
合规与监管需求 | 法规、审计、透明度要求严格 |
安全与隐私保护 | 客户与交易数据敏感,需要高安全性 |
成本与部署难度 | 模型训练、基础设施与持续维护成本高 |
用户信任问题 | 一旦出错可能破坏信心与品牌信誉 |
6. 趋势与未来方向
- 多智能体协同与角色分工:分析、决策与风险角色分明
- 多模态信息融合:文本、图表、新闻与情绪等多种信息一起入模
- 自适应学习与反馈机制增强:根据市场与结果调整智能体行为
- 可解释性与透明度机制加强:尤其在重大审批或报告中
- 人工参与增强:关键决策保留人工审核或监督
7. 小结
金融智能体正在广泛渗透金融体系不同环节,从客户服务到投资决策再到合规审查。研究与实务都在朝以下方向进展:分角色架构、多模态输入、自我调优与高可信性。
三、Agent应用的核心技术栈有哪些?该怎么去学习?
1.核心技术栈
下面这些部分构成典型智能体(Agent)系统从感知到执行到部署的全栈组成部分。
层 / 模块 | 主要功能 | 常见工具/框架/技术 |
---|---|---|
感知层(Perception) | 接收环境输入,理解上下文、抽取信息 | 文本处理(自然语言处理 NLP)、语音识别、图像/视频处理、结构化数据/API调用等。使用工具/库如 HuggingFace Transformers、spaCy、OpenCV、speech-to-text API 等。 |
记忆与上下文管理(Memory & Context) | 保存历史交互状态、用户画像、过去任务/上下文,以便 Agent 有“记忆”可供调用 | 向量数据库(如 Pinecone、Weaviate、Milvus)、缓存系统(Redis、SQLite/Postgres 等)、长期存储 + 历史日志 +检索增强生成(RAG)架构等。 :contentReference[oaicite:1]{index=1} |
推理与规划(Reasoning & Planning) | Agent 基于目标制定流程/决策,规划中间步骤与策略 | Large Language Models(LLMs,如 GPT 系列、Claude 等),强化学习(RL),启发式搜索/规划算法(如树搜索/蒙特卡罗树搜索),任务分解架构/多 Agent 协作。 |
工具/外部接口集成(Tooling / Tool Use) | Agent 可调用外部服务或执行工具,以实现复杂任务 | API 接入(REST/GraphQL etc.),脚本/插件/微服务,例如 Web 搜索、数据库查询、命令执行、财务系统接口、合规/审计工具等。还有工具安全与权限管理机制。 |
动作执行层(Action / Execution) | Agent 实际执行任务:响应用户/系统动作、操作外部系统、生成报告/文档等 | 自动化脚本、后台任务调度器(如 Celery/Airflow 等)、服务或函数部署(Serverless functions, containers),事务管理、任务重试机制等。 |
用户交互层(UI / Communication) | 与用户或系统交换信息与指令 | 对话接口(聊天系统)、API 接口、命令行界面、网页前端、仪表板,提示工程/对话设计等。框架如 FastAPI, Flask, Gradio, Streamlit 等。 |
监控、日志与安全(Observability, Logging, Guardrails & Security) | 跟踪/监控 Agent 行为与性能;保证安全与合规性;错误/异常处理;权限与审计 | 日志系统 (ELK/Prometheus/Grafana)、异常告警、工具权限控制、安全审查、红队测试、模型偏差/滥用监测、可解释性框架等。 |
部署与基础设施(Infrastructure / DevOps / MLOps) | 模型训练/部署/更新/扩容/管理 | 云平台(AWS, Azure, GCP 等),容器/Kubernetes,Serverless,模型版本管理,CI/CD 流程,自动化测试/A/B 测试,持续监控与滚动更新等。 |
2. 学习路径建议(ChatGPT 给的)
下面是一个分阶段学习路径,适合从零基础到能够实际构建与部署 Agent 的能力。
阶段 | 内容/目标 | 推荐资源/实践 |
---|---|---|
阶段 0:基础技能准备 | 掌握编程语言(推荐 Python),理解数据结构与算法;数学基础(线性代数、概率/统计)。 | 在线课程如 CS50/MIT OpenCourseWare;刷算法题;Python 教程;数学入门资料。 |
阶段 1:机器学习与深度学习基础 | 理解监督学习、无人监督学习、深度网络等;熟悉框架如 PyTorch 或 TensorFlow;学习 NLP、Representation Learning 等。 | Coursera、Udacity、DeepLearning.AI;实战项目例如分类、序列标注、文本生成任务等。 |
阶段 2:大语言模型与提示工程 | 理解 Transformer 架构;学会使用现成 LLM;掌握提示工程(Prompt Engineering);探索检索增强生成(RAG)。 | HuggingFace、OpenAI 文档/案例;Analytics Vidhya 的 Agent 相关学习路径。 |
阶段 3:Agent 架构与多模块集成 | 理解记忆系统、任务规划、外部工具调用、状态管理;学习 Agent 框架如 LangChain、AutoGen、Semantic Kernel 等。 | HuggingFace 的 Agents 课程;Azure Foundry Agent Service;动手做小型 Agent 项目(例如问答 Agent + 插件 + 内存模块)。 :contentReference[oaicite:9]{index=9} |
阶段 4:强化学习与决策算法 | 如果 Agent 要自主决策或优化行为,强化学习/策略优化/规划算法很关键;也可能用层次化策略或多智能体系统。 | OpenAI Gym/RLlib/Stable Baselines;阅读 RL 算法(Policy Gradient/Q-Learning/Actor-Critic 等);参加相关课程或教程。 |
阶段 5:系统工程与部署 | 学习如何把 Agent 系统部署到生产环境;学习 MLOps(模型版本管理/监控/日志/安全/可解释性);学习云基础设施/容器/服务架构。 | Coursera 或 Microsoft Learn 的 Agent 开发路径;实战部署到 AWS/Azure;CI/CD 工具;监控+告警系统。 |
阶段 6:行业应用与专业化 | 聚焦金融或其他领域:了解金融领域的法规/合规/风险控制/数据隐私需求;做对业务场景的 Agent(信贷/风控/投资/客户服务等)。 | 阅读金融法规/白皮书/行业案例;找实习/项目经验;与行业专家交流;构建面向金融场景的 Agent 原型。 |
3. 学习资源(课程/框架/实践项目推荐)
- HuggingFace 的 “AI Agents Course” 免费入门课程。
- Microsoft Learn 关于 Azure AI Foundry Agent Service 的学习路径。
- Analytics Vidhya 的 Agent 学习路径(涵盖 LLM、Prompt Engineering、框架如 LangChain, AutoGen 等)。
- Coursera 的 “AI Agent Developer Specialization” 系列课程。
- 实战项目:做一个带记忆、带外部工具调用的 Agent,比如让 Agent 能查询股票/金融市场数据,再做报告或提醒。
4. Tips
- 在学习中边做边学:自己动手构建小型 Agent,哪怕简单,能把感知、记忆、工具调用等模块组合起来。
- 重视可解释性与安全性:尤其金融场景中,行为可审计/决策可追溯非常重要。
- 关注新兴标准/协议,如 Model Context Protocol(MCP),使 Agent 在数据/工具/系统间集成更规范。
- 保持更新:Agent 技术快速发展,新的框架、模型和工具层出不穷,订阅博客、读论文、参与社区有帮助。
5. 小结
掌握 Agent 应用需要覆盖从基础编程、机器学习、LLM 与提示工程,再到系统设计、部署与行业应用。核心技术栈可以分层来理解与实践。系统化地按路径学习 + 实战 +行业特化,是最有效的方式。
更多推荐
所有评论(0)