【AI实战】从0到1开发：基于 DeepSeek + Crawlee 的商业情报 AI Agent 系统

本文介绍了一个AI商业情报Agent系统，通过多轮反思与数据审计机制，将传统搜索升级为闭环分析流程。系统采用7步工作流：问题拆解、广度搜索、逻辑反思、补漏搜索、数据审计、专项数据搜索和研报生成。技术栈选用Node.js+Crawlee实现高效并发爬取，DeepSeek模型进行多轮推理，并采用SSE技术实现实时交互。该系统在2核2G服务器上运行，能自动识别信息缺口并补充数据，最终生成带数据引用的专业

Buououou

370人浏览 · 2025-11-26 22:48:46

Buououou · 2025-11-26 22:48:46 发布

项目背景

目前通用AI不能对一些实时商业事件进行分析，而联网模式得到的回答往往比较宽泛，为了解决这个问题，我利用在上一篇文章介绍的TrendRadar全网热搜聚合项目的工具，独立设计了一个AI商业情报Agent。

它不只是一个搜索工具，它能像人类分析师一样：拆解问题 -> 搜索信息 -> 反思不足 -> 补充搜索 -> 审计数据 -> 输出研报。

🧠 核心工作逻辑（Agent Workflow）

本系统的核心亮点在于引入了“多轮反思与数据审计”机制，将原来单流程搜索过程升级为闭环思考流程。系统运行总共分为 7 个步骤：

因子拆解 (Factor Analysis)：
- 用户输入一个模糊的商业问题（如“2026年美股走势”）。
- AI 介入，将其拆解为 5 个核心影响因素（如宏观经济、技术面、政策等）。
- 基于因素生成第一组精准搜索关键词。
第一轮广度搜索 (Round 1)：
- 调用 Google Search API 获取链接。
- 使用爬虫并发抓取网页正文，清洗无关标签。
逻辑反思 (Reflection Loop)：
- AI 主编介入，阅读第一轮抓取的文章标题。
- 判断：信息是否全面？是否缺少反面观点或最新动态？
- 决策：如果缺失，生成补充关键词，触发第二轮搜索；如果足够，跳过。
第二轮补漏搜索 (Round 2)：
- 针对缺失的视角进行定向抓取，完善信息拼图。
数据审计 (Data Audit - 核心创新)：
- AI 审计员介入，扫描所有已获取的文章内容。
- 判断：文章中是否包含硬核数据（数字、百分比、金额）？
- 决策：如果是“纯定性”描述（全是形容词），触发第三轮“数据猎人”模式，强制生成带 statistics, market size, report 后缀的关键词进行专项搜索。
第三轮数据搜索 (Round 3)：
- 专门寻找数据支撑，确保报告“言之有物”。
深度研报生成 (Final Report)：
- 汇总 3 轮抓取的所有数据（去重）。
- AI 按照麦肯锡顾问风格撰写报告，强制要求在文中引用数据，并标注来源链接 [标题](URL)。

🛠️ 技术栈与工具原

为了在有限的资源（2核 2G 内存服务器）下实现高性能，技术选型极其克制且高效：

1. 后端架构：Node.js + Express

选择理由：Node.js 的异步非阻塞特性非常适合处理高并发的 I/O 密集型任务（网络请求、爬虫）。
流式传输 (SSE)：为了让用户实时感知 AI 的思考过程（类似 DeepSeek 的 UI 体验），后端使用了 Server-Sent Events 技术，实时将日志推送到前端，避免 HTTP 超时。

2. 爬虫引擎：Crawlee + Cheerio

Crawlee：目前 Node.js 生态最强的爬虫框架，内置了重试机制、反爬策略和并发控制。
Cheerio (轻量级)：由于服务器内存仅 2GB，我没有使用 Puppeteer (Headless Chrome)，而是使用了 Cheerio。它只下载 HTML 源码并解析，内存占用极低，速度极快（毫秒级）。
并发控制：将 MAX_CONCURRENCY 设为 1，排队抓取，防止内存溢出 (OOM)。

3. 大模型：DeepSeek (via OpenAI SDK)

选择理由：DeepSeek V3 在逻辑推理和长文本处理上表现优异，且 API 成本极低，非常适合这种需要多轮调用（Chain of Thought）的 Agent 场景。
Prompt Engineering：针对不同步骤设计了 4 套不同的人设（分析师、主编、审计员、顾问）。

4. 搜索源：SerpApi

原理：不直接爬取 Google 搜索结果页（容易触发验证码），而是通过 SerpApi 获取结构化的 JSON 数据。
网络策略：部署在**阿里云（香港）**服务器，利用其无墙的网络环境，直连全球新闻源。

5. 前端交互：原生 HTML/CSS

UI 风格：复刻了 DeepSeek 的深色极客风。
实时日志：利用 EventSource 监听后端发来的思考步骤，动态渲染折叠式日志卡片。

🛠️ 可进一步完善的点

1、可以加上爬虫工具提供更多的数据支持，尤其是财务的数据

2、目前几轮AI思考都是调用Deepseek，下一步可以扩展不同AI模型

3、优化Prommpt

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

论文AI率太难降？实测10款降AI神器，这篇攻略手把手教你搞定论文AIGC率！

2048 AI社区

Ascend C 编程模型初探：从概念到Hello World的硬核实践指南

2048 AI社区

Flutter + FastAPI 30天速成计划自用并实践

摘要：本文提供了一个30天速成Flutter+FastAPI的极简学习方案，适用于工作之余的学习者。采用"以终为始"策略，聚焦核心功能开发，剔除动画、微服务等非必要内容。每周重点：第1周完成FastAPI后端开发，第2周实现Flutter前端基础，第3周整合系统并填充教学内容，第4周完成Docker部署。建议使用AI辅助编程，采用费曼学习法边学边教，最终上线一个教学网站。方案强

2048 AI社区

所有评论(0)

查看更多评论

Buououou

@Buououou

已为社区贡献2条内容