一款智能内容工具:抓取 Google、用 Bright Data MCP 提取实时网页数据,并基于实时研究用 AI 生成文章。


功能

  • 🔍 SERP 抓取:自动从 Google 搜索结果中提取相关 URL
  • 📄 内容抽取:使用 Bright Data MCP 工具抓取并清洗网页内容
  • 🧠 AI 分析:使用 OpenAI 嵌入和向量相似度搜索处理内容
  • ✍️ 内容生成:借助 LangChain 与 OpenAI 生成文章大纲或完整文章
  • 📊 研究指标:查看被抓取内容的详细分析与主题归纳

前置条件

  • Python 3.8+
  • OpenAI API Key
  • Bright Data API Token
  • Node.js(用于 MCP 工具)

安装

  1. 克隆仓库

    git clone <repository-url>
    cd article-generator
    
  2. 安装 Python 依赖

    pip install -r requirements.txt
    
  3. 安装 Node.js MCP 工具

    npx @brightdata/mcp
    
  4. 设置环境变量

    在项目根目录创建 .env 文件:

    OPENAI_API_KEY=your_openai_api_key_here
    BRIGHT_DATA_API_TOKEN=your_bright_data_api_token_here
    WEB_UNLOCKER_ZONE=your_web_unlocker_zone_here
    BROWSER_ZONE=your_browser_zone_here
    

使用方法

  1. 启动应用

    streamlit run article_generator.py
    
  2. 打开浏览器

    应用会自动打开 http://localhost:8501

  3. 生成内容

    • 输入你的研究关键词(例如:“artificial intelligence in healthcare”)
    • 在侧边栏配置:
      • 最大抓取来源数(5-20)
      • 输出类型(文章大纲或完整文章)
      • 完整文章的目标字数(800-3000)
    • 点击 “🚀 Generate Content”

工作原理

  1. 搜索:为你的关键词抓取 Google 搜索结果
  2. 抽取:下载并清洗相关网页内容
  3. 分析:用 AI 嵌入识别关键主题与洞察
  4. 生成:基于研究分析创建结构化内容

配置

侧边栏选项

  • Maximum sources:要抓取的网页数量(5-20)
  • Output type:在文章大纲或完整文章之间选择
  • Target word count:完整文章的目标长度(800-3000 字)

环境变量

  • OPENAI_API_KEY:用于内容生成的 OpenAI API Key
  • BRIGHT_DATA_API_TOKEN:用于网页抓取的 Bright Data API Token
  • WEB_UNLOCKER_ZONE:Bright Data Web Unlocker 区(默认:mcp_unlocker)
  • BROWSER_ZONE:Bright Data 浏览器区(默认:scraping_browser1)

输出特性

  • 研究指标:查看来源数量、内容分块、总字数与平均分块大小
  • 主题分析:查看识别出的关键主题、示例洞察与来源引用
  • 生成内容:获得 Markdown 格式的文章或大纲
  • 下载选项:将生成内容保存为 Markdown 文件

故障排查

  • 确保所有 API Key 已在 .env 中正确设置
  • 检查是否正确安装了 Node.js 与 Bright Data MCP 工具
  • 确认网络连接正常以支持网页抓取
  • 确保 OpenAI API 余额充足

许可证

本项目仅用于教育与研究目的。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐