AI 驱动的文章生成器
一款智能内容工具:抓取 Google、用 Bright Data MCP 提取实时网页数据,并基于实时研究用 AI 生成文章。
·
一款智能内容工具:抓取 Google、用 Bright Data MCP 提取实时网页数据,并基于实时研究用 AI 生成文章。

功能
- 🔍 SERP 抓取:自动从 Google 搜索结果中提取相关 URL
- 📄 内容抽取:使用 Bright Data MCP 工具抓取并清洗网页内容
- 🧠 AI 分析:使用 OpenAI 嵌入和向量相似度搜索处理内容
- ✍️ 内容生成:借助 LangChain 与 OpenAI 生成文章大纲或完整文章
- 📊 研究指标:查看被抓取内容的详细分析与主题归纳
前置条件
- Python 3.8+
- OpenAI API Key
- Bright Data API Token
- Node.js(用于 MCP 工具)
安装
-
克隆仓库
git clone <repository-url> cd article-generator -
安装 Python 依赖
pip install -r requirements.txt -
安装 Node.js MCP 工具
npx @brightdata/mcp -
设置环境变量
在项目根目录创建
.env文件:OPENAI_API_KEY=your_openai_api_key_here BRIGHT_DATA_API_TOKEN=your_bright_data_api_token_here WEB_UNLOCKER_ZONE=your_web_unlocker_zone_here BROWSER_ZONE=your_browser_zone_here
使用方法
-
启动应用
streamlit run article_generator.py -
打开浏览器
应用会自动打开
http://localhost:8501 -
生成内容
- 输入你的研究关键词(例如:“artificial intelligence in healthcare”)
- 在侧边栏配置:
- 最大抓取来源数(5-20)
- 输出类型(文章大纲或完整文章)
- 完整文章的目标字数(800-3000)
- 点击 “🚀 Generate Content”
工作原理
- 搜索:为你的关键词抓取 Google 搜索结果
- 抽取:下载并清洗相关网页内容
- 分析:用 AI 嵌入识别关键主题与洞察
- 生成:基于研究分析创建结构化内容
配置
侧边栏选项
- Maximum sources:要抓取的网页数量(5-20)
- Output type:在文章大纲或完整文章之间选择
- Target word count:完整文章的目标长度(800-3000 字)
环境变量
OPENAI_API_KEY:用于内容生成的 OpenAI API KeyBRIGHT_DATA_API_TOKEN:用于网页抓取的 Bright Data API TokenWEB_UNLOCKER_ZONE:Bright Data Web Unlocker 区(默认:mcp_unlocker)BROWSER_ZONE:Bright Data 浏览器区(默认:scraping_browser1)
输出特性
- 研究指标:查看来源数量、内容分块、总字数与平均分块大小
- 主题分析:查看识别出的关键主题、示例洞察与来源引用
- 生成内容:获得 Markdown 格式的文章或大纲
- 下载选项:将生成内容保存为 Markdown 文件
故障排查
- 确保所有 API Key 已在
.env中正确设置 - 检查是否正确安装了 Node.js 与 Bright Data MCP 工具
- 确认网络连接正常以支持网页抓取
- 确保 OpenAI API 余额充足
许可证
本项目仅用于教育与研究目的。
更多推荐

所有评论(0)