Bright Data 标志

使用 Bright Data Web Scraper API、Google Gemini AI 与 Streamlit,瞬间为公司列表补充可执行的商业数据。非常适合潜在客户获取、市场调研或竞品分析。只需上传你的 CSV——几分钟内即可获取 CEO、融资、产品等信息。


https://github.com/user-attachments/assets/4d25c7e3-18c1-4c92-9521-848d03ec9443

功能特性 🚀

  • 自动化富集:每家公司采集 13+ 个数据点,包括 CEO、融资与产品。
  • CSV 上传:一次性处理多条公司记录。
  • 进度跟踪:在工具处理数据时实时监控富集进度。
  • 友好界面:简洁、专业的仪表盘,轻松访问数据。

如需更强大的研究与数据富集能力,试试 Deep Lookup。该工具可跨 1000+ 个公共来源搜索,并以自然语言查询返回可直接使用的结构化数据。

端到端工作流 🔄

  1. 用户输入:通过 Streamlit 界面上传包含公司名称的 CSV。
  2. 数据准备:Pandas 校验公司名称有效性并去重。
  3. 网页抓取:Requests 将数据发送到 Bright Data Web Scraper API,由 Bright Data 抓取公司信息。
  4. AI 处理:Google Gemini AI 标准化格式并去除不一致性。
  5. 结果展示:在交互式 Streamlit 表格中展示富集数据。可下载结果或继续富集更多字段。

数据字段 ℹ️

根据公开数据可用性,每条公司记录可能包含:

  • 领导层:CEO、创始人、高管。
  • 公司信息:LinkedIn URL、服务、联系邮箱、总部、成立时间。
  • 融资信息:融资、投资方、Trustpilot 评分(如有)。
  • 更新动态:新闻、产品、招聘岗位(如有)。

前置条件 🛠️

快速开始 ⚙️

第一步 – 克隆仓库

git clone https://github.com/triposat/ai-company-enrichment.git

第二步 – 进入目录

cd ai-company-enrichment

第三步 – 创建并激活虚拟环境

# Create virtual environment
python -m venv .venv

# Activate virtual environment
# Windows:
.venv\Scripts\activate
# macOS/Linux:
source .venv/bin/activate

第四步 – 安装依赖

pip install -r requirements.txt

第五步 – 创建 .env 文件并填写

BRIGHT_DATA_API_KEY=your_bright_data_api_key_here
GEMINI_API_KEY=your_gemini_api_key_here
DATASET_ID=your_dataset_id_here

第六步 – 运行应用

streamlit run app.py

第七步

上传包含 “Company Name” 列的 CSV,并选择要富集的字段。

下一步

要进一步掌握 AI 数据富集,请利用 Bright Data 的强大工具与支持:

如需专家指导,请联系 Bright Data 支持团队

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐