AI 智能体、AI 工作流与私有 AI 大模型,想要解决具体业务场景,都离不开外部数据集和知识库支撑。如 AI 客服要用到帮助文档、常见问答,AI 程序员要依赖开发文档、技术规范……

这些资料单靠人工手动收集整理,又慢又累。可将这份繁琐的重复性工作交给简数采集器:

  • 简单高效:可视化界面,一键自动生成采集配置,无需懂技术;
  • 智能处理:自动清洗并整理为结构化数据,支持自定义格式;
  • 灵活对接:多格式导出(如Excel、TXT、JSON等),也可通过API接入AI知识库。

为 AI Agent (智能体)相关应用提供高效、便捷的数据支持。

为帮助普通用户快速上手,下文将通过实例演示简数的可视化配置方法,全程无需编写一行代码,鼠标点选即可,快速实现帮助文档的自动批量采集。

目录

1. 创建采集任务

1)创建 "详情页" 采集模式任务

2)可视化配置详情页采集规则(点选操作)

2. 无限循环采集配置

1)启用无限循环采集

2)点选循环的链接

3)执行采集

3. 将采集的数据接入AI应用

1)导出文件,手动上传 AI 平台

2)API接口对接,直接集成到AI知识库


1. 创建采集任务

简数采集任务用于配置网站的采集规则。一个任务通常对应一个网站,其功能包括指定采集内容、设置图片下载、自动采集与发布等。

1)创建 "详情页" 采集模式任务

在采集任务列表点击【+创建采集任务(高级模式:表格|零散|Json|无限循环)】。

创建采集任务,选用详情页采集模式

采集模式选择【详情页(单网页:零散、批量或无限循环)】→ 填写任务名和详情页网址,保存 → 打开详情提取器配置采集规则。

提示:通常填写第一个或最新的详情页网址,示例为:https://doc.keydatas.com/

输入一个详情页网址,作为样本模板配置采集规则

2)可视化配置详情页采集规则(点选操作)

在详情提取器的可视化窗口,通过鼠标点选目标内容,即可简单快捷完成采集配置,常用字段为title(标题)、content(正文)、pubDate(时间)、tag(标签)等。

自动生成采集规则,可视化点选操作,不懂技术也能轻松使用

每个字段可添加数据处理,主要有文本替换、提取内容、数据过滤、填充版权说明等。

预数据处理设置,主要有文本替换、提取内容、数据过滤、填充版权说明等

2. 无限循环采集配置

无限循环采集功能:在详情页采集过程中,系统会不断收集页面中的其它相似链接并加入采集(如下一篇、下一个等),通常配置一个页面,即可采集站点大部分内容。

1)启用无限循环采集

打开详情提取器上方的【无限循环启用配置】,勾上【启用无限循环采集】,保存。

启用无限循环采集功能

2)点选循环的链接

在详情页提取器,先开启【无限点选开关】,再点选要采集的其他详情页链接所在区域(如下一篇文章等按钮),保存。

鼠标点选下一篇文章等按钮所在区域,系统自动提取其中的网址链接

提示:若无配置循环区域,系统将自动获取页面中的所有链接加入采集。

3)执行采集

配置完成后保存并关闭详情提取器,返回任务基本信息页,点击【启动采集】→ 开始采集。

启动任务进行无限循环采集

该任务采集每个详情页内容时,会一并获取页面中的下一个文章链接,添加到下轮采集,一直循环采集,直到无新增的链接为止(即最后一篇文章)。

以下示例图为采集完成结果数据。

无限循环采集结果,系统自动循环采集到无新增的文章链接为止

3. 将采集的数据接入AI应用

简数采集器支持多种AI对接方式,可将采集到的结构化数据快速用于AI知识库或数据集,确保AI基于指定范围的准确信息解决或回复问题。

1)导出文件,手动上传 AI 平台

简数支持导出采集数据为Excel、Json、TXT等格式文件,再上传接入至AI智能体、AI Bot开发平台的专属知识库或数据集(如扣子coze,腾讯ima,Claude skill等),操作简单便捷。

简数采集器可一键导出采集结果数据为Excel、Json、TXT等格式文件,提供给AI知识库

比如导出TXT文件,再上传至扣子AI Bot开发平台,供AI智能体使用。

将导出的文件上传至扣子Coze 知识库,供 AI 智能体使用

2)API接口对接,直接集成到AI知识库

通过简数开放接口API(JSON格式),可直接给AI Agent知识库集成,支持获取或更新采集任务信息、控制云采集、读取采集结果数据等,目前已接入 Dify 平台,后续将陆续加入其它AI平台。

具体操作可在Dify平台知识库中,添加外部知识库API即可。

通过Dify平台 “连接外部知识库”的方式可直接接入简数采集数据

除上述核心功能外,简数采集器还具备多种专业数据爬虫功能,进一步提升采集效率:

        多样化的图片下载、按关键词全网采集、文件数据导入(支持火车头、八爪鱼等采集器的导出文件)、多语言翻译工具、智能数据分析,以及AI写作生成(Deepseek、豆包、文心、通义、Kimi等)。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐