Spring AI：Apache Tika 读取 Word、PPT 文档

小马爱打代码

806人浏览 · 2025-12-07 09:15:00

小马爱打代码 · 2025-12-07 09:15:00 发布

历史文章

Spring AI：对接DeepSeek实战
 Spring AI：对接官方 DeepSeek-R1 模型 —— 实现推理效果
 Spring AI：ChatClient实现对话效果
 Spring AI：使用 Advisor 组件 - 打印请求大模型出入参日志
 Spring AI：ChatMemory 实现聊天记忆功能
 Spring AI：本地安装 Ollama 并运行 Qwen3 模型
 Spring AI：提示词工程
 Spring AI：提示词工程 - Prompt 角色分类（系统角色与用户角色）
Spring AI：基于 “助手角色” 消息实现聊天记忆功能
 Spring AI：结构化输出 - 大模型响应内容
 Spring AI：Docker 安装 Cassandra 5.x（限制内存占用）&& CQL
Spring AI：整合 Cassandra - 实现聊天消息持久化
 Spring AI：多模态 AI 大模型
 Spring AI：文生图：调用通义万相 AI 大模型
 Spring AI：文生音频 - cosyvoice-V2
Spring AI：文生视频 - wanx2.1-i2v-plus
Spring AI：上手体验工具调用（Tool Calling）
Spring AI：整合 MCP Client - 调用高德地图 MCP 服务
 Spring AI：搭建自定义 MCP Server：获取 QQ 信息
 Spring AI：对接自定义 MCP Server
Spring AI：RAG 增强检索介绍
 Spring AI：Docker 安装向量数据库 - Redis Stack
Spring AI：文档向量化存储与检索
 Spring AI：提取 txt、Json、Markdown、Html、Pdf 文件数据，转换为 Document 文档

对于企业文档，Word 和 PPT 也是比较常见的格式，本文中，我们就尝试使用 Apache Tika 来读取它们并转换为 Document 文档。

Apache Tika 介绍

Apache Tika 是一个开源的内容检测与分析工具包，用于从各种格式的文件（如 PDF, DOC/DOCX, PPT/PPTX, HTML等）中提取文本内容和元数据。它通过统一的 API 简化了文档解析的复杂性。

添加依赖

编辑 pom.xml, 添加 Tika 的包依赖：

<!-- Tika -->
<dependency>
    <groupId>org.springframework.ai</groupId>
    <artifactId>spring-ai-tika-document-reader</artifactId>
</dependency>

添加完成后，记得刷新一下 Maven, 将包下载到本地仓库中。

读取 word

准备一个word文档，将其复制到 /resources/document 目录下：

接着，在 /reader 包下，新建一个 MyTikaWordReader 阅读器类：

@Component
public class MyTikaWordReader {

    @Value("classpath:/document/xxxx.docx")
    private Resource resource;

    public List<Document> loadWord() {
        // 新建 TikaDocumentReader 阅读器
        TikaDocumentReader tikaDocumentReader = new TikaDocumentReader(resource);
        // 读取并转换为 Document 文档集合
        List<Document> documents = tikaDocumentReader.get();

        // 文档分块
        TokenTextSplitter splitter = new TokenTextSplitter(); // 不设置任何构造参数，表示使用默认设置
        return splitter.apply(documents);
    }
}

上述代码中，我们通过 TikaDocumentReader 阅读器，读取完 Word 文件后，并转换为 Document 文档集合。然后通过 TokenTextSplitter 分割器，将文档分割成块 (Chunks)。

完成上述步骤后，编辑 ReaderController 控制器，声明一个 /read/word 接口，代码如下：

@RestController
@RequestMapping("/read")
public class ReaderController {

    // 省略...
    @Resource
    private MyTikaWordReader tikaWordReader;

    // 省略...

    @GetMapping(value = "/word")
    public List<Document> readWord() {
        return tikaWordReader.loadWord();
    }

}

重启后端项目，请求上述接口，如下图所示，可以看到成功将 Word 文件中的内容，转换为了对应 Document 集合：

读取 ppt

再来测试一下 Tika 读取 PPT 文件，准备一个ppt文件

复制到 /resources/document 目录：

同样的步骤，在 /reader 包下，新建一个 MyTikaPptReader 阅读器类：

@Component
public class MyTikaPptReader {

    @Value("classpath:/document/xxxx.pptx")
    private Resource resource;

    public List<Document> loadPpt() {
        // 新建 TikaDocumentReader 阅读器
        TikaDocumentReader tikaDocumentReader = new TikaDocumentReader(resource);
        // 读取并转换为 Document 文档集合
        List<Document> documents = tikaDocumentReader.get();

        // 文档分块
        // 使用自定义设置
        TokenTextSplitter splitter = new TokenTextSplitter(1000, 400, 10, 5000, true);
        return splitter.apply(documents);
    }
}

上述代码中，和读取 Word 文件逻辑不同，TokenTextSplitter 分割器配置了自定义参数，构造器各项参数作用如下：

defaultChunkSize: 每个文本块的目标大小，以 Token 令牌数为单位（默认：800 tokens）。
minChunkSizeChars: 每个文本块的最小字符大小（默认：350 characters）。
minChunkLengthToEmbed: 要包含的块的最小长度（默认：5）。
maxNumChunks: 从一个文本生成的最大块数（默认：10000）。
keepSeparator: 是否在块中保留分隔符（如换行符）（默认：true）。

完成上述步骤后，编辑 ReaderController 控制器，声明一个 /read/ppt 接口，代码如下：

@RestController
@RequestMapping("/read")
public class ReaderController {

    // 省略...
    
    @Resource
    private MyTikaPptReader tikaPptReader;

    // 省略...

    @GetMapping(value = "/ppt")
    public List<Document> readPpt() {
        return tikaPptReader.loadPpt();
    }

}

重启后端项目，浏览器请求上述接口，可以看到 PPT 也能够被读取并转换为 Document 文档集合：

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

百丽企业数字化转型失败案例分析及其AI智能名片S2B2C商城小程序的适用性探讨

2017年私有化退市后，百丽尝试通过数字化重构供应链和零售体系，但未能实现预期效果。过度依赖线下门店数据，缺乏全域数据整合能力。ERP系统与CRM系统未打通，导致用户行为数据无法闭环。通过AI智能名片与S2B2C商城的结合，传统企业可构建比百丽更高效的数字化通路。关键在于建立统一数据资产、优化组织协同、采用敏捷技术架构，避免重蹈数据孤岛与系统僵化的覆辙。AI智能名片集成微信生态能力，支持一键转发、

2048 AI社区

县域市场掘金：AI+小程序破局之道

结合S2B2C模式的小程序，能够快速触达县域消费者。这套技术方案和商业策略已在多个县域市场验证，平均实现商户上线时间缩短40%，用户留存率提升25%。关键在于将先进技术与县域特色深度融合，构建可持续的数字化生态。开源AI大模型与S2B2C商城小程序的结合为县域市场提供了全新的商业机遇。县域市场具有独特的消费习惯和商业环境，需要针对性的技术方案和市场策略。县域市场的技术架构需要轻量级、低成本且易于维

2048 AI社区

AI技术分类与应用全景

NLP使机器能够理解、生成人类语言。关键技术包括词嵌入（Word2Vec）、Transformer架构和预训练模型（如BERT）。机器学习（ML）是AI的核心技术之一，分为监督学习、无监督学习和强化学习。监督学习依赖标注数据训练模型，无监督学习从无标注数据中发现模式，强化学习通过试错优化决策。卷积神经网络（CNN）和循环神经网络（RNN）是两类典型架构，分别擅长处理图像和序列数据。多模态模型（如C