Hugging Face TGI 与 Spring AI 集成部署实践

TGI是什么？Hugging Face 推出的高性能 LLM 部署推理服务，适合文本生成任务。Spring AI作用？让 Java 项目低门槛对接 Hugging Face 等模型服务，提供自动配置和调用接口。集成流程？云端部署模型 → 获取 API KEY 和 Endpoint → Spring AI 配置 → 业务代码调用 → 云端推理 → 返回结果。图表理解？flowchart：整体流程梳理

北漂老男孩

440人浏览 · 2025-11-13 10:53:15

北漂老男孩 · 2025-11-13 10:53:15 发布

Hugging Face TGI 与 Spring AI 集成部署实践

一、概述

随着大语言模型（LLM）在各类应用中的普及，模型的高效部署与服务成为业务落地的关键。Hugging Face 提供了 Text Generation Inference (TGI) 作为专用的 LLM 部署方案，而 Spring AI 则帮助 Java 开发者快速集成和调用这些云端模型。本文将系统性梳理相关技术、背景、集成流程，并用多种图表展示结构优化方案。

二、名词解释

名词	解释
LLM	大语言模型（Large Language Model），如 GPT、Llama、Baichuan 等。
TGI	Text Generation Inference，Hugging Face 提供的针对文本生成任务优化的模型推理服务。
Spring AI	Spring 官方推出的 AI 集成框架，支持多种模型服务端点，包括 Hugging Face。
Inference Endpoint	推理端点，模型部署后的 API 访问地址。
API Token	用于鉴权的密钥，保证安全访问模型服务。

三、项目背景与发展历史

1. Hugging Face TGI 发展历程

2023年初：Hugging Face 发布 TGI，专为 LLM 部署优化，支持高并发、流式输出和内存管理。
持续迭代：支持越来越多主流模型架构（如 Llama、Falcon、Baichuan），并对推理速度和资源占用持续优化。
云服务化：推出 Hugging Face Inference Endpoints，用户可一键部署模型到云端，获得 API 访问能力。

2. Spring AI 项目历程

2023年中：Spring 官方响应 AI 热潮，推出 Spring AI 项目，支持 Hugging Face、OpenAI 等主流模型服务。
模块化设计：Spring AI 采用 starter 模式，支持自动配置和灵活扩展，降低 Java 项目对接 AI 的门槛。

参考资料

四、系统集成流程（结构优化与简化说明）

1. 总体流程（flowchart）

说明：开发者首先在 Hugging Face 云端部署模型并获取 API KEY 和 Endpoint，然后通过 Spring AI 配置属性（application.properties/yml/env），自动或手动创建 ChatModel，业务代码调用模型生成文本，请求发送到 TGI，模型返回结果，最后业务处理并展示。

2. 组件状态变化（stateDiagram-v2）

说明：系统从配置（Configuring）到初始化（Initialized），进入就绪状态（Ready），每次有请求时进入服务请求（ServingRequest），等待模型返回（WaitingResponse），返回后再次进入就绪状态。

3. 关键调用时序（sequenceDiagram）

说明：开发者配置并初始化模型，调用接口生成文本，Spring AI 框架负责与 TGI 通信，获取并返回结果。

五、核心代码示例

1. 自动配置（推荐）

# src/main/resources/application.properties
spring.ai.huggingface.chat.api-key=YOUR_API_KEY
spring.ai.huggingface.chat.url=YOUR_INFERENCE_ENDPOINT_URL

2. 控制器代码

@RestController
public class ChatController {
    private final HuggingfaceChatModel chatModel;

    @Autowired
    public ChatController(HuggingfaceChatModel chatModel) {
        this.chatModel = chatModel;
    }

    @GetMapping("/ai/generate")
    public Map generate(@RequestParam(value = "message", defaultValue = "Tell me a joke") String message) {
        return Map.of("generation", this.chatModel.call(message));
    }
}

3. 环境变量推荐（安全性）

spring:
  ai:
    huggingface:
      chat:
        api-key: ${HUGGINGFACE_API_KEY}
        url: ${HUGGINGFACE_ENDPOINT_URL}

export HUGGINGFACE_API_KEY=你的API密钥
export HUGGINGFACE_ENDPOINT_URL=你的端点URL

六、速记口总结（知其然更知其所以然）

TGI是什么？
Hugging Face 推出的高性能 LLM 部署推理服务，适合文本生成任务。
Spring AI作用？
让 Java 项目低门槛对接 Hugging Face 等模型服务，提供自动配置和调用接口。
集成流程？
云端部署模型 → 获取 API KEY 和 Endpoint → Spring AI 配置 → 业务代码调用 → 云端推理 → 返回结果。
图表理解？
- flowchart：整体流程梳理
- stateDiagram-v2：组件状态变化
- sequenceDiagram：关键调用时序

七、权威资料与参考文献

八、结语

本文系统梳理了 Hugging Face TGI 与 Spring AI 的集成方案，帮助你快速理解原理、流程和最佳实践。通过多种图表结构优化说明，助力你在实际项目中高效落地 LLM 服务。希望速记口总结能让你知其然更知其所以然，灵活应对未来 AI 业务需求。

如需深入代码实践或遇到问题，建议查阅官方文档、社区案例或直接提问获得更多帮助。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

DeepCode: 开源智能体编程，把论文直接转换成可以执行的代码

2048 AI社区

Epool学习

epoll将selectpoll的“每次传入全部描述符”拆分为epoll_ctl（管理列表）和epoll_wait（等待事件）两个步骤，避免了无效的重复拷贝和遍历。内核通过为每个描述符注册回调函数，主动将就绪的描述符加入就绪链表，实现了事件通知的 O(1) 复杂度。核心的红黑树和就绪链表常驻内核，避免了大量内存拷贝。正是这些精巧的设计，使得epoll能够轻松应对 C10K 甚至 C10M 级别的高