vLLM API 服务启动日志详解

本文解析了vLLM API服务启动日志的功能。当执行vLLM服务启动命令后，终端会输出服务地址(http://0.0.0.0:8000)和可用API路由列表，包括系统路由、基础功能、大模型接口等。日志显示服务进程ID(2520)和启动完成状态，表明API服务已就绪，可通过指定端口访问交互式文档或调用各类模型接口。这些日志信息帮助用户了解服务运行状态和可用功能。

a503244552

355人浏览 · 2025-09-24 23:40:14

a503244552 · 2025-09-24 23:40:14 发布

当我们使用vLLM终端命令行“VLLM_USE_MODELSCOPE=true vllm serve /root/autodl-tmp/Qwen/Qwen3-8B --served-model-name Qwen3-8B --max_model_len 8192 --reasoning-parser deepseek_r1”，调用API服务路由时，在终端会输出一些系列API服务日志，本篇文章将会解析其中的日志有什么作用。

第一步：调用VLLM_USE_MODELSCOPE=true vllm serve /root/autodl-tmp/Qwen/Qwen3-8B --served-model-name Qwen3-8B --max_model_len 8192 --reasoning-parser deepseek_r1

第二步：终端输出一系列vLLM API 服务启动日志，它在告诉你服务启动成功了，并且有哪些 API 路由 (endpoints) 可以调用，如下图所示

逐条解析如下：

1. 启动信息

(APIServer pid=2520) INFO 09-24 11:04:27 [api_server.py:1019] Starting vLLM API server 0 on http://0.0.0.0:8000

APIServer pid=2520：说明这是一个进程 ID（2520）对应的 API 服务。
**http://0.0.0.0:8000**：服务监听的地址，`0.0.0.0` 表示对所有网络接口开放，端口是 8000。
👉 也就是说你可以在本机通过 http://localhost:8000 或者在同一局域网其他机器用 http://<你的IP>:8000 访问。

2. 路由列表

接下来日志一条条列出了可用的 HTTP 路径 (API endpoints) 和对应的 方法 (GET, POST, HEAD)。

常见的系统路由

/openapi.json → 返回 OpenAPI 规范，描述所有 API。
/docs → Swagger UI 文档 (可视化交互式 API 页面)。
/redoc → ReDoc 文档界面。
/health → 健康检查 (GET)。
/metrics → Prometheus 监控指标 (GET)。

基础功能

/tokenize (POST) → 将文本转换成 token。
/detokenize (POST) → 将 token 转回文本。
/v1/models (GET) → 查看已加载的模型列表。
/version (GET) → 返回 vLLM 版本号。

核心大模型接口 (兼容 OpenAI 风格)

/v1/completions (POST) → 传统的 completion 接口（给 prompt，返回生成的文本）。
/v1/chat/completions (POST) → Chat 接口（支持 role-based 格式）。
/v1/embeddings (POST) → 向量 embedding 生成。
/v1/audio/transcriptions (POST) → 语音转文字 (ASR)。
/v1/audio/translations (POST) → 语音翻译。

增强功能

/v1/responses (POST) → 新版统一接口 (experimental)，更强大，支持多模态/流式响应。
/rerank, /v1/rerank, /v2/rerank (POST) → 语义排序接口。
/classify (POST) → 分类接口。
/score, /v1/score (POST) → 打分接口，比如评估生成的质量。
/pooling (POST) → 向量池化 (比如 mean pooling)。
/invocations (POST) → 通用调用入口。

伸缩/弹性相关

/scale_elastic_ep, /is_scaling_elastic_ep → 和 弹性推理（elastic endpoint） 有关。
/load (GET), /ping (POST/GET) → 服务负载与连通性检查。

3. 最后几行

(APIServer pid=2520) INFO:     Started server process [2520]
(APIServer pid=2520) INFO:     Waiting for application startup.
(APIServer pid=2520) INFO:     Application startup complete.

Started server process：说明 Flask/FastAPI 后端启动了。
Application startup complete：服务完全就绪，可以开始请求 API。

✅ 总结：
这段输出的意思是 vLLM API 服务已经启动并监听在 http://0.0.0.0:8000，并且列出了所有可用的 API 路由。

你可以在浏览器访问 http://localhost:8000/docs 打开交互式文档。
如果要调用模型，可以直接用 curl 或 Python 调用 http://localhost:8000/v1/chat/completions 这样的接口。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

一文读懂AI大模型核心术语：从参数到Agent的完整指南

2048 AI社区

结合AI大模型的本地知识库搭建方法总结，大模型入门到精通，收藏这篇就足够了！

2048 AI社区

Paint API之—— Xfermode与PorterDuff详解(三)

本文详解Android中PorterDuff的18种混合模式，包括ADD、CLEAR、DARKEN等，通过公式解析Alpha通道和颜色通道的计算方式。每种模式都配有组合逻辑、处理方式和效果示例说明，如ADD模式会使颜色叠加变亮，CLEAR模式会完全透明化等。文中还提供了与WebView、Socket集成的实战场景，帮助开发者系统掌握PorterDuff混合模式的应用。