当我们使用vLLM终端命令行“VLLM_USE_MODELSCOPE=true vllm serve /root/autodl-tmp/Qwen/Qwen3-8B --served-model-name Qwen3-8B --max_model_len 8192 --reasoning-parser deepseek_r1”,调用API服务路由时,在终端会输出一些系列API服务日志,本篇文章将会解析其中的日志有什么作用。


第一步:调用VLLM_USE_MODELSCOPE=true vllm serve /root/autodl-tmp/Qwen/Qwen3-8B --served-model-name Qwen3-8B --max_model_len 8192 --reasoning-parser deepseek_r1

第二步:终端输出一系列vLLM API 服务启动日志,它在告诉你服务启动成功了,并且有哪些 API 路由 (endpoints) 可以调用,如下图所示

逐条解析如下:

1. 启动信息

(APIServer pid=2520) INFO 09-24 11:04:27 [api_server.py:1019] Starting vLLM API server 0 on http://0.0.0.0:8000
  • APIServer pid=2520:说明这是一个进程 ID(2520)对应的 API 服务。

  • **http://0.0.0.0:8000**:服务监听的地址,`0.0.0.0` 表示对所有网络接口开放,端口是 8000
    👉 也就是说你可以在本机通过 http://localhost:8000 或者在同一局域网其他机器用 http://<你的IP>:8000 访问。


2. 路由列表

接下来日志一条条列出了可用的 HTTP 路径 (API endpoints) 和对应的 方法 (GET, POST, HEAD)

常见的系统路由
  • /openapi.json → 返回 OpenAPI 规范,描述所有 API。

  • /docs → Swagger UI 文档 (可视化交互式 API 页面)。

  • /redoc → ReDoc 文档界面。

  • /health → 健康检查 (GET)。

  • /metrics → Prometheus 监控指标 (GET)。

基础功能
  • /tokenize (POST) → 将文本转换成 token。

  • /detokenize (POST) → 将 token 转回文本。

  • /v1/models (GET) → 查看已加载的模型列表。

  • /version (GET) → 返回 vLLM 版本号。

核心大模型接口 (兼容 OpenAI 风格)
  • /v1/completions (POST) → 传统的 completion 接口(给 prompt,返回生成的文本)。

  • /v1/chat/completions (POST) → Chat 接口(支持 role-based 格式)。

  • /v1/embeddings (POST) → 向量 embedding 生成。

  • /v1/audio/transcriptions (POST) → 语音转文字 (ASR)。

  • /v1/audio/translations (POST) → 语音翻译。

增强功能
  • /v1/responses (POST) → 新版统一接口 (experimental),更强大,支持多模态/流式响应。

  • /rerank, /v1/rerank, /v2/rerank (POST) → 语义排序接口。

  • /classify (POST) → 分类接口。

  • /score, /v1/score (POST) → 打分接口,比如评估生成的质量。

  • /pooling (POST) → 向量池化 (比如 mean pooling)。

  • /invocations (POST) → 通用调用入口。

伸缩/弹性相关
  • /scale_elastic_ep, /is_scaling_elastic_ep → 和 弹性推理(elastic endpoint) 有关。

  • /load (GET), /ping (POST/GET) → 服务负载与连通性检查。


3. 最后几行

(APIServer pid=2520) INFO:     Started server process [2520]
(APIServer pid=2520) INFO:     Waiting for application startup.
(APIServer pid=2520) INFO:     Application startup complete.
  • Started server process:说明 Flask/FastAPI 后端启动了。

  • Application startup complete:服务完全就绪,可以开始请求 API。


✅ 总结:
这段输出的意思是 vLLM API 服务已经启动并监听在 http://0.0.0.0:8000,并且列出了所有可用的 API 路由。

  • 你可以在浏览器访问 http://localhost:8000/docs 打开交互式文档。

  • 如果要调用模型,可以直接用 curl 或 Python 调用 http://localhost:8000/v1/chat/completions 这样的接口。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐