分类	项目	配置详情	备注
硬件环境	CPU	e5 2696V3(逻辑核心数>=16)	启动时分配8 cores 给 Ray
	物理内存 (RAM)	32 GB	关键瓶颈，需要精细规划共享内存
	GPU	NVIDIA GeForce RTX 3090 x 2	单卡 24GB VRAM
	网络	无线网卡 (USB)	`wlxe0ad47220334`
操作系统	OS 发行版	Ubuntu 24.04 LTS	内核版本 `6.14.0-37-generic`
	宿主机 IP	10.193.195.59(机器正常活动网卡)	无线网络 IP，作为集群通信地址
基础软件	Docker 管理	1Panel	开源 Linux 服务器运维管理面板
	NVIDIA 驱动	570.211.01	支持 CUDA 12.8
	Docker 网络	Host 模式 (`--network host`)	容器与宿主机共享网络栈，性能最优
核心环境	基础镜像	`ray-vllm:3090-cuda12.8`	包含 Ray, vLLM, CUDA 12.8
	Python	3.12.3	Ray 脚本路径显示
集群配置	Ray 版本	2.53.0	支持 `ray metrics launch-prometheus`
	集群架构	Head Node + Worker Node (双容器)	`ray-node-0` (Head), `ray-node-1` (Worker)
	通信端口	6379 (GCS), 8265 (Dashboard), 8080 (Metrics)	确保 6379 未被 Redis 占用
资源分配	GPU 策略	独占模式	`--gpus all` + `NVIDIA_VISIBLE_DEVICES=0/1`
	共享内存	12 GB / 容器	物理内存 32GB 下的折中方案
	内存优化	Memfd 启用	环境变量 `VLLM_USE_MEMFD=1` 绕过 `/dev/shm` 限制
监控栈(未成功实践)	Prometheus	v3.9.1	由 `ray metrics` 自动安装，运行于宿主机
	Grafana	Latest (Docker)	运行于宿主机，数据源连接 Prometheus
	Dashboard	Ray Dashboard	http://10.193.195.59:8265

维度	伴生文档 (Ray+vLLM)	本文档 (Ray+Transformers)
并行模式	张量并行 (Tensor Parallelism)	数据并行 (Data Parallelism)
模型分布	单模型权重切分至2张GPU	2个完整模型副本，每卡独立
请求处理	单请求跨2张GPU协同计算	不同请求分发至不同GPU独立计算
适用场景	大模型（>13B）单请求推理	中高并发独立请求推理
内存占用	模型分片，单卡存部分参数	每卡存完整模型（4B约8G/卡）
Ray角色	分布式计算基础设施	服务编排器 + Actor调度器

对比项	Ray+vLLM	Ray+Transformers
启动命令	`vllm serve`	`serve run` (Ray Serve)
模型加载	自动分片到2张GPU	每卡独立加载完整模型
显存占用	~5GB/卡（4B模型分片）	~8GB/卡（4B模型完整复制）
并发特性	连续批处理	独立Actor并行处理
容错性	单卡故障整体失效	单卡故障仅影响该副本
扩缩容	需重启调整TP大小	动态调整num_replicas

Docker+NVIDIA Container Toolkit+Ray+双3090容器transformer数据并行模式分布式联合运行Qwen3-4B-Instruct-2507模型

缘友一世

文章目录

零 实战环境和架构差异

0.0 核心架构

0.1 实验软硬件环境说明

0.2 架构差异说明

二 Docker和NVIDIA Container Toolkit准备

2.1 Docker环境准备

2.2 NVIDIA Container Toolkit环境准备

三 定制化Docker镜像

3.1 构建镜像存放位置，保持和1panel存放位置一致。

3.2 创建 Dockerfile文件

3.3 构建 Docker 镜像

3.4 启动双 Docker 容器（单容器单3090，桥接网络）

3.5 验证容器状态

四 搭建 Ray 分布式集群

4.1 确定宿主机IP（集群通信地址）

4.2 主从节点ray启动

4.5 查看Ray仪表盘

4.6 节点内验证Ray集群状态

4.7 模型准备

五 Ray+transformer数据并行运行Qwen3-4B模型

5.1 创建Ray Serve部署脚本

5.2 环境变量配置与启动方式

5.3 环境变量设置和服务启动

5.4 GPU状态检测

六 交互式分布式推理（快速测试）

6.1 服务接口测试

6.2 测试数据并行分发

6.3 现代化交互式对话

七 与vLLM模式的关键差异

所有评论(0)

缘友一世

零实战环境和架构差异

三定制化Docker镜像

四搭建 Ray 分布式集群

六交互式分布式推理（快速测试）

七与vLLM模式的关键差异