Openshift AI系列3-基于vLLM的模型部署

由于社区的vllm镜像:vllm-openai:v0.6.6.post1启动需要特别的权限，所以需要添加scc anyuid到项目的default SA中。请参考以下步骤进行模型的部署，注意在使用data connection时，可选择使用位于s3或URI类型的模型数据。以下操作在项目中操作，在模型部署前必须先建立data connection来访问模型文件。在minio UI中上传本地镜像目录及

mikerain123

967人浏览 · 2025-03-03 16:40:13

mikerain123 · 2025-03-03 16:40:13 发布

上传模型到s3存储

在minio UI中上传本地镜像目录及文件到对应的bucket中

访问Ｏpenshift AI Console

给项目添加权限

由于社区的vllm镜像:vllm-openai:v0.6.6.post1启动需要特别的权限，所以需要添加scc anyuid到项目的default SA中。

如果使用红帽官方的镜像，不需要添加特别的权限scc权限。

oc new-project test-ai

oc adm policy add-scc-to-user anyuid -z default -n test-ai

创建vLLM ServingRuntime

此步骤可由集群管理员创建，一般不需要项目组进行频繁操作。

使用以下的yaml文件

apiVersion: serving.kserve.io/v1alpha1

kind: ServingRuntime

labels:

opendatahub.io/dashboard: "true"

metadata:

annotations:

openshift.io/display-name: vLLM-0.6.6

name: vllm-0.6.6

spec:

builtInAdapter:

modelLoadingTimeoutMillis: 90000

containers:

- args:

- --model=/mnt/models/

- --download-dir=/models-cache

- --port=8080

- --trust-remote-code

- --disable-frontend-multiprocessing

- --max-model-len=32000

- --served-model-name={{.Name}}

- --gpu-memory-utilization=0.95

- --dtype=float16

- --tensor-parallel-size=2

- --quantization=gptq_marlin

image: quay.io/qxu/vllm-openai:v0.6.6.post1

name: kserve-container

ports:

- containerPort: 8080

name: http1

protocol: TCP

multiModel: false

supportedModelFormats:

- autoSelect: true

name: pytorch

创建Data Connection

data connection用于建立推理环境与模型文件的关联。

以下操作在项目中操作，在模型部署前必须先建立data connection来访问模型文件。

部署模型服务

请参考以下步骤进行模型的部署，注意在使用data connection时，可选择使用位于s3或URI类型的模型数据。

以下操作在项目中执行：

测试访问模型服务

访问模型的外部路由进行测试

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

RTX 4090 驱动的 AI 创作新时代：从概念到落地

RTX 4090 不仅是游戏显卡，更是 AI 创作和内容生产的核心算力平台。无论是图像生成、视频特效、科研模拟还是多模态创作，它都能显著提升效率和质量。在 AI 生成内容快速发展的今天，RTX 4090 带来的算力红利，将推动创作者、科研人员和中小企业迎来创作效率的新高峰。

cover

SpringBoot+微信小程序社区互助养老微信端平台完整项目源码+SQL脚本+接口文档【Java Web毕设】

cover

基于SpringBoot+微信小程序的医院挂号系统管理系统设计与实现【Java+MySQL+MyBatis完整源码】

所有评论(0)

查看更多评论

mikerain123

已为社区贡献1条内容