openshift AI 3.X离线安装指南系列-环境部署要求

云道轩

958人浏览 · 2025-11-17 07:34:59

云道轩 · 2025-11-17 07:34:59 发布

在断开网络连接的环境中为红帽OpenShift集群安装Red Hat OpenShift AI前，必须满足以下要求：

产品订阅
• 需持有Red Hat OpenShift AI Self-Mananaged产品订阅
• 如需新购订阅，请联系您的红帽客户经理。若尚未分配客户经理，请通过 https://www.redhat.com/en/contact 填写申请表

集群管理员访问权限
• 需拥有具备集群管理员权限的OpenShift集群（可选择现有集群或新建集群）。创建断开连接环境的集群请遵循《OpenShift容器平台文档：断开连接环境安装集群》
• 集群安装完成后，根据《OpenShift容器平台文档：为受限集群配置样本运算符》配置集群样本运算符
• 安装Operator时，集群至少需配备2个工作节点，且为OpenShift AI预留至少8核CPU及32GiB内存（实际运行需配置超出最低要求的额外资源）
• 在单节点OpenShift部署时，该节点需配备至少32核CPU及128GiB内存
• 集群需配置支持动态置备的默认存储类别。执行oc get storageclass命令确认默认存储类状态（若存储类名称旁未标注"default"，请按《OpenShift容器平台文档：修改默认存储类》进行配置）。动态置备详情参阅《动态置备指南》
• 确保集群未安装Open Data Hub

有关管理OpenShift集群主机的详细信息，请参阅《主机管理概述》。

为 OpenShift 配置的身份提供商

Red Hat OpenShift AI 使用与 Red Hat OpenShift Container Platform 相同的身份验证系统。有关配置身份提供商的更多信息，请参阅《理解身份提供商配置》。

需以具有 cluster-admin 角色的用户身份访问集群（不允许使用 kubeadmin 用户）。如需为用户分配集群管理员权限，请遵循以下相关 OpenShift 文档中的步骤：
• OpenShift Container Platform：《创建集群管理员》
• OpenShift Dedicated：《管理 OpenShift Dedicated 管理员》
• ROSA：《创建集群管理员用户以实现快速集群访问》

镜像主机需具备互联网访问权限

除互联网连接外，镜像主机还需能够访问以下域名，以获取 OpenShift AI 自托管安装所需的镜像：
• cdn.redhat.com
• subscription.rhn.redhat.com
• registry.access.redhat.com
• registry.redhat.io
• quay.io

对于使用 NVIDIA 基础镜像构建或定制基于 CUDA 的镜像，或直接从 NVIDIA NGC 目录拉取制品的环境，还需额外访问以下域名：
• ngc.download.nvidia.cn
• developer.download.nvidia.com

请注意：标准 OpenShift AI 自托管安装并不强制要求访问这些 NVIDIA 域。OpenShift AI 使用的基于 CUDA 的容器镜像已预构建并托管在 Red Hat 的 registry.redhat.io 注册表中。

创建自定义命名空间

默认情况下，OpenShift AI 使用预定义的命名空间，但您可以根据需要为操作器、应用程序和工作台定义自定义命名空间。由 OpenShift AI 创建的命名空间通常在其名称中包含 openshift 或 redhat。请勿重命名这些系统命名空间，因为它们是 OpenShift AI 正常运行所必需的。如果使用自定义命名空间，则必须在安装 OpenShift AI 操作器之前按要求创建并标记它们。

在断开连接的环境中执行流水线之前，必须将相关镜像上传至您的私有注册表。详细信息请参阅《在受限环境中运行流水线的镜像镜像方法》。

您可以将流水线产物存储在 S3 兼容的对象存储桶中，以避免占用本地存储空间。为此，您需要先在存储账户上配置对 S3 存储桶的写入权限。

若在启用 FIPS 模式的集群上安装 OpenShift AI，所有用于 AI 流水线的自定义容器镜像必须基于 UBI 9 或 RHEL 9 构建。这可确保与通过 FIPS 认证的流水线组件兼容，并避免因 OpenSSL 或 GNU C 库（glibc）版本不匹配而引发的错误。

安装 RAG 依赖项

若计划通过 Llama Stack 部署检索增强生成（RAG）工作负载，需满足以下要求：
• 集群中需配备启用 GPU 的节点，并已安装节点特性发现操作器与 NVIDIA GPU 操作器。详细信息请参阅《安装节点特性发现操作器》和《启用 NVIDIA GPU》
• 需具备用于存储模型产物的存储空间
• 已满足 KServe 安装先决条件

对象存储访问权限

OpenShift AI 的多个组件需要或可选择使用 S3 兼容对象存储（如 AWS S3、MinIO、Ceph 或 IBM Cloud Storage）。对象存储是一种数据存储机制，允许用户以对象或文件形式访问数据。S3 API 是基于 HTTP 访问对象存储服务的公认标准。

对象存储必须能被 OpenShift 集群访问，且需部署在与集群相同的断网环境中。

以下组件必须使用对象存储：
• 单模型/多模型服务平台：用于部署已存储模型。请参阅《在单模型服务平台部署模型》或《使用多模型服务平台部署模型》
• AI 流水线：用于存储产物、日志及中间结果。请参阅《配置流水线服务器》和《关于流水线日志》

以下组件可选择使用对象存储：
• 工作台：用于访问大型数据集。请参阅《为项目添加连接》
• 分布式工作负载：用于拉取输入数据及推送结果。请参阅《通过 AI 流水线运行分布式数据科学工作负载》
• 流水线内部执行的代码：例如将生成的模型存储至对象存储。请参阅《Jupyterlab 中的流水线概述》