K8S Base: Pod Scheduler调度机制

本文深入解析Kubernetes四大核心调度机制：1. 节点亲和性(nodeAffinity)：通过硬性/软性规则精准定位目标节点，支持复杂逻辑判断；2. Pod亲和性(podAffinity)与反亲和性(podAntiAffinity)：管理微服务间关系网络，实现性能优化与高可用；3. 污点(Taint)与容忍(Toleration)：通过反向控制机制实现节点访问控制，包含三种效果类型；4. 调

summer_west_fish

374人浏览 · 2023-09-06 17:40:15

summer_west_fish · 2023-09-06 17:40:15 发布

本文将带领你深入探索 Kubernetes 提供的四种核心调度机制：节点亲和性(nodeAffinity)、Pod 亲和性(podAffinity)、Pod 反亲和性(podAntiAffinity)以及污点(taint)和容忍(toleration)。我们将从底层原理出发，通过丰富的实例和场景分析，帮助你掌握这些看似复杂但极其强大的功能。

Kubernetes默认调度流程

预选策略：过滤不符合基础条件的节点（如资源不足、标签不匹配等）。

优选函数：对预选节点打分（如节点负载、拓扑距离等），按分数排序。

最终选择：从最高分节点中随机选取，可通过预设策略影响结果。

一、节点亲和性 (nodeAffinity)：精准定位目标节点

1、从 nodeSelector 到 nodeAffinity 的进化历程

早期的 Kubernetes 提供了简单的 nodeSelector 机制，它允许用户通过节点标签来选择目标节点。虽然简单易用，但 nodeSelector 的功能相当有限——它只支持精确匹配，无法表达"最好但不必须"这样的柔性需求，也不支持更复杂的逻辑判断。

spec:
  nodeSelector:
    disktype: ssd
    memory: "16"

nodeAffinity 的出现彻底改变了这一局面。它不仅继承了 nodeSelector 的所有功能，还引入了两大重要概念：

硬性要求（requiredDuringSchedulingIgnoredDuringExecution）：这些规则必须被满足，否则 Pod 将无法被调度。这就像找工作时的硬性条件，比如"必须拥有计算机科学学位"。
软性偏好（preferredDuringSchedulingIgnoredDuringExecution）：这些条件会被优先考虑，但不是强制性的。类似于"有开源项目贡献经验者优先"这样的招聘要求。

1.2 深入解析节点亲和性的工作机制

让我们通过一个具体的例子来理解 nodeAffinity 的实际应用场景。假设你正在部署一个高性能计算应用，这个应用对计算资源有特殊要求：

apiVersion: v1
kind:Pod
metadata:
name:hpc-pod
spec:
affinity:
    nodeAffinity:
      requiredDuringSchedulingIgnoredDuringExecution:
        nodeSelectorTerms:
        -matchExpressions:
          -key:cpu-architecture
            operator:In
            values:
            -avx512
      preferredDuringSchedulingIgnoredDuringExecution:
      -weight:80
        preference:
          matchExpressions:
          -key:memory-speed
            operator:Gt
            values:
            -"3200"
      -weight:20
        preference:
          matchExpressions:
          -key:storage-type
            operator:In
            values:
            -nvme
containers:
-name:hpc-app
    image:hpc-application:latest

在这个配置中，我们定义了三个层次的调度要求：

绝对必要条件：节点必须支持 AVX-512 指令集。没有这个特性的节点会被直接排除在考虑范围之外。
首要优化目标：内存速度越快越好。这个条件被赋予了 80% 的权重，意味着调度器会优先考虑内存速度超过 3200MHz 的节点。
次要优化目标：如果可能，优先选择配备 NVMe 存储的节点。这个条件的权重较低(20%)，只有在内存速度相近的情况下才会产生影响。

1.3 操作符的灵活运用

nodeAffinity 提供了丰富的操作符来满足各种匹配需求：

In/NotIn：适用于多值匹配的场景。比如将 Pod 部署到美国东部或欧洲西部的数据中心：values: ["us-east-1", "eu-west-1"]
Exists/DoesNotExist：用于检查标签是否存在，而不关心具体值。例如确保节点有 GPU 标签：operator: Exists
Gt/Lt：用于数值比较。典型的应用场景包括内存大小比较(memory-size Gt "16")或 CPU 核心数比较(cpu-cores Gt "8")

这些操作符的组合使用可以表达极其复杂的节点选择逻辑。例如，你可能需要选择那些：

位于亚洲地区
不是测试环境
具有至少 32GB 内存
配备了特定型号的 GPU
但不是即将退役的老旧机型

这样的复杂条件用 nodeAffinity 可以轻松表达，而用传统的 nodeSelector 几乎不可能实现。

1.4 实际应用中的注意事项

虽然 nodeAffinity 功能强大，但在实际使用中也需要注意几个关键点：

标签管理至关重要：nodeAffinity 完全依赖节点标签工作。必须建立完善的标签管理策略，确保所有节点都被正确标记，并且标签命名保持一致性。混乱的标签系统会让 nodeAffinity 规则难以维护。
避免过度约束：设置太多硬性要求可能导致 Pod 无法被调度。特别是在集群资源紧张时，应该谨慎评估哪些条件是真正必须的，哪些可以用软性偏好代替。
考虑动态环境：在云环境中，节点可能随时被添加或移除。设计 nodeAffinity 规则时需要考虑这种动态性，避免规则过于依赖特定节点。
性能影响：复杂的 nodeAffinity 规则会增加调度器的计算负担。在大规模集群中(节点数超过1000)，可能需要优化规则复杂度或考虑使用多个调度器。

二、Pod 亲和性与反亲和性：微服务间的精妙舞蹈

2.1 理解 Pod 间关系的本质

在微服务架构中，服务之间的关系网络往往比单个服务的特性更为重要。某些服务需要紧密协作，共同完成业务请求；而另一些服务则需要相互隔离，确保故障不会扩散。Pod 亲和性(podAffinity)和反亲和性(podAntiAffinity)正是为了管理这种复杂的关系网络而设计的。

想象一个典型的电商应用场景：

产品目录服务需要与缓存服务紧密配合，减少网络延迟
多个支付服务实例应该分散在不同节点，防止单点故障
后台批处理作业最好不要与在线服务争夺资源

这些需求都可以通过 podAffinity 和 podAntiAffinity 精确实现。

2.2 拓扑域：理解调度的边界

拓扑域(topologyKey)是理解 Pod 亲和性工作的关键概念。它定义了"亲近"或"远离"的范围边界。常见的拓扑域包括：

节点级别(kubernetes.io/hostname）：控制 Pod 是否在同一物理节点
机架级别（rack）：控制 Pod 是否在同一机架(需要自定义标签)
可用区级别（topology.kubernetes.io/zone）：控制 Pod 是否在同一数据中心可用区
区域级别（topology.kubernetes.io/region）：控制 Pod 是否在同一地理区域

选择适当的拓扑域对实现预期效果至关重要。例如，要实现高可用，通常应该在区域或可用区级别使用反亲和性；而要减少网络延迟，则可能在节点级别使用亲和性。

2.3 实际案例解析：多层次部署策略

让我们通过一个实际案例来理解如何组合使用这些策略。假设我们正在部署一个包含Web服务器、缓存和数据库的三层应用：

apiVersion: apps/v1
kind:Deployment
metadata:
name:web-server
spec:
replicas:5
template:
    metadata:
      labels:
        app:web
        tier:frontend
    spec:
      affinity:
        podAntiAffinity:#反亲和
          requiredDuringSchedulingIgnoredDuringExecution:
          -labelSelector:
              matchExpressions:
              -key:app
                operator:In
                values:
                -web
            topologyKey:topology.kubernetes.io/zone
        podAffinity:# 亲和
          requiredDuringSchedulingIgnoredDuringExecution:
          -labelSelector:
              matchExpressions:
              -key:app
                operator:In
                values:
                -cache
            topologyKey:kubernetes.io/hostname
      containers:
      -name:web
        image:nginx:latest

这个配置实现了两个关键目标：

高可用性保障：通过 zone 级别的反亲和性，确保 Web 服务器的多个副本不会全部集中在同一个可用区。即使整个可用区发生故障，其他区域的副本仍然可以继续服务。
性能优化：通过节点级别的亲和性，确保每个 Web 服务器都与缓存服务部署在同一节点。这样可以最大限度地减少网络跳数，提高缓存访问速度。

这种多层次的调度策略在复杂应用中非常常见。通过精心设计的亲和性和反亲和性规则，可以在不修改应用代码的情况下，显著提升系统的性能和可靠性。

2.4 高级技巧：权重与软性规则的巧妙运用

除了硬性要求外，Pod 亲和性还支持软性偏好(preferredDuringSchedulingIgnoredDuringExecution)，这为我们提供了更灵活的调控手段。每个软性规则都可以指定一个权重(1-100)，调度器会根据总权重评分来选择最佳节点。

考虑以下场景：你希望将监控代理尽可能均匀地分布在各个节点上，但不是严格要求。这可以通过带权重的反亲和性实现：

affinity:
  podAntiAffinity:
    preferredDuringSchedulingIgnoredDuringExecution:
    -weight:100
      podAffinityTerm:
        labelSelector:
          matchExpressions:
          -key:app
            operator:In
            values:
            -monitoring-agent
        topologyKey:kubernetes.io/hostname

这里的权重设置为100(最大值)，表示调度器会强烈倾向于将监控代理分散到不同节点，但如果实在无法满足(比如集群节点数少于Pod副本数)，也不会阻止调度。

2.5 常见陷阱与解决方案

在实践中，使用 Pod 亲和性时常会遇到以下几个问题：

调度性能下降：复杂的亲和性规则会显著增加调度时间。对于大型集群，可以考虑：
- 简化规则，减少匹配条件
- 使用较粗粒度的拓扑域(如region代替zone)
- 将 preferred 规则改为 required 规则
调度失败：过于严格的反亲和性规则可能导致 Pod 无法被调度。解决方法包括：
- 放宽拓扑域范围
- 将 requiredDuringScheduling 改为 preferredDuringScheduling
- 增加集群容量
规则冲突：同时设置的亲和性和反亲和性规则可能相互矛盾。建议：
- 明确优先级，理清主要目标和次要目标
- 通过权重调整不同规则的影响程度
- 进行充分的测试验证

三、污点与容忍：节点的防御机制与 Pod 的通行证

3.1 污点的设计哲学

污点(Taint)和容忍(Toleration)机制采用了与传统调度约束完全不同的设计思路。如果说节点亲和性和 Pod 亲和性是从"我想要什么"的角度出发，那么污点机制则是从"我不接受什么"的角度进行设计。

这种反向思维在实际运维中有着独特的优势。想象一下城市中的特殊区域：医院、军事基地、工业区等，这些地方需要限制普通人的进入，而只允许特定人员出入。污点机制在 Kubernetes 中实现了类似的访问控制。

3.2 污点的三种效果及其适用场景

NoSchedule：相当于"禁止入内"标志。新 Pod 如果没有对应的容忍，将不会被调度到该节点。但已经运行的 Pod 不受影响。

典型应用场景：
- 专用节点(如GPU节点、高内存节点)
- 预留给特定团队或用途的节点
- 处于维护状态的节点
PreferNoSchedule：相当于"非请勿入"的委婉提示。调度器会尽量避免将 Pod 分配到该节点，但不是绝对禁止。

适用情况：
- 即将退役的老旧设备
- 性能稍差的备用节点
- 希望优先保留容量的节点
NoExecute：这是最严格的控制，不仅阻止新 Pod 调度，还会驱逐已经运行但不满足容忍要求的 Pod。

关键用途：
- 节点维护前的优雅排空
- 故障节点的自动隔离
- 实时响应节点状态变化(如资源不足)

3.3 内置污点：Kubernetes 的自我防护机制

Kubernetes 会自动为节点添加一些特殊的污点，反映节点的健康状况和状态：

# 查看节点的污点信息
kubectl describe node <node-name> | grep Taints

常见的内置污点包括：

node.kubernetes.io/not-ready：节点未准备好接收 Pod
node.kubernetes.io/unreachable：节点控制器无法访问节点
node.kubernetes.io/memory-pressure：节点内存不足
node.kubernetes.io/disk-pressure：节点磁盘空间不足
node.kubernetes.io/pid-pressure：节点进程数过多
node.kubernetes.io/network-unavailable：节点网络不可用

理解这些系统污点对于排查调度问题非常重要。例如，如果你发现 Pod 无法调度到某个节点，而该节点上有 memory-pressure 污点，那么增加内存资源可能就是解决方案。

3.4 容忍的精细控制

容忍(Toleration)是 Pod 用来"抵抗"节点污点的机制。与简单的布尔开关不同，Kubernetes 的容忍机制提供了多种精确控制方式：

1. 精确匹配容忍：

tolerations:
- key: "gpu-node"
  operator: "Equal"
  value: "true"
  effect: "NoSchedule"

这种容忍只对键为"gpu-node"、值为"true"、效果为"NoSchedule"的污点有效。

2. 存在性容忍：

tolerations:
- key: "special"
  operator: "Exists"
  effect: "NoExecute"

只要存在键为"special"的污点(无论值是什么)，且效果为"NoExecute"，就会容忍。

3. 容忍所有污点：

tolerations:
- operator: "Exists"

这种配置会使 Pod 容忍所有污点，无论键、值和效果如何。使用时要特别小心。

4. 限时容忍：

tolerations:
- key: "node.kubernetes.io/unreachable"
  operator: "Exists"
  effect: "NoExecute"
  tolerationSeconds: 600

这种配置允许 Pod 在节点不可达后继续运行10分钟，之后才会被驱逐。这对于临时网络问题非常有用。

3.5 污点与容忍的实际应用模式

1. 专用节点分配：

# 标记GPU节点
kubectl label nodes node1 hardware-type=gpu
kubectl taint nodes node1 gpu=true:NoSchedule

# GPU工作负载配置
apiVersion: v1
kind: Pod
metadata:
  name: gpu-pod
spec:
  containers:
  - name: cuda-container
    image: nvidia/cuda:11.0-base
    resources:
      limits:
        nvidia.com/gpu: 1
  tolerations:
  - key: "gpu"
    operator: "Equal"
    value: "true"
    effect: "NoSchedule"
  nodeSelector:
    hardware-type: gpu

2. 优雅节点维护：

# 准备维护节点
kubectl taint nodes node1 maintenance=true:NoExecute

# 系统会自动驱逐Pod，等待所有工作负载迁移完成后再进行维护

3. 多租户隔离：

# 为每个租户分配专用节点并添加污点
kubectl label nodes node1 tenant=team-a
kubectl taint nodes node1 tenant=team-a:NoSchedule

# 团队A的工作负载配置相应容忍
tolerations:
- key: "tenant"
  operator: "Equal"
  value: "team-a"
  effect: "NoSchedule"

3.6 高级技巧：污点与其它调度策略的协同工作

污点机制可以与前面讨论的亲和性策略协同工作，实现更复杂的调度需求。例如，你可以：

先用污点排除大部分节点
然后用节点亲和性在剩余节点中选择最合适的
最后用 Pod 亲和性优化具体部署位置

这种分层筛选的方法在大规模集群中特别有效，可以显著提高调度效率。

另一个有用的模式是将污点与 Pod 反亲和性结合使用。例如，你可以：

给所有节点添加一个通用污点
只有特定类型的 Pod 才带有对应容忍
同时使用反亲和性确保这些 Pod 均匀分布

这种方法可以实现类似"资源池"的概念，其中只有符合条件的 Pod 才能使用池中的资源，并且调度器会智能地分配这些资源。

四、调度机制的内部原理与性能考量

4.1 Kubernetes 调度器的决策过程

要真正掌握调度策略的应用，有必要了解调度器内部的决策流程。整个过程可以分为两个主要阶段：

过滤阶段（Filtering）：
- 评估所有节点，排除不符合要求的候选者
- 检查包括节点资源、污点容忍、节点亲和性等硬性条件
- 这个阶段结束后，通常会得到一个大大缩小的候选节点列表
评分阶段（Scoring）：
- 对过滤后的每个节点进行评分
- 考虑 Pod 亲和性、资源平衡等优化目标
- 最终选择得分最高的节点

理解这个两阶段过程有助于我们设计更有效的调度策略。例如，应该将绝对必要的条件放在过滤阶段(如 requiredDuringScheduling)，而将优化目标放在评分阶段(如 preferredDuringScheduling)。

4.2 调度策略的优先级与冲突解决

当多个调度规则同时存在时，Kubernetes 会按照以下优先级顺序处理：

资源需求：CPU/内存请求是最基本的筛选条件
节点选择器（nodeSelector）：简单的标签匹配
节点亲和性（required）：必须满足的节点条件
Pod 亲和/反亲和性（required）：必须满足的 Pod 关系条件

References:

Kubernetes Pod 调度机制深度解析：从理论到实践的全面指南

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

多智能体系统在价值投资中的止损策略：架构师的经验分享

两年实战，我踩了很多坑，总结了5条避坑指南投资是“认知的变现”，而止损是“认知的保护”。多智能体系统不是“魔法”，它只是帮你把“模糊的认知”变成“清晰的决策”——让你在市场恐慌时，不会因为情绪而卖出好公司；在基本面恶化时，不会因为固执而持有垃圾股。如果你是价值投资者，我建议你试试多智能体系统——不是因为它能让你“赚更多钱”，而是因为它能让你“少犯错误”。你有没有过“因为情绪而止损，事后后悔”的经历

2048 AI社区

数据结构——修改单向链表有空头（八）

这里将前节点放在 pWai，后节点放在pNei，设置两个循环，pNei放在内循环，先将第一个节点放在pWai，然后在内循环中判断前节点与后面的节点数据是否重复，有重复的就删除，没有了就进入下一个外循环pWai向后移一位。下标的范围0~stHead.iData，循环定位指定下标前一个节点-->记录，将指定节点扣下来，让前一个节点指向指定节点的下一个节点，然后就可以删除指定节点。void Delete