Gardener项目调度器(Scheduler)核心原理与实现详解

原创于 2025-06-12 09:10:38 发布 · 346 阅读

CC 4.0 BY-SA版权

Gardener项目调度器(Scheduler)核心原理与实现详解

引言

在Gardener项目中，调度器(Scheduler)扮演着至关重要的角色，它负责为新创建的Shoot集群分配合适的Seed集群。本文将深入解析Gardener Scheduler的设计理念、工作原理以及实际应用场景，帮助读者全面理解这一核心组件。

调度器基础概念

什么是Gardener Scheduler

Gardener Scheduler本质上是一个控制器，它持续监控新创建的Shoot资源，并为其分配最合适的Seed集群。其功能定位与Kubernetes Scheduler非常相似，区别在于：

Kubernetes Scheduler：为Pod选择最佳Node
Gardener Scheduler：为Shoot选择最佳Seed

调度器存在的必要性

解耦设计：早期调度逻辑内置于API Server的准入插件中，导致调度策略变更需要修改API Server。独立调度器实现了组件解耦，提高了系统灵活性。
可扩展性：独立调度器架构更容易扩展，未来可以：
- 添加影响调度决策的钩子函数
- 完全替换默认调度器实现
- 支持自定义调度策略

调度算法深度解析

调度流程完整序列

确定可用Seed集合：
- 未被标记删除(.metadata.deletionTimestamp为空)
- 调度可见性为true(.spec.settings.scheduling.visible)
- 有最后操作记录(.status.lastOperation非空)
- 满足健康条件(GardenletReady和BackupBucketsReady为true)
多维度筛选候选Seed：
- 匹配CloudProfile中定义的种子选择器
- 匹配Shoot资源中指定的种子选择器
- 网络不重叠(Seed与Shoot网络必须隔离)
- 容忍度匹配(Shoot的tolerations能覆盖Seed的taints)
- 访问限制兼容(Seed支持Shoot配置的访问限制)
- 容量检查(确保Seed资源不会超负荷)
- 高可用要求(若Shoot要求zone级容错，Seed需提供至少3个zone)
应用调度策略：
- SameRegion策略(默认)
- MinimalDistance策略
最终选择：从符合条件的候选Seed中选择负载最低的(托管Shoot控制平面最少的)，并更新Shoot的.spec.seedName字段。

调度策略详解

1. SameRegion策略(默认)

工作原理：

读取Shoot的.spec.provider.type和.spec.region字段
寻找provider类型和region完全匹配的Seed
若无匹配则标记Shoot为不可调度

适用场景：追求最小网络延迟，要求Shoot与Seed同区域的场景。

2. MinimalDistance策略

核心机制：

通过ConfigMap配置区域距离权重
优先选择距离Shoot区域最近的Seed
若无明确配置则回退到Levenshtein距离算法

ConfigMap配置规范：

apiVersion: v1
kind: ConfigMap
metadata:
  name: region-weights
  namespace: garden
  annotations:
    scheduling.gardener.cloud/cloudprofiles: aws-profile,gcp-profile
  labels:
    scheduling.gardener.cloud/purpose: region-config
data:
  eu-west-1: |
    eu-central-1: 10
    us-east-1: 30
  us-east-1: |
    eu-west-1: 30
    us-west-2: 10

距离计算细节：

区域名称拆分为基础名和方位(如"north"、"south"等)
基础名使用Levenshtein距离×2
方位差异校正值：
- 相同方位：0
- 不同方位：2
- 一方无方位：1
不同provider类型额外+2

特殊处理：对于测试目的(testing)的Shoot，仅需provider类型匹配，不考虑区域。

关键配置与API设计

调度器配置

Gardener Scheduler启动时需要配置文件，主要包含：

领导选举配置
客户端连接参数
候选确定策略(candidateDeterminationStrategy)
并发控制设置

与Controller Manager不同，Scheduler目前不需要TLS配置，因为尚未支持可配置的webhook。

重要API字段

shoots/binding子资源：
- 用于绑定Shoot到特定Seed
- 自动调度时由Scheduler更新
- 需要特定RBAC权限才能手动修改
- 变更已分配的Seed会触发控制平面迁移
spec.schedulerName：
- 类似Pod的调度器选择
- "default-scheduler"为Gardener默认调度器
- 指定调度器不存在时Shoot保持Pending状态
spec.seedName：
- 类似Pod的nodeName
- 具有shoots/binding权限的用户可指定
- 未设置时由调度器自动分配
spec.seedSelector：
- 类似Pod的nodeSelector
- 通过标签选择候选Seed
- 默认仅选择与Shoot相同provider的Seed
- 可通过providerTypes字段扩展选择范围

容量管理与系统限制

Seed容量保障机制

为防止Seed过载，系统实施以下控制：

资源配置：
- Gardenlet配置中定义资源总量(capacity)
- 指定为Gardener保留的资源量(reserved)
- 可分配量(allocatable) = 总量 - 保留量
实时监控：
- Gardenlet持续更新Seed状态的capacity和allocatable字段
- 调度器确保不分配超过allocatable的Shoot
当前限制：
- 主要控制Shoot数量上限
- 未来可能扩展更多资源类型