走进 YARN 资源管理和调度｜青训营笔记

# 走进 YARN 资源管理和调度｜青训营笔记

这是我参与「第四届青训营」笔记创作活动的的第 16 天

在前面的课程中我们学习了各种各样针对不同使用场景的计算引擎，例如：Flink、Spark 等，使用这些计算引擎的任务最终都需要运行在集群的节点上，如果调度这些任务就是本模块内容所要解决的问题。

下面我们开启《资源和调度》模块，资源和调度主要解决大规模集群中资源管理和任务调度相关问题。在本模块中主要会讲解两个典型系统：主要针对离线业务场景的 Hadoop YARN 系统，主要针对在线服务场景的 Kubernetes。

在《走进 YARN 资源管理与调度》课程中，会讲解 YARN 系统的设计思想和整体架构，两个核心模块 Resource Manger 和 Node Manager 的整体架构和主要职责，YARN 系统中 Fair Share 和 DRF 两种典型的调度策略， YARN 系统内部的事件处理机制， YARN 系统在高可用性方面的实现逻辑和 Failover 处理流程。最后会介绍字节跳动公司内根据业务场景对 YARN 系统的优化，主要包括：Gang 性调度器设计与应用、单集群规模突破 50K 优化、反调度器设计与应用。
在《深入理解 K8S 资源管理与调度》课程中，会讲解 K8S 发展的背景和基本概念，K8S 中的资源管理机制，K8S 中的资源调度方式，以及字节跳动公司内部针对在线业务场景所做的优化。

# YARN 概述

# 初识调度系统

# 场景描述

首先考虑如下虚拟场景，如何进行高效调度在保障就餐公平性的前提下让尽可能多的学生都能够在该餐厅就餐、尽可能多的座位被有效使用？

学校为改善学生生活新建了一所美食餐厅，餐厅座位有限且只能堂食；
各个学院需要缴纳一定管理费用后其学生才能在该餐厅用餐，缴纳费用与分配的座位数成正比；
因餐厅物美价廉、环境干净，来该餐厅就餐的人络绎不绝；

# 简易分配模型

一种简易的分配模型参考如下：

各学院学院缴纳费用后获得固定座位数；
学生按照学院组织，学院内的用餐小组按照预定时间排队，每个小组有一个负责人；
餐厅经理（两个备用经理）对所有学院按照分配座位满足率由低到高排序，优先选择靠前学院进行餐位派发；
餐厅经理选择一个学院后，基于餐厅座位情况，以 FIFO 方式选择用餐小组并分配桌号；
用餐小组在餐厅经理助手引导下到特定位置进行就餐，用餐小组负责人安排组内有序成员就坐；
用餐结束后，用餐小组负责人向餐厅助手说明；

# 优化的分片模型

保障公平性
- 学院间按照分配座位满足率排序；
- 学院内先来先服务、后来后服务；
保障高效性
- 餐厅经理有很多助手以辅助其派发，助理可以统计就餐信息、学院排序、引导等；
- 餐厅经理做决策，助手异步同步信息；
保障高可用
- 两个备用经理，随时可以工作；
如何满足 “尽可能多”？
- 座位超售：所有学院分配座位大于总座位数
- 学院超用：有座位时学院可以超分配座位
- 座位超发：“允许一个座位坐两个人”
- 鼓励快餐：鼓励大家快速就餐离开
就餐学生有个性化需求
- 同用餐小组必须坐一个桌子
- 同用餐小组必须坐不同桌子
- 用餐小组必须要坐靠窗位置
- 有重要活动同学需靠前就餐

# 调度系统演进

# 调度系统发展的背景

如今，我们已经由信息科技时代（IT）进化到数据科技时代（DT），数据中蕴藏的海量信息激发我们开发各种计算模型和计算框架进行挖掘，而这些计算模型和计算框架最终都需要落地计算。同时数据计算方式也发生了很大变革，从单机到分布式集群再到大规模数据中心，计算越来越快。对于大型互联网公司而言，为了完成各种对外服务以及对内挖掘等任务，需要的硬件资源数以万计，具有较高的成本。

# 调度系统解决的问题

当用有限资源解决有限资源无法满足的需求时就需要调度。如何充分挖掘硬件资源潜力、灵活进行资源管理与调度以及提高集群整体利用率成为降本增效的关键问题。资源资源管理与调度主要解决资源请求和可用资源的映射 (Mapping) 问题，也就是将负载的资源请求与当前计算集群中的可用物理资源通过一定的调度策略进行匹配 (Matching)。

# 调度系统预达的目标

集群资源管理与调度系统的核心目标是： 设计出更好的资源管理与调度策略，使得整个集群在保障任务 SLA 的前提下能够实现更高的资源利用率、更快的计算任务完成速度。

严格的多租户间公平、容量保障
调度过程的高吞吐与低延迟
高可靠性与高可用性保障
高可扩展的调度策略
高集群整体物理利用率
满足上层任务的个性化调度需求
任务持续、高效、稳定运行
We want to have all of them… However…

d73c077c-d560-40ab-ac52-644bb4fdefea

# 调度系统设计的基本问题

资源异质性与工作负载异质性

异质性通常指组成元素构成的多元性和相互之间较大的差异性。资源异质性是从系统所拥有的资源角度来看的，对于大型数据中心来说，其采购往往是分批次的，不同批次的机器硬件配置和计算存储资源都存在较大差异，很难保证采用完全相同的配置，目前主要通过将资源分配单位细粒度划分以及虚拟化技术来解决；工作负载异质性是从系统提交的任务角度来看的，负载类型多样化（流处理、批处理、内存计算、在线服务等），任务偏好多样化和动态化（任务的约束条件、运行过程中资源使用动态变化），资源需求多样化（CPU，内存，GPU，IO 等），例如对外服务要保证高可用和快速响应，对于批处理任务要保证快速调度等。

数据局部性

大数据场景下因为数据传输开销要远大于计算逻辑传输开销，因此往往将计算任务推送到数据存储所在地进行，这种设计哲学一般被称为数据局部性问题。在资源管理与调度语境下一般存在 3 种类型数据局部性：节点局部性，机架局部性和全局局部性。节点局部性完成计算不需要进行数据传输，机架局部性需要在机架之间进行数据传输存在一定开销，其它情况则属于全局局部性需要跨机架进行网络传输进而产生较大的网络传输开销，因此最优的方式是尽可能保证节点局部性。

抢占式与非 抢占式调度

在多用户多任务场景下，面对已分配资源，资源管理与调度系统有两种不同类型的调度方式：抢占式调度与非抢占式调度。抢占式调度指的是当系统资源不足或存在资源竞争时高优先级的任务可以抢占低优先级任务的资源；非抢占式调度，每次只允许从空闲资源中分配，空闲资源若不足则须等待其它任务释放资源后才能继续推进，mesos 采用非抢占式调度。两种方式各有特点，一般如果强调高优先级任务执行效率的调度策略会采用抢占式调度，强调资源公平分配的调度会采用非抢占式调度。

资源分配粒度

大数据场景下的计算任务往往呈现层级结构，例如：作业级（Job）- 任务级（Task）- 实例级（Instance），从计算任务视角来看，此时资源调度系统就面临资源分配粒度问题，资源分配粒度主要存在三种方式：（1）群体分配策略（Gang Scheduler），即要么全满足要么全不满足，Flink 和 MPI 任务依赖这种方式；（2）增量满足式分配策略，只要分配部分资源就可以启动运行，MR 采用这种方式；（3）资源储备策略，资源达到一定量才能启动作业，在未获得足够资源时作业可以先持有目前已经分配的资源并等待其他作业释放资源，调度系统不断获取新资源并进行储备和积累，直到分配到的资源量达到最低标准后开始运行，在作业启动前已经分配的资源处于闲置状态。

饿死与死锁问题

饿死是由于调度策略不当而导致计算任务长时间无法获得开始执行所需要的最少资源量，例如支持优先级调度时，如果不断出现高优先级任务，那么低优先级任务可能饿死；死锁是由于资源分配不当而导致整个调度系统无法正常执行，例如在资源储备策略下，如果 AB 两个作业启动作业需要的最小资源为 2/3，那么如果两个任务被分配了 1/2 的资源时，就导致死锁。调度系统出现死锁必然表现为某些作业处于饿死状态，但计算任务饿死的情景并不一定意味着调度系统处于死锁状态。

资源隔离方法

为了减少任务之间的干扰需要进行一定的隔离措施，LXC 是一种轻量级的内核虚拟化技术，LXC 在资源管理方面依赖于 Linux 内核的 cgroups 子系统，cgroups 子系统是 Linux 内核提供的一个基于进程组的资源管理框架，可以为特定的进程组限定可以使用的资源。其他技术有 Intel RDT。

# 调度系统范型

(a) 集中式调度系统
- 产生背景：该调度系统是大规模数据分析和云计算出现的雏形，主要进行大规模的集群管理以提高数据处理能力。
- 基本原理：中心式调度系统融合了资源管理和任务调度，有一个中心式的 JobTracker 负责进行集群资源的合理分配、任务的统一调度、集群计算节点信息的统计维护、任务执行过程中的状态管理等。
- 优点：
  - JobTracker 能够感知集群中所有资源和任务的执行状态，能够进行全局最优的资源分配和调度，避免任务间的干扰，适当进行任务抢占，保证任务计算效率和服务质量；
  - 架构模型简单，只有一个全局的管理者负责进行所有管理。
- 缺点：
  - JobTracker 作为集群的中心，存在单点瓶颈问题，不能支持大规模集群；
  - 内部实现异常复杂，一个调度器中需要实现所有的功能模块，可扩展性差；
  - 负载变更会导致系统需要进行不断的迭代，这将增加系统的复杂性，不利于后期的维护和扩展；
  - 只支持单类型的任务，MR 类型的批处理任务；
- 典型的调度系统：Hadoop1.* 版本；K8S 中的 kube-scheduler，Quasar。
(b) 两层调度系统
- 产生背景：为了解决集中式调度系统的扩展性问题，系统实现复杂，可扩展性差，不能支持不同类型任务等缺点。
- 实现原理：将资源管理和任务调度解耦。集群资源管理器负责维护集群中的资源信息并将资源分配给具体的任务，任务管理器负责申请资源并将申请到的资源根据用户逻辑进行细分和具体的任务调度。
- 优点：
  - 资源管理器只负责资源分配，任务调度由应用完成，提高了系统的扩展性；
  - 任务调度逻辑由具体的任务完成，能够提供对不同类型任务的支持；
  - 内部实现模块化，利于维护和扩展；
- 缺点：
  - 任务无法感知全局的资源情况，只能基于 request/offer 来进行资源获取，无法有效避免异构负载之间的性能干扰问题；
  - 任务调度和资源管理解耦不利于实现多任务间的优先级抢占；
  - 所有任务的资源请求都需要资源管理器进行处理，此外其还需要与节点管理器之间维持通信，导致资源管理器存在单点问题；
- 典型系统：Mesos，YARN，Fuxi
- Mesos 最先将资源管理和任务调度解耦的 offer-based（基于资源供应）方案，其有一个中心的资源管理器，通过分配策略（DRF）将资源分配给不同的计算框架，每个计算框架依据自身的逻辑、资源偏好等采取增量或者 All-or-Nothing 的方式决定接受还是拒绝分配的资源，计算框架根据分配到的资源进行下一步的资源分配和任务执行。
(c) 共享状态调度系统
- 产生背景：前面的调度器存在一个问题就是计算框架在进行资源申请的时候无法获知到集群的全局资源信息，这就导致无法进行全局最优的调度，共享状态调度器就提供了这个问题的一种解决方式。
- 基本原理：是一个半分布式的架构，通过共享集群状态为应用提供全局的资源视图，并采用乐观并发机制进行资源申请和释放，来提高系统的并发度。
- 优点：
  - 支持全局最优调度；
  - 能够一定程度的提高并发度；
- 缺点：
  - 高并发资源请求下会造成频繁的资源竞争；
  - 不利于资源分配的公平性；
  - 资源全局副本维护模块存在单点瓶颈；
- 典型系统：Omega
(d) 分布式调度系统
- 产生背景：提高系统吞吐率和并发度
- 基本原理：分布式调度器之间没有通讯协作，每个分布式调度器根据自己最少的先验知识进行最快的决策，每个调度器单独响应任务，总体的执行计划与资源分配服从统计意义。
- 优点：提高吞吐量和并发度
- 缺点：
  - 调度质量得不到保障；
  - 资源非公平分配；
  - 不能支持多租户管理；
  - 不能避免不同任务之间的性能干扰；
- 典型系统：Sparrow 是一个完全的去中心化的分布式调度系统，通常用于满足低延迟高吞吐的短任务场景。系统包含多个调度器，这些调度器分布在集群的节点上，作业可以提交给任何一个分布式调度器。其核心是采用随机调度模型，利用二次幂采样原理针对每个任务随机采样出两个服务节点，选择任务等待队列最短的一个作为调度结果，也可以采用异步预定的方式进行资源调度。实验证明近似最优解能够有效的满足大规模毫秒调度性能的需求。
(e) 混合式调度系统
- 产生背景：针对一些特定的混合任务调度场景，某些任务需要比较快的调度响应，而其他任务不需要很快的调度响应，但是需要保证调度质量。
- 基本原理：设计两条资源请求和任务调度路径，保留两层调度的优点，同时兼顾分布式调度器的优势。对于没有资源偏好且响应要求高的任务采用分布式调度器，对于资源调度质量要求较高的采用集中式资源管理器进行资源分配。
- 优点：
  - 能够针对不同类型的任务进行不同方式的调度；
  - 为应用层提供灵活的接口和性能保障；
- 缺点：复杂化了计算框架层的业务逻辑；调度系统内部也需要针对两种不同的调度器进行协同处理；
- 典型调度系统：Mercury: 微软的混合调度机制，中心式调度器对调度质量要求较高的作业进行公平的资源分配，分布式调度器对时间敏感和吞吐率要求高的作业进行调度。

# YARN 设计思想

# 演化背景

Hadoop 1.0 时代：由分布式存储系统 HDFS 和分布式计算框架 MapReduce (MR v1) 组成，MR v1 存在很多局限：

可扩展性差：JobTracker 兼备资源管理和任务控制，是系统最大的瓶颈；
可靠性差：采用 master/slave 结构，master 存在单点故障问题；
资源利用率低：基于槽位的资源分配模型，各槽位间资源使用差异大；
无法支持多种计算框架：只支持 MR 任务，无法支持其他计算框架；

Hadoop 2.0 时代：解决了 Hadoop 1.0 时代中 HDFS 和 MR 中存在的问题：

YARN (MR v2) 在 MR v1 的基础上发展而来，将资源管理和任务控制解耦，分别由 Resource Manager 和 ApplicationMaster 负责，是一个两层调度系统；
Hadoop YARN (Yet Another Resource Negotiator) 支持多种计算框架的统一资源管理平台；

# 离线调度生态介绍

用户逻辑层：数据分析任务、模型训练任务等
作业托管层：管理各种类型上层任务
分布式计算引擎层：各种针对不同使用场景的计算引擎，例如：MR、Spark、Flink 等
集群资源管理层：YARN
裸金属层：众多物理节点组成

# YARN 面临的挑战

公平性：各租户能够公平的拿到资源运行任务
高性能：高调度吞吐、低调度延迟，保障资源快速流转
高可用：集群要具备很强的容错能力
大规模：单集群规模提升，原生 YARN 单集群仅支持 5K（原生 YARN 5K）
高集群资源利用率
高任务运行质量保障

# YARN 整体架构

# 系统架构

645ce6844c8b49ca82a63e43907d8c7b_tplv-k3u1fbpfcp-zoom-in-crop-mark_3024_0_0_0

上图为 YARN 架构，主要包含两大角色：

Resource Manager
- 整个集群的大脑，负责为应用调度资源，管理应用生命周期；
- 对用户提供接口，包括命令行接口，API， WebUI 接口；
- 可以同时存在多个 RM，同一时间只有一个在工作，RM 之间通过 ZK 选主；
Node Manager
- 为整个集群提供资源，接受 Container 运行；
- 管理 Contianer 的运行时生命周期，包括 Localization, 资源隔离，日志聚合等；

YARN 上运行的作业在运行时会访问外部的数据服务，常见的如 HDFS， Kafka 等；在运行结束后由 YARN 负责将日志上传到 HDFS；

# 任务运行生命周期核心流程

Client 获取 ApplicationID，调用 ApplicationClientProtocol #getNewApplication。
RM 返回 GetNewApplicationResponse，其中主要包括：ApplicationID、最大可申请资源以及相关配置。
Client 将任务运行所需的资源上传至 HDFS 的指定目录下，并初始化 AM 配置，主要构造 ApplicationSubmissionContext （应用 ID、应用名称、所属队列、应用优先级、应用类型、应用尝试次数、运行 AM 所需要的资源等）和 ContainerLaunchContext（容器运行所需的本地资源、容器持有的安全令牌、应用自有的数据、使用的环境变量、启动容器的命令行等）。
Client 将 AM 提交至 RM，调用 ApplicationClientProtocol #submitApplication。
RM 根据一定的分配策略为 AM 分配 container，并与 NM 通信。
NM 启动 AM。
AM 从 HDFS 下载本任务运行所需要的资源并进行初始化工作。
AM 向 RM 注册和申请资源。ApplicationMasterProtocol # registerApplicationMaster，注册信息包括：AM 所在节点的主机名、AM 的对外 RPC 服务端口和跟踪应用状态的 Web 接口；ApplicationMasterProtocol # allocate，相关信息封装在 AllocateRequest 中包括：响应 ID、申请的资源列表、AM 主动释放的容器列表、资源黑名单、应用运行进度。
RM 接受 AM 请求后，按照调度算法分配全部或部分申请的资源给 AM，返回一个 AllocateResponse 对象，其中包括：响应 ID、分配的 container 列表、已完成的 container 状态列表、状态被更新过的节点列表、资源抢占信息（强制收回部分和可自主调配部分）等。
AM 获取到资源后与对应的 NM 通信以启动 container， ContainerManagementProtocol # startContainers
NM 启动 container。
Container 从 HDFS 下载任务运行必要的资源。
Container 在运行过程中与 AM 通信及时汇报运行情况。
任务运行完成后 AM 向 RM 注销，ApplicationMasterProtocol # finishApplicationMaster ()。

# YARN 核心模块

Resource Manager
- 整体架构
- 主要职责
- 状态机管理
- 调度器分析
Node Manager
- 整体架构
- 主要职责
- 状态机管理
- 节点健康检测机制

# Resource Manager

# 整体架构

b0bfa21e5f9846eb85c14fe09ff54ea9_tplv-k3u1fbpfcp-zoom-in-crop-mark_3024_0_0_0

# 主要职责

总的来说，RM 负责集群所有资源的统一管理和分配，接收各节点汇报信息并按照一定策略分配给各个任务；

与客户端交互，处理来自客户端的请求
启动和管理 AM，运行失败时自动重试
管理所有 NM，接收 NM 的汇报信息并下达管理指令
资源管理与调度
- 将资源按照一定方式组织起来，例如：资源池
- 将任务按照一定方式组织起来，例如：队列
- 接收来自各个 AM 的资源请求
- 按照一定分配策略将资源分配给 AM

# 状态机管理

# RMApp 状态机

NEW_SAVING: 收到提交的应用程序后，创建 RMAppImpl 对象并将基本信息持久化；
ACCEPTED：调度器接受该应用程序后所处的状态，任务等待被分配资源；
RUNNING：任务成功获取到资源并在节点运行

# RMAppAttempt 状态机

SCHEDULED: 通过 Scheduler 合法性检查后所处的状态，开始为该 App 分配资源；
ALLOCATED_SAVING：收到分配的 Container 后，在持久化完成前所处的状态；
ALLOCATED：信息持久化完成后所处的状态；
LAUNCHED：RM 的 ApplicationMasterLauncher 与 NM 通信以启动 AM 时所处的状态；

# RMContainer 状态机

RESERVED: 开启资源预留时，当前节点不能满足资源请求时所处的状态；
ALLOCATED：调度器分配一个 Container 给 AM；
ACQUIRED：AM 获取到分配的 Container 后所处的状态；
EXPIRED: AM 获取到 Container 后，若在一定时间内未启动 Container，RM 会强制回收该 Container;

# RMNode 状态机

DECOMMSIONED: 节点下线后的状态；
UNHEALTHY：节点处于不健康状态，健康检测脚本异常或磁盘故障；
LOST：超过一定时间（默认 10 分钟）未与 RM 发生心跳后所处的状态；

# 调度分析

# 任务 / 资源组织

任务按队列组织
节点按 Label 组织

# 调度流程

YARN 调度流程由心跳触发：

AM 定期与 RM 保持心跳，并将资源请求记录在 RM 中；
触发时机：由节点心跳触发针对此节点的调度；
找 Label: 根据节点 Label 找到对应 Lable 下的所有队列；
找队列：将队列进行 DRF 排序，找到当前最 “饥饿” 的队列；
找应用：将此队列内所有应用按照优先级进行排序 (优先级由用户提交时指定), 找到优先级最高的应用，优先级相同时按 DRF 算法排序；
找资源请求：将此应用内的所有资源请求按照优先级排序 (优先级由计算引擎指定), 找到优先级最高的资源请求进行资源分配；

# 典型调度器对比

	Fair Scheduler	CapacityScheduler
目标	提供一种多租户资源分配方法，提高集群资源利用率减小集群	管理成本
设计思想	基于最大最小公平算法分配资源	资源按比例分配给各队列，并添加各种限制
是否支持动态加载配置	是	是
是否支持负载均衡	是	否
Container 请求资源粒度	最小资源量的整数倍	专门的内存规整化参数控制，粒度更小
本地性任务调度优化	基于跳过次数的延迟调度	基于跳过次数的延迟调度
队列间资源分配方式	Fair、FIFO、DRF	资源使用率低者优先
队列内部资源分配方式	Fair、FIFO、DRF	FIFO 、DRF