Matt's Blog

Stateful Serverless 背后的 Flink StateFun 内部机制实现【译】

2020-10-31T11:58:21.000Z

本篇是 Flink StateFun 的第二篇文章，文中的内容是来自 Stateful Functions Internals: Behind the scenes of Stateful Serverless 的翻译，这篇文章从上层把 Flink StateFun 的内核做了一个比较深入的介绍，个人认为它是一篇很不错的、用来了解 StateFun 内部机制的文章。

Stateful Functions (StateFun) 的出现简化了分布式有状态应用的构建，它将有状态流处理（有状态的强一致性保证）与事件驱动的 FAAS 平台（基于云原生架构带来的弹性和 Serverless 体验）结合起来。一个典型的 StateFun 应用包括两个部分：使用现代平台（kubernetes 等）部署 FAAS 服务以及一个 StateFun 集群，StateFun 集群扮演着事件驱动数据库的角色，来为 Functions 的状态和 Event 提供一致性和容错性保证。

那么，StateFun 内部是如何实现的呢？一个 StateFun 集群是如何与这些 Functions 通信呢？本篇文章就带大家深入了解一下 StateFun Runtime 的内部实现原理（文中的示例是完全部署在 AWS 上运行的）。本篇文章的主要目标就是让读者能够比较清楚地理解 StateFun Runtime 与 Functions 之间的交互，以及如何开发一个 Stateful Serverless 应用，并且能够将应用部署到类似于 GCP 或 Microsoft Azure 之类的云平台上。

一个 StateFun 示例: Shopping Cart

这里先来看下一个示例 —— a shopping cart application（购物车应用），下图展示了这个示例中涉及到的两个 Functions、Functions 中维护的 state 以及两个 Function 之间传递的 msg 类型：

本文的示例代码见 shopping_cart，这里使用的 Python SDK 开发。

这个应用包含了两个 Function：

Cart Function：该函数每个实例都是与具体的 user 相关联，它的 state 记录了用户购物车中的商品信息（ItemsInCart）；
Inventory Function：这个函数主要是用于查询商品的库存信息，它维护了每件商品的库存信息（NumInStock）以及每件商品在所有用户购物车中的数量（NumReserved）；

应用中的所有 Msg 都是通过逻辑地址发往相应的 Function 实例，这个逻辑地址会包含 Function Type 及 Intance ID 信息（如：cart:Kim、inventory:socks）。本应用中发送到 Ingress 的数据类型是 AddToCart，它表示是一个将相应的商品加到用户的购物车中的操作，发送给 Egress 的类型是 AddToCartResult，它表示的是这个将商品添加到用户购物车中操作的结果（可能会因为库存情况加入失败）。

这几种数据类型定义如下：

syntax = "proto3";

// ---------------------------------------------------------------------
// Shopping cart messages
// ---------------------------------------------------------------------

message AddToCart {
    string item_id = 1;
    int32 quantity = 2;
}

message AddToCartResult {
    enum Type {
        SUCCESS = 0;
        FAIL = 1;
    }

    Type type = 1;
    string item_id = 2;
    int32 quantity = 3;
}

// ---------------------------------------------------------------------
// Shopping cart state type
// ---------------------------------------------------------------------

message ItemsInCart {
    map<string, int32> items = 1;
}

Cart Function 是用来处理 AddToCart 类型数据的，它会在应用逻辑中再触发其他的 Function，为了简化这个示例，这里在两个 Function 之间传递的数据只抽象了两种简单的数据类型：

RequestItem：从 Cart Function 发送到 Inventory Function 的请求类型（用来查询商品库存）；
ItemReserved：Inventory Function 返回的结果（表示可以加到购物车的商品数量）。

Stateful Functions Runtime 是如何工作的？

上面已经详细介绍了购物车应用示例的处理逻辑，这部分注重看一下 StateFun Cluster 是如何保证 Functions 状态及 msg 发送的一致性和容错的。

StateFun Runtime 是构建在 Apache Flink 之上，并且基于 Flink 的底层机制 —— co-location of state and messaging 来保证一致性和容错性。在一个 StateFun 应用中，所有 messages 的路由转发都是经过 StateFun Cluster 的，包括从 Ingress 中发送的数据、Functions 之间传输的数据以及 Function 发往 Egress 的数据。而且，Function 的 state 都是在 StateFun Cluster 中维护的，如同 Flink 应用一样，StateFun Cluster 中 messages 与 Function State 是 co-partitioned 的，所以计算都是本地 state 访问，而且都是没有任何负作用的原子操作。

这里举个例子，假设一条 target 逻辑地址为 (cart, "Kim") 的 message 经过 StateFun Cluster 路由转发，这个逻辑地址将被用做数据传输和 state 的 partition key（对应的 Flink 作业中就是 keyby 操作中的 key 值），这样的话，StateFun Cluster 接收到的数据都具有本地 state 可用性。与 Flink 相比，StateFun 的区别在于实际的计算逻辑不会发生在 StateFun Cluster Partitions 中，而是由远程 Function Service 来触发。那么 StateFun 是如何做到将 message 路由转发到远程 Function Service、并且提供【如同 state 和计算都在一起的一致性保证的】 state 访问的呢？

Remote Invocation Request-Reply Protocol

StateFun Cluster Partition 与 Function 的交互使用的是一个简洁、定义优雅的 request-reply 协议，如下图所示。一旦 Cluster Partition 接收到相应的 message，就会通过 HTTP 请求根据 target 逻辑地址将其发送到相应的 target Function Service 中。请求的 body 中会包含 input events 和这个 Function 计算需要的状态信息（从本地获取），在 Function 处理完请求后，会将需要返回的结果集合及所有变化的 state 作为 Service Response 都发送回 StateFun Cluster。当 StateFun Cluster Partition 接收到 Response 后，所有的 state 变化都会被写会到本地 State 中，message 会根据 target 逻辑地址路由转发到其他 Cluster Partition 中，触发其他的 Function 调用。

在这个框架下，StateFun SDKs 如 Python SDK 以及其他语言的 SDK 都可以基于这个协议来实现；从用户的角度来看，他们部署的 Function 操作的状态都像是本地状态一样，而实际上，这些都是由 StateFun 来维护和保证的，并且通过 HTTP/gRPC 协议来交互。

Function state consistency and fault-tolerance

StateFun Runtime 端会保证在任何时刻，每条 event（如 (cart, "Kim")）只会进行一次触发调用，并且每个实体的触发都是串行进行的（可以理解为一个 StateFun Cluster Partition 上一个 Function 的触发操作都是串行的），如果对于一个实体来说，一个 Function
正在触发，那么新到的数据将会被缓存在 state 中，只有正在进行的触发结束后才能处理后面的请求。另外，因为请求是串行发送，它保证了每个请求都是完全隔离的，并且由于一个请求会将需要的所有信息都放在请求中，所以 Function 的触发是完全幂等的操作（这可以原生地避免 Function 在调用故障时可能会出现的一致性问题）。

关于容错机制，所有由 StateFun Cluster 管理的 Function state 会利用 Flink 原生的分布式快照机制周期性、异步地产生 Checkpoint，并且存储到 HDFS/GCS 这类的远程文件系统。这些 Checkpoint 会包含这个应用所有 Function 的全局一致性状态快照，并且包括 Ingress 中的 offset 信息和 Egress 中正在进行的事务状态信息。如果应用因为某些异常而挂掉，系统会从最新一次成功的 Checkpoint 中恢复，所有 Function 的状态信息都会被恢复、在 Checkpoint 与系统 Crash 之间的 event 也都会按照之前同样的逻辑进行处理，就好像失败从未发生一样。

Step-by-step walkthrough of function invocations

在这一小节，通过上面那个购物车的示例，来看下一条真实的 event 是如何在 StateFun Cluster 与 Function 之间传递的。顾客 Kim 想将 2 双袜子（sock）添加到其购物车中，这条 event 触发的一系列操作如下图所示：

结合上图，下面一步步来看下这条 event 的处理过程：

一条 Event AddToCart("Kim", "socks", 2) 从 Ingress Partition 中发送出来 (1)，在这个应用中，Ingress event router 配置的 Function Type 是 Cart Function，并且使用 user ID Kim 作为 Instance ID。Function Type 和 Instance ID 它们会确定这个 event 的 target 逻辑地址（(cart:Kim)）；
这里假设这条 event 是被 StateFun partition B 读取到的，但是 (cart:Kim) 的地址实际上应该路由到 partition A，因此，这条 event 会先被路由到 partition A 中 (2)；
StateFun partition A 接收到这条 event 后开始做相应的处理：
1. 首先，先从本地状态中获取 (cart:Kim) 的状态信息 —— Kim 购物车中已经存在商品列表 (3)；
2. 接着，它会标记 (cart:Kim) 为 busy 的状态，除非当前的 event 处理完，否则不会再处理其他的 event 信息（先将后面的请求其缓存起来），这样可以避免状态一致性的问题；
3. StateFun Runtime 会通过一个 HTTP Client 向 Cart Function Service 发送请求 (4)，这个请求会包含 AddToCart("Kim", "socks", 2) 数据及当前 (cart:Kim) 的状态信息（这里要注意的是，每个请求的路由转发，都会将这个状态信息作为请求的一部分发送到 Function Service 中，这是一个比较有意思的设计）；
4. 远程 Cart Function Service 在接收到数据后，会尝试查询一下库存状态（通过 Inventory Function Service 来查询），因此，它会返回一个 target 逻辑地址为 (inventory:socks) 的 RequestItem("socks", 2) 请求。在这里，经过 Cart Function Service 处理后的任何状态变化都会随着请求返回给 StateFun Cluster 中 (5)；
5. StateFun Runtime 接收到 response 后，再将 RequestItem 信息路由到其他的 Partition 上，并且将 (cart:Kim) 标记为可用状态；
这里假设 (inventory:socks) 的地址应该路由到 partition B 上，这里，会将对应的 event 再路由转发到 partition B 上 (6)；
一旦 partition B 接收到 RequestItem msg 后，Runtime 将会再次按照上面类似的逻辑进行相应触发 (7)。

通过这个示例，我们可以清晰地看到一条 event 在 StateFun Cluster 中的处理流程，对于理解其内部机制很有帮助。

这里比较有意思的点是流程 2 和 6，本质上 StateFun Cluster Partition 代表的是 Flink Job 中具体执行的 Task，Stateful Function 在实现时增加了一个 Feedback Loop 支持，来使得数据流的传输不受限于 DAG 的限制，在 StateFun 中，真实的数据流还可以是有环的，这个将会在下一篇文章中给大家揭秘其内部机制。

总结

Stateful Functions Internals: Behind the scenes of Stateful Serverless 这篇文章的最后是关于在公有云平台部署的介绍，我们就不再详述了，本文通过一个应用示例把 StateFun 内部的实现机制给大家做了一个简单的介绍，比较核心的内容都有所涉及，对于想了解 StateFun 内部原理的同学，本文应该就足以让我们有个清晰的认识。因为之前对 Flink StateFun 做过一些调研，把 StateFun 源码的核心流程简单看了一遍，在下篇文章中将会针对 StateFun 的具体实现做一个梳理，更深入地介绍一下 StateFun 的实现。

Flink StateFun 2.0 浅谈

2020-10-25T14:57:05.000Z

Stateful Function（简称 StateFun）从 2019 正式对外宣布之后，今年 4 月份已经发了 2.0 版（并且是作为 Apache Flink 项目中的一部分发布），7 月份也发布了 2.1.0 版。在 2.0 的架构中 Function 已经从 JVM 中解耦出来，只需要通过 HTTP/gRPC 来调用即可，新的架构可以充分利用 FAAS 的能力。本篇文章就来简单看下 StateFun 的架构及应用示例，后面还会有陆续有两篇文章来深入剖析一些其内部实现。

StateFun 的架构

StateFun 2.0 的架构与 1.0 做了非常大的变化，Function 部分已经完全与 JVM 部分解耦，Function 部分可以单独进行部署，直接部署在 FAAS 上或者直接使用 Kubernetes 启动相应的 HTTP/RPC 服务都是可以的，如下图所示：

Flink TaskManagers 从 Ingress 系统（如：kafka、kinesis 等）中接收数据，并且将它们发送给对应的 StateFul Functions 中，经过 Function 计算完后，再发送回 TM，TM 再根据 target address 信息将其发送给其他的 Function 或 Egress 系统（如：kafka、kinesis 等）。

这里先看下 StateFun 框架的几个概念：

Ingress：StateFun 的事件输入源，它可以是 queue、logs 或者 HTTP servers，当前 StateFun 内部已经支持的是 Kafka 和 Kinesis，类似于 Flink Streaming Job 中的 Source Operator；
Egress：StateFun 的事件输出源，与 Ingress 类似，在一个 StateFun Application 中，Egress 并不是必需的、是可选的，当前内部支持的是 Kafka 和 Kinesis，类似于 Flink Streaming Job 中 Sink Operator；
Stateful Functions：它就类似于 FAAS 中的 Function，是应用真正做计算的地方，在 StateFun 中流转的每一条 Event，都需要指定其 target address 来表明它需要发向哪个 Function 或 Egress。

在这套架构中，Flink Cluster 主要是做 state 一致性保证及 event 路由转发的功能，FAAS 专注于其计算（无需 care 状态存储及一致性的问题）。实际上，在这套系统下，Flink 相当于去掉了传统数据库的角色，因为 Flink 更适合用于 event 驱动的函数和服务，通过集成状态存储，保证了函数或服务间传递消息的有状态性。

Event-driven Database vs. Request/Response Database

在传统的数据库或者 Key/Value 存储（这里称之为 Request/Response Database）中，应用需主动发送一个查询到数据库（如 SQL via JDBC、GET/PUT via HTTP）。然而，在 StateFun 这类事件驱动数据库中，这个关系被反转了：数据库根据到达的消息来调用函数或服务。这个特性非常适合 FaaS 或者事件驱动架构的应用。

基于请求/响应数据库的应用中，数据库只负责保存状态。函数或服务间的通讯通常一个独立的服务层进行处理。相反，事件驱动数据库以紧密集成的方式既保存了状态的存储，又承担了消息的传输。

另外 StateFun 的架构还有两个优势：

借助 Flink 的 Checkpoint 来实现 Exactly once，而如果使用数据库的话这些都需要业务自己来做，业务比较难做到整个链路的 Exactly once；
数据库一般都会有从库，在向数据库发送一个读请求时，有可能读取的不是最新的数据，而在 StateFun 中，数据只会存储在一个 StateFun Cluster Partition 中（后续文章会介绍），就不会有这个问题。

StateFun 核心组件

StateFun 2.0 中，一个 StateFun 应用所涉及的核心组件如下图所示：

在上图中，也可以看到 Flink TaskManagers 中它的主要作用就是接收消息、管理状态、将 event 转发到不同的 Function 以及将数据通过 Egress 发送出去。

在这里，要说明的是，Function 之间并不是直接交流的，数据路由发送都有是由 TM 来操作，TM 将一条 Event 发送给一个 Function，它处理后，会将结果及 target adress 发送回 TM，再由 TM 根据 target address 发送到下游。这些 Function 所使用到的持久化状态都是在 TM 中维护，本身依赖了 Flink 的 StateBackend 及 Checkpoint 机制。

上图中的 Function Dispatcher 表示的是 Function 的部署方式，图中使用的是 Remote Function。

StateFun 三种部署方式

在前面 StateFun 所涉及的核心组件图中，Function Dispatcher 在调用函数时，函数是可以有多种部署选择的。

Remote Functions

2.0 架构中，一个比较大的 Feature 就是支持了 Remote Function，它完全与底层 Flink 集群解耦，通过 HTTP/gRPC 与 Flink TaskManager 进行交互，如下图所示：

简单来说，Remote Functions 的意思就是函数是独立部署的，从物理上和 Flink Cluster 是分开的。Flink Task Managers 和函数之间的沟通是通过 HTTP/gRPC 请求来完成的。

Co-located Functions

其架构如下图所示：

这种部署方式就是将函数和 TaskManager 的进程部署在一个实例（Pod 或者机器）上，用不同的容器或者进程隔离开来，例如 K8S 中的 sidecar 这种模式。TaskManager 就可以和函数直接在本地通信，但也失去了 FAAS 独立扩缩的能力。

Embedded Functions

这种部署模式更加直接，函数和 TaskManagers 直接在同一个容器内，像 Stateful Functions 1.0 就是这种模式，用高的耦合度换取了高的性能，但损失了灵活性和扩展性，它本质上就完全类似于一个 Flink Streaming Job。

StateFun 示例

在介绍 StateFun 示例之前，还有两个概念，需要简单看下，那就是 Router 和 Module，它 StateFun API 中比较核心的抽象（针对 Java SDK 而言，Python SDK 抽象得更简单）。

Router

Router 的含义，这里可以从两个方面来理解：

从 StateFun 的角度，它为 Ingress 指定了其要发送的 Function；
从 Flink 的角度，它有两个作用：一是指定下游的 FunctionType（要发送的 Function），二是指定的了其 keyBy shuffle 时使用的 key（StateFun 的状态深度使用了 Flink 中 keyby 操作，这里会在后面的文章详细介绍）。

举一个 Java 的示例：

final class AddToCartRouter implements Router<ProtobufMessages.AddToCart> {
  @Override
  public void route(
      ProtobufMessages.AddToCart message, Downstream downstream) {
    downstream.forward(Identifiers.CART, message.getUserId(), message);
  }
}

// forward 的方法说明
/**
 * Forwards the message as an input to a downstream function, addressed by a specified {@link
 * FunctionType} and the functions unique id within its type.
 *
 * @param functionType the target function's type.
 * @param id the target function's unique id.
 * @param message the message being forwarded.
 */
default void forward(FunctionType functionType, String id, T message) {
  forward(new Address(functionType, id), message);
}

这里的 Address 就是前面说的 target address，它唯一表示了一个 Function，表示要发送的 Function，由两部分组成：FunctionType 指明了具体的 Function，id 表示在 Flink keyby shuffle 时的 key 值。而如果这里要发送的是 Egress 的话，直接使用 EgressIdentifier 来区分而不需要再设置 id。

在上面的示例中，这个 Router 就指明了 Ingress 数据要发送的下游 Function 信息。

Module

在 StateFun 中，Module 是一个用于添加核心模块的一个入口，它把 Ingress、Egress、Routers 及 Stateful Function bind 在一起。一个简单 Java 示例如下：

@AutoService(StatefulFunctionModule.class)
public final class GreetingModule implements StatefulFunctionModule {

  private static final String KAFKA_KEY = "kafka-address";

  private static final String DEFAULT_KAFKA_ADDRESS = "kafka-broker:9092";

  @Override
  public void configure(Map globalConfiguration, Binder binder) {

    // pull the configured kafka broker address, or default if none was passed.
    String kafkaAddress = globalConfiguration.getOrDefault(KAFKA_KEY, DEFAULT_KAFKA_ADDRESS);
    GreetingIO ioModule = new GreetingIO(kafkaAddress);

    // bind an ingress to the system along with the router
    binder.bindIngress(ioModule.getIngressSpec());
    binder.bindIngressRouter(GreetingIO.GREETING_INGRESS_ID, new GreetRouter());

    // bind an egress to the system
    binder.bindEgress(ioModule.getEgressSpec());

    // bind a function provider to a function type
    // note: provider 可以决定这个 function 交互方式，可以使 HTTP 或 GRPC 的形式
    binder.bindFunctionProvider(GreetStatefulFunction.TYPE, unused -> new GreetStatefulFunction());
  }
}

对于一个 Module 实现，首先需要实现 StatefulFunctionModule 相关的接口，并且用 @AutoService(StatefulFunctionModule.class) 来修饰，这里使用了 Java SPI 的技术（不展开讨论），在 configure() 方法中，将这个 StateFun 应用的需要绑定的组件定义出来，组件的顺序是没有要求的（与 DataStream API 不同），内部在解析时是通过 Target Address 来确定下游的。

在一个 StateFun 应用中可以有多个 Module，用于绑定不同的组件，可以方便团队协同开发（举个例子：一个 Module 绑定一个组件模块，由不同的同学开发不同的组件模块），不过在一个 StateFun 中，只会有一个 Binder，也就是说，多个 module 最终都会被一个 Binder 连接起来。

Java SDK 示例

在官方仓库中有一个 Java 的示例 —— The Greeter Example，这个示例比较简单，从 kafka 中接收 event 数据（这里可以认为是 user name），在 Function 中会记录每个 event（user）出现的次数，根据出现的次数返回相应的结果，最后将结果写出到一个 Kafka Topic 中，先来看下其 Module 的实现：

@AutoService(StatefulFunctionModule.class)
public final class GreetingModule implements StatefulFunctionModule {

  // kafka 集群的配置
  private static final String KAFKA_KEY = "kafka-address";

  // kafka 集群的配置
  private static final String DEFAULT_KAFKA_ADDRESS = "kafka-broker:9092";

  @Override
  public void configure(Map globalConfiguration, Binder binder) {

    // IO 模块的初始化，这里初始化了 Ingree 和 Egress 部分
    // pull the configured kafka broker address, or default if none was passed.
    String kafkaAddress = globalConfiguration.getOrDefault(KAFKA_KEY, DEFAULT_KAFKA_ADDRESS);
    GreetingIO ioModule = new GreetingIO(kafkaAddress);

    // 绑定 Ingress 模块，并设置相应的 Router，为 Ingress 数据源指定下游 Function 信息
    // bind an ingress to the system along with the router
    binder.bindIngress(ioModule.getIngressSpec());
    binder.bindIngressRouter(GreetingIO.GREETING_INGRESS_ID, new GreetRouter());

    // 绑定一个 Egress
    // bind an egress to the system
    binder.bindEgress(ioModule.getEgressSpec());

    // 绑定相应的 Function，并指明这个 Function 的交互方式
    // bind a function provider to a function type
    binder.bindFunctionProvider(GreetStatefulFunction.TYPE, unused -> new GreetStatefulFunction());
  }
}

StateFun 中比较核心的地方是 State 的使用，下面来看下这个示例中 Function 的实现：

final class GreetStatefulFunction implements StatefulFunction {

  /**
   * The function type is the unique identifier that identifies this type of function. The type, in
   * conjunction with an identifier, is how routers and other functions can use to reference a
   * particular instance of a greeter function.
   *
   * If this was a multi-module application, the function type could be in different package so
   * functions in other modules could message the greeter without a direct dependency on this class.
   */
  // 定义这个 Function 的 FunctionType
  static final FunctionType TYPE = new FunctionType("apache", "greeter");

  /**
   * The persisted value for maintaining state about a particular user. The value returned by this
   * field is always scoped to the current user. seenCount is the number of times the user has been
   * greeted.
   */
  // 声明持久化状态信息
  @Persisted
  private final PersistedValue seenCount = PersistedValue.of("seen-count", Integer.class);

  @Override
  public void invoke(Context context, Object input) {
    // Function 真正的处理逻辑：得到处理之后的 response 后，再为其指定 target address，这里的 target address 就是 Egress 的信息
    GreetRequest greetMessage = (GreetRequest) input;
    GreetResponse response = computePersonalizedGreeting(greetMessage);
    context.send(GreetingIO.GREETING_EGRESS_ID, response);
  }

  private GreetResponse computePersonalizedGreeting(GreetRequest greetMessage) {
    final String name = greetMessage.getWho();
    // 获取当前的状态
    final int seen = seenCount.getOrDefault(0);
    // 更新相应的状态
    seenCount.set(seen + 1);

    String greeting = greetText(name, seen);

    return GreetResponse.newBuilder().setWho(name).setGreeting(greeting).build();
  }

  private static String greetText(String name, int seen) {
    switch (seen) {
      case 0:
        return String.format("Hello %s ! \uD83D\uDE0E", name);
      case 1:
        return String.format("Hello again %s ! \uD83E\uDD17", name);
      case 2:
        return String.format("Third time is a charm! %s! \uD83E\uDD73", name);
      case 3:
        return String.format("Happy to see you once again %s ! \uD83D\uDE32", name);
      default:
        return String.format("Hello at the %d-th time %s \uD83D\uDE4C", seen + 1, name);
    }
  }
}

StateFun API 是非常简洁的，在使用 State 时，只需要通过 Persisted 注解修饰即可，否则不会保存到 Flink State 中，也就不会进行容错，在底层的实现上，它通过反射来找到一个 Function 中声明的变量信息，并将其注册到 Flink State 中，如果不通过注解修饰，就无法获取这个 State 变量。

总结

StateFun 2.0 发布之后，其生产性可用提高很多，它已经可以完全与 JVM 解耦，并且可以很好地利用 FAAS 的扩展能力，但是底层的 state 及数据转发依然受限于 Flink Job 的限制，无法完全做到自动伸缩，在大规模数据量的场景下，其可用性及可靠性有待验证，不过 StateFun 现在还在发展中，未来也不是没有机会。

参考

Kubenetes 之新手入门篇

2020-08-02T04:10:33.000Z

近几年来，随着以 Docker 为代表的容器技术的出现，终结了之前 DevOps 中交付和部署环节因环境、配置及程序本身的不同而造成的动辄几种甚至几十种部署配置的困境，将它们统一在容器镜像上。但 Docker 更适用于管理单个容器，一旦开始使用越来越多的容器封装和运行应用程序，必将会导致其管理和编排变得越来越困难。最终，用户不得不对容器实施分组，以便跨所有容器提供网络、安全、监控等服务。于是，以 Kubernetes 为代表的容器编排系统应运而生。本文就是对 Kubernetes 做一个简单的总结，主要从 Kubernetes 架构、组件和核心概念来简单讲述，是一篇关于 Kubernetes 的入门文章。

什么是 Kubernetes

Kubernetes（因为首尾字母中间有 8 个字符，所以被简写成 K8s），它是一个是用于自动部署、扩展和管理容器化应用程序的工业级容器编排平台，尽管公开面世不过短短数年，但 Kubernetes 已经成为容器编排领域事实上的标准。

Kubernetes（来自希腊语，意为 “舵手” 或 “飞行员”）是由 Joe Beda、Brendan Burns 和 Craig McLuckie 创立，而后 Google 的其他几位工程师，包括 Brian Grant 和 Tim Hockin 等加盟共同研发，并由 Google 在 2014 年首次对外宣布。Kubernetes 的开发和设计都深受 Google 内部系统 Borg 的影响，事实上，它的许多顶级贡献者之前也是 Borg 系统的开发者。

2015年4月，Borg 论文《Large-scale cluster management at Google with Borg》首次公开，有兴趣的同学可以看一下。

Kubernetes 的发展历程如下图所示（图片来自 Kubernetes Introduction），

Kubernetes 的特性

Kubernetes 本质上是底层资源与容器间的一个抽象层，如果和单机架构类比，有点类似于分布式时代的 Linux，它旨在提供一个可预测性、可扩展性与高可用性的方法来完全管理容器化应用程序和服务的生命周期的平。简单总结起来，它具有以下几个重要特性：

自动装箱（调度）：建构于容器之上，基于资源依赖及其他约束自动完成容器部署且不影响其可用性，并通过调度机制混合关键型应用和非关键型应用的工作负载于同一节点以提升资源利用率；
自我修复（自愈）：支持容器故障后自动重启、节点故障后重新调度容器，以及其他可用节点、健康状态检查失败后关闭容器并重新创建等自我修复机制；
水平扩展（可扩展）：支持通过简单命令或 UI 手动水平扩展，以及基于 CPU 等资源负载率的自动水平扩展机制；
服务发现和负载均衡：Kubernetes 通过其附加组件之一的 KubeDNS（或 CoreDNS）为系统内置了服务发现功能，它会为每个 Service 配置 DNS 名称，并允许集群内的客户端直接使用此名称发出访问请求，而 Service 则通过 iptables 或 ipvs 内建了负载均衡机制；
自动发布和回滚：Kubernetes 支持灰度更新应用程序或其配置信息，它会监控更新过程中应用程序的健康状态，以确保它不会在同一时刻杀掉所有实例，而此过程中一旦有故障发生，就会立即自动执行回滚操作；
密钥和配置管理：Kubernetes 的 ConfigMap 实现了配置数据与 Docker 镜像解耦，当需要时，仅对配置做出变更而无须重新构建 Docker 镜像，这为应用开发部署带来了很大的灵活性。此外，对于应用所依赖的一些敏感数据，如用户名和密码、令牌、密钥等信息，Kubernetes 专门提供了 Secret 对象为其解耦，既便利了应用的快速开发和交付，又提供了一定程度上安全保障；
存储编排：Kubernetes 支持 Pod 对象按需自动挂载不同类型的存储系统，这包括节点本地存储、公有云服务商的云存储（如 AWS 和 GCP 等），以及网络存储系统（例如，NFS、iSCSI、GlusterFS、Ceph、Cinder 和 Flocker 等）；
批量处理执行：除了服务型应用，Kubernetes 还支持批处理作业及 CI（持续集成），如果需要，一样可以实现容器故障后恢复。

Kubernetes 架构

这里我们先来看下 Kubernetes 的架构图，如下图所示（图片来自 Kubernetes Introduction）：

可以看出，Kubernetes 架构是一个比较典型的二层架构和 server-client 架构：

Master: 作为中央的管控节点，会去与 Node 进行一个连接。所有 UI 的、clients、这些 user 侧的组件，只会和 Master 进行连接，把希望的状态或者想执行的命令下发给 Master，Master 会把这些命令或者状态下发给相应的节点，进行最终的执行；
Node: Node 的职责是运行容器应用，Node 由 Master 管理，Node 负责监控并汇报容器的状态，同时根据 Master 的请求管理容器的生命周期。

下面分别来看下 Master 和 Node 组件内部的一些核心服务。

Kubernetes 组件 – Master

Master 节点主要由 API Server、Controller Manager 和 Scheduler 三个组件，以及一个用于集群状态存储的 etcd 存储服务组成:

API Server: 提供了资源操作的唯一入口，并提供认证、授权、访问控制、API 注册和发现等机制；
Controller Manager: 负责维护集群的状态，比如：故障检测、自动扩展、滚动更新等；
Scheduler: 负责资源的调度，按照预定的调度策略将 Pod 调度到相应的机器上（K8s 还支持用户自定义调度器）；
etcd: 集群的所有状态信息都需要持久存储于存储系统 etcd 中，不过，etcd 是由 CoreOS 基于 Raft 协议开发的分布式键值存储，可用于服务发现、共享配置以及一致性保障（如数据库主节点选择、分布式锁等）。

Kubernetes 组件 – Node

Node 负责提供运行容器的各种依赖环境，并接受 Master 的管理。每个 Node 主要由以下几个组件构成：

kubelet: 它是运行于工作节点之上的守护进程，负责容器的生命周期，也负责 Volume 和网络的管理，它从 API Server 接收关于 Pod 对象的配置信息并确保它们处于期望的状态，kubelet 会在 API Server 上注册当前工作节点，定期向 Master 汇报节点资源使用情况，并通过 cAdvisor 监控容器和节点的资源占用状况；
Container Runtime: 负责镜像下载、管理以及 Pod 和容器的真正运行；
kube-proxy: 负责为 Service 提供 Cluster 内部的服务发现和负载均衡。

Kubernetes 核心附件

Kubernetes 集群还依赖于一组称为 ”附件”（add-ons）的组件以提供完整的功能，它们通常是由第三方提供的特定应用程序，且托管运行于 Kubernetes 集群之上，如下图所示（图片来自《Kubernetes 进阶实战》）：

下面列出的几个附件各自为集群从不同角度引用了所需的核心功能：

KubeDNS: 在集群中调度运行提供 DNS 服务的 Pod，同一集群中的其他 Pod 可使用此 DNS 服务解决主机名；
Kubernetes Dashboard: 集群的全部功能都要基于 Web 的 UI 来管理集群中的应用设置是集群自身；
Heapster: 容器和节点的性能监控与分析系统，它收集并解析多种指标数据，如资源利用率、生命周期事件等；
Ingress Controller: Service 是一种工作与传统层的负载均衡器，而 Ingress 是在应用层实现的 HTTP(s) 负载均衡机制，Ingress 只是一组路由规则的集合，这些规则需要通过 Ingress Controller 发挥作用。

Kubernetes 的核心概念

前面已经了解了 Kubernetes 的架构及组件信息，这里我们来总结一下 Kubernetes 生态下一些核心概念，只有了解并理解这些概念，才能更好地使用 Kubernetes。

Pod

Kubernetes 并不直接运行容器，而是使用一个抽象的资源对象来封装一个或者多个容器，这个抽象即为 Pod，它也是 Kubernetes 的最小调度单元（可以参考 Kubernetes 指南之 POD）。用户可以通过 Kubernetes 的 Pod API 生产一个 Pod，让 Kubernetes 对这个 Pod 进行调度，也就是把它放在某一个 Kubernetes 管理的节点上运行起来。一个 Pod 简单来说是对一组容器的抽象，它里面会包含一个或多个容器。

特点：

Pod 资源对象是一种集合了一到多个应用容器、存储资源、专用 IP 及支撑容器运行的其他选项的逻辑组件；
所有 Pod 内部的容器可以访问共享的 Volume 和共享数据；

Volume

我们知道容器的数据都是非持久化的，在容器消亡以后数据也跟着丢失，所以 Docker 提供了 Volume 机制以便将数据持久化存储。Volume 本身就是卷的概念，它是用来管理 Kubernetes 存储的，是用来声明在 Pod 中的容器可以访问的文件目录的，一个卷可以被挂载在 Pod 中一个或者多个容器的指定路径下面。

而 Volume 本身是一个抽象的概念，一个 Volume 可以去支持多种的后端的存储。比如说 Kubernetes 的 Volume 就支持了很多存储插件，它可以支持本地的存储，可以支持分布式的存储，比如说像 ceph，GlusterFS ；它也可以支持云存储，比如说阿里云上的云盘、AWS 上的云盘、Google 上的云盘等等（在资源描述文件的配置方式参考 Kubernetes 指南之 Volume）。

ReplicaSet

ReplicaSet（也简称为 RS，K8s 之前的版本这个功能叫做 Replication Controller）用来确保容器应用的副本数始终保持在用户定义的副本数，即如果有容器异常退出，会自动创建新的 Pod 来替代；而异常多出来的容器也会自动回收（这些都是由 Master 端的 Controller Manager 来做的）。ReplicaSet 的典型应用场景包括确保健康 Pod 的数量、弹性伸缩、滚动升级以及应用多版本发布跟踪等。

资源配置文件的使用示例，参考 Kubernetes 指南之 ReplicaSet 示例。

Deployment

Deployment 为 Pod 和 ReplicaSet 提供了一个声明式定义 (declarative) 方法，用来替代以前的 ReplicationController 或 ReplicaSet 来更方便的管理应用。

Deployment 是在 Pod 这个抽象上更为上层的一个抽象，它可以定义一组 Pod 的副本数目、以及这个 Pod 的版本，一般大家用 Deployment 这个抽象来做应用的真正的管理，而 Pod 是组成 Deployment 最小的单元。

比如说我可以定义一个 Deployment，这个 Deployment 里面需要两个 Pod，当一个 Pod 失败的时候，控制器就会监测到，它重新把 Deployment 中的 Pod 数目从一个恢复到两个，通过再去新生成一个 Pod。通过控制器，我们也会帮助完成发布的策略。比如说进行滚动升级，进行重新生成的升级，或者进行版本的回滚。

Deployment 的资源配置声明及相关的操作命令参考：Kubernetes 指南之 Deployment。

一个简单的、3 副本的 nginx 应用的资源配置文件可以定义为：

apiVersion: apps/v1
kind: Deployment
metadata:
  name: nginx-deployment
spec:
  replicas: 3
  template:
    metadata:
      labels:
        app: nginx
    spec:
      containers:
      - name: nginx
        image: nginx:1.7.9
        ports:
        - containerPort: 80

Service

Service 是对一组提供相同功能的 Pods 的抽象，并为它们提供一个统一的入口，借助 Service，应用可以方便的实现服务发现与负载均衡，并实现应用的零宕机升级，Service 通过标签来选取服务后端，一般配合 ReplicaSet（简称 RS）或者 Deployment 来保证后端容器的正常运行。这些匹配标签的 Pod IP 和端口列表组成 endpoints，由 kube-proxy 负责将服务 IP 负载均衡到这些 endpoints 上，如下图所示（图片来自 Overview of a Service）：

关于 Service，个人的理解是，它只是一种抽象，通过 label（资源标签）绑定到对应的 RC 和 Deployment 上，它是不会创建 Pod 的，Pod 还是由 RS 或 Deployment 创建的。下面是一个示例，这个 Service 将服务的 80 端口转发到 default namespace 中带有标签 run=nginx 的 Pod 的 80 端口上。

apiVersion: v1
kind: Service
metadata:
  labels:
    run: nginx
  name: nginx
  namespace: default
spec:
  ports:
  - port: 80
    protocol: TCP
    targetPort: 80
  selector:
    run: nginx
  sessionAffinity: None
  type: ClusterIP

Namespace

Namespace 是对一组资源和对象的抽象集合（Kubernetes 指南之 Namespace），比如可以用来将系统内部的对象划分为不同的项目组或用户组。常见的 Pod, service, Replication Controller 和 Deployment 等都是属于某一个 namespace 的（默认是 default），而 node, persistent volume，namespace 等资源则不属于任何 namespace。

Namespace 常用来隔离不同的用户，比如 Kubernetes 自带的服务一般运行在 kube-system namespace 中。

常用的命令：

# 查询 K8s 的 namespace 信息
kubectl get namespaces

# 命令行直接创建 namespace
kubectl create namespace new-namespace
# 通过资源描述文件来创建 namespace
kubectl create -f ./my-namespace.yaml

# 删除 namespace
kubectl delete namespaces new-namespace

其他

其他还是有一些比较重要的资源对象，只不过这些没有上面这些常用，大家可以参考 Kubernetes 指南之资源对象。

小结

这篇文章主要是对 Kubernetes 的架构、组件及核心的概念做了一下梳理，并没有涉及特别深入的内容，正如文章标题所述，算是一篇入门的文章介绍，以后如果有机会、有时间个人计划是好好研究一下 Kubernetes，更新一些稍微深入的内容。

参考：

浅谈 CPU 分支预测技术

2020-04-15T16:33:56.000Z

最近在看 SQL 优化之 Code Generation 相关的内容，我们知道 Code Generation 是 SQL 优化的大杀器之一，不管是在 Apache Spark 还是 Apache Flink 中都有比较深入的应用（特别是在 Spark 中），Code Generation 最开始是在数据库中应用的，Spark 将其引入到 Spark SQL 的中优化，后来的 Flink 也借鉴了这一思想。Code Generation 是要解决什么问题呢？相信大部分人应该有所了解，简单来说就是减少虚函数调用、尽可能利用 CPU 分支预测的能力（会在 Code Generation 部分详细介绍，这里只需要了解这一背景即可），那么什么是 CPU 分支预测（Wikipedia: CPU Branch Predictor）呢？为什么虚函数调用会极大消耗 CPU 性能呢？这就是本文将要给大家介绍的内容。

CPU Instruction pipelining

在介绍 CPU 分支预测机制之前，先来看下 CPU 的流水线机制（Wikipedia: CPU Instruction pipelining）。

关于流水线（pipeline），这里举一个生活中的例子，比如在洗车时，当前面一辆车清洗完成进入擦洗阶段后，下一辆车就可以进入喷水阶段了，这就是一个典型的流水线场景（如下如所示），它不是说非要前面一辆车把清洗、擦洗全部完成后，下一辆车才能开始。

从这里也可以看出，流水线机制一个重要的特性就是 提高了系统的吞吐量，也就是单位时间内服务的总数，不过它会有一个轻微的延迟，对于上面的例子就是，一辆汽车在洗完之后需要开到擦洗的地方擦洗。在 CPU 的设计中，也有类似流水线化的机制，这个汽车就是指令，每个阶段完成执行执行的一部分。

CPU 中计算的流水线化

下面举一个示例，这里将系统执行分为三个阶段（A、B 和 C），如下图所示，每个阶段需要 100ps（picosecond，皮秒，也就是微微秒，即 $10^{-12}$），中间加载寄存器（也可以叫做流水线寄存器，pipeline register）需要 20ps。对于图 b，时间从左往右流动，对于指令 I1，三个方框分别代表三个阶段（图片来自《深入理解计算机系统第三版》中插图）。

这样，每条指令都会按照三步经过这个系统，从头到尾需要三个完整的时钟周期，如上图所示，只要 I1 从 A 进入 B，就可以让 I2 进入 A 阶段了，以此类推。在稳定状态下，三个阶段都应该是活动的，每个时钟周期，一条指令离开系统，一条新的指令进入。在这个系统中，时钟周期设为 100+20=120ps，得到的吞吐量大约为 8.33GIPS，但是因为处理一条指令需要 3 个时钟周期，所以这条流水线的延迟就是 3*120=360ps，它相当于一阶段的系统，吞吐量提高了 2.67 倍，代价是增加了一些硬件以及延迟的增加（寄存器变多带来的延迟）。

流水线的局限

在上面的三阶段系统中，它是一个比较理想的情况，在这个系统中，我们可以将计算分成三个独立的阶段，每个阶段需要的时间是原来逻辑需要时间的三分之一，但是在实际生产中，会出现一些其他的因素，降低流水线的效率。

情况 1：阶段不一致的划分

在前面的例子划分的阶段中，每个阶段执行都是 100ps，但是实际中并不一定是这样的，假如 A 阶段是 50ps，B 阶段是 150ps，C 阶段是 100ps，在这种情况下，系统必须将时钟周期设置为 170ps（由最慢的来决定），这样的话，其吞吐量就变成了 5.88GIPS，由于时钟减慢，也导致了延迟增加到了 510ps。

因此，在 CPU 硬件设计时，将系统计算设计分为一组具有相同延迟的阶段将是一个严峻的挑战。

情况 2：流水线过深，收益反而下降

如果流水线过深，中间使用到的寄存器将会变多，寄存器使用带来的延迟在指令运行总延迟中的比重将会增大。一方面，在设计时，为了提高时钟频率，现代处理器会采用很深的流水线，另一方面，由于流水线过深，指令运行延迟会变长。所以，在实际设计时，电路设计师如何设计流水线寄存器，使其延迟尽可能减少，是高速微处理器面临重大挑战之一。

CPU Branch Predictor

在开始介绍 CPU 分支预测技术之前，可以先看下 StackOverflow 上一个非常有名的问题（现在有 3w+ 人认同第一个回答） —— Why is processing a sorted array faster than processing an unsorted array?，问题的大概是，对一个数组中的每个元素，先做判断，如果大于某个值，就做累加，就是这样一个简单的操作，发现一个有意思的现象，如果用 C++ 写这段代码，对于有序数组和无序数组分别做这个操作，性能大概相差五倍多，在 Java 中，差距小一点，大概是 1 倍。为什么会出现这个问题呢？

背后的原因就是 CPU 流水线下，CPU 采用分支预测技术，对于有序数组可以很好地 CPU 这一特性，而无序数组会使得分支预测手足无措。

什么是分支预测

在前面，我们了解到 CPU 为了提高吞吐量采用了流水线机制，比如下图中的 4 级流水线（图片来自 Wikipedia: CPU Instruction pipelining）：

上图中的 CPU pipeline 有四个执行阶段:

读取指令(Fetch)；
指令解码(Decode)；
运行指令(Execute)；
回写(Write-back)。

假设有三条指令，在上面这个四级流水线构架下（每个阶段都会花费一个时钟周期），pipeline 执行流程如下图所示：

我们知道：如果没有流水线机制，一条指令大概会花费 4 个时钟周期，而如果采用流水线机制，当第一条指令完成Fetch后，第二条指令就可以进行Fetch了，极大提高了指令的执行效率。

上面是我们的期待的理想情况，而在现实环境中，如果遇到的指令是 条件跳转指令，只要当前面的指令运行到执行阶段，才能知道要选择的分支，显然这种停顿对于 CPU 的 pipeline 机制是非常不友好的。而 分支预测技术 正是为了解决上述问题而诞生的，CPU 会根据分支预测的结果，选择下一条指令进入流水线。待跳转指令执行完成，如果预测正确，则流水线继续执行，不会受到跳转指令的影响。如果分支预测失败，那么便需要清空流水线，重新加载正确的分支（实际上目前市面上所有处理器都采用了类似的技术）。

分支预测技术

这里看下常见的分支预测技术，主要有：静态分支预测、动态分支预测和协同分支预测三种，有兴趣的可以看下下面的几篇文章：

关于这三种技术，这里就不再展开了，简单总结一下。

静态分支预测：实现起来很简单、成本低，而且在生产中，这种预测正确率的波动范围很大；
动态分支预测：根据指令的不同及历史信息（存储在一张分支历史表中 —— Branch History Table）作出相应的预测，常见的有 1-bit/n-bit 动态预测；
协同分支预测：利用代码中分支跳转指令之间的关联关系，提高分支预测的准确率。

Java 中的虚函数调用

Java 本身没有虚函数的概念，它在 C++ 中是最常见的。在 C++ 中，虚函数通过 virtual 关键字定义，实现在类的继承当中，编译器通过判断对象的类型，在调用函数时，执行对应的函数。Java 中并没有显式去定义虚函数的概念，Java 中实际上每个函数都默认是一个虚函数（声明 final 关键字的函数除外），比如下面示例中 eat() 方法。

public class Animal {
   public void eat() { System.out.println("I eat like a generic Animal."); 
}
 
public class Dog extends Animal {
   public void eat() { System.out.println("I eat like a dog!"); }
}
 
public class Cat extends Animal {
   public void eat() { System.out.println("I eat like a cat!"); }
}
 
   public static void main(String[] args) {
      List animals = new LinkedList();

      animals.add(new Animal());
      animals.add(new Dog());
      animals.add(new Cat());
      for (Animal currentAnimal : animals) {
         currentAnimal.eat();
      }
   }
}

虚函数存在的意义就是为了实现多态，Java 通过 动态绑定，不仅实现了虚函数的功能，也使得代码逻辑更为简洁。

小结

到这里，相信大家已经对 CPU 的流水线机制及 CPU 的分支预测技术有了一定的了解。回到 code
上，如果代码里充满着各种不可预知的条件跳转指令，将会极大影响 CPU 的执行效率，数据库中采用的 Volcano-style execution engine（火山执行引擎）在代码中充满着各种虚函数调用（详细机制在后面内容中再介绍），在编译器中，虚函数需要调用查找虚函数表，并且虚函数调用是一个非直接跳转逻辑，在这个逻辑中，最大的代价是可能导致错误的 CPU 分支预测，一次错误的分支预测会导致需要 10 几个周期的系统开销。

参考：

Flink 基于 MailBox 实现的 StreamTask 线程模型

2020-03-20T15:46:37.000Z

本篇文章是 Flink 系列 的第八篇，在介绍 TaskManager 第二部分之前，先来给介绍一下目前 StreamTask 中基于 MailBox 实现的线程模型，这个模型从 1.9 开始实现，在目前发布的 1.10 版本中，基本上已经改造完成，具体 issue 见 FLINK-12477: Change threading-model in StreamTask to a mailbox-based approach，其设计文档见 Change threading-model in StreamTask to a mailbox-based approach，去年，vinoyang 也写了一篇关于它的介绍，见重磅！Flink 将重构其核心线程模型。因为 Flink 1.10 已经发布，本篇关于 MailBox 实现的介绍会基于 1.10 最新的代码来讲述（系列的其他篇，没有说明的话，默认还是以 1.9 的代码为例），这个功能在 1.9 中还并没有完全完成，所以本文以 1.10 代码为例讲述。

Motivation

先来看下这个改造/改进最初的动机，在之前 Flink 的线程模型中，会有多个潜在的线程去并发访问其内部的状态，比如 event-processing 和 checkpoint triggering，它们都是通过一个全局锁（checkpoint lock）来保证线程安全，这种实现方案带来的问题是：

锁对象会在多个类中传递，代码的可读性比较差；
而且锁对象还暴露给了面向用户的 API（见 SourceFunction#getCheckpointLock()）；
在使用时，如果没有获取锁，可能会造成很多问题，使得问题难以定位；

基于上面的这些问题，关于线程模型，提出了一个全新的解决方案 —— MailBox 模型，它可以让 StreamTask 中所有状态的改变都会像在单线程中实现得一样简单。方案借鉴了 Actor 模型的 MailbBox 设计理念，它会让这些 action 操作（需要获取 checkpoint lock 的操作）先加入到一个 阻塞队列，然后主线程再从队列取相应的 mail task 去执行。

设计方案

这里先看下，之前的实现方案中，StreamTask 中 checkpoint lock 都主要用在什么地方：

Event-processing: events、watermarks、barriers、latency markers 等的发送和处理；
Checkpoints: 通过 RPC 向 TaskExecutor 发送 Checkpoint trigger 和 completeness 的通知，以及 Checkpoint 的 trigger 和 cancel 在 event 处理期间也可以通过 barrier 接收到；
Processing Time Timers: 目前 SystemProcessingTimeService 是使用 ScheduledExecutor 异步地处理 processing time timer（而 event time timer 依赖于 Watermark 的处理，并且它同步触发的）。

另外，设计方案不但要能达到排它锁的效果，还要对一些核心环节（比如：event processing）能够做到原子性处理。

下面来看下 MailBox 模型 最初设计文档中的设计（方案方案见：Change threading-model in StreamTask to a mailbox-based approach）。

StreamTask 中要做的改变

这里会在 StreamTask 中引入一个 MailBox 变量，最初的一个想法是将 MailBox 设计为一个 ArrayBlockingQueue（实际上在 1.9 的实现中，使用的是一个 ring buffer，1.10 对这部分又做了重构，后面会介绍）。MailBox 将会取代 StreamTask#run() 方法的角色，而且它还可以处理 Checkpoint event 和 processing timer event，这些 event 都会被封装为一个 task 添加到 MailBox 的队列中，而 MailBox 的主线程（单线程）将会消费这个队列中的 task 进行顺序处理。StreamTask 实现的伪代码如下：

BlockingQueue mailbox = ...
void runMailboxProcessing() {
//TODO: can become a cancel-event through mailbox eventually
    Runnable letter;
    while (isRunning()) {
        while ((letter = mailbox.poll()) != null) { letter.run();
            letter.run();
        }
        defaultAction();
    }
}
void defaultAction() {
// e.g. event-processing from an input
}

上面的代码实现只是核心代码大概实现，在真正的实现中还可以做很多优化，队列的公平性也是我们考虑的一个点，之前的抢锁操作是完全没有任何公平性而言的。

client 代码需要做的改变

之前的实现中，Checkpoint lock 通过 getter 暴露给相关的 actor（Checkpoint、processing timer、event processing），而在 MailBox 的实现中，将会把 mailbox 隐藏在 queue 接口后面，仅仅向上层暴露 queue 的 getter 接口。

event 的产生与处理

MailBox 的实现将会极大简化代码的实现，MailBox 模型可以确保这些改变都是由单线程来操作，之前很多需要加锁的代码在新的实现中可以被移除。而为了实现MailBox 模型，需要将之前 run() 方法中 event processing 循环调用处理改为一个 event 有界流处理，举个例子：

One/TwoInputStreamTask 中的下面代码

1	while (running && inputProcessor.processInput())

可以修改为

1	inputProcessor.processInput() // 每次触发，都相当于处理一个有限流

在实现中，会先检查 MailBox 有没有 mail（即加入到队列里的 task 任务）需要处理，有的话，就进行处理，如果没有的话，就执行上面的操作，进行 event processing。

这里有一个问题：就是 SourceStreamTask，会有一个兼容性的问题，因为在流的 source 端，它的 event prcessing 是来专门产生一个无限流数据，在这个处理中，并不能穿插 MailBox 中的 mail 检测，也就是说，如果只有一个 MailBox 线程处理的话，当这个线程去产生数据的话，它一直运行下去，就无法再去检测 MailBox 中是否有新的 mail 到来（在 Source 未来的版本中，可以完美兼容 MailBox 线程设计，见 FLIP-27，但现在的版本还不兼容）。

为了兼容 Source 端，目前的解决方案是：两个线程操作，一个专门用产生无限流，另一个是 MailBox 线程（处理 Checkpoint、timer 等），这两个线程为了保证线程安全，还是使用 Checkpoint Lock 做排它锁，如下图所示（图片来自设计文档）：

Checkpoint 和 timer 的 trigger

对于 Checkpoint 和 timer 的 trigger，这里会发现，目前的这个设计是完全可以满足需求的，Checkpoint 和 Timer 的触发事件都会以一个 Runnable 的形式添加到 MailBox 的队列中，等待 MailBox 主线程去处理。

具体实现

介绍完其设计方案，这里注重看下在 Apache Flink 1.10 的代码中，基于 MailBox 模型 的 StreamTask 是如何实现的。

StreamTask 处理流程

在 Flink 中，当一个作业被调度起来后，对于流计算来说，作业中的 Task 最终会以 StreamTask 的形式去执行，在 1.10 的实现中，一个 StreamTask 的核心处理流程如下：

StreamTask 中 invoke() 和 runMailboxLoop() 方法的实现如下：

// org.apache.flink.streaming.runtime.tasks.StreamTask
public final void invoke() throws Exception {
    try {
        beforeInvoke();

        // final check to exit early before starting to run
        if (canceled) {
            throw new CancelTaskException();
        }

        // let the task do its work
        isRunning = true;
        runMailboxLoop();

        // if this left the run() method cleanly despite the fact that this was canceled,
        // make sure the "clean shutdown" is not attempted
        if (canceled) {
            throw new CancelTaskException();
        }

        afterInvoke();
    }
    finally {
        cleanUpInvoke();
    }
}

private void runMailboxLoop() throws Exception {
    //note: mailbox 处理
    try {
        mailboxProcessor.runMailboxLoop();
    }
    catch (Exception e) {
        Optional interruption = ExceptionUtils.findThrowable(e, InterruptedException.class);
        if (interruption.isPresent()) {
            if (!canceled) {
                Thread.currentThread().interrupt();
                throw interruption.get();
            }
        } else if (canceled) {
            LOG.warn("Error while canceling task.", e);
        }
        else {
            throw e;
        }
    }
}

最后真正执行的是 MailboxProcessor 中的 runMailboxLoop() 方法，也就是上面说的 MailBox 主线程，StreamTask 运行的核心流程也是在这个方法中，其实现如下：

//org.apache.flink.streaming.runtime.tasks.mailbox.MailboxProcessor
/**
 * Runs the mailbox processing loop. This is where the main work is done.
 * note: mailbox 处理核心流程
 */
public void runMailboxLoop() throws Exception {

    final TaskMailbox localMailbox = mailbox;

    Preconditions.checkState(
        localMailbox.isMailboxThread(),
        "Method must be executed by declared mailbox thread!");

    //note: MailBox 的状态必须是 OPEN，才能继续循环
    assert localMailbox.getState() == TaskMailbox.State.OPEN : "Mailbox must be opened!";

    final MailboxController defaultActionContext = new MailboxController(this);

    while (processMail(localMailbox)) { //note: 如果有 mail 需要处理，这里会进行相应的处理，处理完才会进行下面的 event processing
        //note: 进行 task 的 default action，也就是调用 processInput()
        mailboxDefaultAction.runDefaultAction(defaultActionContext); // lock is acquired inside default action as needed
    }
}

上面的方法中，最关键的有两个地方：

processMail(): 它会检测 MailBox 中是否有 mail 需要处理，如果有的话，就做相应的处理，一直将全部的 mail 处理完才会返回，只要 loop 还在进行，这里就会返回 true，否则会返回 false；
runDefaultAction(): 这个最终调用的 StreamTask 的 processInput() 方法，event-processing 的处理就是在这个方法中进行的。

event-processing 处理

对于 StreamTask 来说，event-processing 现在是在 processInput() 方法中实现的：

//org.apache.flink.streaming.runtime.tasks.StreamTask
/**
 * This method implements the default action of the task (e.g. processing one event from the input). Implementations
 * should (in general) be non-blocking.
 * note: 这个方法执行这个 task 默认的 action
 *
 * @param controller controller object for collaborative interaction between the action and the stream task.
 * @throws Exception on any problems in the action.
 */
protected void processInput(MailboxDefaultAction.Controller controller) throws Exception {
    InputStatus status = inputProcessor.processInput(); //note: event 处理
    if (status == InputStatus.MORE_AVAILABLE && recordWriter.isAvailable()) {
        //note: 如果输入还有数据，并且 writer 是可用的，这里就直接返回了
        return;
    }
    if (status == InputStatus.END_OF_INPUT) {
        //note: 输入已经处理完了，会调用这个方法
        controller.allActionsCompleted();
        return;
    }
    CompletableFuture jointFuture = getInputOutputJointFuture(status);
    //note: 告诉 MailBox 先暂停 loop
    MailboxDefaultAction.Suspension suspendedDefaultAction = controller.suspendDefaultAction();
    //note: 等待 future 完成后，继续 mailbox loop（等待 input 和 output 可用后，才会继续）
    jointFuture.thenRun(suspendedDefaultAction::resume);
}

再结合 MailboxProcessor 中的 runMailboxLoop() 实现一起看，其操作的流程是：

首先通过 processMail() 方法处理 MailBox 中的 mail：
- 如果没有 mail 要处理，这里直接返回；
- 先将 MailBox 中当前现存的 mail 全部处理完；
- 通过 isDefaultActionUnavailable() 做一个状态检查（目的是提供一个接口方便上层控制调用，这里把这个看作一个状态检查方便讲述），如果是 true 的话，会在这里一直处理 mail 事件，不会返回，除非状态改变；
然后再调用 StreamTask 的 processInput() 方法来处理 event:
- 先调用 InputProcessor 的 processInput() 方法来处理 event；
- 如果上面处理结果返回的状态是 MORE_AVAILABLE（表示还有可用的数据等待处理）并且 recordWriter 可用（之前的异步操作已经处理完成），就会立马返回；
- 如果上面处理结果返回的状态是 END_OF_INPUT，它表示数据处理完成，这里就会告诉 MailBox 数据已经处理完成了；
- 否则的话，这里会等待，直到有可用的数据到来及 recordWriter 可用。

checkpoint trigger 处理

接着来看下 Checkpoint Trigger 是怎么处理的，要先看下 Streamtask 的 triggerCheckpointAsync() 实现：

//org.apache.flink.streaming.runtime.tasks.mailbox.MailboxProcessor
@Override
public Future triggerCheckpointAsync(
        CheckpointMetaData checkpointMetaData,
        CheckpointOptions checkpointOptions,
        boolean advanceToEndOfEventTime) {

    //note: checkpoint 触发时，提交相应的 task
    return mailboxProcessor.getMainMailboxExecutor().submit(
            () -> triggerCheckpoint(checkpointMetaData, checkpointOptions, advanceToEndOfEventTime),
            "checkpoint %s with %s",
        checkpointMetaData,
        checkpointOptions);
}

这里可以看到，其实现跟方案设计中的是一致，Checkpoint trigger 这里的操作就是向 MailBox 提交一个 Task，等待 MailBox 去处理。

SourceStreamTask 如何兼容

在设计文档中，有个重要的、特别要注意的点就是 SourceStreamTask 的兼容问题，开始的设计方案是在 SourceStreamTask 中专门启动两个线程来保持兼容性问题，而且虽然使用了 MailBox 模型，但还是会继续使用 checkpoint lock 来保证线程安全，这里看下其是如何实现的。

//org.apache.flink.streaming.runtime.tasks.SourceStreamTask
@Override
protected void processInput(MailboxDefaultAction.Controller controller) throws Exception {

    //note: 告诉 MailBox 先暂停 loop
    controller.suspendDefaultAction();

    // Against the usual contract of this method, this implementation is not step-wise but blocking instead for
    // compatibility reasons with the current source interface (source functions run as a loop, not in steps).
    sourceThread.setTaskDescription(getName());
    sourceThread.start();
    sourceThread.getCompletionFuture().whenComplete((Void ignore, Throwable sourceThreadThrowable) -> {
        if (sourceThreadThrowable == null || isFinished) {
            //note: sourceThread 完成后，没有抛出异常或 task 完成的情况下
            mailboxProcessor.allActionsCompleted();
        } else {
            //note: 没有完成但结束了或者抛出异常的情况下
            mailboxProcessor.reportThrowable(sourceThreadThrowable);
        }
    });
}


/**
 * Runnable that executes the the source function in the head operator.
 * note: source 产生 data 的一个线程
 */
private class LegacySourceFunctionThread extends Thread {

    private final CompletableFuture completionFuture;

    LegacySourceFunctionThread() {
        this.completionFuture = new CompletableFuture<>();
    }

    @Override
    public void run() {
        try {
            //note: 调用 source Operator 的 run
            headOperator.run(getCheckpointLock(), getStreamStatusMaintainer(), operatorChain);
            completionFuture.complete(null);
        } catch (Throwable t) {
            // Note, t can be also an InterruptedException
            completionFuture.completeExceptionally(t);
        }
    }

    public void setTaskDescription(final String taskDescription) {
        setName("Legacy Source Thread - " + taskDescription);
    }

    CompletableFuture getCompletionFuture() {
        return completionFuture;
    }
}

可以看到：

LegacySourceFunctionThread 线程在启动时，会先通知一下 MailBox，这个就是上面说的那个状态检查，收到这个信号之后，MailBox 就会在 processMail() 中一直等待并且处理 mail，不会返回（也就是 MailBox 主线程一直在处理 mail 事件）；
LegacySourceFunctionThread 线程就是专门生产数据的，跟 MailBox 这两个线程都在运行。

那么两个线程如何保证线程安全呢？如果仔细看上面的代码就会发现，在 SourceStreamTask 中还继续使用了 getCheckpointLock()，虽然这个方法现在已经被标注了将要被废弃，但 Source 没有改造完成之前，Source 的实现还是会继续依赖 checkpoint lock。

总结

这里，总结一下 Flink 1.10 中 MailBox 模型的核心设计，如下图所示：

MailboxExecutor: 它负责向 MailBox 提交 task 任务；
TaskMailbox: 负责存储相应 task 任务（也就是 mail），它支持多写单读，单线程读取并处理；
MailboxProcessor: MailBox 的核心处理线程，MailboxDefaultAction 是其默认的 action 实现，可以理解为 StreamTask 的 event 处理逻辑就是基于 MailboxDefaultAction 接口实现的。

Flink MailBox 这块的设计还是非常不错的，无论是从代码的可读性上还是后续维护性上都是要比之前的设计好很多，也值得我们学习借鉴。

参考：

Flink TaskManager 详解（一）

2020-03-15T03:46:37.000Z

本篇文章是 Flink 系列 的第七篇，这篇文章主要会讲述 Flink 中的 TaskManager 的一些内容，TaskManager 是 Flink 的 worker 节点，它负责 Flink 中本机 slot 资源的管理以及具体 task 的执行。TaskManager 上的基本资源单位是 slot，一个作业的 task 最终会部署在一个 TM 的 slot 上运行，TM 会负责维护本地的 slot 资源列表，并来与 Flink Master 和 JobManager 通信，预计将会通过两篇左右的文章来向大家揭秘 TaskManager 内部的实现原理。另外，本篇将采用先提出问题，然后再根据源码实现去解答这些问题的形式叙述，如果大家有其他建议，欢迎（博客/公众号）留言反馈。

对于 TaskManager 的内容，这里将会聚焦下面几个问题上，下面的文章将会逐个去分析这些问题（因为内容较多，会分为两篇文章讲述，本篇注重聚焦在前五个问题上）：

TaskManager 启动流程？
TaskManager 提供了哪些能力/功能？
TaskManager 怎么发现 RM leader（在使用 ZK 做 HA 的情况下）？
TM 如何维护 JobManager 的关系，如果 JobManager 挂掉，TM 会如何处理？
TM Slot 资源是如何管理的？
TM 如何处理提交过来的 Task；
TM 如何处理 Task 之间 Shuffle 的需求？

TaskManager 启动流程

与 JobManager 类似，TaskManager 的启动类是 TaskManagerRunner，大概的流程如下图所示：

TaskManager 启动的入口方法是 runTaskManager()，它会首先初始化 TaskManager 一些相关的服务，比如：初始化 RpcService、初始化 HighAvailabilityServices 等等，这些都是为 TaskManager 服务的启动做相应的准备工作。其实 TaskManager 初始化主要分为下面两大块：

TaskManager 相关 service 的初始化：比如：内存管理器、IO 管理器、TaskSlotTable（TaskSlot 的管理是在这里进行的）等，这里也包括 TaskExecutor 的初始化，注意这里对于一些需要启动的服务在这一步并没有启动；
TaskExecutor 的启动：它会启动 TM 上相关的服务，Task 的提交和运行也是在 TaskExecutor 中处理的，上一步 TM 初始化的那些服务也是在 TaskExecutor 中使用的。

TM 的服务真正 Run 起来之后，核心流程还是在 TaskExecutor 中。

TaskManager 相关服务的初始化

这里，先从 TaskManager 的入口 runTaskManager() 来看 TaskManager 相关服务的初始化流程，总结来看流程如下：

//  1. 入口方法
runTaskManager()

// 2. 创建 TaskManagerRunner 对象
TaskManagerRunner taskManagerRunner = new TaskManagerRunner(configuration, resourceId);

// 3. 启动 TaskManager 服务
startTaskManager()

// 4. 初始化相关的服务
TaskManagerServices.fromConfiguration()

首先看下具体的代码实现：

// TaskManagerRunner.java
//note: 启动 TaskManagerRunner
public static void runTaskManager(Configuration configuration, ResourceID resourceId) throws Exception {
    final TaskManagerRunner taskManagerRunner = new TaskManagerRunner(configuration, resourceId);

    taskManagerRunner.start();
}


//note: 初始化 TaskManagerRunner
public TaskManagerRunner(Configuration configuration, ResourceID resourceId) throws Exception {
    this.configuration = checkNotNull(configuration);
    this.resourceId = checkNotNull(resourceId);

    //note: akka 超时设置
    timeout = AkkaUtils.getTimeoutAsTime(configuration);

    this.executor = java.util.concurrent.Executors.newScheduledThreadPool(
        Hardware.getNumberCPUCores(),
        new ExecutorThreadFactory("taskmanager-future"));

    //note: HA 的配置及服务初始化
    highAvailabilityServices = HighAvailabilityServicesUtils.createHighAvailabilityServices(
        configuration,
        executor,
        HighAvailabilityServicesUtils.AddressResolution.TRY_ADDRESS_RESOLUTION);

    //note: create rpc service
    rpcService = createRpcService(configuration, highAvailabilityServices);

    //note: 初始化心跳服务
    HeartbeatServices heartbeatServices = HeartbeatServices.fromConfiguration(configuration);

    //note: metrics 服务
    metricRegistry = new MetricRegistryImpl(
        MetricRegistryConfiguration.fromConfiguration(configuration),
        ReporterSetup.fromConfiguration(configuration));

    //note: 启动相应的 metrics 服务
    final RpcService metricQueryServiceRpcService = MetricUtils.startMetricsRpcService(configuration, rpcService.getAddress());
    metricRegistry.startQueryService(metricQueryServiceRpcService, resourceId);

    //note: 初始化 blob 服务
    blobCacheService = new BlobCacheService(
        configuration, highAvailabilityServices.createBlobStore(), null
    );

    //note: 启动 TaskManager 服务及创建 TaskExecutor 对象
    taskManager = startTaskManager(
        this.configuration,
        this.resourceId,
        rpcService,
        highAvailabilityServices,
        heartbeatServices,
        metricRegistry,
        blobCacheService,
        false,
        this);

    this.terminationFuture = new CompletableFuture<>();
    this.shutdown = false;

    //note: 周期性地输出内存相关的日志信息，直到 terminationFuture complete
    MemoryLogger.startIfConfigured(LOG, configuration, terminationFuture);
}

在上面的流程中，初始化了一些最基本的服务，比如：rpc 服务，在方法的最后调用了 startTaskManager() 启动 TaskManager，其代码实现如下：

// TaskManagerRunner.java
//note: 创建并初始化 TaskExecutor 对象
public static TaskExecutor startTaskManager(
        Configuration configuration,
        ResourceID resourceID,
        RpcService rpcService,
        HighAvailabilityServices highAvailabilityServices,
        HeartbeatServices heartbeatServices,
        MetricRegistry metricRegistry,
        BlobCacheService blobCacheService,
        boolean localCommunicationOnly,
        FatalErrorHandler fatalErrorHandler) throws Exception {

    checkNotNull(configuration);
    checkNotNull(resourceID);
    checkNotNull(rpcService);
    checkNotNull(highAvailabilityServices);

    LOG.info("Starting TaskManager with ResourceID: {}", resourceID);

    InetAddress remoteAddress = InetAddress.getByName(rpcService.getAddress());

    //note: TM 服务相关的配置都维护在这个对象中，这里会把使用的相关参数解析并维护起来
    TaskManagerServicesConfiguration taskManagerServicesConfiguration =
        TaskManagerServicesConfiguration.fromConfiguration(
            configuration,
            resourceID,
            remoteAddress,
            EnvironmentInformation.getSizeOfFreeHeapMemoryWithDefrag(),
            EnvironmentInformation.getMaxJvmHeapMemory(),
            localCommunicationOnly);

    //note: 初始化 TM 的 TaskManagerMetricGroup，并相应地初始化 TM 的基本状态（内存、CPU 等）监控
    Tuple2 taskManagerMetricGroup = MetricUtils.instantiateTaskManagerMetricGroup(
        metricRegistry,
        TaskManagerLocation.getHostName(remoteAddress),
        resourceID,
        taskManagerServicesConfiguration.getSystemResourceMetricsProbingInterval());

    //note: 初始化 TaskManagerServices（TM 相关服务的初始化都在这里）
    TaskManagerServices taskManagerServices = TaskManagerServices.fromConfiguration(
        taskManagerServicesConfiguration,
        taskManagerMetricGroup.f1,
        rpcService.getExecutor()); // TODO replace this later with some dedicated executor for io.

    //note: TaskManager 相关的配置，主要用于 TaskExecutor 的初始化
    TaskManagerConfiguration taskManagerConfiguration = TaskManagerConfiguration.fromConfiguration(configuration);

    String metricQueryServiceAddress = metricRegistry.getMetricQueryServiceGatewayRpcAddress();

    //note: 最后创建 TaskExecutor 对象
    return new TaskExecutor(
        rpcService,
        taskManagerConfiguration,
        highAvailabilityServices,
        taskManagerServices,
        heartbeatServices,
        taskManagerMetricGroup.f0,
        metricQueryServiceAddress,
        blobCacheService,
        fatalErrorHandler,
        new PartitionTable<>());
}

这里，来着重看一下 TaskManagerServices.fromConfiguration() 这个方法，在这个方法初始了很多 TM 的服务，从下面的具体实现中也可以看出：

// TaskManagerServices.java
/**
 * Creates and returns the task manager services.
 * note：根据创建 TM 服务
 *
 * @param taskManagerServicesConfiguration task manager configuration
 * @param taskManagerMetricGroup metric group of the task manager
 * @param taskIOExecutor executor for async IO operations
 * @return task manager components
 * @throws Exception
 */
public static TaskManagerServices fromConfiguration(
        TaskManagerServicesConfiguration taskManagerServicesConfiguration,
        MetricGroup taskManagerMetricGroup,
        Executor taskIOExecutor) throws Exception {

    // pre-start checks
    checkTempDirs(taskManagerServicesConfiguration.getTmpDirPaths());

    //note: 创建 taskEventDispatcher
    final TaskEventDispatcher taskEventDispatcher = new TaskEventDispatcher();

    // start the I/O manager, it will create some temp directories.
    //note: 创建 IO 管理器
    final IOManager ioManager = new IOManagerAsync(taskManagerServicesConfiguration.getTmpDirPaths());

    //note: 创建 ShuffleEnvironment 对象(默认是 NettyShuffleEnvironment)
    final ShuffleEnvironment shuffleEnvironment = createShuffleEnvironment(
        taskManagerServicesConfiguration,
        taskEventDispatcher,
        taskManagerMetricGroup);
    final int dataPort = shuffleEnvironment.start();

    //note: 创建 KvStateService 实例并启动
    final KvStateService kvStateService = KvStateService.fromConfiguration(taskManagerServicesConfiguration);
    kvStateService.start();

    //note: 初始化 taskManagerLocation，记录 connection 信息
    final TaskManagerLocation taskManagerLocation = new TaskManagerLocation(
        taskManagerServicesConfiguration.getResourceID(),
        taskManagerServicesConfiguration.getTaskManagerAddress(),
        dataPort);

    // this call has to happen strictly after the network stack has been initialized
    //note: 初始化 MemoryManager
    final MemoryManager memoryManager = createMemoryManager(taskManagerServicesConfiguration);
    final long managedMemorySize = memoryManager.getMemorySize();

    //note: 初始化 BroadcastVariableManager 对象
    final BroadcastVariableManager broadcastVariableManager = new BroadcastVariableManager();

    //note: 当前 TM 拥有的 slot 及每个 slot 的资源信息
    final int numOfSlots = taskManagerServicesConfiguration.getNumberOfSlots();
    final List resourceProfiles =
        Collections.nCopies(numOfSlots, computeSlotResourceProfile(numOfSlots, managedMemorySize));

    //note: 注册一个超时（AKKA 超时设置）服务（在 TaskSlotTable 用于监控 slot 分配是否超时）
    final TimerService timerService = new TimerService<>(
        new ScheduledThreadPoolExecutor(1),
        taskManagerServicesConfiguration.getTimerServiceShutdownTimeout());

    //note: 这里会维护 slot 相关列表
    final TaskSlotTable taskSlotTable = new TaskSlotTable(resourceProfiles, timerService);

    //note: 维护 jobId 与 JobManager connection 之间的关系
    final JobManagerTable jobManagerTable = new JobManagerTable();

    //note: 监控注册的 job 的 JobManger leader 信息
    final JobLeaderService jobLeaderService = new JobLeaderService(taskManagerLocation, taskManagerServicesConfiguration.getRetryingRegistrationConfiguration());

    final String[] stateRootDirectoryStrings = taskManagerServicesConfiguration.getLocalRecoveryStateRootDirectories();

    final File[] stateRootDirectoryFiles = new File[stateRootDirectoryStrings.length];

    for (int i = 0; i < stateRootDirectoryStrings.length; ++i) {
        stateRootDirectoryFiles[i] = new File(stateRootDirectoryStrings[i], LOCAL_STATE_SUB_DIRECTORY_ROOT);
    }

    //note: 创建 TaskExecutorLocalStateStoresManager 对象：维护状态信息
    final TaskExecutorLocalStateStoresManager taskStateManager = new TaskExecutorLocalStateStoresManager(
        taskManagerServicesConfiguration.isLocalRecoveryEnabled(),
        stateRootDirectoryFiles,
        taskIOExecutor);

    //note: 将上面初始化的这些服务，封装到一个 TaskManagerServices 对象中
    return new TaskManagerServices(
        taskManagerLocation,
        memoryManager,
        ioManager,
        shuffleEnvironment,
        kvStateService,
        broadcastVariableManager,
        taskSlotTable,
        jobManagerTable,
        jobLeaderService,
        taskStateManager,
        taskEventDispatcher);
}

看到这里，是否有点懵圈了，是不是感觉 TaskManager 实现还挺复杂的，但与 TaskManager 要做的功能相比，上面的实现还不够，真正在 TaskManager 中处理复杂繁琐工作的组件是 TaskExecutor，这个才是 TaskManager 的核心。

TaskExecutor 的启动

回顾一下文章最开始的流程图，TaskManagerRunner 调用 run() 方法之后，真正要启动的是 TaskExecutor 服务，其 onStart() 具体实现如下：

//note: 启动服务
@Override
public void onStart() throws Exception {
    try {
        //note: 启动 TM 的相关服务
        startTaskExecutorServices();
    } catch (Exception e) {
        final TaskManagerException exception = new TaskManagerException(String.format("Could not start the TaskExecutor %s", getAddress()), e);
        onFatalError(exception);
        throw exception;
    }

    //note: 注册超时检测，如果超时还未注册完成，就抛出错误，启动失败
    startRegistrationTimeout();
}

这里，主要分为两个部分：

startTaskExecutorServices(): 启动 TaskManager 相关的服务，结合流程图主要是四大块：
- 启动心跳服务；
- 向 Flink Master 的 ResourceManager 注册 TaskManager；
- 启动 TaskSlotTable 服务（TaskSlot 的维护主要在这个服务中）；
- 启动 JobLeaderService 服务，它主要是监控各个作业 JobManager leader 的变化；
startRegistrationTimeout(): 启动注册超时的检测，默认是5 min，如果超过这个时间还没注册完成，就会抛出异常退出进程，启动失败。

TaskExecutor 启动的核心实现是在 startTaskExecutorServices() 中，其实现如下：

private void startTaskExecutorServices() throws Exception {
    try {
        //note: 启动心跳服务
        startHeartbeatServices();

        //note: 与集群的 ResourceManager 建立连接（并创建一个 listener）
        // start by connecting to the ResourceManager
        resourceManagerLeaderRetriever.start(new ResourceManagerLeaderListener());

        // tell the task slot table who's responsible for the task slot actions
        //note: taskSlotTable 启动
        taskSlotTable.start(new SlotActionsImpl());

        // start the job leader service
        //note: 启动 job leader 服务
        jobLeaderService.start(getAddress(), getRpcService(), haServices, new JobLeaderListenerImpl());

        fileCache = new FileCache(taskManagerConfiguration.getTmpDirectories(), blobCacheService.getPermanentBlobService());
    } catch (Exception e) {
        handleStartTaskExecutorServicesException(e);
    }
}

接下来，详细这块的实现。

1. 启动心跳服务

TaskExecutor 启动的第一个服务就是 HeartbeatManager，这里会启动两个：

jobManagerHeartbeatManager: 用于与 JobManager（如果 Job 有 task 在这个 TM 上，这个 Job 的 JobManager 就与 TaskManager 有心跳通信）之间的心跳通信管理，如果 timeout，这里会重连；
resourceManagerHeartbeatManager:用于与 ResourceManager 之间的通信管理，如果 timeout，这里也会重连。

// TaskExecutor.java
//note: 启动心跳服务
private void startHeartbeatServices() {
    final ResourceID resourceId = taskExecutorServices.getTaskManagerLocation().getResourceID();
    //note: 创建一个与 JM 通信的心跳管理器
    jobManagerHeartbeatManager = heartbeatServices.createHeartbeatManager(
        resourceId,
        new JobManagerHeartbeatListener(),
        getMainThreadExecutor(),
        log);

    //note: 创建一个与 RM 通信的心跳管理器
    resourceManagerHeartbeatManager = heartbeatServices.createHeartbeatManager(
        resourceId,
        new ResourceManagerHeartbeatListener(),
        getMainThreadExecutor(),
        log);
}

2. 向 RM 注册 TM

TaskManger 向 ResourceManager 注册是通过 ResourceManagerLeaderListener 来完成的，它会监控 ResourceManager 的 leader 变化，如果有新的 leader 被选举出来，将会调用 notifyLeaderAddress() 方法去触发与 ResourceManager 的重连，其实现如下：

// TaskExecutor.java
/**
 * The listener for leader changes of the resource manager.
 * note：监控 ResourceManager leader 变化的 listener
 */
private final class ResourceManagerLeaderListener implements LeaderRetrievalListener {

    //note: 如果 leader 被选举处理（包括挂掉之后重新选举），将会调用这个方法通知 TM
    @Override
    public void notifyLeaderAddress(final String leaderAddress, final UUID leaderSessionID) {
        runAsync(
            () -> notifyOfNewResourceManagerLeader(
                leaderAddress,
                ResourceManagerId.fromUuidOrNull(leaderSessionID)));
    }

    @Override
    public void handleError(Exception exception) {
        onFatalError(exception);
    }
}


//note: 如果 RM 的 new leader 选举出来了，这里会新创建一个 ResourceManagerAddress 对象，并重新建立连接
private void notifyOfNewResourceManagerLeader(String newLeaderAddress, ResourceManagerId newResourceManagerId) {
    resourceManagerAddress = createResourceManagerAddress(newLeaderAddress, newResourceManagerId);
    reconnectToResourceManager(new FlinkException(String.format("ResourceManager leader changed to new address %s", resourceManagerAddress)));
}



//note: 重新与 ResourceManager 连接（可能是 RM leader 切换）
private void reconnectToResourceManager(Exception cause) {
    closeResourceManagerConnection(cause);
    //note: 注册超时检测，如果 timeout 还没注册成功，这里就会 failed
    startRegistrationTimeout();
    //note: 与 RM 重新建立连接
    tryConnectToResourceManager();
}


//note: 建立与 ResourceManager 的连接
private void tryConnectToResourceManager() {
    if (resourceManagerAddress != null) {
        connectToResourceManager();
    }
}


//note: 与 ResourceManager 建立连接
private void connectToResourceManager() {
    assert(resourceManagerAddress != null);
    assert(establishedResourceManagerConnection == null);
    assert(resourceManagerConnection == null);

    log.info("Connecting to ResourceManager {}.", resourceManagerAddress);

    //note: 与 RM 建立连接
    resourceManagerConnection =
        new TaskExecutorToResourceManagerConnection(
            log,
            getRpcService(),
            getAddress(),
            getResourceID(),
            taskManagerConfiguration.getRetryingRegistrationConfiguration(),
            taskManagerLocation.dataPort(),
            hardwareDescription,
            resourceManagerAddress.getAddress(),
            resourceManagerAddress.getResourceManagerId(),
            getMainThreadExecutor(),
            new ResourceManagerRegistrationListener());
    resourceManagerConnection.start();
}

在上面的最后一步，创建了 TaskExecutorToResourceManagerConnection 对象，它启动后，会向 ResourceManager 注册 TM，具体的方法实现如下：

// TaskExecutorToResourceManagerConnection.java
@Override
protected CompletableFuture invokeRegistration(
        ResourceManagerGateway resourceManager, ResourceManagerId fencingToken, long timeoutMillis) throws Exception {

    Time timeout = Time.milliseconds(timeoutMillis);
    return resourceManager.registerTaskExecutor(
        taskExecutorAddress,
        resourceID,
        dataPort,
        hardwareDescription,
        timeout);
}

ResourceManager 在收到这个请求，会做相应的处理，主要要做的事情就是：先从缓存里移除旧的 TM 注册信息（如果之前存在的话），然后再更新缓存，并增加心跳监控，只有这些工作完成之后，TM 的注册才会被认为是成功的。

3. 启动 TaskSlotTable 服务

TaskSlotTable 从名字也可以看出，它主要是为 TaskSlot 服务的，它主要的功能有以下三点：

维护这个 TM 上所有 TaskSlot 与 Task、及 Job 的关系；
维护这个 TM 上所有 TaskSlot 的状态；
TaskSlot 在进行 allocate/free 操作，通过 TimeService 做超时检测。

先看下 TaskSlotTable 是如何初始化的：

// TaskManagerServices.java
//note: 当前 TM 拥有的 slot 及每个 slot 的资源信息
//note: TM 的 slot 数由 taskmanager.numberOfTaskSlots 决定，默认是 1
final int numOfSlots = taskManagerServicesConfiguration.getNumberOfSlots();
final List resourceProfiles =
    Collections.nCopies(numOfSlots, computeSlotResourceProfile(numOfSlots, managedMemorySize));

//note: 注册一个超时（AKKA 超时设置）服务（在 TaskSlotTable 用于监控 slot 分配是否超时）
//note: 超时参数由 akka.ask.timeout 控制，默认是 10s
final TimerService timerService = new TimerService<>(
    new ScheduledThreadPoolExecutor(1),
    taskManagerServicesConfiguration.getTimerServiceShutdownTimeout());

//note: 这里会维护 slot 相关列表
final TaskSlotTable taskSlotTable = new TaskSlotTable(resourceProfiles, timerService);

TaskSlotTable 的初始化，只需要两个变量：

resourceProfiles: TM 上每个 Slot 的资源信息；
timerService: 超时检测服务，来保证操作超时时做相应的处理。

TaskSlotTable 的启动流程如下：

// TaskExecutor.java

// tell the task slot table who's responsible for the task slot actions
//note: taskSlotTable 启动
taskSlotTable.start(new SlotActionsImpl());

//note: SlotActions 相关方法的实现
private class SlotActionsImpl implements SlotActions {

    //note: 释放 slot 资源
    @Override
    public void freeSlot(final AllocationID allocationId) {
        runAsync(() ->
            freeSlotInternal(
                allocationId,
                new FlinkException("TaskSlotTable requested freeing the TaskSlot " + allocationId + '.')));
    }

    //note: 如果 slot 相关的操作（分配/释放）失败，这里将会调用这个方法
    //note: 监控的手段是：操作前先注册一个 timeout 监控，操作完成后再取消这个监控，如果在这个期间 timeout 了，就会调用这个方法
    //note: TimeService 的 key 是 AllocationID
    @Override
    public void timeoutSlot(final AllocationID allocationId, final UUID ticket) {
        runAsync(() -> TaskExecutor.this.timeoutSlot(allocationId, ticket));
    }
}

4. 启动 JobLeaderService 服务

TaskExecutor 启动的最后一步是，启动 JobLeader 服务，这个服务通过 JobLeaderListenerImpl 监控 Job 的 JobManager leader 的变化，如果 leader 被选举出来之后，这里将会与新的 JobManager leader 建立通信连接。

// TaskExecutor.java

// start the job leader service
//note: 启动 job leader 服务
jobLeaderService.start(getAddress(), getRpcService(), haServices, new JobLeaderListenerImpl());

//note: JobLeaderListener 的实现
private final class JobLeaderListenerImpl implements JobLeaderListener {

    @Override
    public void jobManagerGainedLeadership(
        final JobID jobId,
        final JobMasterGateway jobManagerGateway,
        final JMTMRegistrationSuccess registrationMessage) {
        //note: 建立与 JobManager 的连接
        runAsync(
            () ->
                establishJobManagerConnection(
                    jobId,
                    jobManagerGateway,
                    registrationMessage));
    }

    @Override
    public void jobManagerLostLeadership(final JobID jobId, final JobMasterId jobMasterId) {
        log.info("JobManager for job {} with leader id {} lost leadership.", jobId, jobMasterId);

        runAsync(() ->
            closeJobManagerConnection(
                jobId,
                new Exception("Job leader for job id " + jobId + " lost leadership.")));
    }

    @Override
    public void handleError(Throwable throwable) {
        onFatalError(throwable);
    }
}

到这里，TaskManager 的启动流程就梳理完了，TaskManager 在实现上整体的复杂度还是比较高的，毕竟它要做的事情是非常多的，下面的几个问题，将会进一步分析 TaskManager 内部的实现机制。

TaskManager 提供了哪些能力/功能？

要想知道 TaskManager 提供了哪些能力，个人认为有一个最简单有效的方法就是查看其对外提供的 API 接口，它向上层暴露哪些 API，这些 API 背后都是 TaskManager 能力的体现，TaskManager 对外的包括的 API 列表如下：

requestSlot(): RM 向 TM 请求一个 slot 资源；
requestStackTraceSample(): 请求某个 task 在执行过程中的一个 stack trace 抽样；
submitTask(): JobManager 向 TM 提交 task；
updatePartitions(): 更新这个 task 对应的 Partition 信息；
releasePartitions(): 释放这个 job 的所有中间结果，比如 close 的时候触发；
triggerCheckpoint(): Checkpoint Coordinator 触发 task 的 checkpoint；
confirmCheckpoint(): Checkpoint Coordinator 通知 task 这个 checkpoint 完成；
cancelTask(): task 取消；
heartbeatFromJobManager(): 接收来自 JobManager 的心跳请求；
heartbeatFromResourceManager(): 接收来自 ResourceManager 的心跳请求；
disconnectJobManager()；
disconnectResourceManager()；
freeSlot(): JobManager 释放 Slot；
requestFileUpload(): 一些文件（log 等）的上传请求；
requestMetricQueryServiceAddress(): 请求 TM 的 metric query service 地址；
canBeReleased(): 检查 TM 是否可以被 realease；

把上面的 API 列表分分类，大概有以下几块：

slot 的资源管理：slot 的分配/释放；
task 运行：接收来自 JobManager 的 task 提交、也包括该 task 对应的 Partition（中间结果）信息；
checkpoint 相关的处理；
心跳监控、连接建立等。

通常，可以任务 TaskManager 提供的功能主要是前三点，如下图所示：

TaskManager 怎么发现 RM leader（在使用 ZK 做 HA 的情况下）？

这个是 Flink HA 内容，Flink HA 机制是有一套统一的框架，它跟这个问题（TM 如何维护 JobManager 的关系，如果 JobManager 挂掉，TM 会如何处理？ ）的原理是一样的，这里以 ResourceManager Leader 的发现为例简单介一下。

这里，我们以使用 Zookeeper 模式的情况来讲述，ZooKeeper 做 HA 是业内最常用的方案，Flink 在实现并没有使用 ZkClient 这个包，而是使用 curator 来做的（有兴趣可以看下这篇文章跟着实例学习ZooKeeper的用法：缓存）。

关于 Flink HA 的使用，可以参考官方文档——JobManager High Availability (HA)。这里 TaskExecutor 在注册完 ResourceManagerLeaderListener 后，如果 leader 被选举出来或者有节点有变化，就通过它的 notifyLeaderAddress() 方法来通知 TaskExecutor，核心还是利用了 ZK 的 watcher 机制。同理， JobManager leader 的处理也是一样。

TM Slot 资源是如何管理的？

TaskManager Slot 资源的管理主要是在 TaskSlotTable 中处理的，slot 资源的申请与释放都通过它处理的，相关的流程如下图所示（图中只描述了主要逻辑，相关的异常处理没有展示在图中）：

slot 的申请

这里先看下 slot 资源请求的处理，其实现如下：

// TaskExecutor.java

//note: slot 请求
@Override
public CompletableFuture requestSlot(
    final SlotID slotId,
    final JobID jobId,
    final AllocationID allocationId,
    final String targetAddress,
    final ResourceManagerId resourceManagerId,
    final Time timeout) {
    // TODO: Filter invalid requests from the resource manager by using the instance/registration Id

    log.info("Receive slot request {} for job {} from resource manager with leader id {}.",
        allocationId, jobId, resourceManagerId);

    try {
        if (!isConnectedToResourceManager(resourceManagerId)) {
            //note: 如果 TM 并没有跟这个 RM 通信，就抛出异常
            final String message = String.format("TaskManager is not connected to the resource manager %s.", resourceManagerId);
            log.debug(message);
            throw new TaskManagerException(message);
        }

        if (taskSlotTable.isSlotFree(slotId.getSlotNumber())) {
            //note: Slot 状态是 free，还未分配出去
            if (taskSlotTable.allocateSlot(slotId.getSlotNumber(), jobId, allocationId, taskManagerConfiguration.getTimeout())) {
                log.info("Allocated slot for {}.", allocationId);
                //note: allcate 成功
            } else {
                log.info("Could not allocate slot for {}.", allocationId);
                throw new SlotAllocationException("Could not allocate slot.");
            }
        } else if (!taskSlotTable.isAllocated(slotId.getSlotNumber(), jobId, allocationId)) {
            //note: slot 已经分配出去，但分配的并不是当前这个作业
            final String message = "The slot " + slotId + " has already been allocated for a different job.";

            log.info(message);

            final AllocationID allocationID = taskSlotTable.getCurrentAllocation(slotId.getSlotNumber());
            throw new SlotOccupiedException(message, allocationID, taskSlotTable.getOwningJob(allocationID));
        }

        if (jobManagerTable.contains(jobId)) {
            //note: 如果 TM 已经有这个 JobManager 的 meta，这里会将这个 job 的 slot 分配再汇报给 JobManager 一次
            offerSlotsToJobManager(jobId);
        } else {
            try {
                //note: 监控这个作业 JobManager 的 leader 变化
                jobLeaderService.addJob(jobId, targetAddress);
            } catch (Exception e) {
                // free the allocated slot
                try {
                    taskSlotTable.freeSlot(allocationId);
                } catch (SlotNotFoundException slotNotFoundException) {
                    // slot no longer existent, this should actually never happen, because we've
                    // just allocated the slot. So let's fail hard in this case!
                    onFatalError(slotNotFoundException);
                }

                // release local state under the allocation id.
                localStateStoresManager.releaseLocalStateForAllocationId(allocationId);

                // sanity check
                if (!taskSlotTable.isSlotFree(slotId.getSlotNumber())) {
                    onFatalError(new Exception("Could not free slot " + slotId));
                }

                throw new SlotAllocationException("Could not add job to job leader service.", e);
            }
        }
    } catch (TaskManagerException taskManagerException) {
        return FutureUtils.completedExceptionally(taskManagerException);
    }

    return CompletableFuture.completedFuture(Acknowledge.get());
}

相应的处理逻辑如下：

首先检测这个这个 RM 是否当前建立连接的 RM，如果不是，就抛出相应的异常，需要等到 TM 连接上 RM 之后才能处理 RM 上的 slot 请求；
判断这个 slot 是否可以分配
- 如果 slot 是 FREE 状态，就进行分配（调用 TaskSlotTable 的 allocateSlot() 方法），如果分配失败，就抛出相应的异常；
- 如果 slot 已经分配，检查分配的是不是当前作业的 AllocationId，如果不是，也会抛出相应的异常，告诉 RM 这个 Slot 已经分配出去了；
如果 TM 已经有了这个 JobManager 的 meta，这里会将这个 job 在这个 TM 上的 slot 分配再重新汇报给 JobManager 一次；

而 TaskSlotTable 在处理 slot 的分配时，主要是根据内部缓存的信息做相应的检查，其 allocateSlot() 的方法的实现如下：

// TaskSlotTable.java
public boolean allocateSlot(int index, JobID jobId, AllocationID allocationId, Time slotTimeout) {
    checkInit();

    TaskSlot taskSlot = taskSlots.get(index);

    //note: 分配这个 TaskSlot
    boolean result = taskSlot.allocate(jobId, allocationId);

    if (result) {
        //note: 分配成功，记录到缓存中
        // update the allocation id to task slot map
        allocationIDTaskSlotMap.put(allocationId, taskSlot);

        // register a timeout for this slot since it's in state allocated
        timerService.registerTimeout(allocationId, slotTimeout.getSize(), slotTimeout.getUnit());

        // add this slot to the set of job slots
        Set slots = slotsPerJob.get(jobId);

        if (slots == null) {
            slots = new HashSet<>(4);
            slotsPerJob.put(jobId, slots);
        }

        slots.add(allocationId);
    }

    return result;
}

slot 的释放

这里再看下 Slot 的资源是如何释放的，代码实现如下：

// TaskExecutor.java

//note: 释放这个 slot 资源
@Override
public CompletableFuture freeSlot(AllocationID allocationId, Throwable cause, Time timeout) {
    freeSlotInternal(allocationId, cause);

    return CompletableFuture.completedFuture(Acknowledge.get());
}


//note: 将本地分配的 slot 释放掉（free the slot）
private void freeSlotInternal(AllocationID allocationId, Throwable cause) {
    checkNotNull(allocationId);

    log.debug("Free slot with allocation id {} because: {}", allocationId, cause.getMessage());

    try {
        final JobID jobId = taskSlotTable.getOwningJob(allocationId);

        //note: 释放这个 slot
        final int slotIndex = taskSlotTable.freeSlot(allocationId, cause);

        if (slotIndex != -1) {
            //note: 成功释放掉的情况下

            if (isConnectedToResourceManager()) {
                //note: 通知 ResourceManager 这个 slot 因为被释放了，所以可以变可用了
                // the slot was freed. Tell the RM about it
                ResourceManagerGateway resourceManagerGateway = establishedResourceManagerConnection.getResourceManagerGateway();

                resourceManagerGateway.notifySlotAvailable(
                    establishedResourceManagerConnection.getTaskExecutorRegistrationId(),
                    new SlotID(getResourceID(), slotIndex),
                    allocationId);
            }

            if (jobId != null) {
                closeJobManagerConnectionIfNoAllocatedResources(jobId);
            }
        }
    } catch (SlotNotFoundException e) {
        log.debug("Could not free slot for allocation id {}.", allocationId, e);
    }

    //note: 释放这个 allocationId 的相应状态信息
    localStateStoresManager.releaseLocalStateForAllocationId(allocationId);
}

总结一下，TaskExecutor 在处理 slot 释放请求的理逻辑如下：

先调用 TaskSlotTable 的 freeSlot() 方法，尝试释放这个 slot：
- 如果这个 slot 没有 task 在运行，那么 slot 是可以释放的（状态更新为 FREE）;
- 先将 slot 状态更新为 RELEASING，然后再遍历这个 slot 上的 task，逐个将其标记为 failed；
如果 slot 被成功释放（状态是 FREE），这里将会通知 RM 这个 slot 现在又可用了；
更新缓存信息。

总结

本篇文章主要把 TaskManager 的启动流程及资源管理做了相应的讲述，正如文章中所述，TaskManager 主要有三大功能：slot 资源管理、task 的提交与运行以及 checkpoint 处理，在下篇文章中将会着重在 Task 的提交与运行上，checkpoint 处理部分将会 checkpoint 的文章中一起介绍。

最后，说一些个人的感想吧，我个人在看开源项目的源码时，慢慢开始感受到阅读优秀的开源代码对个人技术能力的提升是非常有帮助的，它不但会增加你对这个项目的熟悉程度，还会让你看到一些设计或方案在代码里是如何落地或实现的，如果换做是你，你会怎么设计或实现，经常看看这些优秀代码，多多思考（如果能把其中的设计或实现应用到自己的工作上那就更好不过了），这对自己工程能力的提升是有帮助的。

参考：

Flink JobManager 详解

2019-12-27T02:16:26.000Z

本篇文章是 Flink 系列 的第六篇，紧接着上篇文章，本篇主要讲述 Flink Master 中另一个组件 —— JobManager（在源码中对应的实现类是 JobMaster）。每个作业在启动后，Dispatcher 都会为这个作业创建一个 JobManager 对象，用来做这个作业相关的协调工作，比如：调度这个作业的 task、触发 Checkpoint 以及作业的容错恢复等。另外，本篇文章也将会看下一个作业在生成 ExecutionGraph 之后是如何在集群中调度起来的。

从之前文章的介绍中，我们已经知道 JobManager 其实就是一个作业的 master 服务，主要负责自己作业相关的协调工作，包括：向 ResourceManager 申请 Slot 资源来调度相应的 task 任务、定时触发作业的 checkpoint 和手动 savepoint 的触发、以及作业的容错恢复，这些流程将会在后面的系列文章中介绍（这些流程涉及到的组件比较多，需要等待后面把 TaskManager 及 Flink 的调度模型讲述完再回头来看），本文会从 JobManager 是如何初始化的、JobManager 有哪些组件以及分别提供了哪些功能这两块来讲述。

JobManager 简介

当用户向 Flink 集群提交一个作业后，Dispatcher 在收到 Client 端提交的 JobGraph 后，会为这个作业创建一个 JobManager 对象（对应的是 JobMaster 类），如下图所示：

JobManager 在初始化时，会创建 LegacyScheduler 对象，而 LegacyScheduler 在初始化时会将这个作业的 JobGraph 转化为 ExecutionGraph。在JobManager 启动后，就会开始给这个作业的 task 申请相应的资源、开始调度执行这个作业。

JobManager 详解

JobMaster 在实现中，也依赖了很多的服务，其中最重要的是 SchedulerNG 和 SlotPool，JobMaster 对外提供的接口实现中大都是使用前面这两个服务的方法。

// JobMaster.java
public class JobMaster extends FencedRpcEndpoint<JobMasterId> implements JobMasterGateway, JobMasterService {
    // LegacyScheduler: 用于调度作业的 ExecutionGraph
    private SchedulerNG schedulerNG;
    // SlotPoolImpl: 从名字也能看出它主要处理 slot 相关的内容，在 JM 这边的一个抽象
    private final SlotPool slotPool;
    // HA 服务，这里主要用于监控 RM leader，如果 RM Leader 有变化，这里会与新的 leader 建立连接
    private final HighAvailabilityServices highAvailabilityServices;

    /**
    * 下面这些都是创建上面 SchedulerNG（即 LegacyScheduler）需要使用到的服务
    */
    // 用于将数据上传到 BlobServer，这里上传的主要是 JobInformation 和 TaskInformation
    private final BlobWriter blobWriter;
    // 作业的 JobGraph 信息
    private final JobGraph jobGraph;
    // SchedulerImpl: 它也是一个调度器，将 slot 分配给对应的 task，它会调用 SlotPool 的相关接口（它里面有一个 slotSelectionStrategy 对象，用来决定一个 slot 分配的最佳算法）
    private final Scheduler scheduler;
    // 用于注册 Intermediate result partition，在作业调度的时候会用到
    private final ShuffleMaster shuffleMaster;
    // 用于追踪 Intermediate result partition 的服务
    private final PartitionTracker partitionTracker;
    // --------- BackPressure --------
    private final BackPressureStatsTracker backPressureStatsTracker;
}

JobMaster 中涉及到重要组件如下图所示：

JobMaster 主要有两个服务:

LegacyScheduler: ExecutionGraph 相关的调度都是在这里实现的，它类似更深层的抽象，封装了 ExecutionGraph 和 BackPressureStatsTracker，JobMaster 不直接去调用 ExecutionGraph 和 BackPressureStatsTracker 的相关方法，都是通过 LegacyScheduler 间接去调用；
SlotPool: 它是 JobMaster 管理其 slot 的服务，它负责向 RM 申请/释放 slot 资源，并维护其相应的 slot 信息。

从前面的图中可以看出，如果 LegacyScheduler 想调用 CheckpointCoordinator 的方法，比如 LegacyScheduler 的 triggerSavepoint() 方法，它是需要先通过 executionGraph 的 getCheckpointCoordinator() 方法拿到 CheckpointCoordinator，然后再调用 CheckpointCoordinator 的 triggerSavepoint() 方法来触发这个作业的 savepoint。

JobMaster 的 API 概述

目前 JobMaster 对外提供的 API 列表如下（主要还是 JobMasterGateway 接口对应的实现）：

cancel(): 取消当前正在执行的作业，如果作业还在调度，会执行停止，如果作业正在运行的话，它会向对应的 TM 发送取消 task 的请求（cancelTask() 请求）；
updateTaskExecutionState(): 更新某个 task 的状态信息，这个是 TM 主动向 JM 发送的更新请求；
requestNextInputSplit(): Source ExecutionJobVertex 请求 next InputSlipt，这个一般是针对批处理读取而言，有兴趣的可以看下 FLIP-27: Refactor Source Interface，这里是社区计划对 Source 做的改进，未来会将批和流统一到一起；
requestPartitionState(): 获取指定 Result Partition 对应生产者 JobVertex 的执行状态；
scheduleOrUpdateConsumers(): TM 通知 JM 对应的 Result Partition 的数据已经可用，每个 ExecutionVertex 的每个 ResultPartition 都会调用一次这个方法（可能是在第一次生产数据时调用或者所有数据已经就绪时调用）；
disconnectTaskManager(): TM 心跳超时或者作业取消时，会调用这个方法，JM 会释放这个 TM 上的所有 slot 资源；
acknowledgeCheckpoint(): 当一个 Task 做完 snapshot 后，通过这个接口通知 JM，JM 再做相应的处理，如果这个 checkpoint 所有的 task 都已经 ack 了，那就意味着这个 checkpoint 完成了；
declineCheckpoint(): TM 向 JM 发送这个消息，告诉 JM 的 Checkpoint Coordinator 这个 checkpoint request 没有响应，比如：TM 触发 checkpoint 失败，然后 Checkpoint Coordinator 就会知道这个 checkpoint 处理失败了，再做相应的处理；
requestKvStateLocation(): 请求某个注册过 registrationName 对应的 KvState 的位置信息；
notifyKvStateRegistered(): 当注册一个 KvState 的时候，会调用这个方法，一些 operator 在初始化的时候会调用这个方法注册一个 KvState；
notifyKvStateUnregistered(): 取消一个 KVState 的注册，这里是在 operator 关闭 state backend 时调用的（比如：operator 的生命周期结束了，就会调用这个方法）；
offerSlots(): TM 通知 JM 其上分配到的 slot 列表；
failSlot(): 如果 TM 分配 slot 失败（情况可能很多，比如：slot 分配时状态转移失败等），将会通过这个接口告知 JM；
registerTaskManager(): 向这个 JM 注册 TM，JM 会将 TM 注册到 SlotPool 中（只有注册过的 TM 的 Slot 才被认为是有效的，才可以做相应的分配），并且会通过心跳监控对应的 TM；
disconnectResourceManager(): 与 ResourceManager 断开连接，这个是有三种情况会触发，JM 与 ResourceManager 心跳超时、作业取消、重连 RM 时会断开连接（比如：RM leader 切换、RM 的心跳超时）；
heartbeatFromTaskManager(): TM 向 JM 发送心跳信息；
heartbeatFromResourceManager(): JM 向 ResourceManager 发送一个心跳信息，ResourceManager 只会监听 JM 是否超时；
requestJobDetails(): 请求这个作业的 JobDetails（作业的概况信息，比如：作业执行了多长时间、作业状态等）；
requestJobStatus(): 请求这个作业的执行状态 JobStatus；
requestJob(): 请求这个作业的 ArchivedExecutionGraph（它是 ExecutionGraph 序列化之后的结果）；
triggerSavepoint(): 对这个作业触发一次 savepoint；
stopWithSavepoint(): 停止作业前触发一次 savepoint（触发情况是：用户手动停止作业时指定一个 savepoint 路径，这样的话，会在停止前做一次 savepoint）；
requestOperatorBackPressureStats(): 汇报某个 operator 反压的情况；
notifyAllocationFailure(): 如果 RM 分配 slot 失败的话，将会通过这个接口通知 JM；

这里可以看到有部分接口的方法是在跟 RM 通信使用的，所以在 RM 的接口中也可以看到对应的方法。另外，JobMaster 上面这些方法在实现时基本都是在调用 LegacyScheduler 或 SlotPool 的具体实现方法来实现的。

SlotPool

SlotPool 是为当前作业的 slot 请求而服务的，它会向 ResourceManager 请求 slot 资源；SlotPool 会维护请求到的 slot 列表信息（即使 ResourceManager 挂掉了，SlotPool 也可以使用当前作业空闲的 slot 资源进行分配），而如果一个 slot 不再使用的话，即使作业在运行，也是可以释放掉的（所有的 slot 都是通过 AllocationID 来区分的）。

目前 SlotPool 提供的 API 列表如下：

connectToResourceManager(): SlotPool 与 ResourceManager 建立连接，之后 SlotPool 就可以向 ResourceManager 请求 slot 资源了；
disconnectResourceManage(): SlotPool 与 ResourceManager 断开连接，这个方法被调用后，SlotPool 就不能从 ResourceManager 请求 slot 资源了，并且所有正在排队等待的 Slot Request 都被取消；
allocateAvailableSlot(): 将指定的 Slot Request 分配到指定的 slot 上，这里只是记录其对应关系（哪个 slot 对应哪个 slot 请求）；
releaseSlot(): 释放一个 slot；
requestNewAllocatedSlot(): 从 RM 请求一个新的 slot 资源分配，申请到的 slot 之后也会添加到 SlotPool 中；
requestNewAllocatedBatchSlot(): 上面的方法是 Stream 类型，这里是 batch 类型，但向 RM 申请的时候，这里并没有区别，只是为了做相应的标识；
getAvailableSlotsInformation(): 获取当前可用的 slot 列表；
failAllocation(): 分配失败，并释放相应的 slot，可能是因为请求超时由 JM 触发或者 TM 分配失败；
registerTaskManager(): 注册 TM，这里会记录一下注册过来的 TM，只能向注册过来的 TM 分配 slot；
releaseTaskManager(): 注销 TM，这个 TM 相关的 slot 都会被释放，task 将会被取消，SlotPool 会通知相应的 TM 释放其 slot；
createAllocatedSlotReport(): 汇报指定 TM 上的 slot 分配情况；

通过上面 SlotPool 对外提供的 API 列表，可以看到其相关方法都是跟 Slot 相关的，整体可以分为下面几部分：

与 ResourceManager 建立/取消连接；
注册/注销 TM，这里只是记录注册过 TM 列表，只有是注册过的 TM 才允许使用其上面的 slot 资源；
向 ResourceManager 请求 slot 资源；
分配/释放 slot，这里只是更新其状态信息，并不做实质的操作。

SlotPool 这里，更多只是维护一个状态信息，以及与 ResourceManager（请求 slot 资源）和 TM（释放对应的 slot）做一些交互工作，它对这些功能做了相应的封装，方便 JobMaster 来调用。

LegacyScheduler

如前面所述，LegacyScheduler 其实是对 ExecutionGraph 和 BackPressureStatsTracker 方法的一个抽象，它还负责为作业创建对应的 ExecutionGraph 以及对这个作业进行调度。关于 LegacyScheduler 提供的 API 这里就不再展开，有兴趣的可以直接看下源码，它提供的大部分 API 都是在 JobMaster 的 API 列表中，因为 JobMaster 的很多方法实现本身就是调用 LegacyScheduler 对应的方法。

作业调度的详细流程

有了前面的讲述，这里看下一个新提交的作业，JobMaster 是如何调度起来的。当 JobMaster 调用 LegacyScheduler 的 startScheduling() 方法后，就会开始对这个作业进行相应的调度，申请对应的 slot，并部署 task，其实现如下：

// LegacyScheduler.java
//note: ExecutionGraph 开始调度
@Override
public void startScheduling() {
    //note: 启动这个线程
    mainThreadExecutor.assertRunningInMainThread();

    try {
        //note: 调度这个 graph
        executionGraph.scheduleForExecution();
    }
    catch (Throwable t) {
        executionGraph.failGlobal(t);
    }
}

一个作业开始调度后详细流程如下图所示（其中比较核心方法已经标成黄颜色）：

ExecutionGraph 通过 scheduleForExecution() 方法对这个作业调度执行，其方法实现如下：

/note: 把 CREATED 状态转换为 RUNNING 状态，并做相应的调度，如果有异常这里会抛出
public void scheduleForExecution() throws JobException {

    assertRunningInJobMasterMainThread();

    final long currentGlobalModVersion = globalModVersion;

    //note: 先将作业状态转移为 RUNNING
    if (transitionState(JobStatus.CREATED, JobStatus.RUNNING)) {

        //note: 这里会真正调度相应的 Execution Graph
        final CompletableFuture newSchedulingFuture = SchedulingUtils.schedule(
            scheduleMode,
            getAllExecutionVertices(),
            this);

        if (state == JobStatus.RUNNING && currentGlobalModVersion == globalModVersion) {
            schedulingFuture = newSchedulingFuture;
            //note: 前面调度完成后，如果最后的结果有异常，这里会做相应的处理
            newSchedulingFuture.whenComplete(
                (Void ignored, Throwable throwable) -> {
                    if (throwable != null) {
                        final Throwable strippedThrowable = ExceptionUtils.stripCompletionException(throwable);

                        if (!(strippedThrowable instanceof CancellationException)) {
                            // only fail if the scheduling future was not canceled
                            failGlobal(strippedThrowable);
                        }
                    }
                });
        } else {
            newSchedulingFuture.cancel(false);
        }
    }
    else {
        throw new IllegalStateException("Job may only be scheduled from state " + JobStatus.CREATED);
    }
}

配合前面图中的流程，接下来，看下这个作业在 SchedulingUtils 中是如何调度的：

// SchedulingUtils.java
public static CompletableFuture schedule(
        ScheduleMode scheduleMode,
        final Iterable vertices,
        final ExecutionGraph executionGraph) {

    switch (scheduleMode) {
        // LAZY 的意思是：是有上游数据就绪后，下游的 task 才能调度，这个主要是批场景会用到，流不能走这个模式
        case LAZY_FROM_SOURCES:
        case LAZY_FROM_SOURCES_WITH_BATCH_SLOT_REQUEST:
            return scheduleLazy(vertices, executionGraph);

        // 流默认的是这个调度模式
        case EAGER:
            return scheduleEager(vertices, executionGraph);

        default:
            throw new IllegalStateException(String.format("Schedule mode %s is invalid.", scheduleMode));
    }
}


/**
 * Schedule vertices eagerly. That means all vertices will be scheduled at once.
 * note: 所有的节点会被同时调度
 *
 * @param vertices Topologically sorted vertices to schedule.
 * @param executionGraph The graph the given vertices belong to.
 */
public static CompletableFuture scheduleEager(
        final Iterable vertices,
        final ExecutionGraph executionGraph) {

    executionGraph.assertRunningInJobMasterMainThread();

    checkState(executionGraph.getState() == JobStatus.RUNNING, "job is not running currently");

    // Important: reserve all the space we need up front.
    // that way we do not have any operation that can fail between allocating the slots
    // and adding them to the list. If we had a failure in between there, that would
    // cause the slots to get lost

    // collecting all the slots may resize and fail in that operation without slots getting lost
    final ArrayList> allAllocationFutures = new ArrayList<>();

    final SlotProviderStrategy slotProviderStrategy = executionGraph.getSlotProviderStrategy();
    final Set allPreviousAllocationIds = Collections.unmodifiableSet(
        computePriorAllocationIdsIfRequiredByScheduling(vertices, slotProviderStrategy.asSlotProvider()));

    // allocate the slots (obtain all their futures)
    for (ExecutionVertex ev : vertices) {
        // these calls are not blocking, they only return futures
        //note: 给每个 Execution 分配相应的资源
        CompletableFuture allocationFuture = ev.getCurrentExecutionAttempt().allocateResourcesForExecution(
            slotProviderStrategy,
            LocationPreferenceConstraint.ALL,
            allPreviousAllocationIds);

        allAllocationFutures.add(allocationFuture);
    }

    // this future is complete once all slot futures are complete.
    // the future fails once one slot future fails.
    final ConjunctFuture> allAllocationsFuture = FutureUtils.combineAll(allAllocationFutures);

    return allAllocationsFuture.thenAccept(
        (Collection executionsToDeploy) -> {
            for (Execution execution : executionsToDeploy) {
                try {
                    //note: 部署每个 Execution
                    execution.deploy();
                } catch (Throwable t) {
                    throw new CompletionException(
                        new FlinkException(
                            String.format("Could not deploy execution %s.", execution),
                            t));
                }
            }
        })
        // Generate a more specific failure message for the eager scheduling
        .exceptionally(
            //...
        );
}

由于对于流作业来说，它默认的调度模式（ScheduleMode）是 ScheduleMode.EAGER，也就是说，所有 task 会同时调度起来，上面的代码里也可以看到调度的时候有两个主要方法：

allocateResourcesForExecution(): 它的作用是给这个 Execution 分配资源，获取要分配的 slot（它还会向 ShuffleMaster 注册 produced partition，这个 shuffle 部分内容后面文章再讲述，这里就不展开了）；
deploy(): 这个方法会直接向 TM 提交这个 task 任务；

这里，主要展开一下 allocateResourcesForExecution() 方法的实现，deploy() 的实现将会在后面 TaskManager 这篇文章中讲述。

如何给 ExecutionVertex 分配 slot

通过前面的代码，我们知道，allocateResourcesForExecution() 方法会给每一个 ExecutionVertex 分配一个 slot，而它具体是如何分配的，这个流程是在 Execution 的 allocateAndAssignSlotForExecution() 方法中实现的，代码如下如下：


/**
 * Allocates and assigns a slot obtained from the slot provider to the execution.
 * note: 从 slot provider 获取一个 slot，将任务分配到这个 slot 上
 *
 * @param slotProviderStrategy to obtain a new slot from
 * @param locationPreferenceConstraint constraint for the location preferences
 * @param allPreviousExecutionGraphAllocationIds set with all previous allocation ids in the job graph.
 *                                                 Can be empty if the allocation ids are not required for scheduling.
 * @return Future which is completed with the allocated slot once it has been assigned
 *          or with an exception if an error occurred.
 */
private CompletableFuture allocateAndAssignSlotForExecution(
        SlotProviderStrategy slotProviderStrategy,
        LocationPreferenceConstraint locationPreferenceConstraint,
        @Nonnull Set allPreviousExecutionGraphAllocationIds) {

    checkNotNull(slotProviderStrategy);

    assertRunningInJobMasterMainThread();

    //note: 获取这个 vertex 的相关信息
    final SlotSharingGroup sharingGroup = vertex.getJobVertex().getSlotSharingGroup();
    final CoLocationConstraint locationConstraint = vertex.getLocationConstraint();

    // sanity check
    //note: 做相应的检查
    if (locationConstraint != null && sharingGroup == null) {
        throw new IllegalStateException(
                "Trying to schedule with co-location constraint but without slot sharing allowed.");
    }

    // this method only works if the execution is in the state 'CREATED'
    //note: 这个只会在 CREATED 下工作
    if (transitionState(CREATED, SCHEDULED)) {

        final SlotSharingGroupId slotSharingGroupId = sharingGroup != null ? sharingGroup.getSlotSharingGroupId() : null;

        //note: 创建一个 ScheduledUnit 对象（跟 sharingGroup/locationConstraint 都有关系）
        ScheduledUnit toSchedule = locationConstraint == null ?
                new ScheduledUnit(this, slotSharingGroupId) :
                new ScheduledUnit(this, slotSharingGroupId, locationConstraint);

        // try to extract previous allocation ids, if applicable, so that we can reschedule to the same slot
        //note: 如果能找到之前调度的 AllocationID，会尽量先重新调度在同一个 slot 上
        ExecutionVertex executionVertex = getVertex();
        AllocationID lastAllocation = executionVertex.getLatestPriorAllocation();

        Collection previousAllocationIDs =
            lastAllocation != null ? Collections.singletonList(lastAllocation) : Collections.emptyList();

        // calculate the preferred locations
        //note: 这里先根据 state 和上游数据的输入节点获取这个 Task Execution 的最佳 TM location
        final CompletableFuture> preferredLocationsFuture =
            calculatePreferredLocations(locationPreferenceConstraint);

        final SlotRequestId slotRequestId = new SlotRequestId();

        //note: 根据指定的需求分配这个 slot
        final CompletableFuture logicalSlotFuture =
            preferredLocationsFuture.thenCompose(
                (Collection preferredLocations) ->
                    slotProviderStrategy.allocateSlot(
                        slotRequestId,
                        toSchedule,
                        new SlotProfile(
                            vertex.getResourceProfile(),
                            preferredLocations,
                            previousAllocationIDs,
                            allPreviousExecutionGraphAllocationIds)));

        // register call back to cancel slot request in case that the execution gets canceled
        releaseFuture.whenComplete(
            (Object ignored, Throwable throwable) -> {
                if (logicalSlotFuture.cancel(false)) {
                    slotProviderStrategy.cancelSlotRequest(
                        slotRequestId,
                        slotSharingGroupId,
                        new FlinkException("Execution " + this + " was released."));
                }
            });

        // This forces calls to the slot pool back into the main thread, for normal and exceptional completion
        //note: 返回 LogicalSlot
        return logicalSlotFuture.handle(
            (LogicalSlot logicalSlot, Throwable failure) -> {

                if (failure != null) {
                    throw new CompletionException(failure);
                }

                if (tryAssignResource(logicalSlot)) {
                    return logicalSlot;
                } else {
                    // release the slot
                    logicalSlot.releaseSlot(new FlinkException("Could not assign logical slot to execution " + this + '.'));
                    throw new CompletionException(
                        new FlinkException(
                            "Could not assign slot " + logicalSlot + " to execution " + this + " because it has already been assigned "));
                }
            });
    } else {
        // call race, already deployed, or already done
        throw new IllegalExecutionStateException(this, CREATED, state);
    }
}

这里，简单总结一下上面这个方法的流程：

状态转换，将这个 Execution 的状态（ExecutionState）从 CREATED 转为 SCHEDULED 状态；
根据是否是一个有状态的 operator 以及它上游输入节点位置，来计算一个最佳的 TM 位置列表（TaskManagerLocation）列表；
如果这个 Execution 之前有调度记录，也就是说，这次由 failover 导致的重启，这里会拿到上次调度的 TM 位置信息；
根据 2、3 拿到 TM 位置信息，去调用 SlotProviderStrategy 的 allocateSlot() 获取要分配的 slot。

在 SchedulerImpl 去分配 slot 的时候，其实是会分两种情况的：

allocateSingleSlot(): 如果对应的 task 节点没有设置 SlotSharingGroup，会直接走这个方法，就不会考虑 share group 的情况，直接给这个 task 分配对应的 slot；
allocateSharedSlot(): 如果对应的 task 节点有设置 SlotSharingGroup，就会走到这个方法，在分配 slot 的时候，考虑的因素就会多一些。

分配时如何选择最优的 TM 列表

这里，我们先来看下如何给这个 slot 选择一个最佳的 TM 列表，具体的方法实现是在 Execution 中的 calculatePreferredLocations() 方法中实现的，其具体的实现如下：

// Execution.java
/**
 * Calculates the preferred locations based on the location preference constraint.
 * note: 根据 LocationPreferenceConstraint 策略计算前置输入节点的 TaskManagerLocation
 *
 * @param locationPreferenceConstraint constraint for the location preference
 * @return Future containing the collection of preferred locations. This might not be completed if not all inputs
 *      have been a resource assigned.
 */
@VisibleForTesting
public CompletableFuture> calculatePreferredLocations(LocationPreferenceConstraint locationPreferenceConstraint) {
    //note: 获取一个最佳分配的 TM location 集合
    final Collection> preferredLocationFutures = getVertex().getPreferredLocations();
    final CompletableFuture> preferredLocationsFuture;

    switch(locationPreferenceConstraint) {
        case ALL:
            //note: 默认是 ALL，就是前面拿到的列表，这里都可以使用
            preferredLocationsFuture = FutureUtils.combineAll(preferredLocationFutures);
            break;
        case ANY:
            //note: 遍历所有 input，先获取已经完成 assign 的 input 列表
            final ArrayList completedTaskManagerLocations = new ArrayList<>(preferredLocationFutures.size());

            for (CompletableFuture preferredLocationFuture : preferredLocationFutures) {
                if (preferredLocationFuture.isDone() && !preferredLocationFuture.isCompletedExceptionally()) {
                    //note: 在这个 future 完成（没有异常的情况下），这里会使用这个 taskManagerLocation 对象
                    final TaskManagerLocation taskManagerLocation = preferredLocationFuture.getNow(null);

                    if (taskManagerLocation == null) {
                        throw new FlinkRuntimeException("TaskManagerLocationFuture was completed with null. This indicates a programming bug.");
                    }

                    completedTaskManagerLocations.add(taskManagerLocation);
                }
            }

            preferredLocationsFuture = CompletableFuture.completedFuture(completedTaskManagerLocations);
            break;
        default:
            throw new RuntimeException("Unknown LocationPreferenceConstraint " + locationPreferenceConstraint + '.');
    }

    return preferredLocationsFuture;
}

从上面的实现可以看出，这里是先通过 ExecutionVertex 的 getPreferredLocations() 方法获取一个 TaskManagerLocation 列表，然后再根据 LocationPreferenceConstraint 的模式做过滤，如果是 ALL，那么前面拿到的所有列表都会直接返回，而如果是 ANY，只会把那些已经分配好的 input 节点的 TaskManagerLocation 返回。

这里，看下 ExecutionVertex 的 getPreferredLocations() 方法的实现逻辑：

// ExecutionVertex.java
/**
 * Gets the overall preferred execution location for this vertex's current execution.
 * The preference is determined as follows:
 *
 * 
 *     If the task execution has state to load (from a checkpoint), then the location preference
 *         is the location of the previous execution (if there is a previous execution attempt).
 *     
If the task execution has no state or no previous location, then the location preference
 *         is based on the task's inputs.
 * 
 * note: 如果这个 task Execution 是从 checkpoint 加载的状态，那么这个 location preference 就是之前执行的状态；
 * note: 如果这个 task Execution 没有状态信息或之前的 location 记录，这个 location preference 依赖于 task 的输入；
 *
 * These rules should result in the following behavior:
 *
 * note: 1. 无状态 task 总是基于与输入共享的方式调度；
 * note: 2. 有状态 task 基于与输入共享的方式来初始化他们最开始的调度；
 * note: 3. 有状态 task 的重复执行会尽量与他们的 state 共享执行；
 * 

 *     Stateless tasks are always scheduled based on co-location with inputs.
 *     
Stateful tasks are on their initial attempt executed based on co-location with inputs.
 *     
Repeated executions of stateful tasks try to co-locate the execution with its state.
 * 
 */
public Collection> getPreferredLocations() {
    Collection> basedOnState = getPreferredLocationsBasedOnState();
    return basedOnState != null ? basedOnState : getPreferredLocationsBasedOnInputs();
}


/**
 * Gets the preferred location to execute the current task execution attempt, based on the state that the execution attempt will resume.
 * note: 根据这个 Execution 试图恢复的状态来获取当前 task execution 的首选位置
 */
public Collection> getPreferredLocationsBasedOnState() {
    TaskManagerLocation priorLocation;
    if (currentExecution.getTaskRestore() != null && (priorLocation = getLatestPriorLocation()) != null) {
        return Collections.singleton(CompletableFuture.completedFuture(priorLocation));
    }
    else {
        return null;
    }
}

这里简单介绍一下其处理逻辑：

如果这个作业是从 Checkpoint 恢复的话，这里会根据它之前的状态信息获取上次的位置信息，直接返回这个位置信息；
另一种情况是，根据这个 ExecutionVertex 的 inputEdges，获取其上游 ExecutionVertex 的位置信息列表，但是如果这个列表的数目超过阈值（默认是 8），就会直接返回 null（上游过于分散，再根据 input 位置信息去分配就没有太大意义了）。

可以看出，在选取最优的 TaskManagerLocation 列表时，主要是根据 state 和 input 的位置信息来判断，会优先选择 state，也就是上次 checkpoint 中记录的位置。

最优的 slot 分配算法

在上面选择了最优的 TaskManagerLocation 列表后，这里来看下如何给 task 选择具体的 slot，这个是在 SlotSelectionStrategy 中的 selectBestSlotForProfile() 方法中做的，目前 SlotSelectionStrategy 有两个实现类：PreviousAllocationSlotSelectionStrategy 和 LocationPreferenceSlotSelectionStrategy，这个是在 state.backend.local-recovery 参数中配置的，默认是 false，选择的是 PreviousAllocationSlotSelectionStrategy，如果配置为 true，那么就会选择 PreviousAllocationSlotSelectionStrategy，这部分的逻辑如下：

// DefaultSchedulerFactory.java
@Nonnull
private static SlotSelectionStrategy selectSlotSelectionStrategy(@Nonnull Configuration configuration) {
    // 根据 state.backend.local-recover 配置选择
    if (configuration.getBoolean(CheckpointingOptions.LOCAL_RECOVERY)) {
        return PreviousAllocationSlotSelectionStrategy.INSTANCE;
    } else {
        return LocationPreferenceSlotSelectionStrategy.INSTANCE;
    }
}

这里分别看下这两个实现类的 selectBestSlotForProfile() 的实现逻辑：

PreviousAllocationSlotSelectionStrategy: 它会根据上次的分配记录，如果这个位置刚好在 SlotPool 的可用列表里，这里就会直接选这个 slot，否则会走到 LocationPreferenceSlotSelectionStrategy 的处理逻辑；
LocationPreferenceSlotSelectionStrategy: 这个是对可用的 slot 列表做打分，选择分数最高的（分数相同的话，会选择第一个），如果 slot 在前面得到的最优 TaskManagerLocation 列表中，分数就会比较高。

allocateSharedSlot VS allocateSingleSlot

在分配 slot 时，这里分为两种情况：

allocateSingleSlot(): 如果没有设置 SlotSharingGroup 将会走到这个方法，直接给这个 SlotRequestId 分配一个 slot，具体选择哪个 slot 就是上面的逻辑；
allocateSharedSlot(): 而如果设置了 SlotSharingGroup 就会走到这里，先根据 SlotSharingGroupId 获取或创建对应的 SlotSharingManager，然后创建（或者根据 SlotSharingGroup 获取）一个的 MultiTaskSlot（每个 SlotSharingGroup 会对应一个 MultiTaskSlot 对象），这里再将这个 task 分配到这个 MultiTaskSlot 上（这个只是简单介绍，后面在调度模型文章中，将会详细讲述）。

小结

到这里，Flink JobManager 的大部分内容已经讲述完了，还有一些小点会在后面的系列文章中再给大家讲述。这里总结一下，JobManager 主要是为一个具体的作业而服务的，它负责这个作业每个 task 的调度、checkpoint/savepoint（后面 checkpoint 的文章中会详述其流程）的触发以及容错恢复，它有两个非常重点的服务组件 —— LegacyScheduler 和 SlotPool，其中：

LegacyScheduler: 它封装了作业的 ExecutionGraph 以及 BackPressureStatsTracker 中的接口，它会负责这个作业具体调度、savepoint 触发等工作；
SlotPool: 它主要负责这个作业 slot 相关的内容，像与 ResourceManager 通信、分配或释放 slot 资源等工作。

文章的后半部分，又总结了一个作业是如何调度起来的，首先是分配 slot，最后是通过 deploy() 接口向 TM 提交这个 task，本文着重关注了 slot 的分配，task 的部署将会在下节的 TaskManager 详解中给大家介绍。

参考

Flink Master 详解

2019-12-23T15:50:50.000Z

本篇文章是 Flink 系列 的第五篇，从这篇开始会向大家介绍一下 Flink Runtime 中涉及到的分布式调度相关的内容。Flink 本身也是 Master/Slave 架构（当前的架构是在 FLIP-6 - Flink Deployment and Process Model - Standalone, Yarn, Mesos, Kubernetes, etc 中实现的），这个 Master 节点就类似于 Storm 中 Nimbus 节点，它负责整个集群的一些协调工作，Flink 中 Master 节点主要包含三大组件：Flink Resource Manager、Flink Dispatcher 以及为每个运行的 Job 创建一个 JobManager 服务，本篇文章主要给大家介绍一下 Flink 中 Master 节点相关内容。

这里要说明的一点是：通常我们认为 Flink 集群的 master 节点就是 JobManager，slave 节点就是 TaskManager 或者 TaskExecutor（见：Distributed Runtime Environment），这本身是没有什么问题的。但这里需要强调一下，在本文中集群的 Master 节点暂时就叫做 Master 节点，而负责每个作业调度的服务，这里叫做 JobManager/JobMaster（现在源码的实现中对应的类是 JobMaster）。集群的 Master 节点的工作范围与 JobManager 的工作范围还是有所不同的，而且 Master 节点的其中一项工作职责就是为每个提交的作业创建一个 JobManager 对象，用来处理这个作业相关协调工作，比如：task 的调度、Checkpoint 的触发及失败恢复等，JobManager 的内容将会在下篇文章单独讲述，本文主要聚焦 Master 节点除 JobManager 之外的工作。

Flink Master 简介

Flink 的 Master 节点包含了三个组件: Dispatcher、ResourceManager 和 JobManager。其中:

Dispatcher: 负责接收用户提供的作业，并且负责为这个新提交的作业拉起一个新的 JobManager 服务；
ResourceManager: 负责资源的管理，在整个 Flink 集群中只有一个 ResourceManager，资源相关的内容都由这个服务负责；
JobManager: 负责管理具体某个作业的执行，在一个 Flink 集群中可能有多个作业同时执行，每个作业都会有自己的 JobManager 服务。

根据上面的 Flink 的架构图（等把 runtime 的内容介绍完，届时会画一张更细的 Flink 的架构图，现在先以官方的图来看），当用户开始提交一个作业，首先会将用户编写的代码转化为一个 JobGraph（参考这个系列前面的文章），在这个过程中，它会进行一些检查或优化相关的工作（比如：检查配置，把可以 Chain 在一起算子 Chain 在一起）。然后，Client 再将生成的 JobGraph 提交到集群中执行。此时有两种情况（对于两种不同类型的集群）：

类似于 Standalone 这种 Session 模式（对于 YARN 模式来说），这种情况下 Client 可以直接与 Dispatcher 建立连接并提交作业；
是 Per-Job 模式，这种情况下 Client 首先向资源管理系统（如 Yarn）申请资源来启动 ApplicationMaster，然后再向 ApplicationMaster 中的 Dispatcher 提交作业。

当作业到 Dispatcher 后，Dispatcher 会首先启动一个 JobManager 服务，然后 JobManager 会向 ResourceManager 申请资源来启动作业中具体的任务。ResourceManager 选择到空闲的 Slot （Flink 架构-基本概念）之后，就会通知相应的 TM 将该 Slot 分配给指定的 JobManager。

Master 启动整体流程

Flink 集群 Master 节点在初始化时，会先调用 ClusterEntrypoint 的 runClusterEntrypoint() 方法启动集群，其整体流程如下图所示：

上图流程中 runCluster() 方法的实现如下：

// ClusterEntrypoint.java
//note: run cluster real start-point
private void runCluster(Configuration configuration) throws Exception {
    synchronized (lock) {
        //note: 首先会初始化相关的服务(这里会涉及到一系列的服务)
        initializeServices(configuration);

        // write host information into configuration
        configuration.setString(JobManagerOptions.ADDRESS, commonRpcService.getAddress());
        configuration.setInteger(JobManagerOptions.PORT, commonRpcService.getPort());

        final DispatcherResourceManagerComponentFactory dispatcherResourceManagerComponentFactory = createDispatcherResourceManagerComponentFactory(configuration);

        //note: 创建 DispatcherResourceManagerComponent 对象（前面初始化的服务，都在这里使用了）
        clusterComponent = dispatcherResourceManagerComponentFactory.create(
            configuration,
            commonRpcService,
            haServices,
            blobServer,
            heartbeatServices,
            metricRegistry,
            archivedExecutionGraphStore,
            new RpcMetricQueryServiceRetriever(metricRegistry.getMetricQueryServiceRpcService()),
            this);

        clusterComponent.getShutDownFuture().whenComplete(
            (ApplicationStatus applicationStatus, Throwable throwable) -> {
                if (throwable != null) {
                    //note: 抛出异常的情况下
                    shutDownAsync(
                        ApplicationStatus.UNKNOWN,
                        ExceptionUtils.stringifyException(throwable),
                        false);
                } else {
                    // This is the general shutdown path. If a separate more specific shutdown was
                    // already triggered, this will do nothing
                    shutDownAsync(
                        applicationStatus,
                        null,
                        true);
                }
            });
    }
}

这个方法主要分为下面两个步骤：

initializeServices(): 初始化相关的服务，都是 Master 节点将会使用到的一些服务；
create DispatcherResourceManagerComponent: 这里会创建一个 DispatcherResourceManagerComponent 对象，这个对象在创建的时候会启动 Dispatcher 和 ResourceManager 服务。

下面来详细看下具体实现。

initializeServices

initializeServices() 初始化一些基本的服务，具体的代码实现如下：

// ClusterEntrypoint.java
//note: 初始化相关的服务
protected void initializeServices(Configuration configuration) throws Exception {

    LOG.info("Initializing cluster services.");

    synchronized (lock) {
        final String bindAddress = configuration.getString(JobManagerOptions.ADDRESS);
        final String portRange = getRPCPortRange(configuration);

        //note: 创建 RPC 服务
        commonRpcService = createRpcService(configuration, bindAddress, portRange);

        // update the configuration used to create the high availability services
        //note: 根据当前创建的 RPC 服务信息做相关的配置（之前设置的端口可能是一个 range）
        configuration.setString(JobManagerOptions.ADDRESS, commonRpcService.getAddress());
        configuration.setInteger(JobManagerOptions.PORT, commonRpcService.getPort());

        //note: 用于 IO 的线程池
        ioExecutor = Executors.newFixedThreadPool(
            Hardware.getNumberCPUCores(),
            new ExecutorThreadFactory("cluster-io"));
        //note: HA service（跟用户配置有关，可以是 NONE、ZooKeeper 也可以自定义的类）
        haServices = createHaServices(configuration, ioExecutor);
        //note: 初始化 Blob Server
        blobServer = new BlobServer(configuration, haServices.createBlobStore());
        blobServer.start();
        //note: heartbeat service
        heartbeatServices = createHeartbeatServices(configuration);
        //note: metrics reporter
        metricRegistry = createMetricRegistry(configuration);

        //note: 创建了一个 Flink 内部的 metrics rpc service
        final RpcService metricQueryServiceRpcService = MetricUtils.startMetricsRpcService(configuration, bindAddress);
        //note: start MetricQueryService
        metricRegistry.startQueryService(metricQueryServiceRpcService, null);

        //note: 创建一个 ArchivedExecutionGraphStore 对象，用于存储用户作业的物理 graph
        archivedExecutionGraphStore = createSerializableExecutionGraphStore(configuration, commonRpcService.getScheduledExecutor());
    }
}

上述流程涉及到服务有：

RpcService: 创建一个 rpc 服务；
HighAvailabilityServices: HA service 相关的实现，它的作用有很多，比如：处理 ResourceManager 的 leader 选举、JobManager leader 的选举等；
BlobServer: 主要管理一些大文件的上传等，比如用户作业的 jar 包、TM 上传 log 文件等（Blob 是指二进制大对象也就是英文 Binary Large Object 的缩写）；
HeartbeatServices: 初始化一个心跳服务；
MetricRegistryImpl: metrics 相关的服务；
ArchivedExecutionGraphStore: 存储 execution graph 的服务，默认有两种实现，MemoryArchivedExecutionGraphStore 主要是在内存中缓存，FileArchivedExecutionGraphStore 会持久化到文件系统，也会在内存中缓存。

这些服务都会在前面第二步创建 DispatcherResourceManagerComponent 对象时使用到。

create DispatcherResourceManagerComponent

创建 DispatcherResourceManagerComponent 对象的实现如下：

// AbstractDispatcherResourceManagerComponentFactory.java
//note: 创建 DispatcherResourceManagerComponent 对象
@Override
public DispatcherResourceManagerComponent create(
        Configuration configuration,
        RpcService rpcService,
        HighAvailabilityServices highAvailabilityServices,
        BlobServer blobServer,
        HeartbeatServices heartbeatServices,
        MetricRegistry metricRegistry,
        ArchivedExecutionGraphStore archivedExecutionGraphStore,
        MetricQueryServiceRetriever metricQueryServiceRetriever,
        FatalErrorHandler fatalErrorHandler) throws Exception {

    LeaderRetrievalService dispatcherLeaderRetrievalService = null;
    LeaderRetrievalService resourceManagerRetrievalService = null;
    WebMonitorEndpoint webMonitorEndpoint = null;
    ResourceManager resourceManager = null;
    JobManagerMetricGroup jobManagerMetricGroup = null;
    T dispatcher = null;

    try {
        //note: 用于 Dispatcher leader 选举
        dispatcherLeaderRetrievalService = highAvailabilityServices.getDispatcherLeaderRetriever();

        //note: 用于 Resource Manager leader 选举（对于使用 zk 的 HA 模式来说，与上面的区别是使用的路径不同）
        resourceManagerRetrievalService = highAvailabilityServices.getResourceManagerLeaderRetriever();

        //note: Dispatcher 的 Gateway
        final LeaderGatewayRetriever dispatcherGatewayRetriever = new RpcGatewayRetriever<>(
            rpcService,
            DispatcherGateway.class,
            DispatcherId::fromUuid,
            10,
            Time.milliseconds(50L));

        //note: ResourceManager 的 Gateway
        final LeaderGatewayRetriever resourceManagerGatewayRetriever = new RpcGatewayRetriever<>(
            rpcService,
            ResourceManagerGateway.class,
            ResourceManagerId::fromUuid,
            10,
            Time.milliseconds(50L));

        //note: 它主要使用 web 前端的 rest 接口调用
        final ExecutorService executor = WebMonitorEndpoint.createExecutorService(
            configuration.getInteger(RestOptions.SERVER_NUM_THREADS),
            configuration.getInteger(RestOptions.SERVER_THREAD_PRIORITY),
            "DispatcherRestEndpoint");

        //note: metrics Fetcher
        final long updateInterval = configuration.getLong(MetricOptions.METRIC_FETCHER_UPDATE_INTERVAL);
        final MetricFetcher metricFetcher = updateInterval == 0
            ? VoidMetricFetcher.INSTANCE
            : MetricFetcherImpl.fromConfiguration(
                configuration,
                metricQueryServiceRetriever,
                dispatcherGatewayRetriever,
                executor);

        //note: standalone 模式下，这里创建的是 DispatcherRestEndpoint 对象
        webMonitorEndpoint = restEndpointFactory.createRestEndpoint(
            configuration,
            dispatcherGatewayRetriever,
            resourceManagerGatewayRetriever,
            blobServer,
            executor,
            metricFetcher,
            highAvailabilityServices.getWebMonitorLeaderElectionService(),
            fatalErrorHandler);

        //note: 启动 DispatcherRestEndpoint
        log.debug("Sarting Dispatcher REST endptoint.");
        webMonitorEndpoint.start();

        final String hostname = getHostname(rpcService);

        jobManagerMetricGroup = MetricUtils.instantiateJobManagerMetricGroup(
            metricRegistry,
            hostname,
            ConfigurationUtils.getSystemResourceMetricsProbingInterval(configuration));

        //note: 创建 ResourceManager 对象（StandAlone 模式，这里创建的是 StandaloneResourceManager 对象）
        resourceManager = resourceManagerFactory.createResourceManager(
            configuration,
            ResourceID.generate(),
            rpcService,
            highAvailabilityServices,
            heartbeatServices,
            metricRegistry,
            fatalErrorHandler,
            new ClusterInformation(hostname, blobServer.getPort()),
            webMonitorEndpoint.getRestBaseUrl(),
            jobManagerMetricGroup);

        final HistoryServerArchivist historyServerArchivist = HistoryServerArchivist.createHistoryServerArchivist(configuration, webMonitorEndpoint);

        //note: 创建 dispatcher 对象（StandAlone 模式下，创建的是 StandaloneDispatcher 对象）
        dispatcher = dispatcherFactory.createDispatcher(
            configuration,
            rpcService,
            highAvailabilityServices,
            resourceManagerGatewayRetriever,
            blobServer,
            heartbeatServices,
            jobManagerMetricGroup,
            metricRegistry.getMetricQueryServiceGatewayRpcAddress(),
            archivedExecutionGraphStore,
            fatalErrorHandler,
            historyServerArchivist);

        //note: 启动 ResourceManager
        log.debug("Starting ResourceManager.");
        resourceManager.start();
        resourceManagerRetrievalService.start(resourceManagerGatewayRetriever); //note: 监听 leader

        //note: 启动 Dispatcher
        log.debug("Starting Dispatcher.");
        dispatcher.start();
        dispatcherLeaderRetrievalService.start(dispatcherGatewayRetriever);

        return createDispatcherResourceManagerComponent(
            dispatcher,
            resourceManager,
            dispatcherLeaderRetrievalService,
            resourceManagerRetrievalService,
            webMonitorEndpoint,
            jobManagerMetricGroup);

    } catch (Exception exception) {
        //note: 清除前面启动的所有服务的组件
        // ...
    }
}

在上面的方法实现中，Master 中的两个重要服务就是在这里初始化并启动的：

Dispatcher: 初始化并启动这个服务，如果 JM 启动了 HA 模式，这里会竞选 leader，只有是 leader 的 Dispatcher 才会真正对外提供服务（参考前面图中的流程）；
ResourceManager: 这个跟 Dispatcher 有点类似。

Master 各个服务详解

这里，我们来详细看下 Master 使用到各个服务组件，并做下详细的介绍。

Dispatcher

Dispatcher 主要是用于作业的提交、并把它们持久化、为作业创建对应的 JobManager 等，Client 端提交的 JobGraph 就是提交给了 Dispatcher 服务，这里先看一下一个 Dispatcher 对象被选举为 leader 后是如何初始化的，如果当前的 Dispatcher 被选举为 leader，则会调用其 grantLeadership() 方法，该方法实现如下：

// Dispatcher.java
/**
 * Callback method when current resourceManager is granted leadership.
 *
 * note: 如果当前的 dispatcher 是 leader 的情况下
 * @param newLeaderSessionID unique leadershipID
 */
@Override
public void grantLeadership(final UUID newLeaderSessionID) {
    runAsyncWithoutFencing(
        () -> {
            log.info("Dispatcher {} was granted leadership with fencing token {}", getAddress(), newLeaderSessionID);

            //note: 通过 recoverJobs() 方法先从 job graph store 中恢复所有的 jobs
            final CompletableFuture> recoveredJobsFuture = recoveryOperation.thenApplyAsync(
                FunctionUtils.uncheckedFunction(ignored -> recoverJobs()),
                getRpcService().getExecutor());

            //note: 通过 tryAcceptLeadershipAndRunJobs() 调用 runJob 启动前面的每一个 job
            final CompletableFuture fencingTokenFuture = recoveredJobsFuture.thenComposeAsync(
                (Collection recoveredJobs) -> tryAcceptLeadershipAndRunJobs(newLeaderSessionID, recoveredJobs),
                getUnfencedMainThreadExecutor());

            final CompletableFuture confirmationFuture = fencingTokenFuture.thenCombineAsync(
                recoveredJobsFuture,
                BiFunctionWithException.unchecked((Boolean confirmLeadership, Collection recoveredJobs) -> {
                    if (confirmLeadership) {
                        //note: 如果是 leader，并且前面两步都完成的话，就会走到这里
                        leaderElectionService.confirmLeaderSessionID(newLeaderSessionID);
                    } else {
                        for (JobGraph recoveredJob : recoveredJobs) {
                            //note: 从 job graph store 中删除这些作业相关的 state
                            submittedJobGraphStore.releaseJobGraph(recoveredJob.getJobID());
                        }
                    }
                    return null;
                }),
                getRpcService().getExecutor());

            confirmationFuture.whenComplete(
                (Void ignored, Throwable throwable) -> {
                    if (throwable != null) {
                        onFatalError(
                            new DispatcherException(
                                String.format("Failed to take leadership with session id %s.", newLeaderSessionID),
                                (ExceptionUtils.stripCompletionException(throwable))));
                    }
                });

            recoveryOperation = confirmationFuture;
        });
}

Dispatcher 被选举为 leader 后，它主要的操作步骤如下：

recoverJobs(): 先从 job graph store 恢复所有作业的 JobGraph；
tryAcceptLeadershipAndRunJobs(): 启动前面恢复的每个作业，这里要说明的是，目前看到的 1.9 的实现，这里会将前面所有的作业都会重启，我在看的时候是有点懵逼的，这个 HA 有点伪 HA，相当于 leader 切换之后，作业就必须要得重启恢复，这个代价是有点大的，不过也看到社区有改进的计划（FLINK-10333 这个进度有点慢）；

我们这里再详细看下 Dispatcher 对外提供了哪些 API 实现（这些接口主要还是 DispatcherGateway 中必须要实现的接口），通过这些 API，其实就很容易看出它到底对外提供了哪些功能，提供的 API 有：

listJobs(): 列出当前提交的作业列表；
submitJob(): 向集群提交作业；
getBlobServerPort(): 返回 blob server 的端口；
requestJob(): 根据 jobId 请求一个作业的 ArchivedExecutionGraph（它是这个作业 ExecutionGraph 序列化后的形式）；
disposeSavepoint(): 清理指定路径的 savepoint 状态信息；
cancelJob(): 取消一个指定的作业；
requestClusterOverview(): 请求这个集群的全局信息，比如：集群有多少个 slot，有多少可用的 slot，有多少个作业等等；
requestMultipleJobDetails(): 返回当前集群正在执行的作业详情，返回对象是 JobDetails 列表；
requestJobStatus(): 请求一个作业的作业状态（返回的类型是 JobStatus）；
requestOperatorBackPressureStats(): 请求一个 Operator 的反压情况；
requestJobResult(): 请求一个 job 的 JobResult；
requestMetricQueryServiceAddresses(): 请求 MetricQueryService 的地址；
requestTaskManagerMetricQueryServiceAddresses(): 请求 TaskManager 的 MetricQueryService 的地址；
triggerSavepoint(): 使用指定的目录触发一个 savepoint；
stopWithSavepoint(): 停止当前的作业，并在停止前做一次 savepoint；
shutDownCluster(): 关闭集群；

通过 Dispatcher 提供的 API 可以看出，Dispatcher 服务主要有功能有：

提交/取消作业；
触发/取消/清理一个作业的 savepoint；
作业状态/列表查询；

Dispatcher 这里主要处理的还是 Job 相关的请求，对外提供了统一的接口。

ResourceManager

ResourceManager 从名字就可以看出，它主要是资源管理相关的服务，如果其被选举为 leader，实现如下，它会清除缓存中的数据，然后启动 SlotManager 服务：

// ResourceManager.java
/**
 * Callback method when current resourceManager is granted leadership.
 *
 * note：如果当前的 resourceManager 被选举为 leader 的话，就执行这个方法
 * @param newLeaderSessionID unique leadershipID
 */
@Override
public void grantLeadership(final UUID newLeaderSessionID) {
    //note: tryAcceptLeadership() 清除之前 leader 的信息，这里会重新初始化 leader 相关的信息，并启动 SlotManager 服务
    final CompletableFuture acceptLeadershipFuture = clearStateFuture
        .thenComposeAsync((ignored) -> tryAcceptLeadership(newLeaderSessionID), getUnfencedMainThreadExecutor());

    final CompletableFuture confirmationFuture = acceptLeadershipFuture.thenAcceptAsync(
        (acceptLeadership) -> {
            if (acceptLeadership) {
                // confirming the leader session ID might be blocking,
                leaderElectionService.confirmLeaderSessionID(newLeaderSessionID);
            }
        },
        getRpcService().getExecutor());

    confirmationFuture.whenComplete(
        (Void ignored, Throwable throwable) -> {
            if (throwable != null) {
                onFatalError(ExceptionUtils.stripCompletionException(throwable));
            }
        });
}

private CompletableFuture tryAcceptLeadership(final UUID newLeaderSessionID) {
    if (leaderElectionService.hasLeadership(newLeaderSessionID)) {
        final ResourceManagerId newResourceManagerId = ResourceManagerId.fromUuid(newLeaderSessionID);

        log.info("ResourceManager {} was granted leadership with fencing token {}", getAddress(), newResourceManagerId);

        // clear the state if we've been the leader before
        //note: 清除之前的状态
        if (getFencingToken() != null) {
            clearStateInternal();
        }

        setFencingToken(newResourceManagerId);

        //note: 本节点启动 leader 服务
        startServicesOnLeadership();

        return prepareLeadershipAsync().thenApply(ignored -> true);
    } else {
        return CompletableFuture.completedFuture(false);
    }
}

protected void startServicesOnLeadership() {
    //note: 启动心跳服务
    startHeartbeatServices();

    //note: 启动 slotManager
    slotManager.start(getFencingToken(), getMainThreadExecutor(), new ResourceActionsImpl());
}

这里也来看下 ResourceManager 对外提供的 API（ResourceManagerGateway 相关方法的实现）：

registerJobManager(): 在 ResourceManager 中注册一个 JobManager 对象，一个作业启动后，JobManager 初始化后会调用这个方法；
registerTaskExecutor(): 在 ResourceManager 中注册一个 TaskExecutor（TaskExecutor 实际上就是一个 TaskManager），当一个 TaskManager 启动后，会主动向 ResourceManager 注册；
sendSlotReport(): TM 向 ResourceManager 发送 SlotReport（SlotReport 包含了这个 TaskExecutor 的所有 slot 状态信息，比如：哪些 slot 是可用的、哪些 slot 是已经被分配的、被分配的 slot 分配到哪些 Job 上了等）；
heartbeatFromTaskManager(): 向 ResourceManager 发送来自 TM 的心跳信息；
heartbeatFromJobManager(): 向 ResourceManager 发送来自 JM 的心跳信息；
disconnectTaskManager(): TM 向 ResourceManager 发送一个断开连接的请求；
disconnectJobManager(): JM 向 ResourceManager 发送一个断开连接的请求；
requestSlot(): JM 向 ResourceManager 请求 slot 资源；
cancelSlotRequest(): JM 向 ResourceManager 发送一个取消 slot 申请的请求；
notifySlotAvailable(): TM 向 ResourceManager 发送一个请求，通知 ResourceManager 某个 slot 现在可用了（TM 端某个 slot 的资源被释放，可以再进行分配了）；
deregisterApplication(): 向资源管理系统（比如：yarn、mesos）申请关闭当前的 Flink 集群，一般是在关闭集群的时候调用的；
requestTaskManagerInfo(): 请求当前注册到 ResourceManager 的 TM 的详细信息（返回的类型是 TaskManagerInfo，可以请求的是全部的 TM 列表，也可以是根据某个 ResourceID 请求某个具体的 TM）；
requestResourceOverview(): 向 ResourceManager 请求资源概况，返回的类型是 ResourceOverview，它包括注册的 TM 数量、注册的 slot 数、可用的 slot 数等；
requestTaskManagerMetricQueryServiceAddresses(): 请求 TM MetricQueryService 的地址信息；
requestTaskManagerFileUpload(): 向 TM 发送一个文件上传的请求，这里上传的是 TM 的 LOG/STDOUT 类型的文件，文件会上传到 Blob Server，这里会拿到一个 BlobKey（Blobkey 实际上是文件名的一部分，通过 BlobKey 可以确定这个文件的物理位置信息）；

从上面的 API 列表中，可以看出 ResourceManager 的主要功能是：

JobManager/TaskManager 资源的注册/心跳监控/连接断开的处理；
处理/取消 JM 资源（slot）的申请；
提供资源信息查询；
向 TM 发送请求，触发其 LOG/STDOUT 文件上传到 BlobServer；

ResourceManager 在启动的时候，也会启动一个 SlotManager 服务，TM 相关的 slot 资源都是在 SlotManager 中维护的。

SlotManager

SlotManager 会维护所有从 TaskManager 注册过来的 slot（包括它们的分配情况）以及所有 pending 的 SlotRequest（所有的 slot 请求都会先放到 pending 列表中，然后再去判断是否可以满足其资源需求）。只要有新的 slot 注册或者旧的 slot 资源释放，SlotManager 都会检测 pending SlotRequest 列表，检查是否有 SlotRequest 可以满足，如果可以满足，就会将资源分配给这个 SlotRequest；如果没有足够可用的 slot，SlotManager 会尝试着申请新的资源（比如：申请一个 worker 启动）。

当然，为了资源及时释放和避免资源浪费，空转的 task manager（它当前已经分配的 slot 并未使用）和 pending slot request 在 timeout 之后将会分别触发它们的释放和失败（对应的方法实现是 checkTaskManagerTimeouts() 和 checkSlotRequestTimeouts()）。

SlotManager 对外的提供的 API 如下（SlotManager 中必须要实现的接口，实现类是 SlotManagerImpl）：

getNumberRegisteredSlots(): 获取注册的 slot 的总数量；
getNumberRegisteredSlotsOf(): 获取某个 TM 注册的 slot 的数量；
getNumberFreeSlots(): 获取当前可用的（还未分配的 slot） slot 的数量；
getNumberFreeSlotsOf(): 获取某个 TM 当前可用的 slot 的数量；
getNumberPendingTaskManagerSlots(): 获取 pendingSlots 中 slot 的数量（pendingSlots 记录的是 SlotManager 主动去向资源管理系统申请的资源，该系统在一些情况下会新启动 worker 来创建资源，但这些slot 还没有主动汇报过来，就会暂时先放到 pendingSlots 中，如果 TM 过来注册的话，该 slot 就会从 pendingSlots 中移除，存储到其他对象中）；
getNumberPendingSlotRequests(): 获取 pendingSlotRequests 列表的数量，这个集合中存储的是收到的、还没分配的 SlotRequest 列表，当一个 SlotRequest 发送过来之后，会先存储到这个集合中，当分配完成后，才会从这个集合中移除；
registerSlotRequest(): JM 发送一个 slot 请求（这里是 ResourceManager 通过 requestSlot() 接口调用的）；
unregisterSlotRequest(): 取消或移除一个正在排队（可能已经在处理中）的 SlotRequest；
registerTaskManager(): 注册一个 TM，这里会将 TM 中所有的 slot 注册过来，等待后面分配；
unregisterTaskManager(): 取消一个 TM 的注册（比如：关闭的时候可能会调用），这里会将这个 TM 上所有的 slot 都移除，会先从缓存中移除，然后再通知 JM 这个 slot 分配失败；
reportSlotStatus(): TM 汇报当前 slot 分配的情况，SlotManager 会将其更新到自己的缓存中；
freeSlot(): 释放一个指定的 slot，如果这个 slot 之前已经被分配出去了，这里会更新其状态，将其状态改为 FREE；
setFailUnfulfillableRequest(): 遍历 pendingSlotRequests 列表，如果这些 slot 请求现在还分配不到合适的资源，这里会将其设置为 fail，会通知 JM slot 分配失败。

同样，从上面的 API 列表中，总结一下 SlotManager 的功能：

提供 slot 相关的信息查询；
处理/取消 JM 发送的 SlotRequest；
注册/取消一个 TM（该 TM 涉及到的所有 slot 都会被注册或取消）；
Slot 资源的释放；

其他服务

Master 除了上面的服务，还启动了其他的服务，这里简单列一下：

BlobServer: 它是 Flink 用来管理二进制大文件的服务，Flink JobManager 中启动的 BlobServer 负责监听请求并派发线程去处理（这个将会在下篇文章中讲述）；
JobManager: Dispatcher 会为每个作业创建一个 JobManager 对象，它用来处理这个作业相关的协调工作，比如：task 的调度、Checkpoint 的触发及失败恢复等（这个也会在下篇文章中讲述）；
HA service: Flink HA 的实现目前是依赖了 ZK，使用 curator 这个包来实现的，有兴趣的可以看下 Curator leader 选举(一) 这篇文章。

小节

到这里，终于就把 Flink Master 相关内容的一部分梳理完了，这里简单总结一下：

Dispatcher: 负责接收用户提供的作业，并且负责为这个新提交的作业拉起一个新的 JobManager 组件，它主要还是处理 Job 相关的请求，对外提供了统一的接口抽象；
ResourceManager: 负责资源的管理，所有资源相关的请求都是 ResourceManager 中处理的；
JobManager: 负责管理具体作业的执行；

Flink Master 这部分的抽象还是比较好的，三大组件各司其职。当然还有一些需要改善的地方，比如：为什么不抽象一个 Master 类，然后把这些子服务全都放到 Master 类里，这样代码看起来会清晰舒服很多，现在的代码对初学者其实并不友好。

参考

Flink 如何生成 ExecutionGraph

2019-12-20T03:06:33.000Z

本篇文章是 Flink 系列 的第四篇，紧接着前面两篇文章，在前两篇文章中介绍的 StreamGraph 和 JobGraph 都是在 client 端生成的，本文将会讲述 JobGraph 是如何转换成 ExecutionGraph 的。当 JobGraph 从 client 端提交到 JobManager 端后，JobManager 会根据 JobGraph 生成对应的 ExecutionGraph，ExecutionGraph 是 Flink 作业调度时使用到的核心数据结构，它包含每一个并行的 task、每一个 intermediate stream 以及它们之间的关系，本篇将会详细分析一下 JobGraph 转换为 ExecutionGraph 的流程。

Create ExecutionGraph 的整体流程

当用户向一个 Flink 集群提交一个作业后，JobManager 会接收到 Client 相应的请求，JobManager 会先做一些初始化相关的操作（也就是 JobGraph 到 ExecutionGraph 的转化），当这个转换完成后，才会根据 ExecutionGraph 真正在分布式环境中调度当前这个作业，而 JobManager 端处理的整体流程如下：

上图是一个作业提交后，在 JobManager 端的处理流程，本篇文章主要聚焦于 ExecutionGraph 的生成过程，也就是图中的红色节点，即 ExecutionGraphBuilder 的 buildGraph() 方法，这个方法就是根据 JobGraph 及相关的配置来创建 ExecutionGraph 对象的核心方法。

具体实现逻辑

这里将会详细来讲述 ExecutionGraphBuilder buildGraph() 方法的详细实现。

基本概念

ExecutionGraph 引入了几个基本概念，先简单介绍一下这些概念，对于理解 ExecutionGraph 有较大帮助：

ExecutionJobVertex: 在 ExecutionGraph 中，节点对应的是 ExecutionJobVertex，它是与 JobGraph 中的 JobVertex 一一对应，实际上每个 ExexutionJobVertex 也都是由一个 JobVertex 生成；
ExecutionVertex: 在 ExecutionJobVertex 中有一个 taskVertices 变量，它是 ExecutionVertex 类型的数组，数组的大小就是这个 JobVertex 的并发度，在创建 ExecutionJobVertex 对象时，会创建相同并发度梳理的 ExecutionVertex 对象，在真正调度时，一个 ExecutionVertex 实际就是一个 task，它是 ExecutionJobVertex 并行执行的一个子任务；
Execution: Execution 是对 ExecutionVertex 的一次执行，通过 ExecutionAttemptId 来唯一标识，一个 ExecutionVertex 在某些情况下可能会执行多次，比如遇到失败的情况或者该 task 的数据需要重新计算时；
IntermediateResult: 在 JobGraph 中用 IntermediateDataSet 表示 JobVertex 的输出 stream，一个 JobGraph 可能会有多个输出 stream，在 ExecutionGraph 中，与之对应的就是 IntermediateResult 对象；
IntermediateResultPartition: 由于 ExecutionJobVertex 可能有多个并行的子任务，所以每个 IntermediateResult 可能就有多个生产者，每个生产者的在相应的 IntermediateResult 上的输出对应一个 IntermediateResultPartition 对象，IntermediateResultPartition 表示的是 ExecutionVertex 的一个输出分区；
ExecutionEdge: ExecutionEdge 表示 ExecutionVertex 的输入，通过 ExecutionEdge 将 ExecutionVertex 和 IntermediateResultPartition 连接起来，进而在 ExecutionVertex 和 IntermediateResultPartition 之间建立联系。

从这些基本概念中，也可以看出以下几点：

由于每个 JobVertex 可能有多个 IntermediateDataSet，所以每个 ExecutionJobVertex 可能有多个 IntermediateResult，因此，每个 ExecutionVertex 也可能会包含多个 IntermediateResultPartition；
ExecutionEdge 这里主要的作用是把 ExecutionVertex 和 IntermediateResultPartition 连接起来，表示它们之间的连接关系。

这里先放一张 ExecutionGraph 粗略图，它展示上面这些类之间的关系：

实现细节

ExecutionGraph 的生成是在 ExecutionGraphBuilder 的 buildGraph() 方法中实现的：

// ExecutionGraphBuilder.java
public static ExecutionGraph buildGraph(
    @Nullable ExecutionGraph prior,
    JobGraph jobGraph,
    Configuration jobManagerConfig,
    ScheduledExecutorService futureExecutor,
    Executor ioExecutor,
    SlotProvider slotProvider,
    ClassLoader classLoader,
    CheckpointRecoveryFactory recoveryFactory,
    Time rpcTimeout,
    RestartStrategy restartStrategy,
    MetricGroup metrics,
    BlobWriter blobWriter,
    Time allocationTimeout,
    Logger log,
    ShuffleMaster shuffleMaster,
    PartitionTracker partitionTracker,
    FailoverStrategy.Factory failoverStrategyFactory) throws JobExecutionException, JobException {

    checkNotNull(jobGraph, "job graph cannot be null");

    final String jobName = jobGraph.getName();
    final JobID jobId = jobGraph.getJobID();

    //note: build jobInformation
    final JobInformation jobInformation = new JobInformation(
        jobId,
        jobName,
        jobGraph.getSerializedExecutionConfig(),
        jobGraph.getJobConfiguration(),
        jobGraph.getUserJarBlobKeys(),
        jobGraph.getClasspaths());

    //note: Execution 保留的最大历史数
    final int maxPriorAttemptsHistoryLength =
            jobManagerConfig.getInteger(JobManagerOptions.MAX_ATTEMPTS_HISTORY_SIZE);

    //note: 决定什么时候释放 IntermediateResultPartitions 的策略
    final PartitionReleaseStrategy.Factory partitionReleaseStrategyFactory =
        PartitionReleaseStrategyFactoryLoader.loadPartitionReleaseStrategyFactory(jobManagerConfig);

    // create a new execution graph, if none exists so far
    //note: 如果 executionGraph 还不存在，就创建一个新的对象
    final ExecutionGraph executionGraph;
    try {
        executionGraph = (prior != null) ? prior :
            new ExecutionGraph(
                jobInformation,
                futureExecutor,
                ioExecutor,
                rpcTimeout,
                restartStrategy,
                maxPriorAttemptsHistoryLength,
                failoverStrategyFactory,
                slotProvider,
                classLoader,
                blobWriter,
                allocationTimeout,
                partitionReleaseStrategyFactory,
                shuffleMaster,
                partitionTracker,
                jobGraph.getScheduleMode(),
                jobGraph.getAllowQueuedScheduling());
    } catch (IOException e) {
        throw new JobException("Could not create the ExecutionGraph.", e);
    }

    // set the basic properties

    try {
        //note: 以 json 的形式记录 JobGraph
        executionGraph.setJsonPlan(JsonPlanGenerator.generatePlan(jobGraph));
    }
    catch (Throwable t) {
        log.warn("Cannot create JSON plan for job", t);
        // give the graph an empty plan
        executionGraph.setJsonPlan("{}");
    }

    // initialize the vertices that have a master initialization hook
    // file output formats create directories here, input formats create splits

    final long initMasterStart = System.nanoTime();
    log.info("Running initialization on master for job {} ({}).", jobName, jobId);

    for (JobVertex vertex : jobGraph.getVertices()) {
        String executableClass = vertex.getInvokableClassName();
        if (executableClass == null || executableClass.isEmpty()) {
            throw new JobSubmissionException(jobId,
                    "The vertex " + vertex.getID() + " (" + vertex.getName() + ") has no invokable class.");
        }

        try {
            //note: 对于 InputOutputFormatVertex 类型的对象，会在 master 节点做一些额外的初始化操作
            vertex.initializeOnMaster(classLoader);
        }
        catch (Throwable t) {
                throw new JobExecutionException(jobId,
                        "Cannot initialize task '" + vertex.getName() + "': " + t.getMessage(), t);
        }
    }

    log.info("Successfully ran initialization on master in {} ms.",
            (System.nanoTime() - initMasterStart) / 1_000_000);

    // topologically sort the job vertices and attach the graph to the existing one
    //note: 这里会先做一个排序，source 会放在最前面，接着开始遍历，必须保证当前添加到集合的节点的前置节点都已经添加进去了
    List sortedTopology = jobGraph.getVerticesSortedTopologicallyFromSources();
    if (log.isDebugEnabled()) {
        log.debug("Adding {} vertices from job graph {} ({}).", sortedTopology.size(), jobName, jobId);
    }
    //note: 处理的重点：生成具体的 Execution Plan
    executionGraph.attachJobGraph(sortedTopology);

    if (log.isDebugEnabled()) {
        log.debug("Successfully created execution graph from job graph {} ({}).", jobName, jobId);
    }

    //note: cp 相关的配置
    // configure the state CheckPointing
    JobCheckpointingSettings snapshotSettings = jobGraph.getCheckpointingSettings();
    if (snapshotSettings != null) {
        //note: cp 时，需要 trigger（插入 barrier）的 JobVertex，这里指的是 source 节点
        List triggerVertices =
                idToVertex(snapshotSettings.getVerticesToTrigger(), executionGraph);

        //note: cp 时，需要向 master 返回 ack 信息的 JobVertex 节点的集合
        List ackVertices =
                idToVertex(snapshotSettings.getVerticesToAcknowledge(), executionGraph);

        List confirmVertices =
                idToVertex(snapshotSettings.getVerticesToConfirm(), executionGraph);

        CompletedCheckpointStore completedCheckpoints;
        CheckpointIDCounter checkpointIdCounter;
        try {
            int maxNumberOfCheckpointsToRetain = jobManagerConfig.getInteger(
                    CheckpointingOptions.MAX_RETAINED_CHECKPOINTS);

            if (maxNumberOfCheckpointsToRetain <= 0) {
                // warning and use 1 as the default value if the setting in
                // state.checkpoints.max-retained-checkpoints is not greater than 0.
                log.warn("The setting for '{} : {}' is invalid. Using default value of {}",
                        CheckpointingOptions.MAX_RETAINED_CHECKPOINTS.key(),
                        maxNumberOfCheckpointsToRetain,
                        CheckpointingOptions.MAX_RETAINED_CHECKPOINTS.defaultValue());

                maxNumberOfCheckpointsToRetain = CheckpointingOptions.MAX_RETAINED_CHECKPOINTS.defaultValue();
            }

            completedCheckpoints = recoveryFactory.createCheckpointStore(jobId, maxNumberOfCheckpointsToRetain, classLoader);
            checkpointIdCounter = recoveryFactory.createCheckpointIDCounter(jobId);
        }
        catch (Exception e) {
            throw new JobExecutionException(jobId, "Failed to initialize high-availability checkpoint handler", e);
        }

        // Maximum number of remembered checkpoints
        //note: cp 保存的最多数量
        int historySize = jobManagerConfig.getInteger(WebOptions.CHECKPOINTS_HISTORY_SIZE);

        CheckpointStatsTracker checkpointStatsTracker = new CheckpointStatsTracker(
                historySize,
                ackVertices,
                snapshotSettings.getCheckpointCoordinatorConfiguration(),
                metrics);

        // load the state backend from the application settings
        final StateBackend applicationConfiguredBackend;
        final SerializedValue serializedAppConfigured = snapshotSettings.getDefaultStateBackend();

        if (serializedAppConfigured == null) {
            applicationConfiguredBackend = null;
        }
        else {
            try {
                applicationConfiguredBackend = serializedAppConfigured.deserializeValue(classLoader);
            } catch (IOException | ClassNotFoundException e) {
                throw new JobExecutionException(jobId,
                        "Could not deserialize application-defined state backend.", e);
            }
        }

        //note: state backend
        final StateBackend rootBackend;
        try {
            rootBackend = StateBackendLoader.fromApplicationOrConfigOrDefault(
                    applicationConfiguredBackend, jobManagerConfig, classLoader, log);
        }
        catch (IllegalConfigurationException | IOException | DynamicCodeLoadingException e) {
            throw new JobExecutionException(jobId, "Could not instantiate configured state backend", e);
        }

        // instantiate the user-defined checkpoint hooks
        //note: 实例话用户自定义的 cp hook
        final SerializedValue serializedHooks = snapshotSettings.getMasterHooks();
        final List> hooks;

        if (serializedHooks == null) {
            hooks = Collections.emptyList();
        }
        else {
            final MasterTriggerRestoreHook.Factory[] hookFactories;
            try {
                hookFactories = serializedHooks.deserializeValue(classLoader);
            }
            catch (IOException | ClassNotFoundException e) {
                throw new JobExecutionException(jobId, "Could not instantiate user-defined checkpoint hooks", e);
            }

            final Thread thread = Thread.currentThread();
            final ClassLoader originalClassLoader = thread.getContextClassLoader();
            thread.setContextClassLoader(classLoader);

            try {
                hooks = new ArrayList<>(hookFactories.length);
                for (MasterTriggerRestoreHook.Factory factory : hookFactories) {
                    hooks.add(MasterHooks.wrapHook(factory.create(), classLoader));
                }
            }
            finally {
                thread.setContextClassLoader(originalClassLoader);
            }
        }

        final CheckpointCoordinatorConfiguration chkConfig = snapshotSettings.getCheckpointCoordinatorConfiguration();

        //note: 创建 CheckpointCoordinator 对象
        executionGraph.enableCheckpointing(
            chkConfig,
            triggerVertices,
            ackVertices,
            confirmVertices,
            hooks,
            checkpointIdCounter,
            completedCheckpoints,
            rootBackend,
            checkpointStatsTracker);
    }

    // create all the metrics for the Execution Graph

    metrics.gauge(RestartTimeGauge.METRIC_NAME, new RestartTimeGauge(executionGraph));
    metrics.gauge(DownTimeGauge.METRIC_NAME, new DownTimeGauge(executionGraph));
    metrics.gauge(UpTimeGauge.METRIC_NAME, new UpTimeGauge(executionGraph));
    metrics.gauge(NumberOfFullRestartsGauge.METRIC_NAME, new NumberOfFullRestartsGauge(executionGraph));

    executionGraph.getFailoverStrategy().registerMetrics(metrics);

    return executionGraph;
}

在这个方法里，会先创建一个 ExecutionGraph 对象，然后对 JobGraph 中的 JobVertex 列表做一下排序（先把有 source 节点的 JobVertex 放在最前面，然后开始遍历，只有当前 JobVertex 的前置节点都已经添加到集合后才能把当前 JobVertex 节点添加到集合中），最后通过 attachJobGraph() 方法生成具体的 Execution Plan。

ExecutionGraph 的 attachJobGraph() 方法会将这个作业的 ExecutionGraph 构建出来，它会根据 JobGraph 创建相应的 ExecutionJobVertex、IntermediateResult、ExecutionVertex、ExecutionEdge、IntermediateResultPartition，其详细的执行逻辑如下图所示：

上面的图还是有些凌乱，要配合本文的第二张图来看，接下来看下具体的方法实现。

创建 ExecutionJobVertex 对象

先来看下创建 ExecutionJobVertex 对象的实现：

public ExecutionJobVertex(
        ExecutionGraph graph,
        JobVertex jobVertex,
        int defaultParallelism,
        int maxPriorAttemptsHistoryLength,
        Time timeout,
        long initialGlobalModVersion,
        long createTimestamp) throws JobException {

    if (graph == null || jobVertex == null) {
        throw new NullPointerException();
    }

    this.graph = graph;
    this.jobVertex = jobVertex;

    //note: 并发度
    int vertexParallelism = jobVertex.getParallelism();
    int numTaskVertices = vertexParallelism > 0 ? vertexParallelism : defaultParallelism;

    final int configuredMaxParallelism = jobVertex.getMaxParallelism();

    this.maxParallelismConfigured = (VALUE_NOT_SET != configuredMaxParallelism);

    // if no max parallelism was configured by the user, we calculate and set a default
    setMaxParallelismInternal(maxParallelismConfigured ?
            configuredMaxParallelism : KeyGroupRangeAssignment.computeDefaultMaxParallelism(numTaskVertices));

    // verify that our parallelism is not higher than the maximum parallelism
    if (numTaskVertices > maxParallelism) {
        throw new JobException(
            String.format("Vertex %s's parallelism (%s) is higher than the max parallelism (%s). Please lower the parallelism or increase the max parallelism.",
                jobVertex.getName(),
                numTaskVertices,
                maxParallelism));
    }

    this.parallelism = numTaskVertices;
    this.resourceProfile = ResourceProfile.fromResourceSpec(jobVertex.getMinResources(), 0);

    //note: taskVertices 记录这个 task 每个并发
    this.taskVertices = new ExecutionVertex[numTaskVertices];
    this.operatorIDs = Collections.unmodifiableList(jobVertex.getOperatorIDs());
    this.userDefinedOperatorIds = Collections.unmodifiableList(jobVertex.getUserDefinedOperatorIDs());

    //note: 记录输入的 IntermediateResult 列表
    this.inputs = new ArrayList<>(jobVertex.getInputs().size());

    // take the sharing group
    this.slotSharingGroup = jobVertex.getSlotSharingGroup();
    this.coLocationGroup = jobVertex.getCoLocationGroup();

    // setup the coLocation group
    if (coLocationGroup != null && slotSharingGroup == null) {
        throw new JobException("Vertex uses a co-location constraint without using slot sharing");
    }

    // create the intermediate results
    //note: 创建 IntermediateResult 对象数组（根据 JobVertex 的 targets 来确定）
    this.producedDataSets = new IntermediateResult[jobVertex.getNumberOfProducedIntermediateDataSets()];

    for (int i = 0; i < jobVertex.getProducedDataSets().size(); i++) {
        //note: JobGraph 中 IntermediateDataSet 这里会转换为 IntermediateResult 对象
        final IntermediateDataSet result = jobVertex.getProducedDataSets().get(i);

        //note: 这里一个 IntermediateDataSet 会对应一个 IntermediateResult
        this.producedDataSets[i] = new IntermediateResult(
                result.getId(),
                this,
                numTaskVertices,
                result.getResultType());
    }

    // create all task vertices
    //note: task vertices 创建
    //note: 一个 JobVertex/ExecutionJobVertex 代表的是一个operator chain，而具体的 ExecutionVertex 则代表了每一个 Task
    for (int i = 0; i < numTaskVertices; i++) {
        ExecutionVertex vertex = new ExecutionVertex(
                this,
                i,
                producedDataSets,
                timeout,
                initialGlobalModVersion,
                createTimestamp,
                maxPriorAttemptsHistoryLength);

        this.taskVertices[i] = vertex;
    }

    // sanity check for the double referencing between intermediate result partitions and execution vertices
    for (IntermediateResult ir : this.producedDataSets) {
        if (ir.getNumberOfAssignedPartitions() != parallelism) {
            throw new RuntimeException("The intermediate result's partitions were not correctly assigned.");
        }
    }
    // ...
}

它主要做了一下工作：

根据这个 JobVertex 的 results（IntermediateDataSet 列表）来创建相应的 IntermediateResult 对象，每个 IntermediateDataSet 都会对应的一个 IntermediateResult；
再根据这个 JobVertex 的并发度，来创建相同数量的 ExecutionVertex 对象，每个 ExecutionVertex 对象在调度时实际上就是一个 task 任务；
在创建 IntermediateResult 和 ExecutionVertex 对象时都会记录它们之间的关系，它们之间的关系可以参考本文的图二。

创建 ExecutionVertex 对象

创建 ExecutionVertex 对象的实现如下：

public ExecutionVertex(
        ExecutionJobVertex jobVertex,
        int subTaskIndex,
        IntermediateResult[] producedDataSets,
        Time timeout,
        long initialGlobalModVersion,
        long createTimestamp,
        int maxPriorExecutionHistoryLength) {

    this.jobVertex = jobVertex;
    this.subTaskIndex = subTaskIndex;
    this.executionVertexId = new ExecutionVertexID(jobVertex.getJobVertexId(), subTaskIndex);
    this.taskNameWithSubtask = String.format("%s (%d/%d)",
            jobVertex.getJobVertex().getName(), subTaskIndex + 1, jobVertex.getParallelism());

    this.resultPartitions = new LinkedHashMap<>(producedDataSets.length, 1);

    //note: 新建 IntermediateResultPartition 对象，并更新到缓存中
    for (IntermediateResult result : producedDataSets) {
        IntermediateResultPartition irp = new IntermediateResultPartition(result, this, subTaskIndex);
        //note: 记录 IntermediateResult 与 IntermediateResultPartition 之间的关系
        result.setPartition(subTaskIndex, irp);

        resultPartitions.put(irp.getPartitionId(), irp);
    }

    //note: 创建 input ExecutionEdge 列表，记录输入的 ExecutionEdge 列表
    this.inputEdges = new ExecutionEdge[jobVertex.getJobVertex().getInputs().size()][];

    this.priorExecutions = new EvictingBoundedList<>(maxPriorExecutionHistoryLength);

    //note: 创建对应的 Execution 对象，初始化时 attemptNumber 为 0，如果后面重新调度这个 task，它会自增加 1
    this.currentExecution = new Execution(
        getExecutionGraph().getFutureExecutor(),
        this,
        0,
        initialGlobalModVersion,
        createTimestamp,
        timeout);

    // create a co-location scheduling hint, if necessary
    CoLocationGroup clg = jobVertex.getCoLocationGroup();
    if (clg != null) {
        this.locationConstraint = clg.getLocationConstraint(subTaskIndex);
    }
    else {
        this.locationConstraint = null;
    }

    getExecutionGraph().registerExecution(currentExecution);

    this.timeout = timeout;
    this.inputSplits = new ArrayList<>();
}

ExecutionVertex 创建时，主要做了下面这三件事：

根据这个 ExecutionJobVertex 的 producedDataSets（IntermediateResult 类型的数组），给每个 ExecutionVertex 创建相应的 IntermediateResultPartition 对象，它代表了一个 IntermediateResult 分区；
调用 IntermediateResult 的 setPartition() 方法，记录 IntermediateResult 与 IntermediateResultPartition 之间的关系；
给这个 ExecutionVertex 创建一个 Execution 对象，如果这个 ExecutionVertex 重新调度（失败重新恢复等情况），那么 Execution 对应的 attemptNumber 将会自增加 1，这里初始化的时候其值为 0。

创建 ExecutionEdge

根据前面的流程图，接下来，看下 ExecutionJobVertex 的 connectToPredecessors() 方法。在这个方法中，主要做的工作是创建对应的 ExecutionEdge 对象，并使用这个对象将 ExecutionVertex 与 IntermediateResultPartition 连接起来，ExecutionEdge 的成员变量比较简单，如下所示：

// ExecutionEdge.java
public class ExecutionEdge {
    // source 节点
    private final IntermediateResultPartition source;
    // target 节点
    private final ExecutionVertex target;

    private final int inputNum;
}

ExecutionEdge 的创建是在 ExecutionVertex 中 connectSource() 方法中实现的，代码实现如下：

// ExecutionVertex.java
//note: 与上游节点连在一起
public void connectSource(int inputNumber, IntermediateResult source, JobEdge edge, int consumerNumber) {

    final DistributionPattern pattern = edge.getDistributionPattern();
    final IntermediateResultPartition[] sourcePartitions = source.getPartitions();

    ExecutionEdge[] edges;

    //note: 只有 forward/RESCALE 的方式的情况下，pattern 才是 POINTWISE 的，否则均为 ALL_TO_ALL
    switch (pattern) {
        case POINTWISE:
            edges = connectPointwise(sourcePartitions, inputNumber);
            break;

        case ALL_TO_ALL:
            //note: 它会连接上游所有的 IntermediateResultPartition
            edges = connectAllToAll(sourcePartitions, inputNumber);
            break;

        default:
            throw new RuntimeException("Unrecognized distribution pattern.");

    }

    inputEdges[inputNumber] = edges;

    // add the consumers to the source
    // for now (until the receiver initiated handshake is in place), we need to register the
    // edges as the execution graph
    //note: 之前已经为 IntermediateResult 添加了 consumer，这里为 IntermediateResultPartition 添加 consumer，即关联到 ExecutionEdge 上
    for (ExecutionEdge ee : edges) {
        ee.getSource().addConsumer(ee, consumerNumber);
    }
}

在创建 ExecutionEdge 时，会根据这个 JobEdge 的 DistributionPattern 选择不同的实现，这里主要分两种情况，DistributionPattern 是跟 Partitioner 的配置有关（Partitioner 详解）：

// StreamingJobGraphGenerator.java
//note: 创建 JobEdge（它会连接上下游的 node）
JobEdge jobEdge;
if (partitioner instanceof ForwardPartitioner || partitioner instanceof RescalePartitioner) {
    jobEdge = downStreamVertex.connectNewDataSetAsInput( //note: 这个方法会创建 IntermediateDataSet 对象
        headVertex,
        DistributionPattern.POINTWISE, //note: 上游与下游的消费模式，（每个生产任务的 sub-task 会连接到消费任务的一个或多个 sub-task）
        resultPartitionType);
} else {
    jobEdge = downStreamVertex.connectNewDataSetAsInput(
            headVertex,
            DistributionPattern.ALL_TO_ALL, //note: 每个生产任务的 sub-task 都会连接到每个消费任务的 sub-task
            resultPartitionType);
}

如果 DistributionPattern 是 ALL_TO_ALL 模式，这个 ExecutionVertex 会与 IntermediateResult 对应的所有 IntermediateResultPartition 连接起来，而如果是 POINTWISE 模式，ExecutionVertex 只会与部分的 IntermediateResultPartition 连接起来。POINTWISE 模式下 IntermediateResultPartition 与 ExecutionVertex 之间的分配关系如下图所示，具体的分配机制是跟 IntermediateResultPartition 数与 ExecutionVertex 数有很大关系的，具体细节实现可以看下相应代码，这里只是举了几个示例。

到这里，这个作业的 ExecutionGraph 就创建完成了，有了 ExecutionGraph，JobManager 才能对这个作业做相应的调度。

总结

本文详细介绍了 JobGraph 如何转换为 ExecutionGraph 的过程。到这里，StreamGraph、 JobGraph 和 ExecutionGraph 的生成过程，在最近的三篇文章中已经详细讲述完了，后面将会给大家逐步介绍 runtime 的其他内容。

简单总结一下：

streamGraph 是最原始的用户逻辑，是一个没有做任何优化的 DataFlow；
JobGraph 对 StreamGraph 做了一些优化，主要是将能够 Chain 在一起的算子 Chain 在一起，这一样可以减少网络 shuffle 的开销；
ExecutionGraph 则是作业运行是用来调度的执行图，可以看作是并行化版本的 JobGraph，将 DAG 拆分到基本的调度单元。

参考

Flink Streaming 作业如何转化为 JobGraph

2019-12-09T01:34:07.000Z

本篇文章是 Flink 系列 的第三篇，紧接着上一篇文章，本文主要讲述 StreamGraph 是如何转换成 JobGraph 的，在前面的文章中，我们知道 StreamGraph 是根据用户作业的处理逻生成初始的逻辑计划，它并没有做任何的优化，而 JobGraph 将会在原来的基础上做相应的优化（主要是算子的 Chain 操作，Chain 在一起的算子将会在同一个 task 上运行，会极大减少 shuffle 的开销）。刚开始接触的同学可能会有一个疑问，为什么要有 StreamGraph 和 JobGraph 两层的 Graph，这里最主要的原因是为兼容 batch process，Streaming process 最初产生的是 StreamGraph，而 batch process 产生的则是 OptimizedPlan，但是它们最后都会转换为 JobGraph，本文主要是以 Streaming 作业的 StreamGraph 转换为 JobGraph 的处理流程来介绍。

生成 JobGraph 的整体流程

这里我们先看下 FlinkPlan 的实现，它主要有两个实现类：StreamGraph 和 OptimizedPlan，分别对应 Streaming 和 Batch process，不管是哪种类型最后可以转换为 JobGraph：

OptimizedPlan 可以通过 JobGraphGenerator 的 compileJobGraph() 方法来转换为 JobGraph，而 StreamGraph 则可以通过 StreamingJobGraphGenerator 的 createJobGraph() 方法来转换为相应的 JobGraph。其中，StreamGraph 的整体转换流程如下图所示（下图主要展示了这个流程涉及到主要方法调用，比较核心的方法图中也加了颜色，也是本文会着重讲述的方法）：

具体实现流程

StreamingJobGraphGenerator 的 createJobGraph() 的方法实现如下：

//note: 根据 StreamGraph 生成 JobGraph
private JobGraph createJobGraph() {

    // make sure that all vertices start immediately
    //note: 设置调度模式
    jobGraph.setScheduleMode(streamGraph.getScheduleMode());

    // Generate deterministic hashes for the nodes in order to identify them across
    // submission iff they didn't change.
    /**
     * note: 为每个 SteamNode 生成一个确定的 hash id，如果提交的拓扑没有改变，则每次生成的 hash id 都是一样的
     * note: 这里只要保证 source 的顺序是确定的，就可以保证最后生产的 hash id 不变
     * note: 它是利用 input 节点的 hash 值及该节点在 map 中位置（实际上是 map.size 算的）来计算确定的
     * note: 实现逻辑见 {@link StreamGraphHasherV2#traverseStreamGraphAndGenerateHashes(StreamGraph)}
     */
    Mapbyte[]> hashes = defaultStreamGraphHasher.traverseStreamGraphAndGenerateHashes(streamGraph);

    // Generate legacy version hashes for backwards compatibility
    //note: 这个设置主要是为了防止 hash 机制变化时出现不兼容的情况
    Listbyte[]>> legacyHashes = new ArrayList<>(legacyStreamGraphHashers.size());
    for (StreamGraphHasher hasher : legacyStreamGraphHashers) {
        legacyHashes.add(hasher.traverseStreamGraphAndGenerateHashes(streamGraph));
    }

    Mapbyte[], byte[]>>> chainedOperatorHashes = new HashMap<>();

    //note: 最重要的函数，生成 JobVertex/JobEdge 等，并尽可能地将多个节点 chain 在一起
    setChaining(hashes, legacyHashes, chainedOperatorHashes);

    //note: 将每个 JobVertex 的入边集合也序列化到该 JobVertex 的 StreamConfig 中 (出边集合已经在 setChaining 的时候写入了)
    setPhysicalEdges();

    //note: 为每个 JobVertex 指定所属的 SlotSharingGroup 以及设置 CoLocationGroup
    setSlotSharingAndCoLocation();

    //note: checkpoint相关的配置
    configureCheckpointing();

    //note: 用户的第三方依赖包就是在这里（cacheFile）传给 JobGraph
    JobGraphGenerator.addUserArtifactEntries(streamGraph.getUserArtifacts(), jobGraph);

    // set the ExecutionConfig last when it has been finalized
    try {
        //note: 将 StreamGraph 的 ExecutionConfig 序列化到 JobGraph 的配置中
        jobGraph.setExecutionConfig(streamGraph.getExecutionConfig());
    }
    catch (IOException e) {
        throw new IllegalConfigurationException("Could not serialize the ExecutionConfig." +
                "This indicates that non-serializable types (like custom serializers) were registered");
    }

    return jobGraph;
}

核心步骤如下：

先给每个 StreamNode 生成一个唯一确定的 hash id；
setChaining() 方法将可以 Chain 到一起的 StreamNode Chain 在一起，这里会生成相应的 JobVertex 、JobEdge 、 IntermediateDataSet 对象，JobGraph 的 Graph 在这一步就已经完全构建出来了；
setPhysicalEdges() 方法会将每个 JobVertex 的入边集合也序列化到该 JobVertex 的 StreamConfig 中 (出边集合已经在 setChaining 的时候写入了)；
setSlotSharingAndCoLocation() 方法主要是 JobVertex 的 SlotSharingGroup 和 CoLocationGroup 设置；
configureCheckpointing() 方法主要是 checkpoint 相关的设置。

基本概念

JobGraph 又引入了几个概念，这里先简单介绍一下。

StreamConfig: 它会记录一个 StreamOperator 的配置信息，它保存了这个 StreamOperator 的基本信息，在这里它会将 StreamGraph 中的 StreamNode 的详细信息同步到它对应的 StreamConfig 对象中；
JobVertex: JobVertex 相当于是 JobGraph 的顶点，跟 StreamNode 的区别是，它是 Operator Chain 之后的顶点，会包含多个 StreamNode；
IntermediateDataSet: 它是由一个 Operator（可能是 source，也可能是某个中间算子）产生的一个中间数据集；
JobEdge: 它相当于是 JobGraph 中的边（连接通道），这个边连接的是一个 IntermediateDataSet 跟一个要消费的 JobVertex。

如果跟前面的 StreamGraph 做对比，JobGraph 这里不但会对算子做 Chain 操作，还多抽象了一个概念 —— IntermediateDataSet，IntermediateDataSet 的抽象主要是为了后面 ExecutionGraph 的生成。

算子是如何 Chain 到一起的

这里，我们来介绍一下生成的 JobGraph 过程中最核心一步，算子如何 Chain 到一起，先看一下示例，示例与前面两篇文章的示例是一样的（这里因为图片大小限制，去掉了 filter 算子），StreamGraph 及转换后的 JobGraph 如何下图所示：

StreamGraph 转换为 JobGraph 的处理过程主要是在 setChaining() 中完成，先看下这个方法的实现：

//org.apache.flink.streaming.api.graph.StreamingJobGraphGenerator

/**
 * Sets up task chains from the source {@link StreamNode} instances.
 * note：从 Source StreamNode 实例开始设置 task chain，它将会递归地创建所有的 JobVertex 实例
 *
 * This will recursively create all {@link JobVertex} instances.
 */
private void setChaining(Mapbyte[]> hashes, Listbyte[]>> legacyHashes, Mapbyte[], byte[]>>> chainedOperatorHashes) {
    for (Integer sourceNodeId : streamGraph.getSourceIDs()) {
        //note: 处理每个 Source StreamNode
        createChain(sourceNodeId, sourceNodeId, hashes, legacyHashes, 0, chainedOperatorHashes);
    }
}

private List createChain(
        Integer startNodeId,
        Integer currentNodeId,
        Mapbyte[]> hashes,
        Listbyte[]>> legacyHashes,
        int chainIndex,
        Mapbyte[], byte[]>>> chainedOperatorHashes) {

    if (!builtVertices.contains(startNodeId)) {

        List transitiveOutEdges = new ArrayList();

        //note: 以 Edge 的粒度，记录上下游算子能 chain 在一起的 Edge
        List chainableOutputs = new ArrayList();
        List nonChainableOutputs = new ArrayList();

        //note: 当前要处理的 StreamNode
        StreamNode currentNode = streamGraph.getStreamNode(currentNodeId);

        //note: 遍历当前的输出节点，判断是否可以 chain 在一起
        for (StreamEdge outEdge : currentNode.getOutEdges()) {
            if (isChainable(outEdge, streamGraph)) { //note: 如果可以 chain 在一起的话
                chainableOutputs.add(outEdge);
            } else {
                nonChainableOutputs.add(outEdge);
            }
        }

        //note: 递归调用
        for (StreamEdge chainable : chainableOutputs) {
            //note: 如果可以 chain 在一起的话，这里的 chainIndex 会加 1
            transitiveOutEdges.addAll(
                    createChain(startNodeId, chainable.getTargetId(), hashes, legacyHashes, chainIndex + 1, chainedOperatorHashes));
        }

        for (StreamEdge nonChainable : nonChainableOutputs) {
            transitiveOutEdges.add(nonChainable);
            //note: 不能 chain 一起的话，这里的 chainIndex 是从 0 开始算的，后面也肯定会走到 createJobVertex 的逻辑
            createChain(nonChainable.getTargetId(), nonChainable.getTargetId(), hashes, legacyHashes, 0, chainedOperatorHashes);
        }

        //note: 记录每个 startNodeId 的 hash id（主要是 legacyHashes 中记录的）
        Listbyte[], byte[]>> operatorHashes =
            chainedOperatorHashes.computeIfAbsent(startNodeId, k -> new ArrayList<>());

        byte[] primaryHashBytes = hashes.get(currentNodeId);
        //note: OperatorID
        OperatorID currentOperatorId = new OperatorID(primaryHashBytes);

        for (Mapbyte[]> legacyHash : legacyHashes) {
            operatorHashes.add(new Tuple2<>(primaryHashBytes, legacyHash.get(currentNodeId)));
        }

        //note: 记录 chainedName
        chainedNames.put(currentNodeId, createChainedName(currentNodeId, chainableOutputs));
        //note: 计算 Chain 之后 node 的 minResources
        chainedMinResources.put(currentNodeId, createChainedMinResources(currentNodeId, chainableOutputs));
        //note: 计算 Chain 之后 node 的资源上限
        chainedPreferredResources.put(currentNodeId, createChainedPreferredResources(currentNodeId, chainableOutputs));

        //note: InputFormat & OutputFormat 的处理
        if (currentNode.getInputFormat() != null) {
            getOrCreateFormatContainer(startNodeId).addInputFormat(currentOperatorId, currentNode.getInputFormat());
        }

        if (currentNode.getOutputFormat() != null) {
            getOrCreateFormatContainer(startNodeId).addOutputFormat(currentOperatorId, currentNode.getOutputFormat());
        }

        //note: 如果当前节点是 chain 的起始节点, 则直接创建 JobVertex 并返回 StreamConfig, 否则先创建一个空的 StreamConfig
        //note: 这里实际上，如果节点不能 chain 在一起，那么 currentNodeId 跟 startNodeId 肯定是不相等的
        //note: createJobVertex 函数就是根据 StreamNode 创建对应的 JobVertex, 并返回了空的 StreamConfig
        StreamConfig config = currentNodeId.equals(startNodeId)
                ? createJobVertex(startNodeId, hashes, legacyHashes, chainedOperatorHashes)//note: chain 的起始 StreamNode
                : new StreamConfig(new Configuration());

        //note: 设置 JobVertex 的 StreamConfig, 基本上是将 StreamNode 中的配置设置到 StreamConfig 中
        setVertexConfig(currentNodeId, config, chainableOutputs, nonChainableOutputs);

        if (currentNodeId.equals(startNodeId)) { //note: 如果走到这里，证明这个 chain 已经完成
            //note: chain 中起始 StreamNode
            config.setChainStart();
            config.setChainIndex(0);
            config.setOperatorName(streamGraph.getStreamNode(currentNodeId).getOperatorName());
            //note: Config 中也会记录这个 chain 的出边
            config.setOutEdgesInOrder(transitiveOutEdges);
            config.setOutEdges(streamGraph.getStreamNode(currentNodeId).getOutEdges());

            for (StreamEdge edge : transitiveOutEdges) {
                //note: 构建 graph
                connect(startNodeId, edge);
            }

            //note: 将 chain 中所有子节点的 StreamConfig 写入到 headOfChain 节点的 CHAINED_TASK_CONFIG 配置中
            config.setTransitiveChainedTaskConfigs(chainedConfigs.get(startNodeId));

        } else {
            //note: 如果是 chain 中子节点
            chainedConfigs.computeIfAbsent(startNodeId, k -> new HashMap());

            config.setChainIndex(chainIndex);
            StreamNode node = streamGraph.getStreamNode(currentNodeId);
            config.setOperatorName(node.getOperatorName());
            //note: 将当前 StreamNode 的 config 记录到该 chain 的 config 集合中
            chainedConfigs.get(startNodeId).put(currentNodeId, config);
        }

        config.setOperatorID(currentOperatorId);

        if (chainableOutputs.isEmpty()) {
            config.setChainEnd();
        }
        return transitiveOutEdges;

    } else {
        return new ArrayList<>();
    }
}

这段代码处理完成后，整个 JobGraph 就构建完成了，它首先从会遍历这个 StreamGraph 的 source 节点，然后选择从 source 节点开始执行 createChain() 方法，在具体的实现里，主要逻辑如下（需要配合前面的代码去看，这里会把多个 StreamNode Chain 在一起的 Node 叫做 ChainNode，方便讲述）：

createChain() 当前要处理的节点是 currentNodeId，先从 StreamGraph 中拿到这个 StreamNode 的 outEdge（currentNode.getOutEdges()），然后判断这个 outEdge 连接的两个 StreamNode 是否可以 Chain 在一起，判断方法是 isChainable()；
紧接着会有一个递归调用：
- 对于可以 Chain 在一起的 StreamEdge（这个 Edge 连接两个 StreamNode 是可以 Chain 在一起），会再次调用 createChain() 方法，并且 createChain() 中的 startNodeId 还是最开始的 startNodeId（这个标识了这个 ChainNode 的开始 NodeId），而 chainIndex 会自增加 1；
- 而对于不能 Chain 在一起的 StreamEdge，createChain() 中的 startNodeId 变成了这个 StreamEdge 的 target StreamNode（相当于如果 Chain 在一起，ChainNode 中的 startNodeId 会赋值为下一个节点的 NodeId，然后再依次类推），chainIndex 又从 0 开始计；
- 也就是说：createChain() 中的 startNodeId 表示了当前可以 Chain 之后 Node 的 startId，这里，会一直递归调用，直到达到 Sink 节点。
然后在生成 StreamConfig 对象时，判断当前的 currentNodeId 与 startNodeId 是否相等，如果相等的话，证明当前 Node 就是这个 ChainNode 的 StartNode，这里会调用 createJobVertex() 方法给这个 ChainNode 创建一个 JobVertex 对象，最后会返回一个 StreamConfig 对象，如果前面的 id 不相等的话，这里会直接返回一个 StreamConfig 对象（这个对象主要是记录当前 StreamNode 的一些配置，它会同步 StreamGraph 中相关的配置）；
最后还会分两种情况判断：
- 如果 id 相等，相当于这个 ChainNode 已经完成，先做一些相关的配置（比如：标识当前 StreamNode 为这个 JobVertex 的起始 node），最后再通过 connect() 方法创建 JobEdge 和 IntermediateDataSet 对象，把这个 Graph 连接起来；
- 如果 id 不相等，那么证明当前 StreamNode 只是这个 ChainNode 的一部分，这里只是同步一下信息，并记录到缓存。

上面就是这个方法的主要实现逻辑，下面会详细把这个方法展开，重点介绍其中的一些方法实现。

如何判断算子是否可以 Chain 在一起

两个 StreamNode 是否可以 Chain 到一起，是通过 isChainable() 方法来判断的，这里判断的粒度是 StreamEdge，实际上就是判断 StreamEdge 连接的两个 StreamNode 是否 Chain 在一起：

//note: 是否可以 chain 在一起
public static boolean isChainable(StreamEdge edge, StreamGraph streamGraph) {
    StreamNode upStreamVertex = streamGraph.getSourceVertex(edge); //note: edge 的 source node
    StreamNode downStreamVertex = streamGraph.getTargetVertex(edge); //note: edge 的 sink node

    //note: 获取输入和输出的 Operator Factory
    StreamOperatorFactory headOperator = upStreamVertex.getOperatorFactory();
    StreamOperatorFactory outOperator = downStreamVertex.getOperatorFactory();

    return downStreamVertex.getInEdges().size() == 1 //note: 下游 Operator 的 Edge 只有一个（如果是多个合并，是无法 Chain 在一起的）
            && outOperator != null
            && headOperator != null
            && upStreamVertex.isSameSlotSharingGroup(downStreamVertex) //note: 对应的 slotSharingGroup 一样
            && outOperator.getChainingStrategy() == ChainingStrategy.ALWAYS //note: out operator 允许 chain 操作
            && (headOperator.getChainingStrategy() == ChainingStrategy.HEAD || //note: head Operator 允许跟后面的 chain 在一起
                headOperator.getChainingStrategy() == ChainingStrategy.ALWAYS)
            && (edge.getPartitioner() instanceof ForwardPartitioner) //note: partitioner 是 ForwardPartitioner 类型
            && edge.getShuffleMode() != ShuffleMode.BATCH
            && upStreamVertex.getParallelism() == downStreamVertex.getParallelism() //note: 并发相等
            && streamGraph.isChainingEnabled(); //note: StreamGraph 允许 Chain 在一起
}

这个方法判断的指标有很多，具体看上面代码就可以明白，这里着重介绍两个：slotSharingGroup 和 edge.getPartitioner()。

slotSharingGroup

先看下一个 StreamNode 的 slotSharingGroup 是如何生成的：

// org.apache.flink.streaming.api.graph.StreamGraphGenerator

public static final String DEFAULT_SLOT_SHARING_GROUP = "default";

/**
 * Determines the slot sharing group for an operation based on the slot sharing group set by
 * the user and the slot sharing groups of the inputs.
 * note: 根据这个 operation 设置的 slot sharing group 和 inputs 的 slot sharing group 来确定其 slot sharing group
 * note：1. 如果用户指定了 group name，直接使用这个 name；
 * note：2. 如果所有的 input 都是同一个 group name，使用这个即可；
 * note：3. 否则使用 default group；
 *
 * If the user specifies a group name, this is taken as is. If nothing is specified and
 * the input operations all have the same group name then this name is taken. Otherwise the
 * default group is chosen.
 *
 * @param specifiedGroup The group specified by the user. note: 用户指定的 group name
 * @param inputIds The IDs of the input operations. note: 输入 operation 的 id 集合
 */
private String determineSlotSharingGroup(String specifiedGroup, Collection inputIds) {
    if (!isSlotSharingEnabled) {
        return null;
    }

    if (specifiedGroup != null) {
        return specifiedGroup;
    } else {
        String inputGroup = null;
        for (int id: inputIds) {
            String inputGroupCandidate = streamGraph.getSlotSharingGroup(id);
            if (inputGroup == null) {
                inputGroup = inputGroupCandidate;
            } else if (!inputGroup.equals(inputGroupCandidate)) {
                return DEFAULT_SLOT_SHARING_GROUP;
            }
        }
        return inputGroup == null ? DEFAULT_SLOT_SHARING_GROUP : inputGroup;
    }
}

一个 StreamNode 的 SlotSharingGroup 会按照下面这个逻辑来确定:

如果用户指定了 SlotSharingGroup，直接使用这个 SlotSharingGroup name；
如果所有的 input 都是同一个 group name，使用这个即可；
否则使用 default group；

Partitioner

这个 StreamEdge 的属性，在创建 StreamEdge 对象会配置这个属性，先看 Flink 中提供的 Partitioner 有哪几种：

用户可以在自己的代码中调用 DataStream API （比如：broadcast()、shuffle() 等）配置相应的 StreamPartitioner，如果这个没有指定 StreamPartitioner 的话，则会走下面的逻辑创建默认的 StreamPartitioner：

//org.apache.flink.streaming.api.graph.StreamGraph
//note: 未指定 partitioner 的话，会为其选择 forward（并发设置相同时） 或 rebalance（并发设置不同时）
if (partitioner == null && upstreamNode.getParallelism() == downstreamNode.getParallelism()) {
    partitioner = new ForwardPartitioner();
} else if (partitioner == null) {
    partitioner = new RebalancePartitioner();
}

创建 JobVertex 节点

JobVertex 对象的创建是在 createJobVertex() 方法中实现的，这个方法实现比较简单，创建相应的 JobVertex 对象，并把相关的配置信息设置到 JobVertex 对象中就完成了，这里就不再展开详细介绍了。

`connect()` 创建 JobEdge 和 IntermediateDataSet 对象

connect() 方法在执行的时候，它会遍历 transitiveOutEdges 中的 StreamEdge，也就是这个 ChainNode 的 out StreamEdge（这些 StreamEdge 是不能与前面的 ChainNode Chain 在一起）

// org.apache.flink.streaming.api.graph.StreamGraphGenerator
private void connect(Integer headOfChain, StreamEdge edge) {

    //note: 记录 StreamEdge，这个主要是 chain 之间的边
    physicalEdgesInOrder.add(edge);

    Integer downStreamvertexID = edge.getTargetId();

    //note: 这里 headVertex 指的是 headOfChain 对应的 JobVertex（也是当前 node 对应的 vertex）
    JobVertex headVertex = jobVertices.get(headOfChain);
    JobVertex downStreamVertex = jobVertices.get(downStreamvertexID);

    StreamConfig downStreamConfig = new StreamConfig(downStreamVertex.getConfiguration());

    //note: 这个节点的输入数增加 1
    downStreamConfig.setNumberOfInputs(downStreamConfig.getNumberOfInputs() + 1);

    StreamPartitioner partitioner = edge.getPartitioner();

    ResultPartitionType resultPartitionType;
    switch (edge.getShuffleMode()) {
        case PIPELINED:
            resultPartitionType = ResultPartitionType.PIPELINED_BOUNDED;
            break;
        case BATCH:
            resultPartitionType = ResultPartitionType.BLOCKING;
            break;
        case UNDEFINED:
            resultPartitionType = streamGraph.isBlockingConnectionsBetweenChains() ?
                    ResultPartitionType.BLOCKING : ResultPartitionType.PIPELINED_BOUNDED;
            break;
        default:
            throw new UnsupportedOperationException("Data exchange mode " +
                edge.getShuffleMode() + " is not supported yet.");
    }

    //note: 创建 JobEdge（它会连接上下游的 node）
    JobEdge jobEdge;
    if (partitioner instanceof ForwardPartitioner || partitioner instanceof RescalePartitioner) {
        jobEdge = downStreamVertex.connectNewDataSetAsInput( //note: 这个方法会创建 IntermediateDataSet 对象
            headVertex,
            DistributionPattern.POINTWISE, //note: 上游与下游的消费模式，（每个生产任务的 sub-task 会连接到消费任务的一个或多个 sub-task）
            resultPartitionType);
    } else {
        jobEdge = downStreamVertex.connectNewDataSetAsInput(
                headVertex,
                DistributionPattern.ALL_TO_ALL, //note: 每个生产任务的 sub-task 都会连接到每个消费任务的 sub-task
                resultPartitionType);
    }
    // set strategy name so that web interface can show it.
    //note: 设置 partitioner
    jobEdge.setShipStrategyName(partitioner.toString());

    if (LOG.isDebugEnabled()) {
        LOG.debug("CONNECTED: {} - {} -> {}", partitioner.getClass().getSimpleName(),
                headOfChain, downStreamvertexID);
    }
}

真正创建 JobEdge 和 IntermediateDataSet 对象是在 JobVertex 中的 connectNewDataSetAsInput() 方法中，在这里也会把 JobVertex、JobEdge、IntermediateDataSet 三者连接起来（JobGraph 的 graph 就是这样构建的）：

//org.apache.flink.runtime.jobgraph.JobVertex
public JobEdge connectNewDataSetAsInput(
        JobVertex input,
        DistributionPattern distPattern,
        ResultPartitionType partitionType) {

    //note: 连接 Vertex 的中间数据集
    IntermediateDataSet dataSet = input.createAndAddResultDataSet(partitionType);

    //note: 创建对应的 edge
    JobEdge edge = new JobEdge(dataSet, this, distPattern);
    this.inputs.add(edge);
    dataSet.addConsumer(edge);
    return edge;
}

到这里，createChain() 方法就执行完了，在 JobGraph 总共会涉及到三个对象：JobVertex、JobEdge 和 IntermediateDataSet，最后生成的 JobGraph 大概下面这个样子：

JobGraph 的其他配置

执行完 setChaining() 方法后，下面还有几步操作：

setPhysicalEdges(): 将每个 JobVertex 的入边集合也序列化到该 JobVertex 的 StreamConfig 中 (出边集合已经在 setChaining 的时候写入了)；
setSlotSharingAndCoLocation(): 为每个 JobVertex 指定所属的 SlotSharingGroup 以及设置 CoLocationGroup；
configureCheckpointing(): checkpoint相关的配置；
JobGraphGenerator.addUserArtifactEntries(): 用户依赖的第三方包就是在这里（cacheFile）传给 JobGraph；

这几个方法的实现比较简单，这里简单看下 configureCheckpointing() 这个方法，其他三个就不再叙述了。

// org.apache.flink.streaming.api.graph.StreamGraphGenerator
//note: 主要是 checkpoint 相关的配置
private void configureCheckpointing() {
    CheckpointConfig cfg = streamGraph.getCheckpointConfig();

    long interval = cfg.getCheckpointInterval();
    if (interval < MINIMAL_CHECKPOINT_TIME) {
        // interval of max value means disable periodic checkpoint
        interval = Long.MAX_VALUE;
    }

    //  --- configure the participating vertices ---

    //note: 配置 checkpoint 中要参与的 vertices 节点信息
    // collect the vertices that receive "trigger checkpoint" messages.
    // currently, these are all the sources
    //note: 记录接收 trigger checkpoint msg 的 vertices，当前都是 source 的情况
    List triggerVertices = new ArrayList<>();

    // collect the vertices that need to acknowledge the checkpoint
    // currently, these are all vertices
    //note: 记录当前需要向 checkpoint coordinator 发送 ack 的 vertices，当前指的是所有的 vertices
    List ackVertices = new ArrayList<>(jobVertices.size());

    // collect the vertices that receive "commit checkpoint" messages
    // currently, these are all vertices
    //note: 记录接收 'commit checkpoint' 的 vertices，当前也指的是所有 vertices
    List commitVertices = new ArrayList<>(jobVertices.size());

    for (JobVertex vertex : jobVertices.values()) {
        if (vertex.isInputVertex()) {
            triggerVertices.add(vertex.getID());
        }
        commitVertices.add(vertex.getID());
        ackVertices.add(vertex.getID());
    }

    //  --- configure options ---

    CheckpointRetentionPolicy retentionAfterTermination;
    if (cfg.isExternalizedCheckpointsEnabled()) {
        CheckpointConfig.ExternalizedCheckpointCleanup cleanup = cfg.getExternalizedCheckpointCleanup();
        // Sanity check
        if (cleanup == null) {
            throw new IllegalStateException("Externalized checkpoints enabled, but no cleanup mode configured.");
        }
        retentionAfterTermination = cleanup.deleteOnCancellation() ?
                CheckpointRetentionPolicy.RETAIN_ON_FAILURE :
                CheckpointRetentionPolicy.RETAIN_ON_CANCELLATION;
    } else {
        //note: 默认是 NEVER_RETAIN_AFTER_TERMINATION，作业只要进入终止 checkpoint 就会删除
        retentionAfterTermination = CheckpointRetentionPolicy.NEVER_RETAIN_AFTER_TERMINATION;
    }

    //note: 默认是 EXACTLY_ONCE
    CheckpointingMode mode = cfg.getCheckpointingMode();

    boolean isExactlyOnce;
    if (mode == CheckpointingMode.EXACTLY_ONCE) {
        isExactlyOnce = true;
    } else if (mode == CheckpointingMode.AT_LEAST_ONCE) {
        isExactlyOnce = false;
    } else {
        throw new IllegalStateException("Unexpected checkpointing mode. " +
            "Did not expect there to be another checkpointing mode besides " +
            "exactly-once or at-least-once.");
    }

    //  --- configure the master-side checkpoint hooks ---

    final ArrayList hooks = new ArrayList<>();

    for (StreamNode node : streamGraph.getStreamNodes()) {
        if (node.getOperatorFactory() instanceof UdfStreamOperatorFactory) {
            Function f = ((UdfStreamOperatorFactory) node.getOperatorFactory()).getUserFunction();

            if (f instanceof WithMasterCheckpointHook) {
                //note: 它会在 CheckpointCoordinator 端在每次 checkpoint 及 restore 时触发一个 'global action'
                //note: 比如这里可以通过这个接口将状态刷到外部存储
                hooks.add(new FunctionMasterCheckpointHookFactory((WithMasterCheckpointHook) f));
            }
        }
    }

    // because the hooks can have user-defined code, they need to be stored as
    // eagerly serialized values
    //note: 这里对 hooks 做一下序列化
    final SerializedValue serializedHooks;
    if (hooks.isEmpty()) {
        serializedHooks = null;
    } else {
        try {
            MasterTriggerRestoreHook.Factory[] asArray =
                    hooks.toArray(new MasterTriggerRestoreHook.Factory[hooks.size()]);
            serializedHooks = new SerializedValue<>(asArray);
        }
        catch (IOException e) {
            throw new FlinkRuntimeException("Trigger/restore hook is not serializable", e);
        }
    }

    // because the state backend can have user-defined code, it needs to be stored as
    // eagerly serialized value
    //note: 对 state backend 类做下序列化
    final SerializedValue serializedStateBackend;
    if (streamGraph.getStateBackend() == null) {
        serializedStateBackend = null;
    } else {
        try {
            serializedStateBackend =
                new SerializedValue(streamGraph.getStateBackend());
        }
        catch (IOException e) {
            throw new FlinkRuntimeException("State backend is not serializable", e);
        }
    }

    //  --- done, put it all together ---

    //note: 创建一个 JobCheckpointingSettings 对象
    JobCheckpointingSettings settings = new JobCheckpointingSettings(
        triggerVertices,
        ackVertices,
        commitVertices,
        new CheckpointCoordinatorConfiguration( //note: 创建一个 CheckpointCoordinatorConfiguration 对象
            interval,
            cfg.getCheckpointTimeout(),
            cfg.getMinPauseBetweenCheckpoints(),
            cfg.getMaxConcurrentCheckpoints(),
            retentionAfterTermination,
            isExactlyOnce,
            cfg.isPreferCheckpointForRecovery(),
            cfg.getTolerableCheckpointFailureNumber()),
        serializedStateBackend,
        serializedHooks);

    jobGraph.setSnapshotSettings(settings);
}

到这里，StreamGraph 转换为 JobGraph 的流程已经梳理完成了，个人感觉这部分还有一些绕的，不过这种开源代码，只要看多几遍，多 debug 看看具体的执行流程，基本都可以搞明白。

参考

Flink DataStream API 概述及作业如何转换为 StreamGraph

2019-12-08T03:03:50.000Z

本篇文章是 Flink 系列 的第二篇，将会给大家讲述一个 Flink 作业（DataStream 高阶 API 为例的作业）是如何转换为 StreamGraph 的, StreamGraph 可以认为是一个还未经过优化处理的逻辑计划，它完全是在 Client 端生成的。StreamGraph 然后再经过优化转换为 JobGraph，Client 端向 JobManager 提交的作业就是以 JobGraph 的形式提交的，也就是说对于 JobManager 来说，它从客户端接收的作业实际上就是一个 JobGraph，然后它再对 JobGraph 做相应处理，生成具体的物理执行计划进行调度。

关于分布式计算中的 Graph，对于很多人来说，最开始接触和理解这个概念应该还是在 Spark 中。Spark 中有个 DAG （Directed Acyclic Graph，有向无环图）的概念，它包括一些边和一些顶点，其中边代表了 RDD（Spark 中对数据的封装和抽象）、顶点代表了 RDD 上的 Operator，在一个作业中，一旦有 Action 被调用，创建的 DAG 就会被提交到 DAG Scheduler，它会将这个 graph 以 task 的形式调度到不同的节点上去执行计算。Spark 在 MapReduce 的基础上提出了 DAG 的概念，带来了很多的好处，比如：更方便对复杂作业（复杂的 DAG）做全局优化、通过 DAG 恢复丢失的 RDD 等等。Apache Flink 在设计实现中，也借鉴了这个设计，Flink 中的每个作业在调度时都是一个 Graph（Flink 一般叫 DataFlow Graph，Spark 中一般叫作 DAG）。另外，Google 的 Beam 也是类似的概念，Collection 和 Transformation 对数据和操作的最基本抽象，Graph 由 Collection 和 Transformation 构成。

一个 Flink 作业（Steaming 作业），从 Client 端提交到最后真正调度执行，其 Graph 的转换会经过下面三个阶段（第四个阶段是作业真正执行时的状态，都是以 task 的形式在 TM 中运行）：

StreamGraph：根据编写的代码生成最初的 Graph，它表示最初的拓扑结构；
JobGraph：这里会对前面生成的 Graph，做一些优化操作（比如: operator chain 等），最后会提交给 JobManager；
ExecutionGraph：JobManager 根据 JobGraph 生成 ExecutionGraph，是 Flink 调度时依赖的核心数据结构；
物理执行图：JobManager 根据生成的 ExecutionGraph 对 Job 进行调度后，在各个 TM 上部署 Task 后形成的一张虚拟图。

这整个转换的内容还是比较多的，也考虑到单篇文章的篇幅问题，这里会先给大家讲述第一部分的转换，也就是 StreamGraph 的转换，同时也会给大家把基本的概念理清楚，便于后面的讲解。

DataSteam API

如果想对后面的内容理解更清楚，首先需要对 DataStream API 的基本概念有一定的理解，Apache Flink 自从 1.0 开始推出 DataStream API 后，经过最近几年的演化，这部分的代码已经变得比较复杂了，有些地方个人感觉还是有些冗余的，这里尽量给大家梳理清楚。

DataStream

A DataStream represents a stream of elements of the same type. A DataStream can be transformed into another DataStream by applying a transformation.

上面是 DataStream 的定义，从这个叙述中，可以看出，DataStream 实际上就是对相同类型数据流做的封装，它的主要作用就是可以用通过 Transformation 操作将其转换为另一个 DataStream，DataStream 向用户提供非常简单的 API 操作，比如 map()、filter()、flatMap() 等，目前 Flink 1.9 的代码里提供的 DataStream 实现如下：

Transformation

A Transformation represents the operation that creates a DataStream。Transformation 代表创建 DataStream 的一个 operation，这里举一个示例，看一下下面的代码：

final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
// source 节点，随机产生一行一行的英文语句
DataStream inputStream = env.addSource(new RandomWordCount.RandomStringSource());
// wordCount 里的第一步，将单词拆分
inputStream.flatMap(new FlatMapFunction>() {
                @Override
                public void flatMap(String value, Collector> out) {
                    for (String word : value.split("\\s")) {
                        out.collect(Tuple2.of(word, 1));
                    }
                }
            });

这段代码首先会执行 addSource() 操作，它会创建一个 DataStreamSource 节点，只有创建了 Source 的 DataStream 节点，后面才能对这个 DataStream 做相应的 Transformation 操作（实际上 DataStreamSource 节点也会有一个对应的 SourceTransformation 对象）。

public  DataStreamSource addSource(SourceFunction function) {
    return addSource(function, "Custom Source");
}

//note: 创建一个 DataStreamSource
public  DataStreamSource addSource(SourceFunction function, String sourceName, TypeInformation typeInfo) {

    if (function instanceof ResultTypeQueryable) {
        typeInfo = ((ResultTypeQueryable) function).getProducedType();
    }
    //note: 找到相应的 TypeInformation
    if (typeInfo == null) {
        try {
            typeInfo = TypeExtractor.createTypeInfo(
                    SourceFunction.class,
                    function.getClass(), 0, null, null);
        } catch (final InvalidTypesException e) {
            typeInfo = (TypeInformation) new MissingTypeInfo(sourceName, e);
        }
    }

    boolean isParallel = function instanceof ParallelSourceFunction;

    clean(function);

    //note: 创建一个 Operator
    final StreamSource sourceOperator = new StreamSource<>(function);
    //note: 创建 DataStreamSource（这里再创建 DataStreamSource 对象时，会创建一个 SourceTransformation 对象）
    return new DataStreamSource<>(this, typeInfo, sourceOperator, isParallel, sourceName);
}

接下来再看 flatMap() 方法，这个实现其实跟前面的实现有一些类似之处，如下所示：

public  SingleOutputStreamOperator flatMap(FlatMapFunction flatMapper) {

    TypeInformation outType = TypeExtractor.getFlatMapReturnTypes(clean(flatMapper),
            getType(), Utils.getCallLocationName(), true);

    return transform("Flat Map", outType, new StreamFlatMap<>(clean(flatMapper)));

}

public  SingleOutputStreamOperator transform(String operatorName, TypeInformation outTypeInfo, OneInputStreamOperator operator) {

    // read the output type of the input Transform to coax out errors about MissingTypeInfo
    transformation.getOutputType();

    //note： 新的 transformation 会连接上当前 DataStream 中的 transformation，从而构建成一棵树
    OneInputTransformation resultTransform = new OneInputTransformation<>(
            this.transformation, //note: 记录这个 transformation 的输入  transformation
            operatorName,
            operator,
            outTypeInfo,
            environment.getParallelism());

    @SuppressWarnings({ "unchecked", "rawtypes" })
    SingleOutputStreamOperator returnStream = new SingleOutputStreamOperator(environment, resultTransform);

    //note: 所有的 transformation 都会存到 env 中
    getExecutionEnvironment().addOperator(resultTransform);

    return returnStream;
}

分析到这里，那么 Transformation 到底是什么呢？这里之所以给大家举这个示例，也是为了让大家对 Transformation 有更深入的了解。这里看下下面这一张图，最开始是一个 SourceTransformation，然后又创建一个 OneInputTransformation 对象（这张图就是这里我们举的示例）：

实际上，一个 Transformation ，它是对 StreamOperator 的一个封装（而 StreamOperator 又是对 Function 的一个封装，真正的处理逻辑是在 Function 实现的，当然并不一定所有的 Operator 都会有 Function，这里为了便于理解，就按照这个来讲述了），并且会记录它前面的 Transformation，只有这样才能把这个 Job 的完整 graph 构建出来。这里也可以看到，所有对 DataStream 的操作，最终都是以 Transformation 体现的，DataStream 仅仅是暴露给用户的一套操作 API，用于简化数据处理的实现。

StreamOperator

Operator 最基本类的是 StreamOperator，从名字也能看出来，它表示的是对 Stream 的一个 operation，它主要的实现类如下：

AbstractUdfStreamOperator：会封装一个 Function，真正的操作是在 Function 中的实现，它主要是在最基础的方法实现上也会相应地调用对应 Function 的实现，比如：open/close方法也会调用 Function 的对应实现等；
OneInputStreamOperator：如果这个 Operator 只有一个输入，实现这个接口即可，这个 processElement() 方法需要自己去实现；
TwoInputStreamOperator：如果这个 Operator 是一个二元操作符，是对两个流的处理，比如：双流 join，那么实现这个接口即可，用户需要自己去实现 processElement1() 和 processElement2() 方法。

Function

Function 是 Transformation 最底层的封装，用户真正的处理逻辑是在这个里面实现的，包括前面示例中实现的 FlatMapFunction 对象。

到这里，终于把最基本这些概念介绍完了，只有对这些概念有了相应的理解之后，阅读源码时才不至于被绕进去。

如何生成 StreamGraph

这里在讲述一个作业转换为 StreamGraph 的细节时，依然以上一篇文章中的示例 —— RandomWordCount 来讲述。在执行 env.getStreamGraph().getStreamingPlanAsJSON() 后，这个 StreamGraph 将会以 JSON 的格式输出出来，输出结果如下：

{"nodes":[{"id":1,"type":"Source: Custom Source","pact":"Data Source","contents":"Source: Custom Source","parallelism":1},{"id":2,"type":"Source: Custom Source","pact":"Data Source","contents":"Source: Custom Source","parallelism":1},{"id":4,"type":"Flat Map","pact":"Operator","contents":"Flat Map","parallelism":8,"predecessors":[{"id":1,"ship_strategy":"REBALANCE","side":"second"},{"id":2,"ship_strategy":"REBALANCE","side":"second"}]},{"id":6,"type":"Filter","pact":"Operator","contents":"Filter","parallelism":8,"predecessors":[{"id":4,"ship_strategy":"SHUFFLE","side":"second"}]},{"id":8,"type":"Keyed Aggregation","pact":"Operator","contents":"Keyed Aggregation","parallelism":8,"predecessors":[{"id":6,"ship_strategy":"HASH","side":"second"}]},{"id":9,"type":"Sink: Print to Std. Out","pact":"Data Sink","contents":"Sink: Print to Std. Out","parallelism":2,"predecessors":[{"id":8,"ship_strategy":"REBALANCE","side":"second"}]}]}

在 Flink Plan Visualizer中可以看到 StreamGraph 可视化之后 graph（用 Chrome 打开可能会显示不全，可以试下 Firefox），如下如所示：

接下来，详细介绍一下 StreamGraph 是如何转换的。

// StreamExecutionEnvironment
/**
 * Getter of the {@link org.apache.flink.streaming.api.graph.StreamGraph} of the streaming job.
 *
 * @return The streamgraph representing the transformations
 */
@Internal
public StreamGraph getStreamGraph() {
    return getStreamGraphGenerator().generate();
}

private StreamGraphGenerator getStreamGraphGenerator() {
    if (transformations.size() <= 0) {
        throw new IllegalStateException("No operators defined in streaming topology. Cannot execute.");
    }
    //note: 数据处理操作都在这个 transformations 列表里
    return new StreamGraphGenerator(transformations, config, checkpointCfg) //note: ExecutionConfig/CheckpointConfig
        .setStateBackend(defaultStateBackend) //note: StateBackend = null
        .setChaining(isChainingEnabled) //note: isChainingEnabled = true
        .setUserArtifacts(cacheFile)
        .setTimeCharacteristic(timeCharacteristic) //note: TimeCharacteristic = ProcessingTime
        .setDefaultBufferTimeout(bufferTimeout); //note: default 100
}

StreamGraph 最后是通过 StreamGraphGenerator 的 generate() 方法生成的，那这个方法到底做了什么事情呢？其实现如下：

//note: 构建 stream graph
public StreamGraph generate() {
    streamGraph = new StreamGraph(executionConfig, checkpointConfig);
    streamGraph.setStateBackend(stateBackend);
    streamGraph.setChaining(chaining);
    streamGraph.setScheduleMode(scheduleMode);
    streamGraph.setUserArtifacts(userArtifacts);
    streamGraph.setTimeCharacteristic(timeCharacteristic);
    streamGraph.setJobName(jobName);
    streamGraph.setBlockingConnectionsBetweenChains(blockingConnectionsBetweenChains);

    alreadyTransformed = new HashMap<>();

    //note: 自底向上(先遍历 input transformations)对转换树的每个 transformation 进行转换
    for (Transformation transformation: transformations) {
        transform(transformation);
    }

    final StreamGraph builtStreamGraph = streamGraph;

    alreadyTransformed.clear();
    alreadyTransformed = null;
    streamGraph = null;

    return builtStreamGraph;
}

最关键的还是 transform() 方法的实现，这里会根据 Transformation 的类型对其做相应的转换，其实现如下：

/**
 * Transforms one {@code Transformation}.
 * note：对具体的一个 transformation 进行转换，转换成 StreamGraph 中的 StreamNode 和 StreamEdge
 * note：返回值为该 transform 的 id 集合，通常大小为1个（除 FeedbackTransformation）
 *
 * This checks whether we already transformed it and exits early in that case. If not it
 * delegates to one of the transformation specific methods.
 */
private Collection transform(Transformation transform) {

    //note: 已经 Transform 的 Transformation 会放在这个集合中
    if (alreadyTransformed.containsKey(transform)) {
        return alreadyTransformed.get(transform);
    }

    LOG.debug("Transforming " + transform);

    if (transform.getMaxParallelism() <= 0) {

        // if the max parallelism hasn't been set, then first use the job wide max parallelism
        // from the ExecutionConfig.
        //note: 如果 MaxParallelism 没有设置，使用 job 的 MaxParallelism 设置
        int globalMaxParallelismFromConfig = executionConfig.getMaxParallelism();
        if (globalMaxParallelismFromConfig > 0) {
            transform.setMaxParallelism(globalMaxParallelismFromConfig);
        }
    }

    // call at least once to trigger exceptions about MissingTypeInfo
    //note: 如果是 MissingTypeInfo 类型（类型不确定），将会触发异常
    transform.getOutputType();

    Collection transformedIds;
    //note: 根据 transform 的类型，做相应不同的转换
    if (transform instanceof OneInputTransformation) {
        transformedIds = transformOneInputTransform((OneInputTransformation) transform);
    } else if (transform instanceof TwoInputTransformation) {
        transformedIds = transformTwoInputTransform((TwoInputTransformation) transform);
    } else if (transform instanceof SourceTransformation) {
        transformedIds = transformSource((SourceTransformation) transform);
    } else if (transform instanceof SinkTransformation) {
        transformedIds = transformSink((SinkTransformation) transform);
    } else if (transform instanceof UnionTransformation) {
        transformedIds = transformUnion((UnionTransformation) transform);
    } else if (transform instanceof SplitTransformation) {
        transformedIds = transformSplit((SplitTransformation) transform);
    } else if (transform instanceof SelectTransformation) {
        transformedIds = transformSelect((SelectTransformation) transform);
    } else if (transform instanceof FeedbackTransformation) {
        transformedIds = transformFeedback((FeedbackTransformation) transform);
    } else if (transform instanceof CoFeedbackTransformation) {
        transformedIds = transformCoFeedback((CoFeedbackTransformation) transform);
    } else if (transform instanceof PartitionTransformation) {
        transformedIds = transformPartition((PartitionTransformation) transform);
    } else if (transform instanceof SideOutputTransformation) {
        transformedIds = transformSideOutput((SideOutputTransformation) transform);
    } else {
        throw new IllegalStateException("Unknown transformation: " + transform);
    }

    // need this check because the iterate transformation adds itself before
    // transforming the feedback edges
    if (!alreadyTransformed.containsKey(transform)) {
        alreadyTransformed.put(transform, transformedIds);
    }

    //note: 将这个 Transform 相关的信息记录到 StreamGraph 中
    if (transform.getBufferTimeout() >= 0) {
        streamGraph.setBufferTimeout(transform.getId(), transform.getBufferTimeout());
    } else {
        streamGraph.setBufferTimeout(transform.getId(), defaultBufferTimeout);
    }

    if (transform.getUid() != null) {
        streamGraph.setTransformationUID(transform.getId(), transform.getUid());
    }
    if (transform.getUserProvidedNodeHash() != null) {
        streamGraph.setTransformationUserHash(transform.getId(), transform.getUserProvidedNodeHash());
    }

    if (!streamGraph.getExecutionConfig().hasAutoGeneratedUIDsEnabled()) {
        if (transform.getUserProvidedNodeHash() == null && transform.getUid() == null) {
            throw new IllegalStateException("Auto generated UIDs have been disabled " +
                "but no UID or hash has been assigned to operator " + transform.getName());
        }
    }

    if (transform.getMinResources() != null && transform.getPreferredResources() != null) {
        streamGraph.setResources(transform.getId(), transform.getMinResources(), transform.getPreferredResources());
    }

    return transformedIds;
}

这里以 transformOneInputTransform() 的实现来举个相应的例子，它会给这个 Transformation 创建相应的 StreamNode，并且创建 StreamEdge 来连接前后的 StreamNode：

private  Collection transformOneInputTransform(OneInputTransformation transform) {

    //note: 递归调用，input 的 Transformation 处理完后才能处理后面
    Collection inputIds = transform(transform.getInput());

    // the recursive call might have already transformed this
    if (alreadyTransformed.containsKey(transform)) {
        return alreadyTransformed.get(transform);
    }

    //note: 获取 share group
    String slotSharingGroup = determineSlotSharingGroup(transform.getSlotSharingGroup(), inputIds);

    //note: 添加一个 Operator（streamGraph 端会添加一个 StreamNode）
    streamGraph.addOperator(transform.getId(),
            slotSharingGroup,
            transform.getCoLocationGroupKey(),
            transform.getOperatorFactory(),
            transform.getInputType(),
            transform.getOutputType(),
            transform.getName());

    if (transform.getStateKeySelector() != null) {
        TypeSerializer keySerializer = transform.getStateKeyType().createSerializer(executionConfig);
        streamGraph.setOneInputStateKey(transform.getId(), transform.getStateKeySelector(), keySerializer);
    }

    int parallelism = transform.getParallelism() != ExecutionConfig.PARALLELISM_DEFAULT ?
        transform.getParallelism() : executionConfig.getParallelism();
    streamGraph.setParallelism(transform.getId(), parallelism);
    streamGraph.setMaxParallelism(transform.getId(), transform.getMaxParallelism());

    for (Integer inputId: inputIds) {
        //note: 根据输入的 id，给这个 node 在 graph 中设置相应的 graph
        streamGraph.addEdge(inputId, transform.getId(), 0);
    }

    return Collections.singleton(transform.getId());
}

经过上面的 transform() 操作，最后生成的 StreamGraph 样板如下图所示：

关于上面的 transform() ，还有一个需要注意的是：这三个实现方法 transformSelect()、transformPartition()、transformSideOutput() 在操作时，并不会创建真正的 StreamNode 节点，它们会创建一个虚拟节点，将相应的配置赋给对应的 StreamEdge 即可。另外对于 transformUnion() 方法，它连虚拟节点也不会创建，原因其实看源码也能明白，它们并不包含具体的处理操作。

到这里，StreamGraph 的创建过程就分析完了，如果理解了 Flink 基本对象的抽象后，再去看这部分代码，实际上并不复杂，这里是对用户的作业逻辑做了一个最简单的转换，并没做什么优化操作，相当于还是原生的用户作业逻辑。

参考

Apache Flink 初探

2019-11-23T10:49:56.000Z

本篇文章是 Flink 系列 的第一篇，最近计划花个一到两个月的时间以最新的 Flink-1.9 代码为例把 Flink 的主要内容梳理一遍，这个系列文章的主要内容见 Flink 源码分析，这个 issue 拖了好几个月，现在终于开动了，不容易。梳理的过程也是个人强化学习的过程，博客中有问题的地方也欢迎各位指正（邮件联系 or disqus 评论都行，我这边都会及时回复）。

本篇的题目是 Apache Flink 初探，比较适合对 Flink 不是很了解，想进一步了解的同学，主要会讲述一下流计算的基本知识，以及对 Flink 做了一个简单的介绍，算是这个系列的开胃小菜。

流计算的基础知识

关于流计算，业内有一本口碑神一般存在的书，那就是大名名鼎鼎的《Streaming Systems》，这本书对流计算领域的问题及技术做了很深的讨论，如果你看过相关的内容，你就会发现 Flink 实际上就是开源届里实现最接近 DataFlow 模型的框架，这里先给大家介绍一下流计算相关的背景知识，对于后面理解 Flink 的设计，特别是高阶 API 的设计（实际上 DataStream API 就是为 DataFlow 模型而开发的）。

数据流

计算的数据源可以有很多种类型，比如：电商的交易数据、用户行为日志、物联网数据等，这些数据集可以分为两类：

有边界数据集（Bounded dataset）: A type of dataset that is finite in size;
无边界数据集（Unbounded dataset）: A type of dataset that is infinite in size;

从另一个角度来看，无边界数据集更符合现实中数据的产生方式，这样的话，就可以认为有边界数据集是无边界数据集的一个特例或一个子集。

时间域

在分布式计算中，关于时间域有两种类型：

Event Time（事件时间）: This is the time at which events actually occurred；
Processing Time（处理时间）: This is the time at witch events are observed in the system。

简单来说，事件时间是事件真实发生的时间，而处理时间是事件在计算引擎中被处理的时间，理想情况下，两者是相等的，但在实际情况下，它们之间差距的影响因素非常多，可能跟软件、硬件或数据有关，并且这个差距毫无规律可言，如下如图所示：

上面的问题给流计算带来了很多的问题，而且由于数据的无边界特性，业内通常的做法是将输入数据进行 window 操作（本质上还是按照时间切片），而对于一些关注 Event Time 的应用来说，按照 Processing Time 做 window 是完全无法满足需求的（流计算之前困扰大家最大的问题之一就是这个准确性的问题）。

Window & Watermark

目前常用的 window 类型有以下几种：

Fixed Window：按时间切成固定大小的 window，是 aligned window 的一种；
Sliding Window：也是一种 Fixed Window，但它有 fixed length 和 fixed period 两个设置；
Sessions：一种 unaligned window，长度是未知的，一种动态的 window，比如分析用户的行为等。

Window 在 Event time 和 Processing time 下都是有意义的，只是适用于不同的应用场景而已，而对于 Event time 场景，如何来保证一个窗口数据的完整性呢？而窗口数据的完整性又确定了数据的准确性。

Watermark 就是来就解决这个问题的，它用于界定什么时间(时间戳)认为一个时间窗口内的数据已经全部到齐，之后晚于该 watermark 到达的数据则为迟到数据。

有状态计算

计算任务可以分为有状态计算和无状态计算：

无状态计算：如果处理一个事件（或一条数据）的结果只跟该事件本身有关；
有状态计算：计算结果还和之前处理过的事件有关，比如说基本的聚合计算，就是有状态计算。

对于批处理，每次处理的都是全量数据，所以就不用考虑状态这个问题。而流处理，一般会借助外部存储系统实现状态保存（这个对应的 Flink 中 State 模块的内容）。

容错

流计算另一个难点的是容错恢复，如何保证恢复之后作业状态的一致性，目前业内通用的解决方案采用的是 Chandy-Lamport 算法（有兴趣的可以看下 Paper 阅读: Distributed Snapshots: Determining Global States of Distributed Systems），包括 Structured Streaming 也采用的这个方案。

到这里，把流计算的基础知识简单过了一下，想了解更多的同学，建议阅读一下 Google DataFlow 那篇论文或者《Streaming Systems》这本书（Apache Flink 零基础入门（一）：基础概念解析这篇讲述得也不错）。

Why Flink?

流计算领域的开源框架，不可谓不多，但到现在还能让大家记住的（或者对业内产生巨大影响的）其实并不多，通常大家对比的也就是：Storm/Spark Streaming/Flink。在 17 年之前，我们在面临流计算技术选型时还可能会徘徊一下，但如果放在现在，你会发现，几乎没有太大可比性，几个引擎的差距已经很大，简单对比一下（只列出了流计算中重点关注的特性，只是粗略的比较，勿喷）：

Storm：没有 SQL 和高阶 API 的支持、无法支持 exactly once；
Spark Streaming：对实时计算来说，微批处理天生是有架构上的缺陷；
Structured Streaming：完全处于初级阶段，没有经过大规模生产业务的验证；
Kafka Streams：目前没有自己的调度框架，不知道未来 on k8s 会不会在架构上做支持，要不然 kafka streams 要想应用大规模业务场景，维护成本太高，社区最好是能给出一套统一的解决方案，但是如果业务规模比较小，其实选 kafka streams 也不错，只维护一套系统，维护成本会低一些；
Flink: 有 Streaming SQL 的支持，支持 exactly once 等等；

一圈比较下来，你会发现 Flink 真的是流计算的最佳选择，当然选择 Flink 还有其他很多的原因，可以参考阿里官方给出这两篇文章：

Flink 架构

Apache Flink 采用经典的分布式架构设计 —— Master/Slave 架构，Flink 集群的架构图如下图所示，这张图展示了其整体结构，但是很多内部细节并没有展示，我也翻了很多的博客，也没有找到一张特别满意的架构图。

一个 Flink 集群，主要包含了两个核心组件：

JobManager（master）：它会负责整个任务的协调工作，包括：调度 task、触发协调 Tasks 做 Checkpoint、协调容错恢复等等（HA 模式下，一个集群会启动多个 JobManager，但只会有一个处在 leader 状态，其他处在热备状态 —— standby）；
TaskManager（workers）：负责执行一个 DataFlow Graph 的各个 tasks 以及 data streams 的 buffer 和数据交换。

JobManager/TaskManager 都是进程级别，TaskManager 在启动时，会根据配置将其内部的资源分为多个 slot，每个 slot 只会启动一个 Task，Task 是线程级别，从这里可以看出 Flink 是多线程调度模型，一个 TM 中可能会有来自多个任务的 task，从资源利用的角度看，这样的设计是有一些收益的，但是从资源隔离的角度看，这种设计就不是那么好了，不过好在现在业内的使用方式基本都是 On Yarn 的单集群单作业模式，相当于把资源隔离这个问题避过去了，但不可否认，这种设计是有缺陷的。

Flink 部署

关于 Flink 的部署，这里推荐一下这几篇文章，本文就没有必要再整理了：

编译 Flink 源码

如果你想自己编译 Flink 安装包的话，可以参考 Flink Readme - Building Apache Flink from Source，这里给了几个不同的编译命令，最终的结果是一样，都可以正常编译出安装包：

# 删除已有的 build，编译 flink binary
# 会执行测试 case，编译速度会比较慢
mvn clean install/package

# 不编译 tests、QA plugins 和 JavaDocs，因此编译要更快一些
mvn clean install/package -DskipTests -Dfast

# 如果你需要使用指定 hadoop 的版本，可以通过指定“-Dhadoop.version”来设置
mvn clean instal/packagel -DskipTests -Dhadoop.version=2.6.1

最后生成的安装包就在 flink-dist/target/flink-1.9-SNAPSHOT-bin 下，在 flink 目录下也会生成一个 build-target 的软连。

Flink 示例

这里有一个示例，见 RandomWordCount（后面的文章也会以这个示例讲述），这个示例比较简单，就是先模拟两个数据源，再对流做 union，再做过滤，最后再做 WorkCount，这个作业可以在 Flink 工程中直接运行。

public class RandomWordCount {
    public static void main(String[] args) throws Exception {
        // get the execution environment
        final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        //note 模拟两个数据源，它们会生成一行随机单词组（单词之间是空格分隔）
        DataStream inputStream = env.addSource(new RandomWordCount.RandomStringSource());
        DataStream inputStream2 = env.addSource(new RandomWordCount.RandomStringSource());

        //note: 先对流做 union，然后做一个过滤后，做 word-count
        inputStream.union(inputStream2)
            .flatMap(new FlatMapFunction>() {
                @Override
                public void flatMap(String value, Collector> out) {
                    for (String word : value.split("\\s")) {
                        out.collect(Tuple2.of(word, 1));
                    }
                }
            })
            .shuffle()
            .filter(new FilterFunction>() {
                @Override
                public boolean filter(Tuple2 value) throws Exception {
                    if (value.f0.startsWith("a")) {
                        return true;
                    } else {
                        return false;
                    }
                }
            }).keyBy(0).sum(1)
            .print()
            .setParallelism(8);
        env.execute("Random WordCount");
    }
}

开胃小菜到这里就结束了，后面会逐步给大家剖析 Flink 的内部实现原理与机制，其实整个 Flink 的代码可以三大块：

分布式框架相关的内容，这块的内容，其实你会感觉很多系统有一些相似的地方，但是每套系统又只能自己去开发一遍，像 JobManager/TaskManager 之间的交互、内存管理、IO 管理等都属于这一部分；
Flink 专门去解决 Streaming Process 问题而实现的设计，其实也就是 DataFlow 模型如何在 Flink 上实现的；
SQL：这块比较特殊，算是比较单独的一块。

参考：

Paper 阅读: Distributed Snapshots: Determining Global States of Distributed Systems

2019-10-27T15:12:51.000Z

今天对分布式系统领域的一篇经典论文 —— Chandy-Lamport 算法做了一下总结，这篇论文对于分布式快照算法产生了非常巨大的影响，比如：Apache Flink、Apache Spark 的 Structured Streaming、Ray 等分布式计算引擎都是使用的这个算法做快照。这篇论文的其中一位作者 —— Lamport，他也是 Paxos 算法的提出者，2013 年图领奖得主（图领奖是计算机领域的诺贝尔奖，目前只有一位华裔 —— 姚期智院士获得过这个殊荣，没错，就是清华交叉学院姚班的姚院士）。这篇论文发表于 1985 年，算法的由来可以参考下面的小段子：

The distributed snapshot algorithm described here came about when I visited Chandy, who was then at the University of Texas in Austin. He posed the problem to me over dinner, but we had both had too much wine to think about it right then. The next morning, in the shower, I came up with the solution. When I arrived at Chandy’s office, he was waiting for me with the same solution.

另外，如果你只是想要明白这个算法是怎么做的，可以直接看这篇文章 —— 分布式快照算法: Chandy-Lamport 算法，它讲得更通俗易懂，本文更多的是论文的角度来讲述，会详细介绍一下这个算法的数学证明。

背景 & 问题

分布式系统的很多问题都可以归结于获取 global states 的问题，比如：

stable property detection（系统的一些稳定特性检测），一个 stable property 是不可变的，如：计算停止或完成了（不会自己恢复的）、系统死锁了（不会自己恢复），通过 global states，就可以检测到这些 stable property；
用于 checkpoint。

但是获取一个系统的 global states 并不是一件容易的事情，对于一个分布式系统而言，我们需要在同一个时间点记录下这个系统的全局状态，它包括每个 process 的状态以及相关 channel 的状态（一个计算是由有限的 process 和 channel 组成的一个 graph）。这就好比：在一个满是候鸟的天空大场景下，这个场景大到一张照片无法全部覆盖，摄影师不得不拍摄多张照片，然后把它们合并成一张全景，因为多张照片不能同时拍摄、在拍摄过程中候鸟也不会静止不动，所以如何保证合成的全景照片是有意义的（它可能少拍了某些鸟或者多拍了某些鸟）？这个就是分布式快照算法要解决的问题，因为没有全局统一的一把锁，所以不可能保证所有 process 能在同一时刻记录他们的状态信息。

分布式系统模型

一个分布式系统包含一个有限的 process 集合和有限的 channel 集合，它可以通过一个有向的 graph（顶点代表process、边代表 channel）来描述，如下图所示：

Channel：这里为了便于解释，文章会假设一个 channel 有一个无限、零错误、有序传输的 buffer（否者还要考虑 buffer 是否 full 的情况），channel 中数据的延迟是任意的并且有限的。一个 channel 的 state 就是它从上游收到的 msg list 减去下游已经接收到的 msg list；

Process：它是由一组状态、一个初始状态和一组 event 来定义。process p 中的一个 event e 代表一个可能改变 p 本身状态和对应 channel c 状态（c 发送或接收数据都可能会改变其状态）的原子操作。

一个 event e 被定义为 $$，其中：

Process p 是 event 产生的地方；
在处理 e 之前 p 的状态是 s；
在处理 e 之后 p 的状态是 $s’$；
Channel c 它的状态会被 e 所改变；
M 是发向或发离 c 的 msg；

如果 event 没有改变任何 channel 的状态，那么 M 和 c 则为 null，可能只改变了 p 的状态（这个概念很重要，需要好好理解，是后面论证的基础）。

global state 模型

有了前面的模型抽象，这里我们可以认为一个分布式系统的 global state 就是这批 process state 和 channel state 的集合。初始的 global state 就是每个 process 都是其对应的初始状态以及每个 channel 都是 empty 集合。

一个 event e 可能会改变 global state（这里记为 S），这里定义另外一个函数：$next(S, e)$，它指的是 event e 发生在 global state S 之后的 global state，根据前面介绍的，e 处理后的 global state 变化是：p 的状态由 s 变为 s'，Channel c 的状态是在原来的基础上加上（数据是发向 Channel c 的）或删除（数据是发离 Channel c 的） msg M。

这里再定义一个 $seq = (e_i: 0 \leq i \leq n)$，它代表的是这个分布式系统将要处理的 event 序列，这个 $seq$ 实际上就是 a computation of the system（这个 event 序列就代表了这个分布式计算），假设在 $e_i$ 处理前，系统的 global state 是 $S_i$（系统的初始状态时 $S_0$），那么可以得到下面公式：

$S_{i+1} = next(S_i, e_i)$, for $0 \leq i \leq n$

示例

论文中举了两个示例，这里也介绍一下，对于理解后面的论证是有帮助的。

Exmaple 1：Single-token Conservation

先看一个最简单的计算系统，这个系统有两个 process p 和 q，有两个 Channel c 和 c'（下面第二个示例也是这种基本模型），如下图所示：

在这个系统中，有一个 token 它在两个 process 之间传输处理，每个 process 都有两种状态：$s_0$ 和 $s_1$，如果这个 process 不包含 token，它的状态就是 $s_0$，如果包含 token 的话，它的状态就是 $s_1$，p 的初始状态是 $s_1$，q 的初始状态是 $s_0$。而对每个 process 而言，都会有两种 event 类型（这里根据这个例子理解前面 event 的概念，如上面的图中所示）：

发送 token 时，process 状态从 $s_1$ 转为 $s_0$；
接收 token 时，process 状态从 $s_0$ 转为 $s_1$。

对于 global state 而言，可能会出现四种不同的状态，如下图所示：

在上面图中，四种状态实际是跟 token 所在的位置有关：in-c，in-p、in-q、in-c'。这个示例比较简单，但它跟后面作者提出的算法来源的灵感有关。

Example 2: 非确定性计算

这里依然是两个 process p 和 q，它们的状态转移图如下所示：

Example 1 的示例比较比较简单，在每个 global state 中正好只有一个 event（一个状态转换），但是在真实的系统中，很多情况下是一些非确定性计算（nondeterministic computation），可能同时会有多个 event 一起转换，比如：p 发送 M 和 q 发送 M' 这两个 event 同时发生（下面就是这两个 event 同时发生的情况，如下图的 global state $S_2$），那么得到的 global state 就会与预期的不同。下图是这个系统可能的一个 global state 转移情况：

Notice：这个示例，我在看的时候，最开始一直没有搞明白，主要在 $S_2$ 这一步没有明白，后来仔细想了几次，算是明白了，这个示例举得的是一个非确定计算的示例，上面也只是系统可能出现中的一种状态，比如：p 在发送 M 之后，M 在 Channel c 中还没有被 q 接收到，q 就发送了 M'。或者换成另一种理解方式，p 发送 M 和 q 发送 M' 同时发送，上图只是把两个拆开了一下展示，于是就有了 global state S1 和 S2，再接着有可能发生的就是 S3 的情况，p 接收到了 M'，状态发生了变化。这里，把这个示例当作一种在现实系统中的非确定性计算就好理解了。

Chandy-Lamport 算法

下面开始进入到算法的核心部分，这里作者介绍了一下算法的由来，以及在数学上的证明。

算法的动机/由来

Global state recording 算法工作过程如下：

每个 process 记录自己的 state；
process 之间的通道 Channel 也会记录自己的状态；

因为没有一个全局的锁，所以我们无法保证，所有的 process 和 Channel 都是在同一时刻记录的。因此，我们需要保证记录的 process 和 Channel 状态能够组成 一个有意义的 global state。

这个算法是与跟底层计算嵌套在一起，但是不会对计算产生改变、也不会影响底层的计算。这里通过一个示例来逐步引出我们的算法，假设我们是可以很自然地记录 Channel 的状态，Channel c 是 process p 和 q 的之间的传输通道，下面来分析一下它们之间的状态关系。

`p` 与 `c` 状态之间的关系

这里以前面 Single-token Conservation 的示例来分析，假设 process p 的状态记录在 global state in-p 中，p 记录的状态显示 token 是在 p 中。现在假设 Channels c 和 c' 以及 process q 的状态时记录在 global state in-c 中的，同样 c 中记录的状态也显示 token 在 c 中（因为无法保证它们在同一时刻记录，所以每个组件是有可能在不同的时刻记录）。组成的 global state 显示系统中有两个 token，一个是在 p 中、一个是在 c中。但是由于这个系统是 single-token，它是不可能同时出现两个 token 的，所以一定是哪里有问题了，这样组成的 global state 不是有意义的。先定义两个变量：

$n$：在 p 的状态记录前，p 发往 Channel c 的 msg 数；
$n’$：在 c 的状态记录前，p 发往 Channel c 的 msg 数；

上面出现的情况就是 $n < n’$.

假设另一种情况，c 的状态记录在 in-p 中，而 p、q、c' 的状态记录在 in-c，那么这样组成的 global state 会显示系统没有 token，这个组成的 global state 同样也是没有意义的，这就是 $n > n’$ 的情况。

从前面的分析中，可以得到：这里有个一致的全局状态要求

$n = n’$

`q` 与 `c` 状态之间的关系

这里，再定义另外两个变量：

$m$：在 q 的状态记录前，q 从 Channel c 中接收到的 msg 数；
$m’$：在 c 的状态记录前，q 从 Channel c 中接收到的 msg 数；

跟前面的分析类似，这里也会有一个一致性的要求：

$m = m’$

分析

在任何一种状态下，都要求 Channel c 下游接收到的 msg 数不能超过 p 发送给 Channel 的 msg 条数，即：

$n’ \geq m’$ 以及 $n \geq m$

现在来分析一下 Channel 的状态要记录什么数据？ 一个 Channel 要记录的状态是，它 sender 记录自己状态之前它所接收到的 msg 列表，再减去 receiver 记录自己状态之前它已经收到的 msg 列表，减去的之后的数据列表就是还在通道中的数据列表，这个列表是需要 Channel 作为状态记录下来的。而如果 $n’ = m’$，那么 Channel c 中要记录的 msg 列表就是 empty 列表。如果 $n’ > m’$，那么要记录的列表是 $(m’+1)st , … n’$ 对应的 msg 列表。

重点，重点，重点：分析到这里之后，就有了下面的一个灵感：那么 Channel c 状态要记录的 msg 列表是可以在 q 中记录的。那么具体怎么做的？就是在发送数据中插入一条特殊的数据 —— marker 数据，这条数据不会对计算有任何影响，那么 c 的状态就是 q 在记录自己状态之后并在收到 marker 之前接收到 msg 列表，另一种情况就是 q 收到 marker 之后，就必须要把自己的状态记录下来（伟大的算法就这样诞生了）。

算法概况

对于发送者来说：

在 p 记录自己的状态之后它先向 Channel c 发送一条 marker，然后才会继续发送数据信息；

对于接收者来说：

如果 q 已经还没记录自己的 state，在收到 marker 之后，它会记录自己的状态，并且把 c 的状态设置为 empty；
如果 q 已经记录自己的 state，它会把从 c 接收到的数据作为 msg 列表当作 c 的状态记录下来。

算法能够在有限时间结束的论证

关于算法能够在有限时间内结束，是有两个前提的：

marker 数据不会在 Channel 阻塞永远发不出去的；
Process 在根据一个初始状态记录自己的状态时，能够在有限的时间内完成。

有了这两个前提，一个 graph 中每个 process 都会收到相应的 marker，然后都会记录自己的状态，所以这个是完全可以保证能够在有限的时间内完成。

算法证明

事先说明，这里证明比较烧脑，我尽量描述清楚，最开始看论文也是看了好几遍、想好几遍把整个过程捋顺，当然如果理解有误，欢迎指正。

以前面 Example 2 的示例来讲述，假设在 global state $S_0$ 时，p 记录下了自己的状态（A），然后 p 向 Channel c 发送一条 marker 数据（它是在 M 数据之前），假设这个时候系统在正常运行，已经经历 $S_1$、$S_2$，到了 $S_3$ 阶段，但是 marker 数据在传输中。q 在收到 marker 之后，它记录了一下自己的状态 D（对应 c 的状态为空），然后再发送一条 marker 数据给 Channel c'。p 因为之前已经记录过自己的状态，所以在收到 c' 传过来的 M' 之后（p 先收到 M' 然后才会收到 q 发送的 marker 消息），会把它作为 Channel c' 的状态记录下来。

整个流程下来，组合的 global state 是 $S_*$，如下如所示：

可以看到这里算法得到的 global state $S_*$ 与真实环境下的 global state（$S_0$、$S_1$、$S_2$、$S_3$）都不相同。

那么来考虑一个问？题：如果算法记录的状态，在真实环境中并没有实际存在过？那么这个 global state 有什么用呢？（或许大家之前都理解了这个算法，但很少有人会去思考深入这个问题）

算法结论

假设 $seq = (e_i, 0 \leq i)$ 是一个分布式计算（是一个 computation），global state $S_i$ 是在 event $e_i$ 处理前系统当时的全局状态（这个是真实的那个时刻的状态）。假设算法在计算 global state 时是在 $S_t$ 时初始化，并且在 $S_ø$ 前终止的（算法在计算全局状态时会横跨多个 event），也就是 $0 \leq t \leq ø$，那么如果我们能证明下面的结论，基本上回答了上面的问题：

$S_*$ 可以由 $S_t$ 得到；
$S_ø$ 可以由 $S_*$ 得到；

如果能证明这个，那就说明，算法得到的 global state 是可以由之前的 global state 得到，并且得到后面的 global state，从工程上来理解就是，算法得到的 global state 是可以完整正确得恢复计算作业的状态信息，让作业继续运行。

前面的是结论，这里将证明转化为：存在一个序列 $seq’$，它可以满足以下条件：

$seq’$ 是 $seq$ 集合的一种变形（元素列表相同、顺序不同）， $S_t$、$S_*$、$S_ø$ 都是发生在这个 $seq’$ 上面的 global state；
$S_t$ 早于 $S_*$ 或者两者相等；
$S_*$ 早于 $S_ø$ 或者两者相等。

一个更加数学化的描述（方便后面证明）：一定存在一个 computation $seq’ = (e’_i, 0 \leq i)$，它满足以下条件：

对于所有的 $i$，当 $i < t$ 或者 $i \geq ø$ 时，$e’_i = e_i$；
$e’_i(t \leq i < ø)$ 序列是 $e_i(t \leq i < ø)$ 序列的一种变换（元素相同，顺序可能会有不同）；
对于所有的 $i$，当 $i \leq t$ 或者 $i \geq ø$ 时，$S’_i = S_i$；
并且存在一个 $k, t \leq k \leq ø$，使得 $S_* = S’_k$；

这里实际要证明的是，找到这个 $seq’$，并且找到上面第四条要求的 $k$。

结论证明

为了证明上面的结论，这里引入两个概念：

prerecording event（后面记为 preEvent）：对于 process p 中的 event $e_i$，如果 p 做 snapshot（记录自己的状态）发生在收到 $e_i$ 之后，那么这个 $e_i$ 就是 prerecording event（也就是说：做 snapshot 时这个 $e_i$ 已经处理过了）；
postrecording event（后面记为 postEvent）：对于 process p 中的 event $e_i$，如果 p 做 snapshot（记录自己的状态）发生在收到 $e_i$ 之前，那么这个 $e_i$ 就是 postrecording event（也就是说：这个 $e_i$ 是在做完 snapshot 后才处理的）；

因此，对于 $e_i, (i < t)$，都是 preEvent，对于 $e_i, (i \geq ø)$，都是 postEvent。

对于一个真实的 computation，可能会出现一个 postEvent $e_{j-1}$ （$i < j < ø$）出现在 preEvent $e_j$ 之前，当然这种情况只可能是 $e_{j-1}$ 和 $e_j$ 出现在不同的节点上（大家可以反向思考一下：对于同一个节点来说，event 的处理会保证 FIFO，如果 $e_{j-1}$ 是 postEvent，那么 $e_j$ 必然也是 postEvent）。

接下来，我们证明一下下面的结论：

对于一个 event 序列 $seq’$（$seq$ 序列的变形），在这个序列中，所有的 preEvent 都在 postEvent 之前，下面我们将要证明 $S_*$ 就是 $seq’$ 中处理完所有 preEvent 后的 global state。

这里假设有一个 postEvent $e_{j-1}$ （$i < j < ø$）出现在 preEvent $e_j$ 之前，这里我们将证明 交换 $e_{j-1}$ 和 $e_j$ 的位置之后得到的新 $seq’$ 序列依然是一个 computation（与原来的计算是保持一致的，只不过在中间某些时刻它们当时的状态不完全相同）。根据前面的叙述，这里的 event $e_{j-1}$ 和 $e_j$ 肯定是在两个不同的 process 上的。这里假设 $e_{j-1}$ 发生在 p 上，$e_j$ 发生在 q 上。

首先经过分析可以得到：绝对不可能出现 $e_{j-1}$ 发送一条数据然后在 $e_j$ 中收到，通过反证法分析：

如果当 $e_{j-1}$ 发生时，通过 Channel c 向 q 发送了一条数据，那么在发送数据前一定已经有了 marker 发送过去（因为 $e_{j-1}$ 是 postEvent）；
当 $e_j$ 发生时，如果从 Channel c 中获得了这条数据，那么在这之前一定先收到了 marker 数据，这样的话，$e_j$ 也变成了 postEvent，所以这种情况是不可能存在的（这里不是很容易理解，可以换一种思路理解，它说明了 $e_{j-1}$ 和 $e_j$ 之间是没有因果关系的）。

因为 $e_{j-1}$ 是发生在 p 中的，所以当 $e_{j-1}$ 发生时，q 的状态是不会改变的（可以回顾一下前面关于 event 的公式定义）。而假如 event $e_j$ 触发时，q 会从 Channel c 收到一条数据 M，那么 M 一定是在 Channel c 中队列的头部，并且是在 $e_{j-1}$ 之前，因为 $e_{j-1}$ 发出的数据是不可能会在 $e_j$ 中接收到的。因此，$e_j$ 可以出现在 global state $S_{j-1}$ 中（这个可以在回顾一下前面关于 $S_j$ 的定义，实际这段说明了 $e_j$ 可以出现在 $e_{j-1}$ 之前，因此也就有了这个结论）。

而且在 $e_j$ 发生时，p 的状态并没有改变，因此，$e_{j-1}$ 是发生在 $e_j$ 之后的。那么也就是说明 $e_1, e_2, … , e_{j-2}, e_j, e_{j-1}$ 也是一个 computation，而且在经过这个 $e_1, e_2, …, e_{j-2}, e_j, e_{j-1}$ 计算之后的 global state 也跟 $e_1, e_2, …, e_{j-1}, e_j$ 计算之后的 global state 是一致的（主要还是因为 $e_{j-1}$ 和 $e_j$ 之间是没有因果关系的）。

假设 $seq^*$ 也是 $seq$ 的序列的一个变形，它只是把交换了 $e_{j-1}$ 和 $e_j$ 的位置，假设 $\overline{S_i}$ 是 $seq^*$ 对应的瞬时（就是当时那一刻系统的真实状态，i 对应的是序列第几个 event）全局状态，则有下面的公式：

$\overline{S_i} = S_i, i \neq j$

如果将前面的 postEvent 与后面紧贴的 preEvent 的位置互换，将会存在一个 $seq’$（$seq$ 序列的一个变形），使得：

所有 preEvent 都在 postEvent 前面；
$seq’$ 是一个 computation（这个 computation，我理解它的意思是说这个变换后的序列列表依然是可以运行的计算逻辑）；
当 $i < t$ 或者 $i \geq ø $ 有 $e’_i = e_i$；
当 $i \leq t$ 或者 $i \geq ø $ 有 $S’_i = S_i$；

现在我们证明： 这个 $seq’$ 序列中所有 preEvent 处理完之后的 global state 就是 $S_*$ ，只需要证明下面两点即可：

$S_*$ 中的每个 p 的状态是与 p 处理完所有 preEvent 之后的状态相同的，这个并不用证明，因为 perEvent 的概念就是这样来的，它指的就是那些在 snapshot 前要处理的 event 列表；
$S_*$ 中的每个 Channel c 的状态：所有 preEvent 发往 c 的数据列表，减去所有 preEvent 从 c 接收到数据列表。

这里看下上面的第二点：假设 c 是 process p 和 q 之前的 Channel，$S_*$ 中关于 Channel c 的状态指的是，q 在记录自己的状态后在收到 marker 前从 c 收到的数据列表。而 c 在收到 marker 前接收到的数据列表都是 preEvent 发送过去的，所以上面第二点也就是完全得证了。

到这里，整个证明就结束了，我在看原论文的时候，这个证明看得云里雾里，看了好几遍才理解这个证明逻辑，这里比较关键的点有两个：

前面所说的 $e_{j-1}$ 和 $e_j$ 之间是没有因果关系的，所以他们可以交换位置，并不会对后面的计算产生什么影响；
算法得到的 global state，作者找到了理论上的解释，就是处理完 preEvent 之后系统那个时刻的状态，虽然现实系统并不一定有这个状态，但它是有意义的，它可以完整、正确得恢复系统的状态，让系统继续后面的运行，并且恢复后的系统后面的运行情况跟正常情况是保持一致的。

最后，作者给出了前面 Example 2 的解释，前面状态转移图中，发生的 event 事件列表如下：

$e_0$：p 发送 M，并且将状态转移成 B（这是一个 postEvent，在这之前 p 已经记录了自己的状态）；
$e_1$：q 发送 M'，并且将状态转移成 D（这是一个 preEvent，因为它发送在 q 记录自己状态之前，根据前面的讲述，因为 q 是 global state $S_3$ 时收到的 marker，当然这里只是其中一种情况，这里就是解释前面的所述的情况）；
$e_2$：p 接收到 M'，并且将状态转移成 A（这是一个 postEvent，以为在这之前 p 已经记录了自己的状态）。

根据上面的证明，这里的 $seq’$ 序列就是 $e_1、e_0、e_2$，而前面图中记录的 global state 就是系统在处理完 $e_1$ 之后的结果。

总结

这篇论文的思想还是比较容易理解的，比如分布式快照算法: Chandy-Lamport 算法这篇文章介绍得就很简洁清晰，在我前面的文章 Paper 阅读: Lightweight Asynchronous Snapshots for Distributed Dataflow 中也讲述了 Flink 是如何将这个算法在落地应用的，但是这个算法的证明，并不容易。在看这篇论文之前，我并没有想过这个算法应该怎么证明？因为我潜意识的认为这是一个很容易理解、很正确的算法，甚至感觉完全不需要证明，就像苹果就应该从树上落到地上一样。但是看完这篇论文之后，才不得不佩服 Lamport 大神的牛逼之处，它不但提出了这个算法，还给这个算法找到理论上的证明方法，虽然论文并不是那么容易理解，但看完看明白之后收获很大，再次向 Chandy 和 Lamport 致敬~

参考：

Paper 阅读: Lightweight Asynchronous Snapshots for Distributed Dataflow

2019-10-20T03:41:42.000Z

本篇文章是对 Lightweight Asynchronous Snapshots for Distributed Dataflow 的一个总结，从文章题目也可以看出文章的主题 —— 分布式 dataflow 的轻量级异步 snapshot 算法，它是 Flink 团队在 2015 年发表的论文，主要讲述了对于 Streaming System 如何做 snapshot 的，它选取的是 Chandy-Lamport 算法（论文见 Distributed Snapshots: Determining Global States of Distributed Systems），关于这个算法后面会单独一篇文章来总结。在 Lightweight Asynchronous Snapshots for Distributed Dataflow 这篇论文中，作者更多向我们表达的是 Chandy-Lamport 算法如何在 Flink 中落地的以及如何解决分布式 dataflow 做 snapshot 时遇到的痛点。

问题

分布式有状态的流处理允许在云上部署和执行大规模的流数据计算，并且要求低延迟和高吞吐。这种模式一个比较大的挑战，就是其容错能力，能够应对潜在的 failure。当前业内的方案都是依赖周期性地全局状态的 snapshot 做 failure recovery。但这种方案有两个非常大的缺陷：

它们在做 snapshot 时会影响当前计算（目前的算法都是同步 snapshot）；
它们在当前 Operator State 中会把未处理和正在传输过程中的 record 做为 snapshot 的一部分持久化，这会导致 snapshot 非常大，记录了很多其实并不需要的数据。

本篇论文中提出了一个新的 global consistent snapshot 算法 —— Asynchronous Barrier Snapshot（ABS），它是一个轻量级的算法，非常适合现代 dataflow 系统，数据存储空间占用也非常小（论文原话是 Our solution provides asynchronous state snapshots with low space costs that contain only operator states in acyclic execution topologies.）。另外，这个算法不会影响作业计算，性能开销比较小。

业内现状

在过去的几十年中，关于连续处理系统的 recovery 机制，工业界和学术界提出了很多种解决办法，如： Distributed Snapshots: Determining Global States of Distributed Systems）和 Naiad: A Timely Dataflow System。有一些系统如 Discretized Streams 和 Comet 会把连续处理当作无状态的分布式批处理计算来做状态恢复；对于有状态的 dataflow 系统，如：Naiad、SDGs、Piccolo 和 SEEP，它们是我们的主要关注点，它们使用 checkpoint 获取全局一致的 snapshot 来做故障恢复。

关于 consistent global snapshot 的问题，自从在 Chandy 和 Lamport 的论文中提出来后，过去二十多年一直在被广泛地研究。全局 snapshot 理论上反映了作业执行的总体状态以及 operator 实例的可能状态。对于全局一致性 snapshot 算法，Naiad 中提出了一个简单但代价非常高昂的实现方案：

第一步，先停止计算；
第二步，开始做 snapshot；
第三步，如果 snapshot 完成了，每个 task 再恢复之前的计算。

这个实现方案对吞吐和空间占用都有很大的影响，它并不是一个很好的方案。另一个实现方案，就是 Chandy-Lamport 算法，当前它已经应用在很多的系统中，它是异步地执行快照，并且要求上游数据源可以回溯（也就是要求数据源能够自己备份）。它是通过在数据流中发送 marker 来实现，marker 会触发 operator 和 state 的 snapshot。但这种算法还需要额外的存储空间用于上游数据量恢复，数据流的重新计算也会导致恢复时间较长（主要还是原生算法会对一些 record 也做相应的 snapshot，这会导致存储空间占用过高以及恢复时间过长）。本论文中提出的方案扩展了原生的 Chandy-Lamport 算法，但对于无环 graph 它不会备份未处理及通道中正在传输的 record，对于有环的 graph，它也只需要很少量的 record 备份。

解决方案：Asynchronous Barrier Snapshot（ABS）

因为这个算法的实现本身就是为了解决 Apache Flink 的容错问题，论文中的描述也是以 Flink 系统为例，所以想要搞明白这个算法还是需要一些 Flink 的基础，本文中，我们就不再对 Flink 展开了。这里只简单介绍一下，有兴趣的可以看下官网资料，Flink 是一个可用于 Streaming 和 Batch 处理的大数据处理引擎，它本身的设计也是深受 Google DataFlow 模型的影响，可以说 Flink 是开源系统中最接近 DataFlow 思想的一个计算引擎。另外，Flink 的作业，在提交的时候都会被翻译成一个有向无环图（DAG），对于 Flink Master 来说，提交过来的作业都是一个 graph。

Problem Definition

这里，我们这样定义一个 global snapshot（它需要包含所有的状态信息，这样才能保证 failover 之后能够正确恢复状态）：

$G^*=(T^*, E^*)$

它代表一个 execution graph $G = (T, E)$ 的一个全局快照，$T^*$ 代表所有 task 状态的集合，$E^*$ 代表所有 edge 状态的集合。也就是说：

$∀t ∈ T, s_t^∗ ∈ T^∗$，$T^*$ 会包含所有 Operator 的状态；
$E^*$ 会包含所有 channel 状态的集合，$e^*$ 会包含 $e$ 中正在传输的所有 record。

为了能够保证 recovery 后正确恢复状态信息，对于每个 $G^*$，都需要保证以下两个特性：

Termination：snapshot 能够在一定的时间内完成；
Feasibility：它表示这个 snapshot 是有意义的，也就是说在 snapshot 期间尽管计算没有停止，也不会有任何信息丢失。

ABS for Acyclic Dataflows：非环 dataflow 中的 ABS 实现

这里先看下在无环 dataflow 中 ABS 是如何实现的，因为 Flink 只支持有向无环图，所以这个就是 Flink checkpoint 的实现方案。

当把一个作业的执行逻辑划分为多个 stage 时，做 snapshot 不存储 channel 中的 state 是完全有可能的。如果一个 operator 已经完成了对输入的所有计算，并且数据已经完全输出出去，那么只对 operator 的 state 做 snapshot 就可以达到我们的要求。

具体的实现就是：每个阶段的输入数据都会被周期性地插入一些特殊标记 —— barrier，这些 barrier 会推送到整个 dataflow 中直到 sink 节点（dataflow 中结束节点，它没有下游输出），每个 task 如果收到输入所有的 barrier 就开始做相应的 snapshot。这个算法的实现是有以下假设的：

网络传输是可靠的、可以做到 FIFO 传输，并且可以实现 blocked 和 unblocked，如果一个通道是 blocked，它会把这个通道接收到的所有数据缓存起来先不发送，直接收到 unblocked 的信号才会发送；
Task 可以在其对应的 channel 触发以下三种操作：blocked、unblocked 和 send msgs，Broadcasting msgs 表示的是向下游所有的 channel 发送数据；
对于 source 节点来说，输入节点被抽象为 Nil 输入通道（一个虚拟通道）。

这个算法的伪代码如下：

# Algorithm 1 Asynchronous Barrier Snapshotting for Acyclic Execution Graphs
1: upon event  do
2:     state := init_state; blocked_inputs := 0;
3:     inputs := input_channels;
4:     out_puts := output_channels; udf := fun;
5:
6: upon event > do
7:     if input != Nil then # 非 source 节点收到 barrier 时，会先阻塞当前 channel
8:         blocked_inputs := blocked_inputs ∪
{input};
9:         trigger {block | input};
10:     if blocked_inputs = inputs then # 只有所有的 input 都收到 barrier
11:         blocked_inputs := 0;
12:         broadcast {send | outputs, >; # 把 barrier 广播到下游所有节点
13:         trigger {snapshot | state}; # 触发 snapshot
14:         for each inputs as input # unblock 所有 blocked 的通道
15:             trigger ;
16:
17:
18: upon event  do # 非常 barrier 的数据处理
19:     {state1 ,out_records} := udf(msg, state);
20:     state := state1;
21:     for each out_records as {out_put, out_record}
22:         trigger ;
23:
24:

dataflow graph 执行图如下所示：

ABS 算法的执行流程如下：

中心协调器周期性地在所有输入端插入 barrier；
当一个 source 节点接收到 barrier 时，它对当前的状态做下 snapshot，并且 broadcast barrier 到所有的下游节点（如上图中的 a 子图）；
当一个非 source 节点从它的输入通道中接收到一个 barrier 时，它会 block 当前的 channel 直到接收该节点所有输入端发送的 barrier（如上图中的 b 子图以及代码第 9 行）；
当从所有输入 channel 都接收到 barrier 之后，这个 task 会对当前状态做一个 snapshot，并且 broadcast 这个 barrier 到所有的输出端（如上图中的 c 子图以及代码第 12-13 行）；
最后，这个 task 会 unblock 它所有的输入 channel，继续进行计算（如上图中的 d 子图以及代码第 15 行）。

根据前面所示，我们知道，当前一个完整的 snapshot $G^* = (T^*, E^*)$，其 $E^* =0$，Operator 中的 state 信息就是完整的 snapshot。

对于 Termination 要求，它依赖于 channel 的可靠性以及 graph 的无环性；对于 Feasibility 要求，它依赖于 channel 的 FIFO 特性。只要这些是可以满足的，那么这两个要求就是可以满足的。

ABS for Cyclic Dataflows：有环 dataflow 中的 ABS 实现

前面分析完无环的情况，接下来再来看看有环的情况，当前的 ABS 算法稍微做些改造也是可以处理有环的情况。根据前面的介绍，有环带来的最大问题是：

死锁，一个 task 可能会不断收到 barrier，导致 snapshot 无法在可预期的时间内完成；
当然，有环还会导致另外一个问题，就是数据可能没有记录到 snapshot 中，会导致准确性有误；

对于有环的情况，论文是在不引入额外 channel block 的情况下扩展了原来的算法，这里就不再列出伪代码了，有兴趣的可以看下论文，这里以下图为例简单介绍一下：

对于有 back-edge 输入的节点（后边节点做输入的情况）来说，一旦它所有正常的输入 channel 都收到了这个 barrier，它会先对本地状态做本地 copy（下图 b）；
从这个时间点开始，这个节点会将从 back-edge channel 接收到的所有数据记录下来直到接收到了相应的 barrier（下图 c），第一步 copy 的状态及第二步记录的数据都会作为 snapshot 的一部分。

按照改进后的算法，是可以避免死锁的，这样的话 Termination 的要求是可以满足的；Feasibility 的特性依然是依赖于 channel 的 FIFO 来保证，snapshot 中每个 task state 都会包含该 task 在收到前置节点 barrier 之后的状态，对于有后置节点输入的 task 来说，它会把从后置节点接收到的数据记录下来，只会 copy 非常少量的数据。

Failure Recovery

论文还简单介绍了 Flink 是如何做 failover 恢复的，有了前面的全局一致 snapshot 算法，failover 做起来就简单很多。在 Flink 中，还支持 partial graph recovery，对于失败的 task，只需要恢复它的上游即可，并不需要全局恢复。为了在内部实现 exactly-once，通过给数据进行编号来避免重复数据。

性能测试

性能对比了本文提出的 ABS 算法以及 Naiad 中提出的全局同步 snapshot 算法，测试 case 选择了一个有 6 个 operator 的作业，它有三个地方会进行网络 shuffle，这样可以尽量增大 ABS 算法 channel block 带来的影响（如下图 5）。实验中，输入端会模拟 1 百万测试数据，operator 的状态信息主要包括按 key 聚合的中间结果以及 offset 信息，下图的纵坐标是作业运行时间，baseline 表示的是不开启 snapshot 时的性能，在这里做对比使用。

如上图 6，可以看到，当 snapshot 时间间隔非常小，同步的 snapshot 性能非常差，因为它在做 snapshot 会阻塞计算，时间都花费在 snapshot 上了，而 ABS 算法的实验结果就好了很多。如上图 7，集群节点及作业并行度从 5 逐渐增加到 40，可以看到 ABS 算法的性能还很稳定的。

总结

这篇论文是工业界对 Chandy-Lamport 算法实践后做的改进优化，将 Chandy-Lamport 算法在 Flink 的 global consistent snapshot 中落地，这篇论文还是非常值得读一下的，看下 Flink 在解决这个问题的时候是怎么去做的，论文的优化点其实并不是很大，一是把同步变成异步，二是从尽量减小存储空间占用的点出发，最后发现只存储 operator 状态不存储 edge 状态也是完全可以的，而且实践起来的效果确实证明比当时其他系统的算法要好。

参考

Paper 阅读: Real-Time Machine Learning: The Missing Pieces

2019-10-19T14:26:20.000Z

这周抽空看了关于 ray 的一篇论文，论文是 2017 年发表的（见：Real-Time Machine Learning: The Missing Pieces，他们比较新的论文是 18 年发表的，见：Ray: A Distributed Framework for Emerging AI Applications），虽然论文描述的架构与现在 ray 真正的构架实现已经有了较大的不同，主要也是 ray 这两年发展比较快，架构做了很多的优化，不过本篇论文依然值得仔细阅读学习一下的，这篇论文也展示了 ray 最初设计实现的出发点。

本章不会严格按照论文翻译，整体会按照下面的思路来叙述：

遇到的问题什么？

当前业内的方案是什么？

论文提出了什么样的解决方案？达到了什么效果？

问题

现在有越来越多的 ML 应用，不仅仅使用静态模型进行训练预测，它们会使用动态、实时决策的反馈来实时调整应用，这种场景就给计算模型提出了一些新的要求：

高吞吐低延迟；
自适应创建任意的 task graph；
针对不同的数据集使用的不同内核（可以理解为融合计算）；

这些要求如果单独去实现的话，并不是很难，但是把它们在一套系统里同时实现就非常有挑战性了，而目前业内并没有这样的一套方案（指的是这套系统设计之前，业内还没有）。

举个例子

这里，我们看个示例，下图 a 是一个传统的 ML 应用架构，它主要使用离线数据做训练和预测（ML 中监督式学习），但是现在有个趋势，就是如下图 b 所示的构架越来越多，即 ML 应用与实时反馈的回路紧密集成，它会依赖实时数据做训练和预测。

场景对计算模型的要求

对于前面提出的场景，对模型的灵活性和性能有了新的要求，在满足这些要求的同时，还要保持现代分布式执行模型的优势（比如：应用级别的容错保证等等），挑战性很大，根据之前在 Spark、MPI 和 TensorFlow 开发 ML 和 RL（强化学习）的经历，这些痛点更加明显。当然这些要求也是通用的，并不仅仅使用在 ML 和 RL 中。

性能要求

这些 ML 应用也是有严格的延迟和吞吐要求：

R1：low latency，ML 应用的实时性、reactive 和 interactive 特性都是需要端到端执行的毫秒级延迟；
R2：High throughput，训练和部署期间的计算都是需要支持每秒几百万 task 执行的高吞吐任务；

执行模型要求

尽管现在业内很多的执行模型已经对常见计算模式的识别和优化取得了很大进展，但 ML 应用还需要更大的灵活性：

R3：dynamic task creation，诸如蒙卡洛树搜索（Monte Carlo Tree）的 RL 基本算法在执行期间会根据其他 task 执行的结果动态创建新的 task；
R4：heterogeneous tasks（异构任务），深度学习和 RL 在执行时间和资源需求上差异很大，因此对执行异构任务和资源的支持是非常有必要的；
R5：arbitrary dataflow dependencies，深度学习和 RL 应用会产生任意且更细粒度的任务依赖；

实践要求

R6：transparent fault tolerance：容错是一个非常重要和核心的要求，但与高吞吐、非确定性 task 执行放在一起实现就有一定难度了；
R7：debuggablitity and profiling（调试和性能分析）：调试和性能分析是编写任何分布式作业最耗时的方面，ML 应用尤其如此，这些应用通常是计算密集和随机的。

上面的要求与我们常见的大数据计算系统，如：Flink 和 Spark，最大的区别是 R3~R5，对于 Flink 和 Spark 来说，向集群提交的 dataflow graph 是固定的，提交之后是不能改变的，这种模式在 ML 场景就显得非常不灵活了。

业内现况

Static dataflow Systems，它们需要开发者提前设计好 dataflow graph，比如：MR 和 Spark。对于其他的像 Dryad 和 Naiad 的系统，它们是支持复杂的依赖结构（R5）；TensorFlow 和 MXNet，它们对深度学习场景做了很多优化。然而没有一个系统，可以完全支持根据输入数据和 task 执行任意动态扩展 dataflow graph。

Dynamic Dataflow Systems，像 CIEL 和 Dask 不但支持上面 static dataflow Systems 的很多特性，还支持动态 task 创建（R3），这些模型符合我们 R3~R5 的需要。然而，它们有一些受限的地方，比如：完全中心化的调度，它们会导致我们不得不在吞吐和 latency 之间做取舍。

Other Systems 像 Open MPI 和基于 actor 模型变体的系统（Orleans 和 Erlang）提供了低延迟（R1）和高吞吐（R2）的分布式计算。尽管这些系统也可以支持我们执行模型的需要（R3-R5，并且已经在 ML 中应用了），但是很多系统 level 的逻辑需求却需要应用程序自己去实现，比如：容错和 task 调度的本地感知。

综上，业内并没有一套可以完全符合我们的需求的系统，所以最好的办法就是重新造轮子，从头开始设计和写一套系统，业内对这块也有了很多的实践，虽然是重头开始设计，但还是可以从业内现有的系统中借鉴很多的经验（毕竟这套系统设计的出发点，也考虑到了通用性，而不仅仅用在 ML 领域）。

解决方案：一套新的架构模型

论文发表的时候，ray 还处于初期，当时的一些架构设计后来也有了一些变化，但本文依然以论文中的架构为主来介绍。

API 和执行模型

新提出的架构与 Flink 和 Spark 最大区别是在 R3~R5，为了支持这三个执行模型要求，这里设计了一套 API，它允许任意的 function 作为远程的 task 执行（并且还是在 dataflow 中的一环）。

task 创建是非阻塞的：当一个 task 创建后，会以 future 做 task 的返回值，task 是在系统中异步执行的；
任意 function 的执行都可以作为远程 task 执行：为了支持 R4，function 都可以作为远程 task 执行的；task 创建的参数可以是一个 future，这样的话，新创建的 task 就会依赖这个 future 对应的 task，它也就实现了任意的 DAG 依赖（R5）；
任何执行的 task 都可以在不阻塞它们计算的同时创建新的 task，因此，task 的吞吐不会受到 worker 带宽的限制（R2），并且可以做到动态创建 graph（R3）；
一个 task 的返回值可以通过调用 get 方法得到，它会阻塞直到 task 执行结束；
wait 方法可以执行批量任务等待，该方法需要指定一个 future 列表、timeout 参数和要返回的 task number 的数量，这个方法会返回 future 任务的子集，它们是在 timeout 达到或满足数量要求时返回的。

这里看这些 API 可能会有一些不太理解，给大家推荐一篇文章：高性能分布式执行框架——Ray，这篇文章对于这些 API 在 ray 上的实现都有详细的示例，有兴趣的可以看下。

架构设计

这里设计的架构也是 Master/Slave 模型，它包含：运行在每个 node 上的 worker 进程、每个 node 会有一个 local scheduler、一个或多个 global scheduler 以及在 worker 间做数据共享的内存对象存储，如下图所示（大家依然可以看下这篇文章高性能分布式执行框架——Ray，它介绍了 Ray 的落地实现架构，但论文中更多的还是模型设计）。

Master 负责全局协调和状态维护，Slave 执行分布式计算任务，不同与传统计算系统的是，它使用了混合任务调度的思路：

Global Scheduler：Master上启动了一个全局调度器，用于接收本地调度器提交的任务，并将任务分发给合适的本地任务调度器执行；
Control State（db 服务）：Master 上启动了一到多个 db server 用于保存分布式任务的状态信息，包括对象机器的映射、任务描述、任务debug信息等；
Local Scheduler：每个 Slave 上启动了一个本地调度器，用于接收本地 worker 提交任务的请求以及提交任务请求到全局调度器；
Worker：每个 Slave 上可以启动多个 Worker 进程执行分布式任务，并将计算结果存储到 ObjectStore；
Object Store：每个 Slave 上启动了一个 Object Store 存储只读数据对象，Worker 可以通过共享内存的方式访问这些对象数据，这样可以有效地减少内存拷贝和对象序列化成本（Object Store 底层由 Apache Arrow 实现）。

Centralized Control State

如前面图中所示，这套架构是依赖一个逻辑中心控制器，为了实现这套架构，设计时使用了一个 database 来做 Control State 的工作，存储系统的状态信息以及用于系统组件间的通信信息。

在这个设计中，除了 Control State，其他组件都是无状态的，所以只要 Control State 具有容错性，系统就可以简单恢复任务中失败的节点（因为 dataflow graph 是不固定，所以真正实现时 recover 的逻辑与 Spark 和 Flink 这类系统是不同的）(R6
)。为了实现高吞吐，在写数据库的时候，允许按 key hash 写入（R1-R2）。

Hybrid Scheduler

这套架构采用混度调度器的模式，简单来说，在 task 调度时，实现如下：

worker 提交 task 到本地调度器，它会决定是 assign 到本地本机其他 worker 还是上报到 global 调度器，global 调度器会根据全局信息（资源利用率和计算本地化等因素）来决定把 task 分配到哪个节点上；
因为 task 是允许创建其他 task，所以一个集群里的 task 调度请求是可能来自任何的 worker 的；
系统允许本地调度器处理本地的调度工作，可以减少与全局调度器的交互，最大限度减少了通信开销。

其他

ray 在真正实现时，提交给作业是一个更细粒度的 remote function，任务 DAG 依赖关系由函数依赖关系自由控制，像 Flink 和 Spark 系统，提交的是任务的 DAG，一旦提交就不能修改。

总结

就像在前面文中说的一样，个人感觉这套架构与目前主流大数据计算引擎最大的区别还是 R3~R5，这样设计也是因为业务场景驱动，static dataflow graph 在一些 ML 和图计算的场景下无法很好的满足业务需求，每套计算引擎最开始要解决的问题都不太一样，都有一个自己的切入点，只不过做着做着大家发现自己的场景很有限，都想切入到更多的领域，做一个更加通用的引擎，通用引擎对于一些简单业务场景来说可能会显得特别重、对另一些复杂业务场景来说可能又显得不能完全支持，这也是计算引擎最近几年遍地开花的原因，而且相信未来还会有很大变化。而且现在有个趋势：对于业务来说，大家发现没有必要非要使用什么统一的引擎，引擎（包括存储和计算）是什么我可以完全不 care，面向用户的是统一的 DSL，用什么引擎由平台来帮业务选择，这个或许是一个趋势，但从另一个方面来说维护多套引擎的成本有点高，就像现在公司不会选择在服务器维护很多套操作系统一样，最终会是什么样子，过几年再看。

业内实践

关于 ray，目前国内看到的是蚂蚁金服有在使用，其他公司好像没有听说过，ray 目前已经在蚂蚁金服的很多业务上落地，这个大家可以参考今年阿里云栖大会上蚂蚁金服的分享（见：开放计算架构：蚂蚁金服是如何用一套架构容纳所有计算的？），可以看到 ray 中落地比较好的场景还是 ML 和图计算相关的业务，关于图计算，国内估计也只有蚂蚁和腾讯有这么强烈的业务需求。刚好今天看到一篇文章 —— 腾讯开源全栈机器学习平台 Angel 3.0，支持三大类型图计算算法，腾讯这边在图计算这块选择了他们开源的 Angel 平台做图计算，他们有兴趣地的可以深入看下。

最后，说点题外话，笔者本来计划今年每个月都要输出一篇经典论文的阅读笔记的，但不料的是，今年工作实在是太忙太累，很多计划并没有落地执行，后面会多花点工作之外的时间把今年欠的博客补一下，最近也会开始写 Apache Flink1.9 源码分析系列以及 Paper 阅读总结系列，文章会在公众号同步发布，大家多多关注。

参考：

Apache Calcite 优化器详解（二）

2019-03-17T12:41:35.000Z

紧接上篇文章Apache Calcite 处理流程详解（一），这里是 Calcite 系列文章的第二篇，后面还会有文章讲述 Calcite 的实践（包括：如何开发用于 SQL 优化的 Rule）。本篇文章主要介绍 Apache Calcite 优化器部分的内容，会先简单介绍一下 RBO 和 CBO 模型，之后详细讲述 Calcite 关于这两个优化器的实现 —— HepPlanner 和 VolcanoPlanner，文章内容都是个人的一些理解，由于也是刚接触这块，理解有偏差的地方，欢迎指正。

什么是查询优化器

查询优化器是传统数据库的核心模块，也是大数据计算引擎的核心模块，开源大数据引擎如 Impala、Presto、Drill、HAWQ、 Spark、Hive 等都有自己的查询优化器。Calcite 就是从 Hive 的优化器演化而来的。

优化器的作用：将解析器生成的关系代数表达式转换成执行计划，供执行引擎执行，在这个过程中，会应用一些规则优化，以帮助生成更高效的执行计划。

关于 Volcano 模型和 Cascades 模型的内容，建议看下相关的论文，这个是 Calcite 优化器的理论基础，代码只是把这个模型落地实现而已。

基于规则优化（RBO）

基于规则的优化器（Rule-Based Optimizer，RBO）：根据优化规则对关系表达式进行转换，这里的转换是说一个关系表达式经过优化规则后会变成另外一个关系表达式，同时原有表达式会被裁剪掉，经过一系列转换后生成最终的执行计划。

RBO 中包含了一套有着严格顺序的优化规则，同样一条 SQL，无论读取的表中数据是怎么样的，最后生成的执行计划都是一样的。同时，在 RBO 中 SQL 写法的不同很有可能影响最终的执行计划，从而影响执行计划的性能。

基于成本优化（CBO）

基于代价的优化器(Cost-Based Optimizer，CBO)：根据优化规则对关系表达式进行转换，这里的转换是说一个关系表达式经过优化规则后会生成另外一个关系表达式，同时原有表达式也会保留，经过一系列转换后会生成多个执行计划，然后 CBO 会根据统计信息和代价模型 (Cost Model) 计算每个执行计划的 Cost，从中挑选 Cost 最小的执行计划。

由上可知，CBO 中有两个依赖：统计信息和代价模型。统计信息的准确与否、代价模型的合理与否都会影响 CBO 选择最优计划。从上述描述可知，CBO 是优于 RBO 的，原因是 RBO 是一种只认规则，对数据不敏感的呆板的优化器，而在实际过程中，数据往往是有变化的，通过 RBO 生成的执行计划很有可能不是最优的。事实上目前各大数据库和大数据计算引擎都倾向于使用 CBO，但是对于流式计算引擎来说，使用 CBO 还是有很大难度的，因为并不能提前预知数据量等信息，这会极大地影响优化效果，CBO 主要还是应用在离线的场景。

优化规则

无论是 RBO，还是 CBO 都包含了一系列优化规则，这些优化规则可以对关系表达式进行等价转换，常见的优化规则包含：

谓词下推 Predicate Pushdown
常量折叠 Constant Folding
列裁剪 Column Pruning
其他

在 Calcite 的代码里，有一个测试类（org.apache.calcite.test.RelOptRulesTest）汇集了对目前内置所有 Rules 的测试 case，这个测试类可以方便我们了解各个 Rule 的作用。在这里有下面一条 SQL，通过这条语句来说明一下上面介绍的这三种规则。

1
2
3

select 10 + 30, users.name, users.age
from users join jobs on users.id= user.id
where users.age > 30 and jobs.id>10

谓词下推（Predicate Pushdown）

关于谓词下推，它主要还是从关系型数据库借鉴而来，关系型数据中将谓词下推到外部数据库用以减少数据传输；属于逻辑优化，优化器将谓词过滤下推到数据源，使物理执行跳过无关数据。最常见的例子就是 join 与 filter 操作一起出现时，提前执行 filter 操作以减少处理的数据量，将 filter 操作下推，以上面例子为例，示意图如下（对应 Calcite 中的 FilterJoinRule.FilterIntoJoinRule.FILTER_ON_JOIN Rule）：

在进行 join 前进行相应的过滤操作，可以极大地减少参加 join 的数据量。

常量折叠（Constant Folding）

常量折叠也是常见的优化策略，这个比较简单、也很好理解，可以看下编译器优化 – 常量折叠这篇文章，基本不用动脑筋就能理解，对于我们这里的示例，有一个常量表达式 10 + 30，如果不进行常量折叠，那么每行数据都需要进行计算，进行常量折叠后的结果如下图所示（对应 Calcite 中的 ReduceExpressionsRule.PROJECT_INSTANCE Rule）：

列裁剪（Column Pruning）

列裁剪也是一个经典的优化规则，在本示例中对于jobs 表来说，并不需要扫描它的所有列值，而只需要列值 id，所以在扫描 jobs 之后需要将其他列进行裁剪，只留下列 id。这个优化带来的好处很明显，大幅度减少了网络 IO、内存数据量的消耗。裁剪前后的示意图如下（不过并没有找到 Calcite 对应的 Rule）：

Calcite 中的优化器实现

有了前面的基础后，这里来看下 Calcite 中优化器的实现，RelOptPlanner 是 Calcite 中优化器的基类，其子类实现如下图所示：

Calcite 中关于优化器提供了两种实现：

HepPlanner：就是前面 RBO 的实现，它是一个启发式的优化器，按照规则进行匹配，直到达到次数限制（match 次数限制）或者遍历一遍后不再出现 rule match 的情况才算完成；
VolcanoPlanner：就是前面 CBO 的实现，它会一直迭代 rules，直到找到 cost 最小的 paln。

前面提到过像calcite这类查询优化器最核心的两个问题之一是怎么把优化规则应用到关系代数相关的RelNode Tree上。所以在阅读calicite的代码时就得带着这个问题去看看它的实现过程，然后才能判断它的代码实现得是否优雅。
calcite的每种规则实现类(RelOptRule的子类)都会声明自己应用在哪种RelNode子类上，每个RelNode子类其实都可以看成是一种operator(中文常翻译成算子)。
VolcanoPlanner就是优化器，用的是动态规划算法，在创建VolcanoPlanner的实例后，通过calcite的标准jdbc接口执行sql时，默认会给这个VolcanoPlanner的实例注册将近90条优化规则(还不算常量折叠这种最常见的优化)，所以看代码时，知道什么时候注册可用的优化规则是第一步(调用VolcanoPlanner.addRule实现)，这一步比较简单。
接下来就是如何筛选规则了，当把语法树转成RelNode Tree后是没有必要把前面注册的90条优化规则都用上的，所以需要有个筛选的过程，因为每种规则是有应用范围的，按RelNode Tree的不同节点类型就可以筛选出实际需要用到的优化规则了。这一步说起来很简单，但在calcite的代码实现里是相当复杂的，也是非常关键的一步，是从调用VolcanoPlanner.setRoot方法开始间接触发的，如果只是静态的看代码不跑起来跟踪调试多半摸不清它的核心流程的。筛选出来的优化规则会封装成VolcanoRuleMatch，然后扔到RuleQueue里，而这个RuleQueue正是接下来执行动态规划算法要用到的核心类。筛选规则这一步的代码实现很晦涩。
第三步才到VolcanoPlanner.findBestExp，本质上就是一个动态规划算法的实现，但是最值得关注的还是怎么用第二步筛选出来的规则对RelNode Tree进行变换，变换后的形式还是一棵RelNode Tree，最常见的是把LogicalXXX开头的RelNode子类换成了EnumerableXXX或BindableXXX，总而言之，看看具体优化规则的实现就对了，都是繁琐的体力活。
一个优化器，理解了上面所说的三步基本上就抓住重点了。
—— 来自【zhh-4096 】的微博

下面详细讲述一下这两种 planner 在 Calcite 内部的具体实现。

HepPlanner

使用 HepPlanner 实现的完整代码见 SqlHepTest。

HepPlanner 中的基本概念

这里先看下 HepPlanner 的一些基本概念，对于后面的理解很有帮助。

HepRelVertex

HepRelVertex 是对 RelNode 进行了简单封装。HepPlanner 中的所有节点都是 HepRelVertex，每个 HepRelVertex 都指向了一个真正的 RelNode 节点。

// org.apache.calcite.plan.hep.HepRelVertex
/**
 * HepRelVertex wraps a real {@link RelNode} as a vertex in a DAG representing
 * the entire query expression.
 * note：HepRelVertex 将一个 RelNode 封装为一个 DAG 中的 vertex（DAG 代表整个 query expression）
 */
public class HepRelVertex extends AbstractRelNode {
  //~ Instance fields --------------------------------------------------------

  /**
   * Wrapped rel currently chosen for implementation of expression.
   */
  private RelNode currentRel;
}

HepInstruction

HepInstruction 是 HepPlanner 对一些内容的封装，具体的子类实现比较多，其中 RuleInstance 是 HepPlanner 中对 Rule 的一个封装，注册的 Rule 最后都会转换为这种形式。

HepInstruction represents one instruction in a HepProgram.

//org.apache.calcite.plan.hep.HepInstruction
/** Instruction that executes a given rule. */
//note: 执行指定 rule 的 Instruction
static class RuleInstance extends HepInstruction {
  /**
   * Description to look for, or null if rule specified explicitly.
   */
  String ruleDescription;

  /**
   * Explicitly specified rule, or rule looked up by planner from
   * description.
   * note：设置其 Rule
   */
  RelOptRule rule;

  void initialize(boolean clearCache) {
    if (!clearCache) {
      return;
    }

    if (ruleDescription != null) {
      // Look up anew each run.
      rule = null;
    }
  }

  void execute(HepPlanner planner) {
    planner.executeInstruction(this);
  }
}

HepPlanner 处理流程

下面这个示例是上篇文章（Apache Calcite 处理流程详解（一））的示例，通过这段代码来看下 HepPlanner 的内部实现机制。

HepProgramBuilder builder = new HepProgramBuilder();
builder.addRuleInstance(FilterJoinRule.FilterIntoJoinRule.FILTER_ON_JOIN); //note: 添加 rule
HepPlanner hepPlanner = new HepPlanner(builder.build());
hepPlanner.setRoot(relNode);
relNode = hepPlanner.findBestExp();

上面的代码总共分为三步：

初始化 HepProgram 对象；
初始化 HepPlanner 对象，并通过 setRoot() 方法将 RelNode 树转换成 HepPlanner 内部使用的 Graph；
通过 findBestExp() 找到最优的 plan，规则的匹配都是在这里进行。

1. 初始化 HepProgram

这几步代码实现没有太多需要介绍的地方，先初始化 HepProgramBuilder 也是为了后面初始化 HepProgram 做准备，HepProgramBuilder 主要也就是提供了一些配置设置和添加规则的方法等，常用的方法如下：

addRuleInstance()：注册相应的规则；
addRuleCollection()：这里是注册一个规则集合，先把规则放在一个集合里，再注册整个集合，如果规则多的话，一般是这种方式；
addMatchLimit()：设置 MatchLimit，这个 rule match 次数的最大限制；

HepProgram 这个类对于后面 HepPlanner 的优化很重要，它定义 Rule 匹配的顺序，默认按【深度优先】顺序，它可以提供以下几种（见 HepMatchOrder 类）：

ARBITRARY：按任意顺序匹配（因为它是有效的，而且大部分的 Rule 并不关心匹配顺序）；
BOTTOM_UP：自下而上，先从子节点开始匹配；
TOP_DOWN：自上而下，先从父节点开始匹配；
DEPTH_FIRST：深度优先匹配，某些情况下比 ARBITRARY 高效（为了避免新的 vertex 产生后又从 root 节点开始匹配）。

这个匹配顺序到底是什么呢？对于规则集合 rules，HepPlanner 的算法是：从一个节点开始，跟 rules 的所有 Rule 进行匹配，匹配上就进行转换操作，这个节点操作完，再进行下一个节点，这里的匹配顺序就是指的节点遍历顺序（这种方式的优劣，我们下面再说）。

2. HepPlanner.setRoot（RelNode –> Graph）

先看下 setRoot() 方法的实现：

// org.apache.calcite.plan.hep.HepPlanner
public void setRoot(RelNode rel) {
  //note: 将 RelNode 转换为 DAG 表示
  root = addRelToGraph(rel);
  //note: 仅仅是在 trace 日志中输出 Graph 信息
  dumpGraph();
}

HepPlanner 会先将所有 relNode tree 转化为 HepRelVertex，这时就构建了一个 Graph：将所有的 elNode 节点使用 Vertex 表示，Gragh 会记录每个 HepRelVertex 的 input 信息，这样就是构成了一张 graph。

在真正的实现时，递归逐渐将每个 relNode 转换为 HepRelVertex，并在 graph 中记录相关的信息，实现如下：

//org.apache.calcite.plan.hep.HepPlanner
//note: 根据 RelNode 构建一个 Graph
private HepRelVertex addRelToGraph(
    RelNode rel) {
  // Check if a transformation already produced a reference
  // to an existing vertex.
  //note: 检查这个 rel 是否在 graph 中转换了
  if (graph.vertexSet().contains(rel)) {
    return (HepRelVertex) rel;
  }

  // Recursively add children, replacing this rel's inputs
  // with corresponding child vertices.
  //note: 递归地增加子节点，使用子节点相关的 vertices 代替 rel 的 input
  final List inputs = rel.getInputs();
  final List newInputs = new ArrayList<>();
  for (RelNode input1 : inputs) {
    HepRelVertex childVertex = addRelToGraph(input1); //note: 递归进行转换
    newInputs.add(childVertex); //note: 每个 HepRelVertex 只记录其 Input
  }

  if (!Util.equalShallow(inputs, newInputs)) { //note: 不相等的情况下
    RelNode oldRel = rel;
    rel = rel.copy(rel.getTraitSet(), newInputs);
    onCopy(oldRel, rel);
  }
  // Compute digest first time we add to DAG,
  // otherwise can't get equivVertex for common sub-expression
  //note: 计算 relNode 的 digest
  //note: Digest 的意思是：
  //note: A short description of this relational expression's type, inputs, and
  //note: other properties. The string uniquely identifies the node; another node
  //note: is equivalent if and only if it has the same value.
  rel.recomputeDigest();

  // try to find equivalent rel only if DAG is allowed
  //note: 如果允许 DAG 的话，检查是否有一个等价的 HepRelVertex，有的话直接返回
  if (!noDag) {
    // Now, check if an equivalent vertex already exists in graph.
    String digest = rel.getDigest();
    HepRelVertex equivVertex = mapDigestToVertex.get(digest);
    if (equivVertex != null) { //note: 已经存在
      // Use existing vertex.
      return equivVertex;
    }
  }

  // No equivalence:  create a new vertex to represent this rel.
  //note: 创建一个 vertex 代替 rel
  HepRelVertex newVertex = new HepRelVertex(rel);
  graph.addVertex(newVertex); //note: 记录 Vertex
  updateVertex(newVertex, rel);//note: 更新相关的缓存，比如 mapDigestToVertex map

  for (RelNode input : rel.getInputs()) { //note: 设置 Edge
    graph.addEdge(newVertex, (HepRelVertex) input);//note: 记录与整个 Vertex 先关的 input
  }

  nTransformations++;
  return newVertex;
}

到这里 HepPlanner 需要的 gragh 已经构建完成，通过 DEBUG 方式也能看到此时 HepPlanner root 变量的内容：

3. HepPlanner findBestExp 规则优化

//org.apache.calcite.plan.hep.HepPlanner
// implement RelOptPlanner
//note: 优化器的核心，匹配规则进行优化
public RelNode findBestExp() {
  assert root != null;

  //note: 运行 HepProgram 算法(按 HepProgram 中的 instructions 进行相应的优化)
  executeProgram(mainProgram);

  // Get rid of everything except what's in the final plan.
  //note: 垃圾收集
  collectGarbage();

  return buildFinalPlan(root); //note: 返回最后的结果，还是以 RelNode 表示
}

主要的实现是在 executeProgram() 方法中，如下：

//org.apache.calcite.plan.hep.HepPlanner
private void executeProgram(HepProgram program) {
  HepProgram savedProgram = currentProgram; //note: 保留当前的 Program
  currentProgram = program;
  currentProgram.initialize(program == mainProgram);//note: 如果是在同一个 Program 的话，保留上次 cache
  for (HepInstruction instruction : currentProgram.instructions) {
    instruction.execute(this); //note: 按 Rule 进行优化(会调用 executeInstruction 方法)
    int delta = nTransformations - nTransformationsLastGC;
    if (delta > graphSizeLastGC) {
      // The number of transformations performed since the last
      // garbage collection is greater than the number of vertices in
      // the graph at that time.  That means there should be a
      // reasonable amount of garbage to collect now.  We do it this
      // way to amortize garbage collection cost over multiple
      // instructions, while keeping the highwater memory usage
      // proportional to the graph size.
      //note: 进行转换的次数已经大于 DAG Graph 中的顶点数，这就意味着已经产生大量垃圾需要进行清理
      collectGarbage();
    }
  }
  currentProgram = savedProgram;
}

这里会遍历 HepProgram 中 instructions（记录注册的所有 HepInstruction），然后根据 instruction 的类型执行相应的 executeInstruction() 方法，如果instruction 是 HepInstruction.MatchLimit 类型，会执行 executeInstruction(HepInstruction.MatchLimit instruction) 方法，这个方法就是初始化 matchLimit 变量。对于 HepInstruction.RuleInstance 类型的 instruction 会执行下面的方法（前面的示例注册规则使用的是 addRuleInstance() 方法，所以返回的 rules 只有一个规则，如果注册规则的时候使用的是 addRuleCollection() 方法注册一个规则集合的话，这里会返回的 rules 就是那个规则集合）：

//org.apache.calcite.plan.hep.HepPlanner
//note: 执行相应的 RuleInstance
void executeInstruction(
    HepInstruction.RuleInstance instruction) {
  if (skippingGroup()) {
    return;
  }
  if (instruction.rule == null) {//note: 如果 rule 为 null，那么就按照 description 查找具体的 rule
    assert instruction.ruleDescription != null;
    instruction.rule =
        getRuleByDescription(instruction.ruleDescription);
    LOGGER.trace("Looking up rule with description {}, found {}",
        instruction.ruleDescription, instruction.rule);
  }
  //note: 执行相应的 rule
  if (instruction.rule != null) {
    applyRules(
        Collections.singleton(instruction.rule),
        true);
  }
}

接下来看 applyRules() 的实现：

//org.apache.calcite.plan.hep.HepPlanner
//note: 执行 rule（forceConversions 默认 true）
private void applyRules(
    Collection rules,
    boolean forceConversions) {
  if (currentProgram.group != null) {
    assert currentProgram.group.collecting;
    currentProgram.group.ruleSet.addAll(rules);
    return;
  }

  LOGGER.trace("Applying rule set {}", rules);

  //note: 当遍历规则是 ARBITRARY 或 DEPTH_FIRST 时，设置为 false，此时不会从 root 节点开始，否则每次 restart 都从 root 节点开始
  boolean fullRestartAfterTransformation =
      currentProgram.matchOrder != HepMatchOrder.ARBITRARY
      && currentProgram.matchOrder != HepMatchOrder.DEPTH_FIRST;

  int nMatches = 0;

  boolean fixedPoint;
  //note: 两种情况会跳出循环，一种是达到 matchLimit 限制，一种是遍历一遍不会再有新的 transform 产生
  do {
    //note: 按照遍历规则获取迭代器
    Iterator iter = getGraphIterator(root);
    fixedPoint = true;
    while (iter.hasNext()) {
      HepRelVertex vertex = iter.next();//note: 遍历每个 HepRelVertex
      for (RelOptRule rule : rules) {//note: 遍历每个 rules
        //note: 进行规制匹配，也是真正进行相关操作的地方
        HepRelVertex newVertex =
            applyRule(rule, vertex, forceConversions);
        if (newVertex == null || newVertex == vertex) {
          continue;
        }
        ++nMatches;
        //note: 超过 MatchLimit 的限制
        if (nMatches >= currentProgram.matchLimit) {
          return;
        }
        if (fullRestartAfterTransformation) {
          //note: 发生 transformation 后，从 root 节点再次开始
          iter = getGraphIterator(root);
        } else {
          // To the extent possible, pick up where we left
          // off; have to create a new iterator because old
          // one was invalidated by transformation.
          //note: 尽可能从上次进行后的节点开始
          iter = getGraphIterator(newVertex);
          if (currentProgram.matchOrder == HepMatchOrder.DEPTH_FIRST) {
            //note: 这样做的原因就是为了防止有些 HepRelVertex 遗漏了 rule 的匹配（每次从 root 开始是最简单的算法），因为可能出现下推
            nMatches =
                depthFirstApply(iter, rules, forceConversions, nMatches);
            if (nMatches >= currentProgram.matchLimit) {
              return;
            }
          }
          // Remember to go around again since we're
          // skipping some stuff.
          //note: 再来一遍，因为前面有跳过一些节点
          fixedPoint = false;
        }
        break;
      }
    }
  } while (!fixedPoint);
}

在这里会调用 getGraphIterator() 方法获取 HepRelVertex 的迭代器，迭代的策略（遍历的策略）跟前面说的顺序有关，默认使用的是【深度优先】，这段代码比较简单，就是遍历规则+遍历节点进行匹配转换，直到满足条件再退出，从这里也能看到 HepPlanner 的实现效率不是很高，它也无法保证能找出最优的结果。

总结一下，HepPlanner 在优化过程中，是先遍历规则，然后再对每个节点进行匹配转换，直到满足条件（超过限制次数或者规则遍历完一遍不会再有新的变化），其方法调用流程如下：

思考

1. 为什么要把 RelNode 转换 HepRelVertex 进行优化？带来的收益在哪里？

关于这个，能想到的就是：RelNode 是底层提供的抽象、偏底层一些，在优化器这一层，需要记录更多的信息，所以又做了一层封装。

VolcanoPlanner

介绍完 HepPlanner 之后，接下来再来看下基于成本优化（CBO）模型在 Calcite 中是如何实现、如何落地的，关于 Volcano 理论内容建议先看下相关理论知识，否则直接看实现的话可能会有一些头大。从 Volcano 模型的理论落地到实践是有很大区别的，这里先看一张 VolcanoPlanner 整体实现图，如下所示（图片来自 Cost-based Query Optimization in Apache Phoenix using Apache Calcite）：

上面基本展现了 VolcanoPlanner 内部实现的流程，也简单介绍了 VolcanoPlanner 在实现中的一些关键点（有些概念暂时不了解也不要紧，后面会介绍）：

Add Rule matches to Queue：向 Rule Match Queue 中添加相应的 Rule Match；
Apply Rule match transformations to plan gragh：应用 Rule Match 对 plan graph 做 transformation 优化（Rule specifies an Operator sub-graph to match and logic to generate equivalent better sub-graph）；
Iterate for fixed iterations or until cost doesn’t change：进行相应的迭代，直到 cost 不再变化或者 Rule Match Queue 中 rule match 已经全部应用完成；
Match importance based on cost of RelNode and height：Rule Match 的 importance 依赖于 RelNode 的 cost 和深度。

使用 VolcanoPlanner 实现的完整代码见 SqlVolcanoTest。

下面来看下 VolcanoPlanner 实现具体的细节。

VolcanoPlanner 中的基本概念

VolcanoPlanner 在实现中引入了一些基本概念，先明白这些概念对于理解 VolcanoPlanner 的实现非常有帮助。

RelSet

关于 RelSet，源码中介绍如下：

RelSet is an equivalence-set of expressions that is, a set of expressions which have identical semantics.
We are generally interested in using the expression which has the lowest cost.
All of the expressions in an RelSet have the same calling convention.

它有以下特点：

描述一组等价 Relation Expression，所有的 RelNode 会记录在 rels 中；
have the same calling convention；
具有相同物理属性的 Relational Expression 会记录在其成员变量 List subsets 中.

RelSet 中比较重要成员变量如下：

class RelSet {
   // 记录属于这个 RelSet 的所有 RelNode
  final List rels = new ArrayList<>();
  /**
   * Relational expressions that have a subset in this set as a child. This
   * is a multi-set. If multiple relational expressions in this set have the
   * same parent, there will be multiple entries.
   */
  final List parents = new ArrayList<>();
  //note: 具体相同物理属性的子集合（本质上 RelSubset 并不记录 RelNode，也是通过 RelSet 按物理属性过滤得到其 RelNode 子集合，见下面的 RelSubset 部分）
  final List subsets = new ArrayList<>();

  /**
   * List of {@link AbstractConverter} objects which have not yet been
   * satisfied.
   */
  final List abstractConverters = new ArrayList<>();

  /**
   * Set to the superseding set when this is found to be equivalent to another
   * set.
   * note：当发现与另一个 RelSet 有相同的语义时，设置为替代集合
   */
  RelSet equivalentSet;
  RelNode rel;

  /**
   * Variables that are set by relational expressions in this set and available for use by parent and child expressions.
   * note：在这个集合中 relational expression 设置的变量，父类和子类 expression 可用的变量
   */
  final Set variablesPropagated;

  /**
   * Variables that are used by relational expressions in this set.
   * note：在这个集合中被 relational expression 使用的变量
   */
  final Set variablesUsed;
  final int id;

  /**
   * Reentrancy flag.
   */
  boolean inMetadataQuery;
}

RelSubset

关于 RelSubset，源码中介绍如下：

Subset of an equivalence class where all relational expressions have the same physical properties.

它的特点如下：

描述一组物理属性相同的等价 Relation Expression，即它们具有相同的 Physical Properties；
每个 RelSubset 都会记录其所属的 RelSet；
RelSubset 继承自 AbstractRelNode，它也是一种 RelNode，物理属性记录在其成员变量 traitSet 中。

RelSubset 一些比较重要的成员变量如下：

public class RelSubset extends AbstractRelNode {
  /**
   * cost of best known plan (it may have improved since)
   * note: 已知最佳 plan 的 cost
   */
  RelOptCost bestCost;

  /**
   * The set this subset belongs to.
   * RelSubset 所属的 RelSet，在 RelSubset 中并不记录具体的 RelNode，直接记录在 RelSet 的 rels 中
   */
  final RelSet set;

  /**
   * best known plan
   * note: 已知的最佳 plan
   */
  RelNode best;

  /**
   * Flag indicating whether this RelSubset's importance was artificially
   * boosted.
   * note: 标志这个 RelSubset 的 importance 是否是人为地提高了
   */
  boolean boosted;

  //~ Constructors -----------------------------------------------------------
  RelSubset(
      RelOptCluster cluster,
      RelSet set,
      RelTraitSet traits) {
    super(cluster, traits); // 继承自 AbstractRelNode，会记录其相应的 traits 信息
    this.set = set;
    this.boosted = false;
    assert traits.allSimple();
    computeBestCost(cluster.getPlanner()); //note: 计算 best
    recomputeDigest(); //note: 计算 digest
  }
}

每个 RelSubset 都将会记录其最佳 plan（best）和最佳 plan 的 cost（bestCost）信息。

RuleMatch

RuleMatch 是这里对 Rule 和 RelSubset 关系的一个抽象，它会记录这两者的信息。

A match of a rule to a particular set of target relational expressions, frozen in time.

importance

importance 决定了在进行 Rule 优化时 Rule 应用的顺序，它是一个相对概念，在 VolcanoPlanner 中有两个 importance，分别是 RelSubset 和 RuleMatch 的 importance，这里先提前介绍一下。

RelSubset 的 importance

RelSubset importance 计算方法见其 api 定义（图中的 sum 改成 Math.max{}这个地方有误）：

举个例子：假设一个 RelSubset（记为 $s_0$）的 cost 是3，对应的 importance 是0.5，这个 RelNode 有两个输入（inputs），对应的 RelSubset 记为 $s_1$、$s_2$（假设 $s_1$、$s_2$ 不再有输入 RelNode），其 cost 分别为 2和5，那么 $s_1$ 的 importance 为

Importance of $s_1$ = $\frac{2}{3+2+5}$ $\cdot$ 0.5 = 0.1

Importance of $s_2$ = $\frac{5}{3+2+5}$ $\cdot$ 0.5 = 0.25

其中，2代表的是 $s_1$ 的 cost，$3+2+5$ 代表的是 $s_0$ 的 cost（本节点的 cost 加上其所有 input 的 cost）。下面看下其具体的代码实现（调用 RuleQueue 中的 recompute() 计算其 importance）：

//org.apache.calcite.plan.volcano.RuleQueue
/**
 * Recomputes the importance of the given RelSubset.
 * note：重新计算指定的 RelSubset 的 importance
 * note：如果为 true，即使 subset 没有注册，也会强制 importance 更新
 *
 * @param subset RelSubset whose importance is to be recomputed
 * @param force  if true, forces an importance update even if the subset has
 *               not been registered
 */
public void recompute(RelSubset subset, boolean force) {
  Double previousImportance = subsetImportances.get(subset);
  if (previousImportance == null) { //note: subset 还没有注册的情况下
    if (!force) { //note: 如果不是强制，可以直接先返回
      // Subset has not been registered yet. Don't worry about it.
      return;
    }

    previousImportance = Double.NEGATIVE_INFINITY;
  }

  //note: 计算器 importance 值
  double importance = computeImportance(subset);
  if (previousImportance == importance) {
    return;
  }

  //note: 缓存中更新其 importance
  updateImportance(subset, importance);
}


// 计算一个节点的 importance
double computeImportance(RelSubset subset) {
  double importance;
  if (subset == planner.root) {
    // The root always has importance = 1
    //note: root RelSubset 的 importance 为1
    importance = 1.0;
  } else {
    final RelMetadataQuery mq = subset.getCluster().getMetadataQuery();

    // The importance of a subset is the max of its importance to its
    // parents
    //note: 计算其相对于 parent 的最大 importance，多个 parent 的情况下，选择一个最大值
    importance = 0.0;
    for (RelSubset parent : subset.getParentSubsets(planner)) {
      //note: 计算这个 RelSubset 相对于 parent 的 importance
      final double childImportance =
          computeImportanceOfChild(mq, subset, parent);
      //note: 选择最大的 importance
      importance = Math.max(importance, childImportance);
    }
  }
  LOGGER.trace("Importance of [{}] is {}", subset, importance);
  return importance;
}

//note：根据 cost 计算 child 相对于 parent 的 importance（这是个相对值）
private double computeImportanceOfChild(RelMetadataQuery mq, RelSubset child,
    RelSubset parent) {
  //note: 获取 parent 的 importance
  final double parentImportance = getImportance(parent);
  //note: 获取对应的 cost 信息
  final double childCost = toDouble(planner.getCost(child, mq));
  final double parentCost = toDouble(planner.getCost(parent, mq));
  double alpha = childCost / parentCost;
  if (alpha >= 1.0) {
    // child is always less important than parent
    alpha = 0.99;
  }
  //note: 根据 cost 比列计算其 importance
  final double importance = parentImportance * alpha;
  LOGGER.trace("Importance of [{}] to its parent [{}] is {} (parent importance={}, child cost={},"
      + " parent cost={})", child, parent, importance, parentImportance, childCost, parentCost);
  return importance;
}

在 computeImportanceOfChild() 中计算 RelSubset 相对于 parent RelSubset 的 importance 时，一个比较重要的地方就是如何计算 cost，关于 cost 的计算见：

//org.apache.calcite.plan.volcano.VolcanoPlanner
//note: Computes the cost of a RelNode.
public RelOptCost getCost(RelNode rel, RelMetadataQuery mq) {
  assert rel != null : "pre-condition: rel != null";
  if (rel instanceof RelSubset) { //note: 如果是 RelSubset，证明是已经计算 cost 的 subset
    return ((RelSubset) rel).bestCost;
  }
  if (rel.getTraitSet().getTrait(ConventionTraitDef.INSTANCE)
      == Convention.NONE) {
    return costFactory.makeInfiniteCost(); //note: 这种情况下也会返回 infinite Cost
  }
  //note: 计算其 cost
  RelOptCost cost = mq.getNonCumulativeCost(rel);
  if (!zeroCost.isLt(cost)) { //note: cost 比0还小的情况
    // cost must be positive, so nudge it
    cost = costFactory.makeTinyCost();
  }
  //note: RelNode 的 cost 会把其 input 全部加上
  for (RelNode input : rel.getInputs()) {
    cost = cost.plus(getCost(input, mq));
  }
  return cost;
}

上面就是 RelSubset importance 计算的代码实现，从实现中可以发现这个特点：

越靠近 root 的 RelSubset，其 importance 越大，这个带来的好处就是在优化时，会尽量先优化靠近 root 的 RelNode，这样带来的收益也会最大。

RuleMatch 的 importance

RuleMatch 的 importance 定义为以下两个中比较大的一个（如果对应的 RelSubset 有 importance 的情况下）：

这个 RuleMatch 对应 RelSubset（这个 rule match 的 RelSubset）的 importance；
输出的 RelSubset（taget RelSubset）的 importance（如果这个 RelSubset 在 VolcanoPlanner 的缓存中存在的话）。

//org.apache.calcite.plan.volcano.VolcanoRuleMatch
/**
 * Computes the importance of this rule match.
 * note：计算 rule match 的 importance
 *
 * @return importance of this rule match
 */
double computeImportance() {
  assert rels[0] != null; //note: rels[0] 这个 Rule Match 对应的 RelSubset
  RelSubset subset = volcanoPlanner.getSubset(rels[0]);
  double importance = 0;
  if (subset != null) {
    //note: 获取 RelSubset 的 importance
    importance = volcanoPlanner.ruleQueue.getImportance(subset);
  }
  //note: Returns a guess as to which subset the result of this rule will belong to.
  final RelSubset targetSubset = guessSubset();
  if ((targetSubset != null) && (targetSubset != subset)) {
    // If this rule will generate a member of an equivalence class
    // which is more important, use that importance.
    //note: 获取 targetSubset 的 importance
    final double targetImportance =
        volcanoPlanner.ruleQueue.getImportance(targetSubset);
    if (targetImportance > importance) {
      importance = targetImportance;

      // If the equivalence class is cheaper than the target, bump up
      // the importance of the rule. A converter is an easy way to
      // make the plan cheaper, so we'd hate to miss this opportunity.
      //
      // REVIEW: jhyde, 2007/12/21: This rule seems to make sense, but
      // is disabled until it has been proven.
      //
      // CHECKSTYLE: IGNORE 3
      if ((subset != null)
          && subset.bestCost.isLt(targetSubset.bestCost)
          && false) { //note: 肯定不会进入
        importance *=
            targetSubset.bestCost.divideBy(subset.bestCost);
        importance = Math.min(importance, 0.99);
      }
    }
  }

  return importance;
}

RuleMatch 的 importance 主要是决定了在选择 RuleMatch 时，应该先处理哪一个？它本质上还是直接用的 RelSubset 的 importance。

VolcanoPlanner 处理流程

还是以前面的示例，只不过这里把优化器换成 VolcanoPlanner 来实现，通过这个示例来详细看下 VolcanoPlanner 内部的实现逻辑。

//1. 初始化 VolcanoPlanner 对象，并添加相应的 Rule
VolcanoPlanner planner = new VolcanoPlanner();
planner.addRelTraitDef(ConventionTraitDef.INSTANCE);
planner.addRelTraitDef(RelDistributionTraitDef.INSTANCE);
// 添加相应的 rule
planner.addRule(FilterJoinRule.FilterIntoJoinRule.FILTER_ON_JOIN);
planner.addRule(ReduceExpressionsRule.PROJECT_INSTANCE);
planner.addRule(PruneEmptyRules.PROJECT_INSTANCE);
// 添加相应的 ConverterRule
planner.addRule(EnumerableRules.ENUMERABLE_MERGE_JOIN_RULE);
planner.addRule(EnumerableRules.ENUMERABLE_SORT_RULE);
planner.addRule(EnumerableRules.ENUMERABLE_VALUES_RULE);
planner.addRule(EnumerableRules.ENUMERABLE_PROJECT_RULE);
planner.addRule(EnumerableRules.ENUMERABLE_FILTER_RULE);
//2. Changes a relational expression to an equivalent one with a different set of traits.
RelTraitSet desiredTraits =
    relNode.getCluster().traitSet().replace(EnumerableConvention.INSTANCE);
relNode = planner.changeTraits(relNode, desiredTraits);
//3. 通过 VolcanoPlanner 的 setRoot 方法注册相应的 RelNode，并进行相应的初始化操作
planner.setRoot(relNode);
//4. 通过动态规划算法找到 cost 最小的 plan
relNode = planner.findBestExp();

优化后的结果为：

EnumerableSort(sort0=[$0], dir0=[ASC])
  EnumerableProject(USER_ID=[$0], USER_NAME=[$1], USER_COMPANY=[$5], USER_AGE=[$2])
    EnumerableMergeJoin(condition=[=($0, $3)], joinType=[inner])
      EnumerableFilter(condition=[>($2, 30)])
        EnumerableTableScan(table=[[USERS]])
      EnumerableFilter(condition=[>($0, 10)])
        EnumerableTableScan(table=[[JOBS]])

在应用 VolcanoPlanner 时，整体分为以下四步：

初始化 VolcanoPlanner，并添加相应的 Rule（包括 ConverterRule）；
对 RelNode 做等价转换，这里只是改变其物理属性（Convention）；
通过 VolcanoPlanner 的 setRoot() 方法注册相应的 RelNode，并进行相应的初始化操作；
通过动态规划算法找到 cost 最小的 plan；

下面来分享一下上面的详细流程。

1. VolcanoPlanner 初始化

在这里总共有三步，分别是 VolcanoPlanner 初始化，addRelTraitDef() 添加 RelTraitDef，addRule() 添加 rule，先看下 VolcanoPlanner 的初始化：

//org.apache.calcite.plan.volcano.VolcanoPlanner
/**
 * Creates a uninitialized VolcanoPlanner. To fully initialize it, the caller must register the desired set of relations, rules, and calling conventions.
 * note: 创建一个没有初始化的 VolcanoPlanner，如果要进行初始化，调用者必须注册 set of relations、rules、calling conventions.
 */
public VolcanoPlanner() {
  this(null, null);
}

/**
 * Creates a {@code VolcanoPlanner} with a given cost factory.
 * note: 创建 VolcanoPlanner 实例，并制定 costFactory（默认为 VolcanoCost.FACTORY）
 */
public VolcanoPlanner(RelOptCostFactory costFactory, //
    Context externalContext) {
  super(costFactory == null ? VolcanoCost.FACTORY : costFactory, //
      externalContext);
  this.zeroCost = this.costFactory.makeZeroCost();
}

这里其实并没有做什么，只是做了一些简单的初始化，如果要想设置相应 RelTraitDef 的话，需要调用 addRelTraitDef() 进行添加，其实现如下：

//org.apache.calcite.plan.volcano.VolcanoPlanner
//note: 添加 RelTraitDef
@Override public boolean addRelTraitDef(RelTraitDef relTraitDef) {
  return !traitDefs.contains(relTraitDef) && traitDefs.add(relTraitDef);
}

如果要给 VolcanoPlanner 添加 Rule 的话，需要调用 addRule() 进行添加，在这个方法里重点做的一步是将具体的 RelNode 与 RelOptRuleOperand 之间的关系记录下来，记录到 classOperands 中，相当于在优化时，哪个 RelNode 可以应用哪些 Rule 都是记录在这个缓存里的。其实现如下：

//org.apache.calcite.plan.volcano.VolcanoPlanner
//note: 添加 rule
public boolean addRule(RelOptRule rule) {
  if (locked) {
    return false;
  }
  if (ruleSet.contains(rule)) {
    // Rule already exists.
    return false;
  }
  final boolean added = ruleSet.add(rule);
  assert added;

  final String ruleName = rule.toString();
  //note: 这里的 ruleNames 允许重复的 key 值，但是这里还是要求 rule description 保持唯一的，与 rule 一一对应
  if (ruleNames.put(ruleName, rule.getClass())) {
    Set x = ruleNames.get(ruleName);
    if (x.size() > 1) {
      throw new RuntimeException("Rule description '" + ruleName
          + "' is not unique; classes: " + x);
    }
  }

  //note: 注册一个 rule 的 description（保存在 mapDescToRule 中）
  mapRuleDescription(rule);

  // Each of this rule's operands is an 'entry point' for a rule call. Register each operand against all concrete sub-classes that could match it.
  //note: 记录每个 sub-classes 与 operand 的关系（如果能 match 的话，就记录一次）。一个 RelOptRuleOperand 只会有一个 class 与之对应，这里找的是 subclass
  for (RelOptRuleOperand operand : rule.getOperands()) {
    for (Class subClass
        : subClasses(operand.getMatchedClass())) {
      classOperands.put(subClass, operand);
    }
  }

  // If this is a converter rule, check that it operates on one of the
  // kinds of trait we are interested in, and if so, register the rule
  // with the trait.
  //note: 对于 ConverterRule 的操作，如果其 ruleTraitDef 类型包含在我们初始化的 traitDefs 中，
  //note: 就注册这个 converterRule 到 ruleTraitDef 中
  //note: 如果不包含 ruleTraitDef，这个 ConverterRule 在本次优化的过程中是用不到的
  if (rule instanceof ConverterRule) {
    ConverterRule converterRule = (ConverterRule) rule;

    final RelTrait ruleTrait = converterRule.getInTrait();
    final RelTraitDef ruleTraitDef = ruleTrait.getTraitDef();
    if (traitDefs.contains(ruleTraitDef)) { //note: 这里注册好像也没有用到
      ruleTraitDef.registerConverterRule(this, converterRule);
    }
  }

  return true;
}

2. RelNode changeTraits

这里分为两步：

通过 RelTraitSet 的 replace() 方法，将 RelTraitSet 中对应的 RelTraitDef 做对应的更新，其他的 RelTrait 不变；
这一步简单来说就是：Changes a relational expression to an equivalent one with a different set of traits，对相应的 RelNode 做 converter 操作，这里实际上也会做很多的内容，这部分会放在第三步讲解，主要是 registerImpl() 方法的实现。

3. VolcanoPlanner setRoot

VolcanoPlanner 会调用 setRoot() 方法注册相应的 Root RelNode，并进行一系列 Volcano 必须的初始化操作，很多的操作都是在这里实现的，这里来详细看下其实现。

//org.apache.calcite.plan.volcano.VolcanoPlanner
public void setRoot(RelNode rel) {
  // We're registered all the rules, and therefore RelNode classes,
  // we're interested in, and have not yet started calling metadata providers.
  // So now is a good time to tell the metadata layer what to expect.
  registerMetadataRels();

  //note: 注册相应的 RelNode，会做一系列的初始化操作, RelNode 会有对应的 RelSubset
  this.root = registerImpl(rel, null);
  if (this.originalRoot == null) {
    this.originalRoot = rel;
  }

  // Making a node the root changes its importance.
  //note: 重新计算 root subset 的 importance
  this.ruleQueue.recompute(this.root);
  //Ensures that the subset that is the root relational expression contains converters to all other subsets in its equivalence set.
  ensureRootConverters();
}

对于 setRoot() 方法来说，核心的处理流程是在 registerImpl() 方法中，在这个方法会进行相应的初始化操作（包括 RelNode 到 RelSubset 的转换、计算 RelSubset 的 importance 等），其他的方法在上面有相应的备注，这里我们看下 registerImpl() 具体做了哪些事情：

//org.apache.calcite.plan.volcano.VolcanoPlanner
/**
 * Registers a new expression exp and queues up rule matches.
 * If set is not null, makes the expression part of that
 * equivalence set. If an identical expression is already registered, we
 * don't need to register this one and nor should we queue up rule matches.
 *
 * note：注册一个新的 expression；对 rule match 进行排队；
 * note：如果 set 不为 null，那么就使 expression 成为等价集合（RelSet）的一部分
 * note：rel：必须是 RelSubset 或者未注册的 RelNode
 * @param rel relational expression to register. Must be either a
 *         {@link RelSubset}, or an unregistered {@link RelNode}
 * @param set set that rel belongs to, or null
 * @return the equivalence-set
 */
private RelSubset registerImpl(
    RelNode rel,
    RelSet set) {
  if (rel instanceof RelSubset) { //note: 如果是 RelSubset 类型，已经注册过了
    return registerSubset(set, (RelSubset) rel); //note: 做相应的 merge
  }

  assert !isRegistered(rel) : "already been registered: " + rel;
  if (rel.getCluster().getPlanner() != this) { //note: cluster 中 planner 与这里不同
    throw new AssertionError("Relational expression " + rel
        + " belongs to a different planner than is currently being used.");
  }

  // Now is a good time to ensure that the relational expression
  // implements the interface required by its calling convention.
  //note: 确保 relational expression 可以实施其 calling convention 所需的接口
  //note: 获取 RelNode 的 RelTraitSet
  final RelTraitSet traits = rel.getTraitSet();
  //note: 获取其 ConventionTraitDef
  final Convention convention = traits.getTrait(ConventionTraitDef.INSTANCE);
  assert convention != null;
  if (!convention.getInterface().isInstance(rel)
      && !(rel instanceof Converter)) {
    throw new AssertionError("Relational expression " + rel
        + " has calling-convention " + convention
        + " but does not implement the required interface '"
        + convention.getInterface() + "' of that convention");
  }
  if (traits.size() != traitDefs.size()) {
    throw new AssertionError("Relational expression " + rel
        + " does not have the correct number of traits: " + traits.size()
        + " != " + traitDefs.size());
  }

  // Ensure that its sub-expressions are registered.
  //note: 其实现在 AbstractRelNode 对应的方法中，实际上调用的还是 ensureRegistered 方法进行注册
  //note: 将 RelNode 的所有 inputs 注册到 planner 中
  //note: 这里会递归调用 registerImpl 注册 relNode 与 RelSet，直到其 inputs 全部注册
  //note: 返回的是一个 RelSubset 类型
  rel = rel.onRegister(this);

  // Record its provenance. (Rule call may be null.)
  //note: 记录 RelNode 的来源
  if (ruleCallStack.isEmpty()) { //note: 不知道来源时
    provenanceMap.put(rel, Provenance.EMPTY);
  } else { //note: 来自 rule 触发的情况
    final VolcanoRuleCall ruleCall = ruleCallStack.peek();
    provenanceMap.put(
        rel,
        new RuleProvenance(
            ruleCall.rule,
            ImmutableList.copyOf(ruleCall.rels),
            ruleCall.id));
  }

  // If it is equivalent to an existing expression, return the set that
  // the equivalent expression belongs to.
  //note: 根据 RelNode 的 digest（摘要，全局唯一）判断其是否已经有对应的 RelSubset，有的话直接放回
  String key = rel.getDigest();
  RelNode equivExp = mapDigestToRel.get(key);
  if (equivExp == null) { //note: 还没注册的情况
    // do nothing
  } else if (equivExp == rel) {//note: 已经有其缓存信息
    return getSubset(rel);
  } else {
    assert RelOptUtil.equal(
        "left", equivExp.getRowType(),
        "right", rel.getRowType(),
        Litmus.THROW);
    RelSet equivSet = getSet(equivExp); //note: 有 RelSubset 但对应的 RelNode 不同时，这里对其 RelSet 做下 merge
    if (equivSet != null) {
      LOGGER.trace(
          "Register: rel#{} is equivalent to {}", rel.getId(), equivExp.getDescription());
      return registerSubset(set, getSubset(equivExp));
    }
  }

  //note： Converters are in the same set as their children.
  if (rel instanceof Converter) {
    final RelNode input = ((Converter) rel).getInput();
    final RelSet childSet = getSet(input);
    if ((set != null)
        && (set != childSet)
        && (set.equivalentSet == null)) {
      LOGGER.trace(
          "Register #{} {} (and merge sets, because it is a conversion)",
          rel.getId(), rel.getDigest());
      merge(set, childSet);
      registerCount++;

      // During the mergers, the child set may have changed, and since
      // we're not registered yet, we won't have been informed. So
      // check whether we are now equivalent to an existing
      // expression.
      if (fixUpInputs(rel)) {
        rel.recomputeDigest();
        key = rel.getDigest();
        RelNode equivRel = mapDigestToRel.get(key);
        if ((equivRel != rel) && (equivRel != null)) {
          assert RelOptUtil.equal(
              "rel rowtype",
              rel.getRowType(),
              "equivRel rowtype",
              equivRel.getRowType(),
              Litmus.THROW);

          // make sure this bad rel didn't get into the
          // set in any way (fixupInputs will do this but it
          // doesn't know if it should so it does it anyway)
          set.obliterateRelNode(rel);

          // There is already an equivalent expression. Use that
          // one, and forget about this one.
          return getSubset(equivRel);
        }
      }
    } else {
      set = childSet;
    }
  }

  // Place the expression in the appropriate equivalence set.
  //note: 把 expression 放到合适的 等价集 中
  //note: 如果 RelSet 不存在，这里会初始化一个 RelSet
  if (set == null) {
    set = new RelSet(
        nextSetId++,
        Util.minus(
            RelOptUtil.getVariablesSet(rel),
            rel.getVariablesSet()),
        RelOptUtil.getVariablesUsed(rel));
    this.allSets.add(set);
  }

  // Chain to find 'live' equivalent set, just in case several sets are
  // merging at the same time.
  //note: 递归查询，一直找到最开始的 语义相等的集合，防止不同集合同时被 merge
  while (set.equivalentSet != null) {
    set = set.equivalentSet;
  }

  // Allow each rel to register its own rules.
  registerClass(rel);

  registerCount++;
  //note: 初始时是 0
  final int subsetBeforeCount = set.subsets.size();
  //note: 向等价集中添加相应的 RelNode，并更新其 best 信息
  RelSubset subset = addRelToSet(rel, set);

  //note: 缓存相关信息，返回的 key 之前对应的 value
  final RelNode xx = mapDigestToRel.put(key, rel);
  assert xx == null || xx == rel : rel.getDigest();

  LOGGER.trace("Register {} in {}", rel.getDescription(), subset.getDescription());

  // This relational expression may have been registered while we
  // recursively registered its children. If this is the case, we're done.
  if (xx != null) {
    return subset;
  }

  // Create back-links from its children, which makes children more
  // important.
  //note: 如果是 root，初始化其 importance 为 1.0
  if (rel == this.root) {
    ruleQueue.subsetImportances.put(
        subset,
        1.0); // todo: remove
  }
  //note: 将 Rel 的 input 对应的 RelSubset 的 parents 设置为当前的 Rel
  //note: 也就是说，一个 RelNode 的 input 为其对应 RelSubset 的 children 节点
  for (RelNode input : rel.getInputs()) {
    RelSubset childSubset = (RelSubset) input;
    childSubset.set.parents.add(rel);

    // Child subset is more important now a new parent uses it.
    //note: 重新计算 RelSubset 的 importance
    ruleQueue.recompute(childSubset);
  }
  if (rel == this.root) {// TODO: 2019-03-11 这里为什么要删除呢？
    ruleQueue.subsetImportances.remove(subset);
  }

  // Remember abstract converters until they're satisfied
  //note: 如果是 AbstractConverter 示例，添加到 abstractConverters 集合中
  if (rel instanceof AbstractConverter) {
    set.abstractConverters.add((AbstractConverter) rel);
  }

  // If this set has any unsatisfied converters, try to satisfy them.
  //note: check set.abstractConverters
  checkForSatisfiedConverters(set, rel);

  // Make sure this rel's subset importance is updated
  //note: 强制更新（重新计算） subset 的 importance
  ruleQueue.recompute(subset, true);

  //note: 触发所有匹配的 rule，这里是添加到对应的 RuleQueue 中
  // Queue up all rules triggered by this relexp's creation.
  fireRules(rel, true);

  // It's a new subset.
  //note: 如果是一个 new subset，再做一次触发
  if (set.subsets.size() > subsetBeforeCount) {
    fireRules(subset, true);
  }

  return subset;
}

registerImpl() 处理流程比较复杂，其方法实现，可以简单总结为以下几步：

在经过最上面的一些验证之后，会通过 rel.onRegister(this) 这步操作，递归地调用 VolcanoPlanner 的 ensureRegistered() 方法对其 inputs RelNode 进行注册，最后还是调用 registerImpl() 方法先注册叶子节点，然后再父节点，最后到根节点；
根据 RelNode 的 digest 信息（一般这个对于 RelNode 来说是全局唯一的），判断其是否已经存在 mapDigestToRel 缓存中，如果存在的话，那么判断会 RelNode 是否相同，如果相同的话，证明之前已经注册过，直接通过 getSubset() 返回其对应的 RelSubset 信息，否则就对其 RelSubset 做下 merge；
如果 RelNode 对应的 RelSet 为 null，这里会新建一个 RelSet，并通过 addRelToSet() 将 RelNode 添加到 RelSet 中，并且更新 VolcanoPlanner 的 mapRel2Subset 缓存记录（RelNode 与 RelSubset 的对应关系），在 addRelToSet() 的最后还会更新 RelSubset 的 best plan 和 best cost（每当往一个 RelSubset 添加相应的 RelNode 时，都会判断这个 RelNode 是否代表了 best plan，如果是的话，就更新）；
将这个 RelNode 的 inputs 设置为其对应 RelSubset 的 children 节点（实际的操作时，是在 RelSet 的 parents 中记录其父节点）；
强制重新计算当前 RelNode 对应 RelSubset 的 importance；
如果这个 RelSubset 是新建的，会再触发一次 fireRules() 方法（会先对 RelNode 触发一次），遍历找到所有可以 match 的 Rule，对每个 Rule 都会创建一个 VolcanoRuleMatch 对象（会记录 RelNode、RelOptRuleOperand 等信息，RelOptRuleOperand 中又会记录 Rule 的信息），并将这个 VolcanoRuleMatch 添加到对应的 RuleQueue 中（就是前面图中的那个 RuleQueue）。

这里，来看下 fireRules() 方法的实现，它的目的是把配置的 RuleMatch 添加到 RuleQueue 中，其实现如下：

//org.apache.calcite.plan.volcano.VolcanoPlanner
/**
 * Fires all rules matched by a relational expression.
 * note： 触发满足这个 relational expression 的所有 rules
 *
 * @param rel      Relational expression which has just been created (or maybe
 *                 from the queue)
 * @param deferred If true, each time a rule matches, just add an entry to
 *                 the queue.
 */
void fireRules(
    RelNode rel,
    boolean deferred) {
  for (RelOptRuleOperand operand : classOperands.get(rel.getClass())) {
    if (operand.matches(rel)) { //note: rule 匹配的情况
      final VolcanoRuleCall ruleCall;
      if (deferred) { //note: 这里默认都是 true，会把 RuleMatch 添加到 queue 中
        ruleCall = new DeferringRuleCall(this, operand);
      } else {
        ruleCall = new VolcanoRuleCall(this, operand);
      }
      ruleCall.match(rel);
    }
  }
}

/**
 * A rule call which defers its actions. Whereas {@link RelOptRuleCall}
 * invokes the rule when it finds a match, a DeferringRuleCall
 * creates a {@link VolcanoRuleMatch} which can be invoked later.
 */
private static class DeferringRuleCall extends VolcanoRuleCall {
  DeferringRuleCall(
      VolcanoPlanner planner,
      RelOptRuleOperand operand) {
    super(planner, operand);
  }

  /**
   * Rather than invoking the rule (as the base method does), creates a
   * {@link VolcanoRuleMatch} which can be invoked later.
   * note：不是直接触发 rule，而是创建一个后续可以被触发的 VolcanoRuleMatch
   */
  protected void onMatch() {
    final VolcanoRuleMatch match =
        new VolcanoRuleMatch(
            volcanoPlanner,
            getOperand0(), //note: 其实就是 operand
            rels,
            nodeInputs);
    volcanoPlanner.ruleQueue.addMatch(match);
  }
}

在上面的方法中，对于匹配的 Rule，将会创建一个 VolcanoRuleMatch 对象，之后再把这个 VolcanoRuleMatch 对象添加到对应的 RuleQueue 中。

//org.apache.calcite.plan.volcano.RuleQueue
/**
 * Adds a rule match. The rule-matches are automatically added to all
 * existing {@link PhaseMatchList per-phase rule-match lists} which allow
 * the rule referenced by the match.
 * note：添加一个 rule match（添加到所有现存的 match phase 中）
 */
void addMatch(VolcanoRuleMatch match) {
  final String matchName = match.toString();
  for (PhaseMatchList matchList : matchListMap.values()) {
    if (!matchList.names.add(matchName)) {
      // Identical match has already been added.
      continue;
    }

    String ruleClassName = match.getRule().getClass().getSimpleName();

    Set phaseRuleSet = phaseRuleMapping.get(matchList.phase);
    //note: 如果 phaseRuleSet 不为 ALL_RULES，并且 phaseRuleSet 不包含这个 ruleClassName 时，就跳过(其他三个阶段都属于这个情况)
    //note: 在添加 rule match 时，phaseRuleSet 可以控制哪些 match 可以添加、哪些不能添加
    //note: 这里的话，默认只有处在 OPTIMIZE 阶段的 PhaseMatchList 可以添加相应的 rule match
    if (phaseRuleSet != ALL_RULES) {
      if (!phaseRuleSet.contains(ruleClassName)) {
        continue;
      }
    }

    LOGGER.trace("{} Rule-match queued: {}", matchList.phase.toString(), matchName);

    matchList.list.add(match);

    matchList.matchMap.put(
        planner.getSubset(match.rels[0]), match);
  }
}

到这里 VolcanoPlanner 需要初始化的内容都初始化完成了，下面就到了具体的优化部分。

4. VolcanoPlanner findBestExp

VolcanoPlanner 的 findBestExp() 是具体进行优化的地方，先介绍一下这里的优化策略（每进行一次迭代，cumulativeTicks 加1，它记录了总的迭代次数）：

第一次找到可执行计划的迭代次数记为 firstFiniteTick，其对应的 Cost 暂时记为 BestCost；
制定下一次优化要达到的目标为 BestCost*0.9，再根据 firstFiniteTick 及当前的迭代次数计算 giveUpTick，这个值代表的意思是：如果迭代次数超过这个值还没有达到优化目标，那么将会放弃迭代，认为当前的 plan 就是 best plan；
如果 RuleQueue 中 RuleMatch 为空，那么也会退出迭代，认为当前的 plan 就是 best plan；
在每次迭代时都会从 RuleQueue 中选择一个 RuleMatch，策略是选择一个最高 importance 的 RuleMatch，可以保证在每次规则优化时都是选择当前优化效果最好的 Rule 去优化；
最后根据 best plan，构建其对应的 RelNode。

上面就是 findBestExp() 主要设计理念，这里来看其具体的实现：

//org.apache.calcite.plan.volcano.VolcanoPlanner
/**
 * Finds the most efficient expression to implement the query given via
 * {@link org.apache.calcite.plan.RelOptPlanner#setRoot(org.apache.calcite.rel.RelNode)}.
 *
 * note：找到最有效率的 relational expression，这个算法包含一系列阶段，每个阶段被触发的 rules 可能不同
 * The algorithm executes repeatedly in a series of phases. In each phase
 * the exact rules that may be fired varies. The mapping of phases to rule
 * sets is maintained in the {@link #ruleQueue}.
 *
 * note：在每个阶段，planner 都会初始化这个 RelSubset 的 importance，planner 会遍历 rule queue 中 rules 直到：
 * note：1. rule queue 变为空；
 * note：2. 对于 ambitious planner，最近 cost 不再提高时（具体来说，第一次找到一个可执行计划时，需要达到需要迭代总数的10%或更大）；
 * note：3. 对于 non-ambitious planner，当找到一个可执行的计划就行；
 * 
In each phase, the planner sets the initial importance of the existing
 * RelSubSets ({@link #setInitialImportance()}). The planner then iterates
 * over the rule matches presented by the rule queue until:
 *
 * 

 * The rule queue becomes empty.
 * For ambitious planners: No improvements to the plan have been made
 * recently (specifically within a number of iterations that is 10% of the
 * number of iterations necessary to first reach an implementable plan or 25
 * iterations whichever is larger).
 * For non-ambitious planners: When an implementable plan is found.
 * 
 *
 * note：此外，如果每10次迭代之后，没有一个可实现的计划，包含 logical RelNode 的 RelSubSets 将会通过 injectImportanceBoost 给一个 importance；
 * Furthermore, after every 10 iterations without an implementable plan,
 * RelSubSets that contain only logical RelNodes are given an importance
 * boost via {@link #injectImportanceBoost()}. Once an implementable plan is
 * found, the artificially raised importance values are cleared (see
 * {@link #clearImportanceBoost()}).
 *
 * @return the most efficient RelNode tree found for implementing the given
 * query
 */
public RelNode findBestExp() {
  //note: 确保 root relational expression 的 subset（RelSubset）在它的等价集（RelSet）中包含所有 RelSubset 的 converter
  //note: 来保证 planner 从其他的 subsets 找到的实现方案可以转换为 root，否则可能因为 convention 不同，无法实施
  ensureRootConverters();
  //note: materialized views 相关，这里可以先忽略~
  registerMaterializations();
  int cumulativeTicks = 0; //note: 四个阶段通用的变量
  //note: 不同的阶段，总共四个阶段，实际上只有 OPTIMIZE 这个阶段有效，因为其他阶段不会有 RuleMatch
  for (VolcanoPlannerPhase phase : VolcanoPlannerPhase.values()) {
    //note: 在不同的阶段，初始化 RelSubSets 相应的 importance
    //note: root 节点往下子节点的 importance 都会被初始化
    setInitialImportance();

    //note: 默认是 VolcanoCost
    RelOptCost targetCost = costFactory.makeHugeCost();
    int tick = 0;
    int firstFiniteTick = -1;
    int splitCount = 0;
    int giveUpTick = Integer.MAX_VALUE;

    while (true) {
      ++tick;
      ++cumulativeTicks;
      //note: 第一次运行是 false，两个不是一个对象，一个是 costFactory.makeHugeCost， 一个是 costFactory.makeInfiniteCost
      //note: 如果低于目标 cost，这里再重新设置一个新目标、新的 giveUpTick
      if (root.bestCost.isLe(targetCost)) {
        //note: 本阶段第一次运行，目的是为了调用 clearImportanceBoost 方法，清除相应的 importance 信息
        if (firstFiniteTick < 0) {
          firstFiniteTick = cumulativeTicks;

          //note: 对于那些手动提高 importance 的 RelSubset 进行重新计算
          clearImportanceBoost();
        }
        if (ambitious) {
          // Choose a slightly more ambitious target cost, and
          // try again. If it took us 1000 iterations to find our
          // first finite plan, give ourselves another 100
          // iterations to reduce the cost by 10%.
          //note: 设置 target 为当前 best cost 的 0.9，调整相应的目标，再进行优化
          targetCost = root.bestCost.multiplyBy(0.9);
          ++splitCount;
          if (impatient) {
            if (firstFiniteTick < 10) {
              // It's possible pre-processing can create
              // an implementable plan -- give us some time
              // to actually optimize it.
              //note: 有可能在 pre-processing 阶段就实现一个 implementable plan，所以先设置一个值，后面再去优化
              giveUpTick = cumulativeTicks + 25;
            } else {
              giveUpTick =
                  cumulativeTicks
                      + Math.max(firstFiniteTick / 10, 25);
            }
          }
        } else {
          break;
        }
      //note: 最近没有任何进步（超过 giveUpTick 限制，还没达到目标值），直接采用当前的 best plan
      } else if (cumulativeTicks > giveUpTick) {
        // We haven't made progress recently. Take the current best.
        break;
      } else if (root.bestCost.isInfinite() && ((tick % 10) == 0)) {
        injectImportanceBoost();
      }

      LOGGER.debug("PLANNER = {}; TICK = {}/{}; PHASE = {}; COST = {}",
          this, cumulativeTicks, tick, phase.toString(), root.bestCost);

      VolcanoRuleMatch match = ruleQueue.popMatch(phase);
      //note: 如果没有规则，会直接退出当前的阶段
      if (match == null) {
        break;
      }

      assert match.getRule().matches(match);
      //note: 做相应的规则匹配
      match.onMatch();

      // The root may have been merged with another
      // subset. Find the new root subset.
      root = canonize(root);
    }

    //note: 当期阶段完成，移除 ruleQueue 中记录的 rule-match list
    ruleQueue.phaseCompleted(phase);
  }
  if (LOGGER.isTraceEnabled()) {
    StringWriter sw = new StringWriter();
    final PrintWriter pw = new PrintWriter(sw);
    dump(pw);
    pw.flush();
    LOGGER.trace(sw.toString());
  }
  //note: 根据 plan 构建其 RelNode 树
  RelNode cheapest = root.buildCheapestPlan(this);
  if (LOGGER.isDebugEnabled()) {
    LOGGER.debug(
        "Cheapest plan:\n{}", RelOptUtil.toString(cheapest, SqlExplainLevel.ALL_ATTRIBUTES));

    LOGGER.debug("Provenance:\n{}", provenance(cheapest));
  }
  return cheapest;
}

整体的流程正如前面所述，这里来看下 RuleQueue 中 popMatch() 方法的实现，它的目的是选择 the highest importance 的 RuleMatch，这个方法的实现如下：

//org.apache.calcite.plan.volcano.RuleQueue
/**
 * Removes the rule match with the highest importance, and returns it.
 *
 * note：返回最高 importance 的 rule，并从 Rule Match 中移除（处理过后的就移除）
 * note：如果集合为空，就返回 null
 * Returns {@code null} if there are no more matches.
 *
 * Note that the VolcanoPlanner may still decide to reject rule matches
 * which have become invalid, say if one of their operands belongs to an
 * obsolete set or has importance=0.
 *
 * @throws java.lang.AssertionError if this method is called with a phase
 *                              previously marked as completed via
 *                              {@link #phaseCompleted(VolcanoPlannerPhase)}.
 */
VolcanoRuleMatch popMatch(VolcanoPlannerPhase phase) {
  dump();

  //note: 选择当前阶段对应的 PhaseMatchList
  PhaseMatchList phaseMatchList = matchListMap.get(phase);
  if (phaseMatchList == null) {
    throw new AssertionError("Used match list for phase " + phase
        + " after phase complete");
  }

  final List matchList = phaseMatchList.list;
  VolcanoRuleMatch match;
  for (;;) {
    //note: 按照前面的逻辑只有在 OPTIMIZE 阶段，PhaseMatchList 才不为空，其他阶段都是空
    // 参考 addMatch 方法
    if (matchList.isEmpty()) {
      return null;
    }
    if (LOGGER.isTraceEnabled()) {
      matchList.sort(MATCH_COMPARATOR);
      match = matchList.remove(0);

      StringBuilder b = new StringBuilder();
      b.append("Sorted rule queue:");
      for (VolcanoRuleMatch match2 : matchList) {
        final double importance = match2.computeImportance();
        b.append("\n");
        b.append(match2);
        b.append(" importance ");
        b.append(importance);
      }

      LOGGER.trace(b.toString());
    } else { //note: 直接遍历找到 importance 最大的 match（上面先做排序，是为了输出日志）
      // If we're not tracing, it's not worth the effort of sorting the
      // list to find the minimum.
      match = null;
      int bestPos = -1;
      int i = -1;
      for (VolcanoRuleMatch match2 : matchList) {
        ++i;
        if (match == null
            || MATCH_COMPARATOR.compare(match2, match) < 0) {
          bestPos = i;
          match = match2;
        }
      }
      match = matchList.remove(bestPos);
    }

    if (skipMatch(match)) {
      LOGGER.debug("Skip match: {}", match);
    } else {
      break;
    }
  }

  // A rule match's digest is composed of the operand RelNodes' digests,
  // which may have changed if sets have merged since the rule match was
  // enqueued.
  //note: 重新计算一下这个 RuleMatch 的 digest
  match.recomputeDigest();

  //note: 从 phaseMatchList 移除这个 RuleMatch
  phaseMatchList.matchMap.remove(
      planner.getSubset(match.rels[0]), match);

  LOGGER.debug("Pop match: {}", match);
  return match;
}

到这里，我们就把 VolcanoPlanner 的优化讲述完了，当然并没有面面俱到所有的细节，VolcanoPlanner 的整体处理图如下：

一些思考

1. 初始化 RuleQueue 时，添加的 one useless rule name 有什么用？

在初始化 RuleQueue 时，会给 VolcanoPlanner 的四个阶段 PRE_PROCESS_MDR, PRE_PROCESS, OPTIMIZE, CLEANUP 都初始化一个 PhaseMatchList 对象（记录这个阶段对应的 RuleMatch），这时候会给其中的三个阶段添加一个 useless rule，如下所示：

protected VolcanoPlannerPhaseRuleMappingInitializer
    getPhaseRuleMappingInitializer() {
  return phaseRuleMap -> {
    // Disable all phases except OPTIMIZE by adding one useless rule name.
    //note: 通过添加一个无用的 rule name 来 disable 优化器的其他三个阶段
    phaseRuleMap.get(VolcanoPlannerPhase.PRE_PROCESS_MDR).add("xxx");
    phaseRuleMap.get(VolcanoPlannerPhase.PRE_PROCESS).add("xxx");
    phaseRuleMap.get(VolcanoPlannerPhase.CLEANUP).add("xxx");
  };
}

开始时还困惑这个什么用？后来看到下面的代码基本就明白了

for (VolcanoPlannerPhase phase : VolcanoPlannerPhase.values()) {
  // empty phases get converted to "all rules"
  //note: 如果阶段对应的 rule set 为空，那么就给这个阶段对应的 rule set 添加一个 【ALL_RULES】
  //也就是只有 OPTIMIZE 这个阶段对应的会添加 ALL_RULES
  if (phaseRuleMapping.get(phase).isEmpty()) {
    phaseRuleMapping.put(phase, ALL_RULES);
  }
}

后面在调用 RuleQueue 的 addMatch() 方法会做相应的判断，如果 phaseRuleSet 不为 ALL_RULES，并且 phaseRuleSet 不包含这个 ruleClassName 时，那么就跳过这个 RuleMatch，也就是说实际上只有 OPTIMIZE 这个阶段是发挥作用的，其他阶段没有添加任何 RuleMatch。

2. 四个 phase 实际上只用了 1个阶段，为什么要设置4个阶段？

VolcanoPlanner 的四个阶段 PRE_PROCESS_MDR, PRE_PROCESS, OPTIMIZE, CLEANUP，实际只有 OPTIMIZE 进行真正的优化操作，其他阶段并没有，这里自己是有一些困惑的：

为什么要分为4个阶段，在添加 RuleMatch 时，是向四个阶段同时添加，这个设计有什么好处？为什么要优化四次？
设计了4个阶段，为什么默认只用了1个？

这两个问题，暂时也没有头绪，有想法的，欢迎交流。

这部分的内容比较多，到这里 Calcite 主要处理流程的文章也终于梳理完了，因为是初次接触，文章理解有误的地方，欢迎各位指教~

附上上一篇文章：Apache Calcite 处理流程详解（一）。

参考

HepPlanner源码分析——Calcite；
SQL 查询优化原理与 Volcano Optimizer 介绍；
高级数据库十六：查询优化器（二）；
【SQL】SQL优化器原理——查询优化器综述；
SparkSQL – 从0到1认识Catalyst；
BigData－‘基于代价优化’究竟是怎么一回事？；
Cost-based Query Optimization in Apache Phoenix using Apache Calcite；
The Volcano Optimizer Generator: Extensibility and Efficient Search：Volcano 模型的经典论文；
The Cascades Framework for Query Optimization：Cascades 模型的经典论文。

Apache Calcite 处理流程详解（一）

2019-03-07T12:40:38.000Z

关于 Apache Calcite 的简单介绍可以参考 Apache Calcite：Hadoop 中新型大数据查询引擎这篇文章，Calcite 一开始设计的目标就是 one size fits all，它希望能为不同计算存储引擎提供统一的 SQL 查询引擎，当然 Calcite 并不仅仅是一个简单的 SQL 查询引擎，在论文 Apache Calcite: A Foundational Framework for Optimized Query Processing Over Heterogeneous Data Sources 的摘要（摘要见下面）部分，关于 Calcite 的核心点有简单的介绍，Calcite 的架构有三个特点：flexible, embeddable, and extensible，就是灵活性、组件可插拔、可扩展，它的 SQL Parser 层、Optimizer 层等都可以单独使用，这也是 Calcite 受总多开源框架欢迎的原因之一。

Apache Calcite is a foundational software framework that provides query processing, optimization, and query language support to many popular open-source data processing systems such as Apache Hive, Apache Storm, Apache Flink, Druid, and MapD. Calcite’s architecture consists of

a modular and extensible query optimizer with hundreds of built-in optimization rules,

a query processor capable of processing a variety of query languages,

an adapter architecture designed for extensibility,

and support for heterogeneous data models and stores (relational, semi-structured, streaming, and geospatial).
This flexible, embeddable, and extensible architecture is what makes Calcite an attractive choice for adoption in bigdata frameworks. It is an active project that continues to introduce support for the new types of data sources, query languages, and approaches to query processing and optimization.

Calcite 概念

在介绍 Calcite 架构之前，先来看下与 Calcite 相关的基础性内容。

关系代数的基本知识

关系代数是关系型数据库操作的理论基础，关系代数支持并、差、笛卡尔积、投影和选择等基本运算。关系代数也是 Calcite 的核心，任何一个查询都可以表示成由关系运算符组成的树。在 Calcite 中，它会先将 SQL 转换成关系表达式（relational expression），然后通过规则匹配（rules match）进行相应的优化，优化会有一个成本（cost）模型为参考。

这里先看下关系代数相关内容，这对于理解 Calcite 很有帮助，特别是 Calcite Optimizer 这块的内容，关系代数的基础可以参考这篇文章 SQL 形式化语言——关系代数，简单总结如下：

名称	英文	符号	说明
选择	select	σ	类似于 SQL 中的 where
投影	project	Π	类似于 SQL 中的 select
并	union	∪	类似于 SQL 中的 union
集合差	set-difference	-	SQL中没有对应的操作符
笛卡儿积	Cartesian-product	×	类似于 SQL 中不带 on 条件的 inner join
重命名	rename	ρ	类似于 SQL 中的 as
集合交	intersection	∩	SQL中没有对应的操作符
自然连接	natural join	⋈	类似于 SQL 中的 inner join
赋值	assignment	←

查询优化

查询优化主要是围绕着 等价交换 的原则做相应的转换，这部分可以参考【《数据库系统概念（中文第六版）》第13章——查询优化】，关于查询优化理论知识，这里就不再详述，列出一些个人不错不错的博客，大家可以参考一下：

Calcite 中的一些概念

Calcite 抛出的概念非常多，笔者最开始在看代码时就被这些概念绕得云里雾里，这时候先从代码的细节里跳出来，先把这些概念理清楚、归归类后再去看代码，思路就清晰很多，因此，在介绍 Calcite 整体实现前，先把这些概念梳理一下，需要对这些概念有个基本的理解，相关的概念如下图所示：

整理如下表所示：

类型	描述	特点
RelOptRule	transforms an expression into another。对 expression 做等价转换	根据传递给它的 RelOptRuleOperand 来对目标 RelNode 树进行规则匹配，匹配成功后，会再次调用 `matches()` 方法（默认返回真）进行进一步检查。如果 `mathes()` 结果为真，则调用 `onMatch()` 进行转换。
ConverterRule	Abstract base class for a rule which converts from one calling convention to another without changing semantics.	它是 RelOptRule 的子类，专门用来做数据源之间的转换（Calling convention），ConverterRule 一般会调用对应的 Converter 来完成工作，比如说：JdbcToSparkConverterRule 调用 JdbcToSparkConverter 来完成对 JDBC Table 到 Spark RDD 的转换。
RelNode	relational expression，RelNode 会标识其 input RelNode 信息，这样就构成了一棵 RelNode 树	代表了对数据的一个处理操作，常见的操作有 Sort、Join、Project、Filter、Scan 等。它蕴含的是对整个 Relation 的操作，而不是对具体数据的处理逻辑。
Converter	A relational expression implements the interface `Converter` to indicate that it converts a physical attribute, or RelTrait of a relational expression from one value to another.	用来把一种 RelTrait 转换为另一种 RelTrait 的 RelNode。如 JdbcToSparkConverter 可以把 JDBC 里的 table 转换为 Spark RDD。如果需要在一个 RelNode 中处理来源于异构系统的逻辑表，Calcite 要求先用 Converter 把异构系统的逻辑表转换为同一种 Convention。
RexNode	Row-level expression	行表达式（标量表达式），蕴含的是对一行数据的处理逻辑。每个行表达式都有数据的类型。这是因为在 Valdiation 的过程中，编译器会推导出表达式的结果类型。常见的行表达式包括字面量 RexLiteral，变量 RexVariable，函数或操作符调用 RexCall 等。 RexNode 通过 RexBuilder 进行构建。
RelTrait	RelTrait represents the manifestation of a relational expression trait within a trait definition.	用来定义逻辑表的物理相关属性（physical property），三种主要的 trait 类型是：Convention、RelCollation、RelDistribution；
Convention	Calling convention used to repressent a single data source, inputs must be in the same convention	继承自 RelTrait，类型很少，代表一个单一的数据源，一个 relational expression 必须在同一个 convention 中；
RelTraitDef		主要有三种：ConventionTraitDef：用来代表数据源 RelCollationTraitDef：用来定义参与排序的字段；RelDistributionTraitDef：用来定义数据在物理存储上的分布方式（比如：single、hash、range、random 等）；
RelOptCluster	An environment for related relational expressions during the optimization of a query.	palnner 运行时的环境，保存上下文信息；
RelOptPlanner	A RelOptPlanner is a query optimizer: it transforms a relational expression into a semantically equivalent relational expression, according to a given set of rules and a cost model.	也就是优化器，Calcite 支持RBO（Rule-Based Optimizer）和 CBO（Cost-Based Optimizer）。Calcite 的 RBO （HepPlanner）称为启发式优化器（heuristic implementation ），它简单地按 AST 树结构匹配所有已知规则，直到没有规则能够匹配为止；Calcite 的 CBO 称为火山式优化器（VolcanoPlanner）成本优化器也会匹配并应用规则，当整棵树的成本降低趋于稳定后，优化完成，成本优化器依赖于比较准确的成本估算。RelOptCost 和 Statistic 与成本估算相关；
RelOptCost	defines an interface for optimizer cost in terms of number of rows processed, CPU cost, and I/O cost.	优化器成本模型会依赖；

Calcite 架构

关于 Calcite 的架构，可以参考下图（图片来自前面那篇论文），它与传统数据库管理系统有一些相似之处，相比而言，它将数据存储、数据处理算法和元数据存储这些部分忽略掉了，这样设计带来的好处是：对于涉及多种数据源和多种计算引擎的应用而言，Calcite 因为可以兼容多种存储和计算引擎，使得 Calcite 可以提供统一查询服务，Calcite 将会是这些应用的最佳选择。

在 Calcite 架构中，最核心地方就是 Optimizer，也就是优化器，一个 Optimization Engine 包含三个组成部分：

rules：也就是匹配规则，Calcite 内置上百种 Rules 来优化 relational expression，当然也支持自定义 rules；
metadata providers：主要是向优化器提供信息，这些信息会有助于指导优化器向着目标（减少整体 cost）进行优化，信息可以包括行数、table 哪一列是唯一列等，也包括计算 RelNode 树中执行 subexpression cost 的函数；
planner engines：它的主要目标是进行触发 rules 来达到指定目标，比如像 cost-based optimizer（CBO）的目标是减少cost（Cost 包括处理的数据行数、CPU cost、IO cost 等）。

Calcite 处理流程

Sql 的执行过程一般可以分为下图中的四个阶段，Calcite 同样也是这样：

但这里为了讲述方便，把 SQL 的执行分为下面五个阶段（跟上面比比又独立出了一个阶段）：

解析 SQL，把 SQL 转换成为 AST （抽象语法树），在 Calcite 中用 SqlNode 来表示；
语法检查，根据数据库的元数据信息进行语法验证，验证之后还是用 SqlNode 表示 AST 语法树；
语义分析，根据 SqlNode 及元信息构建 RelNode 树，也就是最初版本的逻辑计划（Logical Plan）；
逻辑计划优化，优化器的核心，根据前面生成的逻辑计划按照相应的规则（Rule）进行优化；
物理执行，生成物理计划，物理执行计划执行。

这里我们只关注前四步的内容，会配合源码实现以及一个示例来讲解。

示例

示例 SQL 如下：

select u.id as user_id, u.name as user_name, j.company as user_company, u.age as user_age 
from users u join jobs j on u.name=j.name
where u.age > 30 and j.id>10
order by user_id

这里有两张表，其表各个字段及类型定义如下：

SchemaPlus rootSchema = Frameworks.createRootSchema(true);
rootSchema.add("USERS", new AbstractTable() { //note: add a table
    @Override
    public RelDataType getRowType(final RelDataTypeFactory typeFactory) {
        RelDataTypeFactory.Builder builder = typeFactory.builder();

        builder.add("ID", new BasicSqlType(new RelDataTypeSystemImpl() {}, SqlTypeName.INTEGER));
        builder.add("NAME", new BasicSqlType(new RelDataTypeSystemImpl() {}, SqlTypeName.CHAR));
        builder.add("AGE", new BasicSqlType(new RelDataTypeSystemImpl() {}, SqlTypeName.INTEGER));
        return builder.build();
    }
});

rootSchema.add("JOBS", new AbstractTable() {
    @Override
    public RelDataType getRowType(final RelDataTypeFactory typeFactory) {
        RelDataTypeFactory.Builder builder = typeFactory.builder();

        builder.add("ID", new BasicSqlType(new RelDataTypeSystemImpl() {}, SqlTypeName.INTEGER));
        builder.add("NAME", new BasicSqlType(new RelDataTypeSystemImpl() {}, SqlTypeName.CHAR));
        builder.add("COMPANY", new BasicSqlType(new RelDataTypeSystemImpl() {}, SqlTypeName.CHAR));
        return builder.build();
    }
});

Step1: SQL 解析阶段（SQL–>SqlNode）

使用 Calcite 进行 Sql 解析的代码如下：

1 2	SqlParser parser = SqlParser.create(sql, SqlParser.Config.DEFAULT); SqlNode sqlNode = parser.parseStmt();

Calcite 使用 JavaCC 做 SQL 解析，JavaCC 根据 Calcite 中定义的 Parser.jj 文件，生成一系列的 java 代码，生成的 Java 代码会把 SQL 转换成 AST 的数据结构（这里是 SqlNode 类型）。

与 Javacc 相似的工具还有 ANTLR，JavaCC 中的 jj 文件也跟 ANTLR 中的 G4文件类似，Apache Spark 中使用这个工具做类似的事情。

Javacc

关于 Javacc 内容可以参考下面这几篇文章，这里就不再详细展开，可以通过下面文章的例子把 JavaCC 的语法了解一下，这样我们也可以自己设计一个 DSL（Doomain Specific Language）。

回到 Calcite，Javacc 这里要实现一个 SQL Parser，它的功能有以下两个，这里都是需要在 jj 文件中定义的。

设计词法和语义，定义 SQL 中具体的元素；
实现词法分析器（Lexer）和语法分析器（Parser），完成对 SQL 的解析，完成相应的转换。

SQL Parser 流程

当 SqlParser 调用 parseStmt() 方法后，其相应的逻辑如下：

// org.apache.calcite.sql.parser.SqlParser
public SqlNode parseStmt() throws SqlParseException {
  return parseQuery();
}

public SqlNode parseQuery() throws SqlParseException {
  try {
    return parser.parseSqlStmtEof(); //note: 解析sql语句
  } catch (Throwable ex) {
    if (ex instanceof CalciteContextException) {
      final String originalSql = parser.getOriginalSql();
      if (originalSql != null) {
        ((CalciteContextException) ex).setOriginalStatement(originalSql);
      }
    }
    throw parser.normalizeException(ex);
  }
}

其中 SqlParser 中 parser 指的是 SqlParserImpl 类（SqlParser.Config.DEFAULT 指定的），它就是由 JJ 文件生成的解析类，其处理流程如下，具体解析逻辑还是要看 JJ 文件中的定义。

//org.apache.calcite.sql.parser.impl.SqlParserImpl
public SqlNode parseSqlStmtEof() throws Exception
{
  return SqlStmtEof();
}

/**
 * Parses an SQL statement followed by the end-of-file symbol.
 * note:解析SQL语句(后面有文件结束符号)
 */
final public SqlNode SqlStmtEof() throws ParseException {
  SqlNode stmt;
  stmt = SqlStmt();
  jj_consume_token(0);
      {if (true) return stmt;}
  throw new Error("Missing return statement in function");
}

 //note: 解析 SQL statement
final public SqlNode SqlStmt() throws ParseException {
  SqlNode stmt;
  if (jj_2_34(2)) {
    stmt = SqlSetOption(Span.of(), null);
  } else if (jj_2_35(2)) {
    stmt = SqlAlter();
  } else if (jj_2_36(2)) {
    stmt = OrderedQueryOrExpr(ExprContext.ACCEPT_QUERY);
  } else if (jj_2_37(2)) {
    stmt = SqlExplain();
  } else if (jj_2_38(2)) {
    stmt = SqlDescribe();
  } else if (jj_2_39(2)) {
    stmt = SqlInsert();
  } else if (jj_2_40(2)) {
    stmt = SqlDelete();
  } else if (jj_2_41(2)) {
    stmt = SqlUpdate();
  } else if (jj_2_42(2)) {
    stmt = SqlMerge();
  } else if (jj_2_43(2)) {
    stmt = SqlProcedureCall();
  } else {
    jj_consume_token(-1);
    throw new ParseException();
  }
      {if (true) return stmt;}
  throw new Error("Missing return statement in function");
}

示例中 SQL 经过前面的解析之后，会生成一个 SqlNode，这个 SqlNode 是一个 SqlOrder 类型，DEBUG 后的 SqlOrder 对象如下图所示。

Step2: SqlNode 验证（SqlNode–>SqlNode）

经过上面的第一步，会生成一个 SqlNode 对象，它是一个未经验证的抽象语法树，下面就进入了一个语法检查阶段，语法检查前需要知道元数据信息，这个检查会包括表名、字段名、函数名、数据类型的检查。进行语法检查的实现如下：

//note: 二、sql validate（会先通过Catalog读取获取相应的metadata和namespace）
//note: get metadata and namespace
SqlTypeFactoryImpl factory = new SqlTypeFactoryImpl(RelDataTypeSystem.DEFAULT);
CalciteCatalogReader calciteCatalogReader = new CalciteCatalogReader(
    CalciteSchema.from(rootScheme),
    CalciteSchema.from(rootScheme).path(null),
    factory,
    new CalciteConnectionConfigImpl(new Properties()));

//note: 校验（包括对表名，字段名，函数名，字段类型的校验。）
SqlValidator validator = SqlValidatorUtil.newValidator(SqlStdOperatorTable.instance(), calciteCatalogReader, factory,
    conformance(frameworkConfig));
SqlNode validateSqlNode = validator.validate(sqlNode);

我们知道 Calcite 本身是不管理和存储元数据的，在检查之前，需要先把元信息注册到 Calcite 中，一般的操作方法是实现 SchemaFactory，由它去创建相应的 Schema，在 Schema 中可以注册相应的元数据信息（如：通过 getTableMap() 方法注册表信息），如下所示：

//org.apache.calcite.schema.impl.AbstractSchema
/**
 * Returns a map of tables in this schema by name.
 *
 * The implementations of {@link #getTableNames()}
 * and {@link #getTable(String)} depend on this map.
 * The default implementation of this method returns the empty map.
 * Override this method to change their behavior.
 *
 * @return Map of tables in this schema by name
 */
protected Map getTableMap() {
  return ImmutableMap.of();
}

//org.apache.calcite.adapter.csvorg.apache.calcite.adapter.csv.CsvSchemasvSchema
//note: 创建表
@Override protected Map getTableMap() {
  if (tableMap == null) {
    tableMap = createTableMap();
  }
  return tableMap;
}

CsvSchemasvSchema 中的 getTableMap() 方法通过 createTableMap() 来注册相应的表信息。

结合前面的例子再来分析，在前面定义了 CalciteCatalogReader 实例，该实例就是用来读取 Schema 中的元数据信息的。真正检查的逻辑是在 SqlValidatorImpl 类中实现的，这个 check 的逻辑比较复杂，在看代码时通过两种手段来看：

DEBUG 的方式，可以看到其方法调用的过程；
测试程序中故意构造一些 Case，观察其异常栈。

比如，在示例中 SQL 中，如果把一个字段名写错，写成 ids，其报错信息如下：

org.apache.calcite.runtime.CalciteContextException: From line 1, column 156 to line 1, column 158: Column 'IDS' not found in table 'J'
    at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)
    at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:62)
    at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)
    at java.lang.reflect.Constructor.newInstance(Constructor.java:423)
    at org.apache.calcite.runtime.Resources$ExInstWithCause.ex(Resources.java:463)
    at org.apache.calcite.sql.SqlUtil.newContextException(SqlUtil.java:787)
    at org.apache.calcite.sql.SqlUtil.newContextException(SqlUtil.java:772)
    at org.apache.calcite.sql.validate.SqlValidatorImpl.newValidationError(SqlValidatorImpl.java:4788)
    at org.apache.calcite.sql.validate.DelegatingScope.fullyQualify(DelegatingScope.java:439)
    at org.apache.calcite.sql.validate.SqlValidatorImpl$Expander.visit(SqlValidatorImpl.java:5683)
    at org.apache.calcite.sql.validate.SqlValidatorImpl$Expander.visit(SqlValidatorImpl.java:5665)
    at org.apache.calcite.sql.SqlIdentifier.accept(SqlIdentifier.java:334)
    at org.apache.calcite.sql.util.SqlShuttle$CallCopyingArgHandler.visitChild(SqlShuttle.java:134)
    at org.apache.calcite.sql.util.SqlShuttle$CallCopyingArgHandler.visitChild(SqlShuttle.java:101)
    at org.apache.calcite.sql.SqlOperator.acceptCall(SqlOperator.java:865)
    at org.apache.calcite.sql.validate.SqlValidatorImpl$Expander.visitScoped(SqlValidatorImpl.java:5701)
    at org.apache.calcite.sql.validate.SqlScopedShuttle.visit(SqlScopedShuttle.java:50)
    at org.apache.calcite.sql.validate.SqlScopedShuttle.visit(SqlScopedShuttle.java:33)
    at org.apache.calcite.sql.SqlCall.accept(SqlCall.java:138)
    at org.apache.calcite.sql.util.SqlShuttle$CallCopyingArgHandler.visitChild(SqlShuttle.java:134)
    at org.apache.calcite.sql.util.SqlShuttle$CallCopyingArgHandler.visitChild(SqlShuttle.java:101)
    at org.apache.calcite.sql.SqlOperator.acceptCall(SqlOperator.java:865)
    at org.apache.calcite.sql.validate.SqlValidatorImpl$Expander.visitScoped(SqlValidatorImpl.java:5701)
    at org.apache.calcite.sql.validate.SqlScopedShuttle.visit(SqlScopedShuttle.java:50)
    at org.apache.calcite.sql.validate.SqlScopedShuttle.visit(SqlScopedShuttle.java:33)
    at org.apache.calcite.sql.SqlCall.accept(SqlCall.java:138)
    at org.apache.calcite.sql.validate.SqlValidatorImpl.expand(SqlValidatorImpl.java:5272)
    at org.apache.calcite.sql.validate.SqlValidatorImpl.validateWhereClause(SqlValidatorImpl.java:3977)
    at org.apache.calcite.sql.validate.SqlValidatorImpl.validateSelect(SqlValidatorImpl.java:3305)
    at org.apache.calcite.sql.validate.SelectNamespace.validateImpl(SelectNamespace.java:60)
    at org.apache.calcite.sql.validate.AbstractNamespace.validate(AbstractNamespace.java:84)
    at org.apache.calcite.sql.validate.SqlValidatorImpl.validateNamespace(SqlValidatorImpl.java:977)
    at org.apache.calcite.sql.validate.SqlValidatorImpl.validateQuery(SqlValidatorImpl.java:953)
    at org.apache.calcite.sql.SqlSelect.validate(SqlSelect.java:216)
    at org.apache.calcite.sql.validate.SqlValidatorImpl.validateScopedExpression(SqlValidatorImpl.java:928)
    at org.apache.calcite.sql.validate.SqlValidatorImpl.validate(SqlValidatorImpl.java:632)
    at com.matt.test.calcite.test.SqlTest3.sqlToRelNode(SqlTest3.java:200)
    at com.matt.test.calcite.test.SqlTest3.main(SqlTest3.java:117)
Caused by: org.apache.calcite.sql.validate.SqlValidatorException: Column 'IDS' not found in table 'J'
    at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)
    at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:62)
    at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)
    at java.lang.reflect.Constructor.newInstance(Constructor.java:423)
    at org.apache.calcite.runtime.Resources$ExInstWithCause.ex(Resources.java:463)
    at org.apache.calcite.runtime.Resources$ExInst.ex(Resources.java:572)
    ... 33 more
java.lang.NullPointerException
    at org.apache.calcite.plan.hep.HepPlanner.addRelToGraph(HepPlanner.java:806)
    at org.apache.calcite.plan.hep.HepPlanner.setRoot(HepPlanner.java:152)
    at com.matt.test.calcite.test.SqlTest3.main(SqlTest3.java:124)

SqlValidatorImpl 检查过程

语法检查验证是通过 SqlValidatorImpl 的 validate() 方法进行操作的，其实现如下：

org.apache.calcite.sql.validate.SqlValidatorImpl
//note: 做相应的语法树校验
public SqlNode validate(SqlNode topNode) {
  //note: root 对应的 Scope
  SqlValidatorScope scope = new EmptyScope(this);
  scope = new CatalogScope(scope, ImmutableList.of("CATALOG"));
  //note: 1.rewrite expression
  //note: 2.做相应的语法检查
  final SqlNode topNode2 = validateScopedExpression(topNode, scope); //note: 验证
  final RelDataType type = getValidatedNodeType(topNode2);
  Util.discard(type);
  return topNode2;
}

主要的实现是在 validateScopedExpression() 方法中，其实现如下

private SqlNode validateScopedExpression(
    SqlNode topNode,
    SqlValidatorScope scope) {
  //note: 1. rewrite expression，将其标准化，便于后面的逻辑计划优化
  SqlNode outermostNode = performUnconditionalRewrites(topNode, false);
  cursorSet.add(outermostNode);
  top = outermostNode;
  TRACER.trace("After unconditional rewrite: {}", outermostNode);
  //note: 2. Registers a query in a parent scope.
  //note: register scopes and namespaces implied a relational expression
  if (outermostNode.isA(SqlKind.TOP_LEVEL)) {
    registerQuery(scope, null, outermostNode, outermostNode, null, false);
  }
  //note: 3. catalog 验证，调用 SqlNode 的 validate 方法，
  outermostNode.validate(this, scope);
  if (!outermostNode.isA(SqlKind.TOP_LEVEL)) {
    // force type derivation so that we can provide it to the
    // caller later without needing the scope
    deriveType(scope, outermostNode);
  }
  TRACER.trace("After validation: {}", outermostNode);
  return outermostNode;
}

它的处理逻辑主要分为三步：

rewrite expression，将其标准化，便于后面的逻辑计划优化；
注册这个 relational expression 的 scopes 和 namespaces（这两个对象代表了其元信息）；
进行相应的验证，这里会依赖第二步注册的 scopes 和 namespaces 信息。

Rewrite

关于 Rewrite 这一步，一直困惑比较，因为根据 After unconditional rewrite: 这条日志的结果看，其实前后 SqlNode 并没有太大变化，看 performUnconditionalRewrites() 这部分代码时，看得不是很明白，不过还是注意到了 SqlOrderBy 的注释（注释如下），它的意思是 SqlOrderBy 通过 performUnconditionalRewrites() 方法已经被 SqlSelect 对象中的 ORDER_OPERAND 取代了。

/**
 * Parse tree node that represents an {@code ORDER BY} on a query other than a
 * {@code SELECT} (e.g. {@code VALUES} or {@code UNION}).
 *
 * It is a purely syntactic operator, and is eliminated by
 * {@link org.apache.calcite.sql.validate.SqlValidatorImpl#performUnconditionalRewrites}
 * and replaced with the ORDER_OPERAND of SqlSelect.
 */
public class SqlOrderBy extends SqlCall {

注意到 SqlOrderBy 的原因是因为在 performUnconditionalRewrites() 方法前面都是递归对每个对象进行处理，在后面进行真正的 ransform 时，主要在围绕着 ORDER_BY 这个类型做处理，而且从代码中可以看出，将其类型从 SqlOrderBy 转换成了 SqlSelect，BUDEG 前面的示例，发现 outermostNode 与 topNode 的类型确实发生了变化，如下图所示。

这个方法有个好的地方就是，在不改变原有 SQL Parser 的逻辑的情况下，可以在这个方法里做一些改动，当然如果 SQL Parser 的结果如果直接可用当然是最好的，就不需要再进行一次 Rewrite 了。

registerQuery

这里的功能主要就是将[元数据]转换成 SqlValidator 内部的对象进行表示，也就是 SqlValidatorScope 和 SqlValidatorNamespace 两种类型的对象：

SqlValidatorNamespace：a description of a data source used in a query，它代表了 SQL 查询的数据源，它是一个逻辑上数据源，可以是一张表，也可以是一个子查询；
SqlValidatorScope：describes the tables and columns accessible at a particular point in the query，代表了在某一个程序运行点，当前可见的字段名和表名。

这个理解起来并不是那么容易，在 SelectScope 类中有一个示例讲述，这个示例对这两个概念的理解很有帮助。

/**
 * Scopes
 *
 * In the query
 *
 * 
 * 
 * SELECT expr1
 * FROM t1,
 *     t2,
 *     (SELECT expr2 FROM t3) AS q3
 * WHERE c1 IN (SELECT expr3 FROM t4)
 * ORDER BY expr4
 * 
 *
 * The scopes available at various points of the query are as follows:
 *
 * 
 * expr1 can see t1, t2, q3
 * expr2 can see t3
 * expr3 can see t4, t1, t2
 * expr4 can see t1, t2, q3, plus (depending upon the dialect) any aliases
 * defined in the SELECT clause
 * 
 *
 * Namespaces
 *
 * In the above query, there are 4 namespaces:
 *
 * 
 * t1
 * t2
 * (SELECT expr2 FROM t3) AS q3
 * (SELECT expr3 FROM t4)
 */

validate 验证

接着回到最复杂的一步，就是 outermostNode 实例调用 validate(this, scope) 方法进行验证的部分，对于我们这个示例，这里最后调用的是 SqlSelect 的 validate() 方法，如下所示：

1
2
3

public void validate(SqlValidator validator, SqlValidatorScope scope) {
  validator.validateQuery(this, scope, validator.getUnknownType());
}

它调用的是 SqlValidatorImpl 的 validateQuery() 方法

public void validateQuery(SqlNode node, SqlValidatorScope scope,
    RelDataType targetRowType) {
  final SqlValidatorNamespace ns = getNamespace(node, scope);
  if (node.getKind() == SqlKind.TABLESAMPLE) {
    List operands = ((SqlCall) node).getOperandList();
    SqlSampleSpec sampleSpec = SqlLiteral.sampleValue(operands.get(1));
    if (sampleSpec instanceof SqlSampleSpec.SqlTableSampleSpec) {
      validateFeature(RESOURCE.sQLFeature_T613(), node.getParserPosition());
    } else if (sampleSpec
        instanceof SqlSampleSpec.SqlSubstitutionSampleSpec) {
      validateFeature(RESOURCE.sQLFeatureExt_T613_Substitution(),
          node.getParserPosition());
    }
  }

  validateNamespace(ns, targetRowType);//note: 检查
  switch (node.getKind()) {
  case EXTEND:
    // Until we have a dedicated namespace for EXTEND
    deriveType(scope, node);
  }
  if (node == top) {
    validateModality(node);
  }
  validateAccess(
      node,
      ns.getTable(),
      SqlAccessEnum.SELECT);
}

/**
 * Validates a namespace.
 *
 * @param namespace Namespace
 * @param targetRowType Desired row type, must not be null, may be the data
 *                      type 'unknown'.
 */
protected void validateNamespace(final SqlValidatorNamespace namespace,
    RelDataType targetRowType) {
  namespace.validate(targetRowType);//note: 验证
  if (namespace.getNode() != null) {
    setValidatedNodeType(namespace.getNode(), namespace.getType());
  }
}

这部分的调用逻辑非常复杂，主要的语法验证是 SqlValidatorScope 部分（它里面有相应的表名、字段名等信息），而 namespace 表示需要进行验证的数据源，最开始的这个 SqlNode 有一个 root namespace，上面的 validateNamespace() 方法会首先调用其 namespace 的 validate() 方法进行验证，以前面的示例为例，这里是 SelectNamespace，其实现如下：

//org.apache.calcite.sql.validate.AbstractNamespace
public final void validate(RelDataType targetRowType) {
  switch (status) {
  case UNVALIDATED: //note: 还没开始 check
    try {
      status = SqlValidatorImpl.Status.IN_PROGRESS; //note: 更新当前 namespace 的状态
      Preconditions.checkArgument(rowType == null,
          "Namespace.rowType must be null before validate has been called");
      RelDataType type = validateImpl(targetRowType); //note: 检查验证
      Preconditions.checkArgument(type != null,
          "validateImpl() returned null");
      setType(type);
    } finally {
      status = SqlValidatorImpl.Status.VALID;
    }
    break;
  case IN_PROGRESS: //note: 已经开始 check 了，死循环了
    throw new AssertionError("Cycle detected during type-checking");
  case VALID://note: 检查结束
    break;
  default:
    throw Util.unexpected(status);
  }
}

//org.apache.calcite.sql.validate.SelectNamespace
//note: 检查，还是调用 SqlValidatorImpl 的方法
public RelDataType validateImpl(RelDataType targetRowType) {
  validator.validateSelect(select, targetRowType);
  return rowType;
}

最后验证方法的实现是 SqlValidatorImpl 的 validateSelect() 方法（对本示例而言），其调用过程如下图所示：

Step3: 语义分析（SqlNode–>RelNode/RexNode）

经过第二步之后，这里的 SqlNode 就是经过语法校验的 SqlNode 树，接下来这一步就是将 SqlNode 转换成 RelNode/RexNode，也就是生成相应的逻辑计划（Logical Plan），示例的代码实现如下：

// create the rexBuilder
final RexBuilder rexBuilder =  new RexBuilder(factory);
// init the planner
// 这里也可以注册 VolcanoPlanner，这一步 planner 并没有使用
HepProgramBuilder builder = new HepProgramBuilder();
RelOptPlanner planner = new HepPlanner(builder.build());

//note: init cluster: An environment for related relational expressions during the optimization of a query.
final RelOptCluster cluster = RelOptCluster.create(planner, rexBuilder);
//note: init SqlToRelConverter
final SqlToRelConverter.Config config = SqlToRelConverter.configBuilder()
    .withConfig(frameworkConfig.getSqlToRelConverterConfig())
    .withTrimUnusedFields(false)
    .withConvertTableAccess(false)
    .build(); //note: config
// 创建 SqlToRelConverter 实例，cluster、calciteCatalogReader、validator 都传进去了，SqlToRelConverter 会缓存这些对象
final SqlToRelConverter sqlToRelConverter = new SqlToRelConverter(new DogView(), validator, calciteCatalogReader, cluster, StandardConvertletTable.INSTANCE, config);
// convert to RelNode
RelRoot root = sqlToRelConverter.convertQuery(validateSqlNode, false, true);

root = root.withRel(sqlToRelConverter.flattenTypes(root.rel, true));
final RelBuilder relBuilder = config.getRelBuilderFactory().create(cluster, null);
root = root.withRel(RelDecorrelator.decorrelateQuery(root.rel, relBuilder));

RelNode relNode = root.rel;

//DogView 的实现
private static class DogView implements RelOptTable.ViewExpander {
    public DogView() {
    }

    @Override
    public RelRoot expandView(RelDataType rowType, String queryString, List schemaPath,
                              List viewPath) {
        return null;
    }
}

为了方便分析，这里也把上面的过程分为以下几步：

初始化 RexBuilder；
初始化 RelOptPlanner;
初始化 RelOptCluster；
初始化 SqlToRelConverter；
进行转换；

第1、2、4步在上述代码已经有相应的注释，这里不再介绍，下面从第三步开始讲述。

初始化 RelOptCluster

RelOptCluster 初始化的代码如下，这里基本都走默认的参数配置。

org.apache.calcite.plan.RelOptCluster

/** Creates a cluster. */
public static RelOptCluster create(RelOptPlanner planner,
    RexBuilder rexBuilder) {
  return new RelOptCluster(planner, rexBuilder.getTypeFactory(),
      rexBuilder, new AtomicInteger(0), new HashMap<>());
}

/**
 * Creates a cluster.
 *
 * For use only from {@link #create} and {@link RelOptQuery}.
 */
RelOptCluster(RelOptPlanner planner, RelDataTypeFactory typeFactory,
    RexBuilder rexBuilder, AtomicInteger nextCorrel,
    Map mapCorrelToRel) {
  this.nextCorrel = nextCorrel;
  this.mapCorrelToRel = mapCorrelToRel;
  this.planner = Objects.requireNonNull(planner);
  this.typeFactory = Objects.requireNonNull(typeFactory);
  this.rexBuilder = rexBuilder;
  this.originalExpression = rexBuilder.makeLiteral("?");

  // set up a default rel metadata provider,
  // giving the planner first crack at everything
  //note: 默认的 metadata provider
  setMetadataProvider(DefaultRelMetadataProvider.INSTANCE);
  //note: trait（对于 HepPlaner 和 VolcanoPlanner 不一样)
  this.emptyTraitSet = planner.emptyTraitSet();
  assert emptyTraitSet.size() == planner.getRelTraitDefs().size();
}

SqlToRelConverter 转换

SqlToRelConverter 中的 convertQuery() 将 SqlNode 转换为 RelRoot，其实现如下：

/**
 * Converts an unvalidated query's parse tree into a relational expression.
 * note：把一个 parser tree 转换为 relational expression
 * @param query           Query to convert
 * @param needsValidation Whether to validate the query before converting;
 *                        false if the query has already been
 *                        validated.
 * @param top             Whether the query is top-level, say if its result
 *                        will become a JDBC result set; false if
 *                        the query will be part of a view.
 */
public RelRoot convertQuery(
    SqlNode query,
    final boolean needsValidation,
    final boolean top) {
  if (needsValidation) { //note: 是否需要做相应的校验（如果校验过了，这里就不需要了）
    query = validator.validate(query);
  }

  //note: 设置 MetadataProvider
  RelMetadataQuery.THREAD_PROVIDERS.set(
      JaninoRelMetadataProvider.of(cluster.getMetadataProvider()));
  //note: 得到 RelNode(relational expression)
  RelNode result = convertQueryRecursive(query, top, null).rel;
  if (top) {
    if (isStream(query)) {//note: 如果 stream 的话
      result = new LogicalDelta(cluster, result.getTraitSet(), result);
    }
  }
  RelCollation collation = RelCollations.EMPTY;
  if (!query.isA(SqlKind.DML)) { //note: 如果是 DML 语句
    if (isOrdered(query)) { //note: 如果需要做排序的话
      collation = requiredCollation(result);
    }
  }
  //note: 对转换前后的 RelDataType 做验证
  checkConvertedType(query, result);

  if (SQL2REL_LOGGER.isDebugEnabled()) {
    SQL2REL_LOGGER.debug(
        RelOptUtil.dumpPlan("Plan after converting SqlNode to RelNode",
            result, SqlExplainFormat.TEXT,
            SqlExplainLevel.EXPPLAN_ATTRIBUTES));
  }

  final RelDataType validatedRowType = validator.getValidatedNodeType(query);
  return RelRoot.of(result, validatedRowType, query.getKind())
      .withCollation(collation);
}

真正的实现是在 convertQueryRecursive() 方法中完成的，如下：

/**
 * Recursively converts a query to a relational expression.
 * note：递归地讲一个 query 转换为 relational expression
 *
 * @param query         Query
 * @param top           Whether this query is the top-level query of the
 *                      statement
 * @param targetRowType Target row type, or null
 * @return Relational expression
 */
protected RelRoot convertQueryRecursive(SqlNode query, boolean top,
    RelDataType targetRowType) {
  final SqlKind kind = query.getKind();
  switch (kind) {
  case SELECT:
    return RelRoot.of(convertSelect((SqlSelect) query, top), kind);
  case INSERT:
    return RelRoot.of(convertInsert((SqlInsert) query), kind);
  case DELETE:
    return RelRoot.of(convertDelete((SqlDelete) query), kind);
  case UPDATE:
    return RelRoot.of(convertUpdate((SqlUpdate) query), kind);
  case MERGE:
    return RelRoot.of(convertMerge((SqlMerge) query), kind);
  case UNION:
  case INTERSECT:
  case EXCEPT:
    return RelRoot.of(convertSetOp((SqlCall) query), kind);
  case WITH:
    return convertWith((SqlWith) query, top);
  case VALUES:
    return RelRoot.of(convertValues((SqlCall) query, targetRowType), kind);
  default:
    throw new AssertionError("not a query: " + query);
  }
}

依然以前面的示例为例，因为是 SqlSelect 类型，这里会调用下面的方法做相应的转换：

/**
 * Converts a SELECT statement's parse tree into a relational expression.
 * note：将一个 Select parse tree 转换成一个关系表达式
 */
public RelNode convertSelect(SqlSelect select, boolean top) {
  final SqlValidatorScope selectScope = validator.getWhereScope(select);
  final Blackboard bb = createBlackboard(selectScope, null, top);
  convertSelectImpl(bb, select);//note: 做相应的转换
  return bb.root;
}

在 convertSelectImpl() 方法中会依次对 SqlSelect 的各个部分做相应转换，其实现如下：

/**
 * Implementation of {@link #convertSelect(SqlSelect, boolean)};
 * derived class may override.
 */
protected void convertSelectImpl(
    final Blackboard bb,
    SqlSelect select) {
  //note: convertFrom
  convertFrom(
      bb,
      select.getFrom());
  //note: convertWhere
  convertWhere(
      bb,
      select.getWhere());

  final List orderExprList = new ArrayList<>();
  final List collationList = new ArrayList<>();
  //note: 有 order by 操作时
  gatherOrderExprs(
      bb,
      select,
      select.getOrderList(),
      orderExprList,
      collationList);
  final RelCollation collation =
      cluster.traitSet().canonize(RelCollations.of(collationList));

  if (validator.isAggregate(select)) {
    //note: 当有聚合操作时，也就是含有 group by、having 或者 Select 和 order by 中含有聚合函数
    convertAgg(
        bb,
        select,
        orderExprList);
  } else { //note: 对 select list 部分的处理
    convertSelectList(
        bb,
        select,
        orderExprList);
  }

  if (select.isDistinct()) { //note: select 后面含有 DISTINCT 关键字时（去重）
    distinctify(bb, true);
  }
  //note: Converts a query's ORDER BY clause, if any.
  convertOrder(
      select, bb, collation, orderExprList, select.getOffset(),
      select.getFetch());
  bb.setRoot(bb.root, true);
}

这里以示例中的 From 部分为例介绍 SqlNode 到 RelNode 的逻辑，按照示例 DEUBG 后的结果如下图所示，因为 form 部分是一个 join 操作，会进入 join 相关的处理中。

这部分方法调用过程是：

convertQuery -->
convertQueryRecursive -->
convertSelect -->
convertSelectImpl -->
convertFrom & convertWhere & convertSelectList

到这里 SqlNode 到 RelNode 过程就完成了，生成的逻辑计划如下：

LogicalSort(sort0=[$0], dir0=[ASC])
  LogicalProject(USER_ID=[$0], USER_NAME=[$1], USER_COMPANY=[$5], USER_AGE=[$2])
    LogicalFilter(condition=[AND(>($2, 30), >($3, 10))])
      LogicalJoin(condition=[=($1, $4)], joinType=[inner])
        LogicalTableScan(table=[[USERS]])
        LogicalTableScan(table=[[JOBS]])

到这里前三步就算全部完成了。

Step4: 优化阶段（RelNode–>RelNode）

终于来来到了第四阶段，也就是 Calcite 的核心所在，优化器进行优化的地方，前面 sql 中有一个明显可以优化的地方就是过滤条件的下压（push down），在进行 join 操作前，先进行 filter 操作，这样的话就不需要在 join 时进行全量 join，减少参与 join 的数据量。

关于filter 操作下压，在 Calcite 中已经有相应的 Rule 实现，就是 FilterJoinRule.FilterIntoJoinRule.FILTER_ON_JOIN，这里使用 HepPlanner 作为示例的 planer，并注册 FilterIntoJoinRule 规则进行相应的优化，其代码实现如下：

HepProgramBuilder builder = new HepProgramBuilder();
builder.addRuleInstance(FilterJoinRule.FilterIntoJoinRule.FILTER_ON_JOIN); //note: 添加 rule
HepPlanner hepPlanner = new HepPlanner(builder.build());
hepPlanner.setRoot(relNode);
relNode = hepPlanner.findBestExp();

在 Calcite 中，提供了两种 planner：HepPlanner 和 VolcanoPlanner，关于这块内容可以参考【Drill/Calcite查询优化系列】这几篇文章（讲述得非常详细，赞），这里先简单介绍一下 HepPlanner 和 VolcanoPlanner，后面会关于这两个 planner 的代码实现做深入的讲述。

HepPlanner

特点（来自 Apache Calcite介绍）：

HepPlanner is a heuristic optimizer similar to Spark’s optimizer，与 spark 的优化器相似，HepPlanner 是一个 heuristic 优化器；
Applies all matching rules until none can be applied：将会匹配所有的 rules 直到一个 rule 被满足；
Heuristic optimization is faster than cost- based optimization：它比 CBO 更快；
Risk of infinite recursion if rules make opposing changes to the plan：如果没有每次都不匹配规则，可能会有无限递归风险；

VolcanoPlanner

特点（来自 Apache Calcite介绍）：

VolcanoPlanner is a cost-based optimizer：VolcanoPlanner是一个CBO优化器；
Applies matching rules iteratively, selecting the plan with the cheapest cost on each iteration：迭代地应用 rules，直到找到cost最小的plan；
Costs are provided by relational expressions；
Not all possible plans can be computed：不会计算所有可能的计划；
Stops optimization when the cost does not significantly improve through a determinable number of iterations：根据已知的情况，如果下面的迭代不能带来提升时，这些计划将会停止优化；

示例运行结果

经过 HepPlanner 优化后的逻辑计划为：

LogicalSort(sort0=[$0], dir0=[ASC])
  LogicalProject(USER_ID=[$0], USER_NAME=[$1], USER_COMPANY=[$5], USER_AGE=[$2])
    LogicalJoin(condition=[=($1, $4)], joinType=[inner])
      LogicalFilter(condition=[>($2, 30)])
        EnumerableTableScan(table=[[USERS]])
      LogicalFilter(condition=[>($0, 10)])
        EnumerableTableScan(table=[[JOBS]])

可以看到优化的结果是符合我们预期的，HepPlanner 和 VolcanoPlanner 详细流程比较复杂，后面会有单独的文章进行讲述。

总结

Calcite 本身的架构比较好理解，但是具体到代码层面就不是那么好理解了，它抛出了很多的概念，如果不把这些概念搞明白，代码基本看得也是云里雾里，特别是之前没有接触过这块内容的同学（我最开始看 Calcite 代码时是真的头大），入门的门槛确实高一些，但是当这些流程梳理清楚之后，其实再回头看，也没有多少东西，在生产中用的时候主要也是针对具体的业务场景扩展相应的 SQL 语法、进行具体的规则优化。

Calcite 架构设计得比较好，其中各个组件都可以单独使用，Rule（规则）扩展性很强，用户可以根据业务场景自定义相应的优化规则，它支持标准的 SQL，支持不同的存储和计算引擎，目前在业界应用也比较广泛，这也证明其牛叉之处。

本文只是个人理解的总结，由于本人也是刚接触这块，理解有偏差的地方，欢迎指正~

参考

BookKeeper 原理浅谈

2019-01-28T15:23:35.000Z

接着之前的一篇文章 BookKeeper 集群搭建及使用，本文是 BookKeeper 系列的第二篇，短期来看应该也是最后一篇，本篇文章主要聚焦于 BookKeeper 内核的实现机制上，会从 BookKeeper 的基本概念、架构、读写一致性实现、读写分离实现、容错机制等方面来讲述，因为我并没有看过 BookKeeper 的源码，所以这里的讲述主要还是从原理、方案实现上来介绍，具体如何从解决方案落地到具体的代码实现，有兴趣的可以去看下 BookKeeper 的源码实现。

BookKeeper 基础

正如 Apache BookKeeper 官网介绍的一样：A scalable, fault-tolerant, and low-latency storage service optimized for real-time workloads。BookKeeper 的定位是一个可用于实时场景下的高扩展性、强容错、低延迟的存储服务。Pulsar-Cloud Native Messaging & Streaming - 示说网中也做了一个简单总结：

低延迟多副本复制：Quorum Parallel Replication；
持久化：所有操作保证在刷盘后才 ack；
强一致性：可重复读的一致性（Repeatable Read Consistency）;
读写高可用；
读写分离。

BookKeeper 基本概念

BookKeeper 简介部分已经对 BookKeeper 的基本概念做了一些讲解，这里再重新回顾一下，只有明白这些概念之后才能对更好地理解后面的内容，如下图所示，一个 Log/Stream/Topic 可以由下面的部分组成（图片来自 Pulsar-Cloud Native Messaging & Streaming）。

其中：

Ledger：它是 BK 的一个基本存储单元（本质上还是一种抽象），BK Client 的读写操作也都是以 Ledger 为粒度的；
Fragment：BK 的最小分布单元（实际上也是物理上的最小存储单元），也是 Ledger 的组成单位，默认情况下一个 Ledger 会对应的一个 Fragment（一个 Ledger 也可能由多个 Fragment 组成）；
Entry：每条日志都是一个 Entry，它代表一个 record，每条 record 都会有一个对应的 entry id；

关于 Fragment，它是 Ledger 的物理组成单元，也是最小的物理存储单元，在以下两种情况下会创建新的 Fragment：

当创建新的 Ledger 时；
当前 Fragment 使用的 Bookies 发生写入错误或超时，系统会在剩下的 Bookie 中新建 Fragment，但这时并不会新建 Ledger，因为 Ledger 的创建和关闭是由 Client 控制的，这里只是新建了 Fragment（需要注意的是：这两个 Fragment 对应的 Ensemble Bookie 已经不一样了，但它们都属于一个 Ledger，这里并不一定是一个 Ensemble Change 操作）。

BookKeeper 架构设计

Apache BookKeeper 的架构如下图所示，它主要由三个组件构成：客户端 (client)、数据存储节点 (Bookie) 和元数据存储 Service Discovery（ZooKeeper），Bookies 在启动的时候向 ZooKeeper 注册节点，Client 通过 ZooKeeper 发现可用的 Bookie。

这里，我们可以看到 BookKeeper 架构属于典型的 slave-slave 架构，zk 存储其集群的 meta 信息（zk 虽是单点，但 zk 目前的高可用还是很有保障的），这种模式的好处显而易见，server 端变得非常简单，所有节点都是一样的角色和处理逻辑，能够这样设计的主要原因是其副本没有 leader 和 follower 之分，这是它与一些常见 mq（如：kafka、RocketMQ）系统的典型区别，每种设计都有其 trade-off，BeekKeeper 从设计之初就是为了高可靠而设计。

BookKeeper 存储层实现

Apache BookKeeper 是一个高可靠的分布式存储系统，存储层的实现是其核心，对一个存储系统来说，关键的几点实现，无非是：一致性如何保证、IO 如何优化、高可用如何实现等，这小节就让我们揭开其神秘面纱。

新建 Ledger

Ledger 是 BookKeeper 的基本存储抽象单元，这里先看下一个 Ledger 是如何创建的，这里会介绍一些关于 Ledger 存储层的一些重要概念（图片来自 Pulsar-Cloud Native Messaging & Streaming）。

Ledger 是一组追加有序的记录，它是由 Client 创建的，然后由其进行追加写操作。每个 Ledger 在创建时会被赋予全局唯一的 ID，其他的 Client 可以根据 Ledger ID，对其进行读取操作。创建 Ledger 及 Entry 写入的相关过程如下：

Client 在创建 Ledger 的时候，从 Bookie Pool 里面按照指定的数据放置策略挑选出一定数量的 Bookie，构成一个 Ensemble；
每条 Entry 会被并行地发送给 Ensemble 里面的部分 Bookies（每条 Entry 发送多少个 Bookie 是由 Write Quorum size 设置、具体发送哪些 Bookie 是由 Round Robin 算法来计算），并且所有 Entry 的发送以流水线的方式进行，也就是意味着发送第 N + 1 条记录的写请求不需要等待发送第 N 条记录的写请求返回；
对于每条 Entry 的写操作而言，当它收到 Ensemble 里面大多数 Bookie 的确认后（这个由 Ack Quorum size 来设置），Client 认为这条记录已经持久化到这个 Ensemble 中，并且有大多数副本。

这里引入了三个重要的概念，它们也是 BookKeeper 一致性的基础：

Ensemble size(E)：Set of Bookies across which a ledger is striped，一个 Ledger 所涉及的 Bookie 集合；
Write Quorum Size（Qw）：Number of replicas，副本数；
Ack Quorum Size（Qa）：Number of responses needed before client’s write is satisfied。

从上面 Ensemble、Qw、Qa 的概念可以得到以下这些推论：

Ensemble：可以控制一个 Ledger 的读写带宽；
Write Quorum：控制一条记录的复本数；
Ack Quorum：写每条记录需要等待的 Ack 数，控制时延；
增加 Ensemble，可以增加读写带宽（增加了可写的机器数）；
减少 Ack Quorum，可以减长尾时延。

一致性

对于分布式存储系统，为了高可用，多副本是其通用的解决方案，但也带来了一致性的问题，这里就看下 Apache BookKeeper 是如何解决其带来的一致性问题的。

一致性模型

在介绍其读写一致性之前，先看下 BK 的一致性模型（图片来自 Twitter高性能分布式日志系统架构解析）。

对于 Write 操作而言，writer 不断添加记录，每条记录会被 writer 赋予一个严格递增的 id，所有的追加操作都是异步的，也就是说：第二条记录不用等待第一条记录返回结果。所有写成功的操作都会按照 id 递增顺序返回 ack 给 writer。（图片来自 Twitter高性能分布式日志系统架构解析）。

伴随着写成功的 ack，writer 不断地更新一个指针叫做 Last-Add-Confirm（LAC），所有 Entry id 小于等于 LAC 的记录保证持久化并复制到大多数副本上，而 LAC 与 LAP（Last-Add-Pushed）之间的记录就是已经发送到 Bookie 上但还未被 ack 的数据。

读的一致性

所有的 Reader 都可以安全读取 Entry ID 小于或者等于 LAC 的记录，从而保证 reader 不会读取未确认的数据，从而保证了 reader 之间的一致性（图片来自 Twitter高性能分布式日志系统架构解析）。

写的一致性

从上面的介绍中，也可以看出，对于 BK 的多个副本，其并没有 leader 和 follower 之分，因此，BK 并不会进行相应的选主（leader election）操作，并且限制每个 Ledger 只能被一个 Writer 写，BK 通过 Fencing 机制来防止出现多个 Writer 的状态，从而保证写的一致性。

读写分离

下面来看下 BK 存储层一个很重要的设计，那就是读写分离机制。在论文 Durability with BookKeeper 中，关于读写分离机制的介绍如下所示（图片来自 Durability with BookKeeper）：

A bookie uses two devices, ideally in separate physical disks:

The journal device is a write-ahead log and stores synchronously and sequentially all updates the bookie executes.
The ledger device contains an indexed copy of a ledger fragment, which a bookie uses to respond to read requests.

上面是论文中关于 BK 读写分离机制实现的介绍，我当时在看完上面的记录之后，脑海中有以下疑问：

一个写请求是怎么处理？什么时候数据被认为是 ack 了；
数据肯定先写到 Journal Device 中的，那么数据是如何到 Ledger Device 中的？
Ledger Device 中的顺序写跟随机读是什么意思？难道跟 RocketMQ 的存储结构一样？
Ledger Device 底层是怎么切分实际的物理文件的？
数据在什么时候才能可见？
在从 Ledger Device 读数据时，它是通过什么机制提高查询速度的？

带着这些疑问，接下来来分析其实现（图片来自 Pulsar-Cloud Native Messaging & Streaming）：

Journal Device 分析：

处理写入请求时，如果 Journal 是在专用的磁盘上，由于是顺序写入刷盘，性能会很高；

Ledger Device 的实现：

Bookie 最初的设计方案是每个 Ledger 对应一个物理文件，但这样会极大消耗写性能，所以 Bookie 当前的设计方案是所有 Ledger 都写一个单独的文件中，这个文件又叫 entry log；
写入时，不但会写入到 Journal 中还会写入到缓存（memtable）中，定期会做刷盘（刷盘前会做排序，通过 聚合+排序 优化读取性能）；
优化查找：Ledger Device 中会维护一个索引结构，存储在 RocksDB 中，它会将 (LedgerId，EntryId) 映射到(EntryLogId，文件中的偏移量)。

读写流程

了解完 BK 的一致性模型和读写分离机制之后，这里来看下 BK 的读写流程。

Entry 写入流程

这里以一个例子来说明，假设 E 是3，Qw 和 Qa 是2，那么 Entry 写入如下图（图片来自 Durability with BookKeeper）：

Writer 会先分配对应的 id，然后按照 round-robin 算法从3个 Bookie 中选取2个 Bookie；
Writer 会向两个 Bookie 发送写入请求，因为 Qa 设置为2，只有收到两个 ack 响应后，才会认为这条 Entry 写入成功；

如果写入过程中有一台 Bookie 挂了怎么办？

那么只能向另外2台 Bookie 写入数据；
这时候这个 Ledger 会新建一个 Fragment，假设挂的是A，之前 Ensemble 是 A、B、C，现在的是 B、C；
这个变化会更新到 zk 中这个 Ledger 的 meta 中。

如果写入过程中有两个 Bookie 挂了怎么办？

Ensemble 里面的存活的 Bookies 不能满足 Qw 的要求；
Client 会进行一个 Ensemble Change 操作；
Ensemble Change 将从 Bookie Pool 中根据数据放置策略挑选出额外的 Bookie 用来取代那些不存活的 Bookie 。

Entry 读取流程

这里依然以一个例子做说明，例子是紧接着上面的示例，如下图所示（图片来自 Durability with BookKeeper）：

如何想要读取 id 为1的那条 Entry 应该怎么做？

在读取会选择最优的 Bookie，有了 Entry 的 id 和 Ledger 的 Ensemble 就可以根据 round-robin 计算出其所在 Bookie 信息，会选择向其中一个 Bookie 发送读请求。

这种机制会导致，读取数据时可能需要从多个 Bookie 获取数据，需要并发访问多个 Bookie，性能会变差，极端情况会有这个问题。

BK 有一个优化策略：读取时一般是选择读一段数据，如果 entries 在同一台机器上，会从同一个 Bookie 把这批 Entry 全部读取。

BK 怎么处理长尾效应的问题（长尾效应指的是某台机器上某段或者某条数据读取得比较慢，进而影响了整体的效率）？

Client 可以向任意一个副本读取相应的 Entry，但为了保证低延时，这里使用了一个叫 Speculative Read 的机制。读请求首先发送给第一个副本后，如果在指定的时间内没有收到 reponse，则发送读请求给第二个副本，然后同时等待第一个和第二个副本。谁第一个返回，即读取成功。通过有效的 Speculative read，可以很大程度减少长尾效应。

BookKeeper 容错机制

这里来简单来看下 BookKeeper 容错机制的实现。

Fencing 机制

Fencing 机制在前面已经简单介绍过了，它目的主要是为了保证写的一致性，严格保证一个 Ledger 只能被一个 Writer 来写。

Fencing 怎么触发呢？

如果一个 Writer 打开一个 Ledger，发现这个 Ledger 存在，并且没有 close，这种情况下，就会触发 Fencing 策略，并且触发 Ledger Recovery。

Log Recovery 机制

一个 Ledger 正常关闭后，会在其 Metadata 中存储 the last entry 的信息，所以正常关闭一个 Ledger 是非常重要的（Ledger 一旦关闭，其就是不可变的，读取的时候可以从任意一个 Bookie 上读取，而不需要再取 care 这个 Ledger 的 LAC 信息），否则可能会出现这样一种情况：

由于 Writer 挂了（Ledger 未正常关闭），导致部分数据写入成功，实际上这个条消息并不满足 Qw（可能满足了 Qa），会导致不同 Reader 读取的结果不一致！如下图所示：

解决方案就是： Log Recovery，正常关闭这个 Ledger，并将 The Last Entry 及状态更新到 metadata 中。

Log Recovery 怎么实现呢？通常有两种方案：

遍历这个 Ledger 所有 Entry 进行恢复；
利用 LAC 机制可以加速 recovery：恢复前，先获取每个 Ledger 的 LAC 信息，然后从 LAC 开始恢复；

很明显，第二种方案是比较合理的恢复速度更快。

Bookie 容错

当一个 Bookie 故障时：

所有在这个 Bookie 上的 Ledgers 都处于 under-replica 状态，恢复就是复制 Fragment （Ledger 的组成单位）的过程，以确保每个 Ledger 维护的副本数打到 Qw。

Bk 提供自动和手动两种方式：两种方式的复制协议是一样的；自动恢复是 BK 内部自动触发，手动过程需要手动干预，这里重点介绍自动过程：

自动恢复是在 Bookie 上运行 AutoRecoveryMain 线程来实现，它会首先通过 zk 选举一个 Auditor；
Auditor 的作用是检查不可用的 Bookie，然后做下面的操作：读取 zk 上完整的 Ledgers 信息，找到失败的 Ledgers（副本不满足条件的）；然后在 zk 的 /underreplicated znode 节点创建重新复制任务；
AutoRecoveryMain 还有 Replicator Worker 线程会复制相应的 Fragment 到自己的 Ledger 上，如果复制后满足 Fully Replicated，那么就从 zk 的节点中删除这个任务；

每个 Bookie 在发现任务时会尝试锁定，如果无法锁定就会执行后面的任务。如果获得锁，那么：

扫描 Ledgers，查找不属于当前 Bookie 的 Fragment；
对于每个匹配的 Fragment，它将另一个 Bookie 的数据复制到它自己的 Bookie，用新的集合更新 Zookeeper 并将 Fragment 标识为 Fully Replicated。

如果 Ledgers 仍然存在副本数不足的 Fragment，则释放锁。如果所有 Fragment 都已经Fully Replicated，则从 /underreplicated 删除重复复制任务。

最后

到这里，关于 BK 内核实现的主要部分已经介绍完毕，这篇文章的主要内容来自之前在团队的一次分享，一直想整理成博客的，但一直拖到了现在（因为并没有去看代码实现，主要是跟 bk 的论文及相关资料来整理的，有问题的地方欢迎指正）。

参考：

如何高效学习

2018-11-21T02:12:51.000Z

在这个知识爆炸、科技日新月异的时代，技术的变化远比我们想象的要快很多，这就对工程师的要求就提高了很多，特别是对于那些在技术上有所追求的工程师而言。对于一些互联网大厂，学习能力也成了面试中重点考察的内容。如何快速学习、掌握一门新的技术，如何提高自己的学习效率，对于有一定工作经验的人来说，可能每个人都有一个自己的学习方法论，但是我们也需要去学习借鉴别人（特别是那些有一定技术影响力的技术大咖）的经验，来不断更新和完善自己的方法轮。今天这篇《高效学习》，就是与大家一起探讨技术学习的方法论，本文的内容主要来自耗子叔的《左耳听风 —— 高效学习篇》，中间会穿插个人的一些经验，算是对这个系列的一个总结。如果想看原文内容，欢迎订阅耗子叔的这个专栏，这个专栏质量还是非常高的，耗子叔推荐了很多优秀的学习资源（通过文章末尾处的二维码链接购买）。

端正学习态度

对于大多数人来说，我们并不是那种天赋异禀的天才，所以那些速成的学习方法并不适合我们，因为，对于非天才的我们来说，学习是不可能速成的，学习本来就是一件【逆人性】的事，就像锻炼身体一样，需要人持续付出，会让人感到痛苦，并随时想找理由放弃，实际上，痛苦是成长的必经阶段。

大部分人都认为自己热爱学习，但是有多少能真正付出实践、并一直坚持下去，能做到实践和坚持的人，一般运气都不会太差。如果我们去研究一下古今中外的成功人士，就会发现，他们基本上都是非常自律的，也都是非常热爱学习的，他们可以沉得下心来不断学习，在学习中不断地思考、探索和实践。懒，是人类的天性，如果不能克服自己 DNA 中的弱点，不能端正自己的态度，不能自律，不能坚持，不能举一反三，不能不断追问等，那么，无论多好的方法，你都不可能学好。所以，有正确的态度非常重要。

当然只做到上面说的，并不一定能保证能够实现所谓的成功，但是完全可以让你在某个领域做到足够优秀。

主动学习和被动学习

下面这张图，大部分人应该都见过，这张图又称为学习金字塔：

人的学习，可以分为【被动学习】和【主动学习】两个层次：

被动学习：如听讲、阅读、视听、演示，学习内容的平均留存率为 5%、10%、20% 和 30%；
主动学习：如通过讨论、实践、教授给他人，会将原来被动学习的内容留存率从 5% 提升到 50%、75%、90%。

关于这个，我是深有体会的，如果我们只是看书或听一下别人的分享，不去实践，可能不到半个月，能记住 10% 的内容就不错了，我认为最好的学习方法是 实践，总结，教授给别人（要让别人听明白，教授的过程要有深度的讨论，而不是 PPT 走一遍） 。

过去一年多，很幸运的是，遇到了几个热爱学习的小伙伴，我们经常周末一起组织分享，每次分享只涉及很少的一块内容，分享过程中我们以讨论为主，这对分享者的能力锻炼有很好的效果（通过讨论听众也能收获很多），首先他需要自己能够理解这个问题，其次他需要把自己的理解给别人讲清楚，还需要回答其他人提出的问题（这些问题可能是分享者压根没注意的问题）。我也一直想在团队内部推广这种学习方法（这种方法人数太多的话就不太适合了），但是在团队内部去推，效果没有想象中得那么好，而且在团队内部反而很难坚持下去（大家的时间都比较有限，如果占据了别人的工作时间，别人可能需要加班才能完成自己的工作，所以大家兴趣并没有那么高昂）。相反，如果能找几个愿意一起学习的小伙伴一同学习、成长，这样反而效果好很多，如果你能找到这样的一群小伙伴，我是非常推荐这种学习方式，把自己学习的内容分享给其他人（大家一起学习、讨论这种学习效果，考虑问题的深度要比自己独自学习高出很多）。

浅度学习和深度学习

学习并不是努力读更多的书，盲目追求阅读的速度和数量，这会让人产生低层次的勤奋和成长的感觉，这只是在使蛮力。要思辩，要践行，要总结和归纳，否则，你只是在机械地重复某件事，而不会有质的成长。

在知识的领域其实也有阶层之分（类似于富人和穷人在财富方面的阶层之分，阶层的跨越非常难，但不是没有可能），那么长期在底层知识阶层的人，需要等着高层的人来喂养，他们长期陷入各种谣言和不准确的信息环境中，于是就导致错误和幼稚的认知，并习惯于哪些不费劲儿的轻度学习方式，从而一点点地丧失了深度学习的独立思考能力，从而再也没有能力打破知识阶层的限制，被困在认知底层翻不了身（就像我们经常说的，美国那些在穷人区生活的人们，他们在没有受到很好教育的前提下想突破自己的阶层，真的很难）。

对于知识的学习，我们应该如何进行深度学习呢？下面几点是关键：

高质量的信息源和第一手的知识；
把知识连成地图，将自己的理解反述出来；
不断地反思和思辩，与不同年龄段的人讨论：讨论、交流很多情况下，比自己看书、看代码收获要多很多；
举一反三，并践行之，把知识转换成技能。

学习有三个步骤：

知识采集：信息源是非常重要的，获取信息源头、破解表面信息的内在本质、多方数据印证，是这个步骤的关键；
知识缝合：所谓缝合就是把信息组织起来，成为结构体的知识，这里，连接记忆，逻辑推理，知识梳理 是很重要的三部分；
技能转换：通过 举一反三、实践和练习，以及教授传导，把知识转换成自己的技能，这种技能可以让你进入更高的阶层；

学习的目的

学习目的是什么呢？

学习是为了找到方法：学习不仅仅是为了找到答案，而更是为了找到方法，掌握了通往答案的路径和方法之后，便拥有了无师自通的能力；
学习是为了找到原理：学习不仅仅是为了知道，而更是为了思考和理解（真正的学习，从来都不是轻松的，而是那种你知道得越多，你的问题就会越多，你的问题越多，你就会思考得越多，你思考得越多，你就会觉得自己直到越少，于是你就会想要了解更多，这是一种螺旋式上升上下求索的状态），一旦掌握了这些本质的东西，你就会发现，整个复杂多变的世界在变得越来越简单；
学习是为了了解自己：学习不仅仅是为了开拓眼界，而更是为了找到自己的未知，为了了解自己，开拓眼界的目的就是为了发现自己的不足和上升空间，从而才能让自己成长；
学习是为了改变自己：学习不仅仅是为了成长，而更是为了改变自己（改变自己的思考方式和思维方式，改变自己与生俱来的那些垃圾和低效的算法）。

源头、原理和知识地图

挑选知识和信息源

对于计算机知识来说，学习英文是是否能够成长的关键，如果我们能用 Google 英文关键词就可以找到自己想要的知识，那么我们只是算得上能跟得上这个时代，但如果能在社区里跟社区里的大牛交流得到答案，这样才算是领先于这个时代。

信息源应该有以下几个特质：

第一手的资料，不是被别人理解过、消化过的二手资料，尤其对于知识性的东西来说，更是这样；
应该是有佐证、有数据、有引用的，或是有权威人士或大公司生产系统背书的资料，应该是被时间和实践检验过的，或是小心求证过的，不是拍脑袋野路子或是道听途说的资料；
应该是加入了一些自己的经验和思考，可以引发人深思的，是所谓信息的密集很大的文章。

耗子叔比较推荐 Medium 上的文章，这个上面的文章质量比较高。

注重基础和原理

基础知识和原理性的东西是无比重要的，无论是 JVM 还是 Node，或者是 Python 解释器里干了什么，它都无法逾越底层操作系统 API 对『物理世界』的限制。

比如，当学习一门新的语言时，除了看每个语言都有的 if-else、for/while-loop、function 等东西外，还需要重点看的就是：

出错处理是怎么玩的？
内存管理是怎么玩的？
数据封装和扩展是怎么玩的？
多态和泛型是怎么搞的？
运行时识别和反射是怎么玩的？
并发编程是怎么玩的？
…

所以，最关键的是，这些基础知识和原理性的东西和技术，都是经历过长时间的考验的，这些基础技术也有很多人类历史上的智慧结晶，会给你很多启示和帮助（基础知识虽然很枯燥不实用、工作上用不到，学习这些知识是为了学得更快，基础打牢，学什么都快，而学得快就会学得多，学得多，就会思考得多，思考得多，就会学得更快…）。

使用知识图

耗子叔在这里介绍一个知识图的学习方式，通过这种方式可以让我们从一个技术最重要的主干的地方开始出发遍历所有的技术细节，以 C++ 为例，分为三部分：

C++ 是用来解决 C 语言问题的，那么 C 语言有什么问题呢？指针、宏、错误处理、数据拷贝…C++是用什么技术来解决这些问题的？
C++ 的面向对象特性：封装、继承、多态。封装，让我想起了构造函数、析构函数等。析构函数让我想起了初始化列表，想到了默认构造函数，想到了拷贝构造函数，想到了 new…多态，让我想到了虚函数，想到了 RTTI，RTTI 让我想起了 dynamic_cast 和 typeid 等；
C++ 的泛型编程，我想到了 templete，想到了操作符重载，想到了函数对象，想到了 STL，想到数据容器，想到了 iterator，想到了通用算法等等。

有了这样一颗知识树之后，当出现一些不知道的知识点时，可以往这棵知识树上挂，而这样一来，也使得我们的学习更为系统和全面。

深度、归纳和坚持实践

系统地学习

在系统性地学习一项技术时，耗子叔总结了一个学习模板，模板内容如下：

这个技术出现的背景、初衷和要达到什么样的目标或是要解决什么样的问题，这是这个技术的成因和目标（设计理念），也是这个技术的灵魂；
这个技术的优势和劣势分别是什么，或者说，这个技术的 tradeoff 是什么，任何技术都有其好坏，在解决一个问题的时候，也会带来新的问题，一般来说，任何设计都有 tradeoff，所以，需要知道这个技术的优势和劣势，以及带来的挑战；
这个技术的适用场景，要注意没有一个技术是普适的，每个技术都其特别适合的场景，所谓的场景一般分为两个：一个是业务场景，一个是技术场景；
技术的组成部分和关键点，这是技术的核心思想，也是这个技术的灵魂所在，学习技术的核心部分是快速掌握的关键；
技术的底层原理和关键实现，任何一个技术都有其底层的关键基础技术，学习这些关键的底层技术，可以让我们未来很快地掌握其他技术；
已有的实现和它之间的对比，一般来说，任何一个技术都会有不同的实现，不同的实现都会有不同的侧重，学习不同的实现，可以让你得到不同的想法和思路，对于开阔思维、深入细节是非常重要的。

举一反三

重点是如何才能让自己拥有举一反三的能力，在这方面，耗子叔对自己训练如下：

对于一个场景，制造出各种不同的问题或难题；
对于一个问题，努力寻找尽可能多的解，并比较这些解的优劣；
对于一个解，努力寻找各种不同的测试案例，以图让其健壮。

举一反三的能力，可以分解为：

联想能力：这种能力的锻炼需要你平时就在不停地思考同一个事物的不同的用法，或是联想与之有关的别的事物。对于软件开发和技术学习也一样；
抽象能力：抽象能力是举一反三的基本技能。平时你解决问题的时候，如果你能对这个问题进行抽象，你就可以获得更多的表现形式。抽象能力需要找到解决问题的通用模型，比如数学就是对现实世界的一种抽象。只要我们能把现实世界的各种问题建立成数据模型（如，建立各种维度的向量），我们就可以用数学来求解，这也是机器学习的本质；
自省能力：所谓自省能力就是自己找自己的难看。当你得到一个解的时候，要站在自己的对立面来找这个解的漏洞。有点像左右手互博。这种自己和自己辩论的能力又叫思辨能力。将自己分裂成正反方，左右方，甚至多方，站在不同的立场上来和自己辩论，从而做到不漏过一个 case，从而获得完整全面的问题分析能力。

如果要获得这三种能力，除了你要很喜欢思考和找其它人来辩论或讨论以外，还要看你自己是否真的善于思考，是否有好奇心，是否喜欢打破沙锅问到底，是否喜欢关注细节，做事是否认真，是否严谨……

总结和归纳

我们把学到的东西用自己的语言和理解重新组织并表达出来，本质上是对信息进行消化和再加工的过程，这个过程可能会有信息损失，但也可能会有新信息加入，本质上是信息重构的过程。我们积累的知识越多，在知识间进行联系和区辨的能力就越强，对知识进行总结和归纳也就越轻松。而想要提高总结归纳的能力，首先要多阅读，多积累素材，扩大自己的知识面，多和别人讨论，多思辨，从而见多识广。

不过，我们需要注意的是，如果只学了部分知识或者还没有学透，就开始对知识进行总结归纳，那么总结归纳出来的知识结构也只能是混乱和幼稚的。因此，学习的开始阶段，可以不急于总结归纳，不急于下判断，做结论，而应该保留部分知识的不确定性，保持对知识的开放状态。当对整个知识的理解更深入，自己站的位置更高以后，总结和归纳才会更有条理。总结归纳更多是在复习中对知识的回顾和重组，而不是一边学习一边就总结归纳。

最后再总结一下做总结归纳的方法：把你看到和学习到的信息，归整好，排列好，关联好，总之把信息碎片给结构化掉，然后在结构化的信息中，找到规律，找到相通之处，找到共同之处，进行简化、归纳和总结，最终形成一种套路，一种模式，一种通用方法。

实践出真知

实践是很累很痛苦的事，但只有痛苦才会让人反思，而反思则是学习和改变自己的动力。Grow up through the pain，是非常有道理的。

坚持不懈

坚持本来也是一件反人性的事情，关于坚持的问题，大家应该都见过很多相似的文章，总之，坚持是一件看似简单、但是完成率非常低的事情。如果想要让自己能够坚持下去，最好能够让自己处于一个正反馈的循环中，比如，学习一个技术之后，与大家去分享自己的经验，或者整理出一篇博客让其他学习，都是一种很好的学习方法。

如何学习和阅读代码

读书还是读代码？

关于书/文档和代码的关系：

代码：What、How & Details；
书/文档：What、How & Why；

代码是具体的实现，但是并不能告诉你为什么？书和文档是人对人说的话，代码是人对机器说的话：

如果想知道为什么要这么搞，应该去看书、看文档：特别当我们想了解一种思想、一种方法、一种原理、一种经验时，书和文档是最佳的方式、更有效率一些；
如果想知道是怎么实现的，实现的细节，应该去看代码：对于具体的实现，比如：某协程的实现、某模块的性能、某个算法的实现，这时候最好的方式就是去读代码；

至于从代码中收获大还是从书中收获大，不同的场景、不同的目的下，会有不同的答案，我个人对这部分的想法是：

工作的前几年，更多的时候应该关注代码、关注细节的实现、多写代码（当然不是说完全不看书，书是必须要看的，特别是当有了相关实战经验之后再去看书看，效果会更好），这个阶段，Google、Stack Overflow、Github 将会是最好的学习渠道，如果在过程中，还能获得一些技术影响力，那将再好不过了；
有一定经验之后，这时候需要更多的【理性认识】，在这个阶段，我们的想法不再是实现某个功能，可能是想做出更牛逼的东西来，这时候应该多读那些大牛的书、与大牛交流、关注国际顶级会议的论文，应该让自己往技术 leader 这个方向发展。

如何阅读源代码

关于如何阅读源代码，耗子叔分享了一些干货，我这里简单总结一下

首先是阅读代码之前，最好先有以下了解：

基础知识：相关的语言和基础技术的知识；
软件功能：需要知道这个软件是做什么的、有哪些特性、哪些配置项，最好能够读一遍用户手册，然后让软件跑起来，自己先用一下感受一下；
相关文档：读一下相关的内部文档；
代码的组织结构：先简单看下源码的组织结构。

接下来，就是详细地看代码的实现，这里耗子叔分享了一个源代码阅读的经验：

接口抽象定义：任何代码都会有很多接口或抽象定义，其描述了代码需要处理的数据结构或者业务实体，以及它们之间的关系，理清楚这些关系是非常重要的；
模块粘合层：我们的代码有很多都是用来粘合代码的，比如中间件（middleware）、Promises 模式、回调（Callback）、代理委托、依赖注入等。这些代码模块间的粘合技术是非常重要的，因为它们会把本来平铺直述的代码给分裂开来，让你不容易看明白它们的关系；
业务流程：这是代码运行的过程。一开始，我们不要进入细节，但需要在高层搞清楚整个业务的流程是什么样的，在这个流程中，数据是怎么被传递和处理的。一般来说，我们需要画程序流程图或者时序处理图；
具体实现：了解上述的三个方面的内容，相信你对整个代码的框架和逻辑已经有了总体认识。这个时候，你就可以深入细节，开始阅读具体实现的代码了。对于代码的具体实现，一般来说，你需要知道下面一些事实，这样有助于你在阅读代码时找到重点。
- 代码逻辑：代码有两种逻辑，一种是业务逻辑，这种逻辑是真正的业务处理逻辑；另一种是控制逻辑，这种逻辑只是用控制程序流转的，不是业务逻辑。比如：flag 之类的控制变量，多线程处理的代码，异步控制的代码，远程通讯的代码，对象序列化反序列化的代码等。这两种逻辑你要分开，很多代码之所以混乱就是把这两种逻辑混在一起了；
- 出错处理：根据 2：8 原则，20% 的代码是正常的逻辑，80% 的代码是在处理各种错误，所以，你在读代码的时候，完全可以把处理错误的代码全部删除掉，这样就会留下比较干净和简单的正常逻辑的代码。排除干扰因素，可以更高效地读代码；
- 数据处理：只要你认真观察，就会发现，我们好多代码就是在那里倒腾数据。比如 DAO、DTO，比如 JSON、XML，这些代码冗长无聊，不是主要逻辑，可以不理；
- 重要的算法：一般来说，我们的代码里会有很多重要的算法，我说的并不一定是什么排序或是搜索算法，可能会是一些其它的核心算法，比如一些索引表的算法，全局唯一 ID 的算法，信息推荐的算法、统计算法、通读算法（如 Gossip）等。这些比较核心的算法可能会非常难读，但它们往往是最有技术含量的部分；
- 底层交互：有一些代码是和底层系统的交互，一般来说是和操作系统或是 JVM 的交互。因此，读这些代码通常需要一定的底层技术知识，不然，很难读懂；
运行时调试：很多时候，代码只有运行起来了，才能知道具体发生了什么事，所以，我们让代码运行进来，然后用日志也好，debug 设置断点跟踪也好。实际看一下代码的运行过程，是了解代码的一种很好的方式。

总结一下，阅读代码的方法如下。

一般采用自顶向下，从总体到细节的【剥洋葱皮】的读法；
画图是必要的，程序流程图，调用时序图，模块组织图；
代码逻辑归一下类，排除杂音，主要逻辑才会更清楚；
debug 跟踪一下代码是了解代码在执行中发生了什么的最好方式。

面对枯燥和量大的知识

知识很多，在学习的时候要抓住本质，关注本质和原理，这些才是不容易改变的，是经得住时间考验的。带着问题去学习也是一种非常好的学习方式，耗子叔根据自己经验在专栏中分享以下几个 tips：

认真阅读文档：使用前之前看文档，跟遇到问题之后再看一遍使用文档，收获可能会完全不一样；
用不同的方式学习同一个东西：比如，看书、听课、写博客、讲课等；
不要被打断：被打断简直是学习天敌，保持自己注意力的集中；
总结压缩信息：面对太多的信息时，用一个自己的【压缩算法】抓住问题的关键点；
把未知关联到已知：把新学的知识关联到已知的事物上来；
用教的方式学习：这种方式对自己的能力会是一个极大的提升；
学以致用：把学到的东西用起来，在实践中深化自己的学习效果；
不要记忆：聪明的人不会记忆知识的，他们会找方法，那些可以推导出知识或答案的方法；
多犯错误：犯错会让你学到更多，通过错误总结教训。

这里有一个 TED 的演讲，TED演讲：只需20个小时，你就能学会任何事情！，保证自己全身心投入、不受外界打扰的情况下，只要20个小时，我们就能达到这里如何学习开源项目-第三步，当然这20个小时要求是一个非常专注的20个小时，我还没有尝试过这种学习方法，近期准备尝试一次这种学习方法，到时候会写一篇文章来总结一下自己的经验。

最后，以矮大紧的一句话作为结束：【时代变来变去，确实有一些新的东西，但是在这样一个时代里，有一样东西没有变，就是有这样一群人，然后我们都读了一点书，受过不错的教育，然后对自己的心灵能长出什么东西，虽然不知道具体会长什么东西，但是拒绝全部种玉米、拒绝全部长土豆，希望心里有一亩田，有一天能长出一朵不知道是什么的花。（—来自《晓说》）】（这段话好像跟文章的主题没有什么关系，但不知为何突然想到了这段话，这里就列了出来）。

参考：

极客时间-左耳听风-《高效学习》系列整理；

Kafka Exactly-Once 之事务性实现

2018-11-04T12:36:34.000Z

这篇文章是 Kafka Exactly-Once 实现系列的第二篇，主要讲述 Kafka 事务性的实现，这部分的实现要比幂等性的实现复杂一些，幂等性实现是事务性实现的基础，幂等性提供了单会话单 Partition Exactly-Once 语义的实现，正是因为 Idempotent Producer 不提供跨多个 Partition 和跨会话场景下的保证，因此，我们是需要一种更强的事务保证，能够原子处理多个 Partition 的写入操作，数据要么全部写入成功，要么全部失败，不期望出现中间状态。这就是 Kafka Transactions 希望解决的问题，简单来说就是能够实现 atomic writes across partitions，本文以 Apache Kafka 2.0.0 代码实现为例，深入分析一下 Kafka 是如何实现这一机制的。

Apache Kafka 在 Exactly-Once Semantics（EOS）上三种粒度的保证如下（来自 Exactly-once Semantics in Apache Kafka）：

Idempotent Producer：Exactly-once，in-order，delivery per partition；
Transactions：Atomic writes across partitions；
Exactly-Once stream processing across read-process-write tasks；

第二种情况就是本文讲述的主要内容，在讲述整个事务处理流程时，也顺便分析第三种情况。

Kafka Transactions

Kafka 事务性最开始的出发点是为了在 Kafka Streams 中实现 Exactly-Once 语义的数据处理，这个问题提出之后，在真正的方案讨论阶段，社区又挖掘了更多的应用场景，也为了尽可能覆盖更多的应用场景，在真正的实现中，在很多地方做了相应的 tradeoffs，后面会写篇文章对比一下 RocketMQ 事务性的实现，就能明白 Kafka 事务性实现及应用场景的复杂性了。

Kafka 的事务处理，主要是允许应用可以把消费和生产的 batch 处理（涉及多个 Partition）在一个原子单元内完成，操作要么全部完成、要么全部失败。为了实现这种机制，我们需要应用能提供一个唯一 id，即使故障恢复后也不会改变，这个 id 就是 TransactionnalId（也叫 txn.id，后面会详细讲述），txn.id 可以跟内部的 PID 1:1 分配，它们不同的是 txn.id 是用户提供的，而 PID 是 Producer 内部自动生成的（并且故障恢复后这个 PID 会变化），有了 txn.id 这个机制，就可以实现多 partition、跨会话的 EOS 语义。

当用户使用 Kafka 的事务性时，Kafka 可以做到的保证：

跨会话的幂等性写入：即使中间故障，恢复后依然可以保持幂等性；
跨会话的事务恢复：如果一个应用实例挂了，启动的下一个实例依然可以保证上一个事务完成（commit 或者 abort）；
跨多个 Topic-Partition 的幂等性写入，Kafka 可以保证跨多个 Topic-Partition 的数据要么全部写入成功，要么全部失败，不会出现中间状态。

上面是从 Producer 的角度来看，那么如果从 Consumer 角度呢？Consumer 端很难保证一个已经 commit 的事务的所有 msg 都会被消费，有以下几个原因：

对于 compacted topic，在一个事务中写入的数据可能会被新的值覆盖；
一个事务内的数据，可能会跨多个 log segment，如果旧的 segmeng 数据由于过期而被清除，那么这个事务的一部分数据就无法被消费到了；
Consumer 在消费时可以通过 seek 机制，随机从一个位置开始消费，这也会导致一个事务内的部分数据无法消费；
Consumer 可能没有订阅这个事务涉及的全部 Partition。

简单总结一下，关于 Kafka 事务性语义提供的保证主要以下三个：

Atomic writes across multiple partitions.
All messages in a transaction are made visible together, or none are.
Consumers must be configured to skip uncommitted messages.

事务性示例

Kafka 事务性的使用方法也非常简单，用户只需要在 Producer 的配置中配置 transactional.id，通过 initTransactions() 初始化事务状态信息，再通过 beginTransaction() 标识一个事务的开始，然后通过 commitTransaction() 或 abortTransaction() 对事务进行 commit 或 abort，示例如下所示：

Properties props = new Properties();
props.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");
props.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");
props.put("client.id", "ProducerTranscationnalExample");
props.put("bootstrap.servers", "localhost:9092");
props.put("transactional.id", "test-transactional");
props.put("acks", "all");
KafkaProducer producer = new KafkaProducer(props);
producer.initTransactions();

try {
    String msg = "matt test";
    producer.beginTransaction();
    producer.send(new ProducerRecord(topic, "0", msg.toString()));
    producer.send(new ProducerRecord(topic, "1", msg.toString()));
    producer.send(new ProducerRecord(topic, "2", msg.toString()));
    producer.commitTransaction();
} catch (ProducerFencedException e1) {
    e1.printStackTrace();
    producer.close();
} catch (KafkaException e2) {
    e2.printStackTrace();
    producer.abortTransaction();
}
producer.close();

事务性的 API 也同样保持了 Kafka 一直以来的简洁性，使用起来是非常方便的。

事务性要解决的问题

回想一下，前面一篇文章中关于幂等性要解决的问题（幂等性要解决的问题），事务性其实更多的是解决幂等性中没有解决的问题，比如：

在写多个 Topic-Partition 时，执行的一批写入操作，有可能出现部分 Topic-Partition 写入成功，部分写入失败（比如达到重试次数），这相当于出现了中间的状态，这并不是我们期望的结果；
Producer 应用中间挂之后再恢复，无法做到 Exactly-Once 语义保证；

再来分析一下，Kafka 提供的事务性是如何解决上面两个问题的：

如果启用事务性的话，涉及到多个 Topic-Partition 的写入时，这个事务操作要么会全部成功，要么会全部失败，不会出现上面的情况（部分成功、部分失败），如果有 Topic-Partition 无法写入，那么当前这个事务操作会直接 abort；
其实应用做到端到端的 Exactly-Once，仅仅靠 Kafka 是无法做到的，还需要应用本身做相应的容错设计，以 Flink 为例，其容错设计就是 checkpoint 机制，作业保证在每次 checkpoint 成功时，它之前的处理都是 Exactly-Once 的，如果中间作业出现了故障，恢复之后，只需要接着上次 checkpoint 的记录做恢复即可，对于失败前那个未完成的事务执行回滚操作（abort）就可以了，这样的话就是实现了 Flink + Kafka 端到端的 Exactly-Once（这只是设计的思想，具体的实现后续会有文章详细解揭秘）。

事务性实现的关键

对于 Kafka 的事务性实现，最关键的就是其事务操作原子性的实现。对于一个事务操作而言，其会涉及到多个 Topic-Partition 数据的写入，如果是一个 long transaction 操作，可能会涉及到非常多的数据，如何才能保证这个事务操作的原子性（要么全部完成，要么全部失败）呢？

关于这点，最容易想到的应该是引用 2PC 协议（它主要是解决分布式系统数据一致性的问题）中协调者的角色，它的作用是统计所有参与者的投票结果，如果大家一致认为可以 commit，那么就执行 commit，否则执行 abort：
- 我们来想一下，Kafka 是不是也可以引入一个类似的角色来管理事务的状态，只有当 Producer 真正 commit 时，事务才会提交，否则事务会还在进行中（实际的实现中还需要考虑 timeout 的情况），不会处于完成状态；
- Producer 在开始一个事务时，告诉【协调者】事务开始，然后开始向多个 Topic-Partition 写数据，只有这批数据全部写完（中间没有出现异常），Producer 会调用 commit 接口进行 commit，然后事务真正提交，否则如果中间出现异常，那么事务将会被 abort（Producer 通过 abort 接口告诉【协调者】执行 abort 操作）；
- 这里的协调者与 2PC 中的协调者略有不同，主要为了管理事务相关的状态信息，这就是 Kafka Server 端的 TransactionCoordinator 角色；
有了上面的机制，是不是就可以了？很容易想到的问题就是 TransactionCoordinator 挂的话怎么办？TransactionCoordinator 如何实现高可用？
- TransactionCoordinator 需要管理事务的状态信息，如果一个事务的 TransactionCoordinator 挂的话，需要转移到其他的机器上，这里关键是在 事务状态信息如何恢复？ 也就是事务的状态信息需要很强的容错性、一致性；
- 关于数据的强容错性、一致性，存储的容错性方案基本就是多副本机制，而对于一致性，就有很多的机制实现，其实这个在 Kafka 内部已经实现（不考虑数据重复问题），那就是 min.isr + ack 机制；
- 分析到这里，对于 Kafka 熟悉的同学应该就知道，这个是不是跟 __consumer_offset 这个内部的 topic 很像，TransactionCoordinator 也跟 GroupCoordinator 类似，而对应事务数据（transaction log）就是 __transaction_state 这个内部 topic，所有事务状态信息都会持久化到这个 topic，TransactionCoordinator 在做故障恢复也是从这个 topic 中恢复数据；
有了上面的机制，就够了么？我们再来考虑一种情况，我们期望一个 Producer 在 Fail 恢复后能主动 abort 上次未完成的事务（接上之前未完成的事务），然后重新开始一个事务，这种情况应该怎么办？之前幂等性引入的 PID 是无法解决这个问题的，因为每次 Producer 在重启时，PID 都会更新为一个新值：
- Kafka 在 Producer 端引入了一个 TransactionalId 来解决这个问题，这个 txn.id 是由应用来配置的；
- TransactionalId 的引入还有一个好处，就是跟 consumer group 类似，它可以用来标识一个事务操作，便于这个事务的所有操作都能在一个地方（同一个 TransactionCoordinator）进行处理；
再来考虑一个问题，在具体的实现时，我们应该如何标识一个事务操作的开始、进行、完成的状态？正常来说，一个事务操作是由很多操作组成的一个操作单元，对于 TransactionCoordinator 而言，是需要准确知道当前的事务操作处于哪个阶段，这样在容错恢复时，新选举的 TransactionCoordinator 才能恢复之前的状态：
- 这个就是事务状态转移，一个事务从开始，都会有一个相应的状态标识，直到事务完成，有了事务的状态转移关系之后，TransactionCoordinator 对于事务的管理就会简单很多，TransactionCoordinator 会将当前事务的状态信息都会缓存起来，每当事务需要进行转移，就更新缓存中事务的状态（前提是这个状态转移是有效的）。

上面的分析都是个人见解，有问题欢迎指正~

下面这节就讲述一下事务性实现的一些关键的实现机制（对这些细节不太感兴趣或者之前没有深入接触过 Kafka，可以直接跳过，直接去看下一节的事务流程处理，先去了解一下一个事务操作的主要流程步骤）。

TransactionCoordinator

TransactionCoordinator 与 GroupCoordinator 有一些相似之处，它主要是处理来自 Transactional Producer 的一些与事务相关的请求，涉及的请求如下表所示（关于这些请求处理的详细过程会在下篇文章详细讲述，这里先有个大概的认识即可）：

请求类型	用途说明
ApiKeys.FIND_COORDINATOR	Transaction Producer 会发送这个 FindCoordinatorRequest 请求，来查询当前事务（txn.id）对应的 TransactionCoordinator，这个与 GroupCoordinator 查询类似，是根据 txn.id 的 hash 值取模找到对应 Partition 的 leader，这个 leader 就是该事务对应的 TransactionCoordinator
ApiKeys.INIT_PRODUCER_ID	Producer 初始化时，会发送一个 InitProducerIdRequest 请求，来获取其分配的 PID 信息，对于幂等性的 Producer，会随机选择一台 broker 发送请求，而对于 Transaction Producer 会选择向其对应的 TransactionCoordinator 发送该请求（目的是为了根据 txn.id 对应的事务状态做一些判断）
ApiKeys.ADD_PARTITIONS_TO_TXN	将这个事务涉及到的 topic-partition 列表添加到事务的 meta 信息中（通过 AddPartitionsToTxnRequest 请求），事务 meta 信息需要知道当前的事务操作涉及到了哪些 Topic-Partition 的写入
ApiKeys.ADD_OFFSETS_TO_TXN	Transaction Producer 的这个 AddOffsetsToTxnRequest 请求是由 `sendOffsetsToTransaction()` 接口触发的，它主要是用在 consume-process-produce 的场景中，这时候 consumer 也是整个事务的一部分，只有这个事务 commit 时，offset 才会被真正 commit（主要还是用于 Failover）
ApiKeys.END_TXN	当提交事务时， Transaction Producer 会向 TransactionCoordinator 发送一个 EndTxnRequest 请求，来 commit 或者 abort 事务

TransactionCoordinator 对象中还有两个关键的对象，分别是:

TransactionStateManager：这个对象，从名字应该就能大概明白其作用是关于事务的状态管理，它会维护分配到这个 TransactionCoordinator 的所有事务的 meta 信息；
TransactionMarkerChannelManager：这个主要是用于向其他的 Broker 发送 Transaction Marker 数据，关于 Transaction Marker，第一次接触的人，可能会有一些困惑，什么是 Transaction Marker，Transaction Marker 是用来解决什么问题的呢？这里先留一个疑问，后面会来解密。

总结一下，TransactionCoordinator 主要的功能有三个，分别是：

处理事务相关的请求；
维护事务的状态信息；
向其他 Broker 发送 Transaction Marker 数据。

Transaction Log（__transaction_state）

在前面分析中，讨论过一个问题，那就是如果 TransactionCoordinator 故障的话应该怎么恢复？怎么恢复之前的状态？我们知道 Kafka 内部有一个事务 topic __transaction_state，一个事务应该由哪个 TransactionCoordinator 来处理，是根据其 txn.id 的 hash 值与 __transaction_state 的 partition 数取模得到，__transaction_state Partition 默认是50个，假设取模之后的结果是2，那么这个 txn.id 应该由 __transaction_state Partition 2 的 leader 来处理。

对于 __transaction_state 这个 topic 默认是由 Server 端的 transaction.state.log.replication.factor 参数来配置，默认是3，如果当前 leader 故障，需要进行 leader 切换，也就是对应的 TransactionCoordinator 需要迁移到新的 leader 上，迁移之后，如何恢复之前的事务状态信息呢？

正如 GroupCoordinator 的实现一样，TransactionCoordinator 的恢复也是通过 __transaction_state 中读取之前事务的日志信息，来恢复其状态信息，前提是要求事务日志写入做相应的不丢配置。这也是 __transaction_state 一个重要作用之一，用于 TransactionCoordinator 的恢复，__transaction_state 与 __consumer_offsets 一样是 compact 类型的 topic，其 scheme 如下：

Key => Version TransactionalId
    Version => 0 (int16)
    TransactionalId => String

Value => Version ProducerId ProducerEpoch TxnTimeoutDuration TxnStatus [TxnPartitions] TxnEntryLastUpdateTime TxnStartTime
    Version => 0 (int16)
    ProducerId => int64
    ProducerEpoch => int16
    TxnTimeoutDuration => int32
    TxnStatus => int8
    TxnPartitions => [Topic [Partition]]
        Topic => String
        Partition => int32
    TxnLastUpdateTime => int64
    TxnStartTime => int64

Transaction Marker

终于讲到了 Transaction Marker，这也是前面留的一个疑问，什么是 Transaction Marker？Transaction Marker 是用来解决什么问题的呢？

Transaction Marker 也叫做 control messages，它的作用主要是告诉这个事务操作涉及的 Topic-Partition Set 的 leaders 当前的事务操作已经完成，可以执行 commit 或者 abort（Marker 主要的内容就是 commit 或 abort），这个 marker 数据由该事务的 TransactionCoordinator 来发送的。我们来假设一下：如果没有 Transaction Marker，一个事务在完成后，如何执行 commit 操作？（以这个事务涉及多个 Topic-Partition 写入为例）

Transactional Producer 在进行 commit 时，需要先告诉 TransactionCoordinator 这个事务可以 commit 了（因为 TransactionCoordinator 记录这个事务对应的状态信息），然后再去告诉这些 Topic-Partition 的 leader 当前已经可以 commit，也就是 Transactional Producer 在执行 commit 时，至少需要做两步操作；
在 Transactional Producer 通知这些 Topic-Partition 的 leader 事务可以 commit 时，这些 Topic-Partition 应该怎么处理呢？难道是 commit 时再把数据持久化到磁盘，abort 时就直接丢弃不做持久化？这明显是问题的，如果这是一个 long transaction 操作，写数据非常多，内存中无法存下，数据肯定是需要持久化到硬盘的，如果数据已经持久化到硬盘了，假设这个时候收到了一个 abort 操作，是需要把数据再从硬盘清掉？
- 这种方案有一个问题是：已经持久化的数据是持久化到本身的日志文件，还是其他文件？如果持久化本来的日志文件中，那么 consumer 消费到一个未 commit 的数据怎么办？这些数据是有可能 abort 的，如果是持久化到其他文件中，这会涉及到数据多次写磁盘、从磁盘清除的操作，会影响其 server 端的性能；
再看下如果有了 Transaction Marker 这个机制后，情况会变成什么样？
1. 首先 Transactional Producer 只需要告诉 TransactionCoordinator 当前事务可以 commit，然后再由 TransactionCoordinator 来向其涉及到的 Topic-Partition 的 leader 发送 Transaction Marker 数据，这里减轻了 Client 的压力，而且 TransactionCoordinator 会做一些优化，如果这个目标 Broker 涉及到多个事务操作，是可以共享这个 TCP 连接的；
2. 有了 Transaction Marker 之后，Producer 在持久化数据时就简单很多，写入的数据跟之前一样，按照条件持久化到硬盘（数据会有一个标识，标识这条或这批数据是不是事务写入的数据），当收到 Transaction Marker 时，把这个 Transaction Marker 数据也直接写入这个 Partition 中，这样在处理 Consumer 消费时，就可以根据 marker 信息做相应的处理。

Transaction Marker 的数据格式如下，其中 ControlMessageType 为 0 代表是 COMMIT，为 1 代表是 ABORT：

ControlMessageKey => Version ControlMessageType
    Version => int16
    ControlMessageType => int16

TransactionControlMessageValue => Version CoordinatorEpoch
    Version => int16
    CoordinatorEpoch => int32

这里再讲一个额外的内容，对于事务写入的数据，为了给消息添加一个标识（标识这条消息是不是来自事务写入的），数据格式（消息协议）发生了变化，这个改动主要是在 Attribute 字段，对于 MessageSet，Attribute 是16位，新的格式如下：

1	\| Unused (6-15) \| Control (5) \| Transactional (4) \| Timestamp Type (3) \| Compression Type (0-2) \|

对于 Message，也就是单条数据存储时（其中 Marker 数据都是单条存储的），在 Kafka 中，只有 MessageSet 才可以做压缩，所以 Message 就没必要设置压缩字段，其格式如下：

1	\| Unused (1-7) \| Control Flag(0) \|

Server 端事务状态管理

TransactionCoordinator 会维护相应的事务的状态信息（也就是 TxnStatus），对于一个事务，总共有以下几种状态：

状态	状态码	说明
Empty	0	Transaction has not existed yet
Ongoing	1	Transaction has started and ongoing
PrepareCommit	2	Group is preparing to commit
PrepareAbort	3	Group is preparing to abort
CompleteCommit	4	Group has completed commit
CompleteAbort	5	Group has completed abort
Dead	6	TransactionalId has expired and is about to be removed from the transaction cache
PrepareEpochFence	7	We are in the middle of bumping the epoch and fencing out older producers

其相应有效的状态转移图如下：

正常情况下，对于一个事务而言，其状态状态流程应该是 Empty –> Ongoing –> PrepareCommit –> CompleteCommit –> Empty 或者是 Empty –> Ongoing –> PrepareAbort –> CompleteAbort –> Empty。

Client 端事务状态管理

Client 的事务状态信息主要记录本地事务的状态，当然跟其他的系统类似，本地的状态信息与 Server 端的状态信息并不完全一致（状态的设置，就像 GroupCoodinator 会维护一个 Group 的状态，每个 Consumer 也会维护本地的 Consumer 对象的状态一样）。Client 端的事务状态信息主要用于 Client 端的事务状态处理，其主要有以下几种：

UNINITIALIZED：Transactional Producer 初始化时的状态，此时还没有事务处理；
INITIALIZING：Transactional Producer 调用 initTransactions() 方法初始化事务相关的内容，比如发送 InitProducerIdRequest 请求；
READY：对于新建的事务，Transactional Producer 收到来自 TransactionCoordinator 的 InitProducerIdResponse 后，其状态会置为 READY（对于已有的事务而言，是当前事务完成后 Client 的状态会转移为 READY）；
IN_TRANSACTION：Transactional Producer 调用 beginTransaction() 方法，开始一个事务，标志着一个事务开始初始化；
COMMITTING_TRANSACTION：Transactional Producer 调用 commitTransaction() 方法时，会先更新本地的状态信息；
ABORTING_TRANSACTION：Transactional Producer 调用 abortTransaction() 方法时，会先更新本地的状态信息；
ABORTABLE_ERROR：在一个事务操作中，如果有数据发送失败，本地状态会转移到这个状态，之后再自动 abort 事务；
FATAL_ERROR：转移到这个状态之后，再进行状态转移时，会抛出异常；

Client 端状态如下图：

事务性的整体流程

有了前面对 Kafka 事务性关键实现的讲述之后，这里详细讲述一个事务操作的处理流程，当然这里只是重点讲述事务性相关的内容，官方版的流程图可参考Kafka Exactly-Once Data Flow，这里我做了一些改动，其流程图如下：

这个流程是以 consume-process-produce 场景为例（主要是 kafka streams 的场景），图中红虚框及 4.3a 部分是关于 consumer 的操作，去掉这部分的话，就是只考虑写入情况的场景。这种只考虑写入场景的事务操作目前在业内应用也是非常广泛的，比如 Flink + Kafka 端到端的 Exactly-Once 实现就是这种场景，下面来详细讲述一下整个流程。

1. Finding a TransactionCoordinator

对于事务性的处理，第一步首先需要做的就是找到这个事务 txn.id 对应的 TransactionCoordinator，Transaction Producer 会向 Broker （随机选择一台 broker，一般选择本地连接最少的这台 broker）发送 FindCoordinatorRequest 请求，获取其 TransactionCoordinator。

怎么找到对应的 TransactionCoordinator 呢？这个前面已经讲过了，主要是通过下面的方法获取 __transaction_state 的 Partition，该 Partition 对应的 leader 就是这个 txn.id 对应的 TransactionCoordinator。

1	def partitionFor(transactionalId: String): Int = Utils.abs(transactionalId.hashCode) % transactionTopicPartitionCount

2. Getting a PID

PID 这里就不再介绍了，不了解的可以看前面那篇文章（Producer ID）。

Transaction Producer 在 initializeTransactions() 方法中会向 TransactionCoordinator 发送 InitPidRequest 请求获取其分配的 PID，有了 PID，事务写入时可以保证幂等性，PID 如何分配可以参考 PID 分配，但是 TransactionCoordinator 在给事务 Producer 分配 PID 会做一些判断，主要的内容是：

如果这个 txn.id 之前没有相应的事务状态（new txn.id），那么会初始化其事务 meta 信息 TransactionMetadata（会给其分配一个 PID，初始的 epoch 为-1），如果有事务状态，获取之前的状态；
校验其 TransactionMetadata 的状态信息（参考下面代码中 prepareInitProduceIdTransit() 方法）：
1. 如果前面还有状态转移正在进行，直接返回 CONCURRENT_TRANSACTIONS 异常；
2. 如果此时的状态为 PrepareAbort 或 PrepareCommit，返回 CONCURRENT_TRANSACTIONS 异常；
3. 如果之前的状态为 CompleteAbort、CompleteCommit 或 Empty，那么先将状态转移为 Empty，然后更新一下 epoch 值；
4. 如果之前的状态为 Ongoing，状态会转移成 PrepareEpochFence，然后再 abort 当前的事务，并向 client 返回 CONCURRENT_TRANSACTIONS 异常；
5. 如果状态为 Dead 或 PrepareEpochFence，直接抛出相应的 FATAL 异常；
将 txn.id 与相应的 TransactionMetadata 持久化到事务日志中，对于 new txn.id，这个持久化的数据主要时 txn.id 与 pid 关系信息，如图中的 3a 所示。

//note: producer 启用事务性的情况下，检测此时事务的状态信息
private def prepareInitProduceIdTransit(transactionalId: String,
                                        transactionTimeoutMs: Int,
                                        coordinatorEpoch: Int,
                                        txnMetadata: TransactionMetadata): ApiResult[(Int, TxnTransitMetadata)] = {
  if (txnMetadata.pendingTransitionInProgress) {
    // return a retriable exception to let the client backoff and retry
    Left(Errors.CONCURRENT_TRANSACTIONS)
  } else {
    // caller should have synchronized on txnMetadata already
    txnMetadata.state match {
      case PrepareAbort | PrepareCommit =>
        // reply to client and let it backoff and retry
        Left(Errors.CONCURRENT_TRANSACTIONS)

      case CompleteAbort | CompleteCommit | Empty => //note: 此时需要将状态转移到 Empty（此时状态并没有转移，只是在 PendingState 记录了将要转移的状态）
        val transitMetadata = if (txnMetadata.isProducerEpochExhausted) {
          val newProducerId = producerIdManager.generateProducerId()
          txnMetadata.prepareProducerIdRotation(newProducerId, transactionTimeoutMs, time.milliseconds())
        } else { //note: 增加 producer 的 epoch 值
          txnMetadata.prepareIncrementProducerEpoch(transactionTimeoutMs, time.milliseconds())
        }

        Right(coordinatorEpoch, transitMetadata)

      case Ongoing => //note: abort 当前的事务，并返回一个 CONCURRENT_TRANSACTIONS 异常，强制 client 去重试
        // indicate to abort the current ongoing txn first. Note that this epoch is never returned to the
        // user. We will abort the ongoing transaction and return CONCURRENT_TRANSACTIONS to the client.
        // This forces the client to retry, which will ensure that the epoch is bumped a second time. In
        // particular, if fencing the current producer exhausts the available epochs for the current producerId,
        // then when the client retries, we will generate a new producerId.
        Right(coordinatorEpoch, txnMetadata.prepareFenceProducerEpoch())

      case Dead | PrepareEpochFence => //note: 返回错误
        val errorMsg = s"Found transactionalId $transactionalId with state ${txnMetadata.state}. " +
          s"This is illegal as we should never have transitioned to this state."
        fatal(errorMsg)
        throw new IllegalStateException(errorMsg)

    }
  }
}

3. Starting a Transaction

前面两步都是 Transaction Producer 调用 initTransactions() 部分，到这里，Producer 可以调用 beginTransaction() 开始一个事务操作，其实现方法如下面所示：

//KafkaProducer
//note: 应该在一个事务操作之前进行调用
public void beginTransaction() throws ProducerFencedException {
    throwIfNoTransactionManager();
    transactionManager.beginTransaction();
}

// TransactionManager
//note: 在一个事务开始之前进行调用，这里实际上只是转换了状态（只在 producer 本地记录了状态的开始）
public synchronized void beginTransaction() {
    ensureTransactional();
    maybeFailWithError();
    transitionTo(State.IN_TRANSACTION);
}

这里只是将本地事务状态转移成 IN_TRANSACTION，并没有与 Server 端进行交互，所以在流程图中没有体现出来（TransactionManager 初始化时，其状态为 UNINITIALIZED，Producer 调用 initializeTransactions() 方法，其状态转移成 INITIALIZING）。

4. Consume-Porcess-Produce Loop

在这个阶段，Transaction Producer 会做相应的处理，主要包括：从 consumer 拉取数据、对数据做相应的处理、通过 Producer 写入到下游系统中（对于只有写入场景，忽略前面那一步即可），下面有一个示例（start 和 end 中间的部分），是一个典型的 consume-process-produce 场景：

while (true) {
    ConsumerRecords records = consumer.poll(Long.MAX_VALUE);
    producer.beginTransaction();
    //start
    for (ConsumerRecord record : records){
        producer.send(producerRecord(“outputTopic1”, record));
        producer.send(producerRecord(“outputTopic2”, record));
    }
    producer.sendOffsetsToTransaction(currentOffsets(consumer), group);
    //end
    producer.commitTransaction();
}

下面来结合前面的流程图来讲述一下这部分的实现。

4.1. AddPartitionsToTxnRequest

Producer 在调用 send() 方法时，Producer 会将这个对应的 Topic—Partition 添加到 TransactionManager 的记录中，如下所示：

1
2
3

//note: 如何开启了幂等性或事务性，需要做一些处理
if (transactionManager != null && transactionManager.isTransactional())
    transactionManager.maybeAddPartitionToTransaction(tp);

如果这个 Topic-Partition 之前不存在，那么就添加到 newPartitionsInTransaction 集合中，如下所示：

//note: 将 tp 添加到 newPartitionsInTransaction 中，记录当前进行事务操作的 tp
public synchronized void maybeAddPartitionToTransaction(TopicPartition topicPartition) {
    failIfNotReadyForSend();

    //note: 如果 partition 已经添加到 partitionsInTransaction、pendingPartitionsInTransaction、newPartitionsInTransaction中
    if (isPartitionAdded(topicPartition) || isPartitionPendingAdd(topicPartition))
        return;

    log.debug("Begin adding new partition {} to transaction", topicPartition);
    newPartitionsInTransaction.add(topicPartition);
}

Producer 端的 Sender 线程会将这个信息通过 AddPartitionsToTxnRequest 请求发送给 TransactionCoordinator，也就是图中的 4.1 过程，TransactionCoordinator 会将这个 Topic-Partition 列表更新到 txn.id 对应的 TransactionMetadata 中，并且会持久化到事务日志中，也就是图中的 4.1 a 部分，这里持久化的数据主要是 txn.id 与其涉及到的 Topic-Partition 信息。

4.2. ProduceRequest

这一步与正常 Producer 写入基本上一样，就是相应的 Leader 在持久化数据时会在头信息中标识这条数据是不是来自事务 Producer 的写入（主要是数据协议有变动，Server 处理并不需要做额外的处理）。

4.3. AddOffsetsToTxnRequest

Producer 在调用 sendOffsetsToTransaction() 方法时，第一步会首先向 TransactionCoordinator 发送相应的 AddOffsetsToTxnRequest 请求，如下所示：

//class KafkaProcducer
//note: 当你需要 batch 的消费-处理-写入消息，这个方法需要被使用
//note: 发送指定的 offset 给 group coordinator，用来标记这些 offset 是作为当前事务的一部分，只有这次事务成功时
//note: 这些 offset 才会被认为 commit 了
public void sendOffsetsToTransaction(Map offsets,
                                     String consumerGroupId) throws ProducerFencedException {
    throwIfNoTransactionManager();
    TransactionalRequestResult result = transactionManager.sendOffsetsToTransaction(offsets, consumerGroupId);
    sender.wakeup();
    result.await();
}


// class TransactionManager
//note: 发送 AddOffsetsToTxRequest
public synchronized TransactionalRequestResult sendOffsetsToTransaction(Map offsets,
                                                                        String consumerGroupId) {
    ensureTransactional();
    maybeFailWithError();
    if (currentState != State.IN_TRANSACTION)
        throw new KafkaException("Cannot send offsets to transaction either because the producer is not in an " +
                "active transaction");

    log.debug("Begin adding offsets {} for consumer group {} to transaction", offsets, consumerGroupId);
    AddOffsetsToTxnRequest.Builder builder = new AddOffsetsToTxnRequest.Builder(transactionalId,
            producerIdAndEpoch.producerId, producerIdAndEpoch.epoch, consumerGroupId);
    AddOffsetsToTxnHandler handler = new AddOffsetsToTxnHandler(builder, offsets);
    enqueueRequest(handler);
    return handler.result;
}

TransactionCoordinator 在收到这个请求时，处理方法与 4.1 中的一样，把这个 group.id 对应的 __consumer_offsets 的 Partition （与写入涉及的 Topic-Partition 一样）保存到事务对应的 meta 中，之后会持久化相应的事务日志，如图中 4.3a 所示。

4.4. TxnOffsetsCommitRequest

Producer 在收到 TransactionCoordinator 关于 AddOffsetsToTxnRequest 请求的结果后，后再次发送 TxnOffsetsCommitRequest 请求给对应的 GroupCoordinator，AddOffsetsToTxnHandler 的 handleResponse() 的实现如下：

@Override
public void handleResponse(AbstractResponse response) {
    AddOffsetsToTxnResponse addOffsetsToTxnResponse = (AddOffsetsToTxnResponse) response;
    Errors error = addOffsetsToTxnResponse.error();

    if (error == Errors.NONE) {
        log.debug("Successfully added partition for consumer group {} to transaction", builder.consumerGroupId());

        // note the result is not completed until the TxnOffsetCommit returns
        //note: AddOffsetsToTnxRequest 之后，还会再发送 TxnOffsetCommitRequest
        pendingRequests.add(txnOffsetCommitHandler(result, offsets, builder.consumerGroupId()));
        transactionStarted = true;
    } else if (error == Errors.COORDINATOR_NOT_AVAILABLE || error == Errors.NOT_COORDINATOR) {
        lookupCoordinator(FindCoordinatorRequest.CoordinatorType.TRANSACTION, transactionalId);
        reenqueue();
    } else if (error == Errors.COORDINATOR_LOAD_IN_PROGRESS || error == Errors.CONCURRENT_TRANSACTIONS) {
        reenqueue();
    } else if (error == Errors.INVALID_PRODUCER_EPOCH) {
        fatalError(error.exception());
    } else if (error == Errors.TRANSACTIONAL_ID_AUTHORIZATION_FAILED) {
        fatalError(error.exception());
    } else if (error == Errors.GROUP_AUTHORIZATION_FAILED) {
        abortableError(new GroupAuthorizationException(builder.consumerGroupId()));
    } else {
        fatalError(new KafkaException("Unexpected error in AddOffsetsToTxnResponse: " + error.message()));
    }
}

GroupCoordinator 在收到相应的请求后，会将 offset 信息持久化到 consumer offsets log 中（包含对应的 PID 信息），但是不会更新到缓存中，除非这个事务 commit 了，这样的话就可以保证这个 offset 信息对 consumer 是不可见的（没有更新到缓存中的数据是不可见的，通过接口是获取的，这是 GroupCoordinator 本身来保证的）。

5.Committing or Aborting a Transaction

在一个事务操作处理完成之后，Producer 需要调用 commitTransaction() 或者 abortTransaction() 方法来 commit 或者 abort 这个事务操作。

5.1. EndTxnRequest

无论是 Commit 还是 Abort，对于 Producer 而言，都是向 TransactionCoordinator 发送 EndTxnRequest 请求，这个请求的内容里会标识是 commit 操作还是 abort 操作，Producer 的 commitTransaction() 方法实现如下所示：

//class KafkaProducer
//note: commit 正在进行的事务操作，这个方法在真正发送 commit 之后将会 flush 所有未发送的数据
//note: 如果在发送中遇到任何一个不能修复的错误，这个方法抛出异常，事务也不会被提交，所有 send 必须成功，这个事务才能 commit 成功
public void commitTransaction() throws ProducerFencedException {
    throwIfNoTransactionManager();
    TransactionalRequestResult result = transactionManager.beginCommit();
    sender.wakeup();
    result.await();
}

// class TransactionManager
//note: 开始 commit，转移本地本地保存的状态以及发送相应的请求
public synchronized TransactionalRequestResult beginCommit() {
    ensureTransactional();
    maybeFailWithError();
    transitionTo(State.COMMITTING_TRANSACTION);
    return beginCompletingTransaction(TransactionResult.COMMIT);
}

Producer 的 abortTransaction() 方法实现如下：

//class KafkaProducer
//note: 取消正在进行事务，任何没有 flush 的数据都会被丢弃
public void abortTransaction() throws ProducerFencedException {
    throwIfNoTransactionManager();
    TransactionalRequestResult result = transactionManager.beginAbort();
    sender.wakeup();
    result.await();
}

// class TransactionManager
public synchronized TransactionalRequestResult beginAbort() {
    ensureTransactional();
    if (currentState != State.ABORTABLE_ERROR)
        maybeFailWithError();
    transitionTo(State.ABORTING_TRANSACTION);

    // We're aborting the transaction, so there should be no need to add new partitions
    newPartitionsInTransaction.clear();
    return beginCompletingTransaction(TransactionResult.ABORT);
}

它们最终都是调用了 TransactionManager 的 beginCompletingTransaction() 方法，这个方法会向其待发送请求列表中添加 EndTxnRequest 请求，其实现如下：

//note: 发送 EndTxnRequest 请求，添加到 pending 队列中
private TransactionalRequestResult beginCompletingTransaction(TransactionResult transactionResult) {
    if (!newPartitionsInTransaction.isEmpty())
        enqueueRequest(addPartitionsToTransactionHandler());
    EndTxnRequest.Builder builder = new EndTxnRequest.Builder(transactionalId, producerIdAndEpoch.producerId,
            producerIdAndEpoch.epoch, transactionResult);
    EndTxnHandler handler = new EndTxnHandler(builder);
    enqueueRequest(handler);
    return handler.result;
}

TransactionCoordinator 在收到 EndTxnRequest 请求后，会做以下处理：

更新事务的 meta 信息，状态转移成 PREPARE_COMMIT 或 PREPARE_ABORT，并将事务状态信息持久化到事务日志中；
根据事务 meta 信息，向其涉及到的所有 Topic-Partition 的 leader 发送 Transaction Marker 信息（也就是 WriteTxnMarkerRquest 请求，见下面的 5.2 分析）；
最后将事务状态更新为 COMMIT 或者 ABORT，并将事务的 meta 持久化到事务日志中，也就是 5.3 步骤。

5.2. WriteTxnMarkerRquest

WriteTxnMarkerRquest 是 TransactionCoordinator 收到 Producer 的 EndTxnRequest 请求后向其他 Broker 发送的请求，主要是告诉它们事务已经完成。不论是普通的 Topic-Partition 还是 __consumer_offsets，在收到这个请求后，都会把事务结果（Transaction Marker 的格数据式见前面）持久化到对应的日志文件中，这样下游 Consumer 在消费这个数据时，就知道这个事务是 commit 还是 abort。

5.3. Writing the Final Commit or Abort Message

当这个事务涉及到所有 Topic-Partition 都已经把这个 marker 信息持久化到日志文件之后，TransactionCoordinator 会将这个事务的状态置为 COMMIT 或 ABORT，并持久化到事务日志文件中，到这里，这个事务操作就算真正完成了，TransactionCoordinator 缓存的很多关于这个事务的数据可以被清除了。

小思考

在上面讲述完 Kafka 事务性处理之后，我们来思考一下以下这些问题，上面的流程可能会出现下面这些问题或者很多人可能会有下面的疑问：

txn.id 是否可以被多 Producer 使用，如果有多个 Producer 使用了这个 txn.id 会出现什么问题？
TransactionCoordinator Fencing 和 Producer Fencing 分别是什么，它们是用来解决什么问题的？
对于事务的数据，Consumer 端是如何消费的，一个事务可能会 commit，也可能会 abort，这个在 Consumer 端是如何体现的？
对于一个 Topic，如果既有事务数据写入又有其他 topic 数据写入，消费时，其顺序性时怎么保证的？
如果 txn.id 长期不使用，server 端怎么处理？
PID Snapshot 是做什么的？是用来解决什么问题？

下面，来详细分析一下上面提到的这些问题。

如果多个 Producer 使用同一个 txn.id 会出现什么情况？

对于这个情况，我们这里直接做了一个相应的实验，两个 Producer 示例都使用了同一个 txn.id（为 test-transactional-matt），Producer 1 先启动，然后过一会再启动 Producer 2，这时候会发现一个现象，那就是 Producer 1 进程会抛出异常退出进程，其异常信息为：

org.apache.kafka.common.KafkaException: Cannot execute transactional method because we are in an error state
	at org.apache.kafka.clients.producer.internals.TransactionManager.maybeFailWithError(TransactionManager.java:784)
	at org.apache.kafka.clients.producer.internals.TransactionManager.beginTransaction(TransactionManager.java:215)
	at org.apache.kafka.clients.producer.KafkaProducer.beginTransaction(KafkaProducer.java:606)
	at com.matt.test.kafka.producer.ProducerTransactionExample.main(ProducerTransactionExample.java:68)
Caused by: org.apache.kafka.common.errors.ProducerFencedException: Producer attempted an operation with an old epoch. Either there is a newer producer with the same transactionalId, or the producer's transaction has been expired by the broker.

这里抛出了 ProducerFencedException 异常，如果打开相应的 Debug 日志，在 Producer 1 的日志文件会看到下面的日志信息

[2018-11-03 12:48:52,495] DEBUG [Producer clientId=ProducerTransactionExample, transactionalId=test-transactional-matt] Transition from state COMMITTING_TRANSACTION to error state FATAL_ERROR (org.apache.kafka.clients.producer.internals.TransactionManager)
org.apache.kafka.common.errors.ProducerFencedException: Producer attempted an operation with an old epoch. Either there is a newer producer with the same transactionalId, or the producer's transaction has been expired by the broker.
[2018-11-03 12:48:52,498] ERROR [Producer clientId=ProducerTransactionExample, transactionalId=test-transactional-matt] Aborting producer batches due to fatal error (org.apache.kafka.clients.producer.internals.Sender)
org.apache.kafka.common.errors.ProducerFencedException: Producer attempted an operation with an old epoch. Either there is a newer producer with the same transactionalId, or the producer's transaction has been expired by the broker.
[2018-11-03 12:48:52,599] INFO [Producer clientId=ProducerTransactionExample, transactionalId=test-transactional-matt] Closing the Kafka producer with timeoutMillis = 9223372036854775807 ms. (org.apache.kafka.clients.producer.KafkaProducer)
[2018-11-03 12:48:52,599] DEBUG [Producer clientId=ProducerTransactionExample, transactionalId=test-transactional-matt] Beginning shutdown of Kafka producer I/O thread, sending remaining records. (org.apache.kafka.clients.producer.internals.Sender)
[2018-11-03 12:48:52,601] DEBUG Removed sensor with name connections-closed: (org.apache.kafka.common.metrics.Metrics)
[2018-11-03 12:48:52,601] DEBUG Removed sensor with name connections-created: (org.apache.kafka.common.metrics.Metrics)
[2018-11-03 12:48:52,602] DEBUG Removed sensor with name successful-authentication: (org.apache.kafka.common.metrics.Metrics)
[2018-11-03 12:48:52,602] DEBUG Removed sensor with name failed-authentication: (org.apache.kafka.common.metrics.Metrics)
[2018-11-03 12:48:52,602] DEBUG Removed sensor with name bytes-sent-received: (org.apache.kafka.common.metrics.Metrics)
[2018-11-03 12:48:52,603] DEBUG Removed sensor with name bytes-sent: (org.apache.kafka.common.metrics.Metrics)
[2018-11-03 12:48:52,603] DEBUG Removed sensor with name bytes-received: (org.apache.kafka.common.metrics.Metrics)
[2018-11-03 12:48:52,604] DEBUG Removed sensor with name select-time: (org.apache.kafka.common.metrics.Metrics)
[2018-11-03 12:48:52,604] DEBUG Removed sensor with name io-time: (org.apache.kafka.common.metrics.Metrics)
[2018-11-03 12:48:52,604] DEBUG Removed sensor with name node--1.bytes-sent (org.apache.kafka.common.metrics.Metrics)
[2018-11-03 12:48:52,605] DEBUG Removed sensor with name node--1.bytes-received (org.apache.kafka.common.metrics.Metrics)
[2018-11-03 12:48:52,605] DEBUG Removed sensor with name node--1.latency (org.apache.kafka.common.metrics.Metrics)
[2018-11-03 12:48:52,605] DEBUG Removed sensor with name node-33.bytes-sent (org.apache.kafka.common.metrics.Metrics)
[2018-11-03 12:48:52,606] DEBUG Removed sensor with name node-33.bytes-received (org.apache.kafka.common.metrics.Metrics)
[2018-11-03 12:48:52,606] DEBUG Removed sensor with name node-33.latency (org.apache.kafka.common.metrics.Metrics)
[2018-11-03 12:48:52,606] DEBUG Removed sensor with name node-35.bytes-sent (org.apache.kafka.common.metrics.Metrics)
[2018-11-03 12:48:52,606] DEBUG Removed sensor with name node-35.bytes-received (org.apache.kafka.common.metrics.Metrics)
[2018-11-03 12:48:52,606] DEBUG Removed sensor with name node-35.latency (org.apache.kafka.common.metrics.Metrics)
[2018-11-03 12:48:52,607] DEBUG [Producer clientId=ProducerTransactionExample, transactionalId=test-transactional-matt] Shutdown of Kafka producer I/O thread has completed. (org.apache.kafka.clients.producer.internals.Sender)
[2018-11-03 12:48:52,607] DEBUG [Producer clientId=ProducerTransactionExample, transactionalId=test-transactional-matt] Kafka producer has been closed (org.apache.kafka.clients.producer.KafkaProducer)
[2018-11-03 12:48:52,808] ERROR Forcing producer close! (com.matt.test.kafka.producer.ProducerTransactionExample)
[2018-11-03 12:48:52,808] INFO [Producer clientId=ProducerTransactionExample, transactionalId=test-transactional-matt] Closing the Kafka producer with timeoutMillis = 9223372036854775807 ms. (org.apache.kafka.clients.producer.KafkaProducer)
[2018-11-03 12:48:52,808] DEBUG [Producer clientId=ProducerTransactionExample, transactionalId=test-transactional-matt] Kafka producer has been closed (org.apache.kafka.clients.producer.KafkaProducer)

Producer 1 本地事务状态从 COMMITTING_TRANSACTION 变成了 FATAL_ERROR 状态，导致 Producer 进程直接退出了，出现这个异常的原因，就是抛出的 ProducerFencedException 异常，简单来说 Producer 1 被 Fencing 了（这是 Producer Fencing 的情况）。因此，这个问题的答案就很清除了，如果多个 Producer 共用一个 txn.id，那么最后启动的 Producer 会成功运行，会它之前启动的 Producer 都 Fencing 掉（至于为什么会 Fencing 下一小节会做分析）。

Fencing

关于 Fencing 这个机制，在分布式系统还是很常见的，我第一个见到这个机制是在 HDFS 中，可以参考我之前总结的一篇文章 HDFS NN 脑裂问题，Fencing 机制解决的主要也是这种类型的问题 —— 脑裂问题，简单来说就是，本来系统这个组件在某个时刻应该只有一个处于 active 状态的，但是在实际生产环境中，特别是切换期间，可能会同时出现两个组件处于 active 状态，这就是脑裂问题，在 Kafka 的事务场景下，用到 Fencing 机制有两个地方：

TransactionCoordinator Fencing；
Producer Fencing；

TransactionCoordinator Fencing

TransactionCoordinator 在遇到上 long FGC 时，可能会导致脑裂问题，FGC 时会 stop-the-world，这时候可能会与 zk 连接超时导致临时节点消失进而触发 leader 选举，如果 __transaction_state 发生了 leader 选举，TransactionCoordinator 就会切换，如果此时旧的 TransactionCoordinator FGC 完成，在还没来得及同步到最细 meta 之前，会有一个短暂的时刻，对于一个 txn.id 而言就是这个时刻可能出现了两个 TransactionCoordinator。

相应的解决方案就是 TransactionCoordinator Fencing，这里 Fencing 策略不像离线场景 HDFS 这种直接 Kill 旧的 NN 进程或者强制切换状态这么暴力，而是通过 CoordinatorEpoch 来判断，每个 TransactionCoordinator 都有其 CoordinatorEpoch 值，这个值就是对应 __transaction_state Partition 的 Epoch 值（每当 leader 切换一次，该值就会自增1）。

明白了 TransactionCoordinator 脑裂问题发生情况及解决方案之后，来分析下，Fencing 机制会在哪里发挥作用？仔细想想，是可以推断出来的，只可能是 TransactionCoordinator 向别人发请求时影响才会比较严重（特别是乱发 admin 命令）。有了 CoordinatorEpoch 之后，其他 Server 在收到请求时做相应的判断，如果发现 CoordinatorEpoch 值比缓存的最新的值小，那么 Fencing 就生效，拒绝这个请求，也就是 TransactionCoordinator 发送 WriteTxnMarkerRequest 时可能会触发这一机制。

Producer Fencing

Producer Fencing 与前面的类似，如果对于相同 PID 和 txn.id 的 Producer，Server 端会记录最新的 Epoch 值，拒绝来自 zombie Producer （Epoch 值小的 Producer）的请求。前面第一个问题的情况，Producer 2 在启动时，会向 TransactionCoordinator 发送 InitPIDRequest 请求，此时 TransactionCoordinator 已经有了这个 txn.id 对应的 meta，会返回之前分配的 PID，并把 Epoch 自增 1 返回，这样 Producer 2 就被认为是最新的 Producer，而 Producer 1 就会被认为是 zombie Producer，因此，TransactionCoordinator 在处理 Producer 1 的事务请求时，会返回相应的异常信息。

Consumer 端如何消费事务数据

在讲述这个问题之前，需要先介绍一下事务场景下，Consumer 的消费策略，Consumer 有一个 isolation.level 配置，这个是配置对于事务性数据的消费策略，有以下两种可选配置：

read_committed: only consume non-transactional messages or transactional messages that are already committed, in offset ordering.
read_uncommitted: consume all available messages in offset ordering. This is the default value.

简单来说就是，read_committed 只会读取 commit 的数据，而 abort 的数据不会向 consumer 显现，对于 read_uncommitted 这种模式，consumer 可以读取到所有数据（control msg 会过滤掉），这种模式与普通的消费机制基本没有区别，就是做了一个 check，过滤掉 control msg（也就是 marker 数据），这部分的难点在于 read_committed 机制的实现。

Last Stable Offset（LSO）

在事务机制的实现中，Kafka 又设置了一个新的 offset 概念，那就是 Last Stable Offset，简称 LSO（其他的 Offset 概念可参考 Kafka Offset 那些事），先看下 LSO 的定义：

The LSO is defined as the latest offset such that the status of all transactional messages at lower offsets have been determined (i.e. committed or aborted).

对于一个 Partition 而言，offset 小于 LSO 的数据，全都是已经确定的数据，这个主要是对于事务操作而言，在这个 offset 之前的事务操作都是已经完成的事务（已经 commit 或 abort），如果这个 Partition 没有涉及到事务数据，那么 LSO 就是其 HW（水位）。

Server 处理 read_committed 类型的 Fetch 请求

如果 Consumer 的消费策略设置的是 read_committed，其在向 Server 发送 Fetch 请求时，Server 端只会返回 LSO 之前的数据，在 LSO 之后的数据不会返回。

这种机制有没有什么问题呢？我现在能想到的就是如果有一个 long transaction，比如其 first offset 是 1000，另外有几个已经完成的小事务操作，比如：txn1（offset：1100~1200）、txn2（offset：1400~1500），假设此时的 LSO 是 1000，也就是说这个 long transaction 还没有完成，那么已经完成的 txn1、txn2 也会对 consumer 不可见（假设都是 commit 操作），此时受 long transaction 的影响可能会导致数据有延迟。

那么我们再来想一下，如果不设计 LSO，又会有什么问题呢？可能分两种情况：

允许读未完成的事务：那么 Consumer 可以直接读取到 Partition 的 HW 位置，对于未完成的事务，因为设置的是 read_committed 机制，所以不能对用户可见，需要在 Consumer 端做缓存，这个缓存应该设置多大？（不限制肯定会出现 OOM 的情况，当然也可以现在 client 端持久化到硬盘，这样的设计太过于复杂，还需要考虑 client 端 IO、磁盘故障等风险），明显这种设计方案是不可行的；
如果不允许读未完成的事务：相当于还是在 Server 端处理，与前面的区别是，这里需要先把示例中的 txn1、txn2 的数据发送给 Consumer，这样的设计会带来什么问题呢？
1. 假设这个 long transaction commit 了，其 end offset 是 2000，这时候有两种方案：第一种是把 1000-2000 的数据全部读出来（可能是磁盘读），把这个 long transaction 的数据过滤出来返回给 Consumer；第二种是随机读，只读这个 long transaction 的数据，无论哪种都有多触发一次磁盘读的风险，可能影响影响 Server 端的性能；
2. Server 端需要维护每个 consumer group 有哪些事务读了、哪些事务没读的 meta 信息，因为 consumer 是随机可能挂掉，需要接上次消费的，这样实现就复杂很多了；
3. 还有一个问题是，消费的顺序性无法保证，两次消费其读取到的数据顺序可能是不同的（两次消费启动时间不一样）；

从这些分析来看，个人认为 LSO 机制还是一种相当来说实现起来比较简单、而且不影响原来 server 端性能、还能保证顺序性的一种设计方案，它不一定是最好的，但也不会差太多。在实际的生产场景中，尽量避免 long transaction 这种操作，而且 long transaction可能也会容易触发事务超时。

Consumer 如何过滤 abort 的事务数据

Consumer 在拉取到相应的数据之后，后面该怎么处理呢？它拉取到的这批数据并不能保证都是完整的事务数据，很有可能是拉取到一个事务的部分数据（marker 数据还没有拉取到），这时候应该怎么办？难道 Consumer 先把这部分数据缓存下来，等后面的 marker 数据到来时再确认数据应该不应该丢弃？（还是又 OOM 的风险）有没有更好的实现方案？

Kafka 的设计总是不会让我们失望，这部分做的优化也是非常高明，Broker 会追踪每个 Partition 涉及到的 abort transactions，Partition 的每个 log segment 都会有一个单独只写的文件（append-only file）来存储 abort transaction 信息，因为 abort transaction 并不是很多，所以这个开销是可以可以接受的，之所以要持久化到磁盘，主要是为了故障后快速恢复，要不然 Broker 需要把这个 Partition 的所有数据都读一遍，才能直到哪些事务是 abort 的，这样的话，开销太大（如果这个 Partition 没有事务操作，就不会生成这个文件）。这个持久化的文件是以 .txnindex 做后缀，前面依然是这个 log segment 的 offset 信息，存储的数据格式如下：

TransactionEntry =>
    Version => int16
    PID => int64
    FirstOffset => int64
    LastOffset => int64
    LastStableOffset => int64

有了这个设计，Consumer 在拉取数据时，Broker 会把这批数据涉及到的所有 abort transaction 信息都返回给 Consumer，Server 端会根据拉取的 offset 范围与 abort transaction 的 offset 做对比，返回涉及到的 abort transaction 集合，其实现如下：

def collectAbortedTxns(fetchOffset: Long, upperBoundOffset: Long): TxnIndexSearchResult = {
  val abortedTransactions = ListBuffer.empty[AbortedTxn]
  for ((abortedTxn, _) <- iterator()) {
    if (abortedTxn.lastOffset >= fetchOffset && abortedTxn.firstOffset < upperBoundOffset)
      abortedTransactions += abortedTxn //note: 这个 abort 的事务有在在这个范围内，就返回

    if (abortedTxn.lastStableOffset >= upperBoundOffset)
      return TxnIndexSearchResult(abortedTransactions.toList, isComplete = true)
  }
  TxnIndexSearchResult(abortedTransactions.toList, isComplete = false)
}

Consumer 在拿到这些数据之后，会进行相应的过滤，大概的判断逻辑如下（Server 端返回的 abort transaction 列表就保存在 abortedTransactions 集合中，abortedProducerIds 最开始时是为空的）：

如果这个数据是 control msg（也即是 marker 数据），是 ABORT 的话，那么与这个事务相关的 PID 信息从 abortedProducerIds 集合删掉，是 COMMIT 的话，就忽略（每个这个 PID 对应的 marker 数据收到之后，就从 abortedProducerIds 中清除这个 PID 信息）；
如果这个数据是正常的数据，把它的 PID 和 offset 信息与 abortedTransactions 队列（有序队列，头部 transaction 的 first offset 最小）第一个 transaction 做比较，如果 PID 相同，并且 offset 大于等于这个 transaction 的 first offset，就将这个 PID 信息添加到 abortedProducerIds 集合中，同时从 abortedTransactions 队列中删除这个 transaction，最后再丢掉这个 batch（它是 abort transaction 的数据）；
检查这个 batch 的 PID 是否在 abortedProducerIds 集合中，在的话，就丢弃，不在的话就返回上层应用。

这部分的实现确实有些绕（有兴趣的可以慢慢咀嚼一下），它严重依赖了 Kafka 提供的下面两种保证：

Consumer 拉取到的数据，在处理时，其 offset 是严格有序的；
同一个 txn.id（PID 相同）在某一个时刻最多只能有一个事务正在进行；

这部分代码实现如下：

private Record nextFetchedRecord() {
    while (true) {
        if (records == null || !records.hasNext()) { //note: records 为空（数据全部丢掉了），records 没有数据（是 control msg）
            maybeCloseRecordStream();

            if (!batches.hasNext()) {
                // Message format v2 preserves the last offset in a batch even if the last record is removed
                // through compaction. By using the next offset computed from the last offset in the batch,
                // we ensure that the offset of the next fetch will point to the next batch, which avoids
                // unnecessary re-fetching of the same batch (in the worst case, the consumer could get stuck
                // fetching the same batch repeatedly).
                if (currentBatch != null)
                    nextFetchOffset = currentBatch.nextOffset();
                drain();
                return null;
            }

            currentBatch = batches.next();
            maybeEnsureValid(currentBatch);

            if (isolationLevel == IsolationLevel.READ_COMMITTED && currentBatch.hasProducerId()) {
                //note: 需要做相应的判断
                // remove from the aborted transaction queue all aborted transactions which have begun
                // before the current batch's last offset and add the associated producerIds to the
                // aborted producer set
                //note: 如果这个 batch 的 offset 已经大于等于 abortedTransactions 中第一事务的 first offset
                //note: 那就证明下个 abort transaction 的数据已经开始到来，将 PID 添加到 abortedProducerIds 中
                consumeAbortedTransactionsUpTo(currentBatch.lastOffset());

                long producerId = currentBatch.producerId();
                if (containsAbortMarker(currentBatch)) {
                    abortedProducerIds.remove(producerId); //note: 这个 PID（当前事务）涉及到的数据已经处理完
                } else if (isBatchAborted(currentBatch)) { //note: 丢弃这个数据
                    log.debug("Skipping aborted record batch from partition {} with producerId {} and " +
                                  "offsets {} to {}",
                              partition, producerId, currentBatch.baseOffset(), currentBatch.lastOffset());
                    nextFetchOffset = currentBatch.nextOffset();
                    continue;
                }
            }

            records = currentBatch.streamingIterator(decompressionBufferSupplier);
        } else {
            Record record = records.next();
            // skip any records out of range
            if (record.offset() >= nextFetchOffset) {
                // we only do validation when the message should not be skipped.
                maybeEnsureValid(record);

                // control records are not returned to the user
                if (!currentBatch.isControlBatch()) { //note: 过滤掉 marker 数据
                    return record;
                } else {
                    // Increment the next fetch offset when we skip a control batch.
                    nextFetchOffset = record.offset() + 1;
                }
            }
        }
    }
}

Consumer 消费数据时，其顺序如何保证

有了前面的分析，这个问题就很好回答了，顺序性还是严格按照 offset 的，只不过遇到 abort trsansaction 的数据时就丢弃掉，其他的与普通 Consumer 并没有区别。

如果 txn.id 长期不使用，server 端怎么处理？

Producer 在开始一个事务操作时，可以设置其事务超时时间（参数是 transaction.timeout.ms，默认60s），而且 Server 端还有一个最大可允许的事务操作超时时间（参数是 transaction.timeout.ms，默认是15min），Producer 设置超时时间不能超过 Server，否则的话会抛出异常。

上面是关于事务操作的超时设置，而对于 txn.id，我们知道 TransactionCoordinator 会缓存 txn.id 的相关信息，如果没有超时机制，这个 meta 大小是无法预估的，Server 端提供了一个 transaction.id.expiration.ms 参数来配置这个超时时间（默认是7天），如果超过这个时间没有任何事务相关的请求发送过来，那么 TransactionCoordinator 将会使这个 txn.id 过期。

PID Snapshot 是做什么的？用来解决什么问题？

对于每个 Topic-Partition，Broker 都会在内存中维护其 PID 与 sequence number（最后成功写入的 msg 的 sequence number）的对应关系（这个在上面幂等性文章应讲述过，主要是为了不丢补充的实现）。

Broker 重启时，如果想恢复上面的状态信息，那么它读取所有的 log 文件。相比于之下，定期对这个 state 信息做 checkpoint（Snapshot），明显收益是非常大的，此时如果 Broker 重启，只需要读取最近一个 Snapshot 文件，之后的数据再从 log 文件中恢复即可。

这个 PID Snapshot 样式如 00000000000235947656.snapshot，以 .snapshot 作为后缀，其数据格式如下：

[matt@XXX-35 app.matt_test_transaction_json_3-2]$ /usr/local/java18/bin/java -Djava.ext.dirs=/XXX/kafka/libs kafka.tools.DumpLogSegments --files 00000000000235947656.snapshot
Dumping 00000000000235947656.snapshot
producerId: 2000 producerEpoch: 1 coordinatorEpoch: 4 currentTxnFirstOffset: None firstSequence: 95769510 lastSequence: 95769511 lastOffset: 235947654 offsetDelta: 1 timestamp: 1541325156503
producerId: 3000 producerEpoch: 5 coordinatorEpoch: 6 currentTxnFirstOffset: None firstSequence: 91669662 lastSequence: 91669666 lastOffset: 235947651 offsetDelta: 4 timestamp: 1541325156454

在实际的使用中，这个 snapshot 文件一般只会保存最近的两个文件。

中间流程故障如何恢复

对于上面所讲述的一个事务操作流程，实际生产环境中，任何一个地方都有可能出现的失败：

Producer 在发送 beginTransaction() 时，如果出现 timeout 或者错误：Producer 只需要重试即可；
Producer 在发送数据时出现错误：Producer 应该 abort 这个事务，如果 Produce 没有 abort（比如设置了重试无限次，并且 batch 超时设置得非常大），TransactionCoordinator 将会在这个事务超时之后 abort 这个事务操作；
Producer 发送 commitTransaction() 时出现 timeout 或者错误：Producer 应该重试这个请求；
Coordinator Failure：如果 Transaction Coordinator 发生切换（事务 topic leader 切换），Coordinator 可以从日志中恢复。如果发送事务有处于 PREPARE_COMMIT 或 PREPARE_ABORT 状态，那么直接执行 commit 或者 abort 操作，如果是一个正在进行的事务，Coordinator 的失败并不需要 abort 事务，producer 只需要向新的 Coordinator 发送请求即可。

陆陆续续写了几天，终于把这篇文章总结完了。

参考：