查询优化

查询优化是数据库系统的一个重要话题。本文介绍了查询优化的相关概念及发展历史，Cascades 优化器以及云数仓所面临的查询优化挑战。

本文根据 @leiysky 的分享整理而来，略去了查询优化的细节，详细的 PPT 可以参考 SQL Processing & Query Optimization 。

查询优化指的是为给定的查询选择最佳执行计划。

那么什么样的执行计划称得上是最佳计划呢？

目前有两种主要的查询优化方案，一种是基于关系代数和算法的等价优化方案，一种是基于评估成本的优化方案。

根据命名，不难看出优化的灵感来源和这两种方案在优化上的取舍。

查询优化通常包含以下四个步骤：

查询优化的历史

世界上第一个查询优化器是 IBM System R 的优化器。

其建立背景是：

PostgreSQL 是世界上最成功的开源 RDBMS 之一，有着悠久的历史（1996 年首次发布）。

SQL Server，由微软和 Sybase 在 20 世纪 90 年代开发的商业 RDBMS 。

Goetz Graefe（Volcano/Cascades的作者）为 SQL Server 设计了 Cascades 查询优化框架。

该优化器框架已被广泛用于微软开发的不同查询系统（如 SQL Server、SQL Server PDW、Cosmos SCOPE、Synapse）。

世界上最好的查询优化器（也许）。

枚举计划并评估成本的探索框架。

Apache Calcite: a Volcano/Cascades style optimizer framework, widely used in Apache world(e.g. Drill, Flink)
GreenPlum Orca: optimizer component of GreenPlum, also used by HAWQ, Hologres, Alicloud ADB
CockroachDB's Cascades optimizer