SQL 语句处理

处理单个 SQL 语句是 SQL Server 执行 SQL 语句的最基本方法。对只引用本地基表(不引用视图或远程表)的单个 SELECT 语句的处理步骤说明了这个基本进程。

优化 SELECT 语句

SELECT 语句是非程序性的,它不规定数据库服务器检索请求的数据的确切步骤。这意味着数据库服务器必须分析语句,以决定提取所请求数据的最有效方法。这称之为“优化 SELECT 语句”。处理此过程的组件称为“查询优化器”。优化器的输入包括查询、数据库方案(表和索引的定义)以及数据库统计信息。优化器的输出称为“查询执行计划”,有时也称为“查询计划”或直接称为“计划”。本主题的后续各节将详细介绍查询计划的内容。

在优化单个 SELECT 语句期间查询优化器的输入和输出如下图中所示:

SELECT 语句的查询优化

SELECT 语句只定义:

  • 结果集的格式。它通常在选择列表中指定。然而,其他子句(如 ORDER BY 和 GROUP BY)也会影响结果集的最终格式。

  • 包含源数据的表。这在 FROM 子句中指定。

  • 就 SELECT 语句而言,表之间的逻辑关系。这在联接说明中定义,联接说明可出现在 FROM 子句后的 WHERE 子句或 ON 子句中。

  • 为了符合 SELECT 语句的要求,源表中的行所必须达到的条件。这些条件在 WHERE 和 HAVING 子句中指定。

查询执行计划定义:

  • 访问源表的顺序。

    数据库服务器一般可以按许多不同的序列访问基表以生成结果集。例如,如果 SELECT 语句引用三个表,数据库服务器可以先访问 TableA,使用 TableA 中的数据从 TableB 析取匹配的行,然后使用 TableB 中的数据从 TableC 提取数据。数据库服务器访问表的其他顺序包括:

    TableCTableBTableA,或

    TableBTableATableC,或

    TableBTableCTableA,或

    TableCTableATableB

  • 从每个表析取数据的方法。

    访问每个表中的数据一般也有不同的方法。如果只需要有特定键值的几行,数据库服务器可以使用索引。如果需要表中的所有行,数据库服务器则可以忽略索引并执行表扫描。如果需要表中的所有行,而有一个索引的键列在 ORDER BY 中,则执行索引扫描而非表扫描可能会省去对结果集的单独排序。如果表很小,则对该表的几乎所有访问来说,表扫描可能都是最有效的方法。

从潜在的多个可能的计划中选择一个执行计划的过程称为“优化”。查询优化器是 SQL 数据库系统的最重要组件之一。虽然查询优化器在分析查询和选择计划时要使用一些开销,但当查询优化器选择了有效的执行计划时,这一开销将节省数倍。例如,两家建筑公司可能拿到一所住宅的相同设计图。如果一家公司开始时先花几天时间规划如何建造这所住宅,而另一家公司不做任何规划就开始施工,则花了时间规划项目的那家公司很可能首先完工。

SQL Server 查询优化器是基于成本的优化器。就所使用的计算资源量而言,每个可能的执行计划都具有相关成本。查询优化器必须分析可能的计划并选择一个预计成本最低的计划。有些复杂的 SELECT 语句有成千上万个可能的执行计划。在这些情况下,查询优化器不会分析所有的可能组合,而是使用复杂的算法查找一个执行计划:其成本合理地接近最低可能成本。

SQL Server 查询优化器不只选择资源成本最低的执行计划,还选择能将结果最快地返回给用户且资源成本合理的计划。例如,与串行处理查询相比,并行处理查询使用的资源一般更多但完成查询的速度更快。因此如果不对服务器的负荷产生负面影响,SQL Server 优化器将使用并行执行计划返回结果。

查询优化器在估计从表或索引中提取信息的不同方法所需的资源成本时,依赖于分发内容统计信息。对列和索引保留有分发内容统计。这些统计信息表明特定索引或列中的值的选择性。例如,在一个代表汽车的表中,很多汽车出自同一制造商,但每辆车都有唯一的车牌号 (VIN)。VIN 索引比制造商索引更具选择性。如果索引统计信息不是当前的,则查询优化器可能无法对表的当前状态做出最佳选择。有关保持索引统计信息最新的详细信息,请参阅使用统计信息提高查询性能

查询优化器很重要,因为它可以使数据库服务器针对数据库内的更改情况进行动态调整,而无须程序员或数据库管理员输入。这样程序员可以集中精力描述最终的查询结果。他们可以相信每次运行语句时,查询优化器总能针对数据库的状态生成一个有效的执行计划。

处理 SELECT 语句

SQL Server 处理单个 SELECT 语句的基本步骤包括如下内容:

  1. 分析器扫描 SELECT 语句并将其分成逻辑单元(如关键字、表达式、运算符和标识符)。

  2. 生成查询树(有时称为“序列树”),以描述将源数据转换成结果集需要的格式所用的逻辑步骤。

  3. 查询优化器分析访问源表的不同方法,然后选择返回结果速度最快且使用资源最少的一系列步骤。更新查询树以确切地记录这些步骤。查询树的最终、优化的版本称为“执行计划”。

  4. 关系引擎开始执行计划。在处理需要基表中数据的步骤时,关系引擎请求存储引擎向上传递从关系引擎请求的行集中的数据。

  5. 关系引擎将存储引擎返回的数据处理成为结果集定义的格式,然后将结果集返回客户端。

处理其他语句

上述处理 SELECT 语句的基本步骤也适用于其他 SQL 语句,例如 INSERT、UPDATE 和 DELETE。UPDATE 和 DELETE 语句必须把要修改或要删除的行集作为目标。识别这些行的过程与识别组成 SELECT 语句结果集的源行的过程相同。UPDATE 和 INSERT 语句都可以包含嵌入式 SELECT 语句,以提供要更新或插入的数据值。

即使像 CREATE PROCEDURE 或 ALTER TABLE 这样的数据定义语言 (DDL) 语句也被最终解析为系统目录表上的一系列关系操作,而有时则根据数据表解析(如 ALTER TABLE ADD COLUMN)。