使用稀疏列

项目
06/25/2013

稀疏列是对 Null 值采用优化的存储方式的普通列。稀疏列减少了 Null 值的空间需求，但代价是检索非 Null 值的开销增加。当至少能够节省 20% 到 40% 的空间时，才应考虑使用稀疏列。稀疏列和列集是通过使用 CREATE TABLE 或 ALTER TABLE 语句定义的。

稀疏列可以与列集和筛选索引一起使用：

列集

INSERT、UPDATE 和 DELETE 语句可以通过名称来引用稀疏列。但是，您也可以查看并处理表中组合为一个 XML 列的所有稀疏列。此列称为列集。有关列集的详细信息，请参阅使用列集。
筛选索引

因为稀疏列有许多 Null 值行，所以尤其适用于筛选索引。稀疏列的筛选索引可以仅仅对已填充值的行编制索引。这会创建一个更小、更有效的索引。有关详细信息，请参阅创建筛选索引。

稀疏列和筛选索引使应用程序（如 Windows SharePoint Services）可以通过 SQL Server 2012 有效地存储和访问大量的用户定义属性。

稀疏列的属性

稀疏列具有以下特征：

SQL Server 数据库引擎使用列定义中的 SPARSE 关键字来优化该列中的值的存储。因此，当表中的任意行的列值为 NULL 时，该值将不需要存储。
具有稀疏列的表的目录视图与典型表的目录视图相同。 sys.columns 目录视图对于表中的每一列都包含一个对应的行，并包括一个列集（如果定义了列集）。
稀疏列是存储层（而不是逻辑表）的一个属性。因此，SELECT…INTO 语句不会将稀疏列属性复制到新表中。
COLUMNS_UPDATED 函数返回一个 varbinary 值，以指示在 DML 操作期间更新的所有列。 COLUMNS_UPDATED 函数返回的位如下：
- 显式更新了稀疏列后，该稀疏列的对应位将设置为 1，列集的位将设置为 1。
- 显式更新了列集后，列集的位将设置为 1，该表中的所有稀疏列的位将设置为 1。
- 对于插入操作，所有位都将设置为 1。
有关列集的详细信息，请参阅使用列集。

下面的数据类型不能指定为 SPARSE：

geography	text
geometry	timestamp
image	user-defined data types
ntext

按数据类型所估算的空间节省量

相对于未标记为 SPARSE 的相同数据所需的空间，稀疏列在存储非 Null 值时需要的存储空间更多。下表说明了每种数据类型的空间使用情况。 NULL 百分比列指示数据必须有多少比例为 NULL，才能实现 40% 的净空间节省。

固定长度的数据类型

数据类型	非稀疏字节	稀疏字节	NULL 百分比
bit	0.125	5	98%
tinyint	1	5	86%
smallint	2	6	76%
int	4	8	64%
bigint	8	12	52%
real	4	8	64%
float	8	12	52%
smallmoney	4	8	64%
money	8	12	52%
smalldatetime	4	8	64%
datetime	8	12	52%
uniqueidentifier	16	20	43%
date	3	7	69%

长度依赖于精度的数据类型

数据类型	非稀疏字节	稀疏字节	NULL 百分比
datetime2(0)	6	10	57%
datetime2(7)	8	12	52%
time(0)	3	7	69%
time(7)	5	9	60%
datetimetoffset(0)	8	12	52%
datetimetoffset (7)	10	14	49%
decimal/numeric(1,s)	5	9	60%
decimal/numeric(38,s)	17	21	42%
vardecimal(p,s)	使用 decimal 类型作为保守的估计。

长度依赖于数据的数据类型

数据类型	非稀疏字节	稀疏字节	NULL 百分比
sql_variant	随基础数据类型而异
varchar 或者char	2*	4*	60%
nvarchar 或者nchar	2*	4*+	60%
varbinary 或者binary	2*	4*	60%
xml	2*	4*	60%
hierarchyid	2*	4*	60%

*长度等于该类型中包含的数据的平均长度再多出 2 个或 4 个字节。

更新稀疏列所需的内存中开销

当使用稀疏列设计表时，请记住，在更新行时，表中的每个非 NULL 值稀疏列需要 2 个字节的额外开销。由于此额外的内存要求，当总的行大小（包括此内存开销）超过 8019 但没有列可以推送到行外时，更新可能意外失败，错误为 576。

以具有 600 个 bigint 类型的稀疏列的表为例。如果有 571 个非 Null 列，则磁盘上的总大小为 571 * 12 = 6852 字节。在包含额外行开销和稀疏列标题之后，这会导致增加大约 6895 个字节。在磁盘上，该页仍有约 1124 字节可用。这可以给出其他列可以成功更新的印象。但是，在更新过程中，内存中有额外开销，此开销为 2 *（非 NULL 值的稀疏列数目）。在此示例中，包含额外开销 – 2 * 571 = 1142 字节 – 将磁盘上的行大小增加约 8037 个字节。该大小超过最大允许的 8019 个字节。由于所有列都是固定长度的数据类型，所以无法将其推送到行外。因此，更新将会失败，错误为 576。