Индексы Columnstore — производительность запросов

Относится к:SQL Server Azure SQL Database Azure SQL Managed Instance Azure Synapse Analytics Система аналитической платформы (PDW)SQL база данных в Microsoft Fabric

В этой статье содержатся рекомендации по достижению быстрой производительности запросов с помощью индексов columnstore.

Индексы Columnstore могут обеспечивать до 100 раз лучшую производительность при аналитических и складских рабочих нагрузках, а также до 10 раз более эффективное сжатие данных по сравнению с традиционными индексами Rowstore. Эти рекомендации помогают вашим запросам достигать быстрой производительности, для которой предназначены индексы columnstore.

Описание производительности Columnstore

Индексы columnstore обеспечивают высокую производительность запросов, объединяя высокоскоростную пакетную обработку в памяти с методами, значительно сокращающими требования к операциям ввода-вывода. Поскольку аналитические запросы сканируют большое количество строк, как правило, их производительность ограничена вводом-выводом. Поэтому снижение операций ввода-вывода при выполнении запросов имеет решающее значение для проектирования колоночных индексов. После чтения данных в память важно уменьшить количество операций в памяти.

Индексы columnstore уменьшают количество операций ввода-вывода и оптимизируют операции в памяти за счет высокой степени сжатия данных, исключения ненужных столбцов, исключения групп строк и пакетной обработки.

Сжатие данных

Индексы Columnstore достигают до 10 раз больше сжатия данных, чем индексы rowstore. Это значительно уменьшает число операций ввода-вывода, необходимых для выполнения запросов аналитики, и, следовательно, повышает производительность запросов.

Индексы columnstore считывают сжатые данные с диска. Таким образом, уменьшается число байтов данных для считывания в память.
Индексы Columnstore хранят данные в сжатой форме в памяти, уменьшая объем операций ввода-вывода, избегая чтения одних и того же данных в память. Например, с сжатием в 10 раз индексы columnstore могут хранить в памяти 10 раз больше данных по сравнению с хранением данных в несжатой форме. С большим объемом данных в памяти, скорее всего, индекс columnstore находит необходимые данные в памяти, не вызывая ненужных операций чтения с диска.
Индексы columnstore сжимают данные по столбцам, а не по строкам, обеспечивая высокую степень сжатия и сокращая объем данных, хранимых на диске. Каждый столбец сжимается и сохраняется по отдельности. Данные в столбце всегда имеют одинаковый тип данных и, как правило, имеют аналогичные значения. Методы сжатия данных columnstore отлично подходят для достижения более высоких скоростей сжатия, если значения похожи.

Например, таблица фактов хранит адреса клиентов и имеет столбец для country-region. Общее количество возможных значений меньше 200. Некоторые из этих значений повторяются много раз. Если таблица фактов имеет 100 миллионов строк, country-region столбец сжимается легко и требует небольшого хранилища. Сжатие строк по строкам не может использовать сходство значений столбцов таким образом и должно использовать больше байтов для сжатия значений в столбце country-region.

Устранение столбцов

Индексы columnstore пропускают чтение тех столбцов, на которые не ссылается запрос. Устранение столбцов уменьшает количество операций ввода-вывода для выполнения запросов и, следовательно, повышает производительность запросов.

Возможность исключения столбцов обусловлена тем, что данные упорядочиваются и сжимаются по столбцам. В отличие от этого, если данные хранятся по строкам, значения столбцов в каждой строке физически хранятся вместе и не могут быть легко разделены. Обработчик запросов должен считывать всю строку для получения определенных значений столбцов, увеличивая число операций ввода-вывода, так как дополнительные данные не нужно считывать в память.

Например, если таблица содержит 50 столбцов и запрос использует только пять из этих столбцов, индекс columnstore извлекает только пять столбцов из диска. Он пропускает чтение в других 45 столбцах, уменьшая число операций ввода-вывода еще на 90%, если все столбцы имеют одинаковый размер. Если те же данные хранятся в хранилище строк, обработчик запросов должен считывать оставшиеся 45 столбцов.

Устранение группы строк

Для полного сканирования таблицы большой процент данных обычно не соответствует критериям предиката запроса. Используя метаданные, индекс columnstore может пропустить чтение групп строк, которые не содержат данные, необходимые для результата запроса, при этом не выполняя фактический ввод-вывод. Эта возможность, называемая исключением групп строк, уменьшает число операций ввода-вывода для полных сканирований таблиц и, соответственно, повышает производительность запросов.

Когда индекс columnstore должен выполнять полное сканирование таблицы?

Начиная с SQL Server 2016 (13.x), вы можете создать один или несколько обычных некластеризованных индексов Rowstore или индексов B-дерева в кластеризованном индексе Columnstore. Некластеризованные индексы B-дерева могут ускорить выполнение запроса, содержащего предикат равенства или предикат с небольшим диапазоном значений. Для более сложных предикатов оптимизатор запросов может выбрать полное сканирование таблицы. Без возможности пропуска групп строк полная проверка таблицы может занять много времени, особенно для больших таблиц.

В каких случаях исключение строк при сканировании всей таблицы будет являться преимуществом для аналитического запроса?

Например, розничный бизнес моделирует свои данные о продажах с использованием таблицы фактов с кластеризованным columnstore-индексом. Каждая новая продажа хранит различные атрибуты транзакции, включая дату продажи продукта. Интересно, хотя индексы columnstore не гарантируют отсортированный порядок, строки в этой таблице загружаются в порядке сортировки по дате. Со временем эта таблица растет. Хотя предприятие розничной торговли может хранить данные о продажах за последние 10 лет, может потребоваться выполнить аналитический запрос только для вычисления совокупных данных по последнему кварталу. Индексы columnstore могут исключить доступ к данным по предыдущим 39 кварталам за счет простого просмотра метаданных для столбца даты. Это 97 % уменьшает объем данных, которые считываются в память и обрабатываются.

Какие группы строк пропускаются при полном сканировании таблицы?

Чтобы определить, какие группы строк следует исключить, индекс columnstore использует метаданные для хранения минимального и максимального значений каждого сегмента столбца для каждой группы строк. Если ни один из диапазонов сегментов столбца не соответствует критериям предиката запроса, вся группа строк пропускается без выполнения фактических операций ввода-вывода. Это работает, так как данные обычно загружаются в отсортированный порядок. Хотя сортировка строк не гарантируется, аналогичные значения данных часто находятся в одной группе строк или соседней группе строк.

Дополнительные сведения о группах строк см. в рекомендациях по проектированию индекса Columnstore.

выполнение в пакетном режиме.

Выполнение в пакетном режиме обрабатывает строки группами, как правило, до 900 за раз, чтобы повысить эффективность. Например, запрос SELECT SUM(Sales) FROM SalesData вычисляет общий объем продаж из SalesData таблицы. В пакетном режиме обработчик запросов обрабатывает данные в группах из 900 строк. Этот подход сокращает затраты на доступ к метаданным и другие виды накладных расходов, распределяя их по всем строкам в пакете, вместо того чтобы нести накладные расходы на каждую строку отдельно. Кроме того, пакетный режим работает с сжатыми данными, когда это возможно, и удаляет некоторые операторы обмена, используемые в режиме строки, значительно ускоряя аналитические запросы.

Однако работу в пакетном режиме поддерживает лишь часть операторов выполнения запросов. Например, операции языка обработки данных (DML), такие как вставка, удаление или обновление, выполняются по одной строке. Оператор пакетного режима, например Scan, Join, Aggregate, Sort и др., может повысить производительность запросов. Так как индекс columnstore появился в SQL Server 2012 (11.x), существует постоянная попытка расширить операторы, которые можно выполнять в пакетном режиме. В следующей таблице показаны операторы, которые выполняются в пакетном режиме в соответствии с версией продукта.

Операторы пакетного режима	При использовании	SQL Server 2012 (11.x)	SQL Server 2014 (12.x)	SQL Server 2016 (13.x) и База данных SQL¹	Comments
Операции DML (вставка, удаление, обновление, объединение)		no	no	no	Повышение производительности от использования пакетного режима с DML не является значительным.
сканирование колонного индекса	SCAN	Недоступно	yes	yes	Для индексов columnstore можно передать предикат на узел SCAN.
Проверка индекса columnstore (некластеризованная)	SCAN	yes	yes	yes	yes
поиск по индексу		Недоступно	Недоступно	no	Мы выполняем операцию поиска с помощью некластеризованного индекса B-дерева в режиме строки.
скалярные вычисления	Выражение, результатом вычисления которого является скалярное значение.	yes	yes	yes	Как и все операторы пакетного режима, существуют некоторые ограничения на тип данных.
concatenation	UNION и UNION ALL	no	yes	yes
filter	Применение предикатов	yes	yes	yes
хэш-совпадение	Агрегатные функции на основе хэша, внешнее хэш-объединение, правое хэш-объединение, левое хэш-объединение, правое внутреннее объединение, левое внутреннее объединение	yes	yes	yes	Ограничения для статистической обработки: отсутствуют функции min и max для строк. Доступны следующие агрегатные функции: sum, count, avg, min, max. Ограничения для соединения: отсутствуют соединения несоответствующих типов в нецелочисленных типах.
объединение слиянием		no	no	no
Многопоточные запросы		yes	yes	yes
вложенные циклы		no	no	no
однопоточные запросы, выполняемые с MAXDOP 1		no	no	yes
однопоточные запросы с последовательным планом запроса		no	no	yes
sort	Упорядочение по предложению в SCAN с индексом columnstore.	no	no	yes
верхняя сортировка		no	no	yes
агрегаты окон		Недоступно	Недоступно	yes	Новый оператор в SQL Server 2016 (13.x).

¹ Относится к SQL Server 2016 (13.x), премиум-уровням и стандартным уровням S3 и выше базы данных SQL, ко всем уровням vCore и системе платформы аналитики (PDW)

Дополнительные сведения см. в статье Руководство по архитектуре обработки запросов.

Агрегированная отправка

Обычно нормальный путь выполнения агрегатных вычислений предполагает извлечение соответствующих строк с узла SCAN и агрегирование значений в пакетном режиме. Хотя это обеспечивает хорошую производительность, начиная с SQL Server 2016 (13.x), агрегатная операция может быть отправлена на узел SCAN. Понижение агрегации повышает производительность агрегатных вычислений на порядки величины в режиме пакетной обработки, при условии выполнения следующих условий:

Агрегаты — MIN, MAX, SUM, COUNT и COUNT(*).
Агрегатный оператор должен находиться на узле SCAN или узле SCAN с GROUP BY.
Это агрегат не является отдельным агрегатом.
Агрегатный столбец не является строковым столбцом.
Агрегатный столбец не является виртуальным столбцом.
Тип входных и выходных данных должен быть одним из следующих и должен соответствовать 64-разрядным значениям:
- tinyint, int, bigint, smallint, bit
- smallmoney, money, decimal и numeric с точностью <= 18
- smalldate, дата, datetime, datetime2, time

Например, агрегирование с применением pushdown выполняется в следующих двух запросах.

SELECT  productkey, SUM(TotalProductCost)
FROM FactResellerSalesXL_CCI
GROUP BY productkey;
    
SELECT  SUM(TotalProductCost)
FROM FactResellerSalesXL_CCI;

Применение предиката к строке

При разработке схемы хранилища данных рекомендуется использовать схему типа "звезда" или "снежинка", состоящую из одной или нескольких таблиц фактов и нескольких таблиц измерений.

Tip

В таблице фактов хранятся бизнес-измерения или транзакции, а в таблице измерений — измерения, относительно которых требуется анализировать факты. Дополнительные сведения о моделировании измерений см. в разделе "Моделирование измерений" в Microsoft Fabric.

Например, факт может быть записью, представляющей продажу конкретного продукта в определенном регионе, тогда как измерения представляют набор регионов, продуктов и т. д. Таблицы фактов и измерений связаны при помощи отношений первичного и внешнего ключа. Наиболее часто используемые аналитические запросы присоединяются к одной или нескольким таблицам измерений с помощью таблицы фактов.

Рассмотрим таблицу измерения Products. Типичным первичным ключом является ProductCodeобычно представленный в виде строки. Для повышения производительности запросов рекомендуется создать суррогатный ключ, обычно целый столбец integer, чтобы обращаться к строке в таблице измерений из таблицы фактов.

Индекс columnstore эффективно выполняет аналитические запросы с объединениями и предикатами, использующими числовые или целочисленные ключи. SQL Server 2016 (13.x) существенно улучшил производительность запросов аналитики со столбцами на основе строк, перемещая предикаты со строковыми столбцами до уровня узла SCAN.

Предикатное масштабирование строк использует первичный и вторичный словари, созданные для столбцов, чтобы улучшить производительность запроса. Например, рассмотрим сегмент строковых столбцов в группе строк, состоящий из 100 различных строковых значений. Каждое отдельное строковое значение в среднем встречается по 10 000 раз, если предположить, что есть один миллион строк. При использовании сжатия строкового предиката выполнение запроса вычисляет предикат на основе значений в словаре. Если предикат квалифицируется, все строки, ссылающиеся на значение словаря, автоматически квалифицированы. Это способствует улучшению производительности двумя способами.

Возвращается только указанная строка, уменьшающая количество строк, которые должны выходить из узла сканирования.
Количество сравнений строк уменьшается. В этом примере вместо 1 миллиона сравнений требуется только 100 сравнений строк. Существуют некоторые ограничения:
- Отсутствует возможность сжатия строкового предиката для дельта-групп строк. Отсутствует словарь для столбцов в дельта-группах строк.
- Отсутствует оптимизация строкового предиката, если количество записей в словаре превышает 64 КБ.
- Выражение, оценивающее значения NULL, не поддерживается.

Устранение сегментов

Выбор типа данных может оказать значительное влияние на производительность запросов на основе общих предикатов фильтра для запросов к индексу columnstore.

В данных columnstore группы строк состоят из сегментов столбцов. В каждом сегменте есть метаданные, позволяющие быстро устранять сегменты, не считывая их. Это исключение сегмента применяется к числовым, датовым и временным типам данных, а также к типу данных datetimeoffset с масштабом меньше или равно двум. Начиная с SQL Server 2022 (16.x), функции устранения сегментов расширяются на строковые, двоичные типы данных, данные типа GUID и типа данных datetimeoffset при масштабе больше двух.

После обновления до версии SQL Server, который поддерживает устранение сегмента строки min/max (SQL Server 2022 (16.x) и более поздних версий), индекс columnstore не выигрывает от этой функции, пока он не будет перестроен с использованием ALTER INDEX REBUILD или CREATE INDEX WITH (DROP_EXISTING = ON).

Устранение сегментов не применяется к типам данных LOB, таким как типы данных с длиной (макс.).

В настоящее время только SQL Server 2022 (16.x) и более поздние версии поддерживают исключение rowgroup колонкового хранилища для префикса предикатов LIKE, например column LIKE 'string%'. Исключение сегментов не поддерживается для использования LIKEбез префикса, например column LIKE '%string'.

Упорядоченные columnstore индексы также могут воспользоваться устранением сегментов, особенно для строковых столбцов. В упорядоченных индексах columnstore исключение сегментов в первом столбце ключа индекса является наиболее эффективным, так как он отсортирован. Повышение производительности из-за ликвидации сегмента в других столбцах таблицы менее прогнозируемо. Дополнительные сведения о упорядоченных индексах columnstore см. в разделе Использование упорядоченного индекса columnstore для больших таблиц хранилища данных. Сведения о доступности упорядоченного columnstore индекса см. в разделе "Доступность упорядоченного columnstore индекса".

С помощью опции запроса SET STATISTICS IO можно просмотреть процесс устранения сегмента. Найдите результаты, такие как приведенные ниже, чтобы указать, что произошла ликвидация сегмента. Группы строк состоят из сегментов столбцов, поэтому это может указывать на исключение сегментов. SET STATISTICS IO Следующий выходной пример запроса, примерно 83% данных был пропущен запросом:

...
Table 'FactResellerSalesPartCategoryFull'. Segment reads 16, segment skipped 83.
...

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2025-11-18

Индексы Columnstore — производительность запросов

Рекомендации по улучшению производительности запросов

1. Упорядочение данных для исключения дополнительных групп строк из полного сканирования таблицы

2. Запланировать достаточный объем памяти для параллельного создания columnstore-индексов