Руководство по архитектуре и разработке индексов SQL Server и Azure SQL

Статья
07/26/2024

Применимо: SQL Server База данных SQL Azure Управляемый экземпляр SQL Azure azure Synapse Analytics Analytics Platform System (PDW)

Плохо спроектированные индексы и их недостаточное количество — основной источник узких мест в приложениях баз данных. Проектирование эффективных индексов имеет первостепенную важность для достижения высокой производительности баз данных и приложений. Это руководство по проектированию индексов содержит сведения об архитектуре индексов и рекомендации, руководствуясь которыми, вы сможете создавать эффективные индексы, удовлетворяющие потребностям ваших приложений.

Предполагается, что читатель обладает общими знаниями доступных типов индексов. Общее описание типов индексов см. в разделе "Индексы".

В этом руководстве рассматриваются следующие типы индексов:

Формат основного хранилища	Тип индекса
Rowstore на диске
	кластеризация.
	Некластеризованный
	Уникальный
	Отфильтровано
Columnstore
	Кластеризованный индекс columnstore
	Некластеризованный индекс columnstore
Оптимизированные по памяти
	Hash
	Некластеризованный индекс, оптимизированный для памяти

Сведения о XML-индексах см. в статьях XML-индексов (SQL Server) и выборочных XML-индексов (SXI).

Сведения о пространственных индексах см. в разделе Общие сведения о пространственных индексах.

Сведения о полнотекстовых индексах см. в разделе "Заполнение полнотекстовых индексов".

Основы проектирования индексов

Подумайте о обычной книге: в конце книги есть индекс, который помогает быстро найти информацию в книге. Указатель представляет собой отсортированный список ключевых слов, а рядом с ключевым словом — номера страниц, где можно найти каждое ключевое слово.

Индекс rowstore не отличается: это упорядоченный список значений и для каждого значения есть указатели на страницы данных, где находятся эти значения. Сам индекс хранится на страницах, называемых страницами индекса. В обычной книге, если индекс охватывает несколько страниц, и вам нужно найти указатели на все страницы, содержащие слово SQL , например, вам придется листывать до тех пор, пока не найдите страницу индекса, содержащую ключевое слово SQL. После этого можно следовать указателям на все страницы книги. Этот процесс можно оптимизировать, если в самом начале индекса создать одну страницу, содержащую алфавитный список расположения каждой буквы. Например: "A-D - страница 121", "E-g - страница 122" и т. д. Эта дополнительная страница исключит шаг листы индекса, чтобы найти начальную место. Такая страница не существует в обычных книгах, но она существует в индексе rowstore. Эта единственная страница называется корневой страницей индекса. Корневая страница — это начальная страница древовидной структуры, используемой индексом rowstore. Следуя аналогии дерева, конечные страницы, содержащие указатели на реальные данные, называются "листьями" дерева.

Индекс является структурой на диске или в памяти, которая связана с таблицей или представлением и ускоряет получение строк из таблицы или представления. Индекс rowstore содержит ключи, построенные из одного или нескольких столбцов в таблице или представлении. Для индексов rowstore эти ключи хранятся в виде структуры сбалансированного дерева, которая поддерживает быстрый поиск строк по значениям ключей в ядре СУБД.

Данные индекса rowstore логически упорядочиваются в виде таблицы по строкам и столбцам, а физически хранятся в строковом формате, который называется rowstore ¹, или в столбчатом формате, который называется columnstore.

Выбор правильных индексов для базы данных и ее рабочей нагрузки — это решение сложной задачи о соотношении скорости обработки запроса и стоимости обновления. Узкие индексы rowstore на диске, то есть индексы, в ключе которых мало столбцов, требуют меньше места на диске и меньше текущих издержек. С другой стороны, широкие индексы охватывают больше запросов. Перед поиском наиболее эффективного индекса может потребоваться поэкспериментировать с несколькими различными проектами. Добавление, изменение и удаление индексов не влияет на схему базы данных или конструкцию приложений. Поэтому вы не должны стесняться экспериментировать с различными индексами.

Оптимизатор запросов в ядро СУБД надежно выбирает наиболее эффективный индекс в большинстве случаев. Общая стратегия проектирования индекса должна предоставлять различные индексы для оптимизатора запросов, чтобы выбрать и доверять ему, чтобы принять правильное решение. Это уменьшит время анализа и обеспечит высокую производительность в различных ситуациях. Чтобы узнать, какие индексы использует оптимизатор запросов для определенного запроса в СРЕДЕ SQL Server Management Studio, в меню "Запрос " выберите "Включить фактический план выполнения".

Не всегда приравнивайте использование индекса с хорошей производительностью и хорошей производительностью с эффективным использованием индекса. Если бы использование индекса всегда способствовало производительности, то работа оптимизатора запросов была бы очень простой. На самом деле, неверный выбор индекса может привести к неоптимальной производительности. Таким образом, задача оптимизатора запросов заключается в выборе индекса или сочетании индексов, только если он повышает производительность, и чтобы избежать индексированного извлечения, когда это препятствует производительности.

¹ Rowstore — это традиционный способ хранения реляционных данных таблиц. Rowstore ссылается на таблицу, в которой базовый формат хранилища данных — куча, дерево B+ (кластеризованный индекс) или оптимизированная для памяти таблица. Хранилище строк на основе дисков исключает оптимизированные для памяти таблицы.

Задачи проектирования индексов

Рекомендуемая стратегия проектирования индексов включает в себя следующие задачи:

Прежде всего следует понять характеристики самой базы данных.
- Например, будет ли это база данных OLTP с часто изменяющимися данными, которая должна поддерживать высокую пропускную способность. Таблицы, оптимизированные для памяти, и индексы особенно хорошо подходят для такого сценария, обеспечивая работу без кратковременных блокировок. Дополнительные сведения см. в разделе Индексы для таблиц, оптимизированных для памяти, или рекомендации по проектированию некластеризованных индексов и рекомендации по проектированию хэш-индекса в этом руководстве.
- Либо это может быть база данных системы поддержки решений (DDS) или хранилища данных (OLAP), которая должна быстро обрабатывать большие объемы данных. Индексы columnstore особенно хорошо подходят для типовых наборов данных хранилища данных. Индексы columnstore могут изменить работу пользователей с хранилищем данных, обеспечивая более высокую производительность для таких стандартных запросов хранилища данных, как фильтрация, статистическая обработка, группирование и запросы соединения типа «звезда». Дополнительные сведения см. в разделе "Индексы Columnstore: обзор" или "Рекомендации по проектированию индекса Columnstore" в этом руководстве.
Определите наиболее часто используемые запросы. Например, зная, что часто используемый запрос присоединяется к двум или нескольким таблицам, помогает определить лучший тип индексов для использования.
Выясните характеристики столбцов, используемых в запросах. Например, индекс идеально подходит для столбцов, имеющих целый тип данных, а также являются уникальными или ненулевыми столбцами. Для столбцов с четко определенными подмножествами данных можно использовать отфильтрованный индекс в SQL Server 2008 (10.0.x) и более поздних версиях. Дополнительные сведения см . в руководстве по проектированию отфильтрованного индекса.
Определите, какие параметры индекса могут повысить производительность при создании или обслуживании индекса. Например, при создании кластеризованного индекса для существующей большой таблицы выгодно будет использовать параметр ONLINE. Этот ONLINE параметр позволяет продолжать параллельное действие в базовых данных во время создания или перестроения индекса. Дополнительные сведения см. в разделе Установка параметров индекса.
Определите оптимальное расположение для хранения индекса.

Некластеризованный индекс может храниться в той же файловой группе, что и базовая таблица, или в другой группе. Правильный выбор расположения для хранения индексов может повысить производительность запросов за счет повышения скорости дискового ввода-вывода. Например, если некластеризованный индекс хранится в файловой группе не на том диске, на котором расположены файловые группы таблицы, то производительность может повыситься, поскольку это позволяет одновременно обращаться к нескольким дискам. Кластеризованные и некластеризованные индексы могут использовать схему секционирования, которая охватывает несколько файловых групп. При выборе секционирования определите, требуется ли выравнивание индекса, то есть должен ли индекс быть секционирован точно так же, как и таблицы, или он может быть секционирован иным образом. Дополнительные сведения см. в разделе Размещение индекса в файловых группах или схемах секций этой статьи.
При выявлении отсутствующих индексов с динамическими административными представлениями (динамическими административными представлениями), такими как sys.dm_db_missing_index_details и sys.dm_db_missing_index_columns , можно предложить аналогичные варианты индексов в одной таблице и столбцах. Чтобы предотвратить создание повторений, изучите существующие индексы в таблице, а также предложения отсутствующих индексов. Дополнительные сведения см. в разделе Настройка некластеризованных индексов с предложениями отсутствующих индексов.

Общие рекомендации по проектированию индексов

Опытный администратор базы данных может спроектировать хороший набор индексов, но эта задача сложна, требует много времени и сопряжена с ошибками даже для рабочих нагрузок и баз данных средней сложности. В разработке оптимальных индексов может помочь понимание характеристик базы данных, запросов и столбцов данных.

Вопросы работы со столбцами

При проектировании индекса, следует принимать во внимание следующие рекомендации, относящиеся к столбцам.

Нужно следить, чтобы длина ключа для кластеризованных индексов была небольшой. Кроме того, кластеризованные индексы получают преимущество создания на уникальных или ненулевом столбцах.
Столбцы, типы данных ntext, text, image, varchar(max), nvarchar(max)и varbinary(max) нельзя указывать в качестве ключевых столбцов индекса. Однако типы данных varchar(max), nvarchar(max), varbinary(max)и xml могут участвовать в некластеризованных индексах в качестве их неключевых столбцов индекса. Дополнительные сведения см. в разделе " Индекс" с включенными столбцами в этом руководстве.
Столбцы типа xml могут быть ключевым столбцом только в XML-индексе. Дополнительные сведения см. в разделе XML-индексов (SQL Server). С пакетом обновления 1 (SP1) в SQL Server 2012 появился новый тип XML-индекса — выборочный XML-индекс. Этот новый индекс может повысить производительность запросов по данным, хранящимся в формате XML, ускорить индексирование больших рабочих нагрузок XML-данных и повысить масштабируемость за счет снижения затрат на хранение самого индекса. Дополнительные сведения см. в разделе "Выборочные XML-индексы" (SXI).
Проверьте уникальность столбцов. Замена неуникального индекса уникальным для той же комбинации столбцов обеспечивает оптимизатору запросов дополнительные сведения, что делает индекс более полезным. Дополнительные сведения см . в руководстве по проектированию уникальных индексов.
Проверьте распределение данных в столбце. Часто длительное выполнение запроса обусловлено индексированием столбца, в котором мало уникальных значений, или присоединением такого столбца. Это основная проблема с данными и запросами, и, как правило, не может быть решена без выявления этой ситуации. Например, физический телефонный каталог отсортирован по алфавиту по имени семьи не ускоряет поиск человека, если все люди в городе называются Смитом или Джонсом. Дополнительные сведения о распределении данных см. в разделе Statistics.
Рекомендуется использовать отфильтрованные индексы для столбцов с хорошо определенными подмножествами, например разреженными столбцами, столбцами с главным NULL образом значениями, столбцами с категориями значений и столбцами с различными диапазонами значений. Правильно составленный отфильтрованный индекс может увеличить скорость выполнения запроса, уменьшить стоимость обслуживания индекса и стоимость хранения.
Рассмотрим порядок столбцов, если индекс содержит несколько столбцов. Столбец, используемый в WHERE предложении, равный (=), больше (>), меньше (<) или BETWEEN условие поиска или участвует в соединении, должен быть помещен в первую очередь. Дополнительные столбцы должны быть упорядочены по уровню различимости, то есть от наиболее четкого к наименее четкому.

Например, если индекс определен как LastName, FirstNameиндекс полезен при наличии критерия WHERE LastName = 'Smith' поиска или WHERE LastName = Smith AND FirstName LIKE 'J%'. Однако оптимизатор запросов не будет использовать индекс для запроса, который искал только в FirstName (WHERE FirstName = 'Jane').
Следует рассмотреть возможность индексирования вычисляемых столбцов. Дополнительные сведения см. в разделе "Индексы" для вычисляемых столбцов.

Характеристики индекса

После определения того, что индекс подходит для запроса, можно выбрать тип индекса, который лучше всего подходит для вашей ситуации. Характеристики индекса включают следующий список:

кластеризованный или некластеризованный;
уникальный или неуникальный;
с одним или несколькими столбцами;
порядок по возрастанию или по убыванию в столбцах индекса;
полнотабличные или фильтруемые некластеризованные индексы.
columnstore или rowstore;
Хэш и некластеризованные для таблиц, оптимизированных для памяти

Вы также можете настроить начальные характеристики хранилища индекса, чтобы оптимизировать его производительность или обслуживание, задав такой параметр, как FILLFACTOR. Чтобы оптимизировать производительность, можно также определить место хранения индекса с помощью файловых групп или схем секционирования.

Размещение индекса в файловых группах или схемах секций

Во время разработки стратегии индексирования следует обратить внимание на помещение индексов в файловые группы, связанные с базой данных. Аккуратный выбор схемы файловой группы или секционирования может улучшить производительность.

По умолчанию индексы хранятся в той же файловой группе, что и базовая таблица, для которой создается индекс. Несекционированный некластеризованный индекс и базовая таблица всегда находятся в одной файловой группе. Однако можно выполнить следующие действия.

Создайте некластеризованные индексы в файловой группе, отличной от файловой группы базовой таблицы или кластеризованного индекса.
Секционировать кластеризованные и некластеризованные индексы, чтобы они размещались в нескольких файловых группах.
Перемещение таблицы из одной файловой группы в другую путем удаления кластеризованного индекса и указания новой файловой группы или схемы секционирования в MOVE TO предложении инструкции DROP INDEX или с помощью CREATE INDEX инструкции с DROP_EXISTING предложением.

Создав некластеризованный индекс в другой файловой группе, можно достичь прироста производительности, если файловые группы находятся на разных физических дисках с собственными контроллерами. Сведения о данных и индексе могут считываться параллельно несколькими головками. Например, если таблица Table_A в файловой группе f1 и индекс Index_A в файловой группе f2 используются в одном и том же запросе, производительность увеличится, так как обе файловые группы используются полностью, не состязаясь между собой. Однако если Table_A запрос сканируется, но Index_A не ссылается, используется только файловая группа f1 . В этом случае нет никакого выигрыша в производительности.

Так как вы не можете предсказать, какой тип доступа происходит и когда это происходит, это может быть лучшее решение для распространения таблиц и индексов во всех файловых группах. Это гарантирует, что доступ будет осуществляться ко всем дискам, так как все данные и индексы равномерно распределены по ним, независимо от способа доступа к данным. Для системных администраторов этот подход также более прост.

Секции во многих файловых группах

Можно рассмотреть возможность секционирования кластеризованных и некластеризованных индексов на диске по нескольким файловым группам. Секционированные индексы разбиваются горизонтально или построчно, в зависимости от функции секционирования. Функция секционирования определяет, как каждая строка сопоставляется с набором секций на основе значений определенных столбцов — столбцов секционирования. Схема секционирования определяет сопоставление секций набору файловых групп.

Секционирование индекса может предоставить следующие преимущества.

Система становится более масштабируемой, а управление большими индексами в ней упрощается. Например, в системах OLTP можно реализовать приложения, учитывающие секционирование и работающие с большими индексами.
Запросы выполняются быстрее и эффективнее. Когда запросы обращаются к нескольким секциям индекса, оптимизатор запросов может одновременно обрабатывать отдельные секции и исключать секции, не затронутые запросом.

Дополнительные сведения см. в разделах Секционированные таблицы и индексы.

Метаданные

Используйте приведенные ниже представления метаданных, чтобы увидеть атрибуты индексов. В некоторых из этих представлений содержатся дополнительные сведения об архитектуре.

Все столбцы в индексах columnstore хранятся в метаданных как включенные столбцы. Индекс columnstore не имеет ключевых столбцов.

Тип таблицы	Тип некластеризованного индекса	Указатель строки
Куча
	Nonunique	RID добавлен в ключевые столбцы
	Уникальный	RID добавлен во включенные столбцы
Уникальный кластеризованный индекс
	Nonunique	Ключи кластеризованного индекса, добавленные в ключевые столбцы
	Уникальный	Ключи кластеризованного индекса, добавленные во включенные столбцы
Неуникальный кластеризованный индекс
	Nonunique	Ключи кластеризованного индекса и уникальный идентификатор (при наличии) добавлены в ключевые столбцы
	Уникальный	Ключи кластеризованного индекса и уникальный идентификатор (при наличии) добавлены во включенные столбцы

Кластеризованный индекс	Определение некластеризованного индекса	Определение некластеризованного индекса с указателями строк	Описание
Уникальный кластеризованный индекс с ключевыми столбцами (`A`, `B`, `C`)	Неуниковый некластеризованный индекс с ключевыми столбцами (`B`, `A`) и включенными столбцами (`E`, `G`)	Ключевые столбцы (`B`, `A`, `C`) и включенные столбцы (`E`, `G`)	Некластеризованный индекс неуникален, поэтому указатель строк должен присутствовать в ключах индекса. Столбцы `B` и `A` из указателя строки уже существуют, поэтому добавляется только столбец `c`. Столбец `c` добавляется в конец списка ключевых столбцов.
Уникальный кластеризованный индекс с ключевым столбцом (`A`)	Неуниковый некластеризованный индекс с ключевыми столбцами (`B`, `C`) и включенными столбцами (`A`)	Ключевые столбцы (`B`, `C`, `A`)	Некластеризованный индекс неуникален, поэтому указатель строки добавляется в ключ. Столбец `A` еще не указан в качестве ключевого столбца, поэтому он добавляется в конец списка ключевых столбцов. Столбец `A` теперь находится в ключе, поэтому не нужно хранить его как включенный столбец.
Уникальный кластеризованный индекс с ключевым столбцом (`A`, `B`)	Уникальный некластеризованный индекс с ключевым столбцом (`C`)	Ключевой столбец (`C`) и включенные столбцы (`A`, `B`)	Некластеризованный индекс уникален, поэтому указатель строки добавляется во включенные столбцы.

Функция, используемая для хэширования индексов, имеет следующие характеристики.

Ядро СУБД имеет одну хэш-функцию, используемую для всех хэш-индексов.
Хэш-функция является детерминированной. Одно значение входного ключа всегда связано с одним контейнером в хэш-индексе.
Несколько ключей индекса могут быть сопоставлены с тем же хэш-контейнером.
Хэш-функция сбалансирована, а это означает, что распределение значений ключей индекса, связанных с хэш-контейнерами, соответствует распределению Пуассона или нормальному распределению, а не плоскому линейному распределению.
Распределение Poisson не является даже распределением. Значения ключа индекса равномерно не распределяются в хэш-контейнерах.
Если два ключа индекса сопоставлены с тем же хэш-контейнером , возникает конфликт хэша. Большое число конфликтов хэша может оказывать негативное влияние на операции чтения. Реалистичная цель состоит в том, чтобы 30 процентов сегментов содержали два разных ключевых значения.

Взаимозависимость хэш-индекса и контейнеров иллюстрируется на следующем рисунке.

Схема, показывающая взаимодействие между хэш-индексом и контейнерами.

Настройка количества сегментов хэш-индекса

Число контейнеров хэш-индекса указывается в момент создания индекса и может быть изменено с помощью синтаксиса ALTER TABLE...ALTER INDEX REBUILD.

В большинстве случаев идеальное число контейнеров должно находиться в диапазоне, в 1–2 раза превышающем число уникальных значений в ключе индекса.
Возможно, вы не всегда сможете предсказать, сколько значений может иметь определенный ключ индекса или будет иметь. Производительность обычно хороша, если BUCKET_COUNT значение находится в пределах 10 раз от фактического количества ключевых значений, а переоценка обычно лучше, чем недооценка.

Слишком мало контейнеров может иметь следующие недостатки:

Возникает больше конфликтов хэша из-за уникальных значений ключей.
Каждое уникальное значение вынуждено использовать один и тот же контейнер с другим уникальным значением.
Средняя длина цепочки для контейнера возрастает.
Чем длиннее цепочка контейнеров, тем медленнее скорость выполнения проверки на равенство индексов.

Слишком много контейнеров может иметь следующие недостатки:

Слишком большое количество контейнеров может привести к более пустым контейнерам.
Пустые контейнеры влияют на производительность полной проверки индекса. Если сканирование выполняется регулярно, рассмотрите возможность выбора количества контейнеров, близкого к количеству уникальных значений ключа индекса.
Пустые контейнеры задействуют память, хотя каждый контейнер использует всего 8 байт.

Примечание.

При добавлении большего числа контейнеров цепочка записей, которые имеют повторяющееся значение, не уменьшается. Степень повторяемости значения используется для того, чтобы решить, правильный ли тип имеет индекс, а не для определения числа контейнеров.

Замечания, связанные с быстродействием

Производительность хэш-индекса обладает следующими характеристиками.

Отличная, если предикат в предложении WHERE задает точное значение каждого столбца в ключе хэш-индекса. Хэш-индекс возвращается к сканированию с заданным предикатом неравенства.
Низкая, если в предикате в предложении WHERE указан диапазон значений ключа индекса.
Плохо, если предикат в WHERE предложении предусматривает одно конкретное значение для первого столбца ключа хэш-индекса двух столбцов, но не указывает значение для других столбцов ключа.

Совет

Предикат должен содержать все столбцы в ключе хэш-индекса. Для хэш-индекса требуется ключ (для хэша) для поиска в индексе.

Если ключ индекса состоит из двух столбцов и WHERE предложение предоставляет только первый столбец, ядро СУБД не имеет полного ключа для хэша. Это приводит к выполнению плана запроса на сканирование индекса.

Если используется хэш-индекс, а число уникальных ключей индекса равно 100 раз (или больше), чем число строк, рассмотрите возможность увеличения числа сегментов большего размера, чтобы избежать больших цепочек строк или использовать некластеризованный индекс .

Версии строк и сборка мусора

При изменении строки с помощью инструкции UPDATE в таблице, оптимизированной для памяти, создается обновленная версия строки. Во время транзакции обновления другие сеансы могут считывать старую версию строки, поэтому избежать замедления производительности, связанного с блокировкой строки.

Хэш-индекс также может иметь разные версии своих записей для размещения обновления.

Позже, когда старые версии больше не требуются, поток сборки мусора перебирает список контейнеров и их списки ссылок, удаляя старые записи. Поток сборки мусора работает быстрее, если списки ссылок короткие. Дополнительные сведения см. в статье Сборка мусора OLTP в памяти.

Поделиться через

Руководство по архитектуре и разработке индексов SQL Server и Azure SQL

Основы проектирования индексов

Задачи проектирования индексов

Общие рекомендации по проектированию индексов

Рекомендации по базе данных