Мониторинг и устранение неполадок групп доступности

Это руководство поможет вам приступить к мониторингу групп доступности и устранению некоторых распространенных проблем в группах доступности. Он предоставляет исходное содержимое и целевую страницу с полезной информацией, опубликованной в других местах. Хотя это руководство не может полностью обсудить все проблемы, которые могут возникнуть в большой области групп доступности, оно может указать правильное направление при анализе первопричин и решении проблем.

Так как группы доступности являются встроенной технологией, множество возникающих проблем может быть вызвано другими проблемами в системе базы данных. Некоторые проблемы вызывают параметры в группе доступности, например приостановка базы данных доступности. Другие проблемы могут быть связаны с другими аспектами работы SQL Server, такими как параметры SQL Server, развертывания файла базы данных и систематические проблемы с производительностью, не относящиеся к доступности. За пределами SQL Server могут существовать и другие проблемы, например, связанные с сетевыми операциями ввода-вывода, TCP/IP, Active Directory и отказоустойчивой кластеризацией Windows Server (WSFC). Часто для выявления первопричины проблем, возникающих в группе доступности, реплике или базе данных, требуется устранить неполадки в нескольких технологиях.

Сценарии устранения неполадок

Приведенная ниже таблица содержит ссылки на распространенные сценарии устранения неполадок для групп доступности. Они упорядочены по типам сценариев, таким как конфигурация, возможность подключения клиентов, переход на другой ресурс и производительность.

Сценарий Тип сценария Описание
Поиск и устранение неисправностей конфигурации групп доступности Always On (SQL Server) Конфигурация Содержит сведения об устранении типичных проблем, возникающих при настройке экземпляров сервера для групп доступности. Типичные проблемы конфигурации:

— группы доступности отключены
— учетные записи настроены неправильно.
— конечная точка зеркального отображения базы данных не существует.
— конечная точка недоступна (SQL Server ошибка 1418).
— сетевой доступ не существует
— команда присоединения к базе данных завершается сбоем (SQL Server ошибка 35250).
Устранение неполадок с операцией добавления файла, завершившейся сбоем (группы доступности Always On) Конфигурация Операция добавления файла приводит к приостановке базы данных-получателя и переключению ее в состояние "Не синхронизируется".
Не удается подключиться к прослушивателю группы доступности в среде с несколькими подсетями Подключение клиента После настройки прослушивателя группы доступности вы не можете проверить связь с прослушивателем или подключиться к нему из приложения.
Устранение неполадок с неудачными автоматическими переходами на другой ресурс Отработка отказа Автоматическая отработка отказа не завершилась успешно.
Устранение неполадок. превышение RTO в группе доступности Производительность После автоматического перехода на другой ресурс или планового перехода на другой ресурс вручную без потери данных время перехода на другой ресурс превышает цель времени восстановления (RTO). Или при оценке времени перехода на другой ресурс для вторичной реплики с синхронной фиксацией (например, партнера по обеспечению автоматической отработки отказа) вы обнаруживаете, что оно превышает RTO.
Устранение неполадок. превышение RPO в группе доступности Производительность После принудительного перехода на другой ресурс вручную потеря данных превышает RPO. Или при расчете возможной потери данных для вторичной реплики с асинхронной фиксацией вы обнаруживаете, что она превышает RPO.
Устранение неполадок. изменения в первичной реплике не отражены во вторичной Производительность Клиентское приложение успешно завершает обновление основного реплика, но запрос дополнительного реплика показывает, что изменение не отражается.
Устранение неполадок: высокое значение типа ожидания HADR_SYNC_COMMIT для групп доступности AlwaysOn Производительность Если HADR_SYNC_COMMIT слишком длинный, в потоке перемещения данных или фиксировании журнала вторичной реплики возникает проблема производительности.

Полезные инструменты для устранения неполадок

При настройке или выполнении групп доступности можно использовать различные инструменты для диагностирования различных типов проблем. Приведенная ниже таблица содержит ссылки на полезные сведения об инструментах.

Средство Description
Использование панели мониторинга AlwaysOn (среда SQL Server Management Studio) Дает обзорное представление работоспособности группы доступности в понятном интерфейсе.
Политики AlwaysOn Используется панелью мониторинга AlwaysOn.
Журнал ошибок SQL Server (группы доступности Always On) Регистрирует события перехода состояния для групп доступности, реплик и баз данных, состояний других компонентов AlwaysOn и ошибок AlwaysOn.
CLUSTER.LOG (группы доступности AlwaysOn) Регистрирует события кластера, включая переходы состояния ресурсов группы доступности, а также события и ошибки из библиотеки ресурсов SQL Server.
Журнал диагностики работоспособности AlwaysOn Регистрирует диагностические данные о работоспособности SQL Server, предоставленные кластеру WSFC (библиотека ресурсов SQL Server) процедурой sp_server_diagnostics (Transact-SQL).
Динамические административные представления и представления системного каталога (группы доступности AlwaysOn) Сообщает сведения о группах доступности, такие как конфигурация, состояние работоспособности и метрики производительности.
Расширенные события AlwaysOn Предоставляет подробные диагностические данных по группам доступности и удобен для анализа первопричин.
Типы ожидания AlwaysOn Предоставляет статистику ожидания для групп доступности и удобен для настройки производительности.
Счетчики производительности AlwaysOn Отслеживают активность групп доступности, отражаются в системном мониторе и удобны для настройки производительности. Дополнительные сведения см. в разделах SQL Server, Объект реплики доступности и SQL Server, Объект реплики базы данных.
Кольцевые буферы AlwaysOn Регистрируют предупреждения в системе SQL Server для внутренней диагностики, а также могут использоваться для отладки проблем, связанных с группами доступности.

Мониторинг групп доступности

Оптимальным временем для устранения неполадок группы доступности является момент перед тем, как проблема потребует автоматически или вручную перейти на другой ресурс. Для этого можно отслеживать метрики производительности группы доступности и отправлять предупреждения, когда реплики доступности выполняются за пределами соглашения об уровне обслуживания (SLA). Например, если в синхронном дополнительном реплика возникают проблемы с производительностью, которые приводят к увеличению предполагаемого времени отработки отказа, вы не хотите ждать автоматической отработки отказа и обнаружите, что время отработки отказа превышает целевое время восстановления.

Так как группы доступности поддерживают высокую доступность и аварийное восстановление, наиболее важными отслеживаемыми метриками производительности являются приблизительное время перехода на другой ресурс, которое влияет на цель времени восстановления (RTO), и возможная потеря данных при аварии, которая влияет на целевую точку восстановления (RPO). Эти метрики можно собирать из данных, которые SQL Server предоставляет в любой момент времени, чтобы получать оповещения о проблеме в возможностях высокой доступности и аварийного восстановления (HADR) системы до возникновения фактических событий сбоя. Таким образом, важно ознакомиться с процессом синхронизации данных в группах доступности и организовать сбор метрик должным образом.

В следующей таблице приведены статьи, которые помогут вам отслеживать работоспособность решения для групп доступности.

Статья Описание
Мониторинг производительности для групп доступности AlwaysOn Описание процесса синхронизации данных для групп доступности, шлюзы управления потоком и метрики, которые могут пригодиться при мониторинге группы доступности, а также процесса сбора метрик RTO и RPO.
Отслеживание групп доступности (SQL Server) Сведения о средствах наблюдения за группой доступности.
Модель работоспособности AlwaysOn, часть 1. Архитектура модели работоспособности Общие сведения о модели работоспособности AlwaysOn.
Модель работоспособности AlwaysOn, часть 2. Расширение модели работоспособности Описание настройки модели работоспособности AlwaysOn и панели мониторинга AlwaysOn для отображения дополнительных сведений.
Мониторинг работоспособности AlwaysOn с использованием PowerShell, часть 1. Общий обзор командлетов Общий обзор командлетов AlwaysOn PowerShell, которые можно использовать для наблюдения за работоспособностью группы доступности.
Мониторинг работоспособности AlwaysOn с использованием PowerShell, часть 2. Расширенное использование командлетов Сведения о расширенном использовании командлетов AlwaysOn PowerShell для наблюдения за работоспособностью группы доступности.
Мониторинг работоспособности AlwaysOn с использованием PowerShell, часть 3. Простое приложение для мониторинга Описание автоматического мониторинга группы доступности с помощью приложения.
Мониторинг работоспособности AlwaysOn с использованием PowerShell, часть 4. Интеграция с агентом SQL Server Сведения об интеграции мониторинга группы доступности с агентом SQL Server и настройке уведомления соответствующих сторон при возникновении проблем.

Дальнейшие действия