Устранение неполадок с Кластерами больших данных с помощью записных книжек Jupyter и Azure Data Studio

Эта страница представляет собой индекс записных книжек для Кластеров больших данных SQL Server. Эти исполняемые записные книжки (IPYNB) предназначены для SQL Server 2019, чтобы помочь в устранении неполадок в кластерах больших данных.

Важно!

Поддержка надстройки "Кластеры больших данных" Microsoft SQL Server 2019 будет прекращена. Мы прекратим поддержку Кластеров больших данных SQL Server 2019 28 февраля 2025 г. Все существующие пользователи SQL Server 2019 с Software Assurance будут полностью поддерживаться на платформе, а программное обеспечение будет по-прежнему поддерживаться с помощью SQL Server накопительных обновлений до этого времени. Дополнительные сведения см. в записи блога объявлений и в статье о параметрах больших данных на платформе Microsoft SQL Server.

Каждая записная книжка предназначена для проверки собственных зависимостей. Команда Выполнить все ячейки может завершиться успешно или вызвать исключение с указанием гиперссылки на другую записную книжку для решения проблемы с отсутствующей зависимостью. Перейдите по гиперссылке на целевую записную книжку, щелкните Выполнить все ячейки. После успешного возврата в исходную записную книжку нажмите кнопку Выполнить все ячейки.

Если все зависимости установлены, но команда Запустить все ячейки завершается сбоем, каждая записная книжка проанализирует результаты и по возможности выдаст подсказку с гиперссылкой на другую записную книжку, чтобы дополнительно помочь в устранении проблемы.

Устранение неполадок с Кластерами больших данных

Этот раздел содержит набор записных книжек для сбора журналов из кластера больших данных SQL Server.

Имя Описание
TSG100 — средство устранения неполадок с Кластерами больших данных Обзор всех доступных записных книжек для устранения неполадок с Кластерами больших данных и ситуаций их использования
TSG101 — средство устранения неполадок для SQL Server Обзор всех доступных записных книжек по устранению неполадок SQL Server и использования этих записных книжек
TSG102 — средство устранения неполадок с HDFS Обзор всех доступных записных книжек по устранению неполадок HDFS и этих записных книжек
TSG103 — средство устранения неполадок для Spark Обзор всех доступных записных книжек по устранению неполадок Spark и этих записных книжек
TSG104 — средство устранения неполадок управления Обзор всех доступных записных книжек по устранению неполадок контроллера и этих записных книжек
TSG105 — средство устранения неполадок со шлюзом Обзор всех доступных записных книжек по устранению неполадок шлюза Knox и этих записных книжек
TSG106 — средство устранения неполадок с приложением Обзор всех доступных записных книжек по устранению неполадок развертывания приложений и этих записных книжек

Диагностика проблем с Кластерами больших данных

Набор записных книжек для диагностики проблем и состояний кластера больших данных.

Имя Описание
TSG002 — CrashLoopBackoff Этот TSG будет подключаться к каждому контейнеру, последняя попытка которого перейти в состояние "Работает" не удалась, и получит текущий и предыдущий журналы контейнера. Это полезно для отладки проблем CrashLoopBackOff, о которых сообщили в команде "kubectl get pods".
TSG025 — обозреватель конечных автоматов — запрос состояний конечных автоматов контроллера Используйте эту записную книжку для подключения к базе данных контроллера и просмотра состояния конечного автомата. Используйте эту записную книжку, чтобы вывести список конечных автоматов в активном состоянии и определить остановившиеся рабочие процессы.
TSG026 — подключение к узлу пула данных (для запуска T-SQL) Используйте этот журнал для подключения к узлу пула данных (для запуска T-SQL)
TSG027 — наблюдение за развертыванием кластера Используйте эту записную книжку для наблюдения за развертыванием кластера. В ней содержатся рекомендации по устранению неполадок, связанных с созданием Кластеров больших данных SQL Server. Часто используются следующие команды для выявления базовых причин.
TSG029 — поиск дампов в кластере Используйте эту записную книжку для поиска дампов памяти и минидампов в таких процессах, как SQL Server или контроллер, в кластере больших данных.
TSG032 — использование ЦП и памяти для всех контейнеров Используйте эту записную книжку для проверки использования ЦП и памяти для всех контейнеров.
TSG037 — определение основного пула, размещающего первичную реплику Используйте эту записную книжку для определения основного пула, размещающего первичную реплику для кластера больших данных, когда включен высокий уровень доступности главного пула.
TSG044 — запуск sqlcmd в контейнере главного пула Используйте эту записную книжку для подключения к узлу главного пула напрямую через T-SQL
TSG055 — время выполнения Curl до Sparkhead Используйте эту записную книжку для диагностики шага, чтобы понять, какое время отклика получено от модуля контроллера к модулю Sparkhead pod.
TSG060 — дисковое пространство постоянного тома для всех PVC в кластере больших данных Используйте эту записную книжку для подключения к каждому контейнеру и получения дискового пространства, используемого или доступного для каждого постоянного тома, сопоставленного с каждой заявкой на постоянный том (PVC) в кластере больших данных.
TSG078 — проверка работоспособности кластера Используйте эту записную книжку для проверки работоспособности кластера больших данных.
TSG079 — создание дампа ядра контроллера Используйте эту записную книжку для создания дампа ядра контроллера.
TSG086 — запуск модуля top во всех контейнерах Используйте эту записную книжку для запуска модуля top во всех контейнерах.
TSG087 — использование интерфейса командной строки Hadoop fs в модуле Namenode pod Используйте эту записную книжку для использования интерфейса командной строки Hadoop fs в модуле Namenode pod.
TSG108 — просмотр схемы конфигурации обновления контроллера Используйте эту записную книжку для устранения неполадок при обновлении кластера больших данных с помощью команды azdata bdc upgrade.
TSG112 — проверки Active Directory перед развертыванием Используйте эту записную книжку, чтобы проверить, допустима ли конфигурация кластера больших данных для развертывания Active Directory (AD).
TSG115 — транслятор журналов безопасности SQL Server на Linux Используйте эту записную книжку для анализа журналов, созданных средствами ведения журнала security.ldap и security.kerberos для SQL Server на Linux. Чтобы включить эти регистраторы, поместите строки ниже в /var/opt/mssql/logger.ini на компьютере Linux, на котором работает SQL Server. Примечание. В этом файле учитывается регистр.
TSG116 — транслятор журналов поддержки безопасности SQL BDC Используйте эту записную книжку для анализа журналов, созданных службой поддержки безопасности в BDC SQL. Чтобы получить журналы, необходимо скопировать журналы отладки из кластера и извлечь их. Следуйте инструкциям. Выполните команду "azdata bdc debug copy-logs -n <пространство_имен>". В результате будет создано несколько файлов tar.gz. Извлеките содержимое файла debuglogs-<пространство_имен>-<дата>-<время>.tar.gz. Найдите сохраненный журнал поддержки безопасности по адресу ./<пространство_имен>/control-<…>/security-support/supervisol/log/secsupp-stderr---<…>.log.
TSG119 — проверки Active Directory после развертывания Эта записная книжка предназначена для проверки конфигурации BDC после развертывания AD. Она проверяет существование записей DNS для всех конечных точек с помощью атрибута dnsName, и эти записи DNS должны быть записями узла, а не псевдонимами (т. е. записи типа A, а не CNAME). Также проверяет наличие хорошо известных учетных записей AD, включены они или нет, а также наличие ожидаемых имен субъекта-службы.

Устранение проблем с Кластерами больших данных

Набор записных книжек для исправления известных проблем и состояний кластера больших данных SQL Server.

Имя Описание
TSG005 — обнаружен цикл переадресации Используйте эту записную книжку для устранения проблемы с циклом переадресации, поскольку служебная программа dnsmasq может разместить в resolv.conf локальное замыкание на себя, и тогда pod контроллера смогут использовать CrashLoopBackOff при первоначальном развертывании кластера: https://askubuntu.com/questions/627899/nameserver-127-0-1-1-in-resolv-conf-wont-go-away|
TSG011 — перезапуск сервера sparkhistory Используйте эту записную книжку для перезапуска сервера sparkhistory, поскольку процесс sparkhistory java может зависнуть во время запуска. Чтобы устранить эту проблему, перезапустите сервер sparkhistory (supervisorctl restart sparkhistory).
TSG018 — завершение процесса sqlservr в главном пуле Используйте эту записную книжку, когда T-SQL SHUTDOWN не удалось повторно запустить процесс ./sqlservr. Используйте эту записную книжку, чтобы завершить главный процесс sqlservr, который будет автоматически перезапущен процессом внешнего интерфейса ./sqlservr.
TSG024 — namenode находится в защищенном режиме Используйте эту записную книжку, когда HDFS находится в защищенном режиме. Например, если слишком много модулей pod в пуле носителей слишком быстро перезапускаются, безопасный режим может быть включен автоматически.
TSG028 — перезапуск диспетчера узлов на всех узлах пула носителей Используйте эту записную книжку, когда необходимо перезапустить диспетчер узлов на всех узлах пула носителей.
TSG038 — сбои при создании кластера больших данных из-за ошибки - doc is missing key (в документации отсутствует ключ) Используйте эту записную книжку при сбоях во время создания кластера больших данных из-за ошибки отсутствия ключа "-doc".
TSG039 — недопустимое имя объекта "role_permissions" Используйте эту записную книжку при возникновении проблемы с недопустимым объектом из-за разрешения роли в gateway.log Knox
TSG040 — не удалось получить имена файлов из контроллера, возникла ошибка Используйте эту записную книжку во время ошибки "Истекло время ожидания шлюза 504" при получении имен файлов из контроллера.
TSG041 — не удалось создать новый контекст асинхронного ввода-вывода (увеличьте sysctl fs.aio-max-nr) Используйте эту записную книжку, когда не удается создать новый контекст асинхронного ввода-вывода (increase sysctl fs.aio-max-nr)
TSG045 — максимальное число дисков данных, разрешенных для подключения к виртуальной машине такого размера (AKS) Используйте эту записную книжку, когда к виртуальной машине определенного размера (AKS) разрешено подключать максимальное число дисков данных.
TSG047 — ConfigException — ожидается только один объект с именем Используйте эту записную книжку при наличии метода ConfigException, который ожидает только один объект с именем.
TSG048 — развертывание не меняет состояние "Ожидание работы модуля pod контроллера" Используйте эту записную книжку, когда развертывание не меняет состояние "Ожидание работы модуля pod контроллера".
TSG050 — зависание при создании кластера с ошибкой "истекло время ожидания для присоединения или подключения томов к модулю pod" Используйте эту записную книжку во время зависания при создании кластера с ошибкой "Истекло время ожидания для присоединения или подключения томов к модулю pod"
TSG052 — не удалось получить DNS master-svc, будет предпринята еще одна попытка Используйте эту записную книжку во время зависания при создании кластера с ошибкой "Истекло время ожидания для присоединения или подключения томов к модулю pod"
TSG057 — сбой при запуске службы контроллера .System.TimeoutException Используйте эту записную книжку при получении сведений о запуске службы контроллера и получении System.TimeoutException.
TSG067 — не удалось завершить установку kube config Используйте эту записную книжку, когда не удается завершить установку конфигурации kube.
TSG074 — удаление app-deploy Используйте эту записную книжку при возникновении проблем с удалением приложений в кластере больших данных.
TSG075 — ошибка FailedCreatePodSandBox из-за того, что NetworkPlugin cni не удалось настроить pod Используйте эту записную книжку при получении исключения FailedCreatePodSandBox из-за того, что cni NetworkPlugin не удалось настроить модуль pod.
TSG080 — удаление сеансов Spark с помощью azdata Используйте эту записную книжку при получении проблемы во время удаления сеансов Spark.
TSG109 — установка времени ожидания обновления Используйте эту записную книжку при возникновении проблемы с обновлением BDC.
TSG110 —azdata возвращает ApiError Используйте эту записную книжку, если Azdata возвращает ApiError.

Дальнейшие действия

Дополнительные сведения о кластерах больших данных см. в статье Что такое Кластеры больших данных SQL Server?.