Поделиться через


Устранение неполадок с вычислительными ресурсами

В этой статье содержатся ресурсы, которые можно использовать в случае, если необходимо устранить неполадки с поведением вычислений в рабочей области. Разделы, приведенные в этой статье, относятся к проблемам запуска вычислений.

Другие статьи по устранению неполадок см. в следующих статьях:

Использование помощника для отладки ошибок вычислительной среды

Помощник Databricks может помочь диагностировать и предложить исправления для ошибок установки библиотек.

На странице Библиотек вычислительного модуля значок Sparkle рядом с именем пакета с ошибкой, отображается кнопка "Диагностика ошибки" и в модальном окне сведений, которое появляется при нажатии на пакет с ошибкой. Щелкните значок Sparkle. Диагностируйте ошибку, чтобы помощник помог вам отладить. Помощник будет диагностировать ошибку и предложить возможные решения.

Используйте помощник по отладке ошибок установки вычислительной библиотеки.

Кроме того, помощник можно использовать для отладки ошибок вычислительной среды в записной книжке. См. ошибки среды отладки.

Новое вычисление не отвечает или ошибка журнала событий "сеть плоскости вычислений неправильно настроена"

Проблема. После успешного развертывания рабочей области первое тестовое вычисление не отвечает. Примерно через 20–30 минут, если проверить журнал событий вычислений, появится сообщение об ошибке, как показано ниже:

The compute plane network is misconfigured. Please verify that the network for your compute plane is configured correctly. Error message: Node daemon ping timeout in 600000 ms …

Причина: предыдущее сообщение об ошибке указывает, что маршрутизация или брандмауэр неверны. Azure Databricks запрашивал экземпляры виртуальных машин для нового вычисления, но возникла длинная задержка, ожидающая загрузки экземпляра виртуальной машины и подключения к плоскости управления. Диспетчер вычислений завершает экземпляры и сообщает об этой ошибке.

Рекомендуемое исправление. Конфигурация сети должна разрешить экземплярам вычислительных узлов успешно подключаться к плоскости управления Databricks. Чтобы ускорить устранение неполадок, чем при использовании вычислений, можно развернуть экземпляр виртуальной машины в одной из подсетей рабочей области и выполнить типичные действия по устранению неполадок сети, например nc, pingtelnetили traceroute.

Адреса плоскости управления Azure Databricks см . для доменов доступа, IP-адресов и ретранслятора CNAMEs по регионам. Для хранилища артефактов убедитесь, что существует успешное подключение к объектному хранилищу Azure.

В следующем примере используется регион westusAzure:

# Verify access to the web application
nc -zv 40.118.174.12 443
nc -zv 20.42.129.160 443

# Verify access to the secure compute connectivity relay
nc -zv tunnel.westus.azuredatabricks.net 443

# Verify Artifact Blob storage access
nc -zv dbartifactsprodwestus.blob.core.windows.net 443
nc -zv arprodwestusa1.blob.core.windows.net 443
..
nc -zv arprodwestusa15.blob.core.windows.net 443
nc -zv dbartifactsprodwestus2.blob.core.windows.net 443

# Verify Metastore Database access
nc -zv consolidated-westus-prod-metastore.mysql.database.azure.com 3306
nc -zv consolidated-westus-prod-metastore-addl-1.mysql.database.azure.com 3306
nc -zv consolidated-westus-prod-metastore-addl-2.mysql.database.azure.com 3306
nc -zv consolidated-westus-prod-metastore-addl-3.mysql.database.azure.com 3306
nc -zv consolidated-westus2c2-prod-metastore-addl-1.mysql.database.azure.com 3306

# Verify Log Blob storage access
nc -zv dblogprodwestus.blob.core.windows.net 443

Если предыдущие команды возвращаются правильно, сетевой путь может быть настроен правильно, но при использовании брандмауэра может возникнуть другая проблема. Брандмауэр может иметь глубокую проверку пакетов, проверку SSL или что-то другое, что приводит к сбою команд Azure Databricks. Используя экземпляр виртуальной машины в подсети Azure Databricks, выполните следующую команду, заменив <token> личный маркер доступа и <workspace-url> URL-адрес рабочей области:

curl -X GET -H 'Authorization: Bearer <token>' [https://](https://):re[workspace-url]/api/2.0/clusters/spark-versions

Если предыдущий запрос завершается ошибкой, выполните команду еще раз с параметром -k удаления проверки SSL. Если это работает, брандмауэр вызывает проблему с SSL-сертификатами.

Просмотрите SSL-сертификаты, выполнив следующую команду, заменив <workspace-url> URL-адрес рабочей области:

openssl s_client -showcerts -connect <workspace-url>:443

Предыдущая команда показывает код возврата и сертификаты Azure Databricks. Если он возвращает ошибку, брандмауэр может быть неправильно настроен.

Обратите внимание, что проблемы с SSL не являются проблемами сетевого слоя. Просмотр трафика в брандмауэре не показывает эти проблемы SSL. Просмотр исходных и целевых запросов работает должным образом.

Проблемы с использованием хранилища метаданных или журнала событий вычислений включают события METASTORE_DOWN

Проблема: ваша рабочая область, кажется, настроена и вы можете настроить вычисления, но у вас есть METASTORE_DOWN события в журнале событий вычислений или хранилище метаданных , кажется, не работает.

Рекомендуемое исправление: убедитесь, что вы используете Брандмауэр веб-приложений (WAF), например прокси-сервер Squid. Участники вычислительного процесса должны подключаться к нескольким службам, которые не совместимы с WAF.