Nota
L'accés a aquesta pàgina requereix autorització. Pots provar d'iniciar sessió o canviar de directori.
L'accés a aquesta pàgina requereix autorització. Pots provar de canviar directoris.
En este artículo se proporcionan recursos que puede usar en caso de que necesite solucionar problemas de comportamiento de proceso en el área de trabajo. Los temas de este artículo se relacionan con los problemas de inicio de proceso.
Para ver otros artículos de solución de problemas, consulte:
- Depuración con la interfaz de usuario de Spark
- Diagnóstico de problemas de costo y rendimiento mediante la interfaz de usuario de Spark
- Control de consultas de gran tamaño en flujos de trabajo interactivos.
Uso del Asistente para depurar errores de entorno de proceso
Databricks Assistant puede ayudar a diagnosticar y sugerir correcciones para errores de instalación de bibliotecas.
En la página Bibliotecas del equipo, un El botón Diagnosticar error aparece junto al nombre del paquete con errores y en el modal de detalles que aparece al hacer clic en el paquete con errores. Haga clic en
También puede usar el Asistente para depurar errores de entorno de proceso dentro de un cuaderno. Consulte Errores de entorno de depuración.
Un nuevo proceso no responde o se produce un error de registro de eventos "la red del plano de proceso no está configurada correctamente"
Problema: Después de lo que parece una implementación correcta del área de trabajo, el primer proceso de prueba no responde. Después de aproximadamente 20-30 minutos, si comprueba el registro de eventos de proceso, verá un mensaje de error similar al siguiente:
The compute plane network is misconfigured. Please verify that the network for your compute plane is configured correctly. Error message: Node daemon ping timeout in 600000 ms …
Causa: el mensaje de error anterior indica que el enrutamiento o el firewall son incorrectos. Azure Databricks ha solicitado instancias de máquina virtual para un nuevo proceso, pero se ha encontrado con un gran retraso al esperar a que la instancia de máquina virtual arrancara y se conectara al plano de control. El administrador de procesos finaliza las instancias e informa de este error.
Corrección recomendada: la configuración de red debe permitir que las instancias del nodo de ejecución se conecten correctamente al plano de control de Databricks. Para una técnica de solución de problemas más rápida que el uso de un proceso, puede implementar una instancia de máquina virtual en una de las subredes del área de trabajo y realizar pasos típicos de solución de problemas de red como nc, ping, telnet o traceroute.
Consulte Direcciones del plano de control de Azure Databricks para dominios de acceso, direcciones IP y CNAMEs de retransmisión por región. Para Artifact Storage, asegúrese de que hay una ruta de acceso de red correcta a Azure Blob Storage.
En el ejemplo siguiente se usa la región de Azure westus:
# Verify access to the web application
nc -zv 40.118.174.12 443
nc -zv 20.42.129.160 443
# Verify access to the secure compute connectivity relay
nc -zv tunnel.westus.azuredatabricks.net 443
# Verify Artifact Blob storage access
nc -zv dbartifactsprodwestus.blob.core.windows.net 443
nc -zv arprodwestusa1.blob.core.windows.net 443
..
nc -zv arprodwestusa15.blob.core.windows.net 443
nc -zv dbartifactsprodwestus2.blob.core.windows.net 443
# Verify Metastore Database access
nc -zv consolidated-westus-prod-metastore.mysql.database.azure.com 3306
nc -zv consolidated-westus-prod-metastore-addl-1.mysql.database.azure.com 3306
nc -zv consolidated-westus-prod-metastore-addl-2.mysql.database.azure.com 3306
nc -zv consolidated-westus-prod-metastore-addl-3.mysql.database.azure.com 3306
nc -zv consolidated-westus2c2-prod-metastore-addl-1.mysql.database.azure.com 3306
# Verify Log Blob storage access
nc -zv dblogprodwestus.blob.core.windows.net 443
Si los comandos anteriores devuelven correctamente, es posible que la ruta de acceso de red se configure correctamente, pero podría haber otro problema si usa un firewall. Es posible que el firewall tenga una inspección profunda de paquetes, una inspección SSL u otra cosa que provoque un error en los comandos de Azure Databricks. Con una instancia de máquina virtual en la subred de Azure Databricks, ejecute el siguiente comando y reemplace por <token> el token de acceso personal y por <workspace-url> la dirección URL del área de trabajo:
curl -X GET -H 'Authorization: Bearer <token>' [https://](https://):re[workspace-url]/api/2.0/clusters/spark-versions
Si se produce un error en la solicitud anterior, vuelva a ejecutar el comando con la opción -k para quitar la comprobación SSL. Si esto funciona, el firewall está causando un problema con los certificados SSL.
Examine los certificados SSL mediante la ejecución del comando siguiente, reemplazando por <workspace-url> la dirección URL del área de trabajo:
openssl s_client -showcerts -connect <workspace-url>:443
El comando anterior muestra el código devuelto y los certificados de Azure Databricks. Si devuelve un error, es posible que el firewall esté mal configurado.
Tenga en cuenta que los problemas de SSL no son problemas de capa de red. La visualización del tráfico en el firewall no muestra estos problemas ssl. Examinar las solicitudes de origen y destino funciona según lo previsto.
Los problemas con el registro de eventos de metastore o proceso incluyen eventos de METASTORE_DOWN
Problema: el área de trabajo parece estar configurada y puede configurar el cómputo, pero tiene METASTORE_DOWN eventos en el registro de eventos de cómputo o el metastore no parece estar funcionando.
Corrección recomendada: confirme si usa un firewall de aplicaciones web (WAF) como el proxy de Squid. Los miembros de cómputo deben conectarse a varios servicios que no operan a través de un WAF.