Nota
L'accés a aquesta pàgina requereix autorització. Pots provar d'iniciar sessió o canviar de directori.
L'accés a aquesta pàgina requereix autorització. Pots provar de canviar directoris.
Si hospeda un servidor Git privado (como GitHub Enterprise Server, Bitbucket Server o GitLab autoadministrado) o el servidor git está detrás de un firewall, puede usar el proxy del servidor git para conectar carpetas de Git de Databricks a los repositorios privados. El proxy enruta los comandos de Git desde el área de trabajo de Azure Databricks a través de un recurso de proceso al servidor git privado.
Acerca del proxy del servidor git
El servidor proxy Git de Databricks para carpetas de Git le permite hacer proxy de los comandos de Git desde su área de trabajo de Azure Databricks a un servidor Git privado que no es accesible en Internet.
Las carpetas de Git de Databricks representan los repositorios git conectados como carpetas. El contenido de estas carpetas se gestiona con control de versiones mediante la sincronización con el repositorio de Git conectado. De forma predeterminada, las carpetas de Git solo pueden sincronizarse con repositorios accesibles en Internet. Si hospeda un servidor Git privado o el servidor git está detrás de un firewall, debe usar el proxy del servidor git con carpetas de Git. El servidor Git debe ser accesible desde el plano de proceso de Azure Databricks.
Funcionamiento del proxy de servidor de Git
Proxy de servidor Git para carpetas de Git de Databricks que retransmite los comandos de Git desde el plano de control de Databricks a un clúster de proxy que se ejecuta en el plano de cómputo del área de trabajo. El clúster de proxy está configurado para ejecutar un servicio de proxy que recibe comandos de Git del plano de control de Databricks y los reenvía al servidor Git. El proxy no afecta a la arquitectura de seguridad del plano de control de Databricks.
A continuación se muestra la arquitectura general del sistema:
Importante
Databricks proporciona un notebook de habilitación para configurar la instancia del servidor de Git para realizar comandos proxy en carpetas Git de Databricks. Obtenga el cuaderno de habilitación en GitHub. El proxy del servidor Git de Databricks está diseñado para trabajar con la versión de Databricks Runtime incluida en el cuaderno de configuración. No actualice la versión de Databricks Runtime del clúster de proxy.
Configuración del proxy de servidor de Git
Para habilitar la conectividad de Git privada para las carpetas de Git de Databricks, prepare la instancia del servidor git, ejecute el cuaderno de habilitación para crear el proxy y validar la configuración.
Para configurar el proxy del servidor Git:
- Prepare la instancia del servidor Git con direcciones IP estáticas y transporte HTTPS.
- Ejecute el cuaderno de habilitación para crear el clúster de proxy.
- Valide la configuración mediante la clonación de un repositorio.
- Configure las credenciales de Git para los usuarios.
Prerrequisitos
Antes de habilitar el proxy, compruebe lo siguiente:
- El área de trabajo tiene habilitada la característica carpetas de Git de Databricks. Consulte Habilitación o deshabilitación de carpetas de Git de Databricks.
- La instancia del servidor Git es accesible desde la red virtual de Azure (VNet) del plano de cálculo del área de trabajo de Azure Databricks y tiene habilitados tanto el protocolo HTTPS como los tokens de acceso personal (PAT).
Nota:
El proxy de servidor Git para Databricks funciona en todas las regiones compatibles con la red virtual.
Paso 1: Preparar la instancia del servidor Git
Importante
Para crear un recurso de proceso y completar esta tarea, debe ser administrador del área de trabajo con derechos de acceso.
Configure el servidor Git para que acepte conexiones desde el clúster de proxy y habilite el transporte HTTPS.
El servidor Git empresarial normalmente tiene una lista de direcciones IP permitidas desde las que se permite el acceso. Para permitir que el nodo del controlador del clúster de proxy acceda al servidor Git, asocie una dirección IP de salida estática para el tráfico que se origina en el clúster de proxy y agréguelo a la lista de permitidos del servidor Git.
- Asocie una dirección IP de salida estática para el tráfico procedente del clúster de proxy mediante Azure Firewall o un dispositivo de salida.
- Agregue la dirección IP del paso anterior a la lista de permitidos del servidor Git.
A continuación, configure la instancia del servidor Git para permitir el transporte HTTPS:
- GitHub Enterprise: consulte Qué dirección URL remota debo usar en la ayuda de GitHub Enterprise.
- Servidor bitbucket: en la página de administración del servidor de Bitbucket, haga clic en Configuración del servidor y seleccione HTTP(S) habilitado.
Paso 2: Ejecutar el cuaderno de habilitación
Para habilitar el proxy:
Inicie sesión en el área de trabajo de Azure Databricks como administrador del área de trabajo con derechos de acceso para crear un clúster.
Importe este cuaderno, que elige el tipo de instancia más pequeño disponible en el proveedor de nube para ejecutar el proxy de Git:
Haga clic en Ejecutar todo para ejecutar el cuaderno, que realiza las siguientes tareas:
- Crea un recurso de proceso de nodo único denominado "Proxy de Git de Databricks" que no finaliza automáticamente. Este servicio de proxy procesa y reenvía comandos de Git desde el área de trabajo de Azure Databricks al servidor git privado.
- Habilita una bandera de característica que controla si las solicitudes de Git en las carpetas de Git de Databricks se envían a través de la instancia de cómputo.
Como procedimiento recomendado, cree un trabajo para ejecutar el recurso de cómputo del proxy de Git según una programación regular. Esto mantiene el servicio de proxy de Git disponible para los usuarios.
Nota:
La ejecución de un recurso computacional adicional de larga duración incurre en unidades adicionales de Databricks (DBU). Para minimizar los costos, el cuaderno configura el proxy para usar un recurso de proceso de nodo único con un tipo de nodo económico. Modifique las opciones de computación para satisfacer sus necesidades. Para obtener información sobre los precios, consulte la calculadora de precios de Databricks.
Paso 3: Validar la configuración del servidor Git
Para validar la configuración del servidor Git, clone un repositorio hospedado en el servidor Git privado a través del clúster de proxy. Un clon exitoso confirma que el proxy del servidor Git funciona en su espacio de trabajo.
Paso 4: Creación de repositorios git habilitados para proxy
Después de que los usuarios configuren sus credenciales de Git, no se requieren pasos adicionales para crear o sincronizar repositorios. Para configurar credenciales y repositorios de acceso mediante programación, consulte Configuración de credenciales de Git y conexión de un repositorio remoto a Azure Databricks.
Eliminar permisos globales CAN ATTACH TO
El proxy del servidor Git no requiere CAN ATTACH TO permiso para ningún usuario. Para evitar que los usuarios ejecuten cargas de trabajo arbitrarias en el clúster proxy, restrinja los permisos de la lista de control de acceso del clúster (ACL) en el servidor proxy:
Haga clic en Cómputo en la barra lateral y, a continuación, haga clic en el icono de
situado junto a la entrada de cómputo para el proxy de servidor de Git que está ejecutando.
Haga clic en Editar permisos.
En el cuadro de diálogo, quite la entrada Can Attach To para Todos los usuarios.
Solución de problemas
En esta sección se tratan los problemas comunes y cómo diagnosticarlos.
Lista de comprobación de problemas comunes
Antes de empezar a diagnosticar un error, confirme lo siguiente:
- El clúster de proxy se ejecuta con este cuaderno de depuración del servidor proxy de Git.
- Eres el administrador de tu espacio de trabajo.
Ejecute el resto del cuaderno de depuración y capture los resultados. Si no puede resolver el problema o no ve ningún error notificado, el soporte técnico de Databricks puede revisar los resultados. Exporte y envíe el cuaderno de depuración como archivo DBC si se solicita.
Cambio de la configuración del proxy de Git
Si el servicio de proxy de Git no funciona con la configuración por defecto, configure las variables de entorno para soportar la infraestructura de red.
Use las siguientes variables de entorno para actualizar la configuración del servicio de proxy de Git:
| Variable del entorno | Formato | Descripción |
|---|---|---|
GIT_PROXY_ENABLE_SSL_VERIFICATION |
true/false |
Establézcalo en false si usa un certificado autofirmado para el servidor Git privado. |
GIT_PROXY_CA_CERT_PATH |
Ruta de acceso del archivo (cadena) | Establézcalo en la ruta de acceso a un archivo de certificado de ENTIDAD de certificación usado para la comprobación ssl. Ejemplo: /FileStore/myCA.pem |
GIT_PROXY_HTTP_PROXY |
https://<hostname>:<port #> |
Establézcalo en la dirección URL HTTPS del proxy de firewall de la red para el tráfico HTTP. |
GIT_PROXY_CUSTOM_HTTP_PORT |
Número de puerto (entero) | Establézcalo en el número de puerto asignado al puerto HTTP del servidor Git. |
Para establecer estas variables de entorno:
- Vaya a la pestaña Proceso del área de trabajo de Azure Databricks.
- Seleccione la configuración de proceso para el servicio de proxy de Git.
- En la parte inferior del panel Configuración , expanda Opciones avanzadas y seleccione la pestaña Spark .
- Agregue variables de entorno al campo Variables de entorno .
Inspección de registros en el clúster del proxy
El archivo en /databricks/git-proxy/git-proxy.log en el clúster del proxy contiene registros que son útiles para la depuración.
El archivo de registro debe comenzar con Data-plane proxy server binding to ('', 8000)…. Si no es así, el servidor proxy no se inició correctamente. Reinicie el clúster o elimine el clúster y vuelva a ejecutar el cuaderno de habilitación.
Si el archivo de registro comienza con esta línea, revise las instrucciones de registro siguientes para cada solicitud de Git iniciada por las operaciones de Git en carpetas de Git de Databricks.
Por ejemplo:
do_GET: https://server-address/path/to/repo/info/refs?service=git-upload-pack 10.139.0.25 - - [09/Jun/2021 06:53:02] /
"GET /server-address/path/to/repo/info/refs?service=git-upload-pack HTTP/1.1" 200`
Los registros de errores escritos en este archivo pueden ser útiles para ayudarle o para depurar problemas de soporte técnico de Databricks.
Errores de certificado SSL
Puede aparecer el error siguiente:
https://git.consult-prodigy.com/Prodigy/databricks_test: Secure connection to https://git.consult-prodigy.com/Prodigy/databricks_test could not be established because of SSL problems
Esto suele significar que usa un repositorio que requiere certificados SSL especiales. Compruebe el /databricks/git-proxy/git-proxy.log archivo en el clúster de proxy. Si se produjo un error en la validación del certificado, agregue la entidad de certificación a la cadena de certificados del sistema:
- Extraiga el certificado raíz mediante el explorador u otro método y cárguelo en El sistema de archivos de Databricks.
- Edite el clúster del Git Proxy de carpetas Git para configurar la variable de entorno
GIT_PROXY_CA_CERT_PATHa fin de que apunte al archivo del certificado raíz. Consulte Variables de entorno.
Después de completar estos pasos, reinicie el clúster.
Preguntas más frecuentes
A continuación se muestran preguntas comunes sobre la configuración y el uso del proxy del servidor de Git.
¿Cómo puedo comprobar si el proxy de Git se está ejecutando?
Importe y ejecute el cuaderno de depuración del proxy de Git. Los resultados muestran si hay problemas con el servicio de proxy de Git.
¿Las áreas de trabajo pueden compartir clústeres de proxy?
Cada área de trabajo de Azure Databricks requiere su propio clúster de proxy. No puede compartir un clúster de proxy entre varias áreas de trabajo y cada área de trabajo solo puede tener un clúster de servidores proxy de Git.
¿Puedo enrutar solo algún tráfico de Git a través del proxy?
Todo el tráfico relacionado con carpetas de Git de Databricks pasa a través del clúster de proxy, incluso para repositorios de Git públicos. El área de trabajo de Azure Databricks no diferencia entre los repositorios proxy y no proxy.
¿Qué proveedores de Git se admiten?
Las carpetas de Git de Databricks admiten GitHub Enterprise, Bitbucket Server, Azure DevOps Server y GitLab autoadministrados. Otros proveedores de servidores Git empresariales también deben funcionar si cumplen las especificaciones comunes de Git.
¿Se admite la firma de confirmación de GNU Privacy Guard (GPG)?
No.
¿Se admite el transporte SSH?
No. Solo se admite HTTPS.
¿Puedo usar un puerto HTTPS no predeterminado?
El cuaderno de habilitación supone que el servidor git usa el puerto HTTPS predeterminado 443. Establezca la variable GIT_PROXY_CUSTOM_HTTP_PORT de entorno para usar un puerto diferente.
¿Los usuarios necesitan cambiar las direcciones URL de Git para el proxy?
No. Los usuarios escriben la dirección URL normal del repositorio de Git, como https://git.company.com/org/repo-name.git. Todo el tráfico de Git para las carpetas de Git de Databricks se enruta a través del proxy de forma transparente.
¿Cómo funciona la autenticación con el proxy?
Sí, el proxy usa la credencial de Git del usuario para autenticarse en el servidor Git. El acceso está restringido por los permisos especificados en esa credencial.