Compartir vía


Configurar las credenciales de Git para conectar un repositorio remoto a Azure Databricks

En este artículo se describe cómo configurar las credenciales de Git en Databricks para que pueda conectar un repositorio remoto mediante carpetas de Git de Databricks (anteriormente Repos).

Para obtener una lista de los proveedores de Git admitidos (en la nube y en el entorno local), lea Proveedores de Git compatibles.

GitHub y GitHub AE

La siguiente información se aplica a los usuarios de GitHub y GitHub AE.

¿Por qué usar la aplicación de GitHub de Databricks en lugar de un PAT?

Las carpetas de Git de Databricks le permiten elegir la aplicación de GitHub de Databricks para la autenticación de usuario en lugar de PAT si usa una cuenta de GitHub hospedada. El uso de la aplicación de GitHub ofrece las siguientes ventajas con respecto a los tokens de acceso personal:

  • Utiliza OAuth 2.0 para la autenticación de usuarios. El tráfico del repositorio OAuth 2.0 está encriptado para una mayor seguridad.
  • Es más fácil de integrar (consulte los pasos siguientes) y no requiere un seguimiento individual de las fichas.
  • La renovación de los tokens se controla de forma automática.
  • La integración puede limitarse a repositorios Git específicos, lo que permite un control más granular del acceso.

Importante

Según la integración estándar de OAuth 2.0, Databricks almacena los tokens de acceso y actualización de un usuario; el resto del control de acceso lo controla GitHub. Los tokens de acceso y actualización siguen las reglas de expiración predeterminadas de GitHub con tokens de acceso que expiran a las 8 horas (lo que minimiza el riesgo en caso de pérdida de credenciales). Los tokens de actualización tienen una duración de 6 meses si no se han usado. Las credenciales vinculadas expiran tras 6 meses de inactividad, lo que requiere que el usuario vuelva a configurarlas.

Opcionalmente, puede cifrar tokens de Databricks mediante claves administradas por el cliente (CMK).

Nota:

  • Esta característica no es compatible en GitHub Enterprise Server. Uso de un token de acceso personal en su lugar.

En Azure Databricks, vincule su cuenta de GitHub en la página de configuración del usuario:

  1. En la esquina superior derecha de cualquier página, haga clic en el nombre de usuario y, a continuación, seleccione Configuración.

  2. Haga clic en la pestaña Cuentas vinculadas.

  3. Cambie el proveedor a GitHub, seleccione Vincular cuenta de Git y haga clic en Vincular.

    Vinculación de una cuenta de GitHub en Databricks

  4. Aparece la página autorización de aplicaciones de GitHub de Databricks. Autorice a la aplicación de GitHub para completar la configuración, lo que permite que Databricks actúe en su nombre cuando realice operaciones de Git en carpetas de Git (como clonar un repositorio). Consulte la documentación de GitHub para obtener más información sobre la autorización de aplicaciones.

    Página de autorización de aplicaciones de GitHub de Databricks

  5. Para permitir el acceso a repositorios de GitHub, siga los pasos siguientes para instalar y configurar la aplicación de GitHub de Databricks.

Instalar y configurar el Aplicaciones de GitHub de Databricks para permitir el acceso a los repositorios

Puede instalar y configurar la aplicación de GitHub de Databricks en repositorios de GitHub a los que desea acceder desde carpetas de Git de Databricks. Consulte la documentación de GitHub para obtener más información sobre la instalación de aplicaciones.

  1. Abra la página instalación de aplicaciones de GitHub de Databricks.

  2. Seleccione la cuenta propietaria de los repositorios a los que desee acceder.

    Página de instalación de aplicaciones de GitHub de Databricks

  3. Si no es propietario de la cuenta, debe indicar a este que instale y configure la aplicación en su lugar.

  4. Si es el propietario de la cuenta, instale la aplicación de GitHub. La instalación proporciona acceso de lectura y escritura al código. Solo se accede al código en nombre de los usuarios (por ejemplo, cuando un usuario clona un repositorio en carpetas de Git de Databricks).

  5. Opcionalmente, puede conceder acceso solo a un subconjunto de repositorios si selecciona la opción Solo seleccionar repositorios.

Conexión a un repositorio de GitHub mediante un token de acceso personal

En GitHub, siga estos pasos para crear un token de acceso personal que permita el acceso a los repositorios:

  1. En la esquina superior derecha de cualquier página, haga clic en la foto del perfil y, luego, en Settings (Configuración).
  2. Haga clic en Developer settings (Configuración del desarrollador).
  3. Haga clic en la pestaña Tokens de acceso personal del panel izquierdo y, a continuación, en Tokens (clásico).
  4. Haga clic en el botón Generar nuevo token.
  5. Escriba una descripción del token.
  6. Seleccione los ámbitos del repositorio y del flujo de trabajo y haga clic en el botón Generar token. El ámbito del flujo de trabajo es necesario en caso de que el repositorio tenga flujos de trabajo de Acciones de GitHub.
  7. Copie el token en el portapapeles. Escriba este token en Azure Databricks en Configuración de usuario > Cuentas vinculadas.

Para usar el inicio de sesión único, consulte Autorización de un token de acceso personal para su uso con el inicio de sesión único de SAML.

Nota:

¿Tiene problemas para instalar la aplicación de Github de Databricks en su cuenta u organización? Vea la documentación de instalación de aplicaciones de GitHub para obtener instrucciones de solución de problemas.

Conectarse a un repositorio de GitHub mediante un token de acceso personal específico

Como procedimiento recomendado, use un PAT específico que solo conceda acceso a los recursos a los que accederá en el proyecto. En GitHub, siga estos pasos para crear un PAT específico que permita el acceso a los repositorios:

  1. En la esquina superior derecha de cualquier página, haga clic en la foto del perfil y, luego, en Settings (Configuración).

  2. Haga clic en Developer settings (Configuración del desarrollador).

  3. Haga clic en la pestaña Tokens de acceso personal del panel izquierdo y, a continuación, en Tokens específicos.

  4. Haga clic en el botón Generar nuevo token en la esquina superior derecha de la página para abrir la página Nuevo token de acceso personal específico.

    Generación de un token de GitHub

  5. Configure el nuevo token específico a partir de los valores siguientes:

    • Nombre de token: proporcione un nombre de token único. Anótelo en algún sitio para que no se le olvide ni lo pierda.

    • Expiración: seleccione el período de tiempo para la expiración del token. El valor predeterminado es "30 días".

    • Descripción: agregue texto corto que describa el propósito del token.

    • Propietario del recurso: el valor predeterminado es el id. de GitHub actual. Establézcalo en la organización de GitHub que posee los repositorios a los que tendrá acceso.

    • En Acceso al repositorio, elija el ámbito de acceso para el token. Como procedimiento recomendado, seleccione solo los repositorios que va a usar para el control de versiones de carpetas de Git.

    • En Permisos, configure los niveles de acceso específicos concedidos por este token para los repositorios y la cuenta con la que trabajará. Para obtener más información sobre los grupos de permisos, lea Permisos necesarios para los tokens de acceso personal específicos en la documentación de GitHub.

      Establezca los permisos de acceso para Contenido en Lectura y escritura. (Encontrará el ámbito de Contenido en Permisos del repositorio). Para obtener más información sobre este ámbito, consulte la documentación de GitHub sobre el ámbito de Contenido.

      Establecimiento de los permisos de un PAT de Git específico en lectura y escritura a través de la interfaz de usuario de GitHub

  6. Haga clic en el botón Generar token.

  7. Copie el token en el portapapeles. Escriba este token en Azure Databricks en Configuración de usuario > Cuentas vinculadas.

GitLab

En GitLab, siga estos pasos para crear un token de acceso personal que permita el acceso a los repositorios:

  1. En GitLab, haga clic en el icono de usuario en la esquina superior izquierda de la pantalla y seleccione Preferencias.

  2. Haga clic Tokens de acceso en la barra lateral.

  3. Haga clic en Agregar nuevo token en la sección Tokens de acceso personal de la página.

    Generación de un token de GitLab

  4. Escriba un nombre para el token.

  5. Seleccione los ámbitos específicos para proporcionar acceso activando las casillas de los niveles de permisos deseados. Para obtener más información sobre las opciones de ámbito, lea la documentación de GitLab sobre ámbitos PAT.

  6. Haga clic en Crear token de acceso personal.

  7. Copie el token en el portapapeles. Escriba este token en Azure Databricks en Configuración de usuario > Cuentas vinculadas.

Consulte la documentación de GitLab para obtener más información sobre cómo crear tokens de acceso personal.

GitLab también proporciona compatibilidad para acceso específico mediante "Tokens de acceso de proyecto". Puede usar tokens de acceso del proyecto para definir el ámbito del acceso a un proyecto GitLab. Para obtener más información, lea la documentación de GitLab sobre los tokens de acceso de proyecto.

Azure DevOps Services

Conexión a un repositorio de Azure DevOps mediante Microsoft Entra ID

La autenticación con Azure DevOps Services se realiza automáticamente al autenticarse mediante Microsoft Entra ID. La organización de Azure DevOps Services debe estar vinculada al mismo inquilino de Microsoft Entra ID que Databricks. El punto de conexión de servicio de Microsoft Entra ID debe ser accesible desde ambas subredes del área de trabajo de Databricks, la privada y la pública. Para obtener más información, consulte Implementación de Azure Databricks en la red virtual de Azure (inyección de red virtual).

En Azure Databricks, establezca Azure DevOps Services como el proveedor de Git en la página Configuración de usuario:

  1. En la esquina superior derecha de cualquier página, haga clic en el nombre de usuario y, a continuación, seleccione Configuración.

  2. Haga clic en la pestaña Cuentas vinculadas.

  3. Establezca Azure DevOps Services como proveedor.

    Proveedor de GitHub para Azure DevOps Services

Conexión a un repositorio de Azure DevOps mediante un token

En los siguientes pasos, se muestra cómo conectar un repositorio de Azure Databricks a un repositorio de Azure DevOps cuando no están en el mismo inquilino de Microsoft Entra ID.

El punto de conexión de servicio de Microsoft Entra ID debe ser accesible desde la subred privada y pública del área de trabajo de Databricks. Para obtener más información, consulte Implementación de Azure Databricks en la red virtual de Azure (inyección de red virtual).

Obtenga un token de acceso para el repositorio en Azure DevOps:

  1. Vaya a dev.azure.com e inicie sesión en la organización de DevOps que contiene el repositorio al que desea conectar Azure Databricks.
  2. En la parte superior derecha, haga clic en el icono Configuración de usuario y seleccione Tokens de acceso personal.
  3. Haga clic en + Nuevo token.
  4. Escriba información en el formulario:
    1. Asigne un nombre al token.
    2. Seleccione el nombre de la organización, que es el nombre del repositorio.
    3. Establecer una fecha de expiración.
    4. Elija el ámbito necesario, como Acceso completo.
  5. Copie el token de acceso mostrado.
  6. Escriba este token en Azure Databricks en Configuración de usuario > Cuentas vinculadas.
  7. En Correo electrónico o nombre de usuario del proveedor de Git, escriba la dirección de correo electrónico que usa para iniciar sesión en la organización de DevOps.

Bitbucket

Nota:

Databricks no admite tokens de acceso de repositorio de Bitbucket ni tokens de acceso de proyecto.

En Bitbucket, siga estos pasos para crear una contraseña de aplicación que permita el acceso a los repositorios:

  1. Vaya a Bitbucket Cloud y cree una contraseña de aplicación que permita el acceso a los repositorios. Consulte la documentación de Bitbucket Cloud.
  2. Registre la contraseña de forma segura.
  3. En Azure Databricks, especifique esta contraseña en Configuración de usuario > Cuentas vinculadas.

Otros proveedores de Git

Si el proveedor de Git no aparece en la lista, seleccione “GitHub” y proporcione el PAT que obtuvo del proveedor de Git a menudo funciona, pero no está garantizado que funcione.