Configurar las credenciales de Git para conectar un repositorio remoto a Azure Databricks

En este artículo se describe cómo configurar las credenciales de Git en Databricks para que pueda conectar un repositorio remoto a Databricks Repos.

Para obtener una lista de los proveedores de Git admitidos (en la nube y en el entorno local), lea Proveedores de Git compatibles.

GitHub y GitHub AE

La siguiente información se aplica a los usuarios de GitHub y GitHub AE.

¿Por qué usar la aplicación de GitHub de Databricks en lugar de un PAT?

Databricks Repos le permite elegir la aplicación de GitHub de Databricks para la autenticación de usuarios en lugar de tokens de acceso personal si utiliza una cuenta de GitHub hospedada. El uso de la aplicación de GitHub ofrece las siguientes ventajas con respecto a los tokens de acceso personal:

  • Utiliza OAuth 2.0 para la autenticación de usuarios. El tráfico del repositorio OAuth 2.0 está encriptado para una mayor seguridad.
  • Es más fácil de integrar (consulte los pasos siguientes) y no requiere un seguimiento individual de las fichas.
  • La renovación de los tokens se controla de forma automática.
  • La integración puede limitarse a repositorios Git específicos, lo que permite un control más granular del acceso.

Importante

Según la integración estándar de OAuth 2.0, Databricks almacena los tokens de acceso y actualización de un usuario; el resto del control de acceso lo controla GitHub. Los tokens de acceso y actualización siguen las reglas de expiración predeterminadas de GitHub con tokens de acceso que expiran a las 8 horas (lo que minimiza el riesgo en caso de pérdida de credenciales). Los tokens de actualización tienen una duración de 6 meses si no se han usado. Las credenciales vinculadas expiran tras 6 meses de inactividad, lo que requiere que el usuario vuelva a configurarlas.

Opcionalmente, puede cifrar tokens de Databricks mediante claves administradas por el cliente (CMK).

Nota:

  • Esta característica no es compatible en GitHub Enterprise Server. Uso de un token de acceso personal en su lugar.

En Azure Databricks, vincule su cuenta de GitHub en la página de configuración del usuario:

  1. En la esquina superior derecha de cualquier página, haga clic en el nombre de usuario y, a continuación, seleccione Configuración de usuario.

  2. Haga clic en la pestaña Cuentas vinculadas.

  3. Cambie el proveedor a GitHub, seleccione Vincular cuenta de Git y haga clic en Vincular.

    Link GitHub account in Databricks

  4. Aparece la página de autorización de aplicaciones de GitHub de Databricks. Autorice a la aplicación para completar la configuración. La autorización de la aplicación permite a Databricks actuar en su nombre al realizar operaciones de Git en Repos (como clonar un repositorio). Consulte la documentación de GitHub para obtener más información sobre la autorización de aplicaciones.

    Databricks GitHub app authorization page

  5. Para permitir el acceso a repositorios de GitHub, siga los pasos siguientes para instalar y configurar la aplicación de GitHub de Databricks.

Instalación y configuración de la aplicación de GitHub de Databricks para permitir el acceso a los repositorios

Debe instalar y configurar la aplicación de GitHub de Databricks en los repositorios de GitHub a los que quiera acceder desde Databricks Repos. Consulte la documentación de GitHub para obtener más información sobre la instalación de aplicaciones.

  1. Abra la página de instalación de aplicaciones de GitHub de Databricks.

  2. Seleccione la cuenta propietaria de los repositorios a los que desee acceder.

    Databricks GitHub app installation page

  3. Si no es propietario de la cuenta, debe indicar a este que instale y configure la aplicación en su lugar.

  4. Si es el propietario de la cuenta, instale la aplicación. La instalación de la aplicación proporciona acceso de lectura y escritura al código. Solo se accede al código en nombre de los usuarios (por ejemplo, cuando un usuario clone un repositorio en Databricks Repos).

  5. Opcionalmente, puede conceder acceso solo a un subconjunto de repositorios si selecciona la opción Solo seleccionar repositorios.

Conexión a un repositorio de GitHub mediante un token de acceso personal

En GitHub, siga estos pasos para crear un token de acceso personal que permita el acceso a los repositorios:

  1. En la esquina superior derecha de cualquier página, haga clic en la foto del perfil y, luego, en Settings (Configuración).
  2. Haga clic en Developer settings (Configuración del desarrollador).
  3. Haga clic en la pestaña Personal Access Tokens (Tokens de acceso personal).
  4. Haga clic en el botón Generar nuevo token.
  5. Escriba una descripción del token.
  6. Seleccione los ámbitos del repositorio y del flujo de trabajo y haga clic en el botón Generar token. El ámbito del flujo de trabajo es necesario en caso de que el repositorio tenga flujos de trabajo de Acciones de GitHub.
  7. Copie el token en el portapapeles. Escriba este token en Azure Databricks en Configuración de usuario > Cuentas vinculadas.

Para usar el inicio de sesión único, consulte Autorización de un token de acceso personal para su uso con el inicio de sesión único de SAML.

Conectarse a un repositorio de GitHub mediante un token de acceso personal específico

En GitHub, siga estos pasos para crear un PAT específico que permita el acceso a los repositorios:

  1. En la esquina superior derecha de cualquier página, haga clic en la foto del perfil y, luego, en Settings (Configuración).

  2. Haga clic en Developer settings (Configuración del desarrollador).

  3. Haga clic en la pestaña Tokens específicos del panel izquierdo.

  4. Haga clic en el botón Generar nuevo token en la esquina superior derecha de la página para abrir la página Nuevo token de acceso personal específico.

    Generate GitHub token

  5. Configure el nuevo token específico a partir de los valores siguientes:

    • Nombre de token: proporcione un nombre de token único. Anótelo en algún sitio para que no se le olvide ni lo pierda.
    • Expiración: seleccione el período de tiempo para la expiración del token. El valor predeterminado es "30 días".
    • Descripción: agregue texto corto que describa el propósito del token.
    • Propietario del recurso: el valor predeterminado es el id. de GitHub actual. También puede establecerlo en otro id. de cuenta o en una organización de GitHub.
    • En Acceso al repositorio, elija el ámbito de acceso para el token. Como procedimiento recomendado, seleccione solo los repositorios que va a usar para el control de versiones de carpetas de Git.
    • En Permisos, configure los niveles de acceso específicos concedidos por este token para los repositorios y la cuenta con la que trabajará. Para obtener más información sobre los grupos de permisos, lea Permisos necesarios para los tokens de acceso personal específicos en la documentación de GitHub.
  6. Haga clic en el botón Generar token.

  7. Copie el token en el portapapeles. Escriba este token en Azure Databricks en Configuración de usuario > Cuentas vinculadas.

GitLab

En GitLab, siga estos pasos para crear un token de acceso personal que permita el acceso a los repositorios:

  1. En GitLab, haga clic en el icono de usuario en la esquina superior izquierda de la pantalla y seleccione Preferencias.

  2. Haga clic Tokens de acceso en la barra lateral.

  3. Haga clic en Agregar nuevo token en la sección Tokens de acceso personal de la página.

    Generate GitLab token

  4. Escriba un nombre para el token.

  5. Seleccione los ámbitos específicos para proporcionar acceso activando las casillas de los niveles de permisos deseados. Para obtener más información sobre las opciones de ámbito, lea la documentación de GitLab sobre ámbitos PAT.

  6. Haga clic en Crear token de acceso personal.

  7. Copie el token en el portapapeles. Escriba este token en Azure Databricks en Configuración de usuario > Cuentas vinculadas.

Consulte la documentación de GitLab para obtener más información sobre cómo crear tokens de acceso personal.

GitLab también proporciona compatibilidad para acceso específico mediante "Tokens de acceso de proyecto". Puede usar tokens de acceso del proyecto para definir el ámbito del acceso a un proyecto GitLab. Para obtener más información, lea la documentación de GitLab sobre los tokens de acceso de proyecto.

Azure DevOps Services

Conéctese a un repositorio de Azure DevOps mediante Microsoft Entra ID (anteriormente Azure Active Directory)

La autenticación con Azure DevOps Services se realiza automáticamente al autenticarse mediante Microsoft Entra ID. La organización de Azure DevOps Services debe estar vinculada al mismo inquilino de Microsoft Entra ID que Databricks. El punto de conexión de servicio de Microsoft Entra ID debe ser accesible desde ambas subredes del área de trabajo de Databricks, la privada y la pública. Para más información, consulte _.

En Azure Databricks, establezca Azure DevOps Services como el proveedor de Git en la página Configuración de usuario:

  1. En la esquina superior derecha de cualquier página, haga clic en el nombre de usuario y, a continuación, seleccione Configuración de usuario.

  2. Haga clic en la pestaña Cuentas vinculadas.

  3. Establezca Azure DevOps Services como proveedor.

    Azure DevOps Services GitHub provider

Conexión a un repositorio de Azure DevOps mediante un token

En los siguientes pasos, se muestra cómo conectar un repositorio de Azure Databricks a un repositorio de Azure DevOps cuando no están en el mismo inquilino de Microsoft Entra ID.

El punto de conexión de servicio de Microsoft Entra ID debe ser accesible desde la subred privada y pública del área de trabajo de Databricks. Para más información, consulte _.

Obtenga un token de acceso para el repositorio en Azure DevOps:

  1. Vaya a dev.azure.com e inicie sesión en la organización de DevOps que contiene el repositorio al que desea conectar Azure Databricks.
  2. En la parte superior derecha, haga clic en el icono Configuración de usuario y seleccione Tokens de acceso personal.
  3. Haga clic en + Nuevo token.
  4. Escriba información en el formulario:
    1. Asigne un nombre al token.
    2. Seleccione el nombre de la organización, que es el nombre del repositorio.
    3. Establecer una fecha de expiración.
    4. Elija el ámbito necesario, como Acceso completo.
  5. Copie el token de acceso mostrado.
  6. Escriba este token en Azure Databricks en Configuración de usuario > Cuentas vinculadas.
  7. En Correo electrónico o nombre de usuario del proveedor de Git, escriba la dirección de correo electrónico que usa para iniciar sesión en la organización de DevOps.

Bitbucket

Nota:

Databricks no admite tokens de acceso de repositorio de Bitbucket ni tokens de acceso de proyecto.

En Bitbucket, siga estos pasos para crear una contraseña de aplicación que permita el acceso a los repositorios:

  1. Vaya a Bitbucket Cloud y cree una contraseña de aplicación que permita el acceso a los repositorios. Consulte la documentación de Bitbucket Cloud.
  2. Registre la contraseña de forma segura.
  3. En Azure Databricks, especifique esta contraseña en Configuración de usuario > Cuentas vinculadas.