Configuración de carpetas de Git de Databricks (Repos)

Aprenda a configurar carpetas de Git de Databricks (anteriormente Repos) para el control de versiones. Una vez configuradas las carpetas de Git en Databricks, puede realizar operaciones comunes de Git como clonar, desproteger, confirmar, insertar, extraer y administrar ramas en ellos desde la interfaz de usuario de Databricks. También puede ver diferencias para los cambios a medida que desarrolla con cuadernos y archivos en Databricks.

Configuración de los valores de usuario

Las carpetas de Git de Databricks usan un token de acceso personal (PAT) o una credencial equivalente para autenticarse con el proveedor de Git para realizar operaciones como clonar, insertar, extraer, etc. Para usar carpetas de Git, primero debe agregar el nombre de usuario del proveedor de Git y PAT de Git a Databricks. Consulte Configurar las credenciales de Git y conectar un repositorio remoto a Azure Databricks.

Puede clonar repositorios remotos públicos sin credenciales de Git (un token de acceso personal y un nombre de usuario). Para modificar un repositorio remoto público o para clonar o modificar un repositorio remoto privado, debe tener un nombre de usuario de proveedor de Git y PAT con permisos de Escritura (o superiores) para el repositorio remoto.

Las carpetas de Git están habilitadas de forma predeterminada. Para obtener más información sobre cómo habilitar o deshabilitar la compatibilidad con carpetas de Git, vea Habilitar o deshabilitar la característica de carpeta Git de Databricks.

Agregar o editar credenciales de Git en Databricks

Importante

Las carpetas de Git de Databricks admiten solo una credencial de Git por usuario, por área de trabajo.

  1. Seleccione la flecha abajo situada junto al nombre de la cuenta en la parte superior derecha de la pantalla y, a continuación, seleccione Configuración.

  2. Seleccione la pestaña Cuentas vinculadas.

  3. Si va a agregar credenciales por primera vez, siga las instrucciones en pantalla.

    Si ha escrito previamente las credenciales, haga clic en Configuración>Editar y vaya al paso siguiente.

  4. En la lista desplegable Proveedor de Git, seleccione el nombre del proveedor.

  5. Escriba el nombre de usuario o el correo electrónico de Git.

  6. En el campo Token, agregue un token de acceso personal (PAT) u otras credenciales del proveedor de Git. Para más información, consulte Configurar las credenciales de Git y conectar un repositorio remoto a Azure Databricks

    Importante

    Databricks recomienda establecer una fecha de expiración para todos los tokens de acceso personal.

    Para Azure DevOps, si no escribe un token o una contraseña de aplicación, la integración de Git usa el token de Microsoft Entra ID (anteriormente Azure Active Directory) de manera predeterminada. Si especifica un token de acceso personal de Azure DevOps, la integración de Git lo usa en su lugar. Consulte Conexión a un repositorio de Azure DevOps mediante un token.

    Nota:

    Después de actualizar la contraseña de Azure, vuelva a autenticarse con Azure Databricks si necesita que la nueva autenticación funcione inmediatamente. Si no vuelve a autenticarse, es posible que la conexión de Azure DevOps no se valide durante hasta 24 horas.

    Si su organización tiene habilitado el inicio de sesión único de SAML en GitHub, autorice el token de acceso personal para el inicio de sesión único.

  7. Escriba el nombre de usuario en el campo Nombre de usuario del proveedor de Git.

  8. Haga clic en Save(Guardar).

También puede guardar un token y un nombre de usuario de PAT de Git en Azure Databricks mediante API de Databricks Repos.

Si no puede clonar el repositorio y usa Azure DevOps con la autenticación de Microsoft Entra ID, consulte Problema con una directiva de acceso condicional (CAP) para Microsoft Entra ID (anteriormente Azure Active Directory).

Conectividad de red entre carpetas de Git de Databricks y un proveedor de Git

Las carpetas de Git necesitan conectividad de red al proveedor de Git para funcionar. Normalmente, esto se hace a través de Internet y funciona de inmediato. Sin embargo, es posible que tenga restricciones adicionales en el proveedor de Git para controlar el acceso. Por ejemplo, es posible que tenga una lista de direcciones IP permitidas en su lugar o que hospede su propio servidor Git local mediante servicios como GitHub Enterprise (GHE), Bitbucket Server (BBS) o Gitlab Autoadministrado. En función del hospedaje y la configuración de la red, es posible que el servidor Git no sea accesible a través de Internet.

Nota:

  • Si el servidor de Git fuera accesible desde Internet, pero tuviera una lista de direcciones IP permitidas como, por ejemplo, las listas de permitidos de GitHub, se deberán agregar las direcciones IP de NAT del plano de control de Azure Databricks a la lista de direcciones IP permitidas del servidor de Git. Consulte las regiones de Azure Databricks para obtener una lista de las direcciones IP de NAT del plano de control por región. Use la dirección IP de la región en la que se encuentra el área de trabajo de Azure Databricks.
  • Si hospeda de forma privada un servidor Git, lea Configuración de la conectividad de Git privada para carpetas de Git (Repos) de Databricks o póngase en contacto con el equipo de la cuenta de Azure Databricks para obtener instrucciones de incorporación para el acceso.

Características de seguridad en carpetas de Git

Las carpetas de Git de Databricks tienen muchas características de seguridad. En las secciones siguientes se explica su configuración y uso:

  • Uso de credenciales de Git cifradas
  • Una lista de permitidos
  • Control de acceso al área de trabajo
  • Registro de auditoría
  • Detección de secretos

Traiga su propia clave: cifrado de credenciales de Git

Puede usar Azure Key Vault para cifrar un token de acceso personal (PAT) de Git u otra credencial de Git. El uso de una clave de un servicio de cifrado se conoce como clave administrada por el cliente (CMK) o traiga su propia clave (BYOK).

Para obtener más información, consulte Cifrado mediante claves administradas por el cliente.

Restricción del uso a direcciones URL en una lista de permitidos

Si usa Microsoft Entra ID para autenticarse con Azure DevOps, la lista de permitidos predeterminada restringe las direcciones URL de Git a:

  • dev.azure.com
  • visualstudio.com

Para AAD con CNAMES personalizados o alias de URL de Git, el administrador del área de trabajo puede configurar una lista de permitidos personalizada como se muestra en los siguientes pasos. Si usas una lista de permitidos personalizada, el administrador del área de trabajo debe agregar estas URL si quieres trabajar con ellas: dev.azure.com y visualstudio.com.

Un administrador del área de trabajo puede limitar los repositorios remotos desde los que los usuarios pueden clonar y en los que pueden hacer confirmación e inserción. Esto ayuda a evitar la filtración del código, por ejemplo, los usuarios no pueden insertar código en un repositorio arbitrario si ha activado las restricciones de lista de permitidos. También puede impedir que los usuarios usen código sin licencia mediante la restricción de la operación de clonación a una lista de repositorios permitidos.

Para configurar una lista de permitidos:

  1. Vaya a la página Configuración.
  2. Haga clic en la pestaña Administrador del área de trabajo (está abierta de forma predeterminada).
  3. En la sección Desarrollo, elija una opción de la Dirección URL de Git para permitir permiso de lista:
    • Deshabilitado (sin restricciones): no hay comprobaciones en la lista de permitidos.
    • Restricción de la clonación, confirmación e inserción en repositorios de Git permitidos: Las operaciones de clonación, confirmación e inserción solo se permiten para las direcciones URL del repositorio en la lista de permitidos.
    • Restringir solo la inserción y confirmación a repositorios de Git permitidos: Las operaciones de confirmación e inserción solo se permiten para las direcciones URL del repositorio en la lista de permitidos. Las operaciones de clonación y extracción no están restringidas.

Panel Desarrollo en Configuración de administración, que se usa para establecer el acceso de Git de usuario

  1. Haga clic en el botón Editar situado junto a la Lista de direcciones URL de Git permitida: Lista vacía y escriba una lista separada por comas de prefijos de dirección URL.

Botón Editar lista de permitidos en la configuración del administrador de desarrollo

  1. Haga clic en Save(Guardar).

Nota:

  • La lista que guarda sobrescribe el conjunto existente de prefijos de dirección URL guardados.
  • Los cambios pueden tardar hasta 15 minutos en surtir efecto.

Permitir el acceso a todos los repositorios

Para deshabilitar una lista de permitidos existente y permitir el acceso a todos los repositorios:

  1. Vaya a la página Configuración.
  2. Haga clic en la pestaña Administrador del área de trabajo.
  3. En la sección Desarrollo, en Dirección URL de Git permiso de lista permitido: seleccione Deshabilitar (sin restricciones).

Controlar el acceso a un repositorio en el área de trabajo

Nota:

El control de acceso solo está disponible en el plan Premium.

Establezca permisos para que un repositorio controle el acceso. Los permisos de un repositorio se aplican a todo el contenido de ese repositorio. Puedes asignar cinco niveles de permisos a archivos: NO PERMISSIONS, CAN READ, CAN RUN, CAN EDIT y CAN MANAGE.

Para obtener más información sobre los permisos de carpeta de Git, vea ACL de carpetas de Git.

(Opcional) Configuración de un proxy para servidores Git empresariales

Si su empresa usa un servicio Git empresarial local, como GitHub Enterprise o Azure DevOps Server, puede usar el Proxy de Git Server de Databricks para conectar las áreas de trabajo de Databricks a los repositorios que sirve.

Registro de auditoría

Cuando el registro de auditoría está habilitado, los eventos de auditoría se registran al interactuar con un repositorio de Git. Por ejemplo, se registra un evento de auditoría al crear, actualizar o eliminar una carpeta de Git, al enumerar todas las carpetas de Git asociadas a un área de trabajo y al sincronizar los cambios entre la carpeta Git y el repositorio de Git remoto.

Detección de secretos

Las carpetas de Git examinan el código de identificadores de clave de acceso que comienzan con el prefijo AKIA y advierten al usuario antes de confirmarlo.

Uso de un archivo de configuración de repositorio

Puede agregar la configuración de cada cuaderno al repositorio en un archivo .databricks/commit_outputs que cree manualmente.

Especifique el cuaderno en el que quiere incluir salidas mediante patrones similares a los patrones de gitignore.

Patrones para un archivo de configuración de repositorio

El archivo contiene patrones de ruta de acceso de archivo positivos y negativos. Los patrones de ruta de acceso de archivo incluyen la extensión de archivo del cuaderno, como .ipynb.

  • Los patrones positivos permiten la inclusión de salidas para cuadernos coincidentes.
  • Los patrones negativos deshabilitan la inclusión de salidas para cuadernos coincidentes.

Los patrones se evalúan para todos los cuadernos. Se omiten las rutas de acceso no válidas o las rutas de acceso que no se resuelven en cuadernos .ipynb.

Para incluir salidas de una ruta de acceso de cuadernofolder/innerfolder/notebook.ipynb, use los siguientes patrones:

**/*
folder/**
folder/innerfolder/note*

Para excluir salidas de un cuaderno, compruebe que ninguno de los patrones positivos coincida o agregue un patrón negativo en un lugar correcto del archivo de configuración. Los patrones negativos (excluir) comienzan por !:

!folder/innerfolder/*.ipynb
!folder/**/*.ipynb
!**/notebook.ipynb

Mover la carpeta Git a la papelera (eliminar)

Para eliminar una carpeta de Git del área de trabajo:

  1. Haga clic con el botón derecho en la carpeta Git y seleccione Mover a la papelera.

  2. En el cuadro de diálogo, escriba el nombre de la carpeta Git que desea eliminar. A continuación, haga clic en Confirmar y mover a la papelera.

    Confirmar el cuadro de diálogo Mover a la papelera.

Pasos siguientes