Integración de Git con Databricks Repos

Databricks Repos es un cliente de Git visual y API en Azure Databricks. Admite operaciones comunes de Git, como la clonación de un repositorio, la confirmación e inserción, la extracción, la administración de ramas y la comparación visual de diferencias al confirmar.

En Repos, puede desarrollar código en cuadernos u otros archivos y seguir los procedimientos recomendados de desarrollo de código de ingeniería y ciencia de datos mediante Git para el control de versiones, la colaboración y la CI/CD.

Nota:

Las carpetas de Git (Repos) están diseñadas principalmente para crear y colaborar en flujos de trabajo.

¿Qué se puede hacer con Databricks Repos?

Databricks Repos proporciona control de código fuente para los proyectos tanto de datos como de inteligencia artificial mediante la integración con proveedores de Git.

En Databricks Repos, se puede usar la funcionalidad de Git para:

  • Clonar, insertar y extraer elementos de un repositorio remoto de Git.
  • Cree y administre ramas para el trabajo de desarrollo, incluida la combinación, la rebasificación y la resolución de conflictos.
  • Cree cuadernos (incluidos los cuadernos IPYNB) y edítelos junto con otros archivos.
  • Compare visualmente las diferencias al confirmar y resolver conflictos de combinación.

Para obtener instrucciones paso a paso, consulte Ejecución de operaciones de Git en repositorios de Databricks.

Nota:

Databricks Repos también tiene una API que puede integrar con la canalización de CI/CD. Por ejemplo, puede actualizar mediante programación un repositorio de Databricks para que siempre tenga la versión más reciente del código. Para obtener información sobre los procedimientos recomendados para el desarrollo de código mediante Databricks Repos, consulte Técnicas de CI/CD con repositorios de Databricks y Git.

Para obtener información sobre los tipos de cuadernos admitidos en Azure Databricks, consulte Exportación e importación de cuadernos de Databricks.

Proveedores de Git admitidos

Las carpetas de Git de Databricks están respaldadas por un repositorio de Git integrado. El repositorio se puede hospedar en cualquiera de los proveedores de Git empresariales y en la nube que se enumeran en la sección siguiente.

Nota:

Qué es un "proveedor de Git"?

Un "proveedor de Git" es el servicio específico (denominado) que hospeda un modelo de control de código fuente basado en Git. Las plataformas de control de código fuente basadas en Git se hospedan de dos maneras: como servicio en la nube hospedado por la empresa en desarrollo o como servicio local instalado y administrado por su propia empresa en su propio hardware. Muchos proveedores de Git como GitHub, Microsoft, GitLab y Atlassian proporcionan servicios de Git locales y SaaS basados en la nube (a veces denominados "autoadministrados").

Al elegir el proveedor de Git durante la configuración, debe tener en cuenta las diferencias entre los proveedores de Git locales y en la nube (SaaS). Las soluciones locales normalmente se hospedan detrás de una VPN de empresa y es posible que no sean accesibles desde Internet. Normalmente, los proveedores de Git locales tienen un nombre que termina en "Server" (Servidor) o "Self-Managed" (Autoadministrado), pero si no está seguro, póngase en contacto con los administradores de la empresa o revise la documentación del proveedor de Git.

Nota:

Si usa "GitHub" como proveedor y aún no está seguro de si está utilizando la versión en la nube o la local, consulte Acerca de GitHub Enterprise Server en los documentos de GitHub.

Proveedores de Git en la nube compatibles con Databricks

  • GitHub, GitHub AE y GitHub Enterprise Cloud
  • Atlassian BitBucket Cloud
  • GitLab y GitLab EE
  • Microsoft Azure DevOps (Azure Repos)

Proveedores de Git locales compatibles con Databricks

  • Servidor de GitHub Enterprise
  • Atlassian BitBucket Server y Data Center
  • GitLab autoadministrado
  • Microsoft Azure DevOps Server: un administrador del área de trabajo debe permitir explícitamente la lista de prefijos de dominio de dirección URL para Microsoft Azure DevOps Server si la dirección URL no coincide con dev.azure.com/* o visualstudio.com/*. Para más información, consulte Restringir el uso a las direcciones URL en una lista de permitidos

Si va a integrar un repositorio de Git local que no es accesible desde Internet, también se debe instalar un proxy para las solicitudes de autenticación de Git en la VPN de la empresa. Para obtener más información, consulte Configurar conectividad de Git privada para repositorios de Databricks.

Para obtener información sobre cómo usar tokens de acceso con el proveedor de Git, consulte Configuración de credenciales de Git y conectar un repositorio remoto a Azure Databricks.

Recursos para la integración de Git

Use la CLI de Databricks 2.0 para la integración de Git con Azure Databricks:

Lea los documentos de referencia siguientes:

Pasos siguientes