Uso de código fuente controlado por versiones en un trabajo de Azure Databricks

Artículo
05/15/2024

Puede ejecutar trabajos mediante cuadernos o código de Python ubicado en un repositorio de Git remoto o una carpeta de Git de Databricks. Esta característica simplifica la creación y administración de trabajos de producción y automatiza la implementación continua:

No es necesario crear un repositorio de producción independiente en Azure Databricks, administrar sus permisos y mantenerlo actualizado.
Puede evitar cambios accidentales en un trabajo de producción, como las modificaciones locales en el repositorio de producción o en el cambio de rama.
El proceso de definición de trabajo tiene un único origen de verdad en el repositorio remoto y cada ejecución de trabajo está vinculado a un hash de confirmación.

Para usar código fuente en un repositorio Git remoto, debe usar la opción Configurar carpetas de Git de Databricks (Repos).

Importante

Los cuadernos creados por trabajos de Azure Databricks que se ejecutan desde repositorios de Git remotos son efímeros. No puede confiar en ellos para realizar un seguimiento de las ejecuciones, experimentos y modelos de MLflow. En este caso, use experimentos de MLflow independientes en su lugar.

Nota:

Si el trabajo se ejecuta con una entidad de servicio como identidad, puede configurar la entidad de servicio en la carpeta de Git que contiene el código fuente del trabajo. Consulte Uso de una entidad de servicio con carpetas de Git de Databricks.

Uso de un cuaderno desde un repositorio de Git remoto

Para crear una tarea mediante cuadernos ubicados en un repositorio de Git remoto:

Haga clic en Flujos de trabajo en la barra lateral y después en el botón o vaya a un trabajo existente y agregue una tarea nueva.
Si se trata de un trabajo nuevo, reemplace Add a name for your job… (Agregar un nombre para el trabajo…) por el nombre del trabajo.
Escriba un nombre para la tarea en el campo Nombre de la tarea.
En el menú desplegable Tipo, seleccione Notebook.
En el menú desplegable Origen, seleccione proveedor de Git y haga clic en Editar o Agregar una referencia de Git. En el cuadro de diálogo aparece Información de Git.
En el cuadro de diálogo Git Information (Información de Git), escriba los detalles del repositorio, incluida la dirección URL del repositorio, el proveedor de Git y la referencia de Git. Esta referencia de Git puede ser una rama, una etiqueta o una confirmación.

En Ruta de acceso, escriba una ruta de acceso relativa a la ubicación del cuaderno, como etl/notebooks/.

Cuando escriba la ruta de acceso relativa, no comience con / o ./ y no incluya la extensión de archivo del cuaderno, como .py. Por ejemplo, si la ruta de acceso absoluta del cuaderno al que desea acceder es /notebooks/covid_eda_raw.py, escriba notebooks/covid_eda_raw en el campo Ruta de acceso.
Haga clic en Crear.

Importante

Si trabaja con un cuaderno de Python directamente desde un repositorio Git de origen, la primera línea del archivo de origen del cuaderno debe ser # Databricks notebook source. En el caso de un cuaderno de Scala, la primera línea del archivo de origen debe ser // Databricks notebook source.

Uso de código de Python desde un repositorio de Git remoto

Para crear una tarea con código Python ubicados en un repositorio de Git remoto:

Haga clic en Flujos de trabajo en la barra lateral y después en el botón o vaya a un trabajo existente y agregue una tarea nueva.
Si se trata de un trabajo nuevo, reemplace Add a name for your job… (Agregar un nombre para el trabajo…) por el nombre del trabajo.
Escriba un nombre para la tarea en el campo Nombre de la tarea.
En el menú desplegable Tipo, seleccione script de Python.
En el menú desplegable Origen, seleccione proveedor de Git y haga clic en Editar o Agregar una referencia de Git. En el cuadro de diálogo aparece Información de Git.
En el cuadro de diálogo Git Information (Información de Git), escriba los detalles del repositorio, incluida la dirección URL del repositorio, el proveedor de Git y la referencia de Git. Esta referencia de Git puede ser una rama, una etiqueta o una confirmación.

En Ruta de acceso, escriba una ruta de acceso relativa a la ubicación del origen, como etl/python/python_etl.py.

Cuando escriba la ruta de acceso relativa, no comience con / o ./. Por ejemplo, si la ruta de acceso absoluta del código Python al que desea acceder es /python/covid_eda_raw.py, escriba python/covid_eda_raw.py en el campo Ruta de acceso.
Haga clic en Crear.

Al ver el historial de ejecución de una tarea que ejecuta un código Python almacenado en un repositorio Git remoto, el panel Detalles de ejecución de tareas incluye detalles de Git, incluido el SHA de confirmación asociado a la ejecución.

Uso de consultas SQL desde un repositorio de Git remoto

Nota:

Solo se admite una instrucción SQL en un archivo. No se permiten varias instrucciones SQL separadas por punto y coma (;).

Para ejecutar consultas almacenadas en archivos .sql ubicados en un repositorio Git remoto:

Haga clic en Flujos de trabajo en la barra lateral y después en el botón o vaya a un trabajo existente y agregue una tarea nueva.
Si se trata de un trabajo nuevo, reemplace Add a name for your job… (Agregar un nombre para el trabajo…) por el nombre del trabajo.
Escriba un nombre para la tarea en el campo Nombre de la tarea.
En el menú desplegable Tipo, seleccione SQL.
En el menú desplegable tarea SQL, seleccione Archivo.
En el menú desplegable Origen, seleccione proveedor de Git y haga clic en Editar o Agregar una referencia de Git. En el cuadro de diálogo aparece Información de Git.
En el cuadro de diálogo Git Information (Información de Git), escriba los detalles del repositorio, incluida la dirección URL del repositorio, el proveedor de Git y la referencia de Git. Esta referencia de Git puede ser una rama, una etiqueta o una confirmación.

En Ruta de acceso, escriba una ruta de acceso relativa a la ubicación del origen, como queries/sql/myquery.sql.

Cuando escriba la ruta de acceso relativa, no comience con / o ./. Por ejemplo, si la ruta de acceso absoluta de la consulta SQL a la que desea acceder es /sql/myqeury.sql, escriba sql/myquery.sql en el campo Ruta de acceso.
Seleccione un almacén de SQL. Debe seleccionar un almacén SQL sin servidor o un almacén SQL pro.
Haga clic en Crear.

Adición de tareas adicionales desde un repositorio de Git remoto

Las tareas adicionales que están en un trabajo multitarea pueden hacer referencia a la misma confirmación en el repositorio remoto de una de las maneras siguientes:

sha de $branch/head cuando git_branch se ha establecido
sha de $tag cuando git_tag se ha establecido
el valor de git_commit

Puede combinar tareas de cuaderno y Python en un trabajo de Azure Databricks, pero deben usar la misma referencia de Git.

Uso de una carpeta de Git de Databricks

Si prefiere usar la interfaz de usuario de Azure Databricks para controlar la versión del código fuente, clone el repositorio en una carpeta de Git de Databricks. Para más información, consulte Opción 2: Configuración de una automatización de Git y una carpeta Git de producción.

Para agregar un cuaderno o un código de Python desde una carpeta Git en una tarea de trabajo, en el menú desplegable Origen, seleccione Área de trabajo y escriba la ruta de acceso al cuaderno o al código Python en Ruta de acceso.

Acceso a cuadernos desde un IDE

Si necesita acceder a cuadernos desde un entorno de desarrollo integrado, asegúrese de que tiene el comentario # Databricks notebook source en la parte superior del archivo de código fuente del cuaderno. Para distinguir entre un archivo de Python normal y un cuaderno en lenguaje Python de Azure Databricks exportado en formato de código fuente, Databricks agrega la línea # Databricks notebook source en la parte superior del archivo de código fuente del cuaderno. Al importar el cuaderno, Azure Databricks lo reconoce e importa como un cuaderno, no como un módulo de Python.

Solución de problemas

Nota:

Los trabajos basados en Git no admiten el acceso de escritura a los archivos del área de trabajo. Para escribir datos en una ubicación de almacenamiento temporal, use el almacenamiento del controlador. Para escribir datos persistentes desde un trabajo de Git, use un volumen de UC o DBFS.

Mensaje de error:

Run result unavailable: job failed with error message Notebook not found: path-to-your-notebook

Causas posibles:

Falta el comentario # Databricks notebook source en la parte superior del archivo de código fuente del cuaderno o, en el comentario notebook hay mayúsculas cuando debe haber minúsculas n.

Share via

Uso de código fuente controlado por versiones en un trabajo de Azure Databricks

Uso de un cuaderno desde un repositorio de Git remoto

Uso de código de Python desde un repositorio de Git remoto

Uso de consultas SQL desde un repositorio de Git remoto

Adición de tareas adicionales desde un repositorio de Git remoto

Uso de una carpeta de Git de Databricks

Acceso a cuadernos desde un IDE

Solución de problemas

Comentarios

Comentarios

Recursos adicionales