Administración de recursos de archivos en carpetas Git de Databricks

Artículo
04/22/2024

Las carpetas Git de Databricks sirven como clientes de Git para clones administrados por Databricks de repositorios de origen basados en Git, lo que le permite realizar un subconjunto de operaciones de Git en su contenido desde el área de trabajo. Como parte de esta integración de Git, los archivos almacenados en el repositorio remoto se ven como "recursos" en función de su tipo, con algunas limitaciones específicas de su tipo. Los archivos de cuaderno, en particular, tienen propiedades diferentes en función de su tipo. Lea este artículo para comprender cómo trabajar con recursos, especialmente cuadernos IPYNB, en carpetas Git.

Tipos de recursos admitidos

Solo algunas carpetas Git admiten determinados tipos de recursos de Azure Databricks. En este caso, "compatible" significa "se puede serializar, controlar la versión e insertarse en el repositorio de Git de respaldo".

Actualmente, los tipos de recursos admitidos son:

Tipo de recurso	Detalles
Archivo	Los archivos son datos serializados y pueden incluir cualquier cosa, desde bibliotecas a archivos binarios pasando por código o imágenes. Para obtener más información, consulte ¿Qué son los archivos del área de trabajo?
Cuaderno	Los cuadernos son específicamente los formatos de archivo de cuaderno que admite Databricks. Los cuadernos se consideran un tipo de recurso de Azure Databricks distinto de los archivos, ya que no se serializan. Las carpetas Git determinan un cuaderno por la extensión de archivo (como `.ipynb`) o por extensiones de archivo combinadas con un marcador especial en el contenido del archivo (por ejemplo, un comentario `# Databricks notebook source` al principio de archivos de origen `.py`).
Carpeta	Una carpeta es una estructura específica de Azure Databricks que representa información serializada sobre una agrupación lógica de archivos en Git. Como era de esperar, el usuario experimenta esto como una "carpeta" al ver una carpeta Git de Azure Databricks o acceder a ella con la CLI de Azure Databricks.

Los tipos de recursos de Azure Databricks que actualmente no se admiten en carpetas Git incluyen lo siguiente:

Consultas DBSQL
Alertas
Paneles (incluidos los paneles heredados)

Nota:

Puede mover los recursos no admitidos existentes a una carpeta Git, pero no puede volver a confirmar los cambios en estos recursos en el repositorio. No se pueden crear recursos no admitidos en una carpeta Git.

Formatos de cuaderno

Databricks considera dos tipos de formatos de cuaderno de alto nivel, específicos de Databricks: "source" e "ipynb". Cuando un usuario confirma un cuaderno en el formato "source", la plataforma de Databricks confirma un archivo plano con un sufijo de idioma, como .py, .sql, .scala o .r. Un cuaderno con formato "source" solo contiene código fuente y no contiene salidas, como las visualizaciones y las pantallas de tabla, que son los resultados de ejecutar el cuaderno.

Sin embargo, el formato “ipynb” tiene salidas asociadas y esos artefactos se insertan automáticamente en el repositorio de Git que respalda la carpeta de Git al insertar el cuaderno .ipynb que los generó. Si desea confirmar salidas junto con el código, use el formato del cuaderno “ipynb” y la configuración para permitir que un usuario confirme las salidas generadas. Como resultado, “ipynb” también admite una mejor experiencia de visualización en Databricks para cuadernos insertados en repositorios de Git remotos a través de carpetas Git.

Formato source del cuaderno	Detalles
source	Puede ser cualquier archivo de código con un sufijo de archivo estándar que señale el lenguaje de código, como `.py`, `.scala`, `.r` y `.sql`. Los cuadernos “lsource” se tratan como archivos de texto y no incluirán ninguna salida asociada al confirmarse en un repositorio de Git.
ipynb	Los archivos “ipynb” terminan con `.ipynb` y pueden, si están configurados, insertar salidas (como visualizaciones) desde la carpeta de Git de Databricks al repositorio de Git de respaldo. Un cuaderno `.ipnynb` puede contener código en cualquier lenguaje admitido por los cuadernos de Databricks (a pesar de la parte `py` de `.ipynb`).

Si quiere que las salidas se vuelvan a insertar en el repositorio después de ejecutar un cuaderno, use un cuaderno .ipynb (Jupyter). Si solo desea ejecutar el cuaderno y administrarlo en Git, use un formato “source”, como .py.

Para más información sobre los formatos de cuaderno admitidos, consulte Exportación e importación de cuadernos de Databricks.

Nota:

¿Qué son las “salidas”?

Las salidas son los resultados de ejecutar un cuaderno en la plataforma de Databricks, incluidas las visualizaciones y las pantallas de tabla.

¿Cómo se indica el formato que usa un cuaderno, aparte de la extensión de archivo?

En la parte superior de un cuaderno administrado por Databricks, normalmente hay un comentario de una sola línea que indica el formato. Por ejemplo, para un cuaderno “source” .py, verá una línea similar a la siguiente:

# Databricks notebook source

Para archivos .ipynb, el sufijo de archivo se usa para indicar que es el formato del cuaderno “ipynb”.

Cuadernos de IPYNB en carpetas Git de Databricks

La compatibilidad con cuadernos de Jupyter Notebook (archivos .ipynb) está disponible en carpetas Git. Puede clonar repositorios con cuadernos .ipynb, trabajar con ellos en el producto Databricks y, a continuación, confirmarlos e insertarlos como cuadernos .ipynb. Se conservan metadatos, como el panel del cuaderno. Los administradores pueden controlar si las salidas se pueden confirmar o no.

Permitir confirmar la salida del cuaderno `.ipynb`

De forma predeterminada, la configuración de administrador de carpetas Git no permite confirmar la salida del cuaderno .ipynb. Los administradores de áreas de trabajo pueden cambiar esta configuración:

Vaya a Configuración de administración > Área de trabajo.
En Carpetas Git > Permitir que las carpetas Git exportan salidas IPYNB, seleccione Permitir: se pueden activar las salidas IPYNB en.

Importante

Cuando se incluyen salidas, las configuraciones de visualización y panel se conservan con el formato de archivo .ipynb.

Controlar commits de artefactos de salida del cuaderno IPYNB

Al confirmar un archivo .ipynb, Databricks crea un archivo de configuración que le permite controlar cómo confirma las salidas: .databricks/commit_outputs.

Si tiene un archivo de cuaderno .ipynb, pero no tiene ningún archivo de configuración en el repositorio, abra el modal Estado del Git.
En el cuadro de diálogo notificación, haga clic en Crear archivo commit_outputs.

También puede generar archivos de configuración desde el menú Archivo. El menú Archivo tiene un control que permite actualizar automáticamente el archivo de configuración para especificar la inclusión o exclusión de salidas de un cuaderno específico.

En el menú Archivo, seleccione Commit de salidas de cuadernos.
En el cuadro de diálogo, confirme su elección para hacer "commit" en las salidas del cuaderno.

Conversión de un cuaderno de origen en IPYNB

Puede convertir un cuaderno de origen existente en una carpeta de Git en un cuaderno IPYNB a través de la interfaz de usuario de Azure Databricks.

Abra un cuaderno de código fuente en el área de trabajo.
Seleccione Archivo en el menú del área de trabajo y, a continuación, seleccione Cambiar formato de cuaderno [origen]. Si el cuaderno ya está en formato IPYNB, [source] será [ipynb] en el elemento de menú.
En el cuadro de diálogo modal, seleccione "Formato de cuaderno Jupyter (.ipynb)" y haga clic en Cambiar.

También puede:

Cree nuevos .ipynb cuadernos.
Ver diferencias como diferencias de código (cambios de código en celdas) o sin formato (los cambios de código se presentan como sintaxis JSON, que incluye salidas de cuaderno como metadatos).

Para obtener información sobre los tipos de cuadernos admitidos en Azure Databricks, lea Exportación e importación de cuadernos de Databricks.