Compartir a través de


Implementación y control de código fuente de cuaderno

En este artículo se explica cómo usar la integración de Git y las canalizaciones de implementación con cuadernos en Microsoft Fabric. Aprenderá a conectar un repositorio, administrar el código fuente del cuaderno e implementar cuadernos en entornos.

Antes de comenzar

  • Conecte el área de trabajo a Git antes de completar los pasos de control de código fuente del cuaderno. Para obtener instrucciones de configuración, consulte Introducción a la integración de Git.
  • Cree reglas de implementación de cuadernos en la fase de destino (por ejemplo, Prueba o Producción), y no en Desarrollo.
  • Para crear reglas de implementación, debe ser el propietario del elemento.

Integración de Notebook con Git

Los cuadernos de Fabric admiten la integración de Git con Azure DevOps para el control de código fuente. Puede crear versiones de los cambios del cuaderno, colaborar mediante ramas y administrar las actualizaciones del ciclo de vida de los cuadernos directamente en Fabric.

Al realizar un commit de un cuaderno junto con sus dependencias adjuntas (por ejemplo, entornos), la sincronización con otra área de trabajo conserva estas vinculaciones. Fabric enlaza automáticamente el cuaderno a los recursos correspondientes del área de trabajo nueva.

Para admitir este comportamiento, Fabric almacena identificadores lógicos para los recursos adjuntos en los metadatos del cuaderno. Como resultado, los diffs de Git pueden mostrar actualizaciones de metadatos de identificadores físicos a identificadores lógicos.

Nota:

Las actualizaciones de metadatos relacionadas con los identificadores lógicos y el enlace automático pueden aparecer en vistas de diferencias de Git incluso cuando el código del cuaderno no cambia.

Configuración de una conexión

Desde la configuración del área de trabajo, configure una conexión al repositorio para confirmar y sincronizar los cambios. Para obtener instrucciones de configuración, consulte Introducción a la integración de Git. Después de conectarse, los elementos, incluidos los cuadernos, aparecen en el panel Control de código fuente .

Captura de pantalla del panel de control de código fuente del área de trabajo.

Después de confirmar las instancias del cuaderno en el repositorio de Git, puede ver la estructura de carpetas del cuaderno en el repositorio.

Ahora puede realizar operaciones de Git, como Crear solicitud de incorporación de cambios.

Representación del cuaderno en Git

En el texto siguiente se muestra la estructura de archivos de un elemento de cuaderno en el repositorio de Git:

.
├── Notebook_1.Notebook/
│   ├── Resources/ (Optional)
│   │   └── builtin/
│   │       ├── large_dataset.parquet
│   │       └── model_output.parquet
│   ├── .platform
│   ├── fs-settings.json (Optional)
│   ├── notebook-content.py
│   └── notebook-settings.json (Optional)
└── Readme.md
.
├── Notebook_2.Notebook/
│   ├── Resources/ (Optional)
│   │   └── builtin/
│   │       ├── large_dataset.parquet
│   │       └── model_output.parquet
│   ├── .platform
│   ├── fs-settings.json (Optional)
│   ├── notebook-content.sql
│   └── notebook-settings.json (Optional)
└── Readme.md

Al confirmar un elemento de bloc de notas, Fabric lo almacena como archivos de origen en lugar de un archivo estándar .ipynb . Por ejemplo, un cuaderno de PySpark se almacena como notebook-content.py. Este formato es más fácil de revisar al comparar diferencias en Git.

El archivo fuente mantiene los metadatos del cuaderno (incluido el lakehouse predeterminado y el entorno adjunto), las celdas de markdown y las celdas de código como secciones independientes. Fabric utiliza esta estructura para reconstruir el notebook cuando lo sincronizas de nuevo con un área de trabajo.

La salida de la celda del notebook no se incluye al sincronizar con Git.

En la captura de pantalla siguiente se muestra el formato de origen en el repositorio de Git:

Captura de pantalla del formato de contenido del repositorio Git del notebook.

Nota:

Mantenga los cuadernos y sus entornos dependientes en la misma área de trabajo y controle las versiones de los elementos de cuaderno y entorno en Git. Fabric mapea estas relaciones cuando sincronizas con nuevos espacios de trabajo.

El identificador predeterminado de Lakehouse permanece en los metadatos del cuaderno cuando se sincroniza desde el repositorio a un área de trabajo de Fabric. Si es necesario, enlace manualmente el cuaderno al nuevo elemento lakehouse. Para obtener más información, consulte Integración con Git de Lakehouse.

Configuración de Git para Notebook

El panel de configuración de Git le permite controlar cómo interactúan los cuadernos con el control de código fuente, incluidas las opciones de enlace de Git y la administración de los archivos de carpeta resources que se incluyen en las confirmaciones.

Nota:

No edite notebook-settings.json en el repositorio de Git para controlar el enlace automático o los recursos de Git. Administre esta configuración a través de la página de configuración del cuaderno en su lugar.

Vinculación automática de Lakehouse en Git

El enlace automático de Lakehouse permite a Fabric resolver el lakehouse predeterminado correcto para cada espacio de trabajo conectado a Git. Esto reduce el reenlazamiento manual al mover notebooks entre áreas de trabajo de desarrollo, pruebas y producción.

Habilite esta característica desde la configuración de Notebook. Después de habilitarlo, Fabric crea notebook-settings.json en el repositorio y administra este archivo automáticamente. No edite este archivo manualmente.

Captura de pantalla del enlace git de notebook.

Nota:

La integración de Git de notebook admite la conservación de la relación de enlace entre cuadernos y sus almacenes de lago conectados al sincronizar entre áreas de trabajo. Al sincronizar un cuaderno con otra área de trabajo, puede elegir si se enlaza al lakehouse en el área de trabajo de origen o al lakehouse en la nueva área de trabajo. En los cuadernos que ya están versionados en Git, el ID físico del lakehouse asociado en los metadatos del cuaderno se reemplaza por un ID lógico. Este cambio puede aparecer en la vista de diferencias de Git.

Compatibilidad de carpetas de recursos de cuadernos en Git

Nota:

Actualmente no se admiten la carpeta Recursos del entorno, la integración con las canalizaciones de implementación y las API públicas.

La carpeta de Recursos integrada se puede almacenar en Git para que los scripts y los archivos de configuración se versionan con el cuaderno.

Esta característica es opcional y desactivada de forma predeterminada. Puede habilitarlo desde la Configuración del Notebook en la sección de Configuración de Git. Después de habilitarlo, los archivos de la carpeta Resources se incluyen en confirmaciones. Dado que las confirmaciones tienen un límite de 50 MB, use un archivo .gitignore o las reglas de Git para excluir archivos o carpetas grandes o temporales.

Captura de pantalla de los recursos del cuaderno en la configuración de Git.

Nota:

Solo el .gitignore en la carpeta raíz de recursos incorporados surte efecto.

Después de configurar las reglas de Git y confirmar los cambios, Fabric guarda las reglas en fs-settings.json el repositorio. Fabric genera y administra este archivo para mantener la configuración del repositorio coherente. Tampoco se recomienda editar este archivo directamente en el repositorio de Git.

Captura de pantalla de la estructura de recursos del cuaderno en la configuración de Git.

Cuaderno en canalizaciones de implementación

Use canalizaciones de implementación para promover los cambios de notebook en fases como Desarrollo, Prueba y Producción. Valide las actualizaciones en fases anteriores antes de promoverlas a producción.

La implementación de notebooks admite el enlace automático para el lakehouse predeterminado y el entorno adjunto cuando los elementos dependientes están en la misma área de trabajo. Durante la implementación, Fabric puede volver a enlazar estas dependencias a los elementos correspondientes del área de trabajo de destino. Los cambios de metadatos pueden aparecer en la vista de diferencias.

Si necesita un lakehouse predeterminado de etapa específica, configure una regla de implementación para ignorar el enlace automático.

La nueva interfaz de usuario del pipeline de implementación se utiliza actualmente en este artículo. Puede cambiar a la interfaz de usuario anterior desactivando la canalización de implementación nueva.

Nota:

Problema conocido: el estado de las celdas bloqueadas en los cuadernos no se conserva durante la implementación.

Siga estos pasos para implementar cuadernos a través de una canalización de implementación.

  1. Cree una canalización de implementación o abra una existente. Para más información, consulte Introducción a las canalizaciones de implementación.

  2. Asigne áreas de trabajo a distintas fases según los objetivos de implementación.

  3. Seleccione, vea y compare elementos, incluidos cuadernos, entre fases. El distintivo resaltado muestra el número de elementos modificados entre la fase anterior y la fase actual.

    Captura de pantalla del notebook en la canalización de implementación.

  4. Seleccione Implementar para promover cuadernos en las fases Desarrollo, Prueba, y Producción.

    Captura de pantalla de la selección de elementos e implementación

  5. En la ventana Implementar en esta fase , revise los elementos nuevos y modificados. Para continuar la implementación incluso si se produce un error en uno o varios elementos, seleccione Continuar implementación si se produce un error en uno o varios elementos.

    Después de revisar y confirmar la selección, seleccione Implementar.

    Captura de pantalla del contenido de implementación pop-up.png.

  6. (Opcional). Para crear reglas de implementación, seleccione Reglas de implementación en el elemento de fase de destino de la canalización (por ejemplo, Prueba o producción).

    Para conocer el comportamiento y las limitaciones generales de las reglas, consulte Creación de reglas de implementación.

    Captura de pantalla de la entrada de reglas de implementación.

  7. Configurar una regla predeterminada de lakehouse para cada implementación de notebooks.

    Esta regla controla a cuál lakehouse se conecta el notebook en la etapa de destino después de la implementación.

    En el panel Establecer reglas de implementación , seleccione el icono Default lakehouse .

    Utiliza las listas desplegables From y To para vincular el lakehouse predeterminado de la fase de origen con el lakehouse predeterminado de la fase de destino.

    • Igual que con el lakehouse de origen: mantenga la misma configuración predeterminada del lakehouse que en la fase de origen.
    • N/A (sin lakehouse predeterminado): quitar la configuración predeterminada del lakehouse en la etapa de destino.
    • Otro: Sustituya el lakehouse predeterminado de la etapa de origen por otro lakehouse en la etapa de destino.

    Si selecciona Otro en la lista desplegable Destino, proporcione los detalles del lakehouse de destino.

    • Identificador de Lakehouse
    • Nombre de Lakehouse
    • Identificador del área de trabajo de Lakehouse

    Captura de pantalla del almacén de datos en el lago predeterminado.

    Nota:

    El identificador de Lakehouse es necesario al configurar esta regla. Puede obtener el identificador de lakehouse de la dirección URL del elemento. Las reglas de implementación tienen prioridad sobre el enlace automático. Si se configura una regla de implementación, anula el lakehouse vinculado automáticamente.

  8. Supervise el estado de implementación del historial de implementación.