Nota
L'accés a aquesta pàgina requereix autorització. Pots provar d'iniciar sessió o canviar de directori.
L'accés a aquesta pàgina requereix autorització. Pots provar de canviar directoris.
Importante
El Editor de canalizaciones de Lakeflow está en versión preliminar pública.
En Azure Databricks, puede controlar de código fuente una canalización y todo el código asociado. Mediante el control de código fuente de todos los archivos asociados a la canalización, los cambios en el código de transformación, el código de exploración y la configuración de canalización se versionan en Git y se pueden probar en desarrollo y se pueden implementar con confianza en producción.
Una canalización controlada por código fuente ofrece las siguientes ventajas:
- Rastreabilidad: capture todos los cambios en el historial de Git.
- Pruebas: Valide los cambios en el pipeline en un área de trabajo de desarrollo antes de promocionarlos a un área de trabajo de producción compartida. Cada desarrollador tiene su propia canalización de desarrollo en su propia rama de código en una carpeta git y en su propio esquema.
- Colaboración: cuando finaliza el desarrollo y las pruebas individuales, los cambios de código se insertan en la canalización de producción principal.
- Gobernanza: Alinear con los estándares de implementación y CI/CD empresariales.
Azure Databricks permite que las canalizaciones y sus archivos de origen se controlen conjuntamente mediante los conjuntos de recursos de Databricks. Con las agrupaciones, la configuración de canalización se controla mediante código fuente en forma de archivos de configuración de YAML junto con los archivos de origen de Python o SQL de una canalización. Una agrupación puede tener una o varias canalizaciones, así como otros tipos de recursos, como trabajos.
En esta página se muestra cómo configurar una canalización controlada por código fuente mediante Databricks Asset Bundles. Para obtener más información sobre las agrupaciones, consulte ¿Qué son los conjuntos de recursos de Databricks?.
Requisitos
Para crear una canalización controlada por código fuente, ya debe tener:
- Carpeta git creada en el área de trabajo y configurada. Una carpeta de Git permite a los usuarios individuales crear y probar los cambios antes de confirmarlos en un repositorio de Git. Consulte Carpetas de Git de Azure Databricks.
- El Editor de canalizaciones de Lakeflow habilitado. La interfaz de usuario descrita en este tutorial solo está disponible en esta experiencia del editor. Vea Cómo desarrollar y depurar canalizaciones de ETL con el Editor de canalizaciones de Lakeflow.
Crear una nueva canalización en un paquete
Nota:
Databricks recomienda crear una canalización controlada por el origen desde el principio. Como alternativa, puede agregar una canalización existente a una agrupación que ya está controlada por el origen. Ver Migrar recursos existentes a un paquete.
Para crear una nueva canalización controlada por código fuente:
En el área de trabajo, vaya al
Nuevo>
Canalización de ETL.
Seleccione
Configurar como un proyecto controlado por código fuente:
Haga clic en Crear nuevo proyecto y, a continuación, seleccione una carpeta git donde quiera colocar el código y la configuración:
Haga clic en Siguiente.
Escriba lo siguiente en el cuadro de diálogo Crear un lote de recursos :
- Nombre del lote: nombre del lote.
- Catálogo inicial: el nombre del catálogo que contiene el esquema que se va a usar.
- Usar un esquema personal: deje activada esta casilla si desea aislar las modificaciones en un esquema personal, de modo que cuando los usuarios de la organización colaboren en el mismo proyecto, no sobrescriba los cambios de desarrollo entre sí.
- Lenguaje inicial: lenguaje inicial que se va a usar para los archivos de canalización de ejemplo del proyecto, python o SQL.
Haga clic en Crear e implementar. Se crea un paquete con un flujo en el directorio Git.
Exploración de la agrupación de canalizaciones
A continuación, explore el paquete de canalizaciones que se creó.
La agrupación, que se encuentra en la carpeta Git, contiene archivos del sistema de agrupación y el databricks.yml archivo , que define variables, direcciones URL y permisos del área de trabajo de destino, y otras opciones de configuración para la agrupación. La resources carpeta de un lote es donde se incluyen definiciones de recursos como canalizaciones.
Abra la resources carpeta y haga clic en el botón editor de canalización para ver la canalización controlada por código fuente:
El paquete de canalización de ejemplo incluye los siguientes archivos:
Un cuaderno de exploración de ejemplo
Dos archivos de código de ejemplo que realizan transformaciones en tablas
Un archivo de código de ejemplo que contiene una función de utilidad
Un archivo YAML de configuración de trabajo que define el trabajo en el paquete que ejecuta la canalización.
Un archivo YAML de configuración de canalización que define la canalización
Importante
Debe editar este archivo para conservar permanentemente los cambios de configuración en la canalización, incluidos los cambios realizados a través de la interfaz de usuario; de lo contrario, los cambios de la interfaz de usuario se invalidan cuando se vuelve a implementar la agrupación. Por ejemplo, para establecer un catálogo predeterminado diferente para la canalización, edite el
catalogcampo de este archivo de configuración.Un archivo LÉAME con detalles adicionales sobre el paquete de canalización de ejemplo e instrucciones sobre cómo ejecutar la canalización
Para obtener información sobre los archivos de canalización, consulte Explorador de recursos de canalización.
Para obtener más información sobre la creación e implementación de cambios en la agrupación de canalizaciones, consulte Creación de agrupaciones en el área de trabajo e Implementación de agrupaciones y ejecución de flujos de trabajo desde el área de trabajo.
Ejecución de la canalización
Puede ejecutar transformaciones individuales o toda la canalización controlada por el origen:
- Para ejecutar y obtener una vista previa de una sola transformación en la canalización, seleccione el archivo de transformación en el árbol del explorador del área de trabajo para abrirlo en el editor de archivos. En la parte superior del editor, haga clic en el botón Ejecutar archivo.
- Para ejecutar todas las transformaciones de la canalización, haga clic en el botón Ejecutar canalización en la esquina superior derecha del área de trabajo de Databricks.
Para obtener más información sobre la ejecución de canalizaciones, consulte Ejecución de código de canalización.
Actualización de la canalización
Puede actualizar artefactos en la canalización o agregar exploraciones y transformaciones adicionales, pero luego querrá enviar esos cambios a GitHub. Haga clic en el Icono de Git asociado a la agrupación de canalizaciones o haga clic en el kebab de la carpeta y, a continuación, en Git... para seleccionar qué cambios se van a insertar. Consulte Confirmación e inserción de cambios en el repositorio de Git remoto.
Además, al actualizar los archivos de configuración de canalización o agregar o quitar archivos de la agrupación, estos cambios no se propagan al área de trabajo de destino hasta que implemente explícitamente la agrupación. Consulte Implementación de agrupaciones y ejecución de flujos de trabajo desde el área de trabajo.
Nota:
Databricks recomienda mantener la configuración predeterminada para las canalizaciones controladas por código fuente. La configuración predeterminada está configurada para que no sea necesario editar la configuración de YAML del lote de canalización cuando se agregan archivos adicionales a través de la interfaz de usuario.
Agregar una canalización existente a un paquete
Para agregar una canalización existente a una agrupación, cree primero un lote en el área de trabajo y agregue la definición de YAML de canalización a la agrupación, como se describe en las páginas siguientes:
- Tutorial: Creación e implementación de una agrupación en el área de trabajo
- Agregar un recurso existente a una agrupación
Para obtener información sobre cómo migrar recursos a una agrupación mediante la CLI de Databricks, consulte Migración de recursos existentes a una agrupación.
Recursos adicionales
Para consultar tutoriales adicionales y material de referencia sobre canalizaciones, vea Canalizaciones Declarativas de Spark de Lakeflow.