Nota
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
En este artículo se describe la configuración básica de las canalizaciones mediante la interfaz de usuario del área de trabajo.
Databricks recomienda desarrollar nuevas canalizaciones sin servidor. Para obtener instrucciones de configuración para canalizaciones sin servidor, consulte Configuración de una canalización sin servidor.
Las instrucciones de configuración de este artículo usan Unity Catalog. Para obtener instrucciones para configurar canalizaciones con metastore de Hive heredado, consulte Usar canalizaciones declarativas de Lakeflow Spark con metastore de Hive heredado.
En este artículo se describe la funcionalidad del modo de publicación predeterminado actual para las canalizaciones. Las canalizaciones creadas antes del 5 de febrero de 2025 pueden usar el modo de publicación antiguo y el esquema virtual LIVE. Consulte el esquema LIVE (heredado).
Nota:
La interfaz de usuario tiene una opción para mostrar y editar los ajustes en JSON. Puede configurar la mayoría de las opciones de configuración con la interfaz de usuario o una especificación JSON. Algunas opciones avanzadas solo están disponibles mediante la configuración JSON.
Los archivos de configuración JSON también son útiles al implementar canalizaciones en nuevos entornos o al usar la CLI o la API de REST.
Para obtener una referencia completa a las opciones de configuración json de canalización, consulte Configuraciones de canalización.
Configuración de una nueva canalización
Para configurar una nueva canalización, haga lo siguiente:
En la parte superior de la barra lateral, haga clic en
Nuevo y seleccione
Canalización de ETL.
En la parte superior, asigne un nombre único a la canalización.
Debajo del nombre, puede ver el catálogo y el esquema predeterminados que se han elegido automáticamente. Cambie estos valores para proporcionar a la canalización valores predeterminados diferentes.
El catálogo predeterminado y el esquema predeterminado son donde se leen o escriben conjuntos de datos cuando no se califican los conjuntos de datos con un catálogo o esquema en el código. Consulte Objetos de base de datos en Azure Databricks para más información.
Seleccione la opción preferida para crear una canalización:
- Comience con el código de ejemplo en SQL para crear una nueva estructura de canalización y carpeta, incluido el código de ejemplo en SQL.
- Comience con código de ejemplo en Python para crear una nueva estructura de canalización y carpeta, incluido el código de ejemplo en Python.
- Comience con una sola transformación para crear una nueva estructura de canalización y carpeta, con un nuevo archivo de código en blanco.
- Agregue recursos existentes para crear una canalización que pueda asociar a los archivos de código existentes en el área de trabajo.
- Cree un proyecto controlado por código fuente para crear una canalización con un nuevo proyecto de Conjuntos de recursos de Databricks o para agregar la canalización a un lote existente.
Puede tener archivos de código fuente de SQL y Python en la canalización de ETL. Al crear una nueva canalización y elegir un idioma para el código de ejemplo, el lenguaje solo es para el código de ejemplo incluido en la canalización de forma predeterminada.
Al realizar la selección, se le redirigirá a la canalización recién creada.
La canalización de ETL se crea con la siguiente configuración predeterminada:
- Catálogo de Unity
- Canal actual
- Computación sin servidor
- Modo de desarrollo desactivado. Esta configuración solo afecta a las ejecuciones programadas de la canalización. La ejecución de la canalización desde el editor siempre usa el modo de desarrollo de forma predeterminada.
Esta configuración se recomienda para muchos casos de uso, incluido el desarrollo y las pruebas, y es adecuado para cargas de trabajo de producción que se deben ejecutar según una programación. Para obtener más información sobre la programación de canalizaciones, consulte Tarea de canalización para trabajos.
Puede ajustar esta configuración desde la barra de herramientas de canalización.
Como alternativa, puede crear una canalización de ETL desde el explorador del área de trabajo:
- Haga clic en Área de trabajo en el panel izquierdo.
- Seleccione cualquier carpeta, incluidas las carpetas de Git.
- Haga clic en Crear en la esquina superior derecha y haga clic en Canalización ETL.
También puede crear una canalización de ETL desde la página trabajos y canalizaciones:
- En el área de trabajo, haga clic en
Trabajos y canalizaciones en la barra lateral.
- En Nuevo, haga clic en Canalización ETL.
Opciones de configuración del proceso
Databricks recomienda usar siempre el Escalado automático mejorado. Los valores predeterminados para otras configuraciones de proceso funcionan bien para muchas canalizaciones.
Las canalizaciones sin servidor eliminan las opciones de configuración de proceso. Para obtener instrucciones de configuración para canalizaciones sin servidor, consulte Configuración de una canalización sin servidor.
Use la siguiente configuración para personalizar las configuraciones de proceso:
- Los administradores del espacio de trabajo pueden configurar una política de clúster. Las políticas de proceso permiten a los administradores controlar las opciones de proceso disponibles para los usuarios. Consulte una política de cálculo.
- Opcionalmente, puede configurar el Modo de clúster para que se ejecute con el Tamaño fijo o el Escalado automático heredado. Consulte Optimización del uso del clúster de canalizaciones declarativas de Spark de Lakeflow con escalado automático.
- Para cargas de trabajo con escalado automático activado, defina los Trabajadores mínimos y los Trabajadores máximos para fijar los límites de los comportamientos de escalado. Consulte Configurar el cálculo clásico para canalizaciones.
- Opcionalmente, puede desactivar la aceleración Photon. Consulte ¿Qué es Photon?
- Use etiquetas de clúster para ayudar a supervisar los costos asociados a las canalizaciones. Consulte Configuración de etiquetas de proceso.
- Configure Tipos de instancia para especificar el tipo de máquinas virtuales que se usan para ejecutar la canalización. Consulte Selección de tipos de instancia para ejecutar una canalización.
- Seleccione un Tipo de trabajo optimizado para las cargas de trabajo configuradas en la canalización.
- Opcionalmente, puede seleccionar un Tipo de controlador que difiere del tipo de trabajo. Esto puede ser útil para reducir los costes en canalizaciones con tipos de trabajadores grandes y una baja utilización del controlador, o para elegir un tipo de controlador más grande con el fin de evitar problemas de memoria insuficiente en cargas de trabajo con muchos trabajadores pequeños.
Establecimiento del usuario de ejecución
El usuario de ejecución permite cambiar la identidad que usa una canalización para ejecutarse y la propiedad de las tablas que crea o actualiza. Esto es útil en situaciones en las que el usuario original que creó la canalización se ha desactivado, por ejemplo, si dejó la empresa. En esos casos, la canalización puede dejar de funcionar y las tablas publicadas pueden dejar de estar accesibles para otros usuarios. Al actualizar la canalización para que se ejecute como una identidad diferente (como una entidad de servicio) y reasignar la propiedad de las tablas publicadas, puede restaurar el acceso y asegurarse de que la canalización sigue funcionando. La ejecución de canalizaciones como entidades de servicio se considera un procedimiento recomendado porque no están vinculados a usuarios individuales, por lo que son más seguros, estables y confiables para cargas de trabajo automatizadas.
Permisos necesarios
Para el usuario que realiza el cambio:
- CAN_MANAGE permisos en la canalización
- CAN_USE rol en la entidad de servicio (si se establece el valor de run-as en una entidad de servicio)
Para el usuario o la entidad de servicio de ejecución:
Acceso al área de trabajo:
- Permiso de acceso al espacio de trabajo para operar dentro del mismo
- Puede usar el permiso en las directivas de clúster usadas por la canalización.
- Permiso de creación de proceso en el área de trabajo
Acceso al código fuente:
- Puede leer el permiso en todos los cuadernos incluidos en el código fuente de la canalización.
- Permiso de lectura en archivos del área de trabajo si la canalización los usa.
Permisos de Unity Catalog (para canalizaciones con Unity Catalog):
-
USE CATALOGen el catálogo objetivo -
USE SCHEMAyCREATE TABLEen el esquema de destino -
MODIFYpermiso en las tablas existentes que actualiza la canalización -
CREATE SCHEMApermiso si la canalización crea nuevos esquemas
-
Permisos de metastore de Hive heredados (para canalizaciones que usan el metastore de Hive):
-
SELECTyMODIFYpermisos en las bases de datos y tablas de destino
-
Acceso adicional al almacenamiento en la nube (si procede):
- Permisos para leer desde ubicaciones de almacenamiento de origen
- Permisos para escribir en ubicaciones de almacenamiento de destino
Cómo establecer el usuario de ejecución
Puede establecer el run-as usuario a través de la configuración de canalización desde la página de supervisión de canalización o el editor de canalización. Para cambiar el usuario desde la página de supervisión de la tubería:
- Haga clic en Trabajos y canalizaciones para abrir la lista de canalizaciones y seleccione el nombre de la canalización que desea editar.
- En la página de supervisión de pipline, haga clic en Configuración.
- En la barra lateral Configuración de canalización, haga clic en
Edite junto a Ejecutar como.
- En el widget de edición, seleccione una de las siguientes opciones:
- Su propia cuenta de usuario
- Una entidad de servicio para la cual tiene el permiso CAN_USE
- Haga clic en Guardar para aplicar los cambios.
Cuando actualice correctamente el usuario de ejecución:
- La identidad de pipeline se cambia para usar el nuevo usuario o el servicio principal en todas las ejecuciones futuras.
- En las canalizaciones del catálogo de Unity, el propietario de las tablas publicadas por la canalización se actualiza para que coincida con la nueva identidad de ejecución
- Las futuras actualizaciones de canalización usarán los permisos y las credenciales de la nueva identidad de ejecución.
- Las canalizaciones continuas se reinician automáticamente con la nueva identidad. Las canalizaciones desencadenadas no se reinician automáticamente, y el cambio en el modo de ejecución puede interrumpir una actualización activa.
Nota:
Si se produce un error en la actualización de run-as, recibirá un mensaje de error que explica el motivo del error. Entre los problemas comunes se incluyen permisos insuficientes en el principal del servicio.
Otras consideraciones de configuración
Las siguientes opciones de configuración también están disponibles para las canalizaciones:
- La edición Advanced proporciona acceso a todas las características de las canalizaciones declarativas de Spark de Lakeflow. Opcionalmente, puede ejecutar canalizaciones usando las ediciones de producto Pro o Core. Consulte Seleccionar una edición de producto.
- Puede optar por usar el modo de canalización continua al ejecutar canalizaciones en producción. Consulte Desencadenado frente al modo de canalización continua.
- Si el área de trabajo no está configurada para el catálogo de Unity o la carga de trabajo debe usar la metastore de Hive heredada, consulte Uso de canalizaciones declarativas de Spark de Lakeflow con metastore de Hive heredado.
- Agregue Notificaciones para las actualizaciones de correo electrónico en función de las condiciones de éxito o error. Consulte Agregar notificaciones por correo electrónico para eventos de canalización.
- Use el campo Configuración para establecer pares clave-valor para la canalización. Estas configuraciones sirven para dos propósitos:
- Establezca parámetros arbitrarios a los que puede hacer referencia en el código fuente. Consulte Uso de parámetros con canalizaciones.
- Configure las opciones de canalización y las configuraciones de Spark. Consulte Referencia de propiedades de canalización.
- Configurar etiquetas. Las etiquetas son pares de clave-valor para la canalización que están visibles en la lista Flujos de trabajo. Las etiquetas de tubería no están asociadas a la facturación.
- Use el canal Vista previa para probar su tubería frente a los cambios pendientes en el tiempo de ejecución de las tuberías declarativas de Lakeflow Spark y experimentar nuevas funciones.
Elija una edición del producto
Seleccione la edición del producto Lakeflow Spark Declarative Pipelines con las mejores características para sus requisitos de canalización. Están disponibles las siguientes ediciones del producto:
-
Corepara ejecutar cargas de trabajo de ingesta de streaming. Seleccione la ediciónCoresi su pipeline no requiere características avanzadas como change data capture (CDC) o las expectativas de Lakeflow para las canalizaciones declarativas de Spark. -
Propara ejecutar cargas de trabajo de ingesta de streaming y CDC. La ediciónProdel producto admite todas las características de la ediciónCore, además de la compatibilidad con cargas de trabajo que requieren la actualización de tablas en función de los cambios en los datos de origen. -
Advancedpara ejecutar cargas de trabajo de ingesta de streaming, cargas de trabajo de CDC y cargas de trabajo que requieren expectativas. La edición del productoAdvancedadmite las características de las edicionesCoreyPro, e incluye restricciones de calidad de datos con expectativas en las canalizaciones declarativas de Spark de Lakeflow.
Puede seleccionar la edición del producto al crear o editar una canalización. Puede elegir una edición diferente para cada canalización. Consulte la página del producto de Canalizaciones Declarativas Spark de Lakeflow.
Nota: Si la canalización incluye características no compatibles con la edición del producto seleccionada, como expectativas, recibirá un mensaje de error que explica el motivo del error. Después, puede editar la canalización para seleccionar la edición adecuada.
Configurar el código fuente
Puede usar el explorador de recursos en el Editor de canalizaciones de Lakeflow para configurar el código fuente que define la canalización. El código fuente de canalización se define en scripts SQL o Python almacenados en archivos del área de trabajo. Al crear o editar la canalización, puede agregar uno o varios archivos. De forma predeterminada, el código fuente de la canalización se encuentra en la carpeta transformations en la carpeta raíz de su canalización.
Dado que Lakeflow Spark Declarative Pipelines analiza automáticamente las dependencias del conjunto de datos para construir el gráfico de procesamiento de la canalización, puede agregar recursos de código fuente en cualquier orden.
Para obtener más información sobre el uso del Editor de canalizaciones de Lakeflow, consulte Desarrollo y depuración de canalizaciones de ETL con el Editor de canalizaciones de Lakeflow.
Administración de dependencias externas para canalizaciones que usan Python
Las canalizaciones admiten el uso de dependencias externas, como paquetes y bibliotecas de Python. Para obtener información sobre las opciones y recomendaciones para el uso de dependencias, consulte Administración de dependencias de Python para canalizaciones.
Uso de módulos de Python almacenados en el área de trabajo de Azure Databricks
Además de implementar el código de Python en los archivos de código fuente de canalización, puede usar carpetas de Git de Databricks o archivos de área de trabajo para almacenar el código como módulos de Python. Almacenar el código como módulos de Python es especialmente útil cuando tiene funcionalidad común que desea usar en varias canalizaciones o cuadernos de la misma canalización. Para obtener información sobre cómo usar módulos de Python con las canalizaciones, consulte Importación de módulos de Python desde carpetas de Git o archivos de área de trabajo.