Nota
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
En esta sección se proporcionan detalles sobre la interfaz de programación en Python de las canalizaciones declarativas de Lakeflow.
- Para obtener información conceptual y información general sobre el uso de Python para canalizaciones declarativas de Lakeflow, consulte Desarrollo de código de canalización con Python.
- Para consultar la referencia de SQL, consulte la referencia del lenguaje SQL de canalizaciones declarativas de Lakeflow.
- Para obtener más información específica sobre cómo configurar el cargador automático, consulte ¿Qué es el cargador automático?.
dlt
Información general del módulo
Las funciones de Python de canalizaciones declarativas de Lakeflow se definen en el dlt
módulo. Las canalizaciones implementadas con la API de Python deben importar este módulo:
import dlt
Funciones para definiciones de conjuntos de datos
Las canalizaciones declarativas de Lakeflow usan el decorador de Python para definir conjuntos de datos como vistas materializadas y tablas de streaming. Consulte Funciones para definir conjuntos de datos.
Referencia de API
- append_flow
- create_auto_cdc_flow
- crear_auto_cdc_desde_flujo_de_snapshot
- create_sink
- crear_tabla_de_transmisión
- Expectativas
- mesa
- Vista
Consideraciones para las canalizaciones declarativas de Python Lakeflow
A continuación se indican consideraciones importantes al implementar canalizaciones con la interfaz de Python de canalizaciones declarativas de Lakeflow:
- Las canalizaciones declarativas de Lakeflow evalúan el código que define una canalización varias veces durante la planeación y las ejecuciones de canalización. Las funciones de Python que definen conjuntos de datos deben incluir solo el código necesario para definir la tabla o vista. La lógica arbitraria de Python incluida en las definiciones de conjunto de datos podría provocar un comportamiento inesperado.
- No intente implementar la lógica de supervisión personalizada en las definiciones del conjunto de datos. Vea Defina el monitoreo personalizado de las canalizaciones declarativas de Lakeflow con enlaces de eventos.
- La función que se usa para definir un conjunto de datos debe devolver un DataFrame de Spark. No incluya lógica en las definiciones de conjunto de datos que no se relacionan con un DataFrame devuelto.
- Nunca use métodos que guarden o escriban en archivos o tablas como parte del código del conjunto de datos de Canalizaciones declarativas de Lakeflow.
Ejemplos de operaciones de Apache Spark que nunca se deben usar en el código de canalizaciones declarativas de Lakeflow:
collect()
count()
toPandas()
save()
saveAsTable()
start()
toTable()