Compartir a través de


Preparación y transformación de datos en Microsoft Fabric

Después de importar datos en Microsoft Fabric, normalmente debe limpiarlos, formatearlos y enriquecerlos antes de su análisis. Tanto si tu objetivo es preparar tablas seleccionadas en un entorno Lakehouse o datos listos para modelos en un almacén, Fabric proporciona opciones de transformación de bajo código y transformación basada en código.

En este artículo se describe cómo usar Dataflow Gen2 para la preparación de datos visuales y de poco código y cómo usar cuadernos y funciones de datos de usuario para transformaciones avanzadas controladas por código. Elija el enfoque que mejor se adapte a sus requisitos de rol, conjunto de aptitudes y carga de trabajo.

Transformación de datos con Dataflow Gen2

Para la preparación de datos de poco código, use Dataflow Gen2. Dataflow Gen2 usa la experiencia familiar de Power Query , la misma tecnología que se usa en Excel y Power BI.

Con la interfaz de Power Query, puede aplicar filtros, derivar columnas, agregar datos, combinar consultas y realizar otras transformaciones a través de un flujo de trabajo visual y paso a paso. En Fabric, Dataflow Gen2 se puede ejecutar como un proceso ETL independiente o como una actividad dentro de una canalización.

Por ejemplo, después de ingerir datos de ventas sin procesar en un Lakehouse, puede usar un flujo de datos para quitar duplicados, estandarizar nombres de columna, aplicar reglas de negocio y escribir los resultados depurados en tablas curadas dentro de la capa Gold de un Lakehouse o en un almacén.

Dataflow Gen2 se ejecuta en la nube mediante la capacidad de Fabric, lo que le permite escalar a grandes conjuntos de datos y transformaciones complejas sin necesidad de código personalizado. Los analistas de datos y los desarrolladores de BI pueden preparar los datos de forma independiente, mientras se sigue escribiendo la salida en las tablas lakehouse o Warehouse como parte de la base de almacenamiento unificada de Fabric.

Preparación con enfoque en codificación usando cuadernos y funciones de datos de usuario

Para escenarios de transformación avanzados con código, use cuadernos, trabajos de Spark y funciones de datos de usuario en la experiencia de ingeniería de datos.

Un cuaderno de Fabric proporciona un entorno de estilo Jupyter en el portal de Fabric. Puede escribir código en lenguajes como Python, T-SQL o Scala para trabajar con datos almacenados en OneLake.

Los cuadernos son adecuados para transformaciones complejas, algoritmos personalizados, flujos de trabajo de ciencia de datos e integración con bibliotecas externas. Por ejemplo, puede cargar archivos JSON o Parquet sin procesar desde un Lakehouse en un DataFrame de Spark, combinarlos con otros conjuntos de datos, realizar agregaciones con ventanas, enriquecer los datos y volver a guardar los resultados como tablas Delta en OneLake.

Los cuadernos se integran directamente con lakehouses y almacenes en el mismo espacio de trabajo. Puede leer y escribir datos sin configuración de credenciales adicional porque las operaciones se ejecutan en el contexto de seguridad de Fabric. También puede orquestar y programar cuadernos mediante la actividad de cuadernos en las canalizaciones de Data Factory.

Las funciones de datos de usuario de Fabric permiten encapsular la lógica reutilizable de Python en Fabric. Puede usarlos para implementar reglas de negocios avanzadas, llamar a servicios externos o crear componentes de transformación modular. Las funciones de datos de usuario admiten bibliotecas de PyPI, pueden conectarse a orígenes de datos de Fabric y pueden exponer puntos de conexión REST para la integración externa. Estas funcionalidades las convierten en adecuadas para escenarios empresariales que requieren lógica de transformación reutilizable y regulada.

Puede invocar funciones de datos de usuario desde cuadernos, canalizaciones, reglas activadores y como parte de flujos de tareas translíticos en informes de Power BI.