Exploración y transformación de datos en un almacén de lago

Completado

Después de cargar datos en el almacén de lago, puede usar diversas herramientas y técnicas para explorarlos y transformarlos, entre las que se incluyen:

  • Apache Spark: cada almacén de lago de Fabric puede usar grupos de Spark a través de cuadernos o definiciones de trabajos de Spark para procesar datos en archivos y tablas en el almacén de lago mediante Scala, PySpark o Spark SQL.

    • Cuadernos: interfaces de codificación interactivas en las que puede usar código para leer, transformar y escribir datos directamente en el almacén de lago como tablas o archivos.

    • Definiciones de trabajos de Spark: Scripts a petición o programados que usan el motor de Spark para procesar datos del almacén de lago.

  • Punto de conexión analítico de SQL: Cada almacén de lago incluye un punto de conexión analítico de SQL mediante el que puede ejecutar instrucciones Transact-SQL para consultar, filtrar, agregar y explorar datos de tablas de almacén de lago.

  • Flujos de datos (Gen2): además de usar un flujo de datos para ingerir datos en el almacén de lago, puede crear un flujo de datos para realizar transformaciones posteriores a través de Power Query y, opcionalmente, volver a aterrizar los datos transformados en el almacén de lago.

  • Canalizaciones de datos: Organice una lógica compleja de transformación de datos que opere sobre los datos del almacén de lago mediante una secuencia de actividades (como flujos de datos, trabajos de Spark y otra lógica de flujo de control).

Análisis y visualización de datos en un almacén de lago

Los datos de las tablas del almacén de lago se incluyen en un modelo semántico que define un modelo relacional para los datos. Puede editar este modelo semántico (o crear otros modelos semánticos), definir medidas personalizadas, jerarquías, agregaciones y otros elementos de un modelo semánticos. A continuación, puede usar el modelo semántico como origen de un informe de Power BI que le permite visualizar y analizar los datos.

Al combinar las funcionalidades de visualización de datos de Power BI con el almacenamiento centralizado y el esquema tabular de un almacén de lago de datos, puede implementar una solución de análisis de un extremo a otro en una sola plataforma.