Introducción

Completado

El almacenamiento de datos de Microsoft Fabric es una plataforma completa para datos, análisis e IA (inteligencia artificial). Hace referencia al proceso de almacenamiento, organización y administración de grandes volúmenes de datos estructurados y semiestructurados.

El almacenamiento de datos de Microsoft Fabric se basa en Synapse Analytics, ya que ofrece un amplio conjunto de características que facilitan la administración y el análisis de datos. Incluye funcionalidades avanzadas de procesamiento de consultas y admite las funcionalidades de T-SQL transaccionales completas, como un almacenamiento de datos empresarial.

A diferencia de un grupo de SQL dedicado en Synapse Analytics, un almacén de Microsoft Fabric se centra en un único lago de datos. Los datos del almacenamiento de Microsoft Fabric se almacenan en el formato de archivo Parquet. Esta configuración permite a los usuarios centrarse en tareas como la preparación, el análisis y los informes de datos. Aprovecha las amplias funcionalidades del motor de SQL, donde se almacena una copia única de sus datos en Microsoft OneLake.

Diagrama que muestra la función y la estructura de OneLake.

Descripción del proceso de ETL (extracción, transformación y carga)

ETL proporciona la base para los flujos de trabajo de análisis de datos y almacenamiento de datos. Vamos a revisar algunos aspectos de la manipulación de datos en un proceso de ETL.

Descripción
Extracción de datos Implica conectarse al sistema de origen y recopilar los datos necesarios para el procesamiento analítico.
Transformación de datos Implica una serie de pasos realizados en los datos extraídos para convertirlos en un formato estándar. Combinar datos de diferentes tablas, limpiar datos, desduplicar datos y realizar validaciones de datos.
Carga de datos Los datos extraídos y transformados se cargan en las tablas de hechos y dimensiones. Para una carga incremental, esto implica aplicar periódicamente los cambios continuos según el requisito. Este proceso suele implicar volver a formatear los datos para garantizar su calidad y compatibilidad con el esquema del almacenamiento de datos.
Optimizaciones posteriores a la carga Una vez cargados los datos, se pueden realizar determinadas optimizaciones para mejorar el rendimiento del almacenamiento de datos.

Todos estos pasos del proceso de ETL se pueden ejecutar en paralelo en función del escenario. En cuanto algunos datos estén listos, se cargan sin esperar a que se completen los pasos anteriores.

En las unidades siguientes, exploraremos varias formas de cargar datos en un almacenamiento y cómo pueden facilitar las tareas de creación de una carga de trabajo de almacenamiento de datos.