Descripción de los aspectos básicos del almacenamiento de datos

Completado

El proceso de creación de un almacenamiento de datos moderno normalmente se compone de las siguientes partes:

  • Ingesta de datos: traslado de datos desde sistemas de origen a un almacenamiento de datos.
  • Almacenamiento de datos: almacenamiento de los datos en un formato optimizado para el análisis.
  • Procesamiento de datos: transformación de los datos en un formato listo para su consumo con las herramientas de análisis.
  • Análisis y entrega de datos: análisis de los datos para obtener información y entrega de los mismos a la empresa.

Microsoft Fabric permite a los ingenieros y analistas de datos ingerir, almacenar, transformar y visualizar datos en una sola herramienta con una experiencia tradicional y de código bajo.

Descripción de la experiencia de almacenamiento de datos de Fabric

El almacenamiento de datos de Fabric es un almacenamiento de datos relacional que admite las funcionalidades transaccionales completas de T-SQL que esperaría de un almacenamiento de datos empresariales. Es un almacenamiento de datos totalmente administrado, escalable y de alta disponibilidad que se puede usar para almacenar y consultar datos en el almacén de lago. Con el almacenamiento de datos, tiene el control total de la creación de tablas, la carga, la transformación y la consulta de datos mediante el portal de Fabric o los comandos T-SQL. Puede usar SQL para consultar y analizar los datos, o bien usar Spark para procesar los datos y crear modelos de Machine Learning.

Los almacenamientos de datos en Fabric facilitan la colaboración entre los ingenieros y los analistas de datos, que trabajan juntos en la misma experiencia. Los ingenieros de datos crean una capa relacional sobre datos en el almacén de lago, donde los analistas pueden usar T-SQL y Power BI para explorar los datos.

Diseño de un almacenamiento de datos

Al igual que todas las bases de datos relacionales, el almacenamiento de datos de Fabric contiene tablas para almacenar los datos para el análisis más adelante. Por lo general, estas tablas se organizan en un esquema optimizado para el modelado multidimensional. En este enfoque, los datos numéricos relacionados con eventos (por ejemplo, pedidos de venta) se agrupan por diferentes atributos (por ejemplo, fecha, cliente, almacén). Por ejemplo, puede analizar el importe total pagado por los pedidos de venta de una fecha concreta o en un almacén determinado.

Tablas de un almacenamiento de datos

Las tablas de un almacenamiento de datos normalmente se organizan para que admitan un análisis eficiente y eficaz de grandes cantidades de datos. Esta organización se conoce a menudo como modelado dimensional, lo que implica estructurar tablas en tablas de hechos y tablas de dimensiones.

Las tablas de hechos contienen los datos numéricos que desea analizar. Las tablas de hechos suelen tener un gran número de filas y son el origen de datos principal para el análisis. Por ejemplo, una tabla de hechos podría contener el importe total pagado por los pedidos de venta de una fecha concreta o en un almacén determinado.

Las tablas de dimensiones contienen información descriptiva sobre los datos de las tablas de hechos. Las tablas de dimensiones suelen tener un pequeño número de filas y se usan para proporcionar contexto para los datos de las tablas de hechos. Por ejemplo, una tabla de dimensiones puede contener información sobre los clientes que han realizado pedidos de venta.

Además de las columnas de atributos, una tabla de dimensiones contiene una columna de clave única que identifica de forma única cada fila de la tabla. De hecho, es habitual que una tabla de dimensiones incluya dos columnas de clave:

  • Una clave suplente es un identificador único para cada fila de la tabla de dimensiones. A menudo es un valor entero generado automáticamente por el sistema de administración de bases de datos cuando se inserta una nueva fila en la tabla.
  • Una clave alternativa es a menudo una clave natural o empresarial que identifica una instancia específica de una entidad en el sistema de origen transaccional, como un código de producto o un identificador de cliente.

Necesita claves suplentes y alternativas en un almacenamiento de datos, ya que tienen distintos propósitos. Las claves suplentes son específicas del almacenamiento de datos y ayudan a mantener la coherencia y la precisión de los datos. Por otro lado, las claves alternativas son específicas del sistema de origen y ayudan a mantener la rastreabilidad entre el almacenamiento de datos y el sistema de origen.

Tipos especiales de tablas de dimensiones

Los tipos especiales de dimensiones proporcionan contexto adicional y permiten un análisis de datos más completo.

Las dimensiones de tiempo proporcionan información sobre el período de tiempo en el que se produjo un evento. Esta tabla permite a los analistas de datos agregar datos a intervalos temporales. Por ejemplo, una dimensión de tiempo podría incluir columnas para el año, el trimestre, el mes y el día en el que se realizó un pedido de venta.

Las dimensiones de variación lenta son tablas de dimensiones que realizan el seguimiento de los cambios en los atributos de dimensión con el tiempo, como los cambios en la dirección de un cliente o el precio de un producto. Son importantes en un almacenamiento de datos porque permiten a los usuarios analizar y comprender los cambios en los datos con el tiempo. Las dimensiones de variación lenta garantizan que los datos se mantengan actualizados y sigan siendo precisos, lo que es imprescindible para tomar buenas decisiones empresariales.

Diseños de esquemas de almacenamiento de datos

En la mayoría de las bases de datos transaccionales que se usan en aplicaciones empresariales, los datos se normalizan para reducir la duplicación. Sin embargo, en un almacenamiento de datos, los datos de dimensión generalmente se desnormalizan para reducir el número de combinaciones necesarias para consultar los datos.

A menudo, un almacenamiento de datos se organiza como un esquema de estrella, en el que una tabla de hechos está directamente relacionada con las tablas de dimensiones, como se muestra en este ejemplo:

Diagram of a star schema design displaying a FactSales table with five dimensions that form the shape of a star.

Puede usar los atributos de algo para agrupar números en la tabla de hechos en distintos niveles. Por ejemplo, podría encontrar los ingresos totales de ventas de toda una región o solo de un cliente. La información de cada nivel se puede almacenar en la misma tabla de dimensiones.

Sugerencia

Consulte ¿Qué es un esquema de estrella? para obtener más información sobre el diseño de esquemas de estrella para Fabric.

Si hay muchos niveles o se comparte información por cosas diferentes, podría tener sentido usar un esquema de copo de nieve en su lugar. Este es un ejemplo:

Diagram of a snowflake schema design displaying multiple dimensions.

En este caso, la tabla DimProduct se ha dividido (normalizado) para crear tablas de dimensiones independientes para las categorías de producto y los proveedores.

  • Cada fila de la tabla DimProduct contiene valores de clave para las filas correspondientes en las tablas DimCategory y DimSupplier.

Se ha agregado una tabla DimGeography que contiene información sobre dónde se encuentran los clientes y almacenes.

  • Cada fila de las tablas DimCustomer y DimStore contiene un valor de clave para la fila correspondiente en la tabla DimGeography.