Procesamiento analítico en línea

El procesamiento analítico en línea (OLAP) es una tecnología que organiza bases de datos empresariales de gran tamaño para realizar cálculos complejos y análisis de tendencias. Este método permite consultas complejas sin interrumpir los sistemas transaccionales.

Las transacciones y registros empresariales se almacenan en bases de datos conocidas como bases de datos de procesamiento de transacciones en línea (OLTP), que están optimizadas para entradas de registro individuales. Estas bases de datos contienen información valiosa, pero no están diseñadas para el análisis, por lo que la recuperación de datos requiere mucho tiempo y es difícil.

Para solucionar este problema, los sistemas OLAP extraen eficazmente la inteligencia empresarial de los datos. Las bases de datos OLAP están optimizadas para tareas de lectura intensiva y de baja escritura. Se modelan y limpian para un análisis eficaz. Las bases de datos OLAP suelen conservar los datos históricos para el análisis de series temporales.

Los sistemas OLAP usan tradicionalmente cubos de datos multidimensionales para organizar los datos de una manera que admita consultas y análisis complejos. En el diagrama siguiente se muestra una arquitectura tradicional del sistema OLAP.

A medida que avanza la tecnología y aumentan las escalas de datos y cálculos, los sistemas OLAP pasan a arquitecturas de procesamiento paralelo masivo (MPP) compatibles con Microsoft Fabric . Para más información, consulte Almacén de datos analíticos de Fabric.

En el diagrama siguiente se muestra una arquitectura moderna del sistema OLAP.

Modelos semánticos

Un modelo de datos semántico es un modelo conceptual que describe el significado de los elementos de datos que contiene. Las organizaciones suelen tener sus propios términos para los elementos y, a veces, esos términos tienen sinónimos. Las organizaciones también pueden tener significados diferentes para el mismo término. Por ejemplo, una base de datos de inventario podría realizar un seguimiento de un fragmento de equipo mediante un identificador de recurso y un número de serie. Sin embargo, una base de datos de ventas puede hacer referencia al número de serie como identificador de recurso. No hay ninguna manera sencilla de relacionar estos valores sin un modelo que describa la relación.

El modelado semántico proporciona un nivel de abstracción sobre el esquema de base de datos para que los usuarios no necesiten conocer las estructuras de datos subyacentes. Los usuarios finales pueden consultar fácilmente datos sin realizar agregados ni combinaciones a través del esquema subyacente. A menudo, se cambia el nombre de las columnas a nombres más fáciles de usar para que el contexto y el significado de los datos sean más obvios.

El modelado semántico es principalmente para escenarios de lectura intensiva, como análisis e inteligencia empresarial (OLAP), en lugar de un procesamiento de datos transaccional con mucha escritura (OLTP). El modelado semántico se adapta a escenarios de lectura intensiva debido a las características de una capa semántica típica:

Los comportamientos de agregación se establecen para que las herramientas de generación de informes los muestren correctamente.
Se definen los cálculos y la lógica de negocios.
Se incluyen cálculos orientados al tiempo.
Se suelen integrar datos de varios orígenes.
Se admiten análisis en tiempo real.

Tradicionalmente, la capa semántica se coloca sobre un almacenamiento de datos por estos motivos.

Hay dos tipos principales de modelos semánticos:

Los modelos tabulares usan construcciones de modelado relacional, como modelos, tablas y columnas. Internamente, los metadatos se heredan de las construcciones de modelado OLAP, como cubos, dimensiones y medidas. El código y los scripts usan metadatos OLAP.
Los modelos multidimensionales usan construcciones de modelado OLAP tradicionales, como cubos, dimensiones y medidas.

Analysis Services y Fabric proporcionan la infraestructura y las herramientas necesarias para implementar el modelado semántico de forma eficaz.

Ejemplo de caso de uso

Una organización almacena datos en una base de datos grande. Quiere que estos datos estén disponibles para los usuarios empresariales y los clientes para crear sus propios informes y realizar análisis.

Podrían conceder a esos usuarios acceso directo a la base de datos, pero esta opción tiene inconvenientes, incluida la administración de seguridad y el control de acceso. Y es posible que los usuarios tengan dificultades para comprender el diseño de la base de datos, incluidos los nombres de las tablas y columnas. Esta opción requiere que los usuarios sepan qué tablas se van a consultar, cómo se deben combinar esas tablas y cómo aplicar otra lógica de negocios para obtener los resultados correctos. Los usuarios también deben conocer un lenguaje de consulta como SQL. Normalmente, esta opción conduce a que varios usuarios informen de las mismas métricas, pero con resultados diferentes.

Una mejor opción es encapsular toda la información que los usuarios necesitan en un modelo semántico. Los usuarios pueden consultar más fácilmente el modelo semántico mediante una herramienta de informes de su elección. Los datos que proporciona el modelo semántico proceden de un almacenamiento de datos, lo que garantiza que todos los usuarios vean un único origen de verdad. El modelo semántico también proporciona nombres de columna y tabla fáciles de usar, define relaciones entre tablas, incluye descripciones y cálculos, y aplica la seguridad de nivel de fila.

Características típicas del modelo semántico

El modelado semántico y el procesamiento analítico suelen tener los siguientes rasgos.

Requisito	Descripción
Esquema	Esquema durante la escritura, altamente aplicado
Usa transacciones	No
Estrategia de bloqueo	Ninguno
Actualizable	No, normalmente requiere volver a calcular el cubo.
Anexable	No, normalmente requiere volver a calcular el cubo.
Carga de trabajo	Elevada actividad de lectura, solo lectura
Indexación	Indexación multidimensional
Tamaño de los datos	Tamaño pequeño a masivamente grande
Modelo	Tabular o multidimensional
Forma de los datos	Esquema de cubo, estrella o copo de nieve
Flexibilidad de consulta	Muy flexible
Escala	De tamaño grande, de cientos de gigabytes a varios petabytes

Cuándo se debe utilizar esta solución

Considere la posibilidad de usar OLAP para los escenarios siguientes:

Debe ejecutar consultas analíticas complejas y a petición rápidamente, sin afectar negativamente a los sistemas OLTP.
Quiere proporcionar a los usuarios empresariales una manera sencilla de generar informes a partir de los datos.
Quiere proporcionar varias agregaciones que permitan a los usuarios obtener resultados rápidos y coherentes.

OLAP es especialmente útil para aplicar cálculos agregados en grandes cantidades de datos. Los sistemas OLAP están optimizados para escenarios de lectura intensiva. OLAP también permite a los usuarios segmentar datos multidimensionales en segmentos que pueden ver en dos dimensiones, como una tabla dinámica. O bien, pueden filtrar los datos por valores específicos. Los usuarios pueden realizar estos procesos, conocidos como segmentación y dicción de los datos, independientemente de si los datos se particionan en varios orígenes de datos. Los usuarios pueden explorar fácilmente los datos sin conocer los detalles del análisis de datos tradicional.

Los modelos semánticos pueden ayudar a los usuarios empresariales a abstraer las complejidades de las relaciones y facilitan el análisis rápido de los datos.

Desafíos

Los sistemas OLAP también producen desafíos:

Las transacciones que fluyen desde varios orígenes actualizan constantemente los datos en sistemas OLTP. Los almacenes de datos OLAP normalmente se actualizan a intervalos mucho más lentos, en función de las necesidades empresariales. Los sistemas OLAP se adaptan a decisiones empresariales estratégicas, en lugar de respuestas inmediatas a los cambios. También debe planear algún nivel de limpieza de datos y orquestación para mantener actualizados los almacenes de datos OLAP.
A diferencia de las tablas relacionales normalizadas tradicionales en sistemas OLTP, los modelos de datos OLAP tienden a ser multidimensionales. Por lo tanto, es difícil o imposible asignarlos directamente a modelos orientados a entidades o orientados a objetos, donde cada atributo corresponde a una columna. En su lugar, los sistemas OLAP suelen usar un esquema de estrella o copo de nieve en lugar de normalización tradicional.

OLAP en Azure

En Azure, los datos de los sistemas OLTP, como Azure SQL Database, se copian en sistemas OLAP como Fabric o Analysis Services. Las herramientas de exploración y visualización de datos, como Power BI, Excel y opciones que no son de Microsoft, se conectan a los servidores de Analysis Services y proporcionan a los usuarios información muy interactiva y visualmente enriquecida sobre los datos modelados. Puede usar SQL Server Integration Services para organizar el flujo de datos de sistemas OLTP a sistemas OLAP. Para implementar SQL Server Integration Services, use Azure Data Factory.

Los siguientes almacenes de datos de Azure cumplen los requisitos básicos de OLAP:

SQL Server Analysis Services proporciona funcionalidad OLAP y minería de datos para aplicaciones de inteligencia empresarial. Puede instalar SQL Server Analysis Services en servidores locales o hospedarlo en una máquina virtual (VM) en Azure. Analysis Services es un servicio totalmente administrado que proporciona las mismas características principales que SQL Server Analysis Services. Analysis Services admite la conexión a varios orígenes de datos en la nube y en el entorno local de su organización.

Los índices de almacén de columnas agrupados están disponibles en SQL Server 2014 y versiones posteriores y en SQL Database. Estos índices son ideales para cargas de trabajo OLAP. A partir de SQL Server 2016, incluida SQL Database, puede aprovechar el procesamiento transaccional y analítico híbrido (HTAP) a través de índices de almacén de columnas no agrupados actualizables. Use HTAP para realizar el procesamiento OLTP y OLAP en la misma plataforma. Este enfoque elimina la necesidad de varias copias de los datos y de sistemas OLTP y OLAP independientes. Para obtener más información, consulte Almacén de columnas para análisis operativos en tiempo real.

Principales criterios de selección

Para restringir las opciones, responda a las siguientes preguntas:

¿Desea un servicio administrado en lugar de administrar sus propios servidores?
¿Necesita el identificador de Entra de Microsoft para la autenticación segura?
¿Necesita integrar datos de varios orígenes, más allá del almacén de datos OLTP?
¿Desea realizar análisis en tiempo real?

Fabric Real-Time Intelligence es un servicio eficaz dentro de Fabric que puede usar para extraer información y visualizar los datos en movimiento. Proporciona una solución integral para escenarios controlados por eventos, datos de streaming y registros de datos. Tanto si administra GB como PB de datos, todos los datos organizativos en movimiento convergen en el centro en tiempo real.
¿Necesita usar datos agregados previamente, por ejemplo, para proporcionar modelos semánticos que facilitan el análisis para los usuarios empresariales?

En ese caso, elija una opción que admita cubos multidimensionales o modelos semánticos tabulares.

Proporcione agregados para ayudar a los usuarios a calcular de forma coherente los agregados de datos. Los datos agregados previamente también pueden proporcionar un gran aumento del rendimiento si tiene varias columnas en muchas filas. Puede agregar datos previamente en cubos multidimensionales o modelos semánticos tabulares.

Matriz de funcionalidades

En las tablas siguientes se resumen las diferencias clave en las funcionalidades entre estos servicios:

Tela
Servicios de Análisis
SQL Server Analysis Services
SQL Server con índices de almacén de columnas
SQL Database con índices de almacenamiento por columnas

Funcionalidades generales

Capacidad	Tela	Servicios de Análisis	SQL Server Analysis Services	SQL Server con índices de almacén de columnas	SQL Database con índices de almacenamiento por columnas
Es un servicio administrado	Sí	Sí	No	No	Sí
MPP	Sí	No	No	No	No
Admite cubos multidimensionales	No	No	Sí	No	No
Admite modelos semánticos tabulares	Sí	Sí	Sí	No	No
Integra fácilmente varios orígenes de datos	Sí	Sí	Sí	No ¹	No ¹
Admite análisis en tiempo real	Sí	No	No	Sí	Sí
Requiere un proceso para copiar datos de distintos orígenes	Opcional ³	Sí	Sí	No	No
Integración de Microsoft Entra	Sí	Sí	No	Nº ²	Sí

[1] SQL Server y SQL Database no pueden consultar ni integrar varios orígenes de datos externos, pero puede crear una canalización para realizar estas funciones mediante SQL Server Integration Services o Azure Data Factory. SQL Server hospedado en máquinas virtuales de Azure tiene más opciones, como servidores vinculados y PolyBase. Para obtener más información, consulte Elección de una tecnología de orquestación de canalización de datos.

[2] Una cuenta de Microsoft Entra no admite la conexión a SQL Server hospedado en máquinas virtuales de Azure. En su lugar, use una cuenta de Windows Server Active Directory de dominio.

[3] Fabric proporciona la flexibilidad para integrar orígenes de datos moviéndolos a OneLake a través de canalizaciones o reflejos de Azure Data Factory. También puede crear accesos directos o realizar análisis en tiempo real en flujos de datos sin mover los datos.

Funcionalidades de escalabilidad

Capacidad	Tela	Servicios de Análisis	SQL Server Analysis Services	SQL Server con índices de almacén de columnas	SQL Database con índices de almacenamiento por columnas
Servidores regionales redundantes para lograr alta disponibilidad	Sí	Sí	No	Sí	Sí
Admite el escalado horizontal de consultas	Sí	Sí	No	Sí	Sí
Escalabilidad dinámica, escalado vertical	Sí	Sí	No	Sí	Sí

Pasos siguientes

Estilo de arquitectura de macrodatos

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2025-04-30