Almacenamiento y análisis de datos

Azure Data Lake Storage
Azure Cosmos DB
Azure Data Factory
Azure SQL Database
Azure Table Storage

En este escenario de ejemplo se muestra una canalización de datos que integra grandes cantidades de datos de varios orígenes en una plataforma unificada de análisis de Azure. Este escenario concreto se basa en una solución de venta y marketing, pero los modelos de diseño son importantes para muchas industrias que requieren análisis avanzado de grandes conjuntos de datos, como la asistencia sanitaria, el comercio electrónico y la venta al por menor.

Architecture

Architecture for a data warehousing and analysis scenario in Azure

Descargue un archivo Visio de esta arquitectura.

Flujo de datos

Los datos fluyen por la solución de la siguiente manera:

  1. Para cada origen de datos, las actualizaciones se exportan periódicamente a un área de almacenamiento provisional en Azure Data Lake Storage.
  2. Azure Data Factory carga incrementalmente los datos de Azure Data Lake Storage en tablas de almacenamiento provisional de Azure Synapse Analytics. Durante este proceso, los datos se limpian y se transforman. Polybase puede paralelizar el proceso para grandes conjuntos de datos.
  3. Después de cargar un nuevo lote de datos en el almacén, se actualiza un modelo tabular de Azure Analysis Services creado anteriormente. Este modelo semántico simplifica el análisis de datos y relaciones empresariales.
  4. Los analistas de negocios usan Microsoft Power BI para analizar los datos del almacén mediante el modelo semántico de Analysis Services.

Componentes

La empresa tiene orígenes de datos en muchas plataformas diferentes:

  • SQL Server local
  • Oracle local
  • Azure SQL Database
  • Almacenamiento de tablas de Azure
  • Azure Cosmos DB

De estos orígenes de datos diferentes, los datos se cargan con varios componentes de Azure:

  • Azure Data Lake Storage se usa para almacenar los datos de origen antes de cargarlos en Azure Synapse.
  • Data Factory organiza la transformación de los datos almacenados provisionalmente en una estructura común en Azure Synapse. Data Factory usa Polybase al cargar los datos en Azure Synapse para conseguir el máximo rendimiento.
  • Azure Synapse es un sistema distribuido para almacenar y analizar grandes conjuntos de datos. Su uso del procesamiento paralelo masivo (MPP) lo hace idóneo para ejecutar análisis de alto rendimiento. Azure Synapse puede usar PolyBase para cargar rápidamente datos de Azure Data Lake Storage.
  • Analysis Services proporciona un modelo semántico para los datos. También puede aumentar el rendimiento del sistema al analizar los datos.
  • Power BI es un conjunto de herramientas de análisis de negocios que sirve para analizar datos y compartir conocimientos. Power BI puede consultar un modelo semántico almacenado en Analysis Services, o bien consultar Azure Synapse directamente.
  • Microsoft Entra ID autentica a los usuarios que se conectan al servidor de Analysis Services mediante Power BI. Data Factory también puede usar Microsoft Entra ID para autenticarse en Azure Synapse mediante una entidad de servicio o una identidad administrada para los recursos de Azure.

Alternativas

Detalles del escenario

En este ejemplo se muestra una empresa de marketing y venta que crea los programas de incentivos. Estos programas recompensan a los clientes, los proveedores, los vendedores y los empleados. Los datos son fundamentales para estos programas y la empresa quiere mejorar los conocimientos adquiridos mediante el análisis de datos con Azure.

La empresa necesita un enfoque moderno para analizar los datos, para que las decisiones se tomen con los datos adecuados en el momento oportuno. Los objetivos de la empresa incluyen:

  • La combinación de distintos tipos de orígenes de datos en una plataforma en la nube.
  • La transformación de los datos de origen a una estructura y taxonomía comunes, de manera que estos sean coherentes y se comparen con facilidad.
  • La carga de datos mediante un enfoque altamente paralelizado que admita miles de programas de incentivos, sin el elevado costo de implementación y mantenimiento de infraestructura local.
  • La reducción considerable del tiempo necesario para recopilar y transformar datos, para poder centrarse en el análisis de los datos.

Posibles casos de uso

Este enfoque también se puede utilizar para:

  • Establecer un almacén de datos como origen de datos único.
  • Integrar orígenes de datos relacionales con otros conjuntos de datos desestructurados.
  • Usar el modelado semántico y potentes herramientas de visualización para simplificar el análisis de los datos.

Consideraciones

Estas consideraciones implementan los pilares del marco de buena arquitectura de Azure, que es un conjunto de principios guía que se pueden usar para mejorar la calidad de una carga de trabajo. Para más información, consulte Marco de buena arquitectura de Microsoft Azure.

Las tecnologías de esta arquitectura se eligieron porque cumplen requisitos de la empresa respecto a escalabilidad y disponibilidad, la tiempo que ayudan a controlar los costos.

Optimización de costos

La optimización de costos trata de buscar formas de reducir los gastos innecesarios y mejorar las eficiencias operativas. Para más información, vea Información general del pilar de optimización de costos.

Revise un precio de ejemplo para un escenario de almacenamiento de datos con la calculadora de precios de Azure. Ajuste los valores para ver cómo afectan los requisitos a los costos.

  • Azure Synapse permite escalar los niveles de proceso y almacenamiento por separado. Los recursos de proceso se cobran por hora; además, estos recursos se pueden escalar o pausar a petición. Los recursos de almacenamiento se facturan por terabyte, por lo que los costos aumentan con la ingesta de datos.
  • Los costos de Data Factory se basan en el número de operaciones de lectura/escritura, las operaciones de supervisión y las actividades de orquestación realizadas en una carga de trabajo. Estos aumentan con cada flujo de datos adicional y la cantidad de datos que procese cada uno.
  • Analysis Services está disponible en los planes de tarifa estándar, básico y desarrollador. Las instancias se pagan en función de las unidades de procesamiento de consultas (QPU) y la memoria disponible. Para mantener los costos más bajos, minimice el número de consultas que ejecuta, la cantidad de datos que procesan y la frecuencia de ejecución.
  • Power BI tiene opciones de producto diferentes para distintos requisitos. Power BI Embedded proporciona una opción basada en Azure para insertar la funcionalidad de Power BI en las aplicaciones. En el precio de ejemplo anterior se incluye una instancia de Power BI Embedded.

Colaboradores

Microsoft mantiene este artículo. Originalmente lo escribió el siguiente colaborador.

Autor principal:

  • Alex Buck | Desarrollador de contenido sénior

Para ver los perfiles no públicos de LinkedIn, inicie sesión en LinkedIn.

Pasos siguientes