Almacenamiento y análisis de datos
En este escenario de ejemplo se muestra una canalización de datos que integra grandes cantidades de datos de varios orígenes en una plataforma unificada de análisis de Azure. Este escenario concreto se basa en una solución de venta y marketing, pero los modelos de diseño son importantes para muchas industrias que requieren análisis avanzado de grandes conjuntos de datos, como la asistencia sanitaria, el comercio electrónico y la venta al por menor.
Arquitectura
Descargue un archivo de Visio de esta arquitectura.
Flujo de datos
Los datos fluyen por la solución de la siguiente manera:
- Para cada origen de datos, las actualizaciones se exportan periódicamente a un área de almacenamiento provisional en Azure Data Lake Storage.
- Azure Data Factory carga incrementalmente los datos de Azure Data Lake Storage en tablas de almacenamiento provisional de Azure Synapse Analytics. Durante este proceso, los datos se limpian y se transforman. Polybase puede paralelizar el proceso para grandes conjuntos de datos.
- Después de cargar un nuevo lote de datos en el almacén, se actualiza un modelo tabular de Azure Analysis Services creado anteriormente. Este modelo semántico simplifica el análisis de datos y relaciones empresariales.
- Los analistas de negocios usan Microsoft Power BI para analizar los datos del almacén mediante el modelo semántico de Analysis Services.
Componentes
La empresa tiene orígenes de datos en muchas plataformas diferentes:
- SQL Server local
- Oracle local
- Azure SQL Database
- Almacenamiento de tablas de Azure
- Azure Cosmos DB (la base de datos de Azure Cosmos)
De estos orígenes de datos diferentes, los datos se cargan con varios componentes de Azure:
- Azure Data Lake Storage se usa para almacenar provisionalmente los datos de origen antes de cargarlos en Azure Synapse.
- Data Factory organiza la transformación de datos almacenados provisionalmente en una estructura común en Azure Synapse. Data Factory usa PolyBase al cargar datos en Azure Synapse para maximizar el rendimiento.
- Azure Synapse es un sistema distribuido para almacenar y analizar grandes conjuntos de datos. Su uso del procesamiento paralelo masivo (MPP) lo hace idóneo para ejecutar análisis de alto rendimiento. Azure Synapse puede usar PolyBase para cargar rápidamente datos desde Azure Data Lake Storage.
- Analysis Services proporciona un modelo semántico para los datos. También puede aumentar el rendimiento del sistema al analizar los datos.
- Power BI es un conjunto de herramientas de análisis empresarial para analizar datos y compartir información. Power BI puede consultar un modelo semántico almacenado en Analysis Services, o bien consultar Azure Synapse directamente.
- Microsoft Entra ID autentica a los usuarios que se conectan al servidor de Analysis Services a través de Power BI. Data Factory también puede usar el identificador de Entra de Microsoft para autenticarse en Azure Synapse a través de una entidad de servicio o una identidad administrada para los recursos de Azure.
Alternativas
La canalización de ejemplo incluye varios tipos diferentes de orígenes de datos. Esta arquitectura funciona con una amplia variedad de orígenes de datos relacionales y de otro tipo.
Data Factory orquesta los flujos de trabajo para la canalización de datos. Si quiere cargar datos solo una vez o a petición, también puede usar herramientas como la copia masiva de SQL Server (bcp) y AzCopy para copiar datos en Azure Data Lake Storage. Después puede cargar los datos con PolyBase directamente en Azure Synapse.
Si tiene conjuntos de datos muy grandes, considere la posibilidad de usar Data Lake Storage, que proporciona almacenamiento ilimitado para los datos de análisis.
Azure Synapse no es una buena opción para cargas de trabajo OLTP o conjuntos de datos más pequeños de 250 GB. En esos casos debe usar Azure SQL Database o SQL Server.
Para comparar con otras alternativas, consulte:
Detalles del escenario
En este ejemplo se muestra una empresa de marketing y venta que crea los programas de incentivos. Estos programas recompensan a los clientes, los proveedores, los vendedores y los empleados. Los datos son fundamentales para estos programas y la empresa quiere mejorar los conocimientos adquiridos mediante el análisis de datos con Azure.
La empresa necesita un enfoque moderno para analizar los datos, para que las decisiones se tomen con los datos adecuados en el momento oportuno. Los objetivos de la empresa incluyen:
- La combinación de distintos tipos de orígenes de datos en una plataforma en la nube.
- La transformación de los datos de origen a una estructura y taxonomía comunes, de manera que estos sean coherentes y se comparen con facilidad.
- La carga de datos mediante un enfoque altamente paralelizado que admita miles de programas de incentivos, sin el elevado costo de implementación y mantenimiento de infraestructura local.
- La reducción considerable del tiempo necesario para recopilar y transformar datos, para poder centrarse en el análisis de los datos.
Posibles casos de uso
Este enfoque también se puede utilizar para:
- Establecer un almacén de datos como origen de datos único.
- Integrar orígenes de datos relacionales con otros conjuntos de datos desestructurados.
- Usar el modelado semántico y potentes herramientas de visualización para simplificar el análisis de los datos.
Consideraciones
Estas consideraciones implementan los pilares de Azure Well-Architected Framework, que es un conjunto de principios rectores que puede usar para mejorar la calidad de una carga de trabajo. Para obtener más información, consulte Well-Architected Framework.
Las tecnologías de esta arquitectura se eligieron porque cumplen requisitos de la empresa respecto a escalabilidad y disponibilidad, la tiempo que ayudan a controlar los costos.
- La arquitectura de procesamiento paralelo masivo de Azure Synapse proporciona escalabilidad y alto rendimiento.
- Azure Synapse ha garantizado acuerdos de nivel de servicio (SLA) y procedimientos recomendados para lograr una alta disponibilidad.
- Cuando la actividad de análisis es baja, la empresa puede escalar Azure Synapse a petición, reducir o incluso pausar el proceso para reducir los costos.
- Azure Analysis Services se puede escalar horizontalmente para reducir los tiempos de respuesta durante cargas de trabajo de consulta elevadas. También puede separar el procesamiento del grupo de consultas, de manera que las consultas de los clientes no se ralenticen a causa del procesamiento.
- Azure Analysis Services también tiene acuerdos de nivel de servicio garantizados y prácticas recomendadas para lograr una alta disponibilidad.
- El modelo de seguridad de Azure Synapse proporciona seguridad de conexión, autenticación y autorización a través de microsoft Entra ID o autenticación de SQL Server y cifrado. Azure Analysis Services usa microsoft Entra ID para la administración de identidades y la autenticación de usuarios.
Optimización de costos
La optimización de costos se centra en formas de reducir los gastos innecesarios y mejorar las eficiencias operativas. Para obtener más información, consulte Lista de comprobación de revisión de diseño para la optimización de costos.
Revise un ejemplo de precios para un escenario de almacenamiento de datos mediante la calculadora de precios de Azure. Ajuste los valores para ver cómo afectan los requisitos a los costos.
- Azure Synapse permite escalar los niveles de proceso y almacenamiento de forma independiente. Los recursos de proceso se cobran por hora; además, estos recursos se pueden escalar o pausar a petición. Los recursos de almacenamiento se facturan por terabyte, por lo que los costos aumentan con la ingesta de datos.
- Los costos de Data Factory se basan en el número de operaciones de lectura y escritura, operaciones de supervisión y actividades de orquestación realizadas en una carga de trabajo. Estos aumentan con cada flujo de datos adicional y la cantidad de datos que procese cada uno.
- Analysis Services está disponible en los niveles Desarrollador, Básico y Estándar. Las instancias se pagan en función de las unidades de procesamiento de consultas (QPU) y la memoria disponible. Para mantener los costos más bajos, minimice el número de consultas que ejecuta, la cantidad de datos que procesan y la frecuencia de ejecución.
- Power BI tiene diferentes opciones de producto para distintos requisitos. Power BI Embedded proporciona una opción basada en Azure para insertar la funcionalidad de Power BI dentro de las aplicaciones. En el precio de ejemplo anterior se incluye una instancia de Power BI Embedded.
Colaboradores
Microsoft mantiene este artículo. Originalmente lo escribió el siguiente colaborador.
Autor principal:
- Alex Buck | Desarrollador de contenido sénior
Para ver perfiles de LinkedIn no públicos, inicie sesión en LinkedIn.
Pasos siguientes
Obtenga más información sobre los servicios usados en este escenario: