Compartir a través de


Selección de una tecnología de procesamiento por lotes en Azure

Las soluciones de macrodatos suelen constar de tareas de procesamiento por lotes discretas que contribuyen a la solución de procesamiento de datos general. Puede usar el procesamiento por lotes para cargas de trabajo que no requieran acceso inmediato a la información. El procesamiento por lotes puede complementar los requisitos de procesamiento en tiempo real. También puede usar el procesamiento por lotes para equilibrar la complejidad y reducir el coste de la implementación general.

El requisito fundamental de los motores de procesamiento por lotes es escalar horizontalmente los cálculos para gestionar un gran volumen de datos. A diferencia del procesamiento en tiempo real, el procesamiento por lotes tiene latencias (el tiempo transcurrido entre la ingesta de datos y calcular un resultado) de minutos u horas.

Selección de una tecnología para el procesamiento por lotes

Microsoft ofrece varios servicios que puede usar para realizar el procesamiento por lotes.

Microsoft Fabric

Microsoft Fabric es una plataforma de datos y análisis todo en uno para organizaciones. Es una oferta de software como servicio que simplifica cómo aprovisiona, administra y rige una solución de análisis de un extremo a otro. Fabric controla el movimiento, el procesamiento, la ingesta, la transformación y los informes de datos. Las características de tejido que se usan para el procesamiento por lotes incluyen ingeniería de datos, almacenamientos de datos, almacenes de lago y procesamiento de Apache Spark. Azure Data Factory en Fabric también admite lakehouses. Para simplificar y acelerar el desarrollo, puede habilitar Copilot controlado por IA.

  • Lenguajes: R, Python, Java, Scala y SQL

  • Seguridad: red virtual administrada y control de acceso basado en roles (RBAC) de OneLake

  • Almacenamiento principal: OneLake, que tiene accesos directos y opciones de creación de reflejo

  • Spark: un grupo de inicio prehidratado y un grupo de Spark personalizado con tamaños de nodo predefinidos

Azure Synapse Analytics

Azure Synapse Analytics es un servicio de análisis empresarial que reúne tecnologías de SQL y Spark en una sola construcción de un área de trabajo. Azure Synapse Analytics simplifica la seguridad, la gobernanza y la administración. Cada área de trabajo tiene canalizaciones de datos integradas que puede usar para crear flujos de trabajo de un extremo a otro. También puede aprovisionar un grupo de SQL dedicado para el análisis a gran escala, un punto de conexión SQL sin servidor que puede usar para consultar directamente el lago y un entorno de ejecución de Spark para el procesamiento de datos distribuido.

  • Lenguajes: Python, Java, Scala y SQL

  • Seguridad: red virtual administrada, RBAC y control de acceso, y listas de control de acceso de almacenamiento en Azure Data Lake Storage

  • Almacenamiento principal: almacenamiento de datos Data Lake y también se integra con otras fuentes

  • Spark: configuración personalizada de Spark con tamaños de nodo predefinidos

Azure Databricks

Azure Databricks es una plataforma de análisis basada en Spark. Incluye características premium y avanzadas de Spark que se apoyan en Spark de código abierto. Azure Databricks es un servicio de Microsoft que se integra con el resto de los servicios de Azure. Incluye configuraciones adicionales para las implementaciones de clústeres de Spark. Y Unity Catalog ayuda a simplificar la gobernanza de objetos de Spark de Azure Databricks.

  • Lenguajes: R, Python, Java, Scala y Spark SQL.

  • Seguridad: Autenticación de usuario con Microsoft Entra ID.

  • Almacenamiento principal: Integración incorporada con Azure Blob Storage, Data Lake Storage, Azure Synapse Analytics y otros servicios. Para más información, vea Orígenes de datos.

Entre otras ventajas se incluyen las siguientes:

Principales criterios de selección

Para elegir la tecnología para el procesamiento por lotes, tenga en cuenta las siguientes preguntas:

  • ¿Desea un servicio administrado o desea administrar sus propios servidores?

  • ¿Desea crear la lógica del procesamiento por lotes de forma declarativa o imperativa?

  • ¿Va a realizar el procesamiento por lotes en ráfagas? Si es así, considere las opciones que proporcionan la capacidad de finalizar automáticamente un clúster o que tienen modelos de precios para cada trabajo por lotes.

  • ¿Necesita consultar almacenes de datos relacionales junto con procesamiento por lotes, por ejemplo, para buscar datos de referencia? En caso afirmativo, considere opciones que permiten consultar almacenes relacionales externos.

Matriz de funcionalidades

En las tablas siguientes se resumen las principales diferencias en cuanto a funcionalidades entre servicios.

Funcionalidades generales

Capacidad Tela Azure Synapse Analytics Azure Databricks
Software como servicio 1 No No
Servicio administrado No
Almacenes de datos relacionales
Modelo de precios Unidades de capacidad Grupo de SQL o hora del clúster Unidad de Azure Databricks 2 y hora de clúster

[1] Capacidad de Tejido asignada.

[2] Una unidad de Azure Databricks es la funcionalidad de procesamiento por hora.

Otras capacidades

Capacidad Tela Azure Synapse Analytics Azure Databricks
Escalado automático No No
Granularidad de escalabilidad horizontal SKU por tejido Por clúster o por grupo de SQL Por clúster
Admite el almacenamiento en caché en memoria de datos No
Consulta a bases de datos relacionales externas No
Autenticación Microsoft Entra ID SQL o Microsoft Entra ID Microsoft Entra ID
Auditoría
Seguridad de nivel de fila 1
Soporta cortafuegos
Enmascaramiento de datos dinámicos

[1] Solo predicados de filtro. Para más información, consulte Seguridad de nivel de fila.

Colaboradores

Microsoft mantiene este artículo. Originalmente lo escribieron los siguientes colaboradores.

Autores principales:

Para ver los perfiles no públicos de LinkedIn, inicie sesión en LinkedIn.

Pasos siguientes