Selección de una tecnología de procesamiento por lotes en Azure

Las soluciones de macrodatos suelen constar de tareas de procesamiento por lotes discretas que contribuyen a la solución de procesamiento de datos general. Puede usar el procesamiento por lotes para cargas de trabajo que no requieran acceso inmediato a la información. El procesamiento por lotes puede complementar los requisitos de procesamiento en tiempo real. También puede usar el procesamiento por lotes para equilibrar la complejidad y reducir el coste de la implementación general.

El requisito fundamental de los motores de procesamiento por lotes es escalar horizontalmente los cálculos para gestionar un gran volumen de datos. A diferencia del procesamiento en tiempo real, el procesamiento por lotes tiene latencias (el tiempo transcurrido entre la ingesta de datos y calcular un resultado) de minutos u horas.

Selección de una tecnología para el procesamiento por lotes

Microsoft ofrece varios servicios que puede usar para realizar el procesamiento por lotes.

Microsoft Fabric

Microsoft Fabric es una plataforma de datos y análisis todo en uno para organizaciones. Es una oferta de software como servicio que simplifica cómo aprovisiona, administra y rige una solución de análisis de un extremo a otro. Fabric controla el movimiento, el procesamiento, la ingesta, la transformación y los informes de datos. Las características de tejido que se usan para el procesamiento por lotes incluyen ingeniería de datos, almacenamientos de datos, almacenes de lago y procesamiento de Apache Spark. Azure Data Factory en Fabric también admite lakehouses. Para simplificar y acelerar el desarrollo, puede habilitar Copilot controlado por IA.

Lenguajes: R, Python, Java, Scala y SQL
Seguridad: red virtual administrada y control de acceso basado en roles (RBAC) de OneLake
Almacenamiento principal: OneLake, que tiene accesos directos y opciones de creación de reflejo
Spark: un grupo de inicio prehidratado y un grupo de Spark personalizado con tamaños de nodo predefinidos

Azure Databricks

Azure Databricks es una plataforma de análisis basada en Spark. Incluye características premium y avanzadas de Spark que se apoyan en Spark de código abierto. Azure Databricks es un servicio de Microsoft que se integra con el resto de los servicios de Azure. Incluye configuraciones adicionales para las implementaciones de clústeres de Spark. Y Unity Catalog ayuda a simplificar la gobernanza de objetos de Spark de Azure Databricks.

Lenguajes: R, Python, Java, Scala y Spark SQL.
Seguridad: Autenticación de usuario con Microsoft Entra ID.
Almacenamiento principal: Integración integrada con Azure Blob Storage, Data Lake Storage, Fabric OneLake y otros servicios. Para más información, vea Orígenes de datos.

Entre otras ventajas se incluyen las siguientes:

Cuadernos web para la colaboración y la exploración de datos.
Horas de inicio rápido del clúster, terminación automática y escalado automático.
Admite clústeres habilitados para GPU.

Principales criterios de selección

Para elegir la tecnología para el procesamiento por lotes, tenga en cuenta las siguientes preguntas:

¿Desea un servicio administrado o desea administrar sus propios servidores?
¿Desea crear la lógica del procesamiento por lotes de forma declarativa o imperativa?
¿Va a realizar el procesamiento por lotes en ráfagas? Si es así, considere las opciones que proporcionan la capacidad de finalizar automáticamente un clúster o que tienen modelos de precios para cada trabajo por lotes.
¿Necesita consultar almacenes de datos relacionales junto con procesamiento por lotes, por ejemplo, para buscar datos de referencia? En caso afirmativo, considere opciones que permiten consultar almacenes relacionales externos.

Matriz de funcionalidades

En las tablas siguientes se resumen las principales diferencias en cuanto a funcionalidades entre servicios.

Funcionalidades generales

Capacidad	Tela	Azure Databricks
Software como servicio	Sí¹	No
Servicio administrado	No	Sí
Almacenes de datos relacionales	Sí	Sí
Modelo de precios	Unidades de capacidad	Unidad de Azure Databricks ² y hora de clúster

[1] Capacidad de Tejido asignada.

[2] Una unidad de Azure Databricks es la funcionalidad de procesamiento por hora.

Otras capacidades

Capacidad	Tela	Azure Databricks
Escalado automático	No	Sí
Granularidad de escalabilidad horizontal	SKU por tejido	Por clúster
Admite el almacenamiento en caché en memoria de datos	No	Sí
Consulta a bases de datos relacionales externas	Sí	Sí
Autenticación	Microsoft Entra ID	Microsoft Entra ID
Auditoría	Sí	Sí
Seguridad de nivel de fila	Sí	Sí
Soporta cortafuegos	Sí	Sí
Enmascaramiento de datos dinámicos	Sí	Sí

Colaboradores

Microsoft mantiene este artículo. Originalmente lo escribieron los siguientes colaboradores.

Autores principales:

Zoiner Tejada | Director ejecutivo y arquitecto
Pratima Valavala | Arquitecto principal de soluciones

Para ver los perfiles no públicos de LinkedIn, inicie sesión en LinkedIn.

Pasos siguientes

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2025-12-11