Nota
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Las soluciones de macrodatos suelen constar de tareas de procesamiento por lotes discretas que contribuyen a la solución de procesamiento de datos general. Puede usar el procesamiento por lotes para cargas de trabajo que no requieran acceso inmediato a la información. El procesamiento por lotes puede complementar los requisitos de procesamiento en tiempo real. También puede usar el procesamiento por lotes para equilibrar la complejidad y reducir el coste de la implementación general.
El requisito fundamental de los motores de procesamiento por lotes es escalar horizontalmente los cálculos para gestionar un gran volumen de datos. A diferencia del procesamiento en tiempo real, el procesamiento por lotes tiene latencias (el tiempo transcurrido entre la ingesta de datos y calcular un resultado) de minutos u horas.
Selección de una tecnología para el procesamiento por lotes
Microsoft ofrece varios servicios que puede usar para realizar el procesamiento por lotes.
Microsoft Fabric
Microsoft Fabric es una plataforma de datos y análisis todo en uno para organizaciones. Es una oferta de software como servicio que simplifica cómo aprovisiona, administra y rige una solución de análisis de un extremo a otro. Fabric controla el movimiento, el procesamiento, la ingesta, la transformación y los informes de datos. Las características de tejido que se usan para el procesamiento por lotes incluyen ingeniería de datos, almacenamientos de datos, almacenes de lago y procesamiento de Apache Spark. Azure Data Factory en Fabric también admite lakehouses. Para simplificar y acelerar el desarrollo, puede habilitar Copilot controlado por IA.
Lenguajes: R, Python, Java, Scala y SQL
Seguridad: red virtual administrada y control de acceso basado en roles (RBAC) de OneLake
Almacenamiento principal: OneLake, que tiene accesos directos y opciones de creación de reflejo
Spark: un grupo de inicio prehidratado y un grupo de Spark personalizado con tamaños de nodo predefinidos
Azure Synapse Analytics
Azure Synapse Analytics es un servicio de análisis empresarial que reúne tecnologías de SQL y Spark en una sola construcción de un área de trabajo. Azure Synapse Analytics simplifica la seguridad, la gobernanza y la administración. Cada área de trabajo tiene canalizaciones de datos integradas que puede usar para crear flujos de trabajo de un extremo a otro. También puede aprovisionar un grupo de SQL dedicado para el análisis a gran escala, un punto de conexión SQL sin servidor que puede usar para consultar directamente el lago y un entorno de ejecución de Spark para el procesamiento de datos distribuido.
Lenguajes: Python, Java, Scala y SQL
Seguridad: red virtual administrada, RBAC y control de acceso, y listas de control de acceso de almacenamiento en Azure Data Lake Storage
Almacenamiento principal: almacenamiento de datos Data Lake y también se integra con otras fuentes
Spark: configuración personalizada de Spark con tamaños de nodo predefinidos
Azure Databricks
Azure Databricks es una plataforma de análisis basada en Spark. Incluye características premium y avanzadas de Spark que se apoyan en Spark de código abierto. Azure Databricks es un servicio de Microsoft que se integra con el resto de los servicios de Azure. Incluye configuraciones adicionales para las implementaciones de clústeres de Spark. Y Unity Catalog ayuda a simplificar la gobernanza de objetos de Spark de Azure Databricks.
Lenguajes: R, Python, Java, Scala y Spark SQL.
Seguridad: Autenticación de usuario con Microsoft Entra ID.
Almacenamiento principal: Integración incorporada con Azure Blob Storage, Data Lake Storage, Azure Synapse Analytics y otros servicios. Para más información, vea Orígenes de datos.
Entre otras ventajas se incluyen las siguientes:
Cuadernos web para la colaboración y la exploración de datos.
Horas de inicio rápido del clúster, terminación automática y escalado automático.
Admite clústeres habilitados para GPU.
Principales criterios de selección
Para elegir la tecnología para el procesamiento por lotes, tenga en cuenta las siguientes preguntas:
¿Desea un servicio administrado o desea administrar sus propios servidores?
¿Desea crear la lógica del procesamiento por lotes de forma declarativa o imperativa?
¿Va a realizar el procesamiento por lotes en ráfagas? Si es así, considere las opciones que proporcionan la capacidad de finalizar automáticamente un clúster o que tienen modelos de precios para cada trabajo por lotes.
¿Necesita consultar almacenes de datos relacionales junto con procesamiento por lotes, por ejemplo, para buscar datos de referencia? En caso afirmativo, considere opciones que permiten consultar almacenes relacionales externos.
Matriz de funcionalidades
En las tablas siguientes se resumen las principales diferencias en cuanto a funcionalidades entre servicios.
Funcionalidades generales
Capacidad | Tela | Azure Synapse Analytics | Azure Databricks |
---|---|---|---|
Software como servicio | Sí1 | No | No |
Servicio administrado | No | Sí | Sí |
Almacenes de datos relacionales | Sí | Sí | Sí |
Modelo de precios | Unidades de capacidad | Grupo de SQL o hora del clúster | Unidad de Azure Databricks 2 y hora de clúster |
[1] Capacidad de Tejido asignada.
[2] Una unidad de Azure Databricks es la funcionalidad de procesamiento por hora.
Otras capacidades
Capacidad | Tela | Azure Synapse Analytics | Azure Databricks |
---|---|---|---|
Escalado automático | No | No | Sí |
Granularidad de escalabilidad horizontal | SKU por tejido | Por clúster o por grupo de SQL | Por clúster |
Admite el almacenamiento en caché en memoria de datos | No | Sí | Sí |
Consulta a bases de datos relacionales externas | Sí | No | Sí |
Autenticación | Microsoft Entra ID | SQL o Microsoft Entra ID | Microsoft Entra ID |
Auditoría | Sí | Sí | Sí |
Seguridad de nivel de fila | Sí | Sí 1 | Sí |
Soporta cortafuegos | Sí | Sí | Sí |
Enmascaramiento de datos dinámicos | Sí | Sí | Sí |
[1] Solo predicados de filtro. Para más información, consulte Seguridad de nivel de fila.
Colaboradores
Microsoft mantiene este artículo. Originalmente lo escribieron los siguientes colaboradores.
Autores principales:
- Zoiner Tejada | Director ejecutivo y arquitecto
- Pratima Valavala | Arquitecto principal de soluciones
Para ver los perfiles no públicos de LinkedIn, inicie sesión en LinkedIn.
Pasos siguientes
- ¿Qué es Fabric?
- Guía de decisión de Fabric
- Formación: Introducción a Azure Synapse Analytics
- ¿Qué es Azure HDInsight?
- ¿Qué es Azure Databricks?