Creación de grupos de Spark personalizados en Microsoft Fabric

2025-07-03

En este documento, se explica cómo crear grupos de Apache Spark personalizados en Microsoft Fabric para las cargas de trabajo de análisis. Los grupos de Apache Spark permiten a los usuarios crear entornos de proceso adaptados en función de sus requisitos específicos, lo que garantiza un rendimiento y un uso óptimo de los recursos.

Especifique los nodos mínimo y máximo para el escalado automático. En función de esos valores, el sistema adquiere y retira dinámicamente los nodos a medida que cambian los requisitos de proceso del trabajo, lo que da como resultado un escalado eficaz y un rendimiento mejorado. La asignación dinámica de ejecutores en grupos de Spark también reduce la necesidad de configuración manual del ejecutor. En su lugar, el sistema ajusta el número de ejecutores en función del volumen de datos y de las necesidades de proceso de nivel de trabajo. Este proceso le permite centrarse en las cargas de trabajo sin preocuparse por la optimización del rendimiento y la administración de recursos.

Nota:

Para crear un grupo de Spark personalizado, necesita acceso de administrador al área de trabajo. El administrador de capacidad debe habilitar la opción Grupos de áreas de trabajo personalizadas en la sección Proceso de Spark de la configuración del administrador de capacidad. Para más información, consulte Configuración de proceso de Spark para capacidades de Fabric.

Creación de grupos de Spark personalizados

Para crear o administrar el grupo de Spark asociado al área de trabajo:

Vaya al área de trabajo y seleccione Configuración del área de trabajo.
Seleccione la opción Ingeniería de datos/Ciencia para expandir el menú y, a continuación, seleccione Configuración de Spark.
Seleccione la opción Nuevo grupo . En la pantalla Crear grupo, asigne un nombre al grupo de Spark. Elija también la familia Node y seleccione un tamaño de nodo en los tamaños disponibles (Small, Medium, Large, X-Large y XX-Large) en función de los requisitos de proceso de las cargas de trabajo.
Puede establecer la configuración mínima del nodo para los grupos personalizados en 1. Dado que Fabric Spark proporciona disponibilidad restaurable para clústeres con un solo nodo, no tiene que preocuparse por los fallos de trabajos, la pérdida de sesión durante las fallas o pagar en exceso por el cómputo para los trabajos de Spark más pequeños.
Puede habilitar o deshabilitar el escalado automático para los grupos de Spark personalizados. Cuando se habilita el escalado automático, el grupo adquirirá dinámicamente nuevos nodos hasta el límite máximo de nodos especificado por el usuario y, a continuación, los retirará después de la ejecución del trabajo. Esta característica garantiza un mejor rendimiento ajustando los recursos en función de los requisitos del trabajo. Se permite ajustar el tamaño de los nodos, que se adaptan a las unidades de capacidad adquiridas como parte del SKU de capacidad de Fabric.
Puede ajustar el número de ejecutores mediante un control deslizante. Cada ejecutor es un proceso de Spark que ejecuta tareas y contiene datos en memoria. Aumentar los ejecutores puede mejorar el paralelismo, pero también aumenta el tamaño y el tiempo de inicio del clúster. También puede optar por habilitar la asignación dinámica del ejecutor para el grupo de Spark, que determina automáticamente el número óptimo de ejecutores dentro del límite máximo especificado por el usuario. Esta característica ajusta el número de ejecutores en función del volumen de datos, lo que da lugar a un rendimiento mejorado y al uso de recursos.

Estos grupos personalizados tienen una duración predeterminada de pausa automática de 2 minutos. Una vez que se alcanza la duración de la pausa automática, la sesión expira y los clústeres no se asignan. Se le cobra en función del número de nodos y de la duración durante la que se usan los grupos de Spark personalizados.

Opciones de tamaño de nodo

Al configurar un grupo de Spark personalizado, puede elegir entre los siguientes tamaños de nodo diferentes:

Tamaño del nodo	Unidades de proceso (CU)	Memoria (GB)	Descripción
Pequeño	4	32	Trabajos ligeros de desarrollo y pruebas.
Mediana	8	64	La mayoría de las cargas de trabajo generales y las operaciones típicas.
Grande	16	128	Tareas con un uso intensivo de memoria o trabajos de procesamiento de datos mayores.
Mas grande	32	256	Las cargas de trabajo de Spark más exigentes que requieren recursos significativos.

Obtenga más información en la documentación pública de Apache Spark.
Introducción a la configuración de administración del área de trabajo de Spark en Microsoft Fabric.

Compartir a través de

Creación de grupos de Spark personalizados en Microsoft Fabric

Creación de grupos de Spark personalizados

Opciones de tamaño de nodo

Contenido relacionado

Comentarios

Recursos adicionales