Compartir vía


Colas de trabajos en Apache Spark para Microsoft Fabric Spark

Se aplica a: Ingeniería de datos y ciencia de datos en Microsoft Fabric

Microsoft Fabric admite la puesta en cola de trabajos en segundo plano cuando haya alcanzado los límites de proceso de Spark para la capacidad de Fabric. El sistema de puesta en cola de trabajos ofrece reintentos automáticos para los trabajos que se agregan a la cola hasta que vencen. Cuando los usuarios crean una capacidad de Microsoft Fabric en Azure, eligen un tamaño de capacidad en función de su tamaño de carga de trabajo de análisis. Una vez adquirida la capacidad, los administradores pueden crear áreas de trabajo dentro de ella en Microsoft Fabric. Los trabajos de Spark que se ejecutan dentro de estas áreas de trabajo pueden usar hasta el máximo de núcleos asignados para una capacidad determinada y, una vez alcanzado el límite máximo, los trabajos se limitan o se ponen en cola.

Más información sobre los Límites de simultaneidad de Spark en Microsoft Fabric

La cola de trabajos es compatible con los trabajos de Notebook que se desencadenan mediante canalizaciones o a través del programador, así como para las definiciones de trabajos de Spark. No se admite la puesta en cola para trabajos interactivos de cuadernos y trabajos de cuadernos desencadenados a través de la API pública del cuaderno.

La cola funciona con el criterio “primero en entrar, primero en salir” (PEPS, FIFO por las siglas en inglés), donde los trabajos se agregan a la cola en función de la hora de envío y se reintentan constantemente, y comienzan a ejecutarse cuando se libera la capacidad.

Nota:

No se admite la puesta en cola de trabajos de Spark cuando la capacidad de Fabric está en su estado limitado. Se rechazarán todos los nuevos trabajos enviados.

Ilustración animada del proceso de puesta en cola de trabajos en Microsoft Fabric.

Una vez que se agrega un trabajo a la cola, su estado se actualiza a No iniciado en el centro de supervisión. Cuando se seleccionan de la cola y comienzan a ejecutarse, los cuadernos y definiciones de trabajos de Spark actualizan su estado de No iniciado a En curso.

Nota:

La expiración de la cola es de 24 horas para todos los trabajos desde el momento en que se admiten en la cola. Una vez alcanzado el tiempo de expiración, los trabajos deben volver a enviarse.

Tamaños de cola

Los tamaños de cola de Fabric Spark se basan en el tamaño de SKU de capacidad vinculado a un espacio de trabajo, que aplica un mecanismo de limitación y cola que permite a los usuarios enviar trabajos en función de las SKU de capacidad de Fabric compradas.

En la sección siguiente se enumeran varios límites de cola para cargas de trabajo de Spark basados en SKU de capacidad de Microsoft Fabric:

SKU de capacidad de Fabric SKU de Power BI equivalente Límite de cola
F2 - 4
F4 - 4
F8 - 8
F16 - 16
F32 - 32
F64 P1 64
F128 P2 128
F256 P3 256
F512 P4 512
F1024 - 1024
F2048 - 2048
Capacidad de prueba P1 N/D

Nota:

No se admite la puesta en cola para las capacidades de prueba de Fabric. Los usuarios tendrían que cambiar a una SKU de Fabric F o P de pago para usar la puesta en cola de trabajos de Spark.

Una vez alcanzado el límite máximo de cola para una capacidad de Fabric, los nuevos trabajos enviados se limitarán con el mensaje de error [TooManyRequestsForCapacity] Este trabajo de Spark no se puede ejecutar porque se ha alcanzado un límite de velocidad de proceso o API de Spark. Para ejecutar este trabajo de Spark, cancela un trabajo activo de Spark a través del centro de supervisión, elige una SKU de capacidad mayor o inténtalo de nuevo más tarde. Código de estado HTTP: 430 {Más información} Código de estado HTTP: 430.