Partilhar via


Muitos pequenos trabalhos Spark

Se você vir muitos trabalhos pequenos, é provável que esteja fazendo muitas operações em dados relativamente pequenos (<10 GB). Pequenas operações levam apenas alguns segundos cada, mas elas se somam, e o tempo gasto em sobrecarga por operação também aumenta.

A melhor abordagem para acelerar pequenos trabalhos é executar várias operações em paralelo. Delta Live Tables faz isso por você automaticamente.

Outras opções incluem:

  • Separe suas operações em vários blocos de anotações e execute-as em paralelo no mesmo cluster usando trabalhos multitarefas.
  • Use o ThreadPoolExecutor do Python ou outra abordagem multi-threading para executar consultas em paralelo.
  • Use armazéns SQL se todas as suas consultas forem escritas em SQL. Os armazéns SQL são dimensionados muito bem para muitas consultas executadas em paralelo, pois foram projetados para esse tipo de carga de trabalho.