Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Se houver muitos trabalhos pequenos, é provável que você esteja fazendo muitas operações em dados relativamente pequenos (<10 GB). Pequenas operações levam apenas alguns segundos cada, mas somam e o tempo gasto em sobrecarga por operação também aumenta.
A melhor abordagem para acelerar trabalhos pequenos é executar várias operações em paralelo. Os Pipelines Declarativos do Lakeflow Spark fazem isso automaticamente.
Outras opções incluem:
- Separe suas operações em vários notebooks e execute-as em paralelo no mesmo cluster usando trabalhos de várias tarefas.
- Use os armazéns SQL se todas as suas consultas forem escritas em SQL. Os sql warehouses são muito bem dimensionados para muitas consultas executadas em paralelo, pois foram projetadas para esse tipo de carga de trabalho.
- Parametrize seu notebook e use para cada tarefa para executar seu notebook várias vezes em paralelo. Use Concorrência para definir o nível de paralelização. Isso funciona bem com a computação sem servidor.