Wiele małych zadań platformy Spark
Jeśli widzisz wiele małych zadań, prawdopodobnie wykonujesz wiele operacji na stosunkowo małych danych (<10 GB). Małe operacje zajmują tylko kilka sekund, ale sumują się, a czas spędzony na narzucie na operację również sumuje.
Najlepszym podejściem do przyspieszania małych zadań jest równoległe uruchamianie wielu operacji. Delta Live Tables to robi automatycznie.
Inne opcje obejmują:
- Rozdziel operacje na wiele notesów i uruchamiaj je równolegle w tym samym klastrze przy użyciu zadań wielodaniowych.
- Użyj metody ThreadPoolExecutor języka Python lub innego podejścia wielowątkowego do równoległego uruchamiania zapytań.
- Użyj usługi SQL Warehouse, jeśli wszystkie zapytania są zapisywane w języku SQL. Magazyny SQL są bardzo dobrze skalowane dla wielu zapytań uruchamianych równolegle, ponieważ zostały one zaprojektowane pod kątem tego typu obciążenia.