Udostępnij za pośrednictwem


Wiele małych zadań platformy Spark

Jeśli widzisz wiele małych zadań, prawdopodobnie wykonujesz wiele operacji na stosunkowo małych danych (<10 GB). Małe operacje zajmują tylko kilka sekund, ale sumują się, a czas spędzony na narzucie na operację również sumuje.

Najlepszym podejściem do przyspieszania małych zadań jest równoległe uruchamianie wielu operacji. Delta Live Tables to robi automatycznie.

Inne opcje obejmują:

  • Rozdziel operacje na wiele notesów i uruchamiaj je równolegle w tym samym klastrze przy użyciu zadań wielodaniowych.
  • Użyj metody ThreadPoolExecutor języka Python lub innego podejścia wielowątkowego do równoległego uruchamiania zapytań.
  • Użyj usługi SQL Warehouse, jeśli wszystkie zapytania są zapisywane w języku SQL. Magazyny SQL są bardzo dobrze skalowane dla wielu zapytań uruchamianych równolegle, ponieważ zostały one zaprojektowane pod kątem tego typu obciążenia.