Optymalizacja użycia pamięci dla platformy Apache Spark

Artykuł
03/15/2024

W tym artykule omówiono sposób optymalizacji zarządzania pamięcią klastra Apache Spark w celu uzyskania najlepszej wydajności w usłudze Azure HDInsight.

Omówienie

Platforma Spark działa przez umieszczenie danych w pamięci. Zarządzanie zasobami pamięci jest kluczowym aspektem optymalizacji wykonywania zadań platformy Spark. Istnieje kilka technik, które można zastosować, aby efektywnie używać pamięci klastra.

Preferuj mniejsze partycje danych i konto dla rozmiaru, typów i dystrybucji danych w strategii partycjonowania.
Rozważ nowsze, bardziej wydajne Kryo data serialization, a nie domyślne serializacji Języka Java.
Preferuj używanie usługi YARN, ponieważ oddziela spark-submit ją partia.
Monitorowanie i dostrajanie ustawień konfiguracji platformy Spark.

W dokumentacji struktura pamięci platformy Spark i niektóre parametry pamięci wykonawczej klucza są wyświetlane na następnej ilustracji.

Zagadnienia dotyczące pamięci platformy Spark

Jeśli używasz usługi Apache Hadoop YARN, usługa YARN kontroluje pamięć używaną przez wszystkie kontenery w każdym węźle spark. Na poniższym diagramie przedstawiono kluczowe obiekty i ich relacje.

YARN Spark Memory Management.

Aby rozwiązać problem z komunikatami braku pamięci, spróbuj:

Przejrzyj shuffles zarządzania DAG. Zmniejszanie danych źródłowych po stronie mapy, wstępne partycjonowanie (lub zasobniki), maksymalizowanie pojedynczych mieszania i zmniejszanie ilości wysyłanych danych.
Preferuj ReduceByKey ze stałym limitem pamięci do GroupByKey, który zapewnia agregacje, okna i inne funkcje, ale ma limit niezwiązanej pamięci.
Preferuj TreeReduceelement , który wykonuje więcej pracy na funkcjach wykonawczych lub partycjach, do Reduce, co wykonuje całą pracę na sterowniku.
Używaj ramek danych, a nie obiektów RDD niższego poziomu.
Utwórz typy złożone, które hermetyzują akcje, takie jak "Top N", różne agregacje lub operacje okien.

Aby uzyskać dodatkowe kroki rozwiązywania problemów, zobacz Wyjątki OutOfMemoryError dla platformy Apache Spark w usłudze Azure HDInsight.

Optymalizacja użycia pamięci dla platformy Apache Spark

Omówienie

Zagadnienia dotyczące pamięci platformy Spark

Następne kroki

Dodatkowe zasoby