Uwaga
Dostęp do tej strony wymaga autoryzacji. Może spróbować zalogować się lub zmienić katalogi.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Apache Ambari to interfejs internetowy do zarządzania klastrami usługi HDInsight i monitorowania ich. Aby zapoznać się z wprowadzeniem do internetowego interfejsu użytkownika systemu Ambari, zobacz Manage HDInsight clusters by using the Apache Ambari Web UI (Zarządzanie klastrami usługi HDInsight przy użyciu internetowego interfejsu użytkownika systemu Apache Ambari).
Właściwości Apache Pig można modyfikować w internetowym interfejsie użytkownika Ambari w celu dostrajania zapytań Apache Pig. Modyfikowanie właściwości Pig w systemie Ambari bezpośrednio modyfikuje te właściwości w pliku /etc/pig/2.4.2.0-258.0/pig.properties
.
Aby zmodyfikować właściwości Pig, przejdź do karty Konfiguracje, a następnie rozwiń panel Zaawansowane właściwości Pig.
Znajdź, usuń komentarz i zmień wartość właściwości, którą chcesz zmodyfikować.
Wybierz pozycję Zapisz w prawym górnym rogu okna, aby zapisać nową wartość. Niektóre właściwości mogą wymagać ponownego uruchomienia usługi.
Uwaga
Wszystkie ustawienia na poziomie sesji zastępują wartości właściwości w pig.properties
pliku.
Dostrajanie silnika wykonawczego
Dostępne są dwa silniki wykonawcze do uruchamiania skryptów Pig: MapReduce i Tez. Tez to zoptymalizowany silnik i jest znacznie szybszy niż MapReduce.
Aby zmodyfikować silnik wykonywania, w okienku Zaawansowane właściwości pig znajdź właściwość
exectype
.Wartość domyślna to MapReduce. Zmień ją na Tez.
Włączanie trybu lokalnego
Podobnie jak w przypadku programu Hive, tryb lokalny służy do przyspieszania zadań ze stosunkowo mniejszymi ilościami danych.
Aby włączyć tryb lokalny, ustaw wartość
pig.auto.local.enabled
true. Wartość domyślna to false.Zadania o rozmiarze danych wejściowych mniejsze niż
pig.auto.local.input.maxbytes
wartość właściwości są uważane za małe zadania. Wartość domyślna to 1 GB.
Kopiuj pamięć podręczną użytkownika Jar
Pig kopiuje pliki JAR wymagane przez funkcje zdefiniowane przez użytkownika do rozproszonej pamięci podręcznej, aby udostępnić je węzłom zadań. Te słoiki nie zmieniają się często. Jeśli to ustawienie jest włączone, pig.user.cache.enabled
ustawienie umożliwia umieszczanie plików jar w pamięci podręcznej w celu ponownego użycia ich w przypadku zadań uruchamianych przez tego samego użytkownika. To ustawienie powoduje niewielki wzrost wydajności zadania.
Aby włączyć, ustaw wartość
pig.user.cache.enabled
na prawda. Wartość domyślna to false.Aby ustawić ścieżkę podstawową buforowanych plików jar, przypisz ją do
pig.user.cache.location
. Wartość domyślna to/tmp
.
Optymalizowanie wydajności przy użyciu ustawień pamięci
Następujące ustawienia pamięci mogą pomóc w optymalizacji wydajności skryptów Pig.
pig.cachedbag.memusage
: ilość pamięci przydzielonej do torby. Worek jest kolekcją krotek. Krotka jest uporządkowanym zestawem pól, a pole jest jednostką danych. Jeśli dane w torbie wykraczają poza przydzieloną pamięć, są zapisywane na dysku. Wartość domyślna to 0,2, która reprezentuje 20 procent dostępnej pamięci. Ta pamięć jest współdzielona we wszystkich torbach w aplikacji.pig.spill.size.threshold
: Paczki większe niż ten próg rozmiaru zrzutu (w bajtach) są zapisywane na dysku. Wartość domyślna to 5 MB.
Kompresowanie plików tymczasowych
Program Pig generuje pliki tymczasowe podczas wykonywania zadania. Kompresowanie plików tymczasowych powoduje wzrost wydajności podczas odczytywania lub zapisywania plików na dysku. Następujące ustawienia mogą służyć do kompresowania plików tymczasowych.
pig.tmpfilecompression
: Jeśli wartość true, włącza kompresję plików tymczasowych. Wartość domyślna to false.pig.tmpfilecompression.codec
: koder kodujący kompresji używany do kompresowania plików tymczasowych. Zalecane kodery kompresji to LZO i Snappy w celu niższego użycia procesora.
Włącz łączenie podziału
Po włączeniu małe pliki są łączone, co skutkuje mniejszą liczbą zadań mapowania. To ustawienie zwiększa wydajność zadań z wieloma małymi plikami. Aby włączyć, ustaw wartość pig.noSplitCombination
na true. Wartość domyślna to false.
Konfiguracja maperów
Liczba maperów jest kontrolowana przez zmodyfikowanie właściwości pig.maxCombinedSplitSize
. Ta właściwość określa rozmiar danych, które mają być przetwarzane przez jedno zadanie mapy. Wartość domyślna to domyślny rozmiar bloku systemu plików. Zwiększenie tej wartości powoduje zmniejszenie liczby zadań mapowania.
Reduktory dostrajania
Liczba reduktorów jest obliczana na podstawie parametru pig.exec.reducers.bytes.per.reducer
. Parametr domyślnie określa liczbę bajtów przetworzonych na reduktor danych, wynoszącą 1 GB. Aby ograniczyć maksymalną liczbę reduktorów, ustaw właściwość pig.exec.reducers.max
. Domyślnie wynosi ona 999.