Dokumentacja konfiguracji obliczeniowej

W tym artykule opisano wszystkie ustawienia konfiguracji dostępne w interfejsie użytkownika tworzenia obliczeń. Większość użytkowników tworzy obliczenia przy użyciu przypisanych zasad, co ogranicza konfigurowalne ustawienia. Jeśli w interfejsie użytkownika nie widzisz określonego ustawienia, to dlatego, że wybrane zasady nie umożliwiają skonfigurowania tego ustawienia.

Konfiguracje i narzędzia do zarządzania opisane w tym artykule dotyczą zarówno obliczeń wszystkich zadań, jak i zadań. Aby uzyskać więcej informacji na temat konfigurowania obliczeń zadań, zobacz Use Azure Databricks compute with your jobs (Używanie obliczeń usługi Azure Databricks z zadaniami).

Zasady działalności

Zasady to zestaw reguł używanych do ograniczania opcji konfiguracji dostępnych dla użytkowników podczas tworzenia obliczeń. Jeśli użytkownik nie ma nieograniczonego uprawnienia do tworzenia klastra, może utworzyć zasoby obliczeniowe tylko przy użyciu przyznanych zasad.

Aby utworzyć obliczenia zgodnie z zasadami, wybierz zasady z menu rozwijanego Zasady .

Domyślnie wszyscy użytkownicy mają dostęp do zasad osobistych obliczeń , umożliwiając im tworzenie zasobów obliczeniowych z jedną maszyną. Jeśli potrzebujesz dostępu do zasobów obliczeniowych osobistych lub innych zasad, skontaktuj się z administratorem obszaru roboczego.

Obliczenia z jednym węzłem lub wieloma węzłami

W zależności od zasad można wybrać między tworzeniem obliczeń pojedynczego węzła lub obliczeniami z wieloma węzłami .

Obliczenia z jednym węzłem są przeznaczone dla zadań korzystających z małych ilości danych lub obciążeń nieprostrybucyjnych, takich jak biblioteki uczenia maszynowego z jednym węzłem. Obliczenia z wieloma węzłami powinny być używane w przypadku większych zadań z obciążeniami rozproszonymi.

Właściwości pojedynczego węzła

Obliczenia z jednym węzłem mają następujące właściwości:

  • Uruchamia platformę Spark lokalnie.
  • Sterownik działa zarówno jako wzorzec, jak i proces roboczy, bez węzłów procesu roboczego.
  • Duplikuje jeden wątek funkcji wykonawczej na rdzeń logiczny w obliczeniach, minus 1 rdzeń dla sterownika.
  • Zapisuje wszystkie stderrdane wyjściowe , stdouti log4j dziennika w dzienniku sterowników.
  • Nie można przekonwertować na obliczenia z wieloma węzłami.

Wybieranie pojedynczego lub wielowęźle

Podczas podejmowania decyzji o pojedynczym lub wielowęźleowym wystąpieniu obliczeniowym należy wziąć pod uwagę przypadek użycia:

  • Przetwarzanie danych na dużą skalę spowoduje wyczerpanie zasobów w ramach obliczeń pojedynczego węzła. W przypadku tych obciążeń usługa Databricks zaleca korzystanie z obliczeń z wieloma węzłami.

  • Obliczenia z jednym węzłem nie są przeznaczone do udostępniania. Aby uniknąć konfliktów zasobów, usługa Databricks zaleca używanie obliczeń wielowęźleowych, gdy zasoby obliczeniowe muszą być współużytkowane.

  • Nie można skalować obliczeń z wieloma węzłami do 0 procesów roboczych. Zamiast tego należy użyć obliczeń z jednym węzłem.

  • Obliczenia z jednym węzłem nie są zgodne z izolacją procesów.

  • Planowanie procesora GPU nie jest włączone w obliczeniach z jednym węzłem.

  • W przypadku obliczeń z jednym węzłem platforma Spark nie może odczytać plików Parquet z kolumną UDT. Wyniki następującego komunikatu o błędzie:

    The Spark driver has stopped unexpectedly and is restarting. Your notebook will be automatically reattached.
    

    Aby obejść ten problem, wyłącz natywny czytnik Parquet:

    spark.conf.set("spark.databricks.io.parquet.nativeReader.enabled", False)
    

Tryby dostępu

Tryb dostępu to funkcja zabezpieczeń, która określa, kto może korzystać z zasobów obliczeniowych i do jakich danych mogą uzyskiwać dostęp za pośrednictwem obliczeń. Każde środowisko obliczeniowe w usłudze Azure Databricks ma tryb dostępu.

Uwaga

Usługa Databricks zaleca używanie trybu dostępu współdzielonego dla wszystkich obciążeń. Używaj trybu dostępu pojedynczego użytkownika tylko wtedy, gdy wymagana funkcja nie jest obsługiwana przez tryb dostępu współdzielonego.

Tryb dostępu Widoczne dla użytkownika Obsługa interfejsu użytkownika Obsługiwane języki Uwagi
Jeden użytkownik Zawsze Tak Python, SQL, Scala, R Można przypisać do jednego użytkownika i używać go.
Udostępniona Zawsze (wymagany plan Premium) Tak Python (w środowisku Databricks Runtime 11.3 LTS i nowszym), SQL, Scala (w środowisku obliczeniowym z obsługą wykazu aparatu Unity przy użyciu środowiska Databricks Runtime 13.3 LTS i nowszych) Może być używany przez wielu użytkowników z izolacją danych wśród użytkowników.
Brak udostępnionej izolacji Administracja można ukryć ten tryb dostępu, wymuszając izolację użytkowników na stronie ustawień administratora. Nie. Python, SQL, Scala, R Istnieje powiązane ustawienie na poziomie konta dla zasobów obliczeniowych współużytkowanych izolacji.
Niestandardowy Ukryte (dla wszystkich nowych zasobów obliczeniowych) Nie. Python, SQL, Scala, R Ta opcja jest wyświetlana tylko wtedy, gdy masz istniejące zasoby obliczeniowe bez określonego trybu dostępu.

Istniejące zasoby obliczeniowe można uaktualnić, aby spełnić wymagania wykazu aparatu Unity, ustawiając tryb dostępu do pojedynczego użytkownika lub udostępnionego.

Uwaga

W środowisku Databricks Runtime 13.3 LTS i nowszym skrypty inicjowania i biblioteki są obsługiwane we wszystkich trybach dostępu. Wymagania i obsługa techniczna różnią się. Zobacz Gdzie można zainstalować skrypty inicjowania? i Biblioteki o zakresie klastra.

Wersje środowiska Uruchomieniowego usługi Databricks

Środowisko Databricks Runtime to zestaw podstawowych składników uruchamianych na obliczeniach. Wybierz środowisko uruchomieniowe przy użyciu menu rozwijanego Wersja środowiska uruchomieniowego usługi Databricks. Aby uzyskać szczegółowe informacje na temat określonych wersji środowiska Databricks Runtime, zobacz Databricks Runtime release notes versions and compatibility (Wersje i zgodność środowiska Databricks Runtime). Wszystkie wersje obejmują platformę Apache Spark. Usługa Databricks zaleca następujące kwestie:

  • W przypadku obliczeń wszystkich celów użyj najnowszej wersji, aby upewnić się, że masz najnowsze optymalizacje i najbardziej aktualną zgodność między kodem i wstępnie załadowanych pakietów.
  • W przypadku obliczeń zadań z uruchomionymi obciążeniami operacyjnymi rozważ użycie wersji środowiska Databricks Runtime obsługi długoterminowej (LTS). Użycie wersji LTS zapewni, że nie wystąpią problemy ze zgodnością i będą mogły dokładnie przetestować obciążenie przed uaktualnieniem.
  • W przypadku przypadków użycia nauki o danych i uczenia maszynowego należy wziąć pod uwagę wersję uczenia maszynowego środowiska Databricks Runtime.

Korzystanie z przyspieszania Photon

Funkcja Photon jest domyślnie włączona na obliczeniach z uruchomionym środowiskiem Databricks Runtime 9.1 LTS i nowszym.

Aby włączyć lub wyłączyć przyspieszanie photon, zaznacz pole wyboru Użyj przyspieszania photon. Aby dowiedzieć się więcej na temat aplikacji Photon, zobacz Co to jest Photon?.

Typy węzłów procesów roboczych i sterowników

Obliczenia składają się z jednego węzła sterownika i zera lub większej liczby węzłów roboczych. Można wybrać oddzielne typy wystąpień dostawcy usług w chmurze dla węzłów sterowników i procesów roboczych, chociaż domyślnie węzeł sterownika używa tego samego typu wystąpienia co węzeł roboczy. Różne rodziny typów wystąpień pasują do różnych przypadków użycia, takich jak obciążenia intensywnie korzystające z pamięci lub intensywnie korzystające z obliczeń.

Możesz również wybrać pulę do użycia jako węzeł procesu roboczego lub sterownika. Zobacz Co to są pule usługi Azure Databricks?.

Typ pracownika

W przypadku obliczeń wielowęzłowych węzły robocze uruchamiają funkcje wykonawcze platformy Spark i inne usługi wymagane do prawidłowego działania obliczeń. Podczas dystrybucji obciążenia za pomocą platformy Spark wszystkie rozproszone przetwarzanie odbywa się w węzłach roboczych. Usługa Azure Databricks uruchamia jedną funkcję wykonawczą na węzeł roboczy. W związku z tym terminy wykonawcze i proces roboczy są używane zamiennie w kontekście architektury usługi Databricks.

Napiwek

Aby uruchomić zadanie platformy Spark, potrzebujesz co najmniej jednego węzła roboczego. Jeśli środowisko obliczeniowe ma zero procesów roboczych, możesz uruchamiać polecenia inne niż Spark w węźle sterownika, ale polecenia platformy Spark kończą się niepowodzeniem.

Adresy IP węzła procesu roboczego

Usługa Azure Databricks uruchamia węzły robocze z dwoma prywatnymi adresami IP. Podstawowy prywatny adres IP węzła hostuje ruch wewnętrzny usługi Azure Databricks. Pomocniczy prywatny adres IP jest używany przez kontener Spark do komunikacji wewnątrz klastra. Ten model umożliwia usłudze Azure Databricks zapewnienie izolacji między wieloma obliczeniami w tym samym obszarze roboczym.

Typ sterownika

Węzeł sterownika przechowuje informacje o stanie wszystkich notesów dołączonych do obliczeń. Węzeł sterownika obsługuje również element SparkContext, interpretuje wszystkie polecenia uruchamiane z notesu lub biblioteki na obliczeniach i uruchamia wzorzec platformy Apache Spark, który koordynuje funkcje wykonawcze platformy Spark.

Wartość domyślna typu węzła sterownika jest taka sama jak typ węzła procesu roboczego. Możesz wybrać większy typ węzła sterownika z większą ilością pamięci, jeśli planujesz collect() wiele danych z procesów roboczych platformy Spark i analizujesz je w notesie.

Napiwek

Ponieważ węzeł sterownika przechowuje wszystkie informacje o stanie dołączonych notesów, pamiętaj, aby odłączyć nieużywane notesy z węzła sterownika.

Typy wystąpień procesora GPU

W przypadku zadań wymagających obliczeń wymagających wysokiej wydajności, takich jak związane z uczeniem głębokim, usługa Azure Databricks obsługuje przyspieszone obliczenia z jednostkami przetwarzania grafiki (GPU). Aby uzyskać więcej informacji, zobacz Obliczenia z obsługą procesora GPU.

Maszyny wirtualne poufnego przetwarzania na platformie Azure

Typy maszyn wirtualnych przetwarzania poufnego platformy Azure uniemożliwiają nieautoryzowany dostęp do danych, w tym z operatora chmury. Ten typ maszyny wirtualnej jest korzystny dla wysoce regulowanych branż i regionów, a także firm z poufnymi danymi w chmurze. Aby uzyskać więcej informacji na temat poufnego przetwarzania na platformie Azure, zobacz Poufne przetwarzanie na platformie Azure.

Aby uruchamiać obciążenia przy użyciu maszyn wirtualnych do przetwarzania poufnego platformy Azure, wybierz typy maszyn wirtualnych serii DC lub EC na liście rozwijanej węzła procesu roboczego i węzła sterownika. Zobacz Opcje poufnej maszyny wirtualnej platformy Azure.

Wystąpienia typu spot

Aby zaoszczędzić koszty, możesz użyć wystąpień typu spot, znanych również jako maszyny wirtualne typu spot platformy Azure, zaznaczając pole wyboru Wystąpienia typu spot.

Konfigurowanie typu spot

Pierwsze wystąpienie będzie zawsze na żądanie (węzeł sterownika jest zawsze na żądanie), a kolejne wystąpienia będą wystąpieniami typu spot.

Jeśli wystąpienia są eksmitowane z powodu niedostępności, usługa Azure Databricks podejmie próbę uzyskania nowych wystąpień typu spot w celu zastąpienia eksmitowanych wystąpień. Jeśli nie można uzyskać wystąpień typu spot, wystąpienia na żądanie są wdrażane w celu zastąpienia eksmitowanych wystąpień. Ponadto po dodaniu nowych węzłów do istniejących zasobów obliczeniowych usługa Azure Databricks podejmie próbę uzyskania wystąpień typu spot dla tych węzłów.

Włączanie skalowania automatycznego

Po zaznaczeniu opcji Włącz skalowanie automatyczne można podać minimalną i maksymalną liczbę procesów roboczych dla obliczeń. Następnie usługa Databricks wybiera odpowiednią liczbę procesów roboczych wymaganych do uruchomienia zadania.

Aby ustawić minimalną i maksymalną liczbę procesów roboczych, środowisko obliczeniowe będzie skalować automatycznie między nimi, użyj pól Min workers (Minimalna liczba procesów roboczych) i Max workers (Maksymalna liczba procesów roboczych) obok listy rozwijanej Typ procesu roboczego.

Jeśli nie włączysz skalowania automatycznego, wprowadź stałą liczbę procesów roboczych w polu Pracownicy obok listy rozwijanej Typ procesu roboczego.

Uwaga

Gdy środowisko obliczeniowe jest uruchomione, na stronie szczegółów obliczeniowych zostanie wyświetlona liczba przydzielonych procesów roboczych. Liczbę przydzielonych procesów roboczych można porównać z konfiguracją procesu roboczego i wprowadzić korekty zgodnie z potrzebami.

Zalety skalowania automatycznego

Dzięki skalowaniu automatycznemu usługa Azure Databricks dynamicznie przenosi pracowników do charakterystyki zadania. Niektóre części potoku mogą być bardziej wymagające obliczeń niż inne, a usługa Databricks automatycznie dodaje dodatkowych procesów roboczych w tych fazach pracy (i usuwa je, gdy nie są już potrzebne).

Skalowanie automatyczne ułatwia osiągnięcie wysokiego wykorzystania, ponieważ nie trzeba aprowizować zasobów obliczeniowych w celu dopasowania ich do obciążenia. Dotyczy to szczególnie obciążeń, których wymagania zmieniają się w czasie (na przykład eksplorowanie zestawu danych w ciągu dnia), ale może również mieć zastosowanie do jednorazowego krótszego obciążenia, którego wymagania dotyczące aprowizacji są nieznane. Skalowanie automatyczne oferuje zatem dwie zalety:

  • Obciążenia mogą działać szybciej w porównaniu do zasobów obliczeniowych o stałym rozmiarze, które nie są aprowidowane.
  • Skalowanie automatyczne może zmniejszyć ogólne koszty w porównaniu ze statycznie wielkością obliczeń.

W zależności od stałego rozmiaru zasobów obliczeniowych i obciążenia skalowanie automatyczne daje jedną lub obie te korzyści jednocześnie. Rozmiar obliczeniowy może przekraczać minimalną liczbę procesów roboczych wybranych po zakończeniu wystąpień przez dostawcę usług w chmurze. W takim przypadku usługa Azure Databricks stale ponawia próbę ponownego aprowizowania wystąpień w celu zachowania minimalnej liczby procesów roboczych.

Uwaga

Skalowanie automatyczne nie jest dostępne w przypadku zadań spark-submit.

Uwaga

Skalowanie automatyczne obliczeń ma ograniczenia skalowania w dół rozmiaru klastra dla obciążeń przesyłania strumieniowego ze strukturą. Usługa Databricks zaleca używanie tabel delta live z rozszerzonym skalowaniem automatycznym na potrzeby obciążeń przesyłania strumieniowego. Zobacz Co to jest rozszerzone skalowanie automatyczne?.

How autoscaling behaves (Jak działa skalowanie automatyczne)

Obszar roboczy w planach cenowych Premium i Enterprise korzysta ze zoptymalizowanego skalowania automatycznego. Obszary robocze w standardowym planie cenowym korzystają ze standardowego skalowania automatycznego.

Zoptymalizowane skalowanie automatyczne ma następujące cechy:

  • Skaluje w górę od minuty do maksymalnej w 2 krokach.
  • Można skalować w dół, nawet jeśli obliczenia nie są bezczynne, patrząc na stan pliku mieszania.
  • Skaluje w dół na podstawie wartości procentowej bieżących węzłów.
  • W przypadku obliczeń zadań skalowanie w dół jest skalowane w dół, jeśli zasoby obliczeniowe są niedostatecznie wykorzystywane w ciągu ostatnich 40 sekund.
  • W przypadku obliczeń wszystkich celów funkcja jest skalowana w dół, jeśli zasoby obliczeniowe są niedostatecznie wykorzystywane w ciągu ostatnich 150 sekund.
  • spark.databricks.aggressiveWindowDownS Właściwość konfiguracji platformy Spark określa w sekundach, jak często obliczenia podejmują decyzje dotyczące skalowania w dół. Zwiększenie wartości powoduje, że obliczenia będą skalowane w dół wolniej. Maksymalna wartość to 600.

Skalowanie automatyczne w warstwie Standardowa jest używane w obszarach roboczych planu standardowego. Skalowanie automatyczne w warstwie Standardowa ma następujące cechy:

  • Rozpoczyna się od dodania 8 węzłów. Następnie skaluje w górę wykładniczo, wykonując tyle kroków, ile jest wymaganych do osiągnięcia maksymalnej wartości.
  • Skaluje w dół, gdy 90% węzłów nie jest zajęte przez 10 minut, a obliczenia były bezczynne przez co najmniej 30 sekund.
  • Skaluje w dół wykładniczo, począwszy od 1 węzła.

Skalowanie automatyczne za pomocą pul

Jeśli dołączasz zasoby obliczeniowe do puli, rozważ następujące kwestie:

  • Upewnij się, że żądany rozmiar obliczeniowy jest mniejszy lub równy minimalnej liczbie bezczynnych wystąpień w puli. Jeśli jest większy, czas uruchamiania obliczeń będzie odpowiednikiem obliczeń, które nie korzystają z puli.
  • Upewnij się, że maksymalny rozmiar obliczeniowy jest mniejszy lub równy maksymalnej pojemności puli. Jeśli jest on większy, tworzenie zasobów obliczeniowych zakończy się niepowodzeniem.

Przykład skalowania automatycznego

Jeśli ponownie skonfigurujesz statyczne obliczenia w celu automatycznego skalowania, usługa Azure Databricks natychmiast zmienia rozmiar obliczeń w granicach minimalnych i maksymalnych, a następnie uruchamia skalowanie automatyczne. Na przykład w poniższej tabeli przedstawiono, co się stanie z obliczeniami o określonym rozmiarze początkowym, jeśli ponownie skonfigurujesz obliczenia w celu automatycznego skalowania między 5 a 10 węzłami.

Rozmiar początkowy Rozmiar po rekonfiguracji
6 6
12 10
3 5

Włączanie automatycznego skalowania magazynu lokalnego

Często trudno jest oszacować ilość miejsca na dysku potrzebnego do wykonania określonego zadania. Aby zaoszczędzić na konieczności oszacowania, ile gigabajtów dysku zarządzanego ma zostać dołączonych do zasobów obliczeniowych w czasie tworzenia, usługa Azure Databricks automatycznie włącza automatyczne skalowanie magazynu lokalnego na wszystkich obliczeniach usługi Azure Databricks.

Dzięki automatycznemu skalowaniu magazynu lokalnego usługa Azure Databricks monitoruje ilość wolnego miejsca na dysku dostępnego dla procesów roboczych platformy Spark w środowisku obliczeniowym. Jeśli proces roboczy zacznie działać zbyt mało na dysku, usługa Databricks automatycznie dołącza nowy dysk zarządzany do procesu roboczego, zanim zabraknie miejsca na dysku. Dyski są dołączone do limitu 5 TB całkowitego miejsca na dysku na maszynę wirtualną (w tym początkowego magazynu lokalnego maszyny wirtualnej).

Dyski zarządzane dołączone do maszyny wirtualnej są odłączane tylko wtedy, gdy maszyna wirtualna zostanie zwrócona na platformę Azure. Oznacza to, że dyski zarządzane nigdy nie są odłączane od maszyny wirtualnej, o ile są one częścią działającego środowiska obliczeniowego. Aby skalować w dół użycie dysku zarządzanego, usługa Azure Databricks zaleca użycie tej funkcji w obliczeniach skonfigurowanych z automatycznym skalowaniem obliczeniowym lub automatycznym kończeniem.

Szyfrowanie dysku lokalnego

Ważne

Ta funkcja jest dostępna w publicznej wersji zapoznawczej.

Niektóre typy wystąpień używane do uruchamiania obliczeń mogą mieć lokalnie dołączone dyski. Usługa Azure Databricks może przechowywać dane mieszania lub efemeryczne dane na tych lokalnie dołączonych dyskach. Aby upewnić się, że wszystkie dane magazynowane są szyfrowane dla wszystkich typów magazynu, w tym danych mieszania przechowywanych tymczasowo na dyskach lokalnych obliczeniowych, możesz włączyć szyfrowanie dysków lokalnych.

Ważne

Obciążenia mogą działać wolniej ze względu na wpływ wydajności odczytywania i zapisywania zaszyfrowanych danych do i z woluminów lokalnych.

Po włączeniu szyfrowania dysku lokalnego usługa Azure Databricks generuje lokalnie klucz szyfrowania unikatowy dla każdego węzła obliczeniowego i służy do szyfrowania wszystkich danych przechowywanych na dyskach lokalnych. Zakres klucza jest lokalny dla każdego węzła obliczeniowego i jest niszczony wraz z samym węzłem obliczeniowym. W okresie jego istnienia klucz znajduje się w pamięci na potrzeby szyfrowania i odszyfrowywania i jest przechowywany zaszyfrowany na dysku.

Aby włączyć szyfrowanie dysków lokalnych, należy użyć interfejsu API klastrów. Podczas tworzenia lub edytowania zasobów obliczeniowych ustaw wartość enable_local_disk_encryptiontrue.

Automatyczne zakończenie

Automatyczne kończenie można ustawić dla obliczeń. Podczas tworzenia zasobów obliczeniowych można określić okres braku aktywności w minutach, po którym ma zostać zakończone przetwarzanie.

Jeśli różnica między bieżącym czasem a ostatnim uruchomieniem polecenia w obliczeniach jest większa niż określony okres braku aktywności, usługa Azure Databricks automatycznie kończy to obliczenia. Aby uzyskać więcej informacji na temat kończenia obliczeń, zobacz Kończenie obliczeń.

Aby uzyskać szczegółowe informacje na temat współdziałania typów tagów puli i zasobów obliczeniowych, zobacz Monitorowanie użycia przy użyciu tagów

Aby dodać tagi do obliczeń:

  1. W sekcji Tagi dodaj parę klucz-wartość dla każdego tagu niestandardowego.
  2. Kliknij przycisk Dodaj.

Tagi

Tagi umożliwiają łatwe monitorowanie kosztów zasobów w chmurze używanych przez różne grupy w organizacji. Tagi można określić jako pary klucz-wartość podczas tworzenia obliczeń, a usługa Azure Databricks stosuje te tagi do zasobów w chmurze, takich jak maszyny wirtualne i woluminy dysków, a także raporty użycia jednostek DBU.

W przypadku obliczeń uruchamianych z pul tagi niestandardowe są stosowane tylko do raportów użycia jednostek DBU i nie są propagowane do zasobów w chmurze.

Konfiguracja platformy Spark

Aby dostosować zadania platformy Spark, możesz podać niestandardowe właściwości konfiguracji platformy Spark.

  1. Na stronie konfiguracja obliczeń kliknij przełącznik Opcje zaawansowane.

  2. Kliknij kartę Spark .

    Konfiguracja platformy Spark

    W konfiguracji platformy Spark wprowadź właściwości konfiguracji jako jedną parę klucz-wartość na wiersz.

Podczas konfigurowania obliczeń przy użyciu interfejsu API klastrów ustaw właściwości platformy Spark w polu w spark_conf interfejsie API tworzenia klastra lub Zaktualizuj interfejs API klastra.

Aby wymusić konfiguracje platformy Spark na obliczeniach, administratorzy obszaru roboczego mogą używać zasad obliczeniowych.

Pobieranie właściwości konfiguracji platformy Spark z wpisu tajnego

Usługa Databricks zaleca przechowywanie poufnych informacji, takich jak hasła, w wpisie tajnym zamiast zwykłego tekstu. Aby odwołać się do wpisu tajnego w konfiguracji platformy Spark, użyj następującej składni:

spark.<property-name> {{secrets/<scope-name>/<secret-name>}}

Aby na przykład ustawić właściwość konfiguracji platformy Spark o nazwie password na wartość wpisu tajnego przechowywanego w secrets/acme_app/passwordpliku :

spark.password {{secrets/acme-app/password}}

Aby uzyskać więcej informacji, zobacz Składnia odwoływania się do wpisów tajnych w właściwości konfiguracji platformy Spark lub zmiennej środowiskowej.

Dostęp SSH do obliczeń

Ze względów bezpieczeństwa w usłudze Azure Databricks port SSH jest domyślnie zamykany. Jeśli chcesz włączyć dostęp SSH do klastrów Spark, zobacz Protokół SSH do węzła sterownika.

Uwaga

Protokół SSH można włączyć tylko wtedy, gdy obszar roboczy zostanie wdrożony we własnej sieci wirtualnej platformy Azure.

Zmienne środowiskowe

Możesz skonfigurować niestandardowe zmienne środowiskowe, do których można uzyskać dostęp za pomocą skryptów inicjowania uruchomionych na obliczeniach. Usługa Databricks udostępnia również wstępnie zdefiniowane zmienne środowiskowe, których można używać w skryptach inicjowania. Nie można zastąpić tych wstępnie zdefiniowanych zmiennych środowiskowych.

  1. Na stronie konfiguracja obliczeń kliknij przełącznik Opcje zaawansowane.

  2. Kliknij kartę Spark .

  3. Ustaw zmienne środowiskowe w polu Zmienne środowiskowe.

    Pole Zmienne środowiskowe

Zmienne środowiskowe można również ustawić przy użyciu spark_env_vars pola w interfejsie API tworzenia klastra lub aktualizowaniu interfejsu API klastra.

Dostarczanie dzienników obliczeniowych

Podczas tworzenia obliczeń można określić lokalizację dostarczania dzienników dla węzła sterownika Spark, węzłów procesów roboczych i zdarzeń. Dzienniki są dostarczane co pięć minut i archiwizowane co godzinę w wybranym miejscu docelowym. Po zakończeniu obliczeń usługa Azure Databricks gwarantuje dostarczanie wszystkich dzienników generowanych do momentu zakończenia obliczeń.

Miejsce docelowe dzienników zależy od obiektu obliczeniowego cluster_id. Jeśli określone miejsce docelowe to dbfs:/cluster-log-delivery, dzienniki obliczeniowe dla 0630-191345-leap375 programu są dostarczane do dbfs:/cluster-log-delivery/0630-191345-leap375programu .

Aby skonfigurować lokalizację dostarczania dziennika:

  1. Na stronie obliczeniowej kliknij przełącznik Opcje zaawansowane.
  2. Kliknij kartę Rejestrowanie .
  3. Wybierz typ miejsca docelowego.
  4. Wprowadź ścieżkę dziennika obliczeniowego.

Uwaga

Ta funkcja jest również dostępna w interfejsie API REST. Zobacz interfejs API klastrów.