Udostępnij za pośrednictwem


Dokumentacja konfiguracji obliczeniowej

W tym artykule opisano ustawienia konfiguracji dostępne w interfejsie użytkownika tworzenia obliczeń. Większość użytkowników tworzy zasoby obliczeniowe przy użyciu przypisanych zasad, co ogranicza konfigurowalne ustawienia. Jeśli w interfejsie użytkownika nie widzisz określonego ustawienia, to dlatego, że wybrane zasady nie umożliwiają skonfigurowania tego ustawienia.

Konfiguracje i narzędzia do zarządzania opisane w tym artykule dotyczą zarówno obliczeń wszystkich zadań, jak i zadań. Aby uzyskać więcej informacji na temat konfigurowania obliczeń zadań, zobacz Use Azure Databricks compute with your jobs (Używanie obliczeń usługi Azure Databricks z zadaniami).

Tworzenie nowego zasobu obliczeniowego ogólnego przeznaczenia

Aby utworzyć nowy zasób obliczeniowy ogólnego przeznaczenia:

  1. Na pasku bocznym obszaru roboczego kliknij pozycję Obliczenia.
  2. Kliknij przycisk Utwórz obliczenia.
  3. Skonfiguruj zasób obliczeniowy.
  4. Kliknij pozycję Utwórz obliczenia.

Nowy zasób obliczeniowy zostanie automatycznie uruchomiony i będzie gotowy do użycia wkrótce.

Manifest

Zasady to zestaw reguł używanych do ograniczania opcji konfiguracji dostępnych dla użytkowników podczas tworzenia zasobów obliczeniowych. Jeśli użytkownik nie ma nieograniczonego uprawnienia do tworzenia klastra, może tworzyć tylko zasoby obliczeniowe przy użyciu przyznanych zasad.

Aby utworzyć zasoby obliczeniowe zgodnie z zasadami, wybierz zasady z menu rozwijanego Zasady .

Domyślnie wszyscy użytkownicy mają dostęp do zasad osobistych obliczeń , umożliwiając im tworzenie zasobów obliczeniowych z jedną maszyną. Jeśli potrzebujesz dostępu do zasobów obliczeniowych osobistych lub innych zasad, skontaktuj się z administratorem obszaru roboczego.

Obliczenia z jednym węzłem lub wieloma węzłami

W zależności od zasad można wybrać między utworzeniem zasobu obliczeniowego pojedynczego węzła lub zasobem obliczeniowym z wieloma węzłami .

Obliczenia z jednym węzłem są przeznaczone dla zadań korzystających z małych ilości danych lub obciążeń nieprostrybucyjnych, takich jak biblioteki uczenia maszynowego z jednym węzłem. Obliczenia z wieloma węzłami powinny być używane w przypadku większych zadań z obciążeniami rozproszonymi.

Właściwości pojedynczego węzła

Zasób obliczeniowy z jednym węzłem ma następujące właściwości:

  • Uruchamia platformę Spark lokalnie.
  • Sterownik działa zarówno jako wzorzec, jak i proces roboczy, bez węzłów procesu roboczego.
  • Duplikuje jeden wątek funkcji wykonawczej na rdzeń logiczny w zasobie obliczeniowym, minus 1 rdzeń sterownika.
  • Zapisuje wszystkie stderrdane wyjściowe , stdouti log4j dziennika w dzienniku sterowników.
  • Nie można przekonwertować na zasób obliczeniowy z wieloma węzłami.

Wybieranie pojedynczego lub wielowęźle

Podczas podejmowania decyzji o obliczeniach z jednym lub wieloma węzłami należy wziąć pod uwagę przypadek użycia:

  • Przetwarzanie danych na dużą skalę spowoduje wyczerpanie zasobów w zasobie obliczeniowym pojedynczego węzła. W przypadku tych obciążeń usługa Databricks zaleca korzystanie z obliczeń wielowęźleowych.

  • Obliczenia z jednym węzłem nie są przeznaczone do udostępniania. Aby uniknąć konfliktów zasobów, usługa Databricks zaleca używanie zasobu obliczeniowego z wieloma węzłami, gdy zasoby obliczeniowe muszą być współużytkowane.

  • Nie można skalować zasobu obliczeniowego z wieloma węzłami do 0 procesów roboczych. Zamiast tego użyj obliczeń z jednym węzłem.

  • Obliczenia z jednym węzłem nie są zgodne z izolacją procesów.

  • Planowanie procesora GPU nie jest włączone w obliczeniach z jednym węzłem.

  • W przypadku obliczeń z jednym węzłem platforma Spark nie może odczytać plików Parquet z kolumną UDT. Wyniki następującego komunikatu o błędzie:

    The Spark driver has stopped unexpectedly and is restarting. Your notebook will be automatically reattached.
    

    Aby obejść ten problem, wyłącz natywny czytnik Parquet:

    spark.conf.set("spark.databricks.io.parquet.nativeReader.enabled", False)
    

Tryby dostępu

Tryb dostępu to funkcja zabezpieczeń, która określa, kto może używać zasobu obliczeniowego i danych, do których mogą uzyskiwać dostęp przy użyciu zasobu obliczeniowego. Każdy zasób obliczeniowy w usłudze Azure Databricks ma tryb dostępu.

Usługa Databricks zaleca używanie trybu dostępu współdzielonego dla wszystkich obciążeń. Użyj trybu dostępu pojedynczego użytkownika tylko wtedy, gdy wymagana funkcja nie jest obsługiwana przez tryb dostępu współdzielonego.

Tryb dostępu Widoczne dla użytkownika Obsługa interfejsu użytkownika Obsługiwane języki Uwagi
Jeden użytkownik Zawsze Tak Python, SQL, Scala, R Można przypisać do jednego użytkownika i używać go. Określany jako Przypisany tryb dostępu w niektórych obszarach roboczych.
Udostępniona Zawsze (wymagany plan Premium) Tak Python (w środowisku Databricks Runtime 11.3 LTS i nowszym), SQL, Scala (w środowisku obliczeniowym z obsługą wykazu aparatu Unity przy użyciu środowiska Databricks Runtime 13.3 LTS i nowszych) Może być używany przez wielu użytkowników z izolacją danych wśród użytkowników.
Brak udostępnionej izolacji Administratorzy mogą ukryć ten tryb dostępu, wymuszając izolację użytkowników na stronie ustawień administratora. Nie. Python, SQL, Scala, R Istnieje powiązane ustawienie na poziomie konta dla zasobów obliczeniowych współużytkowanych izolacji.
Niestandardowy Ukryte (dla wszystkich nowych zasobów obliczeniowych) Nie. Python, SQL, Scala, R Ta opcja jest wyświetlana tylko wtedy, gdy masz istniejący zasób obliczeniowy bez określonego trybu dostępu.

Możesz uaktualnić istniejący zasób obliczeniowy, aby spełnić wymagania wykazu aparatu Unity, ustawiając jego tryb dostępu na pojedynczy użytkownik lub udostępniony. Aby uzyskać szczegółowe informacje na temat funkcji obsługiwanych przez każdy z tych trybów dostępu w obszarach roboczych z obsługą wykazu aparatu Unity, zobacz Ograniczenia trybu dostępu obliczeniowego dla wykazu aparatu Unity.

Uwaga

W środowisku Databricks Runtime 13.3 LTS i nowszym skrypty inicjowania i biblioteki są obsługiwane przez wszystkie tryby dostępu. Wymagania i poziomy obsługi różnią się. Zobacz Gdzie można zainstalować skrypty inicjowania? i Biblioteki o zakresie klastra.

Wersje środowiska Uruchomieniowego usługi Databricks

Środowisko Databricks Runtime to zestaw podstawowych składników uruchamianych na obliczeniach. Wybierz środowisko uruchomieniowe przy użyciu menu rozwijanego Wersja środowiska uruchomieniowego usługi Databricks. Aby uzyskać szczegółowe informacje na temat określonych wersji środowiska Databricks Runtime, zobacz Databricks Runtime release notes versions and compatibility (Wersje i zgodność środowiska Databricks Runtime). Wszystkie wersje obejmują platformę Apache Spark. Usługa Databricks zaleca następujące kwestie:

  • W przypadku obliczeń wszystkich celów użyj najnowszej wersji, aby upewnić się, że masz najnowsze optymalizacje i najbardziej aktualną zgodność między kodem i wstępnie załadowanych pakietów.
  • W przypadku obliczeń zadań z uruchomionymi obciążeniami operacyjnymi rozważ użycie wersji środowiska Databricks Runtime obsługi długoterminowej (LTS). Użycie wersji LTS zapewni, że nie wystąpią problemy ze zgodnością i będą mogły dokładnie przetestować obciążenie przed uaktualnieniem.
  • W przypadku przypadków użycia nauki o danych i uczenia maszynowego należy wziąć pod uwagę wersję uczenia maszynowego środowiska Databricks Runtime.

Korzystanie z przyspieszania Photon

Funkcja Photon jest domyślnie włączona na obliczeniach z uruchomionym środowiskiem Databricks Runtime 9.1 LTS i nowszym.

Aby włączyć lub wyłączyć przyspieszanie photon, zaznacz pole wyboru Użyj przyspieszania photon. Aby dowiedzieć się więcej na temat aplikacji Photon, zobacz Co to jest Photon?.

Typy węzłów procesów roboczych i sterowników

Zasób obliczeniowy składa się z jednego węzła sterownika i zera lub większej liczby węzłów roboczych. Można wybrać oddzielne typy wystąpień dostawcy usług w chmurze dla węzłów sterowników i procesów roboczych, chociaż domyślnie węzeł sterownika używa tego samego typu wystąpienia co węzeł roboczy. Różne rodziny typów wystąpień pasują do różnych przypadków użycia, takich jak obciążenia intensywnie korzystające z pamięci lub intensywnie korzystające z obliczeń.

Możesz również wybrać pulę do użycia jako węzeł procesu roboczego lub sterownika. Jako typ procesu roboczego należy używać tylko puli z wystąpieniami typu spot. Wybierz oddzielny typ sterownika na żądanie, aby uniemożliwić odzyskanie sterownika. Zobacz Łączenie z pulami.

Typ pracownika

W przypadku obliczeń wielowęzłowych węzły robocze uruchamiają funkcje wykonawcze platformy Spark i inne usługi wymagane do prawidłowego działania zasobu obliczeniowego. Podczas dystrybucji obciążenia za pomocą platformy Spark całe rozproszone przetwarzanie odbywa się w węzłach roboczych. Usługa Azure Databricks uruchamia jedną funkcję wykonawczą na węzeł roboczy. W związku z tym terminy wykonawcze i proces roboczy są używane zamiennie w kontekście architektury usługi Databricks.

Napiwek

Aby uruchomić zadanie platformy Spark, potrzebujesz co najmniej jednego węzła roboczego. Jeśli zasób obliczeniowy ma zero procesów roboczych, możesz uruchamiać polecenia spoza platformy Spark w węźle sterownika, ale polecenia platformy Spark kończą się niepowodzeniem.

Adresy IP węzła procesu roboczego

Usługa Azure Databricks uruchamia węzły robocze z dwoma prywatnymi adresami IP. Podstawowy prywatny adres IP węzła hostuje ruch wewnętrzny usługi Azure Databricks. Pomocniczy prywatny adres IP jest używany przez kontener Spark do komunikacji wewnątrz klastra. Ten model umożliwia usłudze Azure Databricks zapewnienie izolacji między wieloma zasobami obliczeniowymi w tym samym obszarze roboczym.

Typ sterownika

Węzeł sterownika przechowuje informacje o stanie wszystkich notesów dołączonych do zasobu obliczeniowego. Węzeł sterownika obsługuje również element SparkContext, interpretuje wszystkie polecenia uruchamiane z notesu lub biblioteki w zasobie obliczeniowym i uruchamia wzorzec platformy Apache Spark, który koordynuje się z funkcjami wykonawczych platformy Spark.

Wartość domyślna typu węzła sterownika jest taka sama jak typ węzła procesu roboczego. Możesz wybrać większy typ węzła sterownika z większą ilością pamięci, jeśli planujesz collect() wiele danych z procesów roboczych platformy Spark i analizujesz je w notesie.

Napiwek

Ponieważ węzeł sterownika przechowuje wszystkie informacje o stanie dołączonych notesów, pamiętaj, aby odłączyć nieużywane notesy z węzła sterownika.

Typy wystąpień procesora GPU

W przypadku zadań wymagających obliczeń wymagających wysokiej wydajności, takich jak te związane z uczeniem głębokim, usługa Azure Databricks obsługuje zasoby obliczeniowe przyspieszane za pomocą procesorów graficznych (GPU). Aby uzyskać więcej informacji, zobacz Obliczenia z obsługą procesora GPU.

Maszyny wirtualne poufnego przetwarzania na platformie Azure

Typy maszyn wirtualnych przetwarzania poufnego platformy Azure uniemożliwiają nieautoryzowany dostęp do danych, w tym z operatora chmury. Ten typ maszyny wirtualnej jest korzystny dla wysoce regulowanych branż i regionów, a także firm z poufnymi danymi w chmurze. Aby uzyskać więcej informacji na temat poufnego przetwarzania na platformie Azure, zobacz Poufne przetwarzanie na platformie Azure.

Aby uruchamiać obciążenia przy użyciu maszyn wirtualnych do przetwarzania poufnego platformy Azure, wybierz typy maszyn wirtualnych serii DC lub EC na liście rozwijanej węzła procesu roboczego i węzła sterownika. Zobacz Opcje poufnej maszyny wirtualnej platformy Azure.

Wystąpienia typu spot

Aby zaoszczędzić koszty, możesz użyć wystąpień typu spot, znanych również jako maszyny wirtualne typu spot platformy Azure, zaznaczając pole wyboru Wystąpienia typu spot.

Konfigurowanie typu spot

Pierwsze wystąpienie będzie zawsze na żądanie (węzeł sterownika jest zawsze na żądanie), a kolejne wystąpienia będą wystąpieniami typu spot.

Jeśli wystąpienia są eksmitowane z powodu niedostępności, usługa Azure Databricks podejmie próbę uzyskania nowych wystąpień typu spot w celu zastąpienia eksmitowanych wystąpień. Jeśli nie można uzyskać wystąpień typu spot, wystąpienia na żądanie są wdrażane w celu zastąpienia eksmitowanych wystąpień. Ten powrót po awarii na żądanie jest obsługiwany tylko w przypadku wystąpień typu spot, które zostały w pełni pozyskane i są uruchomione. Wystąpienia typu spot, które kończą się niepowodzeniem podczas instalacji, nie są automatycznie zastępowane.

Ponadto po dodaniu nowych węzłów do istniejących zasobów obliczeniowych usługa Azure Databricks próbuje uzyskać wystąpienia typu spot dla tych węzłów.

Włączanie skalowania automatycznego

Po zaznaczeniu opcji Włącz skalowanie automatyczne można podać minimalną i maksymalną liczbę procesów roboczych dla zasobu obliczeniowego. Następnie usługa Databricks wybiera odpowiednią liczbę procesów roboczych wymaganych do uruchomienia zadania.

Aby ustawić minimalną i maksymalną liczbę procesów roboczych, zasób obliczeniowy będzie skalować automatycznie między nimi, użyj pól Min workers (Minimalna liczba procesów roboczych) i Max workers (Maksymalna liczba procesów roboczych) obok listy rozwijanej Typ procesu roboczego.

Jeśli nie włączysz skalowania automatycznego, musisz wprowadzić stałą liczbę procesów roboczych w polu Pracownicy obok listy rozwijanej Typ procesu roboczego.

Uwaga

Gdy zasób obliczeniowy jest uruchomiony, na stronie szczegółów obliczeniowych zostanie wyświetlona liczba przydzielonych procesów roboczych. Liczbę przydzielonych procesów roboczych można porównać z konfiguracją procesu roboczego i wprowadzić korekty zgodnie z potrzebami.

Zalety skalowania automatycznego

Dzięki skalowaniu automatycznemu usługa Azure Databricks dynamicznie przenosi pracowników do charakterystyki zadania. Niektóre części potoku mogą być bardziej wymagające obliczeń niż inne, a usługa Databricks automatycznie dodaje dodatkowych procesów roboczych w tych fazach pracy (i usuwa je, gdy nie są już potrzebne).

Skalowanie automatyczne ułatwia osiągnięcie wysokiego wykorzystania, ponieważ nie trzeba aprowizować zasobów obliczeniowych w celu dopasowania ich do obciążenia. Dotyczy to szczególnie obciążeń, których wymagania zmieniają się w czasie (na przykład eksplorowanie zestawu danych w ciągu dnia), ale może również mieć zastosowanie do jednorazowego krótszego obciążenia, którego wymagania dotyczące aprowizacji są nieznane. Skalowanie automatyczne oferuje zatem dwie zalety:

  • Obciążenia mogą działać szybciej w porównaniu z zasobem obliczeniowym o stałym rozmiarze.
  • Skalowanie automatyczne może zmniejszyć ogólne koszty w porównaniu ze statycznie wielkością zasobu obliczeniowego.

W zależności od stałego rozmiaru zasobu obliczeniowego i obciążenia skalowanie automatyczne daje jedną lub obie te korzyści w tym samym czasie. Rozmiar obliczeniowy może przekraczać minimalną liczbę procesów roboczych wybranych po zakończeniu wystąpień przez dostawcę usług w chmurze. W takim przypadku usługa Azure Databricks stale ponawia próbę ponownego aprowizowania wystąpień w celu zachowania minimalnej liczby procesów roboczych.

Uwaga

Skalowanie automatyczne nie jest dostępne w przypadku zadań spark-submit.

Uwaga

Skalowanie automatyczne obliczeń ma ograniczenia skalowania w dół rozmiaru klastra dla obciążeń przesyłania strumieniowego ze strukturą. Usługa Databricks zaleca używanie tabel delta live z rozszerzonym skalowaniem automatycznym na potrzeby obciążeń przesyłania strumieniowego. Zobacz Optymalizowanie wykorzystania klastra potoków tabel na żywo różnicowych przy użyciu rozszerzonego skalowania automatycznego.

How autoscaling behaves (Jak działa skalowanie automatyczne)

Obszar roboczy w planie Premium używa zoptymalizowanego skalowania automatycznego. Obszary robocze w standardowym planie cenowym korzystają ze standardowego skalowania automatycznego.

Zoptymalizowane skalowanie automatyczne ma następujące cechy:

  • Skaluje w górę od minuty do maksymalnej w 2 krokach.
  • Można skalować w dół, nawet jeśli zasób obliczeniowy nie jest bezczynny, sprawdzając stan pliku shuffle.
  • Skaluje w dół na podstawie wartości procentowej bieżących węzłów.
  • W przypadku obliczeń zadań skalowanie w dół, jeśli zasób obliczeniowy jest niedostatecznie wykorzystany w ciągu ostatnich 40 sekund.
  • W przypadku zasobów obliczeniowych ogólnego przeznaczenia skaluje się w dół, jeśli zasób obliczeniowy jest niedostatecznie wykorzystany w ciągu ostatnich 150 sekund.
  • spark.databricks.aggressiveWindowDownS Właściwość konfiguracji platformy Spark określa w sekundach, jak często obliczenia podejmują decyzje dotyczące skalowania w dół. Zwiększenie wartości powoduje, że obliczenia będą skalowane w dół wolniej. Maksymalna wartość to 600.

Skalowanie automatyczne w warstwie Standardowa jest używane w obszarach roboczych planu standardowego. Skalowanie automatyczne w warstwie Standardowa ma następujące cechy:

  • Rozpoczyna się od dodania 8 węzłów. Następnie skaluje w górę wykładniczo, wykonując tyle kroków, ile jest wymaganych do osiągnięcia maksymalnej wartości.
  • Skaluje w dół, gdy 90% węzłów nie jest zajęte przez 10 minut, a obliczenia były bezczynne przez co najmniej 30 sekund.
  • Skaluje w dół wykładniczo, począwszy od 1 węzła.

Skalowanie automatyczne za pomocą pul

Jeśli dołączasz zasób obliczeniowy do puli, rozważ następujące kwestie:

  • Upewnij się, że żądany rozmiar obliczeniowy jest mniejszy lub równy minimalnej liczbie bezczynnych wystąpień w puli. Jeśli jest większy, czas uruchamiania obliczeń będzie odpowiednikiem obliczeń, które nie korzystają z puli.

  • Upewnij się, że maksymalny rozmiar obliczeniowy jest mniejszy lub równy maksymalnej pojemności puli. Jeśli jest on większy, tworzenie zasobów obliczeniowych zakończy się niepowodzeniem.

Przykład skalowania automatycznego

Jeśli ponownie skonfigurujesz statyczny zasób obliczeniowy do automatycznego skalowania, usługa Azure Databricks natychmiast zmienia rozmiar zasobu obliczeniowego w granicach minimalnych i maksymalnych, a następnie uruchamia skalowanie automatyczne. Na przykład w poniższej tabeli przedstawiono, co dzieje się z zasobem obliczeniowym o określonym rozmiarze początkowym, jeśli ponownie skonfigurujesz zasób obliczeniowy do automatycznego skalowania między 5 i 10 węzłami.

Rozmiar początkowy Rozmiar po rekonfiguracji
6 6
12 10
3 5

Włączanie automatycznego skalowania magazynu lokalnego

Często trudno jest oszacować ilość miejsca na dysku potrzebnego do wykonania określonego zadania. Aby zaoszczędzić na konieczności oszacowania, ile gigabajtów dysku zarządzanego ma zostać dołączonych do zasobów obliczeniowych w czasie tworzenia, usługa Azure Databricks automatycznie włącza automatyczne skalowanie magazynu lokalnego na wszystkich obliczeniach usługi Azure Databricks.

Dzięki automatycznemu skalowaniu magazynu lokalnego usługa Azure Databricks monitoruje ilość wolnego miejsca na dysku dostępnego dla procesów roboczych platformy Spark w środowisku obliczeniowym. Jeśli proces roboczy zacznie działać zbyt mało na dysku, usługa Databricks automatycznie dołącza nowy dysk zarządzany do procesu roboczego, zanim zabraknie miejsca na dysku. Dyski są dołączone do limitu 5 TB całkowitego miejsca na dysku na maszynę wirtualną (w tym początkowego magazynu lokalnego maszyny wirtualnej).

Dyski zarządzane dołączone do maszyny wirtualnej są odłączane tylko wtedy, gdy maszyna wirtualna zostanie zwrócona na platformę Azure. Oznacza to, że dyski zarządzane nigdy nie są odłączane od maszyny wirtualnej, o ile są one częścią działającego środowiska obliczeniowego. Aby skalować w dół użycie dysku zarządzanego, usługa Azure Databricks zaleca użycie tej funkcji w obliczeniach skonfigurowanych z automatycznym skalowaniem obliczeniowym lub automatycznym kończeniem.

Szyfrowanie dysku lokalnego

Ważne

Ta funkcja jest dostępna w publicznej wersji zapoznawczej.

Niektóre typy wystąpień używane do uruchamiania obliczeń mogą mieć lokalnie dołączone dyski. Usługa Azure Databricks może przechowywać dane mieszania lub efemeryczne dane na tych lokalnie dołączonych dyskach. Aby upewnić się, że wszystkie dane magazynowane są szyfrowane dla wszystkich typów magazynu, w tym danych mieszania przechowywanych tymczasowo na dyskach lokalnych zasobu obliczeniowego, można włączyć szyfrowanie dysku lokalnego.

Ważne

Obciążenia mogą działać wolniej ze względu na wpływ wydajności odczytywania i zapisywania zaszyfrowanych danych do i z woluminów lokalnych.

Po włączeniu szyfrowania dysku lokalnego usługa Azure Databricks generuje lokalnie klucz szyfrowania unikatowy dla każdego węzła obliczeniowego i służy do szyfrowania wszystkich danych przechowywanych na dyskach lokalnych. Zakres klucza jest lokalny dla każdego węzła obliczeniowego i jest niszczony wraz z samym węzłem obliczeniowym. W okresie jego istnienia klucz znajduje się w pamięci na potrzeby szyfrowania i odszyfrowywania i jest przechowywany zaszyfrowany na dysku.

Aby włączyć szyfrowanie dysków lokalnych, należy użyć interfejsu API klastrów. Podczas tworzenia lub edytowania zasobów obliczeniowych ustaw wartość enable_local_disk_encryption true.

Automatyczne zakończenie

Automatyczne kończenie można ustawić dla obliczeń. Podczas tworzenia zasobów obliczeniowych określ okres braku aktywności w minutach, po którym ma zostać zakończony zasób obliczeniowy.

Jeśli różnica między bieżącym czasem a ostatnim uruchomieniem polecenia w zasobie obliczeniowym jest większa niż określony okres braku aktywności, usługa Azure Databricks automatycznie kończy to obliczenie. resource Aby uzyskać więcej informacji na temat kończenia obliczeń, zobacz Kończenie obliczeń.

Tagi

Tagi umożliwiają łatwe monitorowanie kosztów zasobów w chmurze używanych przez różne grupy w organizacji. Określ tagi jako pary klucz-wartość podczas tworzenia obliczeń, a usługa Azure Databricks stosuje te tagi do zasobów w chmurze, takich jak maszyny wirtualne i woluminy dysków, a także raporty użycia jednostek DBU.

W przypadku obliczeń uruchamianych z pul tagi niestandardowe są stosowane tylko do raportów użycia jednostek DBU i nie są propagowane do zasobów w chmurze.

Aby uzyskać szczegółowe informacje na temat współdziałania typów tagów puli i zasobów obliczeniowych, zobacz Monitorowanie użycia przy użyciu tagów

Aby dodać tagi do zasobu obliczeniowego:

  1. W sekcji Tagi dodaj parę klucz-wartość dla każdego tagu niestandardowego.
  2. Kliknij przycisk Dodaj.

Konfiguracja platformy Spark

Aby dostosować zadania platformy Spark, możesz podać niestandardowe właściwości konfiguracji platformy Spark.

  1. Na stronie konfiguracja obliczeń kliknij przełącznik Opcje zaawansowane.

  2. Kliknij kartę Spark .

    Konfiguracja platformy Spark

    W konfiguracji platformy Spark wprowadź właściwości konfiguracji jako jedną parę klucz-wartość na wiersz.

Podczas konfigurowania obliczeń przy użyciu interfejsu API klastrów ustaw właściwości platformy Spark w polu w spark_conf interfejsie API tworzenia klastra lub Zaktualizuj interfejs API klastra.

Aby wymusić konfiguracje platformy Spark na obliczeniach, administratorzy obszaru roboczego mogą używać zasad obliczeniowych.

Pobieranie właściwości konfiguracji platformy Spark z wpisu tajnego

Usługa Databricks zaleca przechowywanie poufnych informacji, takich jak hasła, w wpisie tajnym zamiast zwykłego tekstu. Aby odwołać się do wpisu tajnego w konfiguracji platformy Spark, użyj następującej składni:

spark.<property-name> {{secrets/<scope-name>/<secret-name>}}

Aby na przykład ustawić właściwość konfiguracji platformy Spark o nazwie password na wartość wpisu tajnego przechowywanego w secrets/acme_app/passwordpliku :

spark.password {{secrets/acme-app/password}}

Aby uzyskać więcej informacji, zobacz Składnia odwoływania się do wpisów tajnych w właściwości konfiguracji platformy Spark lub zmiennej środowiskowej.

Dostęp SSH do obliczeń

Ze względów bezpieczeństwa w usłudze Azure Databricks port SSH jest domyślnie zamykany. Jeśli chcesz włączyć dostęp SSH do klastrów Spark, zobacz Protokół SSH do węzła sterownika.

Uwaga

Protokół SSH można włączyć tylko wtedy, gdy obszar roboczy zostanie wdrożony we własnej sieci wirtualnej platformy Azure.

Zmienne środowiskowe

Skonfiguruj niestandardowe zmienne środowiskowe, do których można uzyskać dostęp za pomocą skryptów inicjowania uruchomionych w zasobie obliczeniowym. Usługa Databricks udostępnia również wstępnie zdefiniowane zmienne środowiskowe, których można używać w skryptach inicjowania. Nie można zastąpić tych wstępnie zdefiniowanych zmiennych środowiskowych.

  1. Na stronie konfiguracja obliczeń kliknij przełącznik Opcje zaawansowane.

  2. Kliknij kartę Spark .

  3. Ustaw zmienne środowiskowe w polu Zmienne środowiskowe.

    Pole Zmienne środowiskowe

Zmienne środowiskowe można również ustawić przy użyciu spark_env_vars pola w interfejsie API tworzenia klastra lub aktualizowaniu interfejsu API klastra.

Dostarczanie dzienników obliczeniowych

Podczas tworzenia obliczeń można określić lokalizację dostarczania dzienników dla węzła sterownika Spark, węzłów procesów roboczych i zdarzeń. Dzienniki są dostarczane co pięć minut i archiwizowane co godzinę w wybranym miejscu docelowym. Po zakończeniu działania zasobu obliczeniowego usługa Azure Databricks gwarantuje dostarczenie wszystkich dzienników wygenerowanych do momentu zakończenia zasobu obliczeniowego.

Miejsce docelowe dzienników zależy od zasobu cluster_idobliczeniowego . Jeśli określone miejsce docelowe to dbfs:/cluster-log-delivery, dzienniki obliczeniowe dla 0630-191345-leap375 programu są dostarczane do dbfs:/cluster-log-delivery/0630-191345-leap375programu .

Aby skonfigurować lokalizację dostarczania dziennika:

  1. Na stronie obliczeniowej kliknij przełącznik Opcje zaawansowane.
  2. Kliknij kartę Rejestrowanie .
  3. Wybierz typ miejsca docelowego.
  4. Wprowadź ścieżkę dziennika obliczeniowego.

Uwaga

Ta funkcja jest również dostępna w interfejsie API REST. Zobacz interfejs API klastrów.