Przekształcanie danych przez uruchomienie działania usługi Azure Databricks

2025-05-06

Działanie usługi Azure Databricks w usłudze Data Factory dla usługi Microsoft Fabric umożliwia organizowanie następujących zadań usługi Azure Databricks:

Notatnik
Słoik
Pyton
Zadanie (wersja zapoznawcza)

Ten artykuł zawiera szczegółowy przewodnik opisujący sposób tworzenia działania usługi Azure Databricks przy użyciu interfejsu usługi Data Factory.

Ważne

Typ zadań usługi Azure Databricks jest obecnie dostępny w wersji zapoznawczej. Te informacje odnoszą się do produktu w wersji wstępnej, który może zostać znacząco zmodyfikowany przed jego wydaniem. Firma Microsoft nie udziela żadnych gwarancji, wyrażonych ani domniemanych, w odniesieniu do podanych tutaj informacji.

Wymagania wstępne

Aby rozpocząć pracę, należy spełnić następujące wymagania wstępne:

Konto najemcy z aktywną subskrypcją. Utwórz konto bezpłatnie.
Zostanie utworzony obszar roboczy.

Konfigurowanie działania usługi Azure Databricks

Aby użyć działania usługi Azure Databricks w potoku, wykonaj następujące kroki:

Konfigurowanie połączenia

Utwórz nowy rurociąg w środowisku pracy.
Kliknij opcję Dodaj aktywność potoku i wyszukaj Azure Databricks.
Alternatywnie możesz wyszukać usługę Azure Databricks w okienku Działania potoku i wybrać ją, aby dodać ją do kanwy potoku.
Wybierz nowe działanie usługi Azure Databricks na kanwie, jeśli nie zostało jeszcze wybrane.

Zapoznaj się ze wskazówkami dotyczącymi ustawień ogólnych, aby skonfigurować kartę Ustawienia ogólne.

Konfigurowanie klastrów

Wybierz kartę Klaster. Następnie możesz wybrać istniejące lub utworzyć nowe połączenie usługi Azure Databricks, a następnie wybrać nowy klaster zadań, istniejący klaster interaktywny lub istniejącą pulę wystąpień.
W zależności od wybranego klastra wypełnij odpowiednie pola, jak pokazano.
- W obszarze nowego zestawu zadań i istniejącej puli wystąpień masz również możliwość skonfigurowania liczby pracowników i włączenia wystąpień typu spot.
Możesz również określić dodatkowe ustawienia klastra, takie jak zasady klastra, konfiguracja platformy Spark, zmienne środowiskowe platformy Spark i tagi niestandardowe, zgodnie z wymaganiami dotyczącymi klastra, z którym nawiązujesz połączenie. Skrypty inicjowania usługi Databricks i ścieżka docelowa logów klastra mogą również być dodane pod dodatkowymi ustawieniami klastra.

Uwaga

Wszystkie zaawansowane właściwości klastra i wyrażenia dynamiczne obsługiwane w połączonej usłudze Azure Data Factory z Azure Databricks są teraz również obsługiwane w działaniu Azure Databricks w Microsoft Fabric, w sekcji "Dodatkowa konfiguracja klastra" w interfejsie użytkownika. Ponieważ te właściwości są teraz uwzględniane w interfejsie użytkownika aktywności, można je łatwo używać z wyrażeniem (zawartością dynamiczną) bez konieczności używania specyfikacji Advanced JSON w połączonej usłudze Azure Data Factory Azure Databricks.
Działanie usługi Azure Databricks teraz również obsługuje zasady klastra i Unity Catalog.
- W obszarze ustawienia zaawansowane możesz wybrać zasady klastra, aby określić, które konfiguracje klastra są dozwolone.
- Ponadto w ustawieniach zaawansowanych możesz skonfigurować tryb dostępu katalogu Unity dla zwiększonego bezpieczeństwa. Dostępne typy trybu dostępu to:
  - Tryb dostępu dla pojedynczego użytkownika Ten tryb jest przeznaczony dla scenariuszy, w których każdy klaster jest używany przez jednego użytkownika. Gwarantuje to, że dostęp do danych w klastrze jest ograniczony tylko do tego użytkownika. Ten tryb jest przydatny w przypadku zadań wymagających izolacji i indywidualnej obsługi danych.
  - Tryb dostępu współdzielonego W tym trybie wielu użytkowników może uzyskać dostęp do tego samego klastra. Łączy zarządzanie danymi Katalogu Unity ze starymi listami kontroli dostępu do tabel (ACL). Ten tryb umożliwia współpracę przy dostępie do danych, jednocześnie zachowując protokoły zarządzania i zabezpieczeń. Jednak ma pewne ograniczenia, takie jak brak obsługi środowiska Databricks Runtime ML, zadań Spark-submit oraz określonych interfejsów API platformy Spark i funkcji zdefiniowanych przez użytkownika.
  - Tryb braku dostępu Ten tryb wyłącza interakcję z Unity Catalog, co oznacza, że klastry nie mają dostępu do danych zarządzanych przez Unity Catalog. Ten tryb jest przydatny w przypadku obciążeń, które nie wymagają funkcji zarządzania katalogiem Unity.

Konfigurowanie ustawień

Wybierając kartę Ustawienia, możesz wybrać spośród 4 opcji, którym typem usługi Azure Databricks chcesz zarządzać.

Zrzut ekranu przedstawiający kartę Ustawienia działania usługi Azure Databricks.

Zarządzanie typem notebooka w działaniu usługi Azure Databricks:

Na karcie Ustawienia możesz wybrać przycisk opcji Notebook, aby uruchomić Notebook. Aby wykonać zadanie w Azure Databricks, należy określić ścieżkę do notatnika, opcjonalne parametry podstawowe przekazywane do notatnika oraz dodatkowe biblioteki do zainstalowania w klastrze.

Orkiestracja typu Jar w działaniu usługi Azure Databricks:

Na karcie Ustawienia możesz wybrać przycisk radiowy Jar, aby uruchomić plik Jar. Należy określić nazwę klasy do wykonania w usłudze Azure Databricks, opcjonalne parametry podstawowe, które mają zostać przekazane do pliku Jar, oraz wszelkie dodatkowe biblioteki do zainstalowania w klastrze w celu wykonania zadania.

Koordynowanie typu Python w działaniach Azure Databricks:

Na karcie Ustawienia możesz wybrać przycisk radiowy Języka Python, aby uruchomić plik w języku Python. Należy określić ścieżkę w usłudze Azure Databricks do pliku w języku Python, który ma zostać wykonany, opcjonalne parametry podstawowe, które mają zostać przekazane, oraz wszelkie dodatkowe biblioteki, które mają zostać zainstalowane w klastrze w celu wykonania zadania.

Organizowanie typu zadania (wersja zapoznawcza) w działaniu usługi Azure Databricks:

Na karcie Ustawienia możesz wybrać przycisk radiowy Zadanie , aby uruchomić zadanie usługi Databricks. Należy określić zadanie z listy rozwijanej do wykonania w usłudze Azure Databricks oraz wszelkie opcjonalne parametry zadania do przekazania. Za pomocą tej opcji można uruchamiać zadania bezserwerowe.

Obsługiwane biblioteki dla działania usługi Azure Databricks

W powyższej definicji działania usługi Databricks można określić następujące typy bibliotek: jar, egg, whl, maven, pypi, cran.

Aby uzyskać więcej informacji, zobacz dokumentację usługi Databricks dotyczącą typów bibliotek.

Przekazywanie parametrów między działaniem usługi Azure Databricks i potokami

Parametry można przekazać do notesów przy użyciu właściwości baseParameters w działaniu usługi Databricks.

W niektórych przypadkach może być konieczne przekazanie pewnych wartości z notesu do usługi, które mogą być używane do sterowania przepływem (sprawdzanie warunków) w usłudze lub przetwarzane przez dalsze działania (limit rozmiaru to 2 MB).

Na przykład w notesie możesz wywołać metodę dbutils.notebook.exit("returnValue"), a odpowiedni element "returnValue" zostanie zwrócony do usługi.
Dane wyjściowe w usłudze można wykorzystać, używając wyrażenia takiego jak @{activity('databricks activity name').output.runOutput}.

Zrzut ekranu przedstawiający sposób przekazywania podstawowych parametrów w działaniu usługi Azure Databricks.

Zapisz i uruchom lub zaplanuj pipeline

Po skonfigurowaniu innych działań wymaganych dla potoku przejdź do karty Narzędzia główne w górnej części edytora potoków i wybierz przycisk zapisz, aby zapisać potok. Wybierz pozycję Uruchom , aby uruchomić go bezpośrednio lub Zaplanuj , aby go zaplanować. Historię uruchamiania można również wyświetlić tutaj lub skonfigurować inne ustawienia.

Zrzut ekranu pokazujący, jak zapisać i uruchomić potok.

Jak monitorować przebiegi potoków