Udostępnij za pośrednictwem


Przekształcanie danych przez uruchomienie działania usługi Azure Databricks

Działanie usługi Azure Databricks w usłudze Data Factory dla usługi Microsoft Fabric umożliwia organizowanie następujących zadań usługi Azure Databricks:

  • Notes
  • Słoik
  • Python

Ten artykuł zawiera szczegółowy przewodnik opisujący sposób tworzenia działania usługi Azure Databricks przy użyciu interfejsu usługi Data Factory.

Wymagania wstępne

Aby rozpocząć pracę, należy spełnić następujące wymagania wstępne:

Konfigurowanie działania usługi Azure Databricks

Aby użyć działania usługi Azure Databricks w potoku, wykonaj następujące kroki:

Konfigurowanie połączenia

  1. Utwórz nowy potok w obszarze roboczym.

  2. Kliknij pozycję Dodaj działanie potoku i wyszukaj usługę Azure Databricks.

    Zrzut ekranu przedstawiający stronę docelową Potoki danych sieci szkieletowej i działanie usługi Azure Databricks wyróżnione.

  3. Alternatywnie możesz wyszukać usługę Azure Databricks w okienku Działania potoku i wybrać ją, aby dodać ją do kanwy potoku.

    Zrzut ekranu przedstawiający interfejs użytkownika sieci szkieletowej z wyróżnionym okienkiem Działania i działaniem usługi Azure Databricks.

  4. Wybierz nowe działanie usługi Azure Databricks na kanwie, jeśli nie zostało jeszcze wybrane.

    Zrzut ekranu przedstawiający kartę Ustawienia ogólne działania usługi Azure Databricks.

Zapoznaj się ze wskazówkami dotyczącymi ustawień ogólnych, aby skonfigurować kartę Ustawienia ogólne.

Konfigurowanie klastrów

  1. Wybierz kartę Klaster. Następnie możesz wybrać istniejące lub utworzyć nowe połączenie usługi Azure Databricks, a następnie wybrać nowy klaster zadań, istniejący klaster interaktywny lub istniejącą pulę wystąpień.

  2. W zależności od wybranego klastra wypełnij odpowiednie pola, jak pokazano.

    • W obszarze nowego klastra zadań i istniejącej puli wystąpień masz również możliwość skonfigurowania liczby procesów roboczych i włączenia wystąpień typu spot.
  3. Możesz również określić dodatkowe ustawienia klastra, takie jak zasady klastra, konfiguracja platformy Spark, zmienne środowiskowe platformy Spark i tagi niestandardowe, zgodnie z wymaganiami dotyczącymi klastra, z którym nawiązujesz połączenie. Skrypty inicjowania usługi Databricks i ścieżka docelowa dziennika klastra można również dodać w obszarze dodatkowych ustawień klastra.

    Uwaga

    Wszystkie zaawansowane właściwości klastra i wyrażenia dynamiczne obsługiwane w połączonej usłudze Azure Databricks usługi Azure Databricks są teraz również obsługiwane w działaniu usługi Azure Databricks w usłudze Microsoft Fabric w sekcji "Dodatkowa konfiguracja klastra" w interfejsie użytkownika. Ponieważ te właściwości są teraz uwzględniane w interfejsie użytkownika działania; Można je łatwo używać z wyrażeniem (zawartość dynamiczna) bez konieczności używania specyfikacji Advanced JSON w połączonej usłudze Azure Databricks w usłudze Azure Databricks.

    Zrzut ekranu przedstawiający kartę Ustawienia klastra działania usługi Azure Databricks.

  4. Działanie usługi Azure Databricks obsługuje teraz również obsługę zasad klastra i wykazu aparatu Unity.

    • W obszarze ustawienia zaawansowane możesz wybrać zasady klastra, aby określić, które konfiguracje klastra są dozwolone.
    • Ponadto w obszarze ustawień zaawansowanych możesz skonfigurować tryb dostępu wykazu aparatu Unity na potrzeby dodanych zabezpieczeń. Dostępne typy trybu dostępu to:
      • Tryb dostępu pojedynczego użytkownika Ten tryb jest przeznaczony dla scenariuszy, w których każdy klaster jest używany przez jednego użytkownika. Gwarantuje to, że dostęp do danych w klastrze jest ograniczony tylko do tego użytkownika. Ten tryb jest przydatny w przypadku zadań wymagających izolacji i indywidualnej obsługi danych.
      • Tryb dostępu współdzielonego W tym trybie wielu użytkowników może uzyskać dostęp do tego samego klastra. Łączy on ład danych w wykazie aparatu Unity ze starszymi listami kontroli dostępu do tabel (ACL). Ten tryb umożliwia dostęp do danych współpracy przy zachowaniu protokołów ładu i zabezpieczeń. Jednak ma pewne ograniczenia, takie jak brak obsługi środowiska Databricks Runtime ML, zadań przesyłania platformy Spark i określonych interfejsów API platformy Spark i funkcji zdefiniowanych przez użytkownika.
      • Tryb dostępu Ten tryb wyłącza interakcję z wykazem aparatu Unity, co oznacza, że klastry nie mają dostępu do danych zarządzanych przez wykaz aparatu Unity. Ten tryb jest przydatny w przypadku obciążeń, które nie wymagają funkcji zapewniania ładu w wykazie aparatu Unity.

    Zrzut ekranu przedstawiający obsługę identyfikatorów zasad i wykazu aparatu Unity na karcie Ustawienia klastra działania usługi Azure Databricks.

Konfigurowanie ustawień

Wybierając kartę Ustawienia , możesz wybrać 3 opcje, których typ usługi Azure Databricks chcesz zorganizować.

Zrzut ekranu przedstawiający kartę Ustawienia działania usługi Azure Databricks.

Organizowanie typu notesu w działaniu usługi Azure Databricks:

  1. Na karcie Ustawienia możesz wybrać przycisk radiowy Notes, aby uruchomić notes. Należy określić ścieżkę notesu do wykonania w usłudze Azure Databricks, opcjonalne parametry podstawowe, które mają zostać przekazane do notesu, oraz wszelkie dodatkowe biblioteki do zainstalowania w klastrze w celu wykonania zadania.

    Zrzut ekranu przedstawiający typ notesów działania usługi Azure Databricks.

Organizowanie typu Jar w działaniu usługi Azure Databricks:

  1. Na karcie Ustawienia możesz wybrać przycisk radiowy Jar, aby uruchomić plik Jar. Należy określić nazwę klasy do wykonania w usłudze Azure Databricks, opcjonalne parametry podstawowe, które mają zostać przekazane do pliku Jar, oraz wszelkie dodatkowe biblioteki do zainstalowania w klastrze w celu wykonania zadania.

    Zrzut ekranu przedstawiający typ jar działania usługi Azure Databricks.

Organizowanie typu języka Python w działaniu usługi Azure Databricks:

  1. Na karcie Ustawienia możesz wybrać przycisk radiowy Języka Python, aby uruchomić plik w języku Python. Należy określić ścieżkę w usłudze Azure Databricks do pliku w języku Python, który ma zostać wykonany, opcjonalne parametry podstawowe, które mają zostać przekazane, oraz wszelkie dodatkowe biblioteki, które mają zostać zainstalowane w klastrze w celu wykonania zadania.

    Zrzut ekranu przedstawiający typ języka Python działania usługi Azure Databricks.

Obsługiwane biblioteki dla działania usługi Azure Databricks

W powyższej definicji działania usługi Databricks można określić następujące typy bibliotek: jar, egg, whl, maven, pypi, cran.

Aby uzyskać więcej informacji, zobacz dokumentację usługi Databricks dotyczącą typów bibliotek.

Przekazywanie parametrów między działaniem usługi Azure Databricks i potokami

Parametry można przekazywać do notesów przy użyciu właściwości baseParameters w działaniu usługi databricks.

W niektórych przypadkach może być wymagane przekazanie niektórych wartości z notesu z powrotem do usługi, które mogą być używane do kontroli przepływu (kontrole warunkowe) w usłudze lub być używane przez działania podrzędne (limit rozmiaru to 2 MB).

  1. Na przykład w notesie możesz wywołać metodę dbutils.notebook.exit("returnValue"), a odpowiedni element "returnValue" zostanie zwrócony do usługi.

  2. Dane wyjściowe w usłudze można używać przy użyciu wyrażenia, takiego jak @{activity('databricks activity name').output.runOutput}.

Zrzut ekranu przedstawiający sposób przekazywania podstawowych parametrów w działaniu usługi Azure Databricks.

Zapisywanie i uruchamianie lub planowanie potoku

Po skonfigurowaniu innych działań wymaganych dla potoku przejdź do karty Narzędzia główne w górnej części edytora potoków i wybierz przycisk zapisz, aby zapisać potok. Wybierz pozycję Uruchom , aby uruchomić go bezpośrednio lub Zaplanuj , aby go zaplanować. Historię uruchamiania można również wyświetlić tutaj lub skonfigurować inne ustawienia.

Zrzut ekranu przedstawiający sposób zapisywania i uruchamiania potoku.

Jak monitorować uruchomienia potoków