Udostępnij za pośrednictwem


Uruchamianie notesu usługi Databricks za pomocą działania notesu usługi Databricks w usłudze Azure Data Factory

DOTYCZY: Azure Data Factory Azure Synapse Analytics

Napiwek

Wypróbuj usługę Data Factory w usłudze Microsoft Fabric — rozwiązanie analityczne typu all-in-one dla przedsiębiorstw. Usługa Microsoft Fabric obejmuje wszystko, od przenoszenia danych do nauki o danych, analizy w czasie rzeczywistym, analizy biznesowej i raportowania. Dowiedz się, jak bezpłatnie rozpocząć nową wersję próbną !

W tym samouczku w witrynie Azure Portal utworzysz potok usługi Azure Data Factory, który wykona notes usługi Databricks w klastrze zadań usługi Databricks. Podczas wykonywania parametry usługi Azure Data Factory będą również przekazywane do notesu usługi Databricks.

Ten samouczek obejmuje następujące procedury:

  • Tworzenie fabryki danych.

  • Tworzenie potoku, który używa działania notesu usługi Databricks.

  • Wyzwalanie uruchomienia potoku.

  • Monitorowanie uruchomienia potoku.

Jeśli nie masz subskrypcji platformy Azure, przed rozpoczęciem utwórz bezpłatne konto.

Poniższy klip wideo zawiera jedenastominutowe wprowadzenie i demonstrację tej funkcji:

Wymagania wstępne

  • Obszar roboczy usługi Azure Databricks. Utwórz obszar roboczy usługi Databricks lub użyj istniejącego. Najpierw utworzysz notes Python w obszarze roboczym usługi Azure Databricks. Następnie wykonasz notes i przekażesz do niego parametry przy użyciu usługi Azure Data Factory.

Tworzenie fabryki danych

  1. Uruchom przeglądarkę internetową Microsoft Edge lub Google Chrome. Obecnie interfejs użytkownika usługi Data Factory jest obsługiwany tylko przez przeglądarki internetowe Microsoft Edge i Google Chrome.

  2. Wybierz pozycję Utwórz zasób w menu witryny Azure Portal, wybierz pozycję Integracja, a następnie wybierz pozycję Data Factory.

    Zrzut ekranu przedstawiający wybór usługi Data Factory w okienku Nowy.

  3. Na stronie Tworzenie fabryki danych na karcie Podstawy wybierz subskrypcję platformy Azure, w której chcesz utworzyć fabrykę danych.

  4. W obszarze Grupa zasobów wykonaj jedną z następujących czynności:

    1. Wybierz istniejącą grupę zasobów z listy rozwijanej.

    2. Wybierz pozycję Utwórz nową i wprowadź nazwę nowej grupy zasobów.

    Informacje na temat grup zasobów znajdują się w artykule Using resource groups to manage your Azure resources (Używanie grup zasobów do zarządzania zasobami platformy Azure).

  5. W obszarze Region wybierz lokalizację fabryki danych.

    Ta lista zawiera tylko lokalizacje, które są obsługiwane przez usługę Data Factory i w których będą przechowywane metadane usługi Azure Data Factory. Skojarzone magazyny danych (takie jak Azure Storage i Azure SQL Database) i obliczenia (takie jak Usługa Azure HDInsight), których usługa Data Factory używa, może działać w innych regionach.

  6. W polu Nazwa wprowadź wartość ADFTutorialDataFactory.

    Nazwa fabryki danych platformy Azure musi być globalnie unikatowa. Jeśli zostanie wyświetlony następujący błąd, zmień nazwę fabryki danych (na przykład użyj <nazwy>ADFTutorialDataFactory). Artykuł Usługa Data Factory — reguły nazewnictwa zawiera reguły nazewnictwa artefaktów usługi Data Factory.

    Zrzut ekranu przedstawiający błąd, gdy nazwa jest niedostępna.

  7. W obszarze Wersja wybierz pozycję V2.

  8. Wybierz pozycję Dalej: Konfiguracja usługi Git, a następnie zaznacz pole wyboru Skonfiguruj usługę Git później .

  9. Wybierz pozycję Przejrzyj i utwórz, a następnie wybierz pozycję Utwórz po zakończeniu walidacji.

  10. Po zakończeniu tworzenia wybierz pozycję Przejdź do zasobu , aby przejść do strony Fabryka danych . Wybierz kafelek Otwórz program Azure Data Factory Studio, aby uruchomić aplikację interfejsu użytkownika usługi Azure Data Factory na osobnej karcie przeglądarki.

    Zrzut ekranu przedstawiający stronę główną usługi Azure Data Factory z kafelkiem Otwórz usługę Azure Data Factory Studio.

Tworzenie połączonych usług

W tej sekcji utworzysz połączoną usługę Databricks. Ta połączona usługa zawiera informacje o połączeniu z klastrem usługi Databricks:

Tworzenie połączonej usługi Azure Databricks

  1. Na stronie głównej przejdź do karty Zarządzanie w panelu po lewej stronie.

    Zrzut ekranu przedstawiający kartę Zarządzanie.

  2. Wybierz pozycję Połączone usługi w obszarze Połączenia, a następnie wybierz pozycję + Nowy.

    Zrzut ekranu przedstawiający sposób tworzenia nowego połączenia.

  3. W oknie Nowa połączona usługa wybierz pozycję Compute>Azure Databricks, a następnie wybierz pozycję Kontynuuj.

    Zrzut ekranu przedstawiający sposób określania połączonej usługi Databricks.

  4. W oknie Nowa połączona usługa wykonaj następujące kroki:

    1. W polu Nazwa wprowadź AzureDatabricks_LinkedService.

    2. Wybierz odpowiedni obszar roboczy usługi Databricks, w którym będzie uruchamiany notes.

    3. W obszarze Wybierz klaster wybierz pozycję Nowy klaster zadań.

    4. W przypadku adresu URL obszaru roboczego usługi Databrick informacje powinny być wypełniane automatycznie.

    5. W polu Typ uwierzytelniania, jeśli wybierzesz pozycję Token dostępu, wygeneruj go z poziomu miejsca pracy usługi Azure Databricks. Procedurę można znaleźć tutaj. W przypadku tożsamości usługi zarządzanej i tożsamości zarządzanej przypisanej przez użytkownika przyznaj rolę Współautor obu tożsamościom w menu Kontrola dostępu zasobu usługi Azure Databricks.

    6. W polu Wersja klastra wybierz wersję, której chcesz użyć.

    7. W polu Typ węzła klastra wybierz pozycję Standard_D3_v2 w kategorii Ogólnego przeznaczenia (HDD) dla tego samouczka.

    8. W polu Procesy robocze podaj wartość 2.

    9. Wybierz pozycję Utwórz.

      Zrzut ekranu przedstawiający konfigurację nowej połączonej usługi Azure Databricks.

Tworzenie potoku

  1. Wybierz przycisk + (znak plus), a następnie wybierz pozycję Potok w menu.

    Zrzut ekranu przedstawiający przyciski tworzenia nowego potoku.

  2. Utwórz parametr do użycia w potoku. Później przekażesz ten parametr do działania notesu usługi Databricks. W pustym potoku wybierz kartę Parametry, a następnie wybierz pozycję + Nowy i nadaj mu nazwę "name".

    Zrzut ekranu przedstawiający sposób tworzenia nowego parametru.

    Zrzut ekranu przedstawiający sposób tworzenia parametru name.

  3. W przyborniku Działania rozwiń pozycję Databricks. Przeciągnij działanie Notes z przybornika Działania na powierzchnię projektanta potoku.

    Zrzut ekranu przedstawiający sposób przeciągania notesu na powierzchnię projektanta.

  4. We właściwościach okna działania notesu usługi Databricks w dolnej części wykonaj następujące kroki:

    1. Przejdź do karty Azure Databricks.

    2. Wybierz AzureDatabricks_LinkedService (utworzoną w poprzedniej procedurze).

    3. Przejdź do karty Ustawienia.

    4. Użyj polecenia Przeglądaj, aby wybrać wartość dla pozycji Ścieżka notesu usługi Databricks. W tym miejscu utworzymy notes i określimy ścieżkę. Ścieżkę notesu można uzyskać, wykonując kilka następnych kroków.

      1. Uruchom obszar roboczy usługi Azure Databricks.

      2. Utwórz nowy folder w miejscu pracy i nadaj mu nazwę adftutorial.

        Zrzut ekranu przedstawiający sposób tworzenia nowego folderu.

      3. Zrzut ekranu przedstawiający sposób tworzenia nowego notesu. (Python), nazwijmy go mynotebook w folderze adftutorial , kliknij przycisk Utwórz.

        Zrzut ekranu przedstawiający sposób tworzenia nowego notesu.

        Zrzut ekranu przedstawiający sposób ustawiania właściwości nowego notesu.

      4. W nowo utworzonym notesie „mynotebook” dodaj następujący kod:

        # Creating widgets for leveraging parameters, and printing the parameters
        
        dbutils.widgets.text("input", "","")
        y = dbutils.widgets.get("input")
        print ("Param -\'input':")
        print (y)
        

        Zrzut ekranu przedstawiający sposób tworzenia widżetów dla parametrów.

      5. Ścieżka notesu w tym przypadku to /adftutorial/mynotebook.

  5. Przełącz się z powrotem do narzędzia tworzenia interfejsu użytkownika usługi Data Factory. Przejdź do karty Ustawienia w działaniu Notebook1 .

    a. Dodaj parametr do działania Notes. Użyj tego samego parametru, który został dodany wcześniej do potoku.

    Zrzut ekranu przedstawiający sposób dodawania parametru.

    b. Nadaj parametrowi nazwę input i podaj wartość jako wyrażenie @pipeline().parameters.name.

  6. Aby zweryfikować potok, wybierz przycisk Weryfikuj na pasku narzędzi. Aby zamknąć okno weryfikacji, wybierz przycisk Zamknij .

    Zrzut ekranu przedstawiający sposób weryfikowania potoku.

  7. Wybierz opcję Publikuj wszystko. Interfejs użytkownika usługi Data Factory publikuje jednostki (połączone usług i potok) do usługi Azure Data Factory.

    Zrzut ekranu przedstawiający sposób publikowania nowych jednostek fabryki danych.

Wyzwalanie uruchomienia potoku

Wybierz pozycję Dodaj wyzwalacz na pasku narzędzi, a następnie wybierz pozycję Wyzwól teraz.

Zrzut ekranu przedstawiający sposób wybierania polecenia

W oknie dialogowym Uruchamianie potoku zostanie wyświetlony monit o podanie parametru name . Jako parametru użyj w tym miejscu wartości /path/filename. Wybierz przycisk OK.

Zrzut ekranu przedstawiający sposób podawania wartości parametrów nazwy.

Monitorowanie działania potoku

  1. Przejdź do karty Monitorowanie . Upewnij się, że zostanie wyświetlony przebieg potoku. Utworzenie klastra zadań usługi Databricks, w którym jest wykonywany notes, trwa około 5–8 minut.

    Zrzut ekranu przedstawiający sposób monitorowania potoku.

  2. Okresowo wybieraj pozycję Odśwież, aby sprawdzić stan uruchomienia potoku.

  3. Aby wyświetlić uruchomienia działań skojarzone z uruchomieniem potoku, wybierz link pipeline1 w kolumnie Nazwa potoku.

  4. Na stronie Uruchomienia działania wybierz pozycję Dane wyjściowe w kolumnie Nazwa działania, aby wyświetlić dane wyjściowe każdego działania, a link do dzienników usługi Databricks można znaleźć w okienku Dane, aby uzyskać bardziej szczegółowe dzienniki platformy Spark.

  5. Możesz wrócić do widoku przebiegów potoku, wybierając link Wszystkie uruchomienia potoku w menu linku do stron nadrzędnych u góry strony.

Sprawdzanie danych wyjściowych

Po zalogowaniu się do obszaru roboczego usługi Azure Databricks możesz przejść na kartę Klastry, gdzie jest wyświetlany stan zadania. Dostępne wartości to Oczekiwanie na wykonanie, Uruchomione i Zakończone.

Zrzut ekranu przedstawiający sposób wyświetlania klastra zadań i zadania.

Aby uzyskać więcej szczegółów, możesz kliknąć nazwę zadania. Po pomyślnym uruchomieniu można sprawdzić poprawność przekazanych parametrów i dane wyjściowe notesu Python.

Zrzut ekranu przedstawiający sposób wyświetlania szczegółów i danych wyjściowych przebiegu.

Potok w tym przykładzie wyzwala działanie notesu usługi Databricks i przekazuje do niego parametr. W tym samouczku omówiono:

  • Tworzenie fabryki danych.

  • Tworzenie potoku, który używa działania notesu usługi Databricks.

  • Wyzwalanie uruchomienia potoku.

  • Monitorowanie uruchomienia potoku.