Uruchamianie notesu usługi Databricks za pomocą działania notesu usługi Databricks w usłudze Azure Data Factory

DOTYCZY: Azure Data Factory Azure Synapse Analytics

Napiwek

Wypróbuj usługę Data Factory w usłudze Microsoft Fabric — rozwiązanie analityczne typu all-in-one dla przedsiębiorstw. Usługa Microsoft Fabric obejmuje wszystko, od przenoszenia danych do nauki o danych, analizy w czasie rzeczywistym, analizy biznesowej i raportowania. Dowiedz się, jak bezpłatnie rozpocząć nową wersję próbną !

W tym samouczku w witrynie Azure Portal utworzysz potok usługi Azure Data Factory, który wykona notes usługi Databricks w klastrze zadań usługi Databricks. Podczas wykonywania parametry usługi Azure Data Factory będą również przekazywane do notesu usługi Databricks.

Ten samouczek obejmuje następujące procedury:

  • Tworzenie fabryki danych.

  • Tworzenie potoku, który używa działania notesu usługi Databricks.

  • Wyzwalanie uruchomienia potoku.

  • Monitorowanie uruchomienia potoku.

Jeśli nie masz subskrypcji platformy Azure, przed rozpoczęciem utwórz bezpłatne konto.

Poniższy klip wideo zawiera jedenastominutowe wprowadzenie i demonstrację tej funkcji:

Wymagania wstępne

  • Obszar roboczy usługi Azure Databricks. Utwórz obszar roboczy usługi Databricks lub użyj istniejącego. Najpierw utworzysz notes Python w obszarze roboczym usługi Azure Databricks. Następnie wykonasz notes i przekażesz do niego parametry przy użyciu usługi Azure Data Factory.

Tworzenie fabryki danych

  1. Uruchom przeglądarkę internetową Microsoft Edge lub Google Chrome. Obecnie interfejs użytkownika usługi Data Factory jest obsługiwany tylko przez przeglądarki internetowe Microsoft Edge i Google Chrome.

  2. Wybierz pozycję Utwórz zasób w menu witryny Azure Portal, wybierz pozycję Integracja, a następnie wybierz pozycję Data Factory.

    Screenshot showing Data Factory selection in the New pane.

  3. Na stronie Tworzenie fabryki danych na karcie Podstawy wybierz subskrypcję platformy Azure, w której chcesz utworzyć fabrykę danych.

  4. W obszarze Grupa zasobów wykonaj jedną z następujących czynności:

    1. Wybierz istniejącą grupę zasobów z listy rozwijanej.

    2. Wybierz pozycję Utwórz nową i wprowadź nazwę nowej grupy zasobów.

    Informacje na temat grup zasobów znajdują się w artykule Using resource groups to manage your Azure resources (Używanie grup zasobów do zarządzania zasobami platformy Azure).

  5. W obszarze Region wybierz lokalizację fabryki danych.

    Ta lista zawiera tylko lokalizacje, które są obsługiwane przez usługę Data Factory i w których będą przechowywane metadane usługi Azure Data Factory. Skojarzone magazyny danych (takie jak Azure Storage i Azure SQL Database) i obliczenia (takie jak Usługa Azure HDInsight), których usługa Data Factory używa, może działać w innych regionach.

  6. W polu Nazwa wprowadź wartość ADFTutorialDataFactory.

    Nazwa fabryki danych platformy Azure musi być globalnie unikatowa. Jeśli zostanie wyświetlony następujący błąd, zmień nazwę fabryki danych (na przykład użyj <nazwy>ADFTutorialDataFactory). Artykuł Usługa Data Factory — reguły nazewnictwa zawiera reguły nazewnictwa artefaktów usługi Data Factory.

    Screenshot showing the Error when a name is not available.

  7. W obszarze Wersja wybierz pozycję V2.

  8. Wybierz pozycję Dalej: Konfiguracja usługi Git, a następnie zaznacz pole wyboru Skonfiguruj usługę Git później .

  9. Wybierz pozycję Przejrzyj i utwórz, a następnie wybierz pozycję Utwórz po zakończeniu walidacji.

  10. Po zakończeniu tworzenia wybierz pozycję Przejdź do zasobu , aby przejść do strony Fabryka danych . Wybierz kafelek Otwórz program Azure Data Factory Studio, aby uruchomić aplikację interfejsu użytkownika usługi Azure Data Factory na osobnej karcie przeglądarki.

    Screenshot showing the home page for the Azure Data Factory, with the Open Azure Data Factory Studio tile.

Tworzenie połączonych usług

W tej sekcji utworzysz połączoną usługę Databricks. Ta połączona usługa zawiera informacje o połączeniu z klastrem usługi Databricks:

Tworzenie połączonej usługi Azure Databricks

  1. Na stronie głównej przejdź do karty Zarządzanie w panelu po lewej stronie.

    Screenshot showing the Manage tab.

  2. Wybierz pozycję Połączone usługi w obszarze Połączenie ions, a następnie wybierz pozycję + Nowy.

    Screenshot showing how to create a new connection.

  3. W oknie Nowa połączona usługa wybierz pozycję Compute>Azure Databricks, a następnie wybierz pozycję Kontynuuj.

    Screenshot showing how to specify a Databricks linked service.

  4. W oknie Nowa połączona usługa wykonaj następujące kroki:

    1. W polu Nazwa wprowadź AzureDatabricks_LinkedService.

    2. Wybierz odpowiedni obszar roboczy usługi Databricks, w którym będzie uruchamiany notes.

    3. W obszarze Wybierz klaster wybierz pozycję Nowy klaster zadań.

    4. W przypadku adresu URL obszaru roboczego usługi Databrick informacje powinny być wypełniane automatycznie.

    5. W polu Typ uwierzytelniania, jeśli wybierzesz pozycję Token dostępu, wygeneruj go z poziomu miejsca pracy usługi Azure Databricks. Procedurę można znaleźć tutaj. W przypadku tożsamości usługi zarządzanej i tożsamości zarządzanej przypisanej przez użytkownika przyznaj rolę Współautor obu tożsamościom w menu Kontrola dostępu zasobu usługi Azure Databricks.

    6. W polu Wersja klastra wybierz wersję, której chcesz użyć.

    7. W polu Typ węzła klastra wybierz pozycję Standard_D3_v2 w kategorii Ogólnego przeznaczenia (HDD) dla tego samouczka.

    8. W polu Procesy robocze podaj wartość 2.

    9. Wybierz pozycję Utwórz.

      Screenshot showing the configuration of the new Azure Databricks linked service.

Tworzenie potoku

  1. Wybierz przycisk + (znak plus), a następnie wybierz pozycję Potok w menu.

    Screenshot showing buttons for creating a new pipeline.

  2. Utwórz parametr do użycia w potoku. Później przekażesz ten parametr do działania notesu usługi Databricks. W pustym potoku wybierz kartę Parametry, a następnie wybierz pozycję + Nowy i nadaj mu nazwę "name".

    Screenshot showing how to create a new parameter.

    Screenshot showing how to create the name parameter.

  3. W przyborniku Działania rozwiń pozycję Databricks. Przeciągnij działanie Notes z przybornika Działania na powierzchnię projektanta potoku.

    Screenshot showing how to drag the notebook to the designer surface.

  4. We właściwościach okna działania Notesusługi Databricks u dołu wykonaj następujące czynności:

    1. Przejdź do karty Azure Databricks.

    2. Wybierz AzureDatabricks_LinkedService (utworzoną w poprzedniej procedurze).

    3. Przejdź do karty Ustawienia.

    4. Użyj polecenia Przeglądaj, aby wybrać wartość dla pozycji Ścieżka notesu usługi Databricks. W tym miejscu utworzymy notes i określimy ścieżkę. Ścieżkę notesu można uzyskać, wykonując kilka następnych kroków.

      1. Uruchom obszar roboczy usługi Azure Databricks.

      2. Utwórz nowy folder w miejscu pracy i nadaj mu nazwę adftutorial.

        Screenshot showing how to create a new folder.

      3. Zrzut ekranu przedstawiający sposób tworzenia nowego notesu. (Python), nazwijmy go mynotebook w folderze adftutorial , kliknij przycisk Utwórz.

        Screenshot showing how to create a new notebook.

        Screenshot showing how to set the properties of the new notebook.

      4. W nowo utworzonym notesie „mynotebook” dodaj następujący kod:

        # Creating widgets for leveraging parameters, and printing the parameters
        
        dbutils.widgets.text("input", "","")
        y = dbutils.widgets.get("input")
        print ("Param -\'input':")
        print (y)
        

        Screenshot showing how to create widgets for parameters.

      5. Ścieżka notesu w tym przypadku to /adftutorial/mynotebook.

  5. Przełącz się z powrotem do narzędzia tworzenia interfejsu użytkownika usługi Data Factory. Przejdź do karty Ustawienia w działaniu Notebook1.

    a. Dodaj parametr do działania Notes. Użyj tego samego parametru, który został dodany wcześniej do potoku.

    Screenshot showing how to add a parameter.

    b. Nadaj parametrowi nazwę input i podaj wartość jako wyrażenie @pipeline().parameters.name.

  6. Aby zweryfikować potok, wybierz przycisk Weryfikuj na pasku narzędzi. Aby zamknąć okno weryfikacji, wybierz przycisk Zamknij .

    Screenshot showing how to validate the pipeline.

  7. Wybierz opcję Publikuj wszystko. Interfejs użytkownika usługi Data Factory publikuje jednostki (połączone usług i potok) do usługi Azure Data Factory.

    Screenshot showing how to publish the new data factory entities.

Wyzwalanie uruchomienia potoku

Wybierz pozycję Dodaj wyzwalacz na pasku narzędzi, a następnie wybierz pozycję Wyzwól teraz.

Screenshot showing how to select the 'Trigger now' command.

W oknie dialogowym Uruchamianie potoku zostanie wyświetlony monit o podanie parametru name . Jako parametru użyj w tym miejscu wartości /path/filename. Wybierz przycisk OK.

Screenshot showing how to provide a value for the name parameters.

Monitorowanie działania potoku

  1. Przejdź do karty Monitorowanie . Upewnij się, że zostanie wyświetlony przebieg potoku. Utworzenie klastra zadań usługi Databricks, w którym jest wykonywany notes, trwa około 5–8 minut.

    Screenshot showing how to monitor the pipeline.

  2. Okresowo wybieraj pozycję Odśwież, aby sprawdzić stan uruchomienia potoku.

  3. Aby wyświetlić uruchomienia działań skojarzone z uruchomieniem potoku, wybierz link pipeline1 w kolumnie Nazwa potoku.

  4. Na stronie Uruchomienia działania wybierz pozycję Dane wyjściowe w kolumnie Nazwa działania, aby wyświetlić dane wyjściowe każdego działania, a link do dzienników usługi Databricks można znaleźć w okienku Dane, aby uzyskać bardziej szczegółowe dzienniki platformy Spark.

  5. Możesz wrócić do widoku przebiegów potoku, wybierając link Wszystkie uruchomienia potoku w menu linku do stron nadrzędnych u góry strony.

Sprawdzanie danych wyjściowych

Po zalogowaniu się do obszaru roboczego usługi Azure Databricks możesz przejść na kartę Klastry, gdzie jest wyświetlany stan zadania. Dostępne wartości to Oczekiwanie na wykonanie, Uruchomione i Zakończone.

Screenshot showing how to view the job cluster and the job.

Aby uzyskać więcej szczegółów, możesz kliknąć nazwę zadania. Po pomyślnym uruchomieniu można sprawdzić poprawność przekazanych parametrów i dane wyjściowe notesu Python.

Screenshot showing how to view the run details and output.

Potok w tym przykładzie wyzwala działanie notesu usługi Databricks i przekazuje do niego parametr. W tym samouczku omówiono:

  • Tworzenie fabryki danych.

  • Tworzenie potoku, który używa działania notesu usługi Databricks.

  • Wyzwalanie uruchomienia potoku.

  • Monitorowanie uruchomienia potoku.