Ćwiczenie — używanie przekształceń obliczeniowych w usłudze Azure Data Factory

Ukończone

W niektórych przypadkach transformacja bez użycia kodu na dużą skalę może nie spełniać Twoich wymagań. Za pomocą usługi Azure Data Factory można pozyskiwać nieprzetworzone dane zebrane z różnych źródeł i pracować z różnymi zasobami obliczeniowymi, takimi jak Azure Databricks, Azure HDInsight lub inne zasoby obliczeniowe, aby je zrestrukturyzować zgodnie z wymaganiami.

Usługi ADF i Azure Databricks

Na przykład integracja usługi Azure Databricks z usługą ADF umożliwia dodawanie notesów usługi Databricks w potoku usługi ADF w celu wykorzystania możliwości analizy i przekształcania danych usługi Databricks. Dodanie notesu do przepływu danych umożliwia strukturyzowanie i przekształcanie danych pierwotnych załadowanych do usługi ADF z różnych źródeł. Po przekształceniu danych w usłudze Databricks można załadować je do dowolnego źródłowego magazynu danych.

Pozyskiwanie i przekształcanie danych za pomocą kombinacji funkcji usług ADF i Azure Databricks obejmuje następujące podstawowe etapy:

  1. Tworzenie konta usługi Azure Storage — pierwszym krokiem jest utworzenie konta usługi Azure Storage w celu przechowywania pozyskanych i przekształconych danych.

  2. Tworzenie wystąpienia usługi Azure Data Factory — po skonfigurowaniu konta magazynu należy utworzyć wystąpienie usługi Azure Data Factory w witrynie Azure Portal.

  3. Tworzenie potoku przepływu danych — po skonfigurowaniu i uruchomieniu magazynu i usługi ADF należy utworzyć potok, w którym pierwszym krokiem będzie skopiowanie danych ze źródła za pomocą działania kopiowania usługi ADF. Działanie kopiowania umożliwia kopiowanie danych z różnych źródeł lokalnych i w chmurze.

  4. Dodawanie notesu usługi Databricks do potoku — po skopiowaniu danych do usługi ADF można dodać do potoku notes usługi Databricks, umieszczając go po działaniu kopiowania. Ten notes może zawierać składnię oraz kod używane do przekształcania i czyszczenia danych pierwotnych stosownie do potrzeb.

  5. Wykonywanie analiz na danych — po oczyszczeniu danych i dostosowaniu ich struktury oraz formatu możesz używać notesów usługi Databricks do dalszego trenowania lub analizowania w celu uzyskania wymaganych wyników wyjściowych.

Wiesz już, co to jest usługa Azure Data Factory oraz jak jej integracja z usługą Azure Databricks usprawnia ładowanie i przekształcanie danych. Teraz utworzymy przykładowy kompleksowy przepływ danych.

Integrowanie notesów usługi Azure Databricks z potokiem usługi Azure Data Factory

Istnieje wiele zadań, które należy wykonać w celu zintegrowania notesów usługi Azure Databricks z potokiem usługi Azure Data Factory w następujący sposób:

  1. Wygeneruj token dostępu usługi Databricks.

  2. Generowanie notesu usługi Databricks

  3. Tworzenie połączonych usług

  4. Utwórz potok, który używa działania notesu usługi Databricks.

  5. Wyzwalanie uruchomienia potoku.

    Uwaga

    W poniższych krokach założono, że klaster usługi Azure Databricks jest już aprowizowany

Zadanie 1. Generowanie tokenu dostępu usługi Databricks.

  1. W witrynie Azure Portal kliknij pozycję Grupy zasobów, a następnie kliknij pozycję awrgstudxx, a następnie kliknij pozycję awdbwsstudxx , gdzie xx są inicjałami Twojej nazwy.

  2. Kliknij pozycję Uruchom obszar roboczy

  3. Kliknij użytkownika Ustawienia w lewym dolnym rogu obszaru roboczego usługi Databricks.

  4. Kliknij pozycję Użytkownik Ustawienia.

  5. Przejdź do karty Tokeny dostępu i kliknij przycisk Generuj nowy token .

  6. Wprowadź opis w komentarzu "W przypadku integracji z usługą ADF" i ustaw okres istnienia 10 dni, a następnie kliknij pozycję Generuj

  7. Skopiuj wygenerowany token i zapisz go w Notatnik, a następnie kliknij pozycję Gotowe.

Zadanie 2. Generowanie notesu usługi Databricks

  1. Po lewej stronie ekranu kliknij ikonę Obszar roboczy , a następnie kliknij strzałkę obok wyrazu Obszar roboczy, a następnie kliknij pozycję Utwórz , a następnie kliknij pozycję Folder. Nadaj folderowi nazwę adftutorial, a następnie kliknij pozycję Utwórz folder. Folder adftutorial zostanie wyświetlony w obszarze roboczym.

  2. Kliknij strzałkę listy rozwijanej obok pozycji adftutorial, a następnie kliknij pozycję Utwórz, a następnie kliknij przycisk Notes.

  3. W oknie dialogowym Tworzenie notesu wpisz nazwę elementu mynotebook i upewnij się, że język zawiera język Python, a następnie kliknij pozycję Utwórz. Zostanie wyświetlony notes z tytułem elementu mynotebook/

  4. W nowo utworzonym notesie „mynotebook” dodaj następujący kod:

    # Creating widgets for leveraging parameters, and printing the parameters
    
    dbutils.widgets.text("input", "","")
    dbutils.widgets.get("input")
    y = getArgument("input")
    print ("Param -\'input':")
    print (y)
    

    Uwaga

    że ścieżka notesu to /adftutorial/mynotebook

Zadanie 3. Tworzenie połączonych usług

  1. W przeglądarce Microsoft Edge kliknij kartę portalu W witrynie Azure Portal i wróć do usługi Azure Data Factory, a następnie kliknij pozycję Otwórz program Azure Data Factory Studio.

  2. Po lewej stronie ekranu kliknij ikonę Zarządzaj .

  3. W obszarze Połączenie ions kliknij pozycję Połączone usługi.

  4. W połączonej usłudze w górnej części ekranu kliknij pozycję + Nowy,

  5. Kliknij kartę Obliczenia , kliknij pozycję Azure Databricks, a następnie kliknij pozycję Kontynuuj.

  6. Na ekranie Nowa połączona usługa (Azure Databricks) wypełnij następujące szczegóły i kliknij przycisk Zakończ

    • Nazwa: xx_dbls, gdzie xx to Twoje inicjały
    • Obszar roboczy usługi Databricks: awdbwsstudxx, gdzie xx to Twoje inicjały
    • Wybierz klaster: użyj istniejącego
    • Domena/region: należy wypełnić
    • Token dostępu: skopiuj token dostępu z Notatnik i wklej go w tym polu
    • Wybierz z istniejącego klastra: awdbclstudxx, gdzie xx to Twoje inicjały
    • Pozostaw inne opcje do ustawień domyślnych

    Uwaga

    Po kliknięciu przycisku Zakończ zostanie zwrócony ekran Tworzenie i monitorowanie , na którym utworzono xx_dbls z innymi połączonymi usługami utworzonymi w poprzednim przykładzie.

Zadanie 4. Tworzenie potoku korzystającego z działania notesu usługi Databricks.

  1. Po lewej stronie ekranu kliknij ikonę Autor , a następnie kliknij pozycję Potok. Spowoduje to otwarcie karty z projektantem potoku.

  2. W dolnej części projektanta potoku kliknij kartę Parametry, a następnie kliknij pozycję + Nowy

  3. Utwórz parametr o nazwie z typem ciągu

  4. W menu Działania rozwiń węzeł Databricks.

  5. Kliknij i przeciągnij notes na kanwę.

  6. We właściwościach okna Notebook1 u dołu wykonaj następujące kroki:

    • Przejdź do karty Azure Databricks.

    • Wybierz xx_dbls , które zostały utworzone w poprzedniej procedurze.

    • Przejdź do karty Ustawienia i umieść ciąg /adftutorial/mynotebook w ścieżce notesu.

    • Rozwiń węzeł Podstawowe parametry, a następnie kliknij pozycję + Nowy

    • Utwórz parametr o nazwie danych wejściowych z wartością @pipeline().parameters.name

  7. W notesie 1 kliknij pozycję Weryfikuj obok przycisku Zapisz jako szablon. Po prawej stronie ekranu zostanie wyświetlone okno z komunikatem "Potok został zweryfikowany. Nie znaleziono żadnych błędów. Kliknij przycisk , >> aby zamknąć okno.

  8. Kliknij pozycję Publikuj wszystko, aby opublikować połączoną usługę i potok.

    Uwaga

    Zostanie wyświetlony komunikat informujący o pomyślnym wdrożeniu.

Zadanie 5. Wyzwalanie uruchomienia potoku

  1. W notesie 1 kliknij pozycję Dodaj wyzwalacz, a następnie kliknij pozycję Wyzwól teraz obok przycisku Debuguj.

  2. W oknie dialogowym Uruchamianie potoku zostanie wyświetlony monit o podanie parametru name. Jako parametru użyj w tym miejscu wartości /path/filename. Kliknij przycisk Zakończ. Czerwone kółko pojawia się nad działaniem Notebook1 na kanwie.

Zadanie 6. Monitorowanie potoku

  1. Po lewej stronie ekranu kliknij kartę Monitorowanie . Upewnij się, że zostanie wyświetlony przebieg potoku. Utworzenie klastra zadań usługi Databricks, w którym jest wykonywany notes, trwa około 5–8 minut.

  2. Okresowo wybieraj pozycję Odśwież, aby sprawdzić stan uruchomienia potoku.

  3. Aby wyświetlić uruchomienia działań skojarzone z uruchomieniem potoku, wybierz pozycję Wyświetl uruchomienia działań w kolumnie Akcje.

Zadanie 7. Weryfikowanie danych wyjściowych

  1. W przeglądarce Microsoft Edge kliknij kartę mynotebook — Databricks

  2. W obszarze roboczym usługi Azure Databricks kliknij pozycję Klastry i możesz zobaczyć stan zadania jako oczekujące na wykonanie, uruchomienie lub zakończenie.

  3. Kliknij klaster awdbclstudxx, a następnie kliknij dziennik zdarzeń, aby wyświetlić działania.

    Uwaga

    Powinien zostać wyświetlony typ zdarzenia Rozpoczynający się od czasu wyzwolenia uruchomienia potoku.