Übung: Verwenden von Computetransformationen in Azure Data Factory

Abgeschlossen

In einigen Fällen erfüllt die codefreie Transformation im Maßstab möglicherweise nicht Ihre Anforderungen. Sie können Azure Data Factory verwenden, um rohe Daten aus verschiedenen Quellen aufzunehmen und mit einer Reihe von Computeressourcen wie Azure Databricks, Azure HDInsight oder anderen Computeressourcen zu arbeiten, um sie gemäß Ihren Anforderungen neu zu strukturieren.

ADF und Azure Databricks

Die Integration von Azure Databricks mit ADF ermöglicht ihnen beispielsweise das Hinzufügen von Databricks-Notizbüchern in einer ADF-Pipeline, um die Analyse- und Datentransformationsfunktionen von Databricks zu nutzen. Sie können ein Notizbuch in Ihrem Datenworkflow hinzufügen, um rohe Daten zu strukturieren und zu transformieren, die aus verschiedenen Quellen in ADF geladen wurden. Nachdem die Daten mithilfe von Databricks transformiert wurden, können Sie sie dann in eine beliebige Datenquelle laden.

Die Erfassung und Transformation von Daten mithilfe der kollektiven Funktionen von ADF und Azure Databricks umfasst im Wesentlichen die folgenden Schritte:

  1. Erstellen eines Azure-Speicherkontos – Der erste Schritt besteht darin, ein Azure-Speicherkonto zu erstellen, um Ihre aufgenommenen und transformierten Daten zu speichern.

  2. Erstellen Sie eine Azure Data Factory – Nachdem Sie Ihr Speicherkonto eingerichtet haben, müssen Sie Ihre Azure Data Factory mithilfe des Azure-Portals erstellen.

  3. Erstellen einer Datenworkflowpipeline – Nachdem Der Speicher und die ADF ausgeführt wurden, erstellen Sie zunächst eine Pipeline, in der der erste Schritt darin besteht, Daten aus Ihrer Quelle mithilfe der Kopieraktivität von ADF zu kopieren. Mit "Kopieraktivität" können Sie Daten aus verschiedenen lokalen und Cloudquellen kopieren.

  4. Hinzufügen eines Databricks-Notizbuchs zur Pipeline – Nachdem Ihre Daten in ADF kopiert wurden, fügen Sie Ihr Databricks-Notizbuch nach der Kopieraktivität zur Pipeline hinzu. Dieses Notizbuch kann Syntax und Code enthalten, um rohe Daten nach Bedarf zu transformieren und zu bereinigen.

  5. Durchführen einer Analyse von Daten – Nachdem Ihre Daten bereinigt und in das erforderliche Format strukturiert sind, können Sie Databricks-Notizbücher verwenden, um sie weiter zu trainieren oder zu analysieren, um die erforderlichen Ergebnisse auszuzugeben.

Sie haben gelernt, was Azure Data Factory ist und wie Ihre Integration in Azure Databricks Ihnen hilft, Ihre Daten zu laden und zu transformieren. Jetzt erstellen wir einen End-to-End-Beispieldatenworkflow.

Integrieren von Azure Databricks-Notizbüchern in die Azure Data Factory-Pipeline

Es gibt eine Reihe von Aufgaben, die ausgeführt werden müssen, um Azure Databricks-Notizbücher wie folgt in die Azure Data Factory-Pipeline zu integrieren:

  1. Generieren Sie ein Databricks-Zugriffstoken.

  2. Generieren eines Databricks-Notizbuchs

  3. Erstellen verknüpfter Dienste

  4. Erstellen Sie eine Pipeline, die Databricks-Notizbuchaktivität verwendet.

  5. Auslösen einer Pipelineausführung.

    Hinweis

    Bei den folgenden Schritten wird davon ausgegangen, dass bereits ein Azure Databricks-Cluster bereitgestellt wurde.

Aufgabe 1: Generieren eines Databricks-Zugriffstokens.

  1. Klicken Sie im Azure-Portal auf Ressourcengruppen , und klicken Sie dann auf awrgstudxx, und klicken Sie dann auf awdbwsstudxx , wobei xx die Initialen Ihres Namens sind.

  2. Klicken Sie auf "Arbeitsbereich starten".

  3. Klicken Sie in der unteren linken Ecke des Databricks-Arbeitsbereichs auf die Benutzereinstellungen .

  4. Klicken Sie auf "Benutzereinstellungen".

  5. Wechseln Sie zur Registerkarte "Zugriffstoken", und klicken Sie auf die Schaltfläche " Neues Token generieren ".

  6. Geben Sie eine Beschreibung im Kommentar "Für ADF-Integration" ein, und legen Sie den Zeitraum von 10 Tagen fest, und klicken Sie auf "Generieren".

  7. Kopieren Sie das generierte Token, und speichern Sie es im Editor, und klicken Sie dann auf "Fertig".

Aufgabe 2: Generieren eines Databricks-Notizbuchs

  1. Klicken Sie auf der linken Seite des Bildschirms auf das Arbeitsbereichssymbol, klicken Sie dann auf den Pfeil neben dem Wort Arbeitsbereich, und klicken Sie dann auf "Erstellen " und dann auf "Ordner". Benennen Sie den Ordner "adftutorial", und klicken Sie auf " Ordner erstellen". Der Ordner "adftutorial" wird im Arbeitsbereich angezeigt.

  2. Klicken Sie auf den Dropdownpfeil neben adftutorial, und klicken Sie dann auf "Erstellen", und klicken Sie dann auf " Notizbuch".

  3. Geben Sie im Dialogfeld "Notizbuch erstellen" den Namen des Mynotebook ein, und stellen Sie sicher, dass die Sprache Python zugibt, und klicken Sie dann auf "Erstellen". Das Notizbuch mit dem Titel "mynotebook" wird angezeigt/

  4. Fügen Sie im neu erstellten Notebook „mynotebook“ den folgenden Code hinzu:

    # Creating widgets for leveraging parameters, and printing the parameters
    
    dbutils.widgets.text("input", "","")
    dbutils.widgets.get("input")
    y = getArgument("input")
    print ("Param -\'input':")
    print (y)
    

    Hinweis

    dass der Notizbuchpfad "/adftutorial/mynotebook" lautet

Aufgabe 3: Erstellen verknüpfter Dienste

  1. Klicken Sie in Microsoft Edge auf die Registerkarte für das Portal im Azure-Portal, und kehren Sie zu Azure Data Factory zurück, und klicken Sie auf "Azure Data Factory Studio öffnen".

  2. Klicken Sie auf der linken Seite des Bildschirms auf das Symbol "Verwalten" .

  3. Klicken Sie unter "Verbindungen" auf "Verknüpfte Dienste".

  4. Klicken Sie im verknüpften Dienst oben auf dem Bildschirm auf +Neu,

  5. Klicken Sie auf die Registerkarte "Berechnen ", klicken Sie auf "Azure Databricks" und dann auf "Weiter".

  6. Geben Sie im Bildschirm "Neuer verknüpfter Dienst( Azure Databricks)" die folgenden Details ein, und klicken Sie auf "Fertig stellen".

    • Name: xx_dbls, wobei xx Ihre Initialen sind
    • Databricks Workspace: awdbwsstudxx, wobei xx Ihre Initialen sind
    • Cluster auswählen: Vorhandenes verwenden
    • Domäne/Region: sollte aufgefüllt werden
    • Zugriffstoken: Kopieren Sie das Zugriffstoken aus Editor, und fügen Sie es in dieses Feld ein.
    • Wählen Sie aus vorhandenem Cluster: awdbclstudxx, wobei xx Ihre Initialen sind
    • Behalten Sie andere Optionen für ihre Standardeinstellungen bei

    Hinweis

    Wenn Sie auf "Fertig stellen" klicken, kehren Sie zum Bildschirm "Autor & Monitor " zurück, auf dem die xx_dbls erstellt wurde, mit den anderen verknüpften Diensten, die in der vorherigen Exercize erstellt wurden.

Aufgabe 4: Erstellen Sie eine Pipeline, die Databricks-Notizbuchaktivität verwendet.

  1. Klicken Sie auf der linken Seite des Bildschirms auf das Symbol " Autor" , und klicken Sie dann auf "Pipeline". Dadurch wird eine Registerkarte mit einem Pipeline-Designer geöffnet.

  2. Klicken Sie unten im Pipeline-Designer auf die Registerkarte "Parameter", und klicken Sie dann auf +Neu.

  3. Erstellen eines Parameters mit dem Namennamen mit einem Zeichenfolgentyp

  4. Erweitern Sie unter dem Menü "Aktivitäten " "Databricks".

  5. Klicken Sie auf das Notizbuch , und ziehen Sie es auf den Zeichenbereich.

  6. Führen Sie in den Eigenschaften für das Fenster " Notizbuch1 " unten die folgenden Schritte aus:

    • Wechseln Sie zur Registerkarte Azure Databricks.

    • Wählen Sie xx_dbls aus, die Sie im vorherigen Verfahren erstellt haben.

    • Wechseln Sie zur Registerkarte "Einstellungen ", und setzen Sie "/adftutorial/mynotebook " im Notizbuchpfad.

    • Erweitern Sie die Basisparameter, und klicken Sie dann auf +Neu.

    • Erstellen eines Parameters mit dem Namen der Eingabe mit dem Wert @pipeline().parameters.name

  7. Klicken Sie im Notizbuch1 auf "Überprüfen", neben der Schaltfläche "Als Vorlage speichern". Wenn das Fenster auf der rechten Seite des Bildschirms angezeigt wird, in dem "Ihre Pipeline wurde überprüft. Es wurden keine Fehler gefunden." Klicken Sie auf das >> Fenster, um das Fenster zu schließen.

  8. Klicken Sie auf " Alle veröffentlichen", um den verknüpften Dienst und die verknüpfte Pipeline zu veröffentlichen.

    Hinweis

    Es wird eine Meldung angezeigt, dass die Bereitstellung erfolgreich ist.

Aufgabe 5: Auslösen einer Pipelineausführung

  1. Klicken Sie im Notizbuch1 auf " Trigger hinzufügen", und klicken Sie auf "Jetzt auslösen" neben der Schaltfläche "Debuggen".

  2. Das Dialogfeld "Pipelineausführung " fordert den Namensparameter an. Verwenden Sie hier /path/filename als Parameter. Klicken Sie auf Fertig stellen. Über der Notebook1-Aktivität im Zeichenbereich wird ein roter Kreis angezeigt.

Aufgabe 6: Überwachen der Pipeline

  1. Klicken Sie links auf dem Bildschirm auf die Registerkarte "Monitor ". Vergewissern Sie sich, dass eine Pipelineausführung angezeigt wird. Die Erstellung eines Databricks-Auftragsclusters, in dem das Notebook ausgeführt wird, dauert ca. fünf bis acht Minuten.

  2. Wählen Sie von Zeit zu Zeit die Option Aktualisieren, um den Status der Pipelineausführung zu überprüfen.

  3. Wenn Sie mit der Pipelineausführung verknüpfte Aktivitätsausführungen anzeigen möchten, wählen Sie in der Spalte Aktionen die Optionen View Activity Runs (Aktivitätsausführungen anzeigen).

Aufgabe 7: Überprüfen der Ausgabe

  1. Klicken Sie in Microsoft Edge auf die Registerkarte mynotebook – Databricks

  2. Klicken Sie im Azure Databricks-Arbeitsbereich auf Cluster , und Sie können den Auftragsstatus als ausstehende Ausführung, Ausführung oder Beendigung anzeigen.

  3. Klicken Sie auf den Cluster awdbclstudxx, und klicken Sie dann auf das Ereignisprotokoll , um die Aktivitäten anzuzeigen.

    Hinweis

    Es sollte ein Ereignistyp angezeigt werden , der mit dem Zeitpunkt beginnt, zu dem Sie die Pipelineausführung ausgelöst haben.