Øvelse – Brug beregningstransformationer i Azure Data Factory
I nogle tilfælde opfylder den kodefrie transformation i stor skala muligvis ikke dine krav. Du kan bruge Azure Data Factory til at indtage rådata, der indsamles fra forskellige kilder, og arbejde med en række beregningsressourcer, f.eks. Azure Databricks, Azure HDInsight eller andre beregningsressourcer for at omstrukturere dem i henhold til dine krav.
ADF og Azure Databricks
Integration af Azure Databricks med ADF giver dig f.eks. mulighed for at tilføje Databricks-notesbøger i en ADF-pipeline for at udnytte analyse- og datatransformationsfunktionerne i Databricks. Du kan tilføje en notesbog i din dataarbejdsproces for at strukturere og transformere rådata, der indlæses i ADF fra forskellige kilder. Når dataene er transformeret ved hjælp af Databricks, kan du derefter indlæse dem i en hvilken som helst datakilde.
Dataindtagelse og -transformation ved hjælp af de kollektive funktioner i ADF og Azure Databricks omfatter i bund og grund følgende trin:
Opret Azure Storage-konto – Det første trin er at oprette en Azure Storage-konto til lagring af dine data, der er indtaget og transformeret.
Opret en Azure Data Factory – Når du har konfigureret din lagerkonto, skal du oprette din Azure Data Factory ved hjælp af Azure Portal.
Opret en pipeline for dataarbejdsprocesser – Når dit lager og ADF kører, starter du med at oprette en pipeline, hvor det første trin er at kopiere data fra din kilde ved hjælp af ADF's kopiaktivitet. Kopiér aktivitet giver dig mulighed for at kopiere data fra forskellige kilder i det lokale miljø og cloudmiljøet.
Føj Databricks-notesbogen til pipelinen – Når dine data er kopieret til ADF, føjer du din Databricks-notesbog til pipelinen efter kopiaktivitet. Denne notesbog kan indeholde syntaks og kode til at transformere og rense rådata efter behov.
Udfør analyse af data – Nu, hvor dine data er ryddet op og struktureret i det påkrævede format, kan du bruge Databricks-notesbøger til yderligere at oplære eller analysere dem for at give de nødvendige resultater.
Du har lært, hvad Azure Data Factory er, og hvordan integrationen med Azure Databricks hjælper dig med at indlæse og transformere dine data. Lad os nu oprette en arbejdsproces med eksempeldata fra ende til anden.
Integration af Azure Databricks-notesbøger med Azure Data Factory-pipeline
Der er mange opgaver, der skal udføres for at integrere Azure Databricks-notebooks med Azure Data Factory-pipelinen som følger:
Opret et Databricks-adgangstoken.
Opret en Databricks-notesbog
Opret sammenkædede tjenester
Opret en pipeline, der bruger Databricks Notebook Activity.
Udløs en pipelinekørsel.
Seddel
I følgende trin antages det, at der allerede er en Azure Databricks-klynge, der allerede er klargjort
Opgave 1: Generer en Databricks Access Token
I Azure-portalen vælger du Resource groups og derefter awrgstudxx, og vælg derefter awdbwsstudxx hvor
xxer initialerne i dit navn.Vælg Start arbejdsområde.
Vælg din brugerprofilmenu i øverste højre hjørne af dit Databricks-arbejdsområde.
Vælg Indstillinger, og vælg derefter fanen Udvikler .
Under Access tokens vælger du Administrér knappen, og vælg derefter Generer nyt token.
Indtast en beskrivelse i kommentaren "For ADF-integration" og sæt levetidsperioden til 10 dage og vælg Generer.
Kopier den genererede token og gem den i Notepad, og vælg derefter Færdig.
Opgave 2: Opret en databricks-notesbog
Til venstre på skærmen vælger du Workspace-ikonet , derefter pilen ved siden af ordet Workspace, og vælg Opret og derefter Mappe. Navngiv mappen adftutorial, og vælg Opret mappe. Mappen adftutorial vises i arbejdsområdet.
Vælg dropdown-pilen ved siden af adftutorial, vælg derefter Opret og vælg derefter Notebook.
I dialogboksen Opret notesbog skal du skrive navnet
mynotebook, og sikre at sproget siger Python, og derefter vælge Create. Notesbogen med titlen påmynotebookdukker op.I den nyoprettede notesbog
mynotebooktilføjes følgende kode:# Creating widgets for leveraging parameters, and printing the parameters dbutils.widgets.text("input", "","") dbutils.widgets.get("input") y = getArgument("input") print ("Param -\'input':") print (y)Seddel
Notesbogsstien er /adftutorial/mynotebook
Opgave 3: Opret sammenkædede tjenester
I Microsoft Edge vælger du fanen for portalen i Azure-portalen, og vender tilbage til Azure Data Factory og vælger Åbn Azure Data Factory Studio.
På venstre side af skærmen skal du vælge Administrér-ikonet .
Under Forbindelser skal du vælge Linked Services.
I Linked Service, øverst på skærmen, vælg + Ny.
Vælg fanen Compute, vælg Azure Databricks, og vælg derefter Continue.
I skærmen New Linked Service (Azure Databricks) udfyldes følgende oplysninger og vælg Finish:
-
Navn:
xx_dbls, hvorxxer dine initialer -
Databricks Workspace:
awdbwsstudxx, hvorxxer dine initialer - Vælg klynge: Brug eksisterende
- Domæne/område: skal udfyldes
- Adgangstoken: Kopiér adgangstokenet fra Notesblok, og indsæt det i dette felt
-
Vælg fra eksisterende klynge:
awdbclstudxx, hvorxxer dine initialer - Lad andre indstillinger være deres standardindstillinger
Seddel
Når du vælger Finish, vender du tilbage til Azure Data Factory Studio hvor xx_dbls er oprettet, med de andre linkede tjenester, der blev oprettet i den forrige øvelse.
-
Navn:
Opgave 4: Opret en pipeline, der bruger Databricks Notebook Activity
På venstre side af skærmen vælger du Forfatter-ikonet , og vælger derefter Pipeline. Dette åbner en fane med en pipelinedesigner.
Nederst i pipeline-designeren skal du vælge fanen for parametre, og derefter vælge + Ny.
Opret en parameter med Navnet på navnet med en strengtype
Udvid Databricks i menuen Aktiviteter.
Vælg og træk Notesbog over på lærredet.
Udfør følgende trin i egenskaberne for vinduet Notesbog1 nederst:
Skift til fanen Azure Databricks .
Vælg xx_dbls , som du oprettede i den forrige procedure.
Skift til fanen Indstillinger , og placer /adftutorial/mynotebook i notesbogstien.
Udvid basisparametre, og vælg derefter + Ny.
Opret en parameter med inputnavnet med værdien @pipeline().parameters.name
I Notesbog1 vælger du Valider ved siden af knappen Gem som skabelon. Et vindue vises til højre på skærmen, hvor der står "Din pipeline er blevet valideret. Der blev ikke fundet nogen fejl." Vælg for >> at lukke vinduet.
Vælg Publish All for at publicere den linkede service og pipeline.
Seddel
Der vises en meddelelse om, at installationen er fuldført.
Opgave 5: Udløs en pipelinekørsel
I Notebook1 vælger du Tilføj trigger, og vælg Trigger Nu ved siden af Debug-knappen.
I dialogboksen Pipelinekørsel bliver du bedt om at angive navneparameteren. Brug /path/filename som parameteren her. Vælg Udfør. En rød cirkel vises over aktiviteten Notebook1 på lærredet.
Opgave 6: Overvåg pipelinen
Til venstre på skærmen skal du vælge fanen Skærm . Bekræft, at du ser en rørledning. Det tager ca. 5-8 minutter at oprette en Databricks-jobklynge, hvor notesbogen udføres.
Vælg Opdater jævnligt for at kontrollere status for pipelinekørslen.
Hvis du vil se aktivitetskørsler, der er knyttet til pipelinekørslen, skal du vælge Vis aktivitetskørsler i kolonnen Handlinger .
Opgave 7: Kontrollér outputtet
I Microsoft Edge skal du vælge fanen
mynotebook - Databricks.I arbejdsområdet Azure Databricks vælg Clusters og du kan se jobstatus som afventende eksekvering, kørende eller afsluttet.
Vælg klyngen
awdbclstudxx, og vælg derefter Event Log for at se aktiviteterne.Seddel
Du bør kunne se hændelsestypen Start med det tidspunkt, hvor du udløste pipelinekørslen.