Oefening: rekentransformaties gebruiken in Azure Data Factory

Voltooid

In sommige gevallen voldoet de transformatie zonder code op schaal mogelijk niet aan uw vereisten. U kunt Azure Data Factory gebruiken om onbewerkte gegevens op te nemen die zijn verzameld uit verschillende bronnen en te werken met een reeks rekenresources, zoals Azure Databricks, Azure HDInsight of andere rekenresources om deze te herstructureren op basis van uw vereisten.

ADF en Azure Databricks

Als voorbeeld kunt u met de integratie van Azure Databricks met ADF Databricks-notebooks toevoegen in een ADF-pijplijn om gebruik te maken van de mogelijkheden voor analytische en gegevenstransformatie van Databricks. U kunt een notebook toevoegen aan uw gegevenswerkstroom om de onbewerkte gegevens te structureren en te transformeren die vanuit verschillende bronnen in ADF zijn geladen. Nadat de gegevens zijn getransformeerd met Databricks, kunt u deze laden naar elke datawarehousebron.

Voor de opname en transformatie van gegevens met behulp van de mogelijkheden van ADF en Azure Databricks, voert u doorgaans de volgende stappen uit:

  1. Een Azure-opslagaccount maken: de eerste stap is het maken van een Azure-opslagaccount om uw opgenomen en getransformeerde gegevens op te slaan.

  2. Een Azure data factory maken: nadat u uw opslagaccount hebt gemaakt, moet u uw Azure data factory maken via Azure Portal.

  3. Een pijplijn voor de gegevenswerkstroom maken: wanneer uw opslagaccount en ADF gereed zijn voor gebruik, maakt u een pijplijn. Hierbij moet u als eerste de gegevens kopiëren vanuit de bron met behulp van de ADF-kopieeractiviteit. Met de kopieeractiviteit kunt u gegevens kopiëren uit verschillende on-premises bronnen en cloudbronnen.

  4. Databricks-notebook aan pijplijn toevoegen: wanneer u uw gegevens hebt gekopieerd naar ADF, kunt u uw Databricks-notebook toevoegen aan de pijplijn na de kopieeractiviteit. Deze notebook kan syntaxis en code bevatten om onbewerkte gegevens naar behoefte te transformeren en op te schonen.

  5. Analyse uitvoeren op gegevens: nu uw gegevens zijn opgeschoond en in de juiste indeling zijn gestructureerd, kunt u Databricks-notebooks gebruiken om de gegevens verder te trainen of te analyseren om de gewenste resultaten uit te voeren.

U hebt geleerd wat Azure Data Factory is en hoe u dankzij de integratie met Azure Databricks uw gegevens kunt laden en transformeren. We gaan nu een voorbeeld van een end-to-end gegevenswerkstroom maken.

Azure Databricks-notebooks integreren met Azure Data Factory-pijplijn

Er moeten een aantal taken worden uitgevoerd om Azure Databricks-notebooks als volgt te integreren met azure Data Factory-pijplijn:

  1. Genereer een Databricks-toegangstoken.

  2. Een Databricks Notebook genereren

  3. Gekoppelde services maken

  4. Maak een pijplijn die gebruikmaakt van Databricks Notebook Activity.

  5. Een pijplijnuitvoering activeren.

    Notitie

    In de volgende stappen wordt ervan uitgegaan dat er al een Azure Databricks-cluster is ingericht

Taak 1: Een Databricks-toegangstoken genereren.

  1. Klik in Azure Portal op Resourcegroepen en klik vervolgens op awrgstudxx en klik vervolgens op awdbwsstudxx , waarbij xx de initialen van uw naam zijn.

  2. Klik op Werkruimte starten

  3. Klik op de gebruiker Instellingen in de linkerbenedenhoek van uw Databricks-werkruimte.

  4. Klik op Gebruiker Instellingen.

  5. Ga naar het tabblad Toegangstokens en klik op de knop Nieuw token genereren.

  6. Voer een beschrijving in de opmerking 'For ADF Integration' in en stel de levensduur van 10 dagen in en klik op Genereren

  7. Kopieer het gegenereerde token en sla het op in Kladblok en klik vervolgens op Gereed.

Taak 2: Een Databricks Notebook genereren

  1. Klik aan de linkerkant van het scherm op het pictogram Werkruimte , klik vervolgens op de pijl naast het woord Werkruimte en klik op Maken en klik vervolgens op Map. Geef de map de naam adftutorial en klik op Map maken. De map adftutorial wordt weergegeven in de werkruimte.

  2. Klik op de vervolgkeuzepijl naast adftutorial en klik vervolgens op Maken en klik vervolgens op Notitieblok.

  3. Typ in het dialoogvenster Notitieblok maken de naam van mynotebook en zorg ervoor dat de taal Python aangeeft en klik vervolgens op Maken. Het notitieblok met de titel van mynotebook wordt weergegeven/

  4. In de zojuist gemaakte notebook 'mynotebook' voegt u de volgende code toe:

    # Creating widgets for leveraging parameters, and printing the parameters
    
    dbutils.widgets.text("input", "","")
    dbutils.widgets.get("input")
    y = getArgument("input")
    print ("Param -\'input':")
    print (y)
    

    Notitie

    dat het pad van het notitieblok /adftutorial/mynotebook is

Taak 3: Gekoppelde services maken

  1. Klik in Microsoft Edge op het tabblad voor de portal in Azure Portal en ga terug naar Azure Data Factory en klik op Azure Data Factory Openen.

  2. Klik aan de linkerkant van het scherm op het pictogram Beheren .

  3. Klik onder Verbinding maken ionen op Gekoppelde services.

  4. Klik in de gekoppelde service boven aan het scherm op + Nieuw,

  5. Klik op het tabblad Compute , klik op Azure Databricks en klik vervolgens op Doorgaan.

  6. Vul in het scherm Nieuwe gekoppelde service (Azure Databricks) de volgende details in en klik op Voltooien

    • Naam: xx_dbls, waarbij xx uw initialen zijn
    • Databricks Workspace: awdbwsstudxx, waarbij xx uw initialen zijn
    • Cluster selecteren: bestaande gebruiken
    • Domein/regio: moet worden ingevuld
    • Toegangstoken: kopieer het toegangstoken uit Kladblok en plak deze in dit veld
    • Kies uit een bestaand cluster: awdbclstudxx, waarbij xx uw initialen zijn
    • Andere opties op de standaardinstellingen laten staan

    Notitie

    Wanneer u op Voltooien klikt, keert u terug naar het scherm Auteur & Monitor waar de xx_dbls is gemaakt, met de andere gekoppelde services die in het vorige exercize zijn gemaakt.

Taak 4: Maak een pijplijn die gebruikmaakt van Databricks Notebook Activity.

  1. Klik aan de linkerkant van het scherm op het pictogram Auteur en klik vervolgens op Pijplijn. Hiermee opent u een tabblad met een pijplijnontwerper.

  2. Klik onder aan de ontwerpfunctie voor pijplijnen op het tabblad Parameters en klik vervolgens op + Nieuw

  3. Een parameter maken met de naam van de naam, met een type tekenreeks

  4. Vouw in het menu Activiteiten Databricks uit.

  5. Klik en sleep Notitieblok naar het canvas.

  6. Voer in de eigenschappen voor het venster Notebook1 onderaan de volgende stappen uit:

    • Schakel over naar het tabblad Azure Databricks.

    • Selecteer xx_dbls die u in de vorige procedure hebt gemaakt.

    • Ga naar het tabblad Instellingen en plaats /adftutorial/mynotebook in het pad Notitieblok.

    • Vouw Basisparameters uit en klik vervolgens op + Nieuw

    • Maak een parameter met de naam van de invoer, met de waarde @pipeline().parameters.name

  7. Klik in notebook1 op Valideren naast de knop Opslaan als sjabloon. Terwijl het venster rechts van het scherm wordt weergegeven met de tekst 'Uw pijplijn is gevalideerd.' Er zijn geen fouten gevonden. Klik op de >> knop om het venster te sluiten.

  8. Klik op Alles publiceren om de gekoppelde service en pijplijn te publiceren.

    Notitie

    Er wordt een bericht weergegeven met de status dat de implementatie is geslaagd.

Taak 5: Een pijplijnuitvoering activeren

  1. Klik in notebook1 op Trigger toevoegen en klik op Nu activeren naast de knop Foutopsporing.

  2. Het dialoogvenster Pijplijnuitvoering vraagt om de naamparameter. Gebruik hier /pad/bestandsnaam als parameter. Klik op Voltooien. Er wordt een rode cirkel weergegeven boven de activiteit Notebook1 op het canvas.

Taak 6: De pijplijn bewaken

  1. Klik aan de linkerkant van het scherm op het tabblad Controleren . Controleer of u een pijplijnuitvoering ziet. Het duurt 5 tot 8 minuten om een Databricks-taakcluster te maken, waar de notebook wordt uitgevoerd.

  2. Selecteer regelmatig Vernieuwen om de status van de pijplijnuitvoering te controleren.

  3. Selecteer Uitvoering van activiteiten weergeven in de kolom Acties om de uitvoering van activiteiten weer te geven die zijn gekoppeld aan de pijplijnuitvoering.

Taak 7: De uitvoer controleren

  1. Klik in Microsoft Edge op het tabblad mynotebook - Databricks

  2. Klik in de Azure Databricks-werkruimte op Clusters en u kunt de taakstatus zien als uitvoering in behandeling, wordt uitgevoerd of beëindigd.

  3. Klik op het cluster awdbclstudxx en klik vervolgens op het gebeurtenislogboek om de activiteiten weer te geven.

    Notitie

    U ziet nu een gebeurtenistype dat begint met de tijd waarop u de pijplijnuitvoering hebt geactiveerd.