Delen via


De Databricks Notebook-activiteit uitvoeren in Azure Data Factory op een Databricks-notebook

VAN TOEPASSING OP: Azure Data Factory Azure Synapse Analytics

Tip

Probeer Data Factory uit in Microsoft Fabric, een alles-in-één analyseoplossing voor ondernemingen. Microsoft Fabric omvat alles, van gegevensverplaatsing tot gegevenswetenschap, realtime analyses, business intelligence en rapportage. Meer informatie over het gratis starten van een nieuwe proefversie .

In deze zelfstudie gebruikt u Azure Portal om een Azure Data Factory-pijplijn te maken die een Databricks-notebook uitvoert op basis van het Databricks-takencluster. Bovendien worden tijdens de uitvoering Azure Data Factory-parameters doorgestuurd naar de Databricks-notebook.

In deze zelfstudie voert u de volgende stappen uit:

  • Een data factory maken.

  • Een pijplijn maken die gebruikmaakt van Databricks Notebook-activiteit.

  • Een pijplijnuitvoering activeren.

  • Controleer de pijplijnuitvoering.

Als u geen Azure-abonnement hebt, maakt u een gratis account voordat u begint.

Bekijk de volgende video voor een inleiding en demonstratie van deze functie van 11 minuten:

Vereisten

  • Azure Databricks-werkruimte. Maak een Databricks-werkruimte of gebruik een bestaande werkruimte. U maakt een Python-notebook in uw Azure Databricks-werkruimte. Vervolgens voert u de notebook uit en geeft u er parameters aan door met behulp van Azure Data Factory.

Een data factory maken

  1. Start de webbrowser Microsoft Edge of Google Chrome. Op dit moment wordt de Data Factory-gebruikersinterface alleen ondersteund in de webbrowsers Microsoft Edge en Google Chrome.

  2. Selecteer Een resource maken in het menu van Azure Portal, selecteer Integratie en selecteer vervolgens Data Factory.

    Schermopname van de Data Factory-selectie in het deelvenster Nieuw.

  3. Selecteer op de pagina Data factory maken op het tabblad Basisbeginselen het Azure-abonnement waarin u de data factory wilt maken.

  4. Voer een van de volgende stappen uit voor Resourcegroep:

    1. Selecteer een bestaande resourcegroep in de vervolgkeuzelijst.

    2. Selecteer Nieuwe maken en voer de naam van een nieuwe resourcegroep in.

    Zie Resourcegroepen gebruiken om Azure-resources te beheren voor meer informatie.

  5. Selecteer bij Regio de locatie voor de data factory.

    De lijst bevat alleen locaties die worden ondersteund door Data Factory en waar uw Azure Data Factory-metagegevens worden opgeslagen. De bijbehorende gegevensarchieven (zoals Azure Storage en Azure SQL Database) en berekeningen (zoals Azure HDInsight) die Data Factory gebruikt, kunnen in andere regio's worden uitgevoerd.

  6. Voer ADFTutorialDataFactory in bij Naam.

    De naam van de Azure-gegevensfactory moet wereldwijd uniek zijn. Als u de volgende fout ziet, wijzigt u de naam van de gegevensfactory (gebruik bijvoorbeeld <uw naam>ADFTutorialDataFactory). Zie het artikel Data factory - Naamgevingsregels voor naamgevingsregels voor Data Factory-artefacten.

    Schermopname van de fout wanneer een naam niet beschikbaar is.

  7. Selecteer V2 als Versie.

  8. Selecteer Volgende: Git-configuratie en schakel het selectievakje Git later configureren in.

  9. Selecteer Controleren en maken, en selecteer Maken nadat de validatie is voltooid.

  10. Nadat het maken is voltooid, selecteert u Ga naar resource om naar de pagina Data Factory te gaan. Selecteer de tegel Azure Data Factory Studio openen om de gebruikersinterfacetoepassing (UI) van Azure Data Factory te starten op een afzonderlijk browsertabblad.

    Schermopname van de startpagina voor Azure Data Factory, met de tegel Open Azure Data Factory Studio.

Gekoppelde services maken

In deze sectie maakt u een aan Databricks gekoppelde service. Deze gekoppelde service bevat de verbindingsgegevens voor het Databricks-cluster:

Een aan Azure Databricks gekoppelde service maken

  1. Ga op de startpagina naar het tabblad Beheren in het linkerdeelvenster.

    Schermopname van het tabblad Beheren.

  2. Selecteer Gekoppelde services onder Verbindingen en selecteer vervolgens + Nieuw.

    Schermopname die laat zien hoe u een nieuwe verbinding maakt.

  3. Selecteer Compute>Azure Databricks in het venster Nieuwe gekoppelde service en selecteer Vervolgens Doorgaan.

    Schermopname die laat zien hoe u een gekoppelde Databricks-service opgeeft.

  4. Voer in het venster Nieuwe gekoppelde service de volgende stappen uit:

    1. Voer bij Naam AzureDatabricks_LinkedService in.

    2. Selecteer de juiste Databricks-werkruimte waarin u uw notebook gaat uitvoeren.

    3. Selecteer voor Cluster selecteren de optie Nieuw taakcluster.

    4. Voor de URL van de Databrick-werkruimte moet de informatie automatisch worden ingevuld.

    5. Als u toegangstoken selecteert, genereert u dit voor verificatietype op de Azure Databricks-werkplek. U kunt de daarvoor benodigde stappen hier vinden. Voor beheerde service-identiteit en door de gebruiker toegewezen beheerde identiteit verleent u de rol Inzender aan beide identiteiten in het toegangsbeheermenu van de Azure Databricks-resource .

    6. Selecteer voor clusterversie de versie die u wilt gebruiken.

    7. Selecteer voor clusterknooppunttype Standard_D3_v2 onder categorie Algemeen gebruik (HDD) voor deze zelfstudie.

    8. Voer bij Werkrollen2 in.

    9. Selecteer Maken.

      Schermopname van de configuratie van de nieuwe gekoppelde Azure Databricks-service.

Een pipeline maken

  1. Selecteer de knop + (plusteken) en selecteer vervolgens Pijplijn in het menu.

    Schermopname met knoppen voor het maken van een nieuwe pijplijn.

  2. Maak een parameter voor gebruik in de pijplijn. Deze parameter geeft u later door aan de Databricks Notebook-activiteit. Selecteer in de lege pijplijn het tabblad Parameters en selecteer vervolgens + Nieuw en geef deze de naam 'naam'.

    Schermopname die laat zien hoe u een nieuwe parameter maakt.

    Schermopname die laat zien hoe u de naamparameter maakt.

  3. Vouw in de werkset ActiviteitenDatabricks uit. Sleep de activiteit Notebook vanuit de werkset Activiteiten naar het ontwerpoppervlak voor pijplijnen.

    Schermopname die laat zien hoe u het notitieblok naar het ontwerpoppervlak sleept.

  4. Voer de volgende stappen uit in de eigenschappen voor het DatabricksNotebook-activiteitvenster onderaan:

    1. Schakel over naar het tabblad Azure Databricks.

    2. Selecteer AzureDatabricks_LinkedService (die u in de vorige procedure hebt gemaakt).

    3. Schakel over naar het tabblad Instellingen.

    4. Zoek en selecteer een Databricks notebook-pad. We gaan een notebook maken en geven daarvoor hier het pad op. U krijgt het pad van de notebook door de volgende stappen uit te voeren.

      1. Start uw Azure Databricks-werkruimte.

      2. Maak een Nieuwe map in de werkruimte en roep deze aan als adftutorial.

        Schermopname die laat zien hoe u een nieuwe map maakt.

      3. Schermopname die laat zien hoe u een nieuw notitieblok maakt. (Python), we noemen het mynotebook onder adftutorial Folder en klik op Maken.

        Schermopname die laat zien hoe u een nieuw notitieblok maakt.

        Schermopname van het instellen van de eigenschappen van het nieuwe notitieblok.

      4. In de zojuist gemaakte notebook 'mynotebook' voegt u de volgende code toe:

        # Creating widgets for leveraging parameters, and printing the parameters
        
        dbutils.widgets.text("input", "","")
        y = dbutils.widgets.get("input")
        print ("Param -\'input':")
        print (y)
        

        Schermopname van het maken van widgets voor parameters.

      5. Het notebookpad in dit geval is /adftutorial/mynotebook.

  5. Ga terug naar de gebruikersinterface van Data Factory. Navigeer naar het tabblad Instellingen onder de activiteit Notebook1 .

    a. Voeg een parameter toe aan de notebookactiviteit. U gebruikt dezelfde parameter die u eerder aan de pijplijn hebt toegevoegd.

    Schermopname die laat zien hoe u een parameter toevoegt.

    b. Geef de parameter een naam als invoer en geef de waarde op als expressie @pipeline().parameters.name.

  6. Selecteer op de werkbalk de knop Valideren om de pijplijn te valideren. Als u het validatievenster wilt sluiten, selecteert u de knop Sluiten .

    Schermopname die laat zien hoe u de pijplijn valideert.

  7. Selecteer Alles publiceren. De gebruikersinterface van Data Factory publiceert entiteiten (gekoppelde services en pijplijn) naar de Azure Data Factory-service.

    Schermopname die laat zien hoe u de nieuwe data factory-entiteiten publiceert.

Een pijplijnuitvoering activeren

Selecteer Trigger toevoegen op de werkbalk en selecteer Nu activeren.

Schermopname die laat zien hoe u de opdracht Nu activeren selecteert.

Het dialoogvenster Pijplijnuitvoering vraagt om de naamparameter . Gebruik hier /pad/bestandsnaam als parameter. Selecteer OK.

Schermopname van het opgeven van een waarde voor de naamparameters.

De pijplijnuitvoering controleren.

  1. Ga naar het tabblad Controleren . Controleer of u een pijplijnuitvoering ziet. Het duurt 5 tot 8 minuten om een Databricks-taakcluster te maken, waar de notebook wordt uitgevoerd.

    Schermopname van het bewaken van de pijplijn.

  2. Selecteer regelmatig Vernieuwen om de status van de pijplijnuitvoering te controleren.

  3. Als u de activiteitsuitvoeringen wilt zien die zijn gekoppeld aan de pijplijnuitvoering, selecteert u de koppeling pipeline1 in de kolom Pijplijnnaam .

  4. Selecteer op de pagina Uitvoeringen van activiteit uitvoer in de kolom Activiteitsnaam om de uitvoer van elke activiteit weer te geven. U vindt de koppeling naar Databricks-logboeken in het deelvenster Uitvoer voor gedetailleerdere Spark-logboeken.

  5. U kunt teruggaan naar de weergave pijplijnuitvoeringen door de koppeling Alle pijplijnuitvoeringen te selecteren in het breadcrumb-menu bovenaan.

De uitvoer controleren

Meld u aan bij de Azure Databricks-werkruimte, ga naar Clusters en de Taak-status wordt weergegeven als uitvoering in behandeling, wordt uitgevoerd of beëindigd.

Schermopname van het weergeven van het taakcluster en de taak.

U kunt klikken op de Taaknaam om meer informatie weer te geven. Na een gelukte uitvoering kunt u de doorgegeven parameters en de uitvoer van de Python-notebook valideren.

Schermopname die laat zien hoe u de uitvoeringsdetails en uitvoer kunt bekijken.

De pijplijn in dit voorbeeld activeert een Databricks Notebook-activiteit en geeft daar een parameter aan door. U hebt geleerd hoe u:

  • Een data factory maken.

  • Een pijplijn maken die gebruikmaakt van de Databricks Notebook-activiteit.

  • Een pijplijnuitvoering activeren.

  • Controleer de pijplijnuitvoering.