Delen via


Gegevens transformeren door een notebook uit te voeren

Gebruik de notebookactiviteit om notebooks uit te voeren die u in Microsoft Fabric maakt als onderdeel van uw Data Factory-pijplijnen. Met notebooks kunt u Apache Spark-taken uitvoeren om uw gegevens in te voeren, op te schonen of te transformeren als onderdeel van uw gegevenswerkstromen. Het is eenvoudig om een Notebook-activiteit toe te voegen aan uw gegevenspijplijnen in Fabric. Deze handleiding begeleidt u bij elke stap.

Vereisten

Om aan de slag te gaan, moet u aan de volgende vereisten voldoen:

Een notebookactiviteit maken

  1. Maak een nieuwe pijplijn in uw werkruimte.

  2. Zoek naar Notebook in het deelvenster Activiteiten van de pijplijn en selecteer het om het aan het pijplijncanvas toe te voegen.

    Schermopname van de Fabric-gebruikersinterface met het deelvenster Activiteiten en de Notitieblokactiviteit gemarkeerd.

  3. Selecteer de nieuwe Notitieblok-activiteit op het canvas als die nog niet is geselecteerd.

    Schermopname van het tabblad Algemene instellingen van de notebookactiviteit.

    Raadpleeg de richtlijnen voor algemene instellingen voor het configureren van het tabblad Algemene instellingen.

Notebookinstellingen configureren

Selecteer het tabblad Instellingen , selecteer een bestaand notitieblok in de vervolgkeuzelijst Notitieblok en geef eventueel parameters op die aan het notitieblok moeten worden doorgegeven.

Schermopname van het tabblad Notitieblokinstellingen waarin het tabblad wordt gemarkeerd, waar u een notitieblok kunt kiezen en waar parameters moeten worden toegevoegd.

Sessietag instellen

Om de hoeveelheid tijd die nodig is om uw notebooktaak uit te voeren te minimaliseren, kunt u optioneel een sessietag instellen. Als u de sessietag instelt, wordt Spark geïnstrueerd om een bestaande Spark-sessie opnieuw te gebruiken, waardoor de opstarttijd wordt geminimaliseerd. Elke willekeurige tekenreekswaarde kan worden gebruikt voor de sessietag. Als er geen sessie bestaat, wordt er een nieuwe gemaakt met behulp van de tagwaarde.

Schermopname van het tabblad Notitieblokinstellingen waarin het tabblad wordt gemarkeerd, waar u sessietag kunt toevoegen.

Notitie

Als u de sessietag wilt kunnen gebruiken, moet de optie Hoge gelijktijdigheid voor pijplijnen met meerdere notebooks zijn ingeschakeld. Deze optie vindt u onder de modus Hoge gelijktijdigheid voor Spark-instellingen onder de werkruimte-instellingen

Schermopname van het tabblad Werkruimte-instellingen die het tabblad markeert, waar u de hoge gelijktijdigheidsmodus kunt inschakelen voor pijplijnen die meerdere notebooks uitvoeren.

De pijplijn opslaan en uitvoeren of plannen

Ga naar het tabblad Start boven aan de pijplijneditor en selecteer de knop Opslaan om uw pijplijn op te slaan. Selecteer Uitvoeren om het rechtstreeks uit te voeren of Plan om deze te plannen. U kunt hier ook de uitvoeringsgeschiedenis bekijken of andere instellingen configureren.

Schermopname van het tabblad Start in de pijplijneditor met de tabnaam, de knoppen Opslaan, Uitvoeren en Planning gemarkeerd.