Share via


Gegevens transformeren door een notebook uit te voeren

Gebruik de notebookactiviteit om notebooks uit te voeren die u in Microsoft Fabric maakt als onderdeel van uw Data Factory-pijplijnen. Met notebooks kunt u Apache Spark-taken uitvoeren om uw gegevens in te voeren, op te schonen of te transformeren als onderdeel van uw gegevenswerkstromen. U kunt eenvoudig een Notebook-activiteit toevoegen aan uw pijplijnen in Fabric. Deze handleiding begeleidt u bij elke stap.

Vereisten

Om aan de slag te gaan, moet u aan de volgende vereisten voldoen:

Een notebookactiviteit maken

  1. Maak een nieuwe pijplijn in uw werkruimte.

  2. Zoek naar Notebook in het deelvenster Activiteiten van de pijplijn en selecteer het om het aan het pijplijncanvas toe te voegen.

    Schermopname van de Fabric-gebruikersinterface met het deelvenster Activiteiten en de Notitieblokactiviteit gemarkeerd.

  3. Selecteer de nieuwe Notitieblok-activiteit op het canvas als die nog niet is geselecteerd.

    Schermopname van het tabblad Algemene instellingen van de notebookactiviteit.

    Raadpleeg de richtlijnen voor algemene instellingen voor het configureren van het tabblad Algemene instellingen.

Notebookinstellingen configureren

Selecteer het tabblad Instellingen.

Selecteer onder Verbinding de verificatiemethode voor het uitvoeren van het notebook en geef de vereiste referenties of identiteitsconfiguratie op op basis van uw selectie:

  • Service Principal (SPN): aanbevolen voor productiescenario's om een veilige, geautomatiseerde uitvoering te garanderen zonder te vertrouwen op gebruikersreferenties.
  • Werkruimte-identiteit (WI): ideaal voor beheerde omgevingen waar gecentraliseerd identiteitsbeheer is vereist.

Selecteer een bestaand notitieblok in de vervolgkeuzelijst Notebook en geef eventueel parameters op die u aan het notitieblok wilt doorgeven.

Schermopname van het tabblad Notitieblokinstellingen waarin het tabblad wordt gemarkeerd, waar u een notitieblok kunt kiezen en waar parameters moeten worden toegevoegd.

Wi (Fabric Workspace Identity) gebruiken in de notebookactiviteit

  1. De Werkruimte-identiteit maken U moet WI inschakelen in uw werkruimte (het kan even duren voordat het geladen is). Maak een werkruimte-id in uw Fabric-werkruimte. Bekijk de documenten over werkruimte-identiteit.

  2. Instellingen op tenantniveau inschakelen Schakel in de Fabric-beheerportal de volgende tenantinstelling in: Service-principals kunnen openbare Fabric-API's aanroepen. Deze instelling is vereist om de Workspace-identiteit met succes te authentiseren. Bekijk de documentatie over inschakelen van service-principal-verificatie voor beheerders-API's.

  3. Werkruimtemachtigingen verlenen aan de werkruimte-identiteit Open de werkruimte, selecteer Toegang beheren en wijs machtigingen toe aan de werkruimte-id. Toegang tot inzenders is voldoende voor de meeste scenario's. Bekijk de documenten over Gebruikers toegang geven tot werkruimten.

Sessietag instellen

Om de hoeveelheid tijd die nodig is om uw notebooktaak uit te voeren te minimaliseren, kunt u optioneel een sessietag instellen. Als u de sessietag instelt, wordt Spark geïnstrueerd om een bestaande Spark-sessie opnieuw te gebruiken, waardoor de opstarttijd wordt geminimaliseerd. Elke willekeurige tekenreekswaarde kan worden gebruikt voor de sessietag. Als er geen sessie bestaat, wordt er een nieuwe gemaakt met behulp van de tagwaarde.

Schermopname van het tabblad Notitieblokinstellingen waarin het tabblad wordt gemarkeerd, waar u sessietag kunt toevoegen.

Notitie

Als u de sessietag wilt kunnen gebruiken, moet de optie Hoge gelijktijdigheid voor pijplijnen met meerdere notebooks zijn ingeschakeld. Deze optie vindt u onder de modus Hoge gelijktijdigheid voor Spark-instellingen onder de werkruimte-instellingen

Schermopname van het tabblad Werkruimte-instellingen die het tabblad markeert, waar u de hoge gelijktijdigheidsmodus kunt inschakelen voor pijplijnen die meerdere notebooks uitvoeren.

De pijplijn opslaan en uitvoeren of plannen

Ga naar het tabblad Start boven aan de pijplijneditor en selecteer de knop Opslaan om uw pijplijn op te slaan. Selecteer Uitvoeren om het rechtstreeks uit te voeren of Plan om deze te plannen. U kunt hier ook de uitvoeringsgeschiedenis bekijken of andere instellingen configureren.

Schermopname van het tabblad Start in de pijplijneditor met de tabnaam, de knoppen Opslaan, Uitvoeren en Planning gemarkeerd.