Share via


Gegevens transformeren door een Synapse Notebook uit te voeren

VAN TOEPASSING OP: Azure Data Factory Azure Synapse Analytics

Tip

Probeer Data Factory uit in Microsoft Fabric, een alles-in-één analyseoplossing voor ondernemingen. Microsoft Fabric omvat alles, van gegevensverplaatsing tot gegevenswetenschap, realtime analyses, business intelligence en rapportage. Meer informatie over het gratis starten van een nieuwe proefversie .

Met de Azure Synapse Notebook-activiteit in een pijplijn wordt een Synapse-notebook uitgevoerd in uw Azure Synapse Analytics-werkruimte. Dit artikel is gebaseerd op het artikel over activiteiten voor gegevenstransformatie , waarin een algemeen overzicht wordt weergegeven van de gegevenstransformatie en de ondersteunde transformatieactiviteiten.

U kunt een Azure Synapse Analytics-notebookactiviteit rechtstreeks maken via de gebruikersinterface van Azure Data Factory Studio. Raadpleeg het volgende voor een stapsgewijze procedure voor het maken van een Synapse-notebookactiviteit met behulp van de gebruikersinterface.

Een notebookactiviteit voor Synapse toevoegen aan een pijplijn met ui

Voer de volgende stappen uit om een Notebook-activiteit voor Synapse in een pijplijn te gebruiken:

Algemene instellingen

  1. Zoek naar Notebook in het deelvenster Activiteiten van de pijplijn en sleep een Notebook-activiteit onder Synapse naar het pijplijncanvas.
  2. Selecteer de nieuwe notitieblokactiviteit op het canvas als deze nog niet is geselecteerd.
  3. Voer in de algemene instellingen het voorbeeld in voor Naam.
  4. (Optie) U kunt ook een beschrijving invoeren.
  5. Time-out: De maximale hoeveelheid tijd die een activiteit kan uitvoeren. De standaardwaarde is 12 uur en de maximaal toegestane tijd is 7 dagen. De indeling is in D.HH:MM:SS.
  6. Opnieuw proberen: maximum aantal nieuwe pogingen.
  7. Interval voor opnieuw proberen (sec): het aantal seconden tussen elke nieuwe poging.
  8. Beveiligde uitvoer: wanneer deze optie is ingeschakeld, wordt de uitvoer van de activiteit niet vastgelegd in logboekregistratie.
  9. Beveiligde invoer: wanneer deze optie is ingeschakeld, wordt invoer van de activiteit niet vastgelegd in logboekregistratie.

Instellingen voor Azure Synapse Analytics (artefacten)

Selecteer het tabblad Azure Synapse Analytics (Artefacten) om een nieuwe gekoppelde Azure Synapse Analytics-service te selecteren of te maken waarmee de notebookactiviteit wordt uitgevoerd.

Schermopname van het tabblad Gekoppelde service voor een Notebook-activiteit.

Tabblad Instellingen

  1. Selecteer de nieuwe Synapse Notebook-activiteit op het canvas als deze nog niet is geselecteerd.

  2. Selecteer het tabblad Instellingen.

  3. Vouw de lijst Notebook uit. U kunt een bestaand notitieblok selecteren in de gekoppelde Azure Synapse Analytics (Artefacten).

  4. Klik op de knop Openen om de pagina van de gekoppelde service te openen waar het geselecteerde notitieblok zich bevindt.

Notitie

Als de resource-id van de werkruimte in de gekoppelde service leeg is, wordt de knop Openen uitgeschakeld.

Schermopname van de knop Openen is uitgeschakeld.

  1. Selecteer het tabblad Instellingen en kies het notitieblok en optionele basisparameters die u wilt doorgeven aan het notitieblok.

    Schermopname van het tabblad Instellingen voor een notebookactiviteit.

  2. (Optioneel) U kunt informatie invullen voor Synapse-notebook. Als de volgende instellingen leeg zijn, worden de instellingen van het Synapse-notebook zelf gebruikt om uit te voeren; als de volgende instellingen niet leeg zijn, vervangen deze instellingen de instellingen van het Synapse-notebook zelf.

    Eigenschappen Beschrijving
    Spark-pool Verwijzing naar de Spark-pool. U kunt Een Apache Spark-pool selecteren in de lijst.
    Grootte van uitvoerder Aantal kernen en geheugen dat moet worden gebruikt voor uitvoerders die zijn toegewezen in de opgegeven Apache Spark-pool voor de sessie. Geldige waarden voor dynamische inhoud zijn Small/Medium/Large/XLarge/XXLarge.
    Uitvoerders dynamisch toewijzen Deze instelling wordt toegewezen aan de eigenschap dynamische toewijzing in de Spark-configuratie voor toewijzing van spark-toepassingsexecutors.
    Min.uitvoerders Minimum aantal uitvoerders dat moet worden toegewezen in de opgegeven Spark-pool voor de taak.
    Maximum aantal uitvoerders Maximum aantal uitvoerders dat moet worden toegewezen in de opgegeven Spark-pool voor de taak.
    Grootte van stuurprogramma Aantal kernen en het geheugen die moet worden gebruikt voor het stuurprogramma dat in de gespecificeerde Apache Spark-pool voor de taak is opgegeven.

Azure Synapse Analytics Notebook-activiteitsdefinitie

Hier volgt de JSON-voorbeelddefinitie van een Azure Synapse Analytics Notebook-activiteit:

{
    "activities": [
            {
                "name": "demo",
                "description": "description",
                "type": "SynapseNotebook",
                "dependsOn": [],
                "policy": {
                    "timeout": "7.00:00:00",
                    "retry": 0,
                    "retryIntervalInSeconds": 30,
                    "secureOutput": false,
                    "secureInput": false
                },
                "userProperties": [
                    {
                        "name": "testproperties",
                        "value": "test123"
                    }
                ],
                "typeProperties": {
                    "notebook": {
                        "referenceName": {
                            "value": "Notebookname",
                            "type": "Expression"
                        },
                        "type": "NotebookReference"
                    },
                    "parameters": {
                        "test": {
                            "value": "testvalue",
                            "type": "string"
                        }
                    },
                    "snapshot": true,
                    "sparkPool": {
                        "referenceName": {
                            "value": "SampleSpark",
                            "type": "Expression"
                        },
                        "type": "BigDataPoolReference"
                    }
                },
                "linkedServiceName": {
                    "referenceName": "AzureSynapseArtifacts1",
                    "type": "LinkedServiceReference"
                }
            }
        ]
    }

Activiteitseigenschappen van Azure Synapse Analytics Notebook

In de volgende tabel worden de JSON-eigenschappen beschreven die worden gebruikt in de JSON-definitie:

Eigenschappen Beschrijving Vereist
naam Naam van de activiteit in de pijplijn. Ja
beschrijving Tekst die beschrijft wat de activiteit doet. Nee
type Voor Azure Synapse Analytics Notebook-activiteit is het activiteitstype SynapseNotebook. Ja
notebook De naam van het notebook dat moet worden uitgevoerd in Azure Synapse Analytics. Ja
sparkPool De Spark-pool die is vereist om Azure Synapse Analytics Notebook uit te voeren. Nee
parameter Parameter vereist voor het uitvoeren van Azure Synapse Analytics Notebook. Zie Gegevens transformeren door een Synapse-notebook uit te voeren voor meer informatie Nee

Een parametercel aanwijzen

Azure Data Factory zoekt naar de parametercel en gebruikt de waarden als standaardwaarden voor de parameters die tijdens de uitvoering zijn doorgegeven. De uitvoeringsengine voegt een nieuwe cel toe onder de parametercel met invoerparameters om de standaardwaarden te overschrijven. U kunt gegevens transformeren door een Synapse-notebook uit te voeren.

Uitvoerwaarde van Synapse-notebookcel lezen

U kunt de uitvoerwaarde van notebookcellen lezen in activiteit. Voor dit deelvenster kunt u verwijzen naar Gegevens transformeren door een Synapse-notebook uit te voeren.

Een ander Synapse-notebook uitvoeren

U kunt verwijzen naar andere notebooks in een Synapse-notebookactiviteit via het aanroepen van %run magic of mssparkutils notebook utilities. Beide ondersteunen geneste functie-aanroepen. De belangrijkste verschillen van deze twee methoden die u moet overwegen op basis van uw scenario zijn:

  • %run magic kopieert alle cellen uit het notebook waarnaar wordt verwezen naar de %run-cel en deelt de variabelecontext. Wanneer notebook1 verwijst naar notebook2 via %run notebook2 en notebook2 wordt een mssparkutils.notebook.exit-functie aangeroepen, wordt de uitvoering van de cel in notebook1 gestopt. U wordt aangeraden %run magic te gebruiken wanneer u een notebookbestand wilt 'opnemen'.
  • mssparkutils notebook hulpprogramma's roept het notebook waarnaar wordt verwezen aan als een methode of een functie. De variabelecontext wordt niet gedeeld. Wanneer notebook1 verwijst naar notebook2 via mssparkutils.notebook.run("notebook2") en notebook2 wordt een mssparkutils.notebook.exit-functie aangeroepen, wordt de uitvoering van de cel in notebook1 voortgezet. U wordt aangeraden mssparkutils notebook-hulpprogramma's te gebruiken wanneer u een notebook wilt 'importeren'.

Bekijk de uitvoeringsgeschiedenis van azure Synapse Analytics Notebook-activiteiten

Ga naar Pijplijnuitvoeringen op het tabblad Monitor . U ziet de pijplijn die u hebt geactiveerd. Open de pijplijn met notebookactiviteit om de uitvoeringsgeschiedenis te bekijken.

Schermopname van de invoer en uitvoer voor een Notebook-activiteit.

Voor momentopnamen van open notitieblokken wordt deze functie momenteel niet ondersteund.

U kunt de invoer of uitvoer van de notebookactiviteit zien door de invoer- of uitvoerknop te selecteren. Als uw pijplijn is mislukt met een gebruikersfout, selecteert u de uitvoer om het resultaatveld te controleren om de gedetailleerde tracering van gebruikersfouten te bekijken.

Schermopname van de fout van de uitvoergebruiker voor een Notebook-activiteit.