Gegevens transformeren door een Synapse Notebook uit te voeren

VAN TOEPASSING OP: Azure Data Factory Azure Synapse Analytics

Tip

Probeer Data Factory uit in Microsoft Fabric, een alles-in-één analyseoplossing voor ondernemingen. Microsoft Fabric omvat alles, van gegevensverplaatsing tot gegevenswetenschap, realtime analyses, business intelligence en rapportage. Meer informatie over hoe u gratis een nieuwe proefversie start .

Met de Azure Synapse Notebook-activiteit in een pijplijn wordt een Synapse-notebook uitgevoerd in uw Azure Synapse Analytics-werkruimte. Dit artikel is gebaseerd op het artikel activiteiten voor gegevenstransformatie , dat een algemeen overzicht biedt van gegevenstransformatie en de ondersteunde transformatieactiviteiten.

U kunt een Azure Synapse Analytics-notebookactiviteit rechtstreeks maken via de gebruikersinterface van Azure Data Factory Studio. Raadpleeg het volgende voor een stapsgewijze uitleg over het maken van een Synapse-notebookactiviteit met behulp van de gebruikersinterface.

Een Notebook-activiteit voor Synapse toevoegen aan een pijplijn met gebruikersinterface

Als u een Notebook-activiteit voor Synapse in een pijplijn wilt gebruiken, voert u de volgende stappen uit:

Algemene instellingen

  1. Zoek naar Notebook in het deelvenster Activiteiten van de pijplijn en sleep een Notebook-activiteit onder synapse naar het pijplijncanvas.
  2. Selecteer de nieuwe notitieblokactiviteit op het canvas als deze nog niet is geselecteerd.
  3. Voer in de algemene instellingen voorbeeld in bij Naam.
  4. (Optie) U kunt ook een beschrijving invoeren.
  5. Time-out: Maximale tijdsduur die een activiteit kan uitvoeren. De standaardwaarde is 12 uur en de maximaal toegestane tijdsduur is 7 dagen. De indeling is in D.UU:MM:SS.
  6. Opnieuw proberen: maximum aantal nieuwe pogingen.
  7. Interval voor opnieuw proberen (sec): het aantal seconden tussen elke nieuwe poging.
  8. Beveiligde uitvoer: als deze optie is ingeschakeld, wordt de uitvoer van de activiteit niet vastgelegd in logboekregistratie.
  9. Beveiligde invoer: het aantal seconden tussen elke nieuwe poging

instellingen voor Azure Synapse Analytics (artefacten)

Selecteer het tabblad Azure Synapse Analyse (artefacten) om een nieuwe gekoppelde Azure Synapse Analytics-service te selecteren of te maken waarmee de Notebook-activiteit wordt uitgevoerd.

Schermopname van het gekoppelde servicetabblad voor een Notebook-activiteit.

Tabblad Instellingen

  1. Selecteer de nieuwe Synapse Notebook-activiteit op het canvas als deze nog niet is geselecteerd.

  2. Selecteer het tabblad Instellingen.

  3. Vouw de lijst Notitieblok uit. U kunt een bestaand notitieblok selecteren in de gekoppelde Azure Synapse Analytics (artefacten).

  4. Klik op de knop Openen om de pagina te openen van de gekoppelde service waar het geselecteerde notitieblok zich bevindt.

Notitie

Als de resource-id van de werkruimte in de gekoppelde service leeg is, wordt de knop Openen uitgeschakeld.

Schermopname van de knop Openen is uitgeschakeld.

  1. Selecteer het tabblad Instellingen en kies het notitieblok en optionele basisparameters die aan het notitieblok moeten worden doorgegeven.

    Schermopname van het tabblad Instellingen voor een Notebook-activiteit.

  2. (Optioneel) U kunt gegevens invullen voor Synapse-notebook. Als de volgende instellingen leeg zijn, worden de instellingen van het Synapse-notebook zelf gebruikt om uit te voeren; Als de volgende instellingen niet leeg zijn, vervangen deze instellingen de instellingen van het Synapse-notebook zelf.

    Eigenschap Beschrijving
    Spark-pool Verwijzing naar de Spark-pool. U kunt Apache Spark-pool selecteren in de lijst.
    Grootte van uitvoerder Aantal kernen en geheugen dat moet worden gebruikt voor uitvoerders die zijn toegewezen in de opgegeven Apache Spark-pool voor de sessie. Voor dynamische inhoud zijn geldige waarden Small/Medium/Large/XLarge/XXLarge.
    Uitvoerders dynamisch toewijzen Deze instelling wordt toegewezen aan de eigenschap dynamische toewijzing in de Spark-configuratie voor toewijzing van uitvoerders van spark-toepassingen.
    Minimale uitvoerders Minimum aantal uitvoerders dat moet worden toegewezen in de opgegeven Spark-pool voor de taak.
    Maximum aantal uitvoerders Maximum aantal uitvoerders dat moet worden toegewezen in de opgegeven Spark-pool voor de taak.
    Grootte van stuurprogramma Aantal kernen en het geheugen die moet worden gebruikt voor het stuurprogramma dat in de gespecificeerde Apache Spark-pool voor de taak is opgegeven.

Activiteitsdefinitie van Azure Synapse Analytics Notebook

Hier volgt de JSON-voorbeelddefinitie van een Azure Synapse Analytics Notebook Activity:

{
    "activities": [
            {
                "name": "demo",
                "description": "description",
                "type": "SynapseNotebook",
                "dependsOn": [],
                "policy": {
                    "timeout": "7.00:00:00",
                    "retry": 0,
                    "retryIntervalInSeconds": 30,
                    "secureOutput": false,
                    "secureInput": false
                },
                "userProperties": [
                    {
                        "name": "testproperties",
                        "value": "test123"
                    }
                ],
                "typeProperties": {
                    "notebook": {
                        "referenceName": {
                            "value": "Notebookname",
                            "type": "Expression"
                        },
                        "type": "NotebookReference"
                    },
                    "parameters": {
                        "test": {
                            "value": "testvalue",
                            "type": "string"
                        }
                    },
                    "snapshot": true,
                    "sparkPool": {
                        "referenceName": {
                            "value": "SampleSpark",
                            "type": "Expression"
                        },
                        "type": "BigDataPoolReference"
                    }
                },
                "linkedServiceName": {
                    "referenceName": "AzureSynapseArtifacts1",
                    "type": "LinkedServiceReference"
                }
            }
        ]
    }

Eigenschappen van Azure Synapse Analytics Notebook-activiteit

In de volgende tabel worden de JSON-eigenschappen beschreven die worden gebruikt in de JSON-definitie:

Eigenschap Beschrijving Vereist
naam Naam van de activiteit in de pijplijn. Yes
beschrijving Tekst die beschrijft wat de activiteit doet. No
type Voor Azure Synapse Analytics-notitieblokactiviteit is het activiteitstype SynapseNotebook. Yes
notebook De naam van het notebook dat moet worden uitgevoerd in de Azure Synapse Analytics. Yes
sparkPool De Spark-pool die is vereist om Azure Synapse Analytics Notebook uit te voeren. No
parameter Parameter vereist om Azure Synapse Analytics Notebook uit te voeren. Zie Gegevens transformeren door een Synapse-notebook uit te voeren voor meer informatie No

Een parametercel toewijzen

Azure Data Factory zoekt naar de cel parameters en gebruikt de waarden als standaardwaarden voor de parameters die tijdens de uitvoering zijn doorgegeven. De uitvoeringsengine voegt een nieuwe cel toe onder de cel parameters met invoerparameters om de standaardwaarden te overschrijven. U kunt gegevens transformeren raadplegen door een Synapse-notebook uit te voeren.

Uitvoerwaarde van Synapse-notebookcel lezen

U kunt de uitvoerwaarde van notebookcellen lezen in activiteit. Voor dit deelvenster kunt u gegevens transformeren door een Synapse-notebook uit te voeren.

Nog een Synapse-notebook uitvoeren

U kunt verwijzen naar andere notebooks in een Synapse-notebookactiviteit via het aanroepen van %run magic of mssparkutils notebook utilities. Beide bieden ondersteuning voor het nesten van functie-aanroepen. De belangrijkste verschillen van deze twee methoden die u moet overwegen op basis van uw scenario zijn:

  • %run magic kopieert alle cellen van het notebook waarnaar wordt verwezen naar de cel %run en deelt de variabelecontext. Wanneer notebook1 verwijst naar notebook2 via %run notebook2 en notebook2 een functie mssparkutils.notebook.exit aanroept, wordt de celuitvoering in notebook1 gestopt. We raden u aan %run magic te gebruiken wanneer u een notebookbestand wilt 'opnemen'.
  • mssparkutils notebook utilities roept het notebook waarnaar wordt verwezen aan als een methode of een functie. De context van de variabele wordt niet gedeeld. Wanneer notebook1 verwijst naar notebook2 via mssparkutils.notebook.run("notebook2") en notebook2 een functie mssparkutils.notebook.exit aanroept, wordt de celuitvoering in notebook1 voortgezet. U wordt aangeraden mssparkutils-notebookhulpprogramma's te gebruiken wanneer u een notebook wilt 'importeren'.

Zie de uitvoeringsgeschiedenis van Azure Synapse Analytics Notebook-activiteiten

Ga naar Pijplijnuitvoeringen op het tabblad Controleren . U ziet de pijplijn die u hebt geactiveerd. Open de pijplijn die notebookactiviteit bevat om de uitvoeringsgeschiedenis te bekijken.

Schermopname van de invoer en uitvoer voor een Notebook-activiteit.

Deze functie wordt momenteel niet ondersteund voor een momentopname van een notitieblok openen.

U kunt de invoer of uitvoer van de notebookactiviteit bekijken door de knop Invoer of Uitvoer te selecteren. Als uw pijplijn is mislukt met een gebruikersfout, selecteert u de uitvoer om het resultaatveld te controleren om de gedetailleerde tracering van gebruikersfouten te zien.

Schermopname van de uitvoergebruikerfout voor een Notebook-activiteit.