Gegevens transformeren door een Synapse Notebook uit te voeren
VAN TOEPASSING OP: Azure Data Factory Azure Synapse Analytics
Tip
Probeer Data Factory uit in Microsoft Fabric, een alles-in-één analyseoplossing voor ondernemingen. Microsoft Fabric omvat alles, van gegevensverplaatsing tot gegevenswetenschap, realtime analyses, business intelligence en rapportage. Meer informatie over het gratis starten van een nieuwe proefversie .
Met de Azure Synapse Notebook-activiteit in een pijplijn wordt een Synapse-notebook uitgevoerd in uw Azure Synapse Analytics-werkruimte. Dit artikel is gebaseerd op het artikel over activiteiten voor gegevenstransformatie , waarin een algemeen overzicht wordt weergegeven van de gegevenstransformatie en de ondersteunde transformatieactiviteiten.
U kunt een Azure Synapse Analytics-notebookactiviteit rechtstreeks maken via de gebruikersinterface van Azure Data Factory Studio. Raadpleeg het volgende voor een stapsgewijze procedure voor het maken van een Synapse-notebookactiviteit met behulp van de gebruikersinterface.
Een notebookactiviteit voor Synapse toevoegen aan een pijplijn met ui
Voer de volgende stappen uit om een Notebook-activiteit voor Synapse in een pijplijn te gebruiken:
Algemene instellingen
- Zoek naar Notebook in het deelvenster Activiteiten van de pijplijn en sleep een Notebook-activiteit onder Synapse naar het pijplijncanvas.
- Selecteer de nieuwe notitieblokactiviteit op het canvas als deze nog niet is geselecteerd.
- Voer in de algemene instellingen het voorbeeld in voor Naam.
- (Optie) U kunt ook een beschrijving invoeren.
- Time-out: De maximale hoeveelheid tijd die een activiteit kan uitvoeren. De standaardwaarde is 12 uur en de maximaal toegestane tijd is 7 dagen. De indeling is in D.HH:MM:SS.
- Opnieuw proberen: maximum aantal nieuwe pogingen.
- Interval voor opnieuw proberen (sec): het aantal seconden tussen elke nieuwe poging.
- Beveiligde uitvoer: wanneer deze optie is ingeschakeld, wordt de uitvoer van de activiteit niet vastgelegd in logboekregistratie.
- Beveiligde invoer: wanneer deze optie is ingeschakeld, wordt invoer van de activiteit niet vastgelegd in logboekregistratie.
Instellingen voor Azure Synapse Analytics (artefacten)
Selecteer het tabblad Azure Synapse Analytics (Artefacten) om een nieuwe gekoppelde Azure Synapse Analytics-service te selecteren of te maken waarmee de notebookactiviteit wordt uitgevoerd.
Tabblad Instellingen
Selecteer de nieuwe Synapse Notebook-activiteit op het canvas als deze nog niet is geselecteerd.
Selecteer het tabblad Instellingen.
Vouw de lijst Notebook uit. U kunt een bestaand notitieblok selecteren in de gekoppelde Azure Synapse Analytics (Artefacten).
Klik op de knop Openen om de pagina van de gekoppelde service te openen waar het geselecteerde notitieblok zich bevindt.
Notitie
Als de resource-id van de werkruimte in de gekoppelde service leeg is, wordt de knop Openen uitgeschakeld.
Selecteer het tabblad Instellingen en kies het notitieblok en optionele basisparameters die u wilt doorgeven aan het notitieblok.
(Optioneel) U kunt informatie invullen voor Synapse-notebook. Als de volgende instellingen leeg zijn, worden de instellingen van het Synapse-notebook zelf gebruikt om uit te voeren; als de volgende instellingen niet leeg zijn, vervangen deze instellingen de instellingen van het Synapse-notebook zelf.
Eigenschappen Beschrijving Spark-pool Verwijzing naar de Spark-pool. U kunt Een Apache Spark-pool selecteren in de lijst. Grootte van uitvoerder Aantal kernen en geheugen dat moet worden gebruikt voor uitvoerders die zijn toegewezen in de opgegeven Apache Spark-pool voor de sessie. Geldige waarden voor dynamische inhoud zijn Small/Medium/Large/XLarge/XXLarge. Uitvoerders dynamisch toewijzen Deze instelling wordt toegewezen aan de eigenschap dynamische toewijzing in de Spark-configuratie voor toewijzing van spark-toepassingsexecutors. Min.uitvoerders Minimum aantal uitvoerders dat moet worden toegewezen in de opgegeven Spark-pool voor de taak. Maximum aantal uitvoerders Maximum aantal uitvoerders dat moet worden toegewezen in de opgegeven Spark-pool voor de taak. Grootte van stuurprogramma Aantal kernen en het geheugen die moet worden gebruikt voor het stuurprogramma dat in de gespecificeerde Apache Spark-pool voor de taak is opgegeven.
Azure Synapse Analytics Notebook-activiteitsdefinitie
Hier volgt de JSON-voorbeelddefinitie van een Azure Synapse Analytics Notebook-activiteit:
{
"activities": [
{
"name": "demo",
"description": "description",
"type": "SynapseNotebook",
"dependsOn": [],
"policy": {
"timeout": "7.00:00:00",
"retry": 0,
"retryIntervalInSeconds": 30,
"secureOutput": false,
"secureInput": false
},
"userProperties": [
{
"name": "testproperties",
"value": "test123"
}
],
"typeProperties": {
"notebook": {
"referenceName": {
"value": "Notebookname",
"type": "Expression"
},
"type": "NotebookReference"
},
"parameters": {
"test": {
"value": "testvalue",
"type": "string"
}
},
"snapshot": true,
"sparkPool": {
"referenceName": {
"value": "SampleSpark",
"type": "Expression"
},
"type": "BigDataPoolReference"
}
},
"linkedServiceName": {
"referenceName": "AzureSynapseArtifacts1",
"type": "LinkedServiceReference"
}
}
]
}
Activiteitseigenschappen van Azure Synapse Analytics Notebook
In de volgende tabel worden de JSON-eigenschappen beschreven die worden gebruikt in de JSON-definitie:
Een parametercel aanwijzen
Azure Data Factory zoekt naar de parametercel en gebruikt de waarden als standaardwaarden voor de parameters die tijdens de uitvoering zijn doorgegeven. De uitvoeringsengine voegt een nieuwe cel toe onder de parametercel met invoerparameters om de standaardwaarden te overschrijven. U kunt gegevens transformeren door een Synapse-notebook uit te voeren.
Uitvoerwaarde van Synapse-notebookcel lezen
U kunt de uitvoerwaarde van notebookcellen lezen in activiteit. Voor dit deelvenster kunt u verwijzen naar Gegevens transformeren door een Synapse-notebook uit te voeren.
Een ander Synapse-notebook uitvoeren
U kunt verwijzen naar andere notebooks in een Synapse-notebookactiviteit via het aanroepen van %run magic of mssparkutils notebook utilities. Beide ondersteunen geneste functie-aanroepen. De belangrijkste verschillen van deze twee methoden die u moet overwegen op basis van uw scenario zijn:
- %run magic kopieert alle cellen uit het notebook waarnaar wordt verwezen naar de %run-cel en deelt de variabelecontext. Wanneer notebook1 verwijst naar notebook2 via
%run notebook2
en notebook2 wordt een mssparkutils.notebook.exit-functie aangeroepen, wordt de uitvoering van de cel in notebook1 gestopt. U wordt aangeraden %run magic te gebruiken wanneer u een notebookbestand wilt 'opnemen'. - mssparkutils notebook hulpprogramma's roept het notebook waarnaar wordt verwezen aan als een methode of een functie. De variabelecontext wordt niet gedeeld. Wanneer notebook1 verwijst naar notebook2 via
mssparkutils.notebook.run("notebook2")
en notebook2 wordt een mssparkutils.notebook.exit-functie aangeroepen, wordt de uitvoering van de cel in notebook1 voortgezet. U wordt aangeraden mssparkutils notebook-hulpprogramma's te gebruiken wanneer u een notebook wilt 'importeren'.
Bekijk de uitvoeringsgeschiedenis van azure Synapse Analytics Notebook-activiteiten
Ga naar Pijplijnuitvoeringen op het tabblad Monitor . U ziet de pijplijn die u hebt geactiveerd. Open de pijplijn met notebookactiviteit om de uitvoeringsgeschiedenis te bekijken.
Voor momentopnamen van open notitieblokken wordt deze functie momenteel niet ondersteund.
U kunt de invoer of uitvoer van de notebookactiviteit zien door de invoer- of uitvoerknop te selecteren. Als uw pijplijn is mislukt met een gebruikersfout, selecteert u de uitvoer om het resultaatveld te controleren om de gedetailleerde tracering van gebruikersfouten te bekijken.