Gegevens transformeren door een Synapse Notebook uit te voeren
VAN TOEPASSING OP: Azure Data Factory Azure Synapse Analytics
Tip
Probeer Data Factory uit in Microsoft Fabric, een alles-in-één analyseoplossing voor ondernemingen. Microsoft Fabric omvat alles, van gegevensverplaatsing tot gegevenswetenschap, realtime analyses, business intelligence en rapportage. Meer informatie over hoe u gratis een nieuwe proefversie start .
Met de Azure Synapse Notebook-activiteit in een pijplijn wordt een Synapse-notebook uitgevoerd in uw Azure Synapse Analytics-werkruimte. Dit artikel is gebaseerd op het artikel activiteiten voor gegevenstransformatie , dat een algemeen overzicht biedt van gegevenstransformatie en de ondersteunde transformatieactiviteiten.
U kunt een Azure Synapse Analytics-notebookactiviteit rechtstreeks maken via de gebruikersinterface van Azure Data Factory Studio. Raadpleeg het volgende voor een stapsgewijze uitleg over het maken van een Synapse-notebookactiviteit met behulp van de gebruikersinterface.
Een Notebook-activiteit voor Synapse toevoegen aan een pijplijn met gebruikersinterface
Als u een Notebook-activiteit voor Synapse in een pijplijn wilt gebruiken, voert u de volgende stappen uit:
Algemene instellingen
- Zoek naar Notebook in het deelvenster Activiteiten van de pijplijn en sleep een Notebook-activiteit onder synapse naar het pijplijncanvas.
- Selecteer de nieuwe notitieblokactiviteit op het canvas als deze nog niet is geselecteerd.
- Voer in de algemene instellingen voorbeeld in bij Naam.
- (Optie) U kunt ook een beschrijving invoeren.
- Time-out: Maximale tijdsduur die een activiteit kan uitvoeren. De standaardwaarde is 12 uur en de maximaal toegestane tijdsduur is 7 dagen. De indeling is in D.UU:MM:SS.
- Opnieuw proberen: maximum aantal nieuwe pogingen.
- Interval voor opnieuw proberen (sec): het aantal seconden tussen elke nieuwe poging.
- Beveiligde uitvoer: als deze optie is ingeschakeld, wordt de uitvoer van de activiteit niet vastgelegd in logboekregistratie.
- Beveiligde invoer: het aantal seconden tussen elke nieuwe poging
instellingen voor Azure Synapse Analytics (artefacten)
Selecteer het tabblad Azure Synapse Analyse (artefacten) om een nieuwe gekoppelde Azure Synapse Analytics-service te selecteren of te maken waarmee de Notebook-activiteit wordt uitgevoerd.
Tabblad Instellingen
Selecteer de nieuwe Synapse Notebook-activiteit op het canvas als deze nog niet is geselecteerd.
Selecteer het tabblad Instellingen.
Vouw de lijst Notitieblok uit. U kunt een bestaand notitieblok selecteren in de gekoppelde Azure Synapse Analytics (artefacten).
Klik op de knop Openen om de pagina te openen van de gekoppelde service waar het geselecteerde notitieblok zich bevindt.
Notitie
Als de resource-id van de werkruimte in de gekoppelde service leeg is, wordt de knop Openen uitgeschakeld.
Selecteer het tabblad Instellingen en kies het notitieblok en optionele basisparameters die aan het notitieblok moeten worden doorgegeven.
(Optioneel) U kunt gegevens invullen voor Synapse-notebook. Als de volgende instellingen leeg zijn, worden de instellingen van het Synapse-notebook zelf gebruikt om uit te voeren; Als de volgende instellingen niet leeg zijn, vervangen deze instellingen de instellingen van het Synapse-notebook zelf.
Eigenschap Beschrijving Spark-pool Verwijzing naar de Spark-pool. U kunt Apache Spark-pool selecteren in de lijst. Grootte van uitvoerder Aantal kernen en geheugen dat moet worden gebruikt voor uitvoerders die zijn toegewezen in de opgegeven Apache Spark-pool voor de sessie. Voor dynamische inhoud zijn geldige waarden Small/Medium/Large/XLarge/XXLarge. Uitvoerders dynamisch toewijzen Deze instelling wordt toegewezen aan de eigenschap dynamische toewijzing in de Spark-configuratie voor toewijzing van uitvoerders van spark-toepassingen. Minimale uitvoerders Minimum aantal uitvoerders dat moet worden toegewezen in de opgegeven Spark-pool voor de taak. Maximum aantal uitvoerders Maximum aantal uitvoerders dat moet worden toegewezen in de opgegeven Spark-pool voor de taak. Grootte van stuurprogramma Aantal kernen en het geheugen die moet worden gebruikt voor het stuurprogramma dat in de gespecificeerde Apache Spark-pool voor de taak is opgegeven.
Activiteitsdefinitie van Azure Synapse Analytics Notebook
Hier volgt de JSON-voorbeelddefinitie van een Azure Synapse Analytics Notebook Activity:
{
"activities": [
{
"name": "demo",
"description": "description",
"type": "SynapseNotebook",
"dependsOn": [],
"policy": {
"timeout": "7.00:00:00",
"retry": 0,
"retryIntervalInSeconds": 30,
"secureOutput": false,
"secureInput": false
},
"userProperties": [
{
"name": "testproperties",
"value": "test123"
}
],
"typeProperties": {
"notebook": {
"referenceName": {
"value": "Notebookname",
"type": "Expression"
},
"type": "NotebookReference"
},
"parameters": {
"test": {
"value": "testvalue",
"type": "string"
}
},
"snapshot": true,
"sparkPool": {
"referenceName": {
"value": "SampleSpark",
"type": "Expression"
},
"type": "BigDataPoolReference"
}
},
"linkedServiceName": {
"referenceName": "AzureSynapseArtifacts1",
"type": "LinkedServiceReference"
}
}
]
}
Eigenschappen van Azure Synapse Analytics Notebook-activiteit
In de volgende tabel worden de JSON-eigenschappen beschreven die worden gebruikt in de JSON-definitie:
Eigenschap | Beschrijving | Vereist |
---|---|---|
naam | Naam van de activiteit in de pijplijn. | Yes |
beschrijving | Tekst die beschrijft wat de activiteit doet. | No |
type | Voor Azure Synapse Analytics-notitieblokactiviteit is het activiteitstype SynapseNotebook. | Yes |
notebook | De naam van het notebook dat moet worden uitgevoerd in de Azure Synapse Analytics. | Yes |
sparkPool | De Spark-pool die is vereist om Azure Synapse Analytics Notebook uit te voeren. | No |
parameter | Parameter vereist om Azure Synapse Analytics Notebook uit te voeren. Zie Gegevens transformeren door een Synapse-notebook uit te voeren voor meer informatie | No |
Een parametercel toewijzen
Azure Data Factory zoekt naar de cel parameters en gebruikt de waarden als standaardwaarden voor de parameters die tijdens de uitvoering zijn doorgegeven. De uitvoeringsengine voegt een nieuwe cel toe onder de cel parameters met invoerparameters om de standaardwaarden te overschrijven. U kunt gegevens transformeren raadplegen door een Synapse-notebook uit te voeren.
Uitvoerwaarde van Synapse-notebookcel lezen
U kunt de uitvoerwaarde van notebookcellen lezen in activiteit. Voor dit deelvenster kunt u gegevens transformeren door een Synapse-notebook uit te voeren.
Nog een Synapse-notebook uitvoeren
U kunt verwijzen naar andere notebooks in een Synapse-notebookactiviteit via het aanroepen van %run magic of mssparkutils notebook utilities. Beide bieden ondersteuning voor het nesten van functie-aanroepen. De belangrijkste verschillen van deze twee methoden die u moet overwegen op basis van uw scenario zijn:
- %run magic kopieert alle cellen van het notebook waarnaar wordt verwezen naar de cel %run en deelt de variabelecontext. Wanneer notebook1 verwijst naar notebook2 via
%run notebook2
en notebook2 een functie mssparkutils.notebook.exit aanroept, wordt de celuitvoering in notebook1 gestopt. We raden u aan %run magic te gebruiken wanneer u een notebookbestand wilt 'opnemen'. - mssparkutils notebook utilities roept het notebook waarnaar wordt verwezen aan als een methode of een functie. De context van de variabele wordt niet gedeeld. Wanneer notebook1 verwijst naar notebook2 via
mssparkutils.notebook.run("notebook2")
en notebook2 een functie mssparkutils.notebook.exit aanroept, wordt de celuitvoering in notebook1 voortgezet. U wordt aangeraden mssparkutils-notebookhulpprogramma's te gebruiken wanneer u een notebook wilt 'importeren'.
Zie de uitvoeringsgeschiedenis van Azure Synapse Analytics Notebook-activiteiten
Ga naar Pijplijnuitvoeringen op het tabblad Controleren . U ziet de pijplijn die u hebt geactiveerd. Open de pijplijn die notebookactiviteit bevat om de uitvoeringsgeschiedenis te bekijken.
Deze functie wordt momenteel niet ondersteund voor een momentopname van een notitieblok openen.
U kunt de invoer of uitvoer van de notebookactiviteit bekijken door de knop Invoer of Uitvoer te selecteren. Als uw pijplijn is mislukt met een gebruikersfout, selecteert u de uitvoer om het resultaatveld te controleren om de gedetailleerde tracering van gebruikersfouten te zien.