Transformera data genom att köra en Synapse Notebook

GÄLLER FÖR: Azure Data Factory Azure Synapse Analytics

Tips

Prova Data Factory i Microsoft Fabric, en allt-i-ett-analyslösning för företag. Microsoft Fabric omfattar allt från dataflytt till datavetenskap, realtidsanalys, business intelligence och rapportering. Lär dig hur du startar en ny utvärderingsversion kostnadsfritt!

Azure Synapse Notebook-aktiviteten i en pipeline kör en Synapse-anteckningsbok på din Azure Synapse Analytics-arbetsyta. Den här artikeln bygger på artikeln om datatransformeringsaktiviteter , som ger en allmän översikt över datatransformering och de omvandlingsaktiviteter som stöds.

Du kan skapa en Azure Synapse Analytics Notebook-aktivitet direkt via användargränssnittet i Azure Data Factory Studio. En stegvis genomgång av hur du skapar en Synapse Notebook-aktivitet med användargränssnittet finns i följande.

Lägga till en notebook-aktivitet för Synapse i en pipeline med användargränssnitt

Utför följande steg för att använda en notebook-aktivitet för Synapse i en pipeline:

Allmänna inställningar

  1. Sök efter Notebook i fönstret pipelineaktiviteter och dra en notebook-aktivitet under Synapse till pipelinearbetsytan.
  2. Välj den nya notebook-aktiviteten på arbetsytan om den inte redan är markerad.
  3. I Allmänna inställningar anger du exempel för Namn.
  4. (Alternativ) Du kan också ange en beskrivning.
  5. Tidsgräns: Maximal tid som en aktivitet kan köras. Standardvärdet är 12 timmar och den maximala tillåtna tiden är 7 dagar. Formatet finns i D.HH:MM:SS.
  6. Försök igen: Maximalt antal återförsök.
  7. Återförsöksintervall (sek): Antalet sekunder mellan varje återförsök.
  8. Säkra utdata: När den är markerad registreras inte utdata från aktiviteten i loggningen.
  9. Säkra indata: Antalet sekunder mellan varje återförsök

inställningar för Azure Synapse Analytics (Artifacts)

Välj fliken Azure Synapse Analytics (Artifacts) för att välja eller skapa en ny länkad Azure Synapse Analytics-tjänst som ska köra notebook-aktiviteten.

Skärmbild av den länkade tjänstfliken för en notebook-aktivitet.

Fliken Inställningar

  1. Välj den nya Synapse Notebook-aktiviteten på arbetsytan om den inte redan är markerad.

  2. Välj fliken Inställningar.

  3. Expandera anteckningsbokslistan. Du kan välja en befintlig anteckningsbok i den länkade Azure Synapse Analytics (Artifacts).

  4. Klicka på knappen Öppna för att öppna sidan för den länkade tjänst där den valda anteckningsboken finns.

Anteckning

Om arbetsytans resurs-ID i den länkade tjänsten är tomt inaktiveras knappen Öppna.

Skärmbild av knappen Öppna är inaktiverad.

  1. Välj fliken Inställningar och välj anteckningsboken och valfria basparametrar som ska skickas till anteckningsboken.

    Skärmbild av fliken Inställningar för en notebook-aktivitet.

  2. (Valfritt) Du kan fylla i information för Synapse Notebook. Om följande inställningar är tomma används inställningarna för själva Synapse-anteckningsboken för att köras. Om följande inställningar inte är tomma ersätter dessa inställningar inställningarna för själva Synapse-anteckningsboken.

    Egenskap Beskrivning
    Spark-pool Referens till Spark-poolen. Du kan välja Apache Spark-pool i listan.
    Storlek på köre Antal kärnor och minne som ska användas för utförare som allokerats i den angivna Apache Spark-poolen för sessionen. För dynamiskt innehåll är giltiga värden Små/Medelstora/Stora/XLarge/XXLarge.
    Dynamiskt allokera utförare Den här inställningen mappar till den dynamiska allokeringsegenskapen i Spark-konfigurationen för spark-programexekutorallokering.
    Min executors Minsta antal utförare som ska allokeras i den angivna Spark-poolen för jobbet.
    Maximalt antal utförare Maximalt antal utförare som ska allokeras i den angivna Spark-poolen för jobbet.
    Drivrutinsstorlek Antal kärnor och minne som ska användas för drivrutinen som anges i den angivna Apache Spark-poolen för jobbet.

aktivitetsdefinition för Azure Synapse Analytics Notebook

Här är exempel-JSON-definitionen för en Azure Synapse Analytics Notebook-aktivitet:

{
    "activities": [
            {
                "name": "demo",
                "description": "description",
                "type": "SynapseNotebook",
                "dependsOn": [],
                "policy": {
                    "timeout": "7.00:00:00",
                    "retry": 0,
                    "retryIntervalInSeconds": 30,
                    "secureOutput": false,
                    "secureInput": false
                },
                "userProperties": [
                    {
                        "name": "testproperties",
                        "value": "test123"
                    }
                ],
                "typeProperties": {
                    "notebook": {
                        "referenceName": {
                            "value": "Notebookname",
                            "type": "Expression"
                        },
                        "type": "NotebookReference"
                    },
                    "parameters": {
                        "test": {
                            "value": "testvalue",
                            "type": "string"
                        }
                    },
                    "snapshot": true,
                    "sparkPool": {
                        "referenceName": {
                            "value": "SampleSpark",
                            "type": "Expression"
                        },
                        "type": "BigDataPoolReference"
                    }
                },
                "linkedServiceName": {
                    "referenceName": "AzureSynapseArtifacts1",
                    "type": "LinkedServiceReference"
                }
            }
        ]
    }

aktivitetsegenskaper för Azure Synapse Analytics Notebook

I följande tabell beskrivs de JSON-egenskaper som används i JSON-definitionen:

Egenskap Beskrivning Obligatorisk
name Namnet på aktiviteten i pipelinen. Ja
beskrivning Text som beskriver vad aktiviteten gör. No
typ För Azure Synapse Analytics Notebook-aktivitet är aktivitetstypen SynapseNotebook. Ja
notebook-fil Namnet på anteckningsboken som ska köras i Azure Synapse Analytics. Ja
sparkPool Spark-poolen som krävs för att köra Azure Synapse Analytics Notebook. Inga
parameter Parameter som krävs för att köra Azure Synapse Analytics Notebook. Mer information finns i Transformera data genom att köra en Synapse-anteckningsbok Inga

Ange en parametercell

Azure Data Factory söker efter parametercellen och använder värdena som standardvärden för de parametrar som skickades vid körningen. Körningsmotorn lägger till en ny cell under parametercellen med indataparametrar för att skriva över standardvärdena. Du kan referera till Transformera data genom att köra en Synapse-anteckningsbok.

Läs utdatavärdet för Synapse Notebook-cell

Du kan läsa notebook-cellens utdatavärde i aktivitet. För den här panelen kan du referera till Transformera data genom att köra en Synapse-anteckningsbok.

Kör en annan Synapse-anteckningsbok

Du kan referera till andra notebook-filer i en Synapse Notebook-aktivitet via anropet %run magic eller mssparkutils notebook-verktyg. Båda stöder kapslingsfunktionsanrop. De viktigaste skillnaderna mellan dessa två metoder som du bör överväga baserat på ditt scenario är:

  • %run magic kopierar alla celler från den refererade anteckningsboken till %run-cellen och delar variabelkontexten. När notebook1 refererar till notebook2 via %run notebook2 och notebook2 anropar en mssparkutils.notebook.exit-funktion stoppas cellkörningen i notebook1. Vi rekommenderar att du använder %run magic när du vill "inkludera" en notebook-fil.
  • mssparkutils notebook-verktyg anropar den refererade notebook-filen som en metod eller en funktion. Variabelkontexten delas inte. När notebook1 refererar till notebook2 via mssparkutils.notebook.run("notebook2") och notebook2 anropar funktionen mssparkutils.notebook.exit fortsätter cellkörningen i notebook1. Vi rekommenderar att du använder notebook-verktyg för mssparkutils när du vill "importera" en notebook-fil.

Se körningshistorik för Azure Synapse Analytics Notebook-aktivitet

Gå till Pipelinekörningar under fliken Övervaka . Du ser den pipeline som du har utlöst. Öppna pipelinen som innehåller notebook-aktivitet för att se körningshistoriken.

Skärmbild av indata och utdata för en notebook-aktivitet.

För ögonblicksbild av öppna notebook-filer stöds inte den här funktionen för närvarande.

Du kan se notebook-aktivitetsindata eller -utdata genom att välja indata- eller utdataknappen. Om pipelinen misslyckades med ett användarfel markerar du utdata för att kontrollera resultatfältet för att se den detaljerade spårningen av användarfel.

Skärmbild av utdataanvändarfelet för en notebook-aktivitet.