Gegevens transformeren door een Synapse Spark-taakdefinitie uit te voeren

VAN TOEPASSING OP: Azure Data Factory Azure Synapse Analytics

Tip

Probeer Data Factory uit in Microsoft Fabric, een alles-in-één analyseoplossing voor ondernemingen. Microsoft Fabric omvat alles, van gegevensverplaatsing tot gegevenswetenschap, realtime analyses, business intelligence en rapportage. Meer informatie over hoe u gratis een nieuwe proefversie start .

Met de activiteit Azure Synapse Spark-taakdefinitie in een pijplijn wordt een Synapse Spark-taakdefinitie uitgevoerd in uw Azure Synapse Analytics-werkruimte. Dit artikel is gebaseerd op het artikel activiteiten voor gegevenstransformatie , dat een algemeen overzicht biedt van gegevenstransformatie en de ondersteunde transformatieactiviteiten.

Apache Spark-taakdefinitiecanvas instellen

Als u een Spark-taakdefinitieactiviteit voor Synapse in een pijplijn wilt gebruiken, voert u de volgende stappen uit:

Algemene instellingen

  1. Zoek naar Spark-taakdefinitie in het deelvenster Activiteiten van de pijplijn en sleep een Spark-taakdefinitieactiviteit onder Synapse naar het pijplijncanvas.

  2. Selecteer de nieuwe Spark-taakdefinitieactiviteit op het canvas als deze nog niet is geselecteerd.

  3. Voer op het tabblad Algemeen voorbeeld in bij Naam.

  4. (Optie) U kunt ook een beschrijving invoeren.

  5. Time-out: Maximale tijdsduur die een activiteit kan uitvoeren. De standaardwaarde is zeven dagen. Dit is ook de maximale hoeveelheid tijd die is toegestaan. De indeling is in D.UU:MM:SS.

  6. Opnieuw proberen: maximum aantal nieuwe pogingen.

  7. Interval voor opnieuw proberen: het aantal seconden tussen elke nieuwe poging.

  8. Beveiligde uitvoer: als deze optie is ingeschakeld, wordt de uitvoer van de activiteit niet vastgelegd in logboekregistratie.

  9. Beveiligde invoer: als deze optie is ingeschakeld, wordt de invoer van de activiteit niet vastgelegd in logboekregistratie.

instellingen voor Azure Synapse Analytics (artefacten)

  1. Selecteer de nieuwe Spark-taakdefinitieactiviteit op het canvas als deze nog niet is geselecteerd.

  2. Selecteer het tabblad Azure Synapse Analyse (artefacten) om een nieuwe gekoppelde Azure Synapse Analytics-service te selecteren of te maken waarmee de activiteit van de Spark-taakdefinitie wordt uitgevoerd.

    Schermopname van de gebruikersinterface voor het gekoppelde servicetabblad voor een Spark-taakdefinitieactiviteit.

Tabblad Instellingen

  1. Selecteer de nieuwe Spark-taakdefinitieactiviteit op het canvas als deze nog niet is geselecteerd.

  2. Selecteer het tabblad Instellingen.

  3. Vouw de lijst met Spark-taakdefinities uit. U kunt een bestaande Apache Spark-taakdefinitie selecteren in de gekoppelde Azure Synapse Analytics-werkruimte.

  4. (Optioneel) U kunt gegevens invullen voor de Apache Spark-taakdefinitie. Als de volgende instellingen leeg zijn, worden de instellingen van de spark-taakdefinitie zelf gebruikt om uit te voeren; Als de volgende instellingen niet leeg zijn, vervangen deze instellingen de instellingen van de Spark-taakdefinitie zelf.

    Eigenschap Beschrijving
    Primair definitiebestand Het primaire bestand dat wordt gebruikt voor de taak. Selecteer een PY/JAR/ZIP-bestand in uw opslag. U kunt Bestand uploaden selecteren om het bestand te uploaden naar een opslagaccount.
    Voorbeeld: abfss://…/path/to/wordcount.jar
    Verwijzingen uit submappen Als u submappen uit de hoofdmap van het hoofddefinitiebestand scant, worden deze bestanden toegevoegd als referentiebestanden. De mappen met de naam jars, pyFiles, bestanden of archieven worden gescand en de naam van de mappen is hoofdlettergevoelig.
    Hoofdklassenaam De volledig gekwalificeerde id of de hoofdklasse die zich in het hoofddefinitiebestand bevindt.
    Voorbeeld: WordCount
    Opdrachtregelargumenten U kunt opdrachtregelargumenten toevoegen door op de knop Nieuw te klikken. Opgemerkt moet worden dat het toevoegen van opdrachtregelargumenten de opdrachtregelargumenten overschrijft die zijn gedefinieerd door de Spark-taakdefinitie.
    Monster: abfss://…/path/to/shakespeare.txtabfss://…/path/to/result
    Apache Spark-pool U kunt Apache Spark-pool selecteren in de lijst.
    Naslaginformatie over Python-code Aanvullende Python-codebestanden die worden gebruikt voor verwijzing in het hoofddefinitiebestand.
    Het ondersteunt het doorgeven van bestanden (.py, .py3, .zip) aan de eigenschap 'pyFiles'. Hiermee wordt de eigenschap 'pyFiles' overschreven die is gedefinieerd in de Spark-taakdefinitie.
    Verwijzingsbestanden Aanvullende bestanden die worden gebruikt voor verwijzingen in het hoofddefinitiebestand.
    Apache Spark-pool U kunt Apache Spark-pool selecteren in de lijst.
    Uitvoerders dynamisch toewijzen Deze instelling wordt toegewezen aan de eigenschap dynamische toewijzing in de Spark-configuratie voor toewijzing van uitvoerders van spark-toepassingen.
    Minimale uitvoerders Minimum aantal uitvoerders dat moet worden toegewezen in de opgegeven Spark-pool voor de taak.
    Maximum aantal uitvoerders Maximum aantal uitvoerders dat moet worden toegewezen in de opgegeven Spark-pool voor de taak.
    Grootte van stuurprogramma Aantal kernen en het geheugen die moet worden gebruikt voor het stuurprogramma dat in de gespecificeerde Apache Spark-pool voor de taak is opgegeven.
    Spark-configuratie Geef waarden op voor Spark-configuratie-eigenschappen die worden vermeld in het onderwerp: Spark-configuratie - Toepassingseigenschappen. Gebruikers kunnen standaardconfiguratie en aangepaste configuratie gebruiken.

    Schermopname van de gebruikersinterface voor de spark-taakdefinitieactiviteit.

  5. U kunt dynamische inhoud toevoegen door te klikken op de knop Dynamische inhoud toevoegen of door op de sneltoets Alt+Shift+D te drukken. Op de pagina Dynamische inhoud toevoegen kunt u elke combinatie van expressies, functies en systeemvariabelen gebruiken om aan dynamische inhoud toe te voegen.

    Schermopname van de gebruikersinterface voor het toevoegen van dynamische inhoud aan spark-taakdefinitieactiviteiten.

Tabblad Gebruikerseigenschappen

In dit deelvenster kunt u eigenschappen toevoegen voor apache Spark-taakdefinitieactiviteit.

Schermopname van de gebruikersinterface voor de eigenschappen voor een spark-taakdefinitieactiviteit.

activiteitsdefinitie van Spark-taakdefinitie Azure Synapse

Hier volgt de JSON-voorbeelddefinitie van een Azure Synapse Analytics Notebook-activiteit:

 {
        "activities": [
            {
                "name": "Spark job definition1",
                "type": "SparkJob",
                "dependsOn": [],
                "policy": {
                    "timeout": "7.00:00:00",
                    "retry": 0,
                    "retryIntervalInSeconds": 30,
                    "secureOutput": false,
                    "secureInput": false
                },
                "typeProperties": {
                    "sparkJob": {
                        "referenceName": {
                            "value": "Spark job definition 1",
                            "type": "Expression"
                        },
                        "type": "SparkJobDefinitionReference"
                    }
                },
                "linkedServiceName": {
                    "referenceName": "AzureSynapseArtifacts1",
                    "type": "LinkedServiceReference"
                }
            }
        ],
    }

eigenschappen van spark-taakdefinities Azure Synapse

In de volgende tabel worden de JSON-eigenschappen beschreven die worden gebruikt in de JSON-definitie:

Eigenschap Beschrijving Vereist
naam Naam van de activiteit in de pijplijn. Yes
beschrijving Tekst die beschrijft wat de activiteit doet. No
type Voor Azure Synapse spark-taakdefinitieactiviteit is het activiteitstype SparkJob. Yes

Zie uitvoeringsgeschiedenis van Azure Synapse Spark-taakdefinitieactiviteit

Ga naar Pijplijnuitvoeringen op het tabblad Controleren . U ziet de pijplijn die u hebt geactiveerd. Open de pijplijn die Azure Synapse activiteit van de Spark-taakdefinitie bevat om de uitvoeringsgeschiedenis te bekijken.

Schermopname van de gebruikersinterface voor de invoer en uitvoer voor uitvoeringen van een Spark-taakdefinitieactiviteit.

U kunt de invoer of uitvoer van de notebookactiviteit zien door de knop Invoer of Uitvoer te selecteren. Als uw pijplijn is mislukt met een gebruikersfout, selecteert u de uitvoer om het resultaatveld te controleren om de gedetailleerde tracering van gebruikersfouten te bekijken.

Schermopname van de gebruikersinterface voor de uitvoerfout van de gebruiker voor uitvoeringen van een Spark-taakdefinitieactiviteit.