Delen via


Quickstart: Gegevens transformeren met apache Spark-taakdefinitie

In deze quickstart gebruikt u Azure Synapse Analytics om een pijplijn te maken met behulp van de Apache Spark-taakdefinitie.

Vereisten

Wanneer uw Azure Synapse-werkruimte is gemaakt, kunt u Synapse Studio op twee manieren openen:

  • Open de Synapse-werkruimte in de Azure-portal. Selecteer Openen op de kaart Synapse Studio openen onder Aan de slag.
  • Open Azure Synapse Analytics en meld u aan bij uw werkruimte.

In deze quickstart gebruiken we de werkruimte met de naam 'sampletest' als voorbeeld. Er wordt automatisch naar de startpagina van Synapse Studio genavigeerd.

Startpagina van Synapse Studio

Een pijplijn maken met een Apache Spark-taakdefinitie

Een pijplijn bevat de logische stroom voor het uitvoeren van een reeks activiteiten. In deze sectie maakt u een pijplijn die een Apache Spark-taakdefinitieactiviteit bevat.

  1. Ga naar het tabblad Integreren . Selecteer het pluspictogram naast de header pijplijnen en selecteer Pijplijn.

    Een nieuwe pijplijn maken

  2. Voer op de pagina Eigenschappeninstellingen van de pijplijn demo in bij Naam.

  3. Sleep onder Synapse in het deelvenster Activiteitenspark-taakdefinitie naar het pijplijncanvas.

    spark-taakdefinitie slepen

Apache Spark-taakdefinitiecanvas instellen

Nadat u de Apache Spark-taakdefinitie hebt gemaakt, wordt u automatisch naar het Canvas voor spark-taakdefinities gestuurd.

Algemene instellingen

  1. Selecteer de spark-taakdefinitiemodule op het canvas.

  2. Voer op het tabblad Algemeenvoorbeeld in bij Naam.

  3. (Optie) U kunt ook een beschrijving invoeren.

  4. Time-out: maximale hoeveelheid tijd die een activiteit kan uitvoeren. De standaardwaarde is zeven dagen. Dit is ook de maximale hoeveelheid tijd die is toegestaan. De indeling is in D.UU:MM:SS.

  5. Opnieuw proberen: maximum aantal nieuwe pogingen.

  6. Interval voor opnieuw proberen: het aantal seconden tussen elke nieuwe poging.

  7. Beveiligde uitvoer: als deze optie is ingeschakeld, wordt de uitvoer van de activiteit niet vastgelegd in logboekregistratie.

  8. Beveiligde invoer: als dit selectievakje is ingeschakeld, wordt de invoer van de activiteit niet vastgelegd in de logboekregistratie.

    spark-taakdefinitie algemeen

Tabblad Instellingen

In dit deelvenster kunt u verwijzen naar de Spark-taakdefinitie die moet worden uitgevoerd.

  • Vouw de lijst met Spark-taakdefinities uit. U kunt een bestaande Apache Spark-taakdefinitie kiezen. U kunt ook een nieuwe Apache Spark-taakdefinitie maken door de knop Nieuw te selecteren om te verwijzen naar de Uit te voeren Spark-taakdefinitie.

  • (Optioneel) U kunt gegevens invullen voor de Apache Spark-taakdefinitie. Als de volgende instellingen leeg zijn, worden de instellingen van de Spark-taakdefinitie zelf gebruikt om uit te voeren; Als de volgende instellingen niet leeg zijn, vervangen deze instellingen de instellingen van de Spark-taakdefinitie zelf.

    Eigenschap Beschrijving
    Primair definitiebestand Het primaire bestand dat wordt gebruikt voor de taak. Selecteer een PY/JAR/ZIP-bestand in uw opslag. U kunt Bestand uploaden selecteren om het bestand te uploaden naar een opslagaccount.
    Voorbeeld: abfss://…/path/to/wordcount.jar
    Verwijzingen uit submappen Als u submappen uit de hoofdmap van het hoofddefinitiebestand scant, worden deze bestanden toegevoegd als referentiebestanden. De mappen met de naam 'jars', 'pyFiles', 'bestanden' of 'archieven' worden gescand en de naam van de mappen is hoofdlettergevoelig.
    Hoofdklassenaam De volledig gekwalificeerde id of de hoofdklasse die zich in het hoofddefinitiebestand bevindt.
    Voorbeeld: WordCount
    Opdrachtregelargumenten U kunt opdrachtregelargumenten toevoegen door op de knop Nieuw te klikken. Als u opdrachtregelargumenten toevoegt, worden de opdrachtregelargumenten overschreven die zijn gedefinieerd door de Spark-taakdefinitie.
    Monster: abfss://…/path/to/shakespeare.txtabfss://…/path/to/result
    Apache Spark-pool U kunt Apache Spark-pool selecteren in de lijst.
    Naslaginformatie over Python-code Aanvullende Python-codebestanden die worden gebruikt ter referentie in het hoofddefinitiebestand.
    Het ondersteunt het doorgeven van bestanden (.py, .py3, .zip) aan de eigenschap 'pyFiles'. Hiermee wordt de eigenschap 'pyFiles' overschreven die is gedefinieerd in de Spark-taakdefinitie.
    Verwijzingsbestanden Aanvullende bestanden die worden gebruikt voor verwijzingen in het hoofddefinitiebestand.
    Uitvoerders dynamisch toewijzen Deze instelling wordt toegewezen aan de eigenschap dynamische toewijzing in de Spark-configuratie voor toewijzing van uitvoerders voor Spark-toepassingen.
    Min. uitvoerders Minimaal aantal uitvoerders dat moet worden toegewezen in de opgegeven Spark-pool voor de taak.
    Maximum aantal uitvoerders Maximum aantal uitvoerders dat moet worden toegewezen in de opgegeven Spark-pool voor de taak.
    Grootte van stuurprogramma Aantal kernen en het geheugen die moet worden gebruikt voor het stuurprogramma dat in de gespecificeerde Apache Spark-pool voor de taak is opgegeven.
    Spark-configuratie Geef waarden op voor Spark-configuratie-eigenschappen die worden vermeld in het onderwerp: Spark-configuratie - Toepassingseigenschappen. Gebruikers kunnen standaardconfiguratie en aangepaste configuratie gebruiken.

    pipline-instellingen voor spark-taakdefinitie

  • U kunt dynamische inhoud toevoegen door te klikken op de knop Dynamische inhoud toevoegen of door op de sneltoets Alt+Shift+D te drukken. Op de pagina Dynamische inhoud toevoegen kunt u elke combinatie van expressies, functies en systeemvariabelen gebruiken om toe te voegen aan dynamische inhoud.

    dynamische inhoud toevoegen

Tabblad Gebruikerseigenschappen

U kunt eigenschappen voor apache Spark-taakdefinitieactiviteit toevoegen in dit deelvenster.

gebruikerseigenschappen

Volgende stappen

Ga naar de volgende artikelen voor meer informatie over Azure Synapse Analytics-ondersteuning: