Quickstart: Een serverloze Apache Spark-pool maken met behulp van Synapse Studio

Azure Synapse Analytics biedt diverse analyse-engines waarmee u uw gegevens kunt opnemen, transformeren, modelleren, analyseren en gebruiken. Een Apache Spark-pool biedt opensource-rekenmogelijkheden voor big data. Nadat u een Apache Spark-pool in uw Synapse-werkruimte hebt gemaakt, kunnen gegevens worden geladen, gemodelleerd, verwerkt en geleverd om inzichten te verkrijgen.

In deze snelstart wordt stapsgewijs beschreven hoe u een Apache Spark-pool in een Synapse-werkruimte maakt met behulp van Synapse Studio.

Belangrijk

Spark-instanties worden pro rato per minuut gefactureerd, ongeacht of u ze wel of niet gebruikt. Zorg er daarom voor dat u de Spark-instantie afsluit wanneer u deze niet meer nodig hebt of stel een korte time-out in. Zie voor meer informatie de sectie Resources opschonen van dit artikel.

Als u geen Azure-abonnement hebt, maakt u een gratis account voordat u begint.

Vereisten

Meld u aan bij Azure Portal

Meld u aan bij Azure Portal

  1. Navigeer naar de Synapse-werkruimte waar de Apache Spark-pool wordt gemaakt door de servicenaam (of de resourcenaam) rechtstreeks in de zoekbalk te typen. Screenshot from the Azure portal of the search bar with Synapse workspaces typed in.

  2. Typ in de lijst met werkruimten de naam (of een deel van de naam) van de werkruimte die u wilt openen. In dit voorbeeld gebruiken we een werkruimte met de naam contosoanalytics. Screenshot from the Azure portal of the list of Synapse workspaces filtered to show those containing the name Contoso.

Synapse Studio starten

Selecteer de web-URL voor de werkruimte in het werkruimteoverzicht om Synapse Studio te openen.

Screenshot from the Azure portal of a Synapse workspace overview with Launch Synapse Studio highlighted.

De Apache Spark-pool maken in Synapse Studio

Belangrijk

Azure Synapse Runtime voor Apache Spark 2.4 is afgeschaft en wordt officieel niet ondersteund sinds september 2023. Gezien Spark 3.1 en Spark 3.2 ook het einde van de ondersteuning worden aangekondigd, raden we klanten aan om te migreren naar Spark 3.3.

  1. Ga op de startpagina van Synapse Studio naar de Beheerhub in de linkernavigatiebalk door het pictogram Beheren te selecteren. Screenshot from the Azure portal of the Synapse Studio home page with Management Hub section highlighted.

  2. Ga in de Beheerhub naar het gedeelte Apache Spark-pools voor een overzicht van de huidige lijst met Apache Spark-pools die beschikbaar zijn in de werkruimte. Screenshot from the Azure portal of the Synapse Studio management hub with Apache Spark pools navigation selected.

  3. Selecteer + Nieuw. De wizard Nieuwe Apache Spark-pool maken wordt weergegeven.

  4. Voer de volgende gegevens in op het tabblad Basisinformatie:

    Instelling Voorgestelde waarde Beschrijving
    Naam van Apache Spark-pool Een geldige poolnaam, zoals contosospark Dit is de naam die de Apache Spark-pool krijgt.
    Knooppuntgrootte Klein (4 vCPU / 32 GB) Stel dit in op de kleinste grootte om de kosten voor deze quickstart te verlagen
    Automatisch schalen Uitgeschakeld Automatisch schalen in deze snelstart is niet vereist
    Aantal knooppunten 8 Gebruik een kleine grootte om de kosten in deze snelstart te beperken
    Uitvoerders dynamisch toewijzen Uitgeschakeld Deze instelling wordt toegewezen aan de eigenschap dynamische toewijzing in de Spark-configuratie voor toewijzing van spark-toepassingsexecutors. In deze quickstart hebben we geen automatische schaalaanpassing nodig.

    Screenshot from the Azure portal of the Basics for Synapse Studio new Apache Spark pool.

    Belangrijk

    Er zijn specifieke beperkingen voor de namen die Apache Spark-pools kunnen gebruiken. Namen mogen alleen letters of cijfers bevatten, moeten uit maximaal 15 tekens bestaan, moeten beginnen met een letter, mogen geen gereserveerde woorden bevatten en moeten uniek zijn in de werkruimte.

  5. Laat op het volgende tabblad Aanvullende instellingen alle instellingen op de standaardinstellingen staan.

  6. Selecteer Labels. Overweeg het gebruik van Azure-tags. Bijvoorbeeld de tag 'Eigenaar' of 'CreatedBy' om te bepalen wie de resource heeft gemaakt en de tag 'Omgeving' om te bepalen of deze resource zich in Productie, Ontwikkeling, enzovoort bevindt. Zie Uw naamgevings- en tagstrategie voor Azure-resources ontwikkelen voor meer informatie. Wanneer u klaar bent, selecteert u Beoordelen en maken.

  7. Controleer op het tabblad Beoordelen en maken of de gegevens juist zijn en gebaseerd op wat eerder is ingevoerd. Druk vervolgens op Maken.

    Screenshot from the Azure portal of the Create Synapse Studio new Apache Spark pool.

  8. Het inrichtingsproces wordt gestart door de Apache Spark-pool.

  9. Zodra het inrichten is voltooid, wordt de nieuwe Apache Spark-pool weergegeven in de lijst.

    Screenshot from the Azure portal of the Synapse Studio new Apache Spark pool list.

Apache Spark-poolresources opschonen met behulp van Synapse Studio

Met de volgende stappen verwijdert u de Apache Spark-pool uit de werkruimte met behulp van Synapse Studio.

Waarschuwing

Als u een Spark-pool verwijdert, wordt de analyse-engine uit de werkruimte verwijderd. Het is niet langer mogelijk om verbinding te maken met de pool en alle query's, pijplijnen en notitieblokken die deze Spark-pool gebruiken, werken niet meer.

Als u de Apache Spark-pool wilt verwijderen, voert u de volgende stappen uit:

  1. Navigeer naar de Apache Spark-pools in de Beheerhub in Synapse Studio.

  2. Selecteer het beletselteken naast de Apache-pool die u wilt verwijderen (in dit geval contosospark) om de opdrachten voor de Apache Spark-pool weer te geven.

    Screenshot from the Azure portal of a list of Apache Spark pools, with the recently created pool selected.

  3. Selecteer Verwijderen.

  4. Bevestig dat u de werkruimte wilt verwijderen en selecteer de knop Verwijderen.

  5. Wanneer het proces is voltooid, wordt de Apache Spark-pool niet meer weergegeven in de werkruimteresources.