Freigeben über


Schnellstart: Erstellen eines neuen serverlosen Apache Spark-Pools über das Azure-Portal

Azure Synapse Analytics beinhaltet verschiedene Analysemodule, mit denen Sie Ihre Daten erfassen, transformieren, modellieren, analysieren und verteilen können. Ein Apache Spark-Pool bietet Open-Source-Computefunktionen für Big Data. Nachdem Sie einen Apache Spark-Pool in Ihrem Synapse-Arbeitsbereich erstellen, können Daten geladen, modelliert, verarbeitet und verteilt werden, um schneller analytische Erkenntnisse zu gewinnen.

In dieser Schnellstartanleitung erfahren Sie, wie Sie über das Azure-Portal einen Apache Spark-Pool in einem Synapse-Arbeitsbereich erstellen.

Wichtig

Die Abrechnung für Spark-Instanzen erfolgt anteilsmäßig auf Minutenbasis und ist unabhängig von der Verwendung. Fahren Sie daher Ihre Spark-Instanz herunter, wenn Sie sie nicht mehr benötigen, oder legen Sie ein kurzes Timeout fest. Weitere Informationen finden Sie im Abschnitt Bereinigen von Ressourcen in diesem Artikel.

Wenn Sie kein Azure-Abonnement besitzen, können Sie ein kostenloses Konto erstellen, bevor Sie beginnen.

Voraussetzungen

Melden Sie sich beim Azure-Portal

Melden Sie sich beim Azure-Portal

  1. Navigieren Sie zum Synapse-Arbeitsbereich, 0in dem der Apache Spark-Pool erstellt werden soll, indem Sie den Dienstnamen (oder direkt den Ressourcennamen) in die Suchleiste eingeben. Screenshot of the Azure portal search bar with Synapse workspaces typed in.

  2. Geben Sie in der Liste der Arbeitsbereiche den Namen (oder einen Teil des Namens) des zu öffnenden Arbeitsbereichs ein. In diesem Beispiel verwenden wir einen Arbeitsbereich namens contosoanalytics. Screenshot from the Azure portal of the list of Synapse workspaces filtered to show those containing the name Contoso.

Erstellen eines neuen Apache Spark-Pools

Wichtig

Azure Synapse-Runtime für Apache Spark 2.4 wurde veraltet und wird seit September 2023 offiziell nicht mehr unterstützt. Da für Spark 3.1 und Spark 3.2 ebenfalls das Ende des Supports angekündigt ist, empfehlen wir Kunden, zu Spark 3.3 zu migrieren.

  1. Wählen Sie in dem Synapse-Arbeitsbereich, in dem Sie den Apache Spark-Pool erstellen möchten, Neuer Apache Spark-Pool aus. Screenshot from the Azure portal of a Synapse workspace with a red box around the command to create a new Apache Spark pool.

  2. Geben Sie auf der Registerkarte Grundeinstellungen die folgenden Informationen ein:

    Einstellung Vorgeschlagener Wert Beschreibung
    Name des Apache Spark-Pools Ein gültiger Poolname, z. B. contosospark Dies ist der Name des Apache Spark-Pools.
    Knotengröße Klein (4 vCPUs/32 GB) Legen Sie diese Einstellung auf die kleinste Größe fest, um die Kosten für diesen Schnellstart zu senken.
    Automatische Skalierung Disabled Für diesen Schnellstart ist keine Autoskalierung erforderlich.
    Anzahl von Knoten 5 Verwenden Sie eine kleine Größe, um die Kosten für diesen Schnellstart zu begrenzen.

    Screenshot from the Azure portal of the Apache Spark pool create flow - basics tab.

    Wichtig

    Für die Namen, die Apache Spark-Pools verwendet können, gelten bestimmte Einschränkungen. Namen dürfen nur Buchstaben oder Ziffern enthalten und höchstens 15 Zeichen lang sein, müssen mit einem Buchstaben beginnen, dürfen keine reservierten Wörter enthalten und müssen im Arbeitsbereich eindeutig sein.

  3. Wählen Sie Weiter: Zusätzliche Einstellungen aus, und überprüfen Sie die Standardeinstellungen. Ändern Sie keine Standardeinstellungen. Screenshot from the Azure portal that shows the 'Create Apache Spark pool' page with the 'Additional settings' tab selected.

  4. Wählen Sie Weiter: Tags aus. Erwägen Sie die Verwendung von Azure-Tags. Beispielsweise das Tag „Owner“ oder „CreatedBy“, um zu identifizieren, wer die Ressource erstellt hat, und das Tag „Environment“, um zu identifizieren, ob sich diese Ressource in Produktion, Entwicklung usw. befindet. Weitere Informationen finden Sie unter Entwickeln Ihrer Benennungs- und Kennzeichnungsstrategie für Azure-Ressourcen. Screenshot from the Azure portal of Apache Spark pool create flow - additional settings tab.

  5. Klicken Sie auf Überprüfen + erstellen.

  6. Vergewissern Sie sich auf Grundlage der vorherigen Angaben, dass die Details korrekt sind, und wählen Sie Erstellen aus. Screenshot from the Azure portal of Apache Spark pool create flow - review settings tab.

  7. Der Flow für die Ressourcenbereitstellung wird nun gestartet. Er zeigt an, wenn er abgeschlossen ist. Screenshot from the Azure portal of that shows the 'Overview' page with a 'Your deployment is complete' message displayed.

  8. Wenn Sie nach Abschluss der Bereitstellung zurück zum Arbeitsbereich navigieren, wird ein neuer Eintrag für den neu erstellten Apache Spark-Pool angezeigt. Screenshot from the Azure portal of Apache Spark pool create flow - resource provisioning.

  9. Zu diesem Zeitpunkt werden keine Ressourcen ausgeführt, und es fallen keine Gebühren für Spark an. Sie haben lediglich Metadaten für die zu erstellenden Spark-Instanzen erstellt.

Bereinigen von Ressourcen

Die folgenden Schritte löschen den Apache Spark-Pool aus dem Arbeitsbereich.

Warnung

Wenn Sie einen Apache Spark-Pool löschen, wird die Analyse-Engine aus dem Arbeitsbereich entfernt. Sie können keine Verbindung mehr mit dem Pool herstellen, und Abfragen, Pipelines und Notebooks, die diesen Apache Spark-Pool verwenden, funktionieren nicht mehr.

Wenn Sie den Apache Spark-Pool löschen wollen, führen Sie die folgenden Schritte aus:

  1. Navigieren Sie im Arbeitsbereich zum Bereich mit den Apache Spark-Pools.
  2. Wählen Sie den zu löschenden Apache Spark-Pool aus (in diesem Fall contosospark).
  3. Klicken Sie auf Löschen. Screenshot from the Azure portal of a list of Apache Spark pools, with the recently created pool selected.
  4. Bestätigen Sie den Löschvorgang, und wählen Sie die Schaltfläche Löschen aus. Screenshot from the Azure portal of the Confirmation dialog to delete the selected Apache Spark pool.
  5. Wenn der Vorgang erfolgreich abgeschlossen wurde, wird der Apache Spark-Pool nicht mehr in den Arbeitsbereichsressourcen aufgeführt.