Schnellstart: Transformieren von Daten mithilfe einer Apache Spark-Auftragsdefinition

In dieser Schnellstartanleitung verwenden Sie Azure Synapse Analytics, um eine Pipeline mithilfe einer Apache Spark-Auftragsdefinition zu erstellen.

Voraussetzungen

Nachdem Ihr Azure Synapse-Arbeitsbereich erstellt wurde, haben Sie zwei Möglichkeiten zum Öffnen von Synapse Studio:

  • Öffnen Sie Ihren Synapse-Arbeitsbereich im Azure-Portal. Wählen Sie auf der Karte „Synapse Studio öffnen“ die Option Öffnen unter Erste Schritte aus.
  • Öffnen Sie Azure Synapse Analytics, und melden Sie sich bei Ihrem Arbeitsbereich an.

In dieser Schnellstartanleitung wird der Arbeitsbereich „sampletest“ als Beispiel verwendet. Sie werden automatisch zur Startseite von Synapse Studio weitergeleitet.

Synapse Studio-Startseite

Erstellen einer Pipeline mit einer Apache Spark-Auftragsdefinition

Eine Pipeline enthält den logischen Ablauf für die Ausführung einer Aktivitätenmenge. In diesem Abschnitt erstellen Sie eine Pipeline, die eine Apache Spark-Auftragsdefinitionsaktivität enthält.

  1. Wechseln Sie zur Registerkarte Integrieren. Wählen Sie neben dem Header „Pipelines“ das Pluszeichen und anschließend Pipeline aus.

    Erstellen einer neuen Pipeline

  2. Geben Sie auf der Einstellungsseite Eigenschaften der Pipeline unter Name die Zeichenfolge demo ein.

  3. Ziehen Sie unter Synapse im Bereich Aktivitäten die Spark-Auftragsdefinition auf den Pipelinecanvas.

    Ziehen der Spark-Auftragsdefinition

Einrichten des Apache Spark-Auftragsdefinitionscanvas

Nachdem Sie Ihre Apache Spark-Auftragsdefinition erstellt haben, gelangen Sie automatisch zum Spark-Auftragsdefinitionscanvas.

Allgemeine Einstellungen

  1. Wählen Sie auf dem Canvas das Modul „Spark-Auftragsdefinition“ aus.

  2. Geben Sie auf der Registerkarte Allgemein für Namesample ein.

  3. Optional können Sie auch eine Beschreibung angeben.

  4. Timeout: Der maximale Zeitraum für das Ausführen einer Aktivität. Als Standardwert ist der maximal zulässige Zeitrum von sieben Tagen eingestellt. Das Format ist „D.HH:MM:SS“.

  5. Wiederholung: Die maximale Anzahl der Wiederholungsversuche.

  6. Wiederholungsintervall: Die Anzahl von Sekunden zwischen den einzelnen Wiederholungsversuchen.

  7. Sichere Ausgabe: Wenn diese Option aktiviert ist, werden Ausgaben der Aktivität nicht bei der Protokollierung erfasst.

  8. Sichere Eingabe: Wenn diese Option aktiviert ist, werden Eingaben der Aktivität nicht bei der Protokollierung erfasst.

    Allgemeines zur Spark-Auftragsdefinition

Registerkarte "Einstellungen"

In diesem Panel können Sie auf die auszuführende Spark-Auftragsdefinition verweisen.

  • Erweitern Sie die Liste der Spark-Auftragsdefinition. Sie können eine vorhandene Apache Spark-Auftragsdefinition auswählen. Sie können auch eine neue Apache Spark-Auftragsdefinition erstellen, indem Sie die Schaltfläche Neu auswählen, um auf die auszuführende Spark-Auftragsdefinition zu verweisen.

  • (Optional) Sie können die Informationen für die Apache Spark-Auftragsdefinition eingeben. Wenn die folgenden Einstellungen leer sind, werden die Einstellungen der Spark-Auftragsdefinition selbst zum Ausführen verwendet; wenn die folgenden Einstellungen nicht leer sind, ersetzen diese Einstellungen die Einstellungen der Spark-Auftragsdefinition selbst.

    Eigenschaft BESCHREIBUNG
    „Main definition file“ (Hauptdefinitionsdatei) Die für den Auftrag verwendete Hauptdatei. Wählen Sie eine PY/JAR/ZIP-Datei aus Ihrem Speicher. Sie können Datei hochladen auswählen, um die Datei in ein Speicherkonto hochzuladen.
    Beispiel: abfss://…/path/to/wordcount.jar
    Referenzen aus Unterordnern Beim Überprüfen von Unterordnern aus dem Stammordner der Hauptdefinitionsdatei werden diese Dateien als Referenzdateien hinzugefügt. Die Ordner mit den Namen „jars“, „pyFiles“, „files“ oder „archives“ werden überprüft, wobei die Groß-/Kleinschreibung beachtet wird.
    „Main class name“ (Name der Hauptklasse) Der vollqualifizierte Bezeichner oder die Hauptklasse in der Hauptdefinitionsdatei.
    Beispiel: WordCount
    Befehlszeilenargumente Sie können Befehlszeilenargumente hinzufügen, indem Sie auf die Schaltfläche Neu klicken. Beachten Sie, dass durch das Hinzufügen von Befehlszeilenargumenten die Befehlszeilenargumente außer Kraft gesetzt werden, die durch die Spark-Auftragsdefinition definiert sind.
    Beispiel: abfss://…/path/to/shakespeare.txtabfss://…/path/to/result
    Apache Spark-Pool Sie können den Apache Spark-Pool aus der Liste auswählen.
    Python-Codeverweis Zusätzliche Python-Codedateien, die als Referenz in der Hauptdefinitionsdatei verwendet werden.
    Es unterstützt das Übergeben von Dateien (.py, .py3, .zip) an die Eigenschaft „pyFiles“. Die in der Spark-Auftragsdefinition definierte Eigenschaft „pyFiles“ wird überschrieben.
    „Reference files“ (Referenzdateien) Zusätzliche Dateien, die zu Referenzzwecken in der Hauptdefinitionsdatei verwendet werden.
    Executors dynamisch zuordnen Diese Einstellung entspricht der dynamischen Zuordnungseigenschaft in der Spark-Konfiguration für die Executorzuteilung der Spark-Anwendung.
    Min. Executors Dies ist die min. Anzahl von Executors, die im angegebenen Spark-Pool für den Auftrag zugeordnet werden sollen.
    Max. Executors Dies ist die max. Anzahl von Executors, die im angegebenen Spark-Pool für den Auftrag zugeordnet werden sollen.
    „Driver size“ (Treibergröße) Die Anzahl von Kernen und die Menge an Arbeitsspeicher, die für Treiber im angegebenen Apache Spark-Pool für den Auftrag verwendet werden sollen.
    Spark-Konfiguration Geben Sie Werte für die Spark-Konfigurationseigenschaften an, die im Thema Spark-Konfiguration – Anwendungseigenschaften aufgeführt sind. Benutzer können die Standardkonfiguration und die angepasste Konfiguration verwenden.

    Pipelineeinstellungen für Spark-Auftragsdefinitionen

  • Sie können dynamische Inhalte hinzufügen, indem Sie auf die Schaltfläche Dynamischen Inhalt hinzufügen klicken oder die Tastenkombination Alt+Umschalt+D drücken. Auf der Dynamischen Inhalt hinzufügen-Seite können Sie eine beliebige Kombination aus Ausdrücken, Funktionen und Systemvariablen verwenden, um dynamische Inhalte hinzuzufügen.

    Dynamischen Inhalt hinzufügen

Benutzereigenschaften-Tab

In diesem Bereich können Sie Eigenschaften für Apache Spark-Auftragsdefinitionsaktivitäten hinzufügen.

Benutzereigenschaften

Nächste Schritte

In den folgenden Artikeln finden Sie Informationen zur Unterstützung von Azure Synapse Analytics: