Schnellstart: Transformieren von Daten mithilfe einer Apache Spark-Auftragsdefinition

In dieser Schnellstartanleitung verwenden Sie Azure Synapse Analytics, um eine Pipeline mithilfe einer Apache Spark-Auftragsdefinition zu erstellen.

Voraussetzungen

Azure-Abonnement: Wenn Sie über kein Azure-Abonnement verfügen, können Sie ein kostenloses Azure-Konto erstellen, bevor Sie beginnen.
Azure Synapse-Arbeitsbereich: Befolgen Sie zum Erstellen eines Synapse-Arbeitsbereichs mithilfe des Azure-Portals die Anweisungen unter Schnellstart: Erstellen eines Synapse-Arbeitsbereichs.
Apache Spark-Auftragsdefinition: Erstellen Sie eine Apache Spark-Auftragsdefinition im Synapse-Arbeitsbereich nach den Anweisungen unter Tutorial: Erstellen einer Apache Spark-Auftragsdefinition in Synapse Studio.

Navigieren zu Synapse Studio

Nachdem Ihr Azure Synapse-Arbeitsbereich erstellt wurde, haben Sie zwei Möglichkeiten zum Öffnen von Synapse Studio:

Öffnen Sie Ihren Synapse-Arbeitsbereich im Azure-Portal. Wählen Sie auf der Karte „Synapse Studio öffnen“ unter Erste Schritte die Option Öffnen aus.
Öffnen Sie Azure Synapse Analytics, und melden Sie sich bei Ihrem Arbeitsbereich an.

In dieser Schnellstartanleitung wird der Arbeitsbereich „sampletest“ als Beispiel verwendet.

Synapse Studio-Startseite

Erstellen einer Pipeline mit einer Apache Spark-Auftragsdefinition

Eine Pipeline enthält den logischen Ablauf für die Ausführung einer Aktivitätenmenge. In diesem Abschnitt erstellen Sie eine Pipeline, die eine Apache Spark-Auftragsdefinitionsaktivität enthält.

Wechseln Sie zur Registerkarte Integrieren. Wählen Sie neben dem Header „Pipelines“ das Pluszeichen und anschließend Pipeline aus.
Geben Sie auf der Einstellungsseite Eigenschaften der Pipeline unter Name die Zeichenfolge demo ein.
Ziehen Sie unter Synapse im Bereich Aktivitäten die Spark-Auftragsdefinition auf den Pipelinecanvas.

Einrichten des Apache Spark-Auftragsdefinitionscanvas

Nachdem Sie Ihre Apache Spark-Auftragsdefinition erstellt haben, gelangen Sie automatisch zum Spark-Auftragsdefinitionscanvas.

Allgemeine Einstellungen

Wählen Sie auf dem Canvas das Modul „Spark-Auftragsdefinition“ aus.
Geben Sie auf der Registerkarte Allgemein für Namesample ein.
Optional können Sie auch eine Beschreibung angeben.
Timeout: Der maximale Zeitraum für das Ausführen einer Aktivität. Als Standardwert ist der maximal zulässige Zeitrum von sieben Tagen eingestellt. Das Format ist „D.HH:MM:SS“.
Wiederholung: Die maximale Anzahl der Wiederholungsversuche.
Wiederholungsintervall: Die Anzahl von Sekunden zwischen den einzelnen Wiederholungsversuchen.
Sichere Ausgabe: Wenn diese Option aktiviert ist, werden Ausgaben der Aktivität nicht in der Protokollierung erfasst.
Sichere Eingabe: Wenn diese Option aktiviert ist, werden Eingaben der Aktivität nicht in der Protokollierung erfasst.

Registerkarte "Einstellungen"

In diesem Panel können Sie auf die auszuführende Spark-Auftragsdefinition verweisen.

Erweitern Sie die Liste der Spark-Auftragsdefinition. Sie können eine vorhandene Apache Spark-Auftragsdefinition auswählen. Sie können auch eine neue Apache Spark-Auftragsdefinition erstellen, indem Sie die Schaltfläche Neu auswählen, um auf die auszuführende Spark-Auftragsdefinition zu verweisen.

(Optional) Sie können die Informationen für die Apache Spark-Auftragsdefinition eingeben. Wenn die folgenden Einstellungen leer sind, werden die Einstellungen der Spark-Auftragsdefinition selbst zum Ausführen verwendet. Wenn die folgenden Einstellungen nicht leer sind, ersetzen diese Einstellungen die Einstellungen der Spark-Auftragsdefinition selbst.

Eigenschaft	BESCHREIBUNG
„Main definition file“ (Hauptdefinitionsdatei)	Die für den Auftrag verwendete Hauptdatei. Wählen Sie eine PY/JAR/ZIP-Datei aus Ihrem Speicher. Sie können Datei hochladen auswählen, um die Datei in ein Speicherkonto hochzuladen. Beispiel: `abfss://…/path/to/wordcount.jar`
Referenzen aus Unterordnern	Beim Überprüfen von Unterordnern aus dem Stammordner der Hauptdefinitionsdatei werden diese Dateien als Referenzdateien hinzugefügt. Die Ordner mit den Namen „jars“, „pyFiles“, „files“ oder „archives“ werden überprüft, wobei die Groß-/Kleinschreibung beachtet wird.
„Main class name“ (Name der Hauptklasse)	Der vollqualifizierte Bezeichner oder die Hauptklasse in der Hauptdefinitionsdatei. Beispiel: `WordCount`
Befehlszeilenargumente	Sie können Befehlszeilenargumente hinzufügen, indem Sie auf die Schaltfläche Neu klicken. Beachten Sie, dass durch das Hinzufügen von Befehlszeilenargumenten die Befehlszeilenargumente, die durch die Spark-Auftragsdefinition definiert sind, außer Kraft gesetzt werden. Beispiel: `abfss://…/path/to/shakespeare.txtabfss://…/path/to/result`
Apache Spark-Pool	Sie können den Apache Spark-Pool aus der Liste auswählen.
Python-Codeverweis	Andere Python-Codedateien, die als Referenz in der Hauptdefinitionsdatei verwendet werden. Es unterstützt das Übergeben von Dateien (.py, .py3, .zip) an die Eigenschaft „pyFiles“. Die in der Spark-Auftragsdefinition definierte Eigenschaft „pyFiles“ wird überschrieben.
„Reference files“ (Referenzdateien)	Andere Dateien, die zu Referenzzwecken in der Hauptdefinitionsdatei verwendet werden.
Executors dynamisch zuordnen	Diese Einstellung entspricht der dynamischen Zuordnungseigenschaft in der Spark-Konfiguration für die Executorzuteilung der Spark-Anwendung.
Min. Executors	Dies ist die min. Anzahl von Executors, die im angegebenen Spark-Pool für den Auftrag zugeordnet werden sollen.
Max. Executors	Dies ist die max. Anzahl von Executors, die im angegebenen Spark-Pool für den Auftrag zugeordnet werden sollen.
„Driver size“ (Treibergröße)	Die Anzahl von Kernen und die Menge an Arbeitsspeicher, die für Treiber im angegebenen Apache Spark-Pool für den Auftrag verwendet werden sollen.
Spark-Konfiguration	Geben Sie Werte für Spark-Konfigurationseigenschaften an, die im Artikel „Spark-Konfiguration – Anwendungseigenschaften“ aufgeführt werden. Benutzer können die Standardkonfiguration und die angepasste Konfiguration verwenden.

Pipelineeinstellungen für Spark-Auftragsdefinitionen

Sie können dynamische Inhalte hinzufügen, indem Sie auf die Schaltfläche Dynamischen Inhalt hinzufügen klicken oder die Tastenkombination Alt+Umschalt+D drücken. Auf der Dynamischen Inhalt hinzufügen-Seite können Sie eine beliebige Kombination aus Ausdrücken, Funktionen und Systemvariablen verwenden, um dynamische Inhalte hinzuzufügen.

Benutzereigenschaften-Tab

In diesem Bereich können Sie Eigenschaften für Apache Spark-Auftragsdefinitionsaktivitäten hinzufügen.

Benutzereigenschaften

In den folgenden Artikeln finden Sie Informationen zur Unterstützung von Azure Synapse Analytics:

Pipelines und Aktivitäten in Azure Data Factory Zuordnungsdatenflüsse in Azure Data Factory Datentransformationsausdrücke in Mapping Data Flow

Feedback

War diese Seite hilfreich?

Last updated on 2024-12-12