Teilen über


Verwenden von Datenflüssen in Pipelines

Wenn Sie komplexe Pipelines mit mehreren Datenflüssen erstellen, kann der logische Datenfluss große Auswirkungen auf Zeit und Kosten haben. In diesem Abschnitt werden die Auswirkungen verschiedener Architekturstrategien behandelt.

Paralleles Ausführen von Datenflüssen

Wenn Sie mehrere Datenflüsse parallel ausführen, richtet der Dienst separate Spark-Cluster für jede Aktivität ein. Dadurch kann jeder Auftrag isoliert und parallel ausgeführt werden, führt aber dazu, dass mehrere Cluster gleichzeitig ausgeführt werden.

Bei paralleler Ausführung Ihrer Datenflüsse sollten Sie die Eigenschaft für die Gültigkeitsdauer der Azure IR nicht aktivieren, da hieraus mehrere nicht verwendete aktive Pools resultieren.

Tipp

Anstatt denselben Datenfluss mehrmals für jede Aktivität auszuführen, können Sie die Daten in einem Data Lake bereitstellen und Platzhalterpfade verwenden, um die Daten in einem einzelnen Datenfluss zu verarbeiten.

Sequenzielles Ausführen von Datenflüssen

Wenn Sie Ihre Datenflussaktivitäten nacheinander ausführen, empfiehlt es sich, in der Azure IR-Konfiguration eine Gültigkeitsdauer festzulegen. Die Computeressourcen werden vom Dienst wiederverwendet, wodurch die Startzeit des Clusters verkürzt wird. Jede Aktivität wird weiterhin isoliert und erhält einen neuen Spark-Kontext für jede Ausführung.

Überladen eines einzelnen Datenflusses

Wenn Sie die gesamte Logik innerhalb eines einzelnen Datenflusses anordnen, führt der Dienst den gesamten Auftrag auf einer einzelnen Spark-Instanz aus. Dies mag zwar als eine Möglichkeit zur Kostenreduzierung erscheinen, doch werden unterschiedliche logische Datenflüsse kombiniert und das Überwachen und Debuggen kann schwierig sein. Wenn eine Komponente ausfällt, können auch alle anderen Teile des Auftrags nicht ausgeführt werden. Es wird empfohlen, Datenflüsse nach unabhängigen Flows der Geschäftslogik zu organisieren. Wenn der Datenfluss zu groß wird, werden Überwachung und Debugging durch Aufteilen in separate Komponenten vereinfacht. Es gibt zwar kein festes Limit für die Anzahl von Transformationen in einem Datenfluss, doch wird der Auftrag bei zu vielen Transformationen sehr komplex.

Paralleles Ausführen von Senken

Beim Standardverhalten von Datenflusssenken wird jede Senke sequenziell nacheinander ausgeführt, und der Datenfluss schlägt fehl, wenn ein Fehler in der Senke auftritt. Außerdem werden alle Senken standardmäßig der gleichen Gruppe zugeordnet, es sei denn, Sie bearbeiten die Datenflusseigenschaften und legen unterschiedliche Prioritäten für die Senken fest.

Datenflüsse ermöglichen es Ihnen, Senken über die Registerkarte für Datenflusseigenschaften im Benutzeroberflächendesigner in Gruppen zusammenfassen. Sie können sowohl die Ausführungsreihenfolge der Senken festlegen als auch Senken unter Verwendung derselben Gruppennummer gruppieren. Um die Verwaltung von Gruppen zu erleichtern, können Sie den Dienst anweisen, Senken aus der gleichen Gruppe parallel auszuführen.

In der Pipeline zum Ausführen der Datenflussaktivität befindet sich unter dem Abschnitt „Senkeneigenschaften“ eine Option, mit der das parallele Laden von Senken aktiviert werden kann. Wenn Sie die parallele Ausführung aktivieren, weisen Sie Datenflüsse an, gleichzeitig und nicht sequenziell in verbundene Senken zu schreiben. Um die Option für parallele Ausführung zu verwenden, müssen die Senken in einer Gruppe zusammengefasst und über eine neue Verzweigung oder bedingte Teilung mit demselben Datenstrom verbunden sein.

Zugreifen auf Azure Synapse-Datenbankvorlagen in Pipelines

Sie können beim Erstellen einer Pipeline eine Azure Synapse-Datenbankvorlage verwenden. Wenn Sie einen neuen Datenfluss erstellen, wählen Sie unter den Quell- oder Senkeneinstellungen die Option Workspace DB aus. In der Dropdownliste für Datenbanken werden die Datenbanken aufgeführt, die über die Datenbankvorlage erstellt wurden. Die Option „Workspace DB“ ist nur für neue Datenflüsse verfügbar. Sie ist nicht verfügbar, wenn Sie eine vorhandene Pipeline aus dem Synapse Studio-Katalog verwenden.

Lesen Sie die folgenden Artikel zu Datenflüssen in Bezug auf die Leistung: