Erfassen von Daten in einem Warehouse mithilfe von Datenpipelines

Gilt für: Warehouse in Microsoft Fabric

Datenpipelines bieten eine Alternative zur Verwendung des COPY-Befehls über eine grafische Benutzeroberfläche. Eine Datenpipeline ist eine logische Gruppierung von Aktivitäten, die zusammen eine Datenerfassungsaufgabe bilden. Mit Pipelines können Sie ETL-Aktivitäten (Extrahieren, Transformieren und Laden) verwalten, anstatt sie einzeln zu koordinieren.

In diesem Tutorial erstellen Sie eine neue Pipeline, die Beispieldaten in ein Warehouse in Microsoft Fabric lädt.

Hinweis

Einige Features aus Azure Data Factory sind in Microsoft Fabric nicht verfügbar, aber die Konzepte sind austauschbar. Weitere Informationen zu Azure Data Factory und Pipelines finden Sie unter Pipelines und Aktivitäten in Azure Data Factory und Azure Synapse Analytics. Eine Schnellstartanleitung finden Sie unter Schnellstart: Erstellen Ihrer ersten Pipeline zum Kopieren von Daten.

Erstellen einer Datenpipeline

  1. Um eine neue Pipeline zu erstellen, navigieren Sie zu Ihrem Arbeitsbereich, klicken Sie auf die Schaltfläche + Neu, und wählen Sie dann Datenpipeline aus. Screenshot of the top section of the user's workspace showing the New button, and with the options Warehouse, Data pipeline, and Show All.

  2. Geben Sie im Dialogfeld Neue Pipeline einen Namen für Ihre neue Pipeline ein, und klicken Sie auf Erstellen.

  3. Sie landen im Pipelinecanvasbereich, in dem drei Optionen für die ersten Schritte angezeigt werden: Pipelineaktivität hinzufügen, Daten kopieren und Aufgabe für den Start auswählen.

    Screenshot showing the three options to select for starting ingestion.

    Jede dieser Optionen bietet verschiedene Alternativen zum Erstellen einer Pipeline:

    • Pipelineaktivität hinzufügen: Mit dieser Option wird der Pipeline-Editor gestartet, in dem Sie mithilfe von Pipelineaktivitäten neue Pipelines von Grund auf neu erstellen können.
    • Daten kopieren: Mit dieser Option wird ein ausführlicher Assistent gestartet, der Ihnen dabei hilft, eine Datenquelle und ein Ziel auszuwählen und Datenladeoptionen wie die Spaltenzuordnungen zu konfigurieren. Nach Abschluss des Vorgangs wird eine neue Pipelineaktivität erstellt, wobei die Aufgabe Daten kopieren bereits für Sie konfiguriert ist.
    • Aufgabe für den Start auswählen: Mit dieser Option werden basierend auf verschiedenen Szenarios mehrere vordefinierte Vorlagen gestartet, die Ihnen die ersten Schritte mit Pipelines erleichtern.

    Wählen Sie die Option Daten kopieren aus, um den Kopier-Assistenten zu starten.

  4. Auf der ersten Seite des Assistent Daten kopieren können Sie Ihre eigenen Daten aus verschiedenen Datenquellen oder aus einem der bereitgestellten Beispiele auswählen. In diesem Tutorial verwenden Sie das Beispiel COVID-19 Data Lake. Wählen Sie diese Option aus, und klicken Sie dann auf Weiter.

    Screenshot showing choices to use sample data or other data sources.

  5. Auf der nächsten Seite können Sie ein Dataset, das Quelldateiformat und eine Vorschau des ausgewählten Datasets auswählen. Wählen Sie Bing COVID-19 und das CSV-Format aus, und klicken Sie auf Weiter.

    Screenshot showing different dataset options for the COVID-19 sample, file formats, and a grid showing a preview of the data.

  6. Auf der nächsten Seite mit der Bezeichnung Datenziele können Sie den Typ des Zielarbeitsbereichs konfigurieren. Sie laden Daten in ein Warehouse in Ihrem Arbeitsbereich. Wählen Sie daher die Registerkarte Warehouse und die Option Data Warehouse aus. Wählen Sie Weiter aus.

    Screenshot showing different destination options.

  7. Jetzt ist es an der Zeit, das Warehouse auszuwählen, in das Daten geladen werden sollen. Wählen Sie in der Dropdownliste das gewünschte Warehouse aus, und klicken Sie auf Weiter.

    Screenshot showing a dropdown list with a warehouse selected.

  8. Der letzte Schritt zum Konfigurieren des Ziels besteht darin, einen Namen für die Zieltabelle anzugeben und die Spaltenzuordnungen zu konfigurieren. Hier können Sie die Daten in eine neue oder eine vorhandene Tabelle laden, ein Schema und Tabellennamen angeben, Spaltennamen ändern, Spalten entfernen oder deren Zuordnungen ändern. Sie können die Standardwerte übernehmen oder die Einstellungen nach Ihren Wünschen anpassen.

    Screenshot showing the options to load data to an existing table or to create a new one.

    Wenn Sie die Optionen überprüft haben, klicken Sie auf Weiter.

  9. Auf der nächsten Seite haben Sie die Möglichkeit, den Stagingansatz zu verwenden oder erweiterte Optionen für den Datenkopiervorgang bereitzustellen (der den T-SQL-Befehl „COPY“ verwendet). Überprüfen Sie die Optionen, ohne sie zu ändern, und klicken Sie auf Weiter.

  10. Die letzte Seite im Assistenten bietet eine Zusammenfassung der Kopieraktivität. Wählen Sie die Option Datenübertragung sofort starten aus, und klicken Sie dann auf Speichern + ausführen.

    Screenshot showing the option to start the data transfer operation immediately, and the buttons Back and Save + Run.

  11. Sie werden zum Pipelinecanvasbereich weitergeleitet, in dem bereits eine neue Aktivität zum Kopieren von Daten für Sie konfiguriert ist. Die Pipeline wird automatisch ausgeführt. Sie können den Status Ihrer Pipeline im Bereich Ausgabe überwachen:

    Screenshot showing the pipeline canvas with a Copy activity in the center, and the pipeline execution status showing the current status In progress.

  12. Nach einigen Sekunden wird die Pipeline erfolgreich beendet. Wenn Sie zurück zu Ihrem Warehouse navigieren, können Sie Ihre Tabelle auswählen, um eine Vorschau der Daten anzuzeigen und zu bestätigen, dass der Kopiervorgang abgeschlossen wurde.

    Screenshot showing a warehouse with the bing_covid_19 table selected, and a grid showing a preview of the data in the table.

Weitere Informationen zur Datenerfassung in Ihrem Warehouse in Microsoft Fabric finden Sie in den folgenden Artikeln:

Nächster Schritt