Modul 1: Erstellen einer Pipeline mit Data Factory

Dieses Modul nimmt ca. zehn Minuten in Anspruch und behandelt das Erfassen von Rohdaten aus dem Quellspeicher in der Bronze-Tabelle eines Data Lakehouse mithilfe der Copy-Aktivität in einer Pipeline.

Die allgemeinen Schritte in Modul 1 lauten wie folgt:

  1. Erstellen einer Datenpipeline.
  2. Verwenden einer Copy-Aktivität in der Pipeline zum Laden von Beispieldaten in ein Data Lakehouse

Erstellen einer Datenpipeline

  1. Sie benötigen ein Microsoft Fabric-Mandantenkonto mit einem aktiven Abonnement. Erstellen Sie ein kostenloses Konto.

  2. Stellen Sie sicher, dass Sie über einen für Microsoft Fabric aktivierten Arbeitsbereich verfügen: Erstellen eines Arbeitsbereichs.

  3. Melden Sie sich bei Power BI an.

  4. Wählen Sie unten links auf dem Bildschirm das Power BI-Standardsymbol aus, und wechseln Sie zur Data Factory-Benutzeroberfläche.

    Screenshot showing the selection of the Data Factory experience.

  5. Wählen Sie Datenpipeline aus, und geben Sie einen Pipelinenamen an. Klicken Sie anschließend auf Erstellen.

    Screenshot of the Data Factory start page with the button to create a new data pipeline selected.

    Screenshot showing the dialog to give the new pipeline a name.

Verwenden einer Copy-Aktivität in der Pipeline zum Laden von Beispieldaten in ein Data Lakehouse

Schritt 1: Verwenden des Kopier-Assistenten zum Konfigurieren einer Copy-Aktivität

Wählen Sie Daten kopieren aus, um den Kopier-Assistenten zu öffnen.

Screenshot showing the selection of the Copy data activity from the new pipeline start page.

Schritt 2: Konfigurieren der Einstellungen im Kopier-Assistenten

  1. Das Dialogfeld Daten kopieren wird mit hervorgehobenem ersten Schritt Datenquelle auswählen angezeigt. Scrollen Sie bei Bedarf nach unten zum Abschnitt Datenquellen, und wählen Sie den Datenquellentyp Azure Blob Storage aus. Wählen Sie Weiteraus.

    Screenshot showing the selection of the Azure Blob Storage data source type in the copy assistant on the Choose data source tab.

  2. Wählen Sie im nächsten Schritt Neue Verbindung erstellen aus, und geben Sie dann die URL für den Blobspeicher an, der die Beispieldaten für dieses Tutorial unter https://nyctaxisample.blob.core.windows.net/sample hostet. Die Authentifizierungsart entspricht Anonym. Klicken Sie auf Weiter, nachdem Sie die URL bereitgestellt haben.

    Screenshot showing the creation of a new Azure Blob Storage connection with the URL for the sample data in the tutorial.

  3. Der Schritt Verbindung mit Datenquelle herstellen wird angezeigt, und zunächst erhalten Sie die Fehlermeldung Dateien können nicht aufgelistet werden, da Berechtigungen nur für den sample-Ordner im Blobspeicher erteilt wurden. Geben Sie den Ordnernamen (sample) an, und klicken Sie auf Erneut versuchen.

    Screenshot showing the Unable to list files error with the folder name Sample provided.

    Hinweis

    Beim Blobspeicherordner wird die Groß-/Kleinschreibung berücksichtigt. Es sollen nur Kleinbuchstaben verwendet werden.

  4. Als Nächstes wird der Blobspeicherbrowser angezeigt. Wählen Sie die Datei NYC-Taxi-Green-2015-01.parquet aus, und warten Sie, bis die Datenvorschau angezeigt wird. Wählen Sie Weiteraus.

    Screenshot showing the preview data for the NYC-Taxi-Green-2015-01.parquet file.

  5. Wählen Sie beim Schritt Datenziel auswählen im Kopier-Assistenten die Option Lakehouse aus, und klicken Sie dann auf Weiter.

    Screenshot showing the selection of the Lakehouse destination on the Choose data destination tab of the Copy data assistant.

  6. Wählen Sie auf der angezeigten Konfigurationsseite für das Datenziel Neues Lakehouse erstellen aus, und geben Sie einen Namen für das neue Lakehouse ein. Klicken Sie dann erneut auf Weiter.

    Screenshot showing the data destination configuration page of the Copy assistant, choosing the Create new Lakehouse option and providing a Lakehouse name.

  7. Konfigurieren Sie nun die Details Ihres Lakehouse-Ziels auf der Seite Ordnerpfad oder Tabelle auswählen und zuordnen. Wählen Sie Tabellen für den Stammordner aus, geben Sie einen Tabellennamen an, und wählen Sie die Aktion Überschreiben aus. Aktivieren Sie nicht das Kontrollkästchen Partition aktivieren, das angezeigt wird, nachdem Sie die Tabellenaktion Überschreiben ausgewählt haben.

    Screenshot showing the Connect to data destination tab of the Copy data assistant, on the Select and map to folder path or table step.

  8. Überprüfen Sie abschließend auf der Seite Überprüfen + speichern des Assistent zum Kopieren von Daten die Konfiguration. Deaktivieren Sie für dieses Tutorial das Kontrollkästchen Datenübertragung sofort starten, da Sie die Aktivität im nächsten Schritt manuell ausführen. Klicken Sie anschließend auf OK.

    Screenshot showing the Copy data assistant on the Review + save page.

Schritt 3: Ausführen und Überprüfen der Ergebnisse der Copy-Aktivität

  1. Wählen Sie im Pipeline-Editor die Registerkarte Ausführen aus. Klicken Sie zunächst auf die Schaltfläche Ausführen und dann in der Eingabeaufforderung auf Speichern und ausführen, um die Copy-Aktivität auszuführen.

    Screenshot showing the pipeline Run tab with the Run button highlighted.

    Screenshot showing the Save and run dialog with the Save and run button highlighted.

  2. Sie können die Ausführung überwachen und die Ergebnisse auf der Registerkarte Ausgabe unterhalb der Pipelinecanvas überprüfen. Wählen Sie die Schaltfläche für Ausführungsdetails aus (Brillensymbol, das angezeigt wird, wenn Sie den Mauszeiger auf die Pipelineausführung bewegen), um die Ausführungsdetails anzuzeigen.

    Screenshot showing the run details button in the pipeline Output tab.

  3. Die Ausführungsdetails geben an, dass 1.508.501 Zeilen gelesen und geschrieben wurden.

    Screenshot of the Copy data details for the pipeline run.

  4. Erweitern Sie den Abschnitt Aufschlüsselung der Ausführungsdauer, um die Dauer der einzelnen Phasen der Copy-Aktivität anzuzeigen. Nachdem Sie die Kopierdetails überprüft haben, klicken Sie auf Schließen.

    Screenshot showing the duration breakdown of the Copy activity run.

In diesem ersten Modul im Rahmen des umfassenden Tutorials für Ihre erste Datenintegration mit Data Factory in Microsoft Fabric haben Sie Folgendes gelernt:

  • Erstellen einer Datenpipeline.
  • Hinzufügen einer Copy-Aktivität zu Ihrer Pipeline
  • Verwenden von Beispieldaten und Erstellen eines Data Lakehouse zum Speichern der Daten in einer neuen Tabelle
  • Ausführen der Pipeline und Anzeigen von Details und der Aufschlüsselung der Ausführungsdauer

Fahren Sie jetzt mit dem nächsten Abschnitt fort, um Ihren Dataflow zu erstellen.