Modul 1: Erstellen einer Pipeline mit Data Factory

Dieses Modul dauert 10 Minuten und erfasst Rohdaten aus dem Quellspeicher in der Bronze-Tabelle eines Data Lakehouse mithilfe des Copy-Aktivität in einer Pipeline.

Die allgemeinen Schritte in Modul 1 sind wie folgt:

  1. Erstellen Sie eine Datenpipeline.
  2. Verwenden Sie eine Kopieraktivität in der Pipeline, um Beispieldaten in ein Data Lakehouse zu laden.

Wichtig

Microsoft Fabric befindet sich derzeit in der Vorschauversion. Diese Informationen beziehen sich auf eine Vorabversion des Produkts, an der vor der Veröffentlichung noch wesentliche Änderungen vorgenommen werden können. Microsoft übernimmt keine Garantie, weder ausdrücklich noch stillschweigend, für die hier bereitgestellten Informationen. Weitere Informationen finden Sie in Azure Data Factory Dokumentation für den Dienst in Azure.

Erstellen einer Datenpipeline

  1. Ein Microsoft Fabric-Mandantenkonto mit einem aktiven Abonnement ist erforderlich. Erstellen Sie ein kostenloses Konto.

  2. Stellen Sie sicher, dass Sie über einen Microsoft Fabric-aktivierten Arbeitsbereich verfügen: Erstellen Sie einen Arbeitsbereich.

  3. Melden Sie sich bei Power BI an.

  4. Wählen Sie unten links auf dem Bildschirm das Power BI-Standardsymbol aus, und wechseln Sie zur Data Factory-Benutzeroberfläche .

    Screenshot: Auswahl der Data Factory-Benutzeroberfläche

  5. Wählen Sie Datenpipeline aus , und geben Sie einen Pipelinenamen an. Klicken Sie anschließend auf Erstellen.

    Screenshot der Data Factory-Startseite mit ausgewählter Schaltfläche zum Erstellen einer neuen Datenpipeline

    Screenshot des Dialogfelds, um der neuen Pipeline einen Namen zu geben.

Verwenden eines Copy-Aktivität in der Pipeline zum Laden von Beispieldaten in ein Data Lakehouse

Schritt 1: Erstellen Sie eine Copy-Aktivität in Ihrer neuen Pipeline.

Wählen Sie Pipelineaktivität hinzufügen und dann Daten aus der angezeigten Liste der Aktivitäten kopieren aus.

Screenshot: Auswahl der Aktivität

Schritt 2: Konfigurieren Sie Ihre Quelleinstellungen in Ihrem neuen Copy-Aktivität.

  1. Wählen Sie im Eigenschaftenbereich unterhalb des Pipelinebereichs die Registerkarte Quelle aus, und wählen Sie dann + Neu aus, um eine neue Datenquelle zu erstellen. (Wenn die Registerkarte Quelle nicht angezeigt wird, müssen Sie möglicherweise zuerst die Aktivität Daten kopieren im Bereich der Pipeline-Canvas auswählen.)

    Screenshot: Quelleinstellungen der Aktivität Daten kopieren mit hervorgehobener Schaltfläche + Neu

  2. Wählen Sie Azure Blob Storage und dann Weiter aus.

    Screenshot: Auswahl des Azure Blob Storage Datentyps für die neue Verbindung

  3. Geben Sie im Dialogfeld Neue Verbindung die relevanten Details für die Verbindung an. Für das Tutorial verwenden wir die folgenden Einstellungen für die NYC Taxi-Beispieldaten :

    • Kontoname oder URL - https://nyctaxisample.blob.core.windows.net/sample
    • Verbindung – unverändert, wobei die Option Neue Verbindung erstellen aktiviert bleibt.
    • Verbindungsname - NYC-Taxi-Anonymous
    • Authentifizierungsart – Anonym

    Klicken Sie anschließend auf Erstellen.

    Screenshot: Dialogfeld

  4. Wählen Sie auf der Registerkarte Quelle für die neue Datenquelle, die Sie erstellt haben, die Option Dateipfad für Dateipfadtyp aus, geben Sie ein Beispiel für den Pfad der obersten Ebene ein, und wählen Sie dann die Dropdownliste Durchsuchen aus , um Von angegebenem Pfad auszuwählen.

    Screenshot: Datenquellenkonfiguration auf der Registerkarte Quelle mit der angegebenen Pfadeinstellung und ausgewählter Dropdownliste Durchsuchen

  5. Wählen Sie im angezeigten Dialogfeld Durchsuchen die Option NYC-Taxi-Green-2015-01.parquet aus, und wählen Sie OK aus.

    Screenshot: Dialogfeld Durchsuchen mit ausgewählter Datei NYC-Taxi-Green-20151-01.parquet aus dem Beispielordner

  6. Wählen Sie parquet für die Dropdownliste Dateiformat und dann Vorschaudaten aus.

    Screenshot: Auswahl von Parquet für Dateiformat mit hervorgehobener Schaltfläche Vorschaudaten

    Screenshot: Vorschaudaten für die ausgewählte NYC-Taxi-Anonymous-Datenquellenverbindung

Schritt 3: Konfigurieren Sie die Zieleinstellungen für Ihre Copy-Aktivität.

  1. Wählen Sie die Registerkarte Ziel für Ihre Copy-Aktivität aus, und wählen Sie dann + Neu aus, um ein neues Lakehouse-Ziel zu erstellen, und geben Sie ihm einen Namen. Für dieses Tutorial nennen wir unser Ziel Bronze. Nachdem Sie den Namen angegeben haben, wählen Sie Erstellen aus.

    Screenshot: Konfiguration der Registerkarte Ziel für die Copy-Aktivität

    Screenshot: Dialogfeld

  2. Aktivieren Sie für die Eigenschaft Tabellenname das Kontrollkästchen Bearbeiten , um eine neue Lakehouse-Tabelle zu erstellen, in der die Daten geladen werden, und geben Sie den Namen nyc_taxi an.

    Screenshot: Auswahl des Kontrollkästchens Bearbeiten in den Zieleinstellungen mit eingegebenem Tabellennamen nyc_taxi

Schritt 4: Führen Sie aus, und zeigen Sie die Ergebnisse Ihrer Copy-Aktivität an.

  1. Wählen Sie im Pipeline-Editor die Registerkarte Ausführen aus. Wählen Sie dann die Schaltfläche Ausführen aus, und führen Sie dann Speichern aus, und führen Sie sie an der Eingabeaufforderung aus, um die Copy-Aktivität auszuführen.

    Screenshot: Registerkarte

    Screenshot: Dialogfeld

  2. Sie können die Ausführung überwachen und die Ergebnisse auf der Registerkarte Ausgabe unterhalb des Pipelinebereichs überprüfen. Wählen Sie die Schaltfläche "Ausführungsdetails" (das "Brillensymbol", das angezeigt wird, wenn Sie mit dem Mauszeiger auf die ausgeführte Pipelineausführung zeigen), um die Ausführungsdetails anzuzeigen.

    Screenshot der Schaltfläche

  3. Die Ausführungsdetails zeigen 1.508.501 Zeilen gelesen und geschrieben an.

    Screenshot: Datendetails für die Pipelineausführung kopieren

  4. Erweitern Sie den Abschnitt Dauer der Aufschlüsselung, um die Dauer jeder Phase der Copy-Aktivität anzuzeigen. Nachdem Sie die Kopierdetails überprüft haben, wählen Sie Schließen aus.

    Screenshot: Daueraufschlüsselung der Copy-Aktivität Ausführung

Nächste Schritte

In diesem ersten Modul zu unserem End-to-End-Tutorial für Ihre erste Datenintegration mit Data Factory in Microsoft Fabric haben Sie Folgendes gelernt:

  • Erstellen Sie eine Datenpipeline.
  • Fügen Sie Ihrer Pipeline einen Copy-Aktivität hinzu.
  • Verwenden Sie Beispieldaten, und erstellen Sie ein Data Lakehouse, um die Daten in einer neuen Tabelle zu speichern.
  • Führen Sie die Pipeline aus, und sehen Sie sich die Details und die Dauer an.

Fahren Sie jetzt mit dem nächsten Abschnitt fort, um Ihren Dataflow zu erstellen.