Modul 1: Erstellen einer Pipeline mit Data Factory
Dieses Modul dauert 10 Minuten und erfasst Rohdaten aus dem Quellspeicher in der Bronze-Tabelle eines Data Lakehouse mithilfe des Copy-Aktivität in einer Pipeline.
Die allgemeinen Schritte in Modul 1 sind wie folgt:
- Erstellen Sie eine Datenpipeline.
- Verwenden Sie eine Kopieraktivität in der Pipeline, um Beispieldaten in ein Data Lakehouse zu laden.
Wichtig
Microsoft Fabric befindet sich derzeit in der Vorschauversion. Diese Informationen beziehen sich auf eine Vorabversion des Produkts, an der vor der Veröffentlichung noch wesentliche Änderungen vorgenommen werden können. Microsoft übernimmt keine Garantie, weder ausdrücklich noch stillschweigend, für die hier bereitgestellten Informationen. Weitere Informationen finden Sie in Azure Data Factory Dokumentation für den Dienst in Azure.
Erstellen einer Datenpipeline
Ein Microsoft Fabric-Mandantenkonto mit einem aktiven Abonnement ist erforderlich. Erstellen Sie ein kostenloses Konto.
Stellen Sie sicher, dass Sie über einen Microsoft Fabric-aktivierten Arbeitsbereich verfügen: Erstellen Sie einen Arbeitsbereich.
Melden Sie sich bei Power BI an.
Wählen Sie unten links auf dem Bildschirm das Power BI-Standardsymbol aus, und wechseln Sie zur Data Factory-Benutzeroberfläche .
Wählen Sie Datenpipeline aus , und geben Sie einen Pipelinenamen an. Klicken Sie anschließend auf Erstellen.
Verwenden eines Copy-Aktivität in der Pipeline zum Laden von Beispieldaten in ein Data Lakehouse
Schritt 1: Erstellen Sie eine Copy-Aktivität in Ihrer neuen Pipeline.
Wählen Sie Pipelineaktivität hinzufügen und dann Daten aus der angezeigten Liste der Aktivitäten kopieren aus.
Schritt 2: Konfigurieren Sie Ihre Quelleinstellungen in Ihrem neuen Copy-Aktivität.
Wählen Sie im Eigenschaftenbereich unterhalb des Pipelinebereichs die Registerkarte Quelle aus, und wählen Sie dann + Neu aus, um eine neue Datenquelle zu erstellen. (Wenn die Registerkarte Quelle nicht angezeigt wird, müssen Sie möglicherweise zuerst die Aktivität Daten kopieren im Bereich der Pipeline-Canvas auswählen.)
Wählen Sie Azure Blob Storage und dann Weiter aus.
Geben Sie im Dialogfeld Neue Verbindung die relevanten Details für die Verbindung an. Für das Tutorial verwenden wir die folgenden Einstellungen für die NYC Taxi-Beispieldaten :
- Kontoname oder URL -
https://nyctaxisample.blob.core.windows.net/sample
- Verbindung – unverändert, wobei die Option Neue Verbindung erstellen aktiviert bleibt.
- Verbindungsname - NYC-Taxi-Anonymous
- Authentifizierungsart – Anonym
Klicken Sie anschließend auf Erstellen.
- Kontoname oder URL -
Wählen Sie auf der Registerkarte Quelle für die neue Datenquelle, die Sie erstellt haben, die Option Dateipfad für Dateipfadtyp aus, geben Sie ein Beispiel für den Pfad der obersten Ebene ein, und wählen Sie dann die Dropdownliste Durchsuchen aus , um Von angegebenem Pfad auszuwählen.
Wählen Sie im angezeigten Dialogfeld Durchsuchen die Option NYC-Taxi-Green-2015-01.parquet aus, und wählen Sie OK aus.
Wählen Sie parquet für die Dropdownliste Dateiformat und dann Vorschaudaten aus.
Schritt 3: Konfigurieren Sie die Zieleinstellungen für Ihre Copy-Aktivität.
Wählen Sie die Registerkarte Ziel für Ihre Copy-Aktivität aus, und wählen Sie dann + Neu aus, um ein neues Lakehouse-Ziel zu erstellen, und geben Sie ihm einen Namen. Für dieses Tutorial nennen wir unser Ziel Bronze. Nachdem Sie den Namen angegeben haben, wählen Sie Erstellen aus.
Aktivieren Sie für die Eigenschaft Tabellenname das Kontrollkästchen Bearbeiten , um eine neue Lakehouse-Tabelle zu erstellen, in der die Daten geladen werden, und geben Sie den Namen nyc_taxi an.
Schritt 4: Führen Sie aus, und zeigen Sie die Ergebnisse Ihrer Copy-Aktivität an.
Wählen Sie im Pipeline-Editor die Registerkarte Ausführen aus. Wählen Sie dann die Schaltfläche Ausführen aus, und führen Sie dann Speichern aus, und führen Sie sie an der Eingabeaufforderung aus, um die Copy-Aktivität auszuführen.
Sie können die Ausführung überwachen und die Ergebnisse auf der Registerkarte Ausgabe unterhalb des Pipelinebereichs überprüfen. Wählen Sie die Schaltfläche "Ausführungsdetails" (das "Brillensymbol", das angezeigt wird, wenn Sie mit dem Mauszeiger auf die ausgeführte Pipelineausführung zeigen), um die Ausführungsdetails anzuzeigen.
Die Ausführungsdetails zeigen 1.508.501 Zeilen gelesen und geschrieben an.
Erweitern Sie den Abschnitt Dauer der Aufschlüsselung, um die Dauer jeder Phase der Copy-Aktivität anzuzeigen. Nachdem Sie die Kopierdetails überprüft haben, wählen Sie Schließen aus.
Nächste Schritte
In diesem ersten Modul zu unserem End-to-End-Tutorial für Ihre erste Datenintegration mit Data Factory in Microsoft Fabric haben Sie Folgendes gelernt:
- Erstellen Sie eine Datenpipeline.
- Fügen Sie Ihrer Pipeline einen Copy-Aktivität hinzu.
- Verwenden Sie Beispieldaten, und erstellen Sie ein Data Lakehouse, um die Daten in einer neuen Tabelle zu speichern.
- Führen Sie die Pipeline aus, und sehen Sie sich die Details und die Dauer an.
Fahren Sie jetzt mit dem nächsten Abschnitt fort, um Ihren Dataflow zu erstellen.