Open Access: Verwenden von Pipelines zum Erfassen von Daten in OneLake und Analysieren mit Azure Databricks

Wichtig

Microsoft Fabric befindet sich in der Vorschauphase.

In diesem Leitfaden werden Sie:

  • Erstellen einer Pipeline im Arbeitsbereich und Erfassen von Daten in OneLake im Deltaformat
  • Analysieren der Deltatabelle in OneLake mithilfe von Azure Databricks

Voraussetzungen

  • Ein Arbeitsbereich mit einem Lakehouse-Element.
  • Ein Premium-Azure Databricks-Arbeitsbereich. Nur Premium-Azure Databricks-Arbeitsbereiche unterstützen Microsoft Azure Active Directory Passthrough für Anmeldeinformationen. Aktivieren Sie beim Erstellen Ihres Clusters Azure Data Lake Storage Passthrough für Anmeldeinformationen in den erweiterten Optionen.
  • Ein Beispieldataset.

Schritte

  1. Navigieren Sie im Power BI-Dienst zu Ihrem Lakehouse, wählen Sie Daten abrufen und dann Neue Datenpipeline aus.

    Screenshot: Navigieren zur neuen Datenpipelineoption auf der Benutzeroberfläche

  2. Geben Sie in der Eingabeaufforderung Neue Pipeline einen Namen für die neue Pipeline ein, und wählen Sie dann Erstellen aus.

  3. Wählen Sie für diese Übung NYC Taxi – Grüne Beispieldaten als Datenquelle aus. Wählen Sie Weiter aus, nachdem das Beispieldataset ausgewählt wurde.

    Screenshot: Auswählen des NYC-Beispieldatasets

  4. Wählen Sie auf dem Vorschaubildschirm erneut Weiter aus.

  5. Wählen Sie als Datenziel den Namen des Lakehouse aus, in dem Sie die Daten in OneLake als Deltatabelle speichern möchten. Sie können ein vorhandenes Lakehouse auswählen oder ein neues Lakehouse erstellen.

    Screenshot: Auswählen des Zielseehauses

  6. Wählen Sie aus, wo Sie die Ausgabe speichern möchten. Wählen Sie Tabellen als Stammordner aus, und geben Sie "nycsample" als Tabellennamen ein.

  7. Wählen Sie auf dem Bildschirm Überprüfen + Speichern die Option Datenübertragung sofort starten und dann Speichern + Ausführen aus.

    Screenshot: Eingeben des Tabellennamens

  8. Navigieren Sie nach Abschluss des Auftrags zu Ihrem Lakehouse, und zeigen Sie die Deltatabelle unter /Tables an.

  9. Kopieren Sie den abfs-Pfad in die Deltatabelle, indem Sie in der ansicht Explorer mit der rechten Maustaste auf den Tabellennamen klicken und Eigenschaften auswählen.

  10. Öffnen Sie Ihr Azure Databricks-Notebook. Lesen Sie die Deltatabelle in OneLake.

    olsPath = "abfss://<replace with workspace name>@onelake.dfs.fabric.microsoft.com/<replace with item name>.Lakehouse/Tables/nycsample" 
    df=spark.read.format('delta').option("inferSchema","true").load(olsPath)
    df.show(5)
    
  11. Aktualisieren Sie Daten in der Deltatabelle in OneLake, indem Sie einen Wert eines Felds in der Deltatabelle aktualisieren.

    %sql
    update delta.`abfss://<replace with workspace name>@onelake.dfs.fabric.microsoft.com/<replace with item name>.Lakehouse/Tables/nycsample` set vendorID = 99999 where vendorID = 1;
    

Zusammenfassung

In diesem Leitfaden haben Sie Daten mithilfe der Pipelineoberfläche in OneLake erfasst und eine Deltatabelle erstellt. Die Deltatabelle in OneLake wird dann über Azure Databricks gelesen und geändert.