Freigeben über


Schnelle Kopie in Dataflows Gen2

Dieser Artikel beschreibt die Schnellkopierfunktion in Dataflows Gen2 für Data Factory in Microsoft Fabric. Dataflows helfen beim Einlesen und Umwandeln von Daten. Mit der Einführung von Dataflow Scale Out mit SQL DW Compute können Sie Ihre Daten in großem Umfang umwandeln. Ihre Daten müssen jedoch zuerst aufgenommen werden. Mit der Einführung von Fast Copy können Sie Terabytes von Daten mit der einfachen Erfahrung von Datenflüssen aufnehmen, aber mit dem skalierbaren Back-End der Pipeline Copy-Aktivität.

Nach der Aktivierung dieser Funktion schalten Dataflows automatisch auf das Back-End um, wenn die Datengröße einen bestimmten Schwellenwert überschreitet, ohne dass bei der Erstellung der Datenflüsse etwas geändert werden muss. Nach der Aktualisierung eines Datenflusses können Sie in der Aktualisierungshistorie überprüfen, ob während des Laufs eine Schnellkopie verwendet wurde, indem Sie sich den dort angezeigten Enginetyp ansehen.

Wenn die Option Schnellkopie anfordern aktiviert ist, wird die Dataflow-Aktualisierung abgebrochen, wenn die Schnellkopie nicht verwendet wird. Dies hilft Ihnen zu vermeiden, auf ein Aktualisierungstimeout zu warten, um fortzufahren. Dieses Verhalten kann auch bei einer Debugsitzung hilfreich sein, um das Dataflow-Verhalten mit Ihren Daten zu testen, während die Wartezeit reduziert wird. Mithilfe der Schnellkopieanzeigen im Abfrageschrittbereich können Sie ganz einfach überprüfen, ob Ihre Abfrage mit schneller Kopie ausgeführt werden kann.

Screenshot, der zeigt, wo der Schnellkopieindikator im Abfrageschrittbereich angezeigt wird.

Voraussetzungen

  • Sie müssen über eine Fabric-Kapazität verfügen.
  • Bei Dateidaten handelt es sich um Dateien im .csv- oder Parquet-Format mit einer Größe von mindestens 100 MB, die in einem Azure Data Lake Storage (ADLS) Gen2 oder einem Blob-Storage-Konto gespeichert sind.
  • Für Datenbanken, einschließlich Azure SQL DB und PostgreSQL, sind 5 Millionen Zeilen oder mehr Daten in der Datenquelle enthalten.

Hinweis

Sie können den Schwellenwert umgehen, um die Schnellkopie zu erzwingen, indem Sie die Einstellung „Schnellkopie erforderlich“ auswählen.

Connector-Unterstützung

Schnelle Kopie wird derzeit für die folgenden Dataflow Gen2-Connectors unterstützt:

  • ADLS Gen2
  • Blob Storage
  • Azure SQL-Datenbank
  • Lakehouse
  • PostgreSQL
  • Lokale SQL Server-Instanz
  • Warehouse
  • Oracle
  • Snowflake

Die Kopieraktivität unterstützt nur einige Transformationen beim Herstellen einer Verbindung mit einer Dateiquelle:

  • Dateien kombinieren
  • Spalten auswählen
  • Datentypen ändern
  • Umbenennen einer Spalte
  • Entfernen einer Spalte

Sie können weiterhin andere Transformationen anwenden, indem Sie die Schritte der Aufnahme und Transformation in separate Abfragen aufteilen. Die erste Abfrage ruft die Daten tatsächlich ab und die zweite Abfrage verweist auf ihre Ergebnisse, so dass DW compute verwendet werden kann. Bei SQL-Quellen wird jede Transformation unterstützt, die Teil der nativen Abfrage ist.

Wenn Sie die Abfrage direkt in ein Ausgabeziel laden, werden derzeit nur Lakehouse-Ziele unterstützt. Wenn Sie eine andere Ausgabedestination verwenden möchten, können Sie die Abfrage zuerst erstellen und später darauf verweisen.

So verwenden Sie die Schnellkopie

  1. Navigieren Sie zum entsprechenden Fabric-Endpunkt.

  2. Navigieren Sie zu einem Premium-Arbeitsbereich und erstellen Sie einen Datenfluss Gen2.

  3. Wählen Sie auf der Registerkarte Start des neuen Datenflusses Optionen:

    Screenshot, der zeigt, wo die Optionen für Dataflows Gen2 auf der Registerkarte Home auszuwählen sind.

  4. Wählen Sie dann im Dialogfeld Optionen die Registerkarte Skalieren und aktivieren Sie das Kontrollkästchen Verwendung von Schnellkopie-Verbindungen zulassen, um die Schnellkopie zu aktivieren. Schließen Sie dann das Dialogfeld Optionen.

    Der Screenshot zeigt, wo die Schnellkopie auf der Registerkarte „Skalieren“ des Dialogs „Optionen“ aktiviert werden kann.

  5. Wählen Sie Daten abrufen und dann die Quelle ADLS Gen2 aus und geben Sie die Details für Ihren Container ein.

  6. Verwenden Sie die Funktion Datei kombinieren.

    Der Screenshot zeigt das Datenfenster des Vorschauordners mit der hervorgehobenen Option „Kombinieren“.

  7. Um ein schnelles Kopieren zu gewährleisten, sollten Sie nur die Transformationen anwenden, die im Abschnitt über die Unterstützung von Connectors in diesem Artikel aufgeführt sind. Wenn Sie weitere Transformationen anwenden müssen, stellen Sie die Daten zunächst bereit und verweisen später auf die Abfrage. Andere Transformationen an der referenzierten Abfrage vornehmen.

  8. (Optional) Sie können die Option Schnellkopie anfordern für die Abfrage einstellen, indem Sie mit der rechten Maustaste auf die Abfrage klicken, um diese Option auszuwählen und zu aktivieren.

    Screenshot zeigt, wo die Option Schnellkopie anfordern im Rechtsklickmenü für eine Abfrage ausgewählt werden kann.

  9. (Optional) Derzeit können Sie nur ein Lakehouse als Ausgabeziel konfigurieren. Für jedes andere Ziel stellen Sie die Abfrage bereit und referenzieren sie später in einer anderen Abfrage, in der Sie die Ausgabe in eine beliebige Quelle vornehmen können.

  10. Prüfen Sie die Schnellkopie-Indikatoren, um festzustellen, ob Ihre Abfrage mit Schnellkopie ausgeführt werden kann. Wenn ja, zeigt der Engine-Typ CopyActivity an.

    Screenshot mit den Aktualisierungsdetails, der anzeigt, dass die Pipeline CopyActivity Engine verwendet wurde.

  11. Veröffentlichen Sie den Dataflow.

  12. Prüfen Sie nach Abschluss der Aktualisierung, ob die Schnellkopie verwendet wurde.

Bekannte Einschränkungen

  1. Für die Unterstützung von Fast Copy ist ein lokales Datengateway, Version 3000.214.2 oder höher, erforderlich.
  2. Das VNet-Gateway wird nicht unterstützt.
  3. Das Schreiben von Daten in eine vorhandene Tabelle in Lakehouse wird nicht unterstützt.
  4. Festes Schema wird nicht unterstützt.