Schnelle Kopie in Dataflows Gen2
Dieser Artikel beschreibt die Schnellkopierfunktion in Dataflows Gen2 für Data Factory in Microsoft Fabric. Dataflows helfen beim Einlesen und Umwandeln von Daten. Mit der Einführung von Dataflow Scale Out mit SQL DW Compute können Sie Ihre Daten in großem Umfang umwandeln. Ihre Daten müssen jedoch zuerst aufgenommen werden. Mit der Einführung von Fast Copy können Sie Terabytes von Daten mit der einfachen Erfahrung von Datenflüssen aufnehmen, aber mit dem skalierbaren Back-End der Pipeline Copy-Aktivität.
Nach der Aktivierung dieser Funktion schalten Dataflows automatisch auf das Back-End um, wenn die Datengröße einen bestimmten Schwellenwert überschreitet, ohne dass bei der Erstellung der Datenflüsse etwas geändert werden muss. Nach der Aktualisierung eines Datenflusses können Sie in der Aktualisierungshistorie überprüfen, ob während des Laufs eine Schnellkopie verwendet wurde, indem Sie sich den dort angezeigten Enginetyp ansehen.
Wenn die Option Schnellkopie anfordern aktiviert ist, wird die Dataflow-Aktualisierung abgebrochen, wenn die Schnellkopie nicht verwendet wird. Dies hilft Ihnen zu vermeiden, auf ein Aktualisierungstimeout zu warten, um fortzufahren. Dieses Verhalten kann auch bei einer Debugsitzung hilfreich sein, um das Dataflow-Verhalten mit Ihren Daten zu testen, während die Wartezeit reduziert wird. Mithilfe der Schnellkopieanzeigen im Abfrageschrittbereich können Sie ganz einfach überprüfen, ob Ihre Abfrage mit schneller Kopie ausgeführt werden kann.
Voraussetzungen
- Sie müssen über eine Fabric-Kapazität verfügen.
- Bei Dateidaten handelt es sich um Dateien im .csv- oder Parquet-Format mit einer Größe von mindestens 100 MB, die in einem Azure Data Lake Storage (ADLS) Gen2 oder einem Blob-Storage-Konto gespeichert sind.
- Für Datenbanken, einschließlich Azure SQL DB und PostgreSQL, sind 5 Millionen Zeilen oder mehr Daten in der Datenquelle enthalten.
Hinweis
Sie können den Schwellenwert umgehen, um die Schnellkopie zu erzwingen, indem Sie die Einstellung „Schnellkopie erforderlich“ auswählen.
Connector-Unterstützung
Schnelle Kopie wird derzeit für die folgenden Dataflow Gen2-Connectors unterstützt:
- ADLS Gen2
- Blob Storage
- Azure SQL-Datenbank
- Lakehouse
- PostgreSQL
- Lokale SQL Server-Instanz
- Warehouse
- Oracle
- Snowflake
Die Kopieraktivität unterstützt nur einige Transformationen beim Herstellen einer Verbindung mit einer Dateiquelle:
- Dateien kombinieren
- Spalten auswählen
- Datentypen ändern
- Umbenennen einer Spalte
- Entfernen einer Spalte
Sie können weiterhin andere Transformationen anwenden, indem Sie die Schritte der Aufnahme und Transformation in separate Abfragen aufteilen. Die erste Abfrage ruft die Daten tatsächlich ab und die zweite Abfrage verweist auf ihre Ergebnisse, so dass DW compute verwendet werden kann. Bei SQL-Quellen wird jede Transformation unterstützt, die Teil der nativen Abfrage ist.
Wenn Sie die Abfrage direkt in ein Ausgabeziel laden, werden derzeit nur Lakehouse-Ziele unterstützt. Wenn Sie eine andere Ausgabedestination verwenden möchten, können Sie die Abfrage zuerst erstellen und später darauf verweisen.
So verwenden Sie die Schnellkopie
Navigieren Sie zum entsprechenden Fabric-Endpunkt.
Navigieren Sie zu einem Premium-Arbeitsbereich und erstellen Sie einen Datenfluss Gen2.
Wählen Sie auf der Registerkarte Start des neuen Datenflusses Optionen:
Wählen Sie dann im Dialogfeld Optionen die Registerkarte Skalieren und aktivieren Sie das Kontrollkästchen Verwendung von Schnellkopie-Verbindungen zulassen, um die Schnellkopie zu aktivieren. Schließen Sie dann das Dialogfeld Optionen.
Wählen Sie Daten abrufen und dann die Quelle ADLS Gen2 aus und geben Sie die Details für Ihren Container ein.
Verwenden Sie die Funktion Datei kombinieren.
Um ein schnelles Kopieren zu gewährleisten, sollten Sie nur die Transformationen anwenden, die im Abschnitt über die Unterstützung von Connectors in diesem Artikel aufgeführt sind. Wenn Sie weitere Transformationen anwenden müssen, stellen Sie die Daten zunächst bereit und verweisen später auf die Abfrage. Andere Transformationen an der referenzierten Abfrage vornehmen.
(Optional) Sie können die Option Schnellkopie anfordern für die Abfrage einstellen, indem Sie mit der rechten Maustaste auf die Abfrage klicken, um diese Option auszuwählen und zu aktivieren.
(Optional) Derzeit können Sie nur ein Lakehouse als Ausgabeziel konfigurieren. Für jedes andere Ziel stellen Sie die Abfrage bereit und referenzieren sie später in einer anderen Abfrage, in der Sie die Ausgabe in eine beliebige Quelle vornehmen können.
Prüfen Sie die Schnellkopie-Indikatoren, um festzustellen, ob Ihre Abfrage mit Schnellkopie ausgeführt werden kann. Wenn ja, zeigt der Engine-Typ CopyActivity an.
Veröffentlichen Sie den Dataflow.
Prüfen Sie nach Abschluss der Aktualisierung, ob die Schnellkopie verwendet wurde.
Bekannte Einschränkungen
- Für die Unterstützung von Fast Copy ist ein lokales Datengateway, Version 3000.214.2 oder höher, erforderlich.
- Das VNet-Gateway wird nicht unterstützt.
- Das Schreiben von Daten in eine vorhandene Tabelle in Lakehouse wird nicht unterstützt.
- Festes Schema wird nicht unterstützt.