Freigeben über


Schnelle Kopie in Dataflow Gen2

In diesem Artikel wird das Feature für schnelles Kopieren in Dataflow Gen2 für Data Factory in Microsoft Fabric beschrieben. Dataflows helfen beim Einlesen und Umwandeln von Daten. Mit der Einführung von Dataflow Scale Out mit SQL DW Compute können Sie Ihre Daten in großem Umfang umwandeln. Ihre Daten müssen jedoch zuerst eingelesen werden. Mit der Einführung von Fast Copy können Sie Terabytes von Daten mit der einfachen Erfahrung von Datenflüssen aufnehmen, aber mit dem skalierbaren Back-End der Pipeline Copy-Aktivität.

Nachdem Sie diese Funktion aktiviert haben, wechseln Datenflüsse automatisch zum Back-End, wenn die Datengröße einen bestimmten Schwellenwert überschreitet, ohne während der Erstellung der Datenflüsse etwas ändern zu müssen. Nach der Aktualisierung eines Datenflusses können Sie in der Aktualisierungshistorie überprüfen, ob während des Laufs eine Schnellkopie verwendet wurde, indem Sie sich den dort angezeigten Enginetyp ansehen.

Wenn die Option " Schnelle Kopie erforderlich" aktiviert ist, wird die Datenflussaktualisierung abgebrochen, wenn aus irgendeinem Grund keine schnelle Kopie verwendet werden kann. Diese Stornierung hilft Ihnen dabei, zu vermeiden, auf ein Aktualisierungs-Timeout zu warten, um fortzufahren. Dieses Verhalten kann auch bei einer Debugsitzung hilfreich sein, um das Dataflow-Verhalten mit Ihren Daten zu testen, während die Wartezeit reduziert wird. Mithilfe der Schnellkopieanzeigen im Abfrageschrittbereich können Sie ganz einfach überprüfen, ob Ihre Abfrage mit schneller Kopie ausgeführt werden kann.

Screenshot, der zeigt, wo der Schnellkopieindikator im Abfrageschrittbereich angezeigt wird.

Voraussetzungen

  • Sie müssen über eine Fabric-Kapazität verfügen.
  • Bei Dateidaten liegen Dateien im CSV- oder Parquet-Format mit mindestens 100 MB vor und werden in einem Azure Data Lake Storage (ADLS) Gen2 oder einem Blob-Speicherkonto gespeichert.
  • Für eine Datenbank, die Azure SQL DB und PostgreSQL umfasst, sind in der Datenquelle 5 Millionen oder mehr Zeilen von Daten.

Hinweis

Sie können den Schwellenwert umgehen, um schnelle Kopie zu erzwingen, indem Sie die Einstellung "Schnelle Kopie anfordern" auswählen.

Connector-Unterstützung

Schnelle Kopie wird derzeit für die folgenden Dataflow Gen2-Konnektoren unterstützt:

  • ADLS Gen2
  • Blob Storage
  • Azure SQL-Datenbank
  • Lakehouse
  • PostgreSQL
  • Lokale SQL Server-Instanz
  • Lagerhaus
  • Oracle
  • Schneeflocke

Die Kopieraktivität unterstützt nur einige Transformationen beim Herstellen einer Verbindung mit einer Dateiquelle:

  • Dateien kombinieren
  • Spalten auswählen
  • Datentypen ändern
  • Umbenennen einer Spalte
  • Entfernen einer Spalte

Sie können weiterhin andere Transformationen anwenden, indem Sie die Schritte der Aufnahme und Transformation in separate Abfragen aufteilen. Die erste Abfrage ruft die Daten tatsächlich ab und die zweite Abfrage verweist auf ihre Ergebnisse, so dass DW compute verwendet werden kann. Bei SQL-Quellen wird jede Transformation unterstützt, die Teil der nativen Abfrage ist.

Derzeit unterstützt das Schnellkopieren nur das direkte Laden an ein Lakehouse-Ziel. Wenn Sie ein anderes Ausgabeziel verwenden möchten, können Sie die Abfrage zuerst stufen und in einer späteren Abfrage mit einem anderen Ziel darauf verweisen.

So verwenden Sie die Schnellkopie

  1. Navigieren Sie in Fabric zu einem Premium-Arbeitsbereich, und erstellen Sie einen Dataflow Gen2.

  2. Wählen Sie auf der Registerkarte Start des neuen Datenflusses Optionen:

    Screenshot, der zeigt, wo die Optionen für Dataflow Gen2 auf der Registerkarte

  3. Wählen Sie dann im Dialogfeld Optionen die Registerkarte Skalieren aus, und aktivieren Sie das Kontrollkästchen Verwendung von Schnellkopie-Verbindungen zulassen, um das Schnellkopieren zu aktivieren. Schließen Sie dann das Dialogfeld "Optionen ".

    Der Screenshot zeigt, wo die Schnellkopie auf der Registerkarte „Skalieren“ des Dialogs „Optionen“ aktiviert werden kann.

  4. Wählen Sie "Daten abrufen", wählen Sie die ADLS Gen2-Quelle aus, und geben Sie die Details für Ihren Container ein.

  5. Wählen Sie die Schaltfläche "Kombinieren" aus .

    Der Screenshot zeigt das Datenfenster des Vorschauordners mit der hervorgehobenen Option „Kombinieren“.

  6. Um ein schnelles Kopieren zu gewährleisten, sollten Sie nur die Transformationen anwenden, die im Abschnitt über die Unterstützung von Connectors in diesem Artikel aufgeführt sind. Wenn Sie weitere Transformationen anwenden müssen, stellen Sie zuerst die Daten bereit, und verweisen Sie in einer späteren Abfrage auf die mehrstufige Datenabfrage. Andere Transformationen an der referenzierten Abfrage vornehmen.

  7. (Optional) Sie können die Option "Schnelle Kopie erforderlich" für die Abfrage festlegen, indem Sie mit der rechten Maustaste auf die Abfrage klicken und dann die Option "Schnelle Kopie anfordern" auswählen.

    Screenshot zeigt, wo die Option Schnellkopie anfordern im Rechtsklickmenü für eine Abfrage ausgewählt werden kann.

  8. (Optional) Derzeit können Sie nur ein Lakehouse als Ausgabeziel konfigurieren. Für jedes andere Ziel stellen Sie die Abfrage bereit und verweisen Sie später in einer anderen Abfrage darauf, in der Sie die Ausgabe in eine beliebige Quelle vornehmen können.

  9. Überprüfen Sie die Schnellkopie-Indikatoren, um sicherzustellen, dass Ihre Abfrage mit Schnellkopie ausgeführt werden kann. Wenn ja, zeigt der Engine-Typ CopyActivity an.

    Screenshot: Aktualisierungsdetails, die anzeigen, dass die Pipeline CopyActivity Engine verwendet wurde

  10. Veröffentlichen Sie den Dataflow.

  11. Überprüfen Sie nach Abschluss der Aktualisierung, um zu bestätigen, dass das Schnellkopierverfahren verwendet wurde.

So unterteilen Sie Ihre Anfrage, um den schnellen Kopiervorgang zu nutzen

Um eine optimale Leistung bei der Verarbeitung großer Datenmengen mit Dataflow Gen2 zu erzielen, verwenden Sie das Feature für schnelles Kopieren, um Daten zuerst in das Staging einzulesen, und transformieren Sie sie dann in großem Umfang mit SQL DW-Compute. Dieser Ansatz verbessert die End-to-End-Leistung erheblich.

Um dies zu implementieren, können Sie mithilfe von Schnellkopie-Indikatoren die Abfrage in zwei Teile aufteilen: die Datenerfassung für das Staging und die groß angelegte Transformation mit SQL DW-Compute. Es wird empfohlen, die Auswertung einer Abfrage soweit wie möglich an das Schnellkopieren zu übergeben, das zur Erfassung Ihrer Daten verwendet werden kann. Wenn Indikatoren für schnelles Kopieren zeigen, dass die restlichen Schritte nicht durch schnelles Kopieren ausgeführt werden können, können Sie die verbleibende Abfrage mit aktiviertem Staging aufteilen.

Schrittdiagnoseindikatoren

Indikator Symbol Beschreibung
Dieser Schritt wird mit Schnellkopie bewertet werden Der Indikator für schnelle Kopie teilt Ihnen mit, dass die Abfrage bis zu diesem Schritt schnelle Kopie unterstützt.
Dieser Schritt wird nicht durch Fast Copy unterstützt. Die Schnellkopieanzeige zeigt, dass dieser Schritt keine schnelle Kopie unterstützt.
Mindestens ein Schritt in Ihrer Abfrage wird vom schnellen Abfragen nicht unterstützt Der Indikator für schnelle Kopie zeigt, dass einige Schritte in dieser Abfrage schnelle Kopie unterstützen, während andere nicht. Um die Abfrage zu optimieren, teilen Sie die Abfrage auf in: gelbe Schritte (möglicherweise durch eine schnelle Kopierfunktion unterstützt) und rote Schritte (nicht unterstützt).

Schrittweise Anleitung

Nachdem Sie die Datentransformationslogik in Dataflow Gen2 abgeschlossen haben, wertet der Indikator für schnelle Kopien jeden Schritt aus, um zu bestimmen, wie viele Schritte schnelle Kopie für eine bessere Leistung verwenden können.

Im folgenden Beispiel wird im letzten Schritt ein rotes Symbol angezeigt, das darauf hinweist, dass der Schritt "Gruppieren nach" von der schnellen Kopierfunktion nicht unterstützt wird. Alle vorherigen Schritte mit dem gelben Symbol können jedoch potenziell durch schnelles Kopieren unterstützt werden.

Screenshot mit dem Inhalt der ersten Abfrage, bei dem der letzte Schritt rot markiert ist.

Wenn Sie Ihre Dataflow Gen2 an dieser Stelle direkt veröffentlichen und ausführen, wird die Schnellkopie-Engine nicht zum Laden Ihrer Daten genutzt.

Screenshot, der das Ergebnis der Abfrage ohne aktivierte Schnellkopierfunktion anzeigt.

Um das Schnellkopiemodul weiterhin zu verwenden und die Leistung Ihrer Dataflow Gen2 zu verbessern, können Sie Ihre Abfrage in zwei Teile aufteilen: Datenaufnahme zum Staging und zur großen Transformation mit SQL DW Compute. Die folgenden Schritte beschreiben diesen Prozess:

  1. Löschen Sie alle Transformationen, die rot angezeigt werden, und geben Sie an, dass sie nicht durch schnelle Kopie unterstützt werden, zusammen mit dem Ziel (sofern definiert).

    Screenshot der ersten Abfrage, in der Sie alle Schritte gelöscht haben, die keine schnelle Kopie unterstützen.

  2. Der Indikator für schnelle Kopie zeigt jetzt grün für die verbleibenden Schritte an, was bedeutet, dass Ihre erste Abfrage schnelle Kopie verwenden kann, um eine bessere Leistung zu erzielen.

    Klicken Sie mit der rechten Maustaste auf Ihre erste Abfrage, wählen Sie "Staging aktivieren", klicken Sie erneut mit der rechten Maustaste auf Die erste Abfrage, und wählen Sie "Verweis" aus.

    Screenshot: Die Auswahl, die erforderlich ist, um mit einer zweiten Abfrage auf Ihre Abfrage für Schnellkopieren zu verweisen.

  3. Fügen Sie in einer neuen Abfrage, auf die verwiesen wird, die Transformation „Gruppieren nach“ und das Ziel (falls zutreffend) hinzu.

  4. Veröffentlichen und aktualisieren Sie Ihren Dataflow Gen2. Es gibt jetzt zwei Abfragen in Ihrer Dataflow Gen2, und die Gesamtdauer wird weitgehend reduziert.

    • Die erste Abfrage erfasst Daten mithilfe von Schnellkopie in Staging.

    • Die zweite Abfrage führt große Transformationen mithilfe der SQL DW-Berechnung aus.

      Screenshot der Details des Ausführungszustands mit den Ergebnissen der Abfrage.

    Die ersten Abfragedetails:

    Screenshot mit den Ergebnissen der Dateninjektion.

    Details zur zweiten Abfrage:

    Screenshot der Ergebnisse der Transformationsschritte.

Bekannte Einschränkungen

Die folgende Liste enthält die bekannten Einschränkungen für schnelle Kopie:

  • Für die Unterstützung von Fast Copy ist ein lokales Datengateway, Version 3000.214.2 oder höher, erforderlich.
  • Festes Schema wird nicht unterstützt.