Kopieren von Daten mit einer Copy-Aktivität

In Data Pipeline können Sie die Copy-Aktivität verwenden, um Daten zwischen lokalen Datenspeichern und Clouddatenspeichern zu kopieren.

Nach dem Kopieren können Sie andere Aktivitäten verwenden, um die Daten weiter zu transformieren und zu analysieren. Sie können die Kopieraktivität auch zum Veröffentlichen von Transformations- und Analyseergebnissen verwenden, um sie für Business Intelligence (BI) und Anwendungen zu nutzen.

Um Daten aus einer Quelle in ein Ziel zu kopieren, führt der Dienst, der die Copy-Aktivität ausführt, die folgenden Schritte aus:

  1. Er liest Daten aus einem Quelldatenspeicher.
  2. Er führt die Serialisierung/Deserialisierung, Komprimierung/Dekomprimierung, Spaltenzuordnung usw. durch. Er führt diese Vorgänge basierend auf der Konfiguration aus.
  3. Er schreibt Daten in den Zieldatenspeicher.

Voraussetzungen

Um zu beginnen, müssen die folgenden Voraussetzungen erfüllt sein:

  • Ein Microsoft Fabric-Mandantenkonto mit einem aktiven Abonnement. Sie können kostenlos ein Konto erstellen.

  • Stellen Sie sicher, dass Sie über einen für Microsoft Fabric aktivierten Arbeitsbereich verfügen.

Hinzufügen einer Copy-Aktivität mit dem Kopier-Assistenten

Führen Sie die folgenden Schritte aus, um Ihre Copy-Aktivität mithilfe des Kopier-Assistenten einzurichten.

Beginnen mit dem Kopier-Assistenten

  1. Öffnen Sie eine vorhandene Datenpipeline, oder erstellen Sie eine neue Datenpipeline.

  2. Wählen Sie Daten kopieren auf dem Canvas aus, um den Kopier-Assistenten für erste Schritte zu öffnen. Alternativ können Sie in der Dropdownliste Daten kopieren auf der Registerkarte Aktivitäten im Menüband die Option Kopier-Assistent verwenden auswählen.

    Screenshot showing options for opening the copy assistant.

Konfigurieren der Quelle

  1. Wählen Sie einen Datenquellentyp aus der Kategorie aus. Sie verwenden Azure Blob Storage im Beispiel. Wählen Sie Azure Blob Storage aus, und klicken Sie dann auf Weiter.

    Screenshot of Choose data source screen.

    Screenshot showing where to select the correct data source.

  2. Stellen Sie eine Verbindung mit Ihrer Datenquelle her, indem Sie Neue Verbindung erstellen auswählen.

    Screenshot showing where to select New connection.

    Nachdem Sie neue Verbindung erstellen ausgewählt haben, geben Sie die erforderlichen Verbindungsinformationen ein, und wählen Sie dann Weiter aus. Ausführliche Informationen zur Verbindungserstellung für jeden Datenquellentyp finden Sie im Artikel zum jeweiligen Connector.

    Wenn Sie über vorhandene Verbindungen verfügen, können Sie Vorhandene Verbindung auswählen und Ihre Verbindung dann in der Dropdownliste auswählen.

    Screenshot showing the existing connection.

  3. Wählen Sie die Datei oder den Ordner aus, die bzw. der in diesem Quellkonfigurationsschritt kopiert werden soll, und wählen Sie dann Weiter aus.

    Screenshot showing where to select the data to be copied.

Konfigurieren des Ziels

  1. Wählen Sie einen Datenquellentyp aus der Kategorie aus. Sie verwenden Azure Blob Storage im Beispiel. Wählen Sie Azure Blob Storage aus, und klicken Sie dann auf Weiter.

    Screenshot showing how to select Azure Blob Storage.

  2. Sie können entweder eine neue Verbindung erstellen, die mit einem neuen Azure Blob Storage-Konto verknüpft ist, indem Sie die Schritte im vorherigen Abschnitt ausführen, oder eine vorhandene Verbindung aus der Verbindungsdropdownliste verwenden. Die Funktionen Verbindung testen und Bearbeiten stehen für jede ausgewählte Verbindung zur Verfügung.

    Screenshot showing data connection options.

  3. Konfigurieren Sie Ihre Quelldaten, und ordnen Sie sie Ihrem Ziel zu. Wählen Sie dann Weiter aus, um ihre Zielkonfigurationen abzuschließen.

    Screenshot of Map to destination screen.

    Screenshot of Connect to data destination.

Überprüfen und Erstellen Ihrer Copy-Aktivität

  1. Überprüfen Sie die Einstellungen Ihrer Copy-Aktivität in den vorherigen Schritten, und wählen Sie OK aus, um den Vorgang abzuschließen. Sie können auch zu den vorherigen Schritten zurückkehren, um Ihre Einstellungen bei Bedarf im Tool zu bearbeiten.

    Screenshot showing the Review and create screen.

Nach Abschluss des Vorgangs wird die Copy-Aktivität Ihrer Datenpipelinecanvas hinzugefügt. Alle Einstellungen, einschließlich erweiterter Einstellungen für diese Copy-Aktivität, sind unter den Registerkarten verfügbar, wenn diese ausgewählt sind.

Screenshot showing a copy activity on the data pipeline canvas.

Jetzt können Sie entweder Ihre Datenpipeline mit dieser einzelnen Copy-Aktivität speichern oder Ihre Datenpipeline weiter entwerfen.

Direktes Hinzufügen einer Copy-Aktivität

Führen Sie die folgenden Schritte aus, um eine Copy-Aktivität direkt hinzuzufügen.

Hinzufügen einer Copy-Aktivität

  1. Öffnen Sie eine vorhandene Datenpipeline, oder erstellen Sie eine neue Datenpipeline.

  2. Fügen Sie eine Copy-Aktivität hinzu, indem Sie entweder Pipelineaktivität hinzufügen>Copy-Aktivität oder Daten kopieren>Zu Canvas hinzufügen unter der Registerkarte Aktivitäten auswählen.

    Screenshot showing two ways to add a copy activity.

Konfigurieren Ihrer allgemeinen Einstellungen auf der Registerkarte „Allgemein“

Informationen zum Konfigurieren Ihrer allgemeinen Einstellungen finden Sie unter Allgemein.

Konfigurieren der Quelle auf der Registerkarte „Quelle“

  1. Wählen Sie neben der Verbindung die Option + Neu aus, um eine Verbindung mit Ihrer Datenquelle zu erstellen.

    Screenshot showing where to select New.

    1. Wählen Sie im Popupfenster den Datenquellentyp aus. Sie verwenden Azure SQL-Datenbank als Beispiel. Wählen Sie Azure SQL-Datenbank und dann Weiter aus.

      Screenshot showing how to select the data source.

    2. Die Navigation erfolgt zur Verbindungserstellungsseite. Geben Sie die erforderlichen Verbindungsinformationen in den Bereich ein, und wählen Sie dann Erstellen aus. Ausführliche Informationen zur Verbindungserstellung für jeden Datenquellentyp finden Sie im Artikel zum jeweiligen Connector.

      Screenshot showing New connection page.

    3. Sobald die Verbindung erfolgreich erstellt wurde, gelangen Sie zurück zur Datenpipelineseite. Wählen Sie dann Aktualisieren aus, um die Verbindung abzurufen, die Sie aus der Dropdownliste erstellt haben. Sie können auch eine vorhandene Verbindung von Azure SQL-Datenbank direkt aus der Dropdownliste auswählen, wenn Sie diese bereits erstellt haben. Die Funktionen Verbindung testen und Bearbeiten stehen für jede ausgewählte Verbindung zur Verfügung. Wählen Sie dann unter Verbindungstyp die Option Azure SQL-Datenbank aus.

      Screenshot showing where to refresh your connection.

  2. Geben Sie eine zu kopierende Tabelle an. Wählen Sie Vorschau der Daten aus, um eine Vorschau Ihrer Quelltabelle anzuzeigen. Sie können auch Abfrage und Gespeicherte Prozedur verwenden, um Daten aus Ihrer Quelle zu lesen.

    Screenshot showing source table settings options.

  3. Erweitern Sie Erweitert, um erweiterte Einstellungen anzuzeigen.

    Screenshot of advanced settings.

Konfigurieren Ihres Ziels auf der Registerkarte „Ziel“

  1. Wählen Sie Ihren Zieltyp aus. Es kann sich entweder um Ihren internen erstklassigen Datenspeicher aus Ihrem Arbeitsbereich (z. B. Lakehouse) oder um Ihre externen Datenspeicher handeln. Sie verwenden Lakehouse als Beispiel.

    Screenshot showing where to select destination type.

  2. Wählen Sie Lakehouse als Datenspeichertyp des Arbeitsbereichs aus. Wählen Sie + Neu aus, und navigieren Sie zur Erstellungsseite von Lakehouse. Geben Sie Ihren Lakehouse-Namen an, und wählen Sie dann Erstellen aus.

    Screenshot showing Lakehouse creation.

  3. Sobald die Verbindung erfolgreich erstellt wurde, gelangen Sie zurück zur Datenpipelineseite. Wählen Sie dann Aktualisieren aus, um die Verbindung abzurufen, die Sie aus der Dropdownliste erstellt haben. Sie können auch eine vorhandene Lakehouse-Verbindung direkt aus der Dropdownliste auswählen, wenn Sie diese bereits erstellt haben.

    Screenshot showing selecting connection.

  4. Geben Sie eine Tabelle an, oder richten Sie den Dateipfad ein, um die Datei oder den Ordner als Ziel zu definieren. Wählen Sie hier Tabellen aus, und geben Sie eine Tabelle zum Schreiben von Daten an.

    Screenshot showing where to find Table settings.

  5. Erweitern Sie Erweitert, um erweiterte Einstellungen anzuzeigen.

    Screenshot of Advanced options.

Jetzt können Sie entweder Ihre Datenpipeline mit dieser einzelnen Copy-Aktivität speichern oder Ihre Datenpipeline weiter entwerfen.

Konfigurieren der Zuordnungen auf der Registerkarte „Zuordnung“

Wenn der von Ihnen angewendete Connector Zuordnung unterstützt, können Sie zur Registerkarte Zuordnung wechseln, um Ihre Zuordnung zu konfigurieren.

  1. Wählen Sie Schemas importieren aus, um Ihr Datenschema zu importieren.

    Screenshot of mapping settings 1.

  2. Sie können erkennen, dass die automatische Zuordnung angezeigt wird. Geben Sie die Quell- und die Zielspalte an. Wenn Sie eine neue Tabelle im Ziel erstellen, können Sie den Namen der Zielspalte hier anpassen. Wenn Sie Daten in die vorhandene Zieltabelle schreiben möchten, können Sie den Namen der vorhandenen Zielspalte nicht ändern. Sie können auch den Typ der Quell- und Zielspalten anzeigen.

    Screenshot of mapping settings 2.

Außerdem können Sie + Neue Zuordnung auswählen, um eine neue Zuordnung hinzuzufügen, Löschen, um alle Zuordnungseinstellungen zu löschen, und Zurücksetzen, um alle Quellspalten der Zuordnung zurückzusetzen.

Konfigurieren der Typkonvertierung

Erweitern Sie Einstellungen für die Typkonvertierung, um die Typkonvertierung bei Bedarf zu konfigurieren.

Screenshot of mapping type conversion.

Details der Einstellung finden Sie in der folgenden Tabelle.

Einstellung Beschreibung
Abschneiden von Daten zulassen Zulassen des Abschneidens von Daten beim Konvertieren von Quelldaten in ein Ziel mit unterschiedlichem Typ während des Kopiervorgangs. Beispiel: von Dezimal in Integer, von DatetimeOffset in Datetime.
Booleschen Wert als Zahl behandeln Behandelt einen booleschen Wert als Zahl. Beispiel: Behandeln von TRUE als 1.
DateTime-Format Formatzeichenfolge beim Konvertieren von Datumsangaben ohne Zeitzonenoffset und Zeichenfolgen. Beispiel: „jjjj-MM-tt HH:mm:ss.fff“.
DateTimeOffset-Format Formatzeichenfolge beim Konvertieren von Datumsangaben mit Zeitzonenoffset und Zeichenfolgen. Beispiel: „jjjj-MM-tt HH:mm:ss.fff zzz“.
TimeSpan-Format Formatzeichenfolge beim Konvertieren von Zeiträumen und Zeichenfolgen. Beispiel: „tt.hh:mm:ss“.
Kultur Kulturinformationen, die beim Konvertieren von Datentypen verwendet werden sollen. Beispiel: „en-us“, „fr-fr“.

Konfigurieren der anderen Einstellungen auf der Registerkarte „Einstellungen“

Die Registerkarte Einstellungen enthält die Einstellungen für Leistung, Staging usw.

Screenshot of Settings tab.

In der folgenden Tabelle werden die einzelnen Einstellungen beschrieben.

Einstellung Beschreibung
Intelligente Durchsatzoptimierung Geben Sie Folgendes an, um den Durchsatz zu optimieren. Es gibt folgende Auswahlmöglichkeiten:
Automatisch
Standard
Ausgeglichen
Maximal
Wenn Sie Automatisch auswählen, wird die optimale Einstellung basierend auf Ihrem Quell-Ziel-Paar und Datenmuster dynamisch angewendet. Sie können auch Ihren Durchsatz anpassen, und der benutzerdefinierte Wert kann zwischen 2 und 256 liegen, wobei ein höherer Wert größere Gewinne mit sich bringt.
Parallelitätsgrad für Kopiervorgänge Geben Sie den Parallelitätsgrad an, der beim Laden von Daten verwendet werden soll.
Fehlertoleranz Wenn Sie diese Option auswählen, können Sie einige Fehler ignorieren, die während des Kopiervorgangs auftreten. Beispiel: Inkompatible Zeilen zwischen Quell- und Zielspeicher, Datei, die während der Datenverschiebung gelöscht wird usw.
Aktivieren der Protokollierung Bei Auswahl dieser Option können Sie kopierte Dateien, übersprungene Dateien und Zeilen protokollieren.
Staging aktivieren Geben Sie an, ob Daten über einen Stagingzwischenspeicher kopiert werden sollen. Aktivieren Sie Staging nur für die vorteilhaften Szenarien.
Stagingkontoverbindung Wenn Sie Staging aktivieren auswählen, geben Sie die Verbindung einer Azure Storage-Datenquelle als Stagingzwischenspeicher an. Wählen Sie + Neu aus, um eine Stagingverbindung zu erstellen, wenn Sie noch nicht über eine solche verfügen.

Konfigurieren von Parametern in einer Kopieraktivität

Parameter können verwendet werden, um das Verhalten einer Pipeline und deren Aktivitäten zu steuern. Sie können Dynamischen Inhalt hinzufügen verwenden, um Parameter für Ihre Kopieraktivitätseigenschaften anzugeben. Nehmen wir die Angabe von Lakehouse/Data Warehouse/KQL-Datenbank als Beispiel für die Verwendung.

  1. Wählen Sie in Ihrer Quelle oder Ihrem Ziel nach Auswahl von Arbeitsbereich als Datenspeichertyp und Angabe von Lakehouse/Data Warehouse/KQL-Datenbank als Arbeitsbereichsdatenspeichertyp den Eintrag Dynamischen Inhalt hinzufügen in der Dropdownliste für Lakehouse oder Data Warehouse oder KQL-Datenbank aus.

  2. Klicken Sie im Popup-Bereich Dynamischen Inhalt hinzufügen auf der Registerkarte Parameter auf +.

    Screenshot showing the Add dynamic content page.

  3. Geben Sie den Namen für den Parameter an, und geben Sie bei Bedarf einen Standardwert an. Sie können den Wert für den Parameter aber auch angeben, nachdem Sie Ausführen in der Pipeline ausgewählt haben.

    Screenshot shows creating a new parameter.

    Beachten Sie, dass der Parameterwert die Objekt-ID für Lakehouse/Data Warehouse/KQL-Datenbank sein sollte. Um die Objekt-ID für Lakehouse/Data Warehouse/KQL-Datenbank abzurufen, öffnen Sie Ihr(e) Lakehouse/Data Warehouse/KQL-Datenbank in Ihrem Arbeitsbereich. Die ID wird nach /lakehouses/ oder /datawarehouses/ oder /databases/ in Ihrer URL angezeigt.

    • Lakehouse-Objekt-ID:

      Screenshot showing the Lakehouse object ID.

    • Data Warehouse-Objekt-ID:

      Screenshot showing the Data Warehouse object ID.

    • KQL-Datenbank-Objekt-ID:

      Screenshot showing the KQL Database object ID.

  4. Wählen Sie Speichern aus, um zum Bereich Dynamischen Inhalt hinzufügen zurückzukehren. Wählen Sie dann Ihren Parameter aus, damit er im Ausdrucksfeld angezeigt wird. Klicken Sie anschließend auf OK. Sie kehren zur Pipelineseite zurück und können sehen, dass der Parameterausdruck nach Lakehouse-Objekt-ID/Data Warehouse-Objekt-ID/KQL-Datenbank-Objekt-ID angegeben wird.

    Screenshot showing selecting parameter.