Konfigurieren von Lakehouse in einer Kopieraktivität

In diesem Artikel erfahren Sie, wie Sie die Kopieraktivität in einer Datenpipeline verwenden, um Daten aus und in das Fabric Lakehouse zu kopieren. Standardmäßig werden Daten in der Lakehouse-Tabelle in V-Reihenfolge geschrieben, und Sie können zu Delta Lake-Tabellenoptimierung und V-Reihenfolge wechseln, um weitere Informationen zu erhalten.

Unterstütztes Format:

Lakehouse unterstützt die folgenden Dateiformate: Informationen zu formatbasierten Einstellungen finden Sie in den jeweiligen Artikeln.

Unterstützte Konfiguration

Die Konfiguration der einzelnen Registerkarten unter der Kopieraktivität finden Sie in den folgenden Abschnitten.

Allgemein

Wechseln Sie für die Konfiguration der Registerkarte Allgemein zu Allgemein.

`Source`

Die folgenden Eigenschaften werden für Lakehouse auf der Registerkarte Quelle einer Kopieraktivität unterstützt.

Screenshot: Registerkarte „Quelle“ und die Liste der Eigenschaften

Die folgenden Eigenschaften sind erforderlich:

  • Datenspeichertyp: Wählen Sie Arbeitsbereich aus.

  • Datenspeichertyp des Arbeitsbereichs: Wählen Sie in der Liste der Datenspeichertypen Lakehouse aus.

  • Lakehouse: Wählen Sie ein bestehendes Lakehouse aus dem Arbeitsbereich aus. Wenn keines vorhanden ist, erstellen Sie ein neues Lakehouse, indem Sie Neu auswählen. Wenn Sie die Option Dynamischen Inhalt hinzufügen verwenden, um Ihr Lakehouse anzugeben, fügen Sie einen Parameter hinzu, und geben Sie die Lakehouse-Objekt-ID als Parameterwert an. Um Ihre Lakehouse-Objekt-ID abzurufen, öffnen Sie Ihr Lakehouse in Ihrem Arbeitsbereich. Die ID befindet sich hinter /lakehouses/ Ihrer URL.

    Screenshot: Lakehouse-Objekt-ID

  • Stammordner: Wählen Sie Tabellen oder Dateien aus, was die virtuelle Ansicht des verwalteten oder nicht verwalteten Bereichs in Ihrem Lake angibt. Weitere Informationen finden Sie unter Einführung in Lakehouse.

    • Wenn Sie Tabellen auswählen:
      • Tabellenname: Wählen Sie eine vorhandene Tabelle aus der Tabellenliste aus, oder geben Sie einen Tabellennamen als Quelle an.
      • Unter Erweitert können Sie die folgenden Felder angeben:
        • Zeitstempel: Geben Sie an, dass eine ältere Momentaufnahme nach Zeitstempel abgefragt werden soll.
        • Version: Geben Sie an, dass eine ältere Momentaufnahme nach Version abgefragt werden soll.
        • Zusätzliche Spalten: Fügen Sie zusätzliche Datenspalten hinzu, um den relativen Pfad oder statischen Wert der Quelldateien zu speichern. Für Letzteres wird ein Ausdruck unterstützt.
    • Wenn Sie Dateien auswählen:
      • Dateipfadtyp: Sie können Dateipfad, Platzhalterdateipfad oder Liste der Dateien als Dateipfadtyp auswählen. In der folgenden Liste wird die Konfiguration der einzelnen Einstellungen beschrieben:

        Screenshot: Dateipfad

        • Dateipfad: Wählen Sie Durchsuchen aus, um die Datei auszuwählen, die Sie kopieren möchten, oder geben Sie den Pfad manuell ein.

        • Platzhalterdateipfad: Geben Sie den Ordner- oder Dateipfad mit Platzhalterzeichen unter dem von Ihnen angegebenen nicht verwalteten Bereich von Lakehouse (unter „Dateien“) an, um Ihre Quellordner oder -dateien zu filtern. Folgende Platzhalter sind zulässig: * (entspricht null [0] oder mehr Zeichen) und ? (entspricht null [0] oder einem einzelnen Zeichen). Verwenden Sie ^ als Escapezeichen, wenn Ihr Ordner- oder Dateiname einen Platzhalter oder dieses Escapezeichen enthält.

          • Platzhalterordnerpfad: Der Pfad zu dem Ordner unter dem angegebenen Container. Wenn Sie einen Platzhalter verwenden möchten, um den Ordner zu filtern, überspringen Sie diese Einstellung, und geben Sie diese Informationen in den entsprechenden Aktivitätsquelleneinstellungen an.

          • Platzhalterdateiname: Der Dateiname unter dem angegebenen nicht verwalteten Bereich von Lakehouse (unter „Dateien“) und dem Ordnerpfad.

            Screenshot: Platzhalterdateipfad

        • Liste der Dateien: Gibt an, dass ein bestimmter Dateisatz kopiert werden soll.

          • Ordnerpfad: Zeigt auf einen Ordner, der Dateien enthält, die Sie kopieren möchten.
          • Pfad zu Dateiliste: Zeigt auf eine Textdatei, die eine Liste der Dateien enthält, die Sie kopieren möchten, und zwar eine Datei pro Zeile, die den relativen Pfad zum konfigurierten Dateipfad darstellt.

          Screenshot: Pfad zu Dateiliste

      • Rekursiv: Gibt an, ob die Daten rekursiv aus den Unterordnern oder nur aus dem angegebenen Ordner gelesen werden. Wenn diese Option aktiviert ist, werden alle Dateien im Eingabeordner und seinen Unterordnern rekursiv verarbeitet. Diese Eigenschaft gilt nicht, wenn Sie Ihren Dateipfadtyp als Liste der Dateien konfigurieren.

      • Dateiformat: Wählen Sie Ihr Dateiformat aus der Dropdownliste aus. Wählen Sie die Schaltfläche Einstellungen aus, um das Dateiformat zu konfigurieren. Detaillierte Informationen zu den Einstellungen der verschiedenen Dateiformate finden Sie in den Artikeln unter Unterstützte Formate.

      • Unter Erweitert können Sie die folgenden Felder angeben:

        • Nach der letzten Änderung filtern: Dateien werden nach dem Datum der letzten Änderung gefiltert. Diese Eigenschaft gilt nicht, wenn Sie Ihren Dateipfadtyp als Liste der Dateien konfigurieren.
          • Startzeit: Die Dateien werden ausgewählt, wenn der Zeitpunkt ihrer letzten Änderung größer oder gleich der konfigurierten Zeit ist.
          • Endzeit: Die Dateien werden ausgewählt, wenn der Zeitpunkt ihrer letzten Änderung kleiner als die konfigurierte Zeit ist.
        • Partitionsermittlung aktivieren: Geben Sie für partitionierte Dateien an, ob die Partitionen aus dem Dateipfad analysiert und als zusätzliche Quellspalten hinzugefügt werden sollen.
          • Stammverzeichnis der Partition: Wenn die Partitionsermittlung aktiviert ist, geben Sie den absoluten Stammverzeichnispfad an, um partitionierte Ordner als Datenspalten zu lesen.
        • Maximale Anzahl gleichzeitiger Verbindungen: Gibt die Obergrenze der gleichzeitigen Verbindungen zum Datenspeicher an, die während des Ausführens der Aktivität hergestellt werden. Geben Sie diesen Wert nur an, wenn Sie die Anzahl der gleichzeitigen Verbindungen begrenzen möchten.

Destination

Die folgenden Eigenschaften werden für Lakehouse auf der Registerkarte Ziel einer Kopieraktivität unterstützt.

Screenshot: Registerkarte „Ziel“

Die folgenden Eigenschaften sind erforderlich:

  • Datenspeichertyp: Wählen Sie Arbeitsbereich aus.

  • Datenspeichertyp des Arbeitsbereichs: Wählen Sie in der Liste der Datenspeichertypen Lakehouse aus.

  • Lakehouse: Wählen Sie ein bestehendes Lakehouse aus dem Arbeitsbereich aus. Wenn keines vorhanden ist, erstellen Sie ein neues Lakehouse, indem Sie Neu auswählen. Wenn Sie die Option Dynamischen Inhalt hinzufügen verwenden, um Ihr Lakehouse anzugeben, fügen Sie einen Parameter hinzu, und geben Sie die Lakehouse-Objekt-ID als Parameterwert an. Um Ihre Lakehouse-Objekt-ID abzurufen, öffnen Sie Ihr Lakehouse in Ihrem Arbeitsbereich. Die ID befindet sich hinter /lakehouses/ Ihrer URL.

    Screenshot: Lakehouse-Objekt-ID

  • Stammordner: Wählen Sie Tabellen oder Dateien aus, was die virtuelle Ansicht des verwalteten oder nicht verwalteten Bereichs in Ihrem Lake angibt. Weitere Informationen finden Sie unter Einführung in Lakehouse.

    • Wenn Sie Tabellen auswählen:

      • Tabellenname: Wählen Sie eine vorhandene Tabelle aus der Tabellenliste aus, oder geben Sie einen Tabellennamen als Ziel an.

        Screenshot: Tabellennamen

      • Unter Erweitert können Sie die folgenden Felder angeben:

        • Maximale Anzahl Zeilen pro Datei: Geben Sie die maximale Anzahl von Zeilen pro Datei an, wenn Sie Daten in Lakehouse schreiben.
        • Tabellenaktionen: Geben Sie den Vorgang für die ausgewählte Tabelle an.
          • Anfügen: Fügen Sie neue Werte an die bestehende Tabelle an.
            • Partition aktivieren: Mit dieser Auswahl können Sie Partitionen in einer Ordnerstruktur basierend auf einer oder mehreren Spalten erstellen. Jeder eindeutige Spaltenwert (Paar) ist eine neue Partition. Beispiel: „year=2000/month=01/file“.
              • Partitionierungsspaltenname: Wählen Sie diesen aus den Zielspalten in der Schemazuordnung aus, wenn Sie Daten an eine neue Tabelle anhängen. Wenn Sie Daten an eine bestehende Tabelle anhängen, die bereits Partitionen hat, werden die Partitionierungsspalten automatisch von der bestehenden Tabelle abgeleitet. Unterstützte Datentypen sind String, Integer, Boolean und DateTime. Das Format respektiert die Einstellungen für die Typkonvertierung unter der Registerkarte Zuordnung.
          • Überschreiben: Überschreiben Sie die vorhandenen Daten und das Schema in der Tabelle mithilfe der neuen Werte. Wenn dieser Vorgang ausgewählt ist, können Sie die Partition für Ihre Zieltabelle aktivieren:
            • Partition aktivieren: Mit dieser Auswahl können Sie Partitionen in einer Ordnerstruktur basierend auf einer oder mehreren Spalten erstellen. Jeder eindeutige Spaltenwert (Paar) ist eine neue Partition. Beispiel: „year=2000/month=01/file“.
              • Spaltenname der Partition: Wählen Sie aus den Zielspalten in der Schemazuordnung aus. Unterstützte Datentypen sind String, Integer, Boolean und DateTime. Das Format respektiert die Einstellungen für die Typkonvertierung unter der Registerkarte Zuordnung.
        • Maximale Anzahl gleichzeitiger Verbindungen: Die Obergrenze der gleichzeitigen Verbindungen zum Datenspeicher, die während des Ausführens der Aktivität hergestellt werden. Geben Sie diesen Wert nur an, wenn Sie die Anzahl der gleichzeitigen Verbindungen begrenzen möchten.
    • Wenn Sie Dateien auswählen:

      • Dateipfad: Wählen Sie Durchsuchen aus, um die Datei auszuwählen, die Sie kopieren möchten, oder geben Sie den Pfad manuell ein.

        Screenshot: Dateipfad im Ziel

      • Dateiformat: Wählen Sie Ihr Dateiformat aus der Dropdownliste aus. Wählen Sie Einstellungen aus, um das Dateiformat zu konfigurieren. Detaillierte Informationen zu den Einstellungen der verschiedenen Dateiformate finden Sie in den Artikeln unter Unterstützte Formate.

      • Unter Erweitert können Sie die folgenden Felder angeben:

        • Kopierverhalten: Definiert das Kopierverhalten, wenn es sich bei der Quelle um Dateien aus einem dateibasierten Datenspeicher handelt. Sie können Dynamischen Inhalt hinzufügen, Keine, Hierarchie vereinfachen oder Hierarchie beibehalten als Kopierverhalten auswählen. Die Konfiguration der einzelnen Einstellungen ist:

          • Dynamischen Inhalt hinzufügen: Um einen Ausdruck für einen Eigenschaftswert anzugeben, wählen Sie Dynamischen Inhalt hinzufügen aus. Dieses Feld öffnet den Ausdrucks-Generator, in dem Sie Ausdrücke aus unterstützten Systemvariablen, Aktivitätsausgaben, Funktionen und benutzerdefinierten Variablen oder Parametern erstellen können. Weitere Informationen zur Ausdruckssprache finden Sie unter Ausdrücke und Funktionen.

          • Keine: Wählen Sie diese Option aus, um kein Kopierverhalten zu verwenden.

          • Hierarchie vereinfachen: Alle Dateien aus dem Quellordner befinden sich auf der ersten Ebene des Zielordners. Die Zieldateien haben automatisch generierte Namen.

          • Hierarchie beibehalten: Behält die Dateihierarchie im Zielordner bei. Der relative Pfad einer Quelldatei zum Quellordner ist mit dem relativen Pfad einer Zieldatei zum Zielordner identisch.

            Screenshot: Kopierverhalten

        • Maximale Anzahl gleichzeitiger Verbindungen: Die Obergrenze der gleichzeitigen Verbindungen zum Datenspeicher, die während des Ausführens der Aktivität hergestellt werden. Geben Sie diesen Wert nur an, wenn Sie die Anzahl der gleichzeitigen Verbindungen begrenzen möchten.

        • Blockgröße (MB): Geben Sie die Blockgröße in MB an, wenn Sie Daten für Lakehouse schreiben. Der zulässige Wert liegt zwischen 4 und 100 MB.

        • Metadaten: Legen Sie benutzerdefinierte Metadaten beim Kopieren in den Zieldatenspeicher fest. Jedes Objekt unter dem Array metadata stellt eine zusätzliche Spalte dar. name definiert den Namen des Metadatenschlüssels, und value gibt den Datenwert dieses Schlüssels an. Wenn das Feature zum Beibehalten von Attributen verwendet wird, werden die angegebenen Metadaten mit den Metadaten der Quelldatei vereint/überschrieben. Die zulässigen Datenwerte sind:

          • $$LASTMODIFIED: Eine reservierte Variable gibt an, dass der Zeitpunkt der letzten Änderung der Quelldateien gespeichert werden soll. Nur auf eine dateibasierte Quelle im Binärformat anwenden.

          • Ausdruck

          • Statischer Wert

            Screenshot: Metadaten

Zuordnung

Wenn Sie für die Konfiguration der Registerkarte Zuordnung keine Lakehouse-Tabelle als Zieldatenspeicher verwenden, wechseln Sie zu Zuordnung.

Wenn Sie eine Lakehouse-Tabelle als Zieldatenspeicher verwenden, können Sie mit Ausnahme der Konfiguration in Zuordnung den Typ für Ihre Zielspalten bearbeiten. Nach dem Auswählen von Importschemas können Sie den Spaltentyp in Ihrem Ziel angeben.

Der Typ für die Spalte PersonID in der Quelle ist z. B. „int“, und Sie können ihn beim Zuordnen zur Zielspalte in den Typ „string“ ändern.

Screenshot des Zielspalten-Zuordnungstyps.

Hinweis

Das Bearbeiten des Zieltyps wird derzeit nicht unterstützt, wenn die Quelle vom Typ „decimal“ ist.

Wenn Sie „Binär“ als Dateiformat auswählen, wird die Zuordnung nicht unterstützt.

Einstellungen

Wechseln Sie für die Konfiguration der Registerkarte Einstellungen zu Einstellungen.

Tabellenzusammenfassung

Die folgenden Tabellen enthalten weitere Informationen zu einer Kopieraktivität in Lakehouse.

Quellinformationen

Name Beschreibung Wert Erforderlich JSON-Skripteigenschaft
Datenspeichertyp Ihr Datenspeichertyp Arbeitsbereich Ja /
Datenspeichertyp des Arbeitsbereichs In diesem Abschnitt wählen Sie den Datenspeichertyp des Arbeitsbereichs aus. Lakehouse Ja Typ
Lakehouse Das Lakehouse, das Sie als Quelle verwenden. <Ihr Lakehouse> Ja workspaceId
artifactId
Stammordner Der Typ des Stammordners. * Tabellen
* Dateien
Nein rootFolder:
Tabelle oder Dateien
Tabellenname Der Name der Tabelle, aus der Daten gelesen werden sollen. <Tabellenname> Ja, wenn Sie Tabellen in Stammordner auswählen table
(unter typeProperties ->source ->typeProperties)
Timestamp Der Zeitstempel zum Abfragen einer älteren Momentaufnahme. <timestamp> Nein timestampAsOf
Version Die Version zum Abfragen einer älteren Momentaufnahme. <Version> Nein versionAsOf
Zusätzliche Spalten Zusätzliche Datenspalten, um den relativen Pfad oder statischen Wert der Quelldateien zu speichern. Für Letzteres wird ein Ausdruck unterstützt. * Name
* Wert
Nein additionalColumns:
* Name
* Wert
Dateipfadtyp Der Typ des Dateipfads, den Sie verwenden. * Dateipfad
* Platzhalterdateipfad
* Liste der Dateien
Ja /
Dateipfad Kopieren Sie aus dem Pfad in einen Ordner/Datei unter Quelldatenspeicher. Wenden Sie dies bei der Auswahl von Dateipfad in Dateipfadtyp an. <Dateipfad> Ja, wenn Sie Dateipfad auswählen * folderPath
* fileName
Platzhalterpfade Der Ordnerpfad mit Platzhalterzeichen unter dem Quelldatenspeicher, der zum Filtern von Quellordnern konfiguriert wurde. Wenden Sie dies bei der Auswahl von Platzhalterdateipfad in Dateipfadtyp an. <Platzhalterpfade> Ja, wenn Sie Platzhalterdateipfad auswählen * wildcardFolderPath
* wildcardFileName
Ordnerpfad Zeigt auf einen Ordner, der Dateien enthält, die Sie kopieren möchten. Wenden Sie dies bei der Auswahl von Liste der Dateien in Dateipfadtyp an. <Ordnerpfad> Nein folderPath
Pfad zur Dateiliste Gibt an, dass eine bestimmte Dateigruppe kopiert werden soll. Verweisen Sie auf eine Textdatei, die eine Liste der zu kopierenden Dateien enthält, und zwar eine Datei pro Zeile. Dies ist der relative Pfad zu dem konfigurierten Pfad. Wenden Sie dies bei der Auswahl von Liste der Dateien in Dateipfadtyp an. <Pfad zur Dateiliste> Nein fileListPath
Rekursiv Verarbeiten Sie alle Dateien im Eingabeordner und seinen Unterordnern rekursiv oder nur die Dateien im ausgewählten Ordner. Diese Einstellung ist deaktiviert, wenn eine einzelne Datei ausgewählt ist. Aktivieren oder deaktivieren Nein Rekursiv:
true oder false
Dateiformat Das Format der Datei, die Sie verwenden. <Dateiformat> Ja Typ (unter formatSettings):
DelimitedTextReadSettings
Nach der letzten Änderung filtern Die Dateien mit dem Zeitpunkt der letzten Änderung im Bereich [Startzeit, Endzeit] werden für die weitere Verarbeitung gefiltert.

Die Zeitangabe wird auf die UTC-Zeitzone im Format yyyy-mm-ddThh:mm:ss.fffZ angewendet.

Diese Eigenschaft kann übersprungen werden, was bedeutet, dass kein Dateiattributfilter angewendet wird. Diese Eigenschaft gilt nicht, wenn Sie Ihren Dateipfadtyp als Liste der Dateien konfigurieren.
* Startzeit
* Endzeit
Nein modifiedDatetimeStart
modifiedDatetimeEnd
Partitionsermittlung aktivieren Gibt an, ob die Partitionen aus dem Dateipfad analysiert und als zusätzliche Quellspalten hinzugefügt werden sollen. Aktiviert oder deaktiviert Nein enablePartitionDiscovery:
TRUE oder FALSE (Standardwert)
Partitionsstammpfad Der absolute Stammpfad der Partition zum Lesen von partitionierten Ordnern als Datenspalten. <Ihr Partitionsstammpfad> Nein partitionRootPath
Maximal zulässige Anzahl paralleler Verbindungen Die Obergrenze gleichzeitiger Verbindungen mit dem Datenspeicher während der Aktivitätsausführung. Ein Wert wird nur benötigt, wenn Sie die Anzahl der gleichzeitigen Verbindungen begrenzen möchten. <Maximal zulässige Anzahl paralleler Verbindungen> Nein maxConcurrentConnections

Zielinformationen

Name Beschreibung Wert Erforderlich JSON-Skripteigenschaft
Datenspeichertyp Ihr Datenspeichertyp Arbeitsbereich Ja /
Datenspeichertyp des Arbeitsbereichs In diesem Abschnitt wählen Sie den Datenspeichertyp des Arbeitsbereichs aus. Lakehouse Ja Typ
Lakehouse Das Lakehouse, das Sie als Ziel verwenden. <Ihr Lakehouse> Ja workspaceId
artifactId
Stammordner Der Typ des Stammordners. * Tabellen
* Dateien
Ja rootFolder:
Tabelle oder Dateien
Tabellenname Der Name der Tabelle, in die Sie Daten schreiben möchten. <Ihr Tabellenname> Ja, wenn Sie Tabellen in Stammordner auswählen table
(unter typeProperties ->sink ->typeProperties)
Maximale Anzahl Zeilen pro Datei Wenn Sie Daten in einen Ordner schreiben, können Sie in mehrere Dateien zu schreiben und die maximale Anzahl von Zeilen pro Datei angeben. <Maximale Anzahl Zeilen pro Datei> Nein maxRowsPerFile
Tabellenaktion Fügen Sie neue Werte an eine bestehende Tabelle an, oder überschreiben Sie die bestehenden Daten und das Schema in der Tabelle mithilfe der neuen Werte. * Anfügen
* Überschreiben
Nein tableActionOption:
Anfügen oder Überschreiben
Maximal zulässige Anzahl paralleler Verbindungen Die Obergrenze gleichzeitiger Verbindungen mit dem Datenspeicher während der Aktivitätsausführung. Geben Sie diesen Wert nur an, wenn Sie die Anzahl der gleichzeitigen Verbindungen begrenzen möchten. <Maximal zulässige Anzahl paralleler Verbindungen> Nein maxConcurrentConnections
Dateipfad Schreiben Sie Daten in den Pfad zu einem Ordner/einer Datei unter Zieldatenspeicher. <Dateipfad> Nein * folderPath
* fileName
Dateiformat Das Format der Datei, die Sie verwenden. <Dateiformat> Ja Typ (unter formatSettings):
DelimitedTextWriteSettings
Kopierverhalten Das definierte Kopierverhalten, wenn die Quelle Dateien aus einem dateibasierten Datenspeicher sind. * Dynamischen Inhalt hinzufügen
* None
* Hierarchie vereinfachen
* Hierarchie beibehalten
Nein copyBehavior:


* FlattenHierarchy
* PreserveHierarchy
Blockgröße (MB) Die Blockgröße in MB, die zum Schreiben von Daten in Lakehouse verwendet wird. Der zulässige Wert liegt zwischen 4 und 100 MB. <Blockgröße> Nein blockSizeInMB
Metadaten Die benutzerdefinierten Metadaten, die beim Kopieren auf ein Ziel festgelegt werden. * $$LASTMODIFIED
* Ausdruck
* Statischer Wert
Nein metadata