Konfigurieren von Azure Data Lake Storage Gen2 in einer Kopieraktivität

In diesem Artikel wird beschrieben, wie Sie die Kopieraktivität in der Datenpipeline verwenden, um Daten von und nach Azure Data Lake Storage Gen2 zu kopieren.

Unterstütztes Format:

Azure Data Lake Storage Gen2 unterstützt die folgenden Dateiformate. Informationen zu formatbasierten Einstellungen finden Sie in den jeweiligen Artikeln.

Unterstützte Konfiguration

Die Konfiguration der einzelnen Registerkarten unter der Kopieraktivität finden Sie in den folgenden Abschnitten.

Allgemein

Informationen zum Konfigurieren der Registerkarte Allgemein finden Sie unter Allgemeine Einstellungen.

`Source`

Die folgenden Eigenschaften werden für Azure Data Lake Storage Gen2 unter der Registerkarte Quelle einer Kopieraktivität unterstützt.

Screenshot showing source tab.

Die folgenden Eigenschaften sind erforderlich:

  • Datenspeichertyp: Wählen Sie Extern aus.

  • Verbindung: Wählen Sie eine Azure Data Lake Storage Gen2-Verbindung aus der Verbindungsliste aus. Wenn keine Verbindung besteht, erstellen Sie eine neue Azure Data Lake Storage Gen2-Verbindung, indem Sie Neu auswählen.

  • Verbindungstyp: Wählen Sie Azure Data Lake Storage Gen2 aus.

  • Dateipfadtyp: Sie können Dateipfad, Platzhalterdateipfad oder Liste der Dateien als Dateipfadtyp auswählen. Die Konfiguration jeder dieser Einstellungen ist:

    • Dateipfad: Wenn Sie diesen Typ auswählen, können die Daten aus dem angegebenen Dateisystem oder dem zuvor angegebenen Ordner-/Dateipfad kopiert werden.

    • Platzhalterdateipfad: Wenn Sie diesen Typ auswählen, geben Sie das Dateisystem und die Platzhalterpfade an.

      • Dateisystem: Der Name des Azure Data Lake Storage Gen2-Dateisystems.

      • Platzhalterdateipfade: Geben Sie den Ordner- oder Dateipfad im angegebenen Dateisystem mit Platzhalterzeichen an, um Quellordner oder -dateien zu filtern.

        Folgende Platzhalter sind zulässig: * (entspricht null [0] oder mehr Zeichen) und ? (entspricht null [0] oder einem einzelnen Zeichen). Verwenden Sie ^ als Escapezeichen, wenn Ihr Ordnername einen Platzhalter oder dieses Escapezeichen enthält. Weitere Beispiele finden Sie unter Beispiele für Ordner- und Dateifilter.

        Screenshot showing wildcard file path.

        • Platzhalterordnerpfad: Geben Sie den Ordnerpfad mit Platzhalterzeichen im angegebenen Dateisystem an, um Quellordner zu filtern.

        • Platzhalterdateiname: Geben Sie den Dateinamen mit Platzhalterzeichen unter dem von Ihnen angegebenen Dateisystem und Ordnerpfad (oder Platzhalterordnerpfad) an, um Quelldateien zu filtern.

    • Liste der Dateien: Gibt an, dass Sie einen bestimmten Dateisatz kopieren möchten. Geben Sie Ordnerpfad und Pfad zur Dateiliste an, um auf eine Textdatei zu verweisen, die eine Liste der Dateien enthält, die Sie kopieren möchten, und zwar eine Datei pro Zeile, wobei es sich um den relativen Pfad zum Pfad handelt. Weitere Beispiele finden Sie unter Beispiele für Dateilisten.

      Screenshot showing path to file list.

      • Ordnerpfad: Geben Sie den Pfad zu einem Ordner unter dem angegebenen Dateisystem an. Sie ist erforderlich.

      • Pfad zur Dateiliste: Geben Sie den Pfad der Textdatei an, die eine Liste der Dateien enthält, die Sie kopieren möchten.

  • Rekursiv: Geben Sie an, ob die Daten rekursiv aus den Unterordnern oder nur aus dem angegebenen Ordner gelesen werden. Hinweis: Wenn Rekursiv ausgewählt ist und das Ziel ein dateibasierter Speicher ist, wird kein leerer Ordner oder Unterordner am Zielort kopiert oder erstellt. Diese Eigenschaft ist standardmäßig ausgewählt und gilt nicht, wenn Sie Pfad zur Dateiliste konfigurieren.

  • Dateiformat: Wählen Sie das verwendete Dateiformat aus der Dropdownliste aus. Wählen Sie Einstellungen aus, um das Dateiformat zu konfigurieren. Detaillierte Informationen zu den Einstellungen der verschiedenen Dateiformate finden Sie in den Artikeln unter Unterstützte Formate.

Unter Erweitert können Sie die folgenden Felder angeben:

  • Nach der letzten Änderung filtern: Dateien werden nach dem Datum der letzten Änderung gefiltert. Diese Eigenschaft gilt nicht, wenn Sie Ihren Dateipfadtyp als Liste der Dateien konfigurieren.

    • Startzeit (UTC): Die Dateien werden ausgewählt, wenn der Zeitpunkt ihrer letzten Änderung größer oder gleich der konfigurierten Zeitangabe ist.

    • Endzeit (UTC): Die Dateien werden ausgewählt, wenn der Zeitpunkt ihrer letzten Änderung kleiner als die konfigurierte Zeitangabe ist.

    Wenn Startzeit (UTC) einen datetime-Wert aufweist, aber Endzeit (UTC) NULL ist, bedeutet dies, dass die Dateien ausgewählt werden, deren Attribut für die letzte Änderung größer oder gleich dem datetime-Wert ist. Wenn Endzeit (UTC) einen datetime-Wert aufweist, aber Startzeit (UTC) NULL ist, bedeutet dies, dass die Dateien ausgewählt werden, deren Attribut für die letzte Änderung kleiner als der datetime-Wert ist. Die Eigenschaften können NULL sein, was bedeutet, dass kein Dateiattributfilter auf die Daten angewendet wird.

  • Partitionsermittlung aktivieren: Geben Sie an, ob die Partitionen anhand des Dateipfads analysiert und als zusätzliche Quellspalten hinzugefügt werden sollen. Diese Option ist standardmäßig deaktiviert und wird nicht unterstützt, wenn Sie das Binärdateiformat verwenden.

    • Stammverzeichnis der Partition: Wenn die Partitionsermittlung aktiviert ist, geben Sie den absoluten Stammverzeichnispfad an, um partitionierte Ordner als Datenspalten zu lesen.

      Ohne Angabe gilt standardmäßig Folgendes:

      • Wenn Sie den Dateipfad oder die Liste der Dateien in der Quelle verwenden, ist der Partitionsstammpfad der von Ihnen konfigurierte Pfad.
      • Wenn Sie einen Platzhalterordnerfilter verwenden, ist der Stammpfad der Partition der Unterpfad vor dem ersten Platzhalter.

      Angenommen, Sie konfigurieren den Pfad beispielsweise als root/folder/year=2020/month=08/day=27:

      • Wenn Sie für den Stammpfad der Partition root/folder/year=2020 angeben, generiert die Kopieraktivität zusätzlich zu den Spalten in den Dateien zwei weitere Spalten für Monat und Tag mit den Werten „08“ bzw. „27“.
      • Wenn kein Stammpfad für die Partition angegeben wird, werden keine zusätzlichen Spalten generiert.

    Screenshot showing partition discovery.

  • Maximale Anzahl gleichzeitiger Verbindungen: Diese Eigenschaft gibt die Obergrenze der gleichzeitigen Verbindungen zum Datenspeicher an, die während des Ausführens der Aktivität hergestellt werden. Geben Sie diesen Wert nur an, wenn Sie die Anzahl der gleichzeitigen Verbindungen begrenzen möchten.

  • Zusätzliche Spalten: Fügen Sie zusätzliche Datenspalten hinzu, um den relativen Pfad oder statischen Wert der Quelldateien zu speichern. Für Letzteres wird ein Ausdruck unterstützt.

Destination

Die folgenden Eigenschaften werden für Azure Data Lake Storage Gen2 unter der Registerkarte Ziel einer Kopieraktivität unterstützt.

Screenshot showing destination tab.

Die folgenden Eigenschaften sind erforderlich:

  • Datenspeichertyp: Wählen Sie Extern aus.
  • Verbindung: Wählen Sie eine Azure Data Lake Storage Gen2-Verbindung aus der Verbindungsliste aus. Wenn keine Verbindung besteht, erstellen Sie eine neue Azure Data Lake Storage Gen2-Verbindung, indem Sie Neu auswählen.
  • Verbindungstyp: Wählen Sie Azure Data Lake Storage Gen2 aus.
  • Dateipfad: Wählen Sie Durchsuchen aus, um die Datei auszuwählen, die Sie kopieren möchten, oder geben Sie den Pfad manuell ein.
  • Dateiformat: Wählen Sie das verwendete Dateiformat aus der Dropdownliste aus. Wählen Sie Einstellungen aus, um das Dateiformat zu konfigurieren. Detaillierte Informationen zu den Einstellungen der verschiedenen Dateiformate finden Sie in den Artikeln unter Unterstützte Formate.

Unter Erweitert können Sie die folgenden Felder angeben:

  • Kopierverhalten: Definiert das Kopierverhalten, wenn es sich bei der Quelle um Dateien aus einem dateibasierten Datenspeicher handelt. Sie können eine Verhaltensweise aus der Dropdownliste auswählen.

    Screenshot showing copy behavior.

    • Hierarchie vereinfachen: Alle Dateien aus dem Quellordner befinden sich auf der ersten Ebene des Zielordners. Die Zieldateien haben automatisch generierte Namen.
    • MergeFiles: Alle Dateien aus dem Quellordner werden in einer Datei zusammengeführt. Wenn der Dateiname angegeben wurde, entspricht der zusammengeführte Dateiname dem angegebenen Namen. Ansonsten handelt es sich um einen automatisch generierten Dateinamen.
    • Hierarchie beibehalten: Behält die Dateihierarchie im Zielordner bei. Der relative Pfad der Quelldatei zum Quellordner entspricht dem relativen Pfad der Zieldatei zum Zielordner.
  • Maximale Anzahl gleichzeitiger Verbindungen: Die Obergrenze der gleichzeitigen Verbindungen zum Datenspeicher, die während des Ausführens der Aktivität hergestellt werden. Geben Sie diesen Wert nur an, wenn Sie die Anzahl der gleichzeitigen Verbindungen begrenzen möchten.

  • Blockgröße (MB): Geben Sie die Blockgröße in MB an, die zum Schreiben von Daten in Azure Data Lake Storage Gen2 verwendet wird. Weitere Informationen finden Sie unter Blockblobs. Der zulässige Wert liegt zwischen 4 und 100 MB.

    Standardmäßig wird die Blockgröße basierend auf dem Quellspeichertyp und den Daten automatisch ermittelt. Bei einer nicht binären Kopie in Azure Data Lake Storage Gen2 beträgt die Standardblockgröße 100 MB, damit sie in maximal ca. 4,75 TB Daten passt. Es ist möglicherweise nicht optimal, wenn Ihre Daten nicht groß sind. Sie können eine Blockgröße explizit angeben und gleichzeitig sicherstellen, dass Blockgröße (MB)*50000 groß genug zum Speichern der Daten ist. Andernfalls tritt bei Ausführung der Kopieraktivität ein Fehler auf.

  • Metadaten: Legen Sie benutzerdefinierte Metadaten beim Kopieren zu einem Ziel fest. Jedes Objekt unter dem Array metadata stellt eine zusätzliche Spalte dar. name definiert den Namen des Metadatenschlüssels, und value gibt den Datenwert dieses Schlüssels an. Wenn das Feature zum Beibehalten von Attributen verwendet wird, werden die angegebenen Metadaten mit den Metadaten der Quelldatei vereint/überschrieben.

    Zulässige Datenwerte sind:

    • $$LASTMODIFIED: Eine reservierte Variable gibt an, dass der Zeitpunkt der letzten Änderung der Quelldateien gespeichert werden soll. Gilt nur für dateibasierte Quellen in einem Binärformat.
    • Ausdruck
    • Statischer Wert

    Screenshot showing metadata.

Zuordnung

Wechseln Sie für die Konfiguration der Registerkarte Zuordnung zu Konfigurieren der Zuordnungen auf der Registerkarte „Zuordnung“. Wenn Sie „Binär“ als Dateiformat auswählen, wird die Zuordnung nicht unterstützt.

Einstellungen

Wechseln Sie für die Konfiguration der Registerkarte Einstellungen zu Konfigurieren der anderen Einstellungen auf der Registerkarte „Einstellungen“.

Tabellenzusammenfassung

Die folgenden Tabellen enthalten weitere Informationen über die Kopieraktivitäten in Azure Data Lake Storage Gen2.

Quellinformationen

Name Beschreibung Wert Erforderlich JSON-Skripteigenschaft
Datenspeichertyp Ihr Datenspeichertyp Extern Ja /
Verbindung Ihre Verbindung mit dem Quelldatenspeicher <Ihre Azure Data Lake Storage Gen2-Verbindung> Ja Verbindung
Verbindungstyp Ihr Verbindungstyp. Wählen Sie Azure Data Lake Storage Gen2 aus. Azure Data Lake Storage Gen2 Ja /
Dateipfadtyp Der Dateipfadtyp, den Sie verwenden möchten. • Dateipfad
• Platzhalterordnerpfad, Platzhalterdateiname
• Liste der Dateien
Ja • folderPath, fileName, fileSystem
• wildcardFolderPath, wildcardFileName, fileSystem
• folderPath, fileName, fileListPath
Rekursiv Gibt an, ob die Daten rekursiv aus den Unterordnern oder nur aus dem angegebenen Ordner gelesen werden. Hinweis: Wenn Rekursiv ausgewählt ist und das Ziel ein dateibasierter Speicher ist, wird kein leerer Ordner oder Unterordner am Zielort kopiert oder erstellt. Diese Eigenschaft gilt nicht, wenn Sie Pfad zur Dateiliste konfigurieren. ausgewählt (Standardwert) oder nicht ausgewählt Nein recursive
Nach der letzten Änderung filtern Die Dateien mit dem Zeitpunkt der letzten Änderung im Bereich [Startzeit, Endzeit] werden für die weitere Verarbeitung gefiltert. Die Zeitangabe wird auf die UTC-Zeitzone im Format yyyy-mm-ddThh:mm:ss.fffZ angewendet. Diese Eigenschaften können übersprungen werden, was bedeutet, dass kein Dateiattributfilter angewendet wird. Diese Eigenschaft gilt nicht, wenn Sie Ihren Dateipfadtyp als Liste der Dateien konfigurieren. datetime Nein modifiedDatetimeStart
modifiedDatetimeEnd
Partitionsermittlung aktivieren Gibt an, ob die Partitionen aus dem Dateipfad analysiert und als zusätzliche Quellspalten hinzugefügt werden sollen. Aktiviert oder deaktiviert (Standardwert) Nein enablePartitionDiscovery:
TRUE oder FALSE (Standardwert)
Partitionsstammpfad Wenn die Partitionsermittlung aktiviert ist, geben Sie den absoluten Stammpfad an, um partitionierte Ordner als Datenspalten zu lesen. < Ihr Partitionsstammpfad > Nein partitionRootPath
Maximal zulässige Anzahl paralleler Verbindungen Die Obergrenze gleichzeitiger Verbindungen mit dem Datenspeicher während der Aktivitätsausführung. Geben Sie diesen Wert nur an, wenn Sie die Anzahl der gleichzeitigen Verbindungen begrenzen möchten. <Maximal zulässige Anzahl paralleler Verbindungen> Nein maxConcurrentConnections
Zusätzliche Spalten Fügen Sie zusätzliche Datenspalten hinzu, um den relativen Pfad oder statischen Wert der Quelldateien zu speichern. Für Letzteres wird ein Ausdruck unterstützt. • Name
• Wert
Nein additionalColumns:
• Name
• Wert

Zielinformationen

Name Beschreibung Wert Erforderlich JSON-Skripteigenschaft
Datenspeichertyp Ihr Datenspeichertyp Extern Ja /
Verbindung Ihre Verbindung mit dem Zieldatenspeicher. <Ihre Azure Data Lake Storage Gen2-Verbindung> Ja Verbindung
Verbindungstyp Ihr Verbindungstyp. Wählen Sie Azure Data Lake Storage Gen2 aus. Azure Data Lake Storage Gen2 Ja /
Dateipfad Der Dateipfad für Ihre Zieldaten. < Ihr Dateipfad > Ja folderPath, fileName, fileSystem
Kopierverhalten Definiert das Kopierverhalten, wenn es sich bei der Quelle um Dateien aus einem dateibasierten Datenspeicher handelt. • Hierarchie vereinfachen
• Zusammenführen von Dateien
• Hierarchie beibehalten
Nein copyBehavior:
• FlattenHierarchy
• MergeFiles
• PreserveHierarchy
Maximal zulässige Anzahl paralleler Verbindungen Die Obergrenze gleichzeitiger Verbindungen mit dem Datenspeicher während der Aktivitätsausführung. Geben Sie diesen Wert nur an, wenn Sie die Anzahl der gleichzeitigen Verbindungen begrenzen möchten. <Maximal zulässige Anzahl paralleler Verbindungen> Nein maxConcurrentConnections
Blockgröße (MB) Geben Sie die Blockgröße in MB an, wenn Sie Daten in Azure Data Lake Storage Gen2 schreiben. Der zulässige Wert liegt zwischen 4 und 100 MB. <Blockgröße> Nein blockSizeInMB
Metadaten Legen Sie beim Kopieren zum Ziel benutzerdefinierte Metadaten fest. $$LASTMODIFIED
• Ausdruck
• Statischer Wert
Nein metadata