Kopieren von Daten aus Amazon S3-kompatiblem Speicher mithilfe von Azure Data Factory oder Synapse Analytics

Gilt für: Azure Data Factory Azure Synapse Analytics

Tipp

Data Factory in Microsoft Fabric ist die nächste Generation von Azure Data Factory mit einer einfacheren Architektur, integrierter KI und neuen Features. Wenn Sie mit der Datenintegration noch nicht vertraut sind, beginnen Sie mit Fabric Data Factory. Vorhandene ADF-Workloads können auf Fabric aktualisiert werden, um auf neue Funktionen in der Datenwissenschaft, Echtzeitanalysen und Berichterstellung zuzugreifen.

In diesem Artikel wird beschrieben, wie Sie Daten aus mit Amazon Simple Storage Service (Amazon S3) kompatiblem Speicher kopieren. Weitere Informationen finden Sie in den Einführungsartikeln für Azure Data Factory und Synapse Analytics.

Unterstützte Funktionen

Dieser Amazon S3-kompatible Speicher-Connector wird für die folgenden Funktionen unterstützt:

Unterstützte Funktionen	Infrarot
Aktivität kopieren (Quelle/-)	(1) (2)
Lookup-Aktivität	(1) (2)
GetMetadata-Aktivität	(1) (2)
Aktivität löschen	(1) (2)

(1) Azure Integrationslaufzeit (2) Selbst gehostete Integrationslaufzeit

Dieser Amazon S3-kompatible Storage-Connector unterstützt insbesondere das Kopieren von Dateien im jeweiligen Zustand oder das Analysieren von Dateien mit den unterstützten Dateiformaten und Codecs für die Komprimierung. Der Connector verwendet AWS Signatur Version 4 zum Authentifizieren von Anforderungen in S3. Mit diesem Amazon S3-kompatiblen Storage-Connector können Sie Daten von allen S3-kompatiblen Speicheranbietern kopieren. Geben Sie die entsprechende Dienst-URL in der Konfiguration des verknüpften Diensts an.

Erforderliche Berechtigungen

Um Daten aus Amazon S3-kompatiblem Speicher kopieren zu können, müssen Sie sicherstellen, dass Ihnen die folgenden Berechtigungen für Amazon S3-Objektvorgänge erteilt wurden: s3:GetObject und s3:GetObjectVersion.

Wenn Sie die Benutzeroberfläche für die Erstellung verwenden, sind zusätzliche s3:ListAllMyBuckets- und s3:ListBucket/s3:GetBucketLocation-Berechtigungen für Vorgänge wie das Testen der Verbindung mit dem verknüpften Dienst und das Durchsuchen aus dem Stammverzeichnis erforderlich. Wenn Sie diese Berechtigungen nicht erteilen möchten, können Sie auf der Benutzeroberfläche die Option zum Testen der Verbindung mit dem Dateipfad oder zum Durchsuchen vom angegebenen Pfad auswählen.

Die vollständige Liste der Amazon S3-Berechtigungen finden Sie unter Specifying Permissions in a Policy (Angeben von Berechtigungen in einer Richtlinie) auf der AWS-Website.

Erste Schritte

Zum Ausführen der Kopieraktivität mit einer Pipeline können Sie eines der folgenden Tools oder SDKs verwenden:

Erstellen eines verknüpften Diensts mit dem kompatiblen Amazon S3-Speicher über die Benutzeroberfläche

Führen Sie die folgenden Schritte aus, um einen verknüpften Dienst mit Amazon S3-kompatiblem Speicher in der benutzeroberfläche des Azure Portals zu erstellen.

Navigieren Sie in Ihrem Azure Data Factory- oder Synapse-Arbeitsbereich zur Registerkarte "Verwalten", und wählen Sie "Verknüpfte Dienste" aus, und klicken Sie dann auf "Neu":
- Azure Data Factory
- Azure Synapse
Suchen Sie nach Amazon, und wählen Sie den Connector für „Amazon S3 Compatible Storage“ aus.
Konfigurieren Sie die Dienstdetails, testen Sie die Verbindung, und erstellen Sie den neuen verknüpften Dienst.

Details zur Connectorkonfiguration

In den folgenden Abschnitten finden Sie Details zu Eigenschaften, die zum Definieren von Entitäten verwendet werden, die für kompatiblen Amazon S3-Speicher spezifisch sind.

Eigenschaften des verknüpften Diensts

Für einen mit Amazon S3 kompatiblen verknüpften Dienst werden die folgenden Eigenschaften unterstützt:

Eigenschaft	Beschreibung	Erforderlich
Typ	Die type-Eigenschaft muss auf AmazonS3Compatible festgelegt werden.	Ja
accessKeyId	ID des geheimen Zugriffsschlüssels.	Ja
secretAccessKey	Der geheime Zugriffsschlüssel selbst. Markieren Sie dieses Feld als SecureString, um es sicher zu speichern, oder verweisen Sie auf ein Geheimnis, das in Azure Key Vault gespeichert ist.	Ja
serviceUrl	Geben Sie den benutzerdefinierten S3-Endpunkt `https://<service url>` an.	Nein
forcePathStyle	Gibt an, ob anstelle des Zugriffs mit virtuellem Hosting der Zugriff im S3-Pfadstil verwendet wird. Zulässige Werte sind false (Standard) und true. Überprüfen Sie die Dokumentation zu jedem Datenspeicher, ob ein pfadbasierter Zugriff erforderlich ist oder nicht.	Nein
connectVia	Die Integrationslaufzeit, die verwendet werden soll, um eine Verbindung mit dem Datenspeicher herzustellen. Sie können die Azure Integrationslaufzeit oder die selbst gehostete Integrationslaufzeit (wenn sich Ihr Datenspeicher in einem privaten Netzwerk befindet) verwenden. Wenn diese Eigenschaft nicht angegeben ist, verwendet der Dienst die Standardmäßige Azure Integrationslaufzeit.	Nein

Beispiel:

{
    "name": "AmazonS3CompatibleLinkedService",
    "properties": {
        "type": "AmazonS3Compatible",
        "typeProperties": {
            "accessKeyId": "<access key id>",
            "secretAccessKey": {
                "type": "SecureString",
                "value": "<secret access key>"
            }
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Dataset-Eigenschaften

Eine vollständige Liste mit den Abschnitten und Eigenschaften, die zum Definieren von Datasets zur Verfügung stehen, finden Sie im Artikel zu Datasets.

Azure Data Factory unterstützt die folgenden Dateiformate. Informationen zu formatbasierten Einstellungen finden Sie in den jeweiligen Artikeln.

Die folgenden Eigenschaften werden für Amazon S3-kompatiblen Speicher unter location-Einstellungen in einem formatbasierten Dataset unterstützt:

Eigenschaft	Beschreibung	Erforderlich
Typ	Die type-Eigenschaft unter `location` in einem Dataset muss auf AmazonS3CompatibleLocation festgelegt werden.	Ja
bucketName	Der Bucketname des S3-kompatiblen Speichers.	Ja
folderPath	Der Pfad zum Ordner unter dem angegebenen Bucket. Wenn Sie einen Platzhalter verwenden möchten, um den Ordner zu filtern, überspringen Sie diese Einstellung, und geben Sie dies in den entsprechenden Aktivitätsquelleneinstellungen an.	Nein
Dateiname	Der Dateiname im angegebenen Bucket und Ordnerpfad. Wenn Sie einen Platzhalter verwenden möchten, um Dateien zu filtern, überspringen Sie diese Einstellung, und geben Sie dies in den entsprechenden Aktivitätsquelleneinstellungen an.	Nein
version	Die Version des S3-kompatiblen Speicherobjekts, wenn die Versionsverwaltung für S3-kompatible Speicher aktiviert ist. Wenn dies nicht angegeben ist, wird die neueste Version abgerufen.	Nein

Beispiel:

{
    "name": "DelimitedTextDataset",
    "properties": {
        "type": "DelimitedText",
        "linkedServiceName": {
            "referenceName": "<Amazon S3 Compatible Storage linked service name>",
            "type": "LinkedServiceReference"
        },
        "schema": [ < physical schema, optional, auto retrieved during authoring > ],
        "typeProperties": {
            "location": {
                "type": "AmazonS3CompatibleLocation",
                "bucketName": "bucketname",
                "folderPath": "folder/subfolder"
            },
            "columnDelimiter": ",",
            "quoteChar": "\"",
            "firstRowAsHeader": true,
            "compressionCodec": "gzip"
        }
    }
}

Eigenschaften der Kopieraktivität

Eine vollständige Liste mit den Abschnitten und Eigenschaften zum Definieren von Aktivitäten finden Sie im Artikel Pipelines. In diesem Abschnitt finden Sie eine Liste der Eigenschaften, die von der Amazon S3-kompatiblen Speicherquelle unterstützt werden.

Amazon S3-kompatibler Speicher als Quelltyp

Azure Data Factory unterstützt die folgenden Dateiformate. Informationen zu formatbasierten Einstellungen finden Sie in den jeweiligen Artikeln.

Die folgenden Eigenschaften werden für Amazon S3-kompatiblen Speicher unter storeSettings-Einstellungen in einer formatbasierten Kopierquelle unterstützt:

Eigenschaft	Beschreibung	Erforderlich
Typ	Die type-Eigenschaft unter `storeSettings` muss auf AmazonS3CompatibleReadSettings festgelegt werden.	Ja
Lokalisieren Sie die zu kopierenden Dateien:
OPTION 1: statischer Pfad	Kopieren Sie aus dem im Dataset angegebenen Bucket oder Ordner/Dateipfad. Wenn Sie alle Dateien aus einem Bucket oder Ordner kopieren möchten, geben Sie zusätzlich für `wildcardFileName` den Wert `*` an.
OPTION 2: Präfix für S3-kompatiblen Speicher – prefix	Das Präfix für den Namen des S3-kompatiblen Speicherschlüssels unter dem angegebenen Bucket, konfiguriert in einem Dataset zum Filtern von S3-kompatiblen Quellspeicherdateien. Es werden die S3-kompatiblen Speicherschlüssel ausgewählt, deren Namen mit `bucket_in_dataset/this_prefix` beginnen. Es wird der serverseitige Filter des S3-kompatiblen Speichers verwendet, der im Vergleich zu Platzhalter-Filtern eine bessere Leistung bietet. Wenn Sie das Präfix verwenden und in eine dateibasierte Senke mit Beibehaltung der Hierarchie kopieren, wird der Unterpfad nach dem letzten „/“ im Präfix beibehalten. Wenn Sie beispielsweise `bucket/folder/subfolder/file.txt` als Quelle haben und das Präfix als `folder/sub` konfigurieren, lautet der beibehaltene Dateipfad `subfolder/file.txt`.	Nein
OPTION 3: Jokerzeichen – wildcardFolderPath	Der Ordnerpfad mit Platzhalterzeichen unter dem angegebenen Bucket, der in einem Dataset für das Filtern von Quellordnern konfiguriert ist. Folgende Platzhalter sind zulässig: `*` (entspricht null oder mehr Zeichen) und `?` (entspricht null oder einem einzelnen Zeichen). Verwenden Sie `^` als Escapezeichen, wenn Ihr Ordnername einen Platzhalter oder dieses Escapezeichen enthält. Weitere Beispiele finden Sie unter Beispiele für Ordner- und Dateifilter.	Nein
OPTION 3: Jokerzeichen – wildcardFileName	Der Dateiname mit Platzhalterzeichen unter dem angegebenen Bucket und Ordnerpfad (oder Platzhalterordnerpfad) für das Filtern von Quelldateien. Folgende Platzhalter sind zulässig: `*` (entspricht null oder mehr Zeichen) und `?` (entspricht null oder einem einzelnen Zeichen). Verwenden Sie `^` als Escapezeichen, wenn Ihr Dateiname einen Platzhalter oder dieses Escapezeichen enthält. Weitere Beispiele finden Sie unter Beispiele für Ordner- und Dateifilter.	Ja
OPTION 4: eine Liste von Dateien – fileListPath	Gibt an, dass eine bestimmte Dateigruppe kopiert werden soll. Verweisen Sie auf eine Textdatei, die eine Liste der zu kopierenden Dateien enthält, und zwar eine Datei pro Zeile. Dies ist der relative Pfad zu dem im Dataset konfigurierten Pfad. Wenn Sie diese Option verwenden, geben Sie keinen Dateinamen im Dataset an. Weitere Beispiele finden Sie unter Beispiele für Dateilisten.	Nein
Zusätzliche Einstellungen:
rekursiv	Gibt an, ob die Daten rekursiv aus den Unterordnern oder nur aus dem angegebenen Ordner gelesen werden. Beachten Sie Folgendes: Wenn recursive auf TRUE festgelegt ist und es sich bei der Senke um einen dateibasierten Speicher handelt, wird ein leerer Ordner oder Unterordner nicht in die Senke kopiert und dort auch nicht erstellt. Zulässige Werte sind true (Standard) und false. Diese Eigenschaft gilt nicht, wenn Sie `fileListPath` konfigurieren.	Nein
DateienNachAbschlussLöschen	Gibt an, ob die Binärdateien nach dem erfolgreichen Verschieben in den Zielspeicher aus dem Quellspeicher gelöscht werden. Die Dateien werden einzeln gelöscht, sodass Sie bei einem Fehler der Kopieraktivität feststellen werden, dass einige Dateien bereits ins Ziel kopiert und aus der Quelle gelöscht wurden, wohingegen sich andere weiter im Quellspeicher befinden. Diese Eigenschaft ist nur im Szenario zum Kopieren von Binärdateien gültig. Standardwert: FALSE.	Nein
modifiedDatetimeStart	Die Dateien werden anhand des Attributs „Letzte Änderung“ gefiltert. Die Dateien werden ausgewählt, wenn der Zeitpunkt ihrer letzten Änderung größer als oder gleich `modifiedDatetimeStart` und kleiner als `modifiedDatetimeEnd` ist. Die Zeit wird auf die UTC-Zeitzone im Format „2018-12-01T05:00:00Z“ angewendet. Die Eigenschaften können NULL sein, was bedeutet, dass kein Dateiattributfilter auf das Dataset angewendet wird. Wenn `modifiedDatetimeStart` einen datetime-Wert aufweist, aber `modifiedDatetimeEnd`NULL ist, werden die Dateien ausgewählt, deren Attribut für die letzte Änderung größer oder gleich dem datetime-Wert ist. Wenn `modifiedDatetimeEnd` den datetime-Wert aufweist, aber `modifiedDatetimeStart`NULL ist, werden die Dateien ausgewählt, deren Attribut für die letzte Änderung kleiner als der datetime-Wert ist. Diese Eigenschaft gilt nicht, wenn Sie `fileListPath` konfigurieren.	Nein
modifiedDatetimeEnd	Wie oben.	Nein
partitionserkennungAktivieren	Geben Sie bei partitionierten Dateien an, ob die Partitionen anhand des Dateipfads analysiert und als zusätzliche Quellspalten hinzugefügt werden sollen. Zulässige Werte sind false (Standard) und true.	Nein
partitionRootPath	Wenn die Partitionsermittlung aktiviert ist, geben Sie den absoluten Stammpfad an, um partitionierte Ordner als Datenspalten zu lesen. Falls nicht anders angegeben, gilt standardmäßig: - Wenn Sie den Dateipfad im Dataset oder die Liste der Dateien in der Quelle verwenden, ist der Partitionsstammpfad der im Dataset konfigurierte Pfad. Wenn Sie einen Platzhalterordnerfilter verwenden, ist der Stammpfad der Partition der Unterpfad vor dem ersten Platzhalter. Wenn Sie Präfix verwenden, ist der Stammpfad der Partition ein Unterpfad vor dem letzten „/“. Angenommen, Sie konfigurieren den Pfad im Dataset als „root/folder/year=2020/month=08/day=27“: - Wenn Sie den Stammpfad der Partition als „root/folder/year=2020“ angeben, generiert die Kopieraktivität zusätzlich zu den Spalten in den Dateien die beiden weiteren Spalten `month` und `day` mit den Werten „08“ bzw. „27“. - Wenn kein Stammpfad für die Partition angegeben ist, wird keine zusätzliche Spalte generiert.	Nein
maximale gleichzeitige Verbindungen	Die Maximalanzahl gleichzeitiger Verbindungen mit dem Datenspeicher während der Aktivitätsausführung. Geben Sie diesen Wert nur an, wenn Sie die Anzahl der gleichzeitigen Verbindungen begrenzen möchten.	Nein

Beispiel:

"activities":[
    {
        "name": "CopyFromAmazonS3CompatibleStorage",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Delimited text input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "DelimitedTextSource",
                "formatSettings":{
                    "type": "DelimitedTextReadSettings",
                    "skipLineCount": 10
                },
                "storeSettings":{
                    "type": "AmazonS3CompatibleReadSettings",
                    "recursive": true,
                    "wildcardFolderPath": "myfolder*A",
                    "wildcardFileName": "*.csv"
                }
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Beispiele für Ordner- und Dateifilter

Dieser Abschnitt beschreibt das sich ergebende Verhalten für den Ordnerpfad und den Dateinamen mit Platzhalterfiltern.

bucket	Schlüssel	rekursiv	Quellordnerstruktur und Filterergebnis (in Fettschrift hervorgehobene Dateien werden abgerufen)
bucket	`Folder/`	false	bucket FolderA Datei1.csv File2.json Unterverzeichnis1 File3.csv File4.json File5.csv AndererOrdnerB Datei6.csv
bucket	`Folder/`	wahr	bucket FolderA Datei1.csv File2.json Unterverzeichnis1 File3.csv File4.json File5.csv AndererOrdnerB Datei6.csv
bucket	`Folder/.csv`	false	bucket FolderA Datei1.csv Datei2.json Unterverzeichnis1 File3.csv File4.json File5.csv AndererOrdnerB Datei6.csv
bucket	`Folder/.csv`	wahr	bucket FolderA Datei1.csv Datei2.json Unterverzeichnis1 File3.csv File4.json File5.csv AndererOrdnerB Datei6.csv

Beispiele für Dateilisten

In diesem Abschnitt wird das resultierende Verhalten der Verwendung eines Dateilistenpfads in einer Copy activity Quelle beschrieben.

Angenommen, Sie haben die folgende Quellordnerstruktur und möchten die Dateien kopieren, deren Namen fett formatiert sind:

Beispielquellstruktur	Inhalt in „FileListToCopy.txt“	Konfiguration
bucket FolderA Datei1.csv Datei2.json Unterverzeichnis1 File3.csv File4.json File5.csv Metadaten DateilisteZumKopieren.txt	Datei1.csv Unterordner1/Datei3.csv Unterordner1/Datei5.csv	Im Datensatz: – Bucket: `bucket` – Ordnerpfad: `FolderA` Im Quelltext der Kopieraktivität: – Dateilistenpfad: `bucket/Metadata/FileListToCopy.txt` Der Dateilistenpfad verweist auf eine Textdatei im selben Datenspeicher, der eine Liste der zu kopierenden Dateien enthält, und zwar eine Datei pro Zeile. Diese enthält den relativen Pfad zu dem im Dataset konfigurierten Pfad.

Eigenschaften der Lookup-Aktivität

Ausführliche Informationen zu den Eigenschaften finden Sie unter Lookup-Aktivität.

Eigenschaften der GetMetadata-Aktivität

Ausführliche Informationen zu den Eigenschaften finden Sie unter GetMetadata-Aktivität.

Aktivitätseigenschaften löschen

Um detaillierte Informationen zu den Eigenschaften zu erfahren, sehen Sie unter Aktivität löschen nach.

Eine Liste der Datenspeicher, die vom Copy activity als Quellen und Senken unterstützt werden, finden Sie unter Supported Data Stores.

Feedback

War diese Seite hilfreich?

Last updated on 2026-04-07

Kopieren von Daten aus Amazon S3-kompatiblem Speicher mithilfe von Azure Data Factory oder Synapse Analytics

Unterstützte Funktionen

Erforderliche Berechtigungen

Erste Schritte

Erstellen eines verknüpften Diensts mit dem kompatiblen Amazon S3-Speicher über die Benutzeroberfläche

Details zur Connectorkonfiguration

Eigenschaften des verknüpften Diensts

Dataset-Eigenschaften

Eigenschaften der Kopieraktivität

Amazon S3-kompatibler Speicher als Quelltyp

Beispiele für Ordner- und Dateifilter

Beispiele für Dateilisten

Eigenschaften der Lookup-Aktivität

Eigenschaften der GetMetadata-Aktivität

Aktivitätseigenschaften löschen

Zugehöriger Inhalt

Feedback

Zusätzliche Ressourcen