Kopieren von Daten aus Amazon Redshift mithilfe von Azure Data Factory oder Synapse Analytics

Artikel
09/12/2024

GILT FÜR: Azure Data Factory Azure Synapse Analytics

Tipp

Testen Sie Data Factory in Microsoft Fabric, eine All-in-One-Analyselösung für Unternehmen. Microsoft Fabric deckt alle Aufgaben ab, von der Datenverschiebung bis hin zu Data Science, Echtzeitanalysen, Business Intelligence und Berichterstellung. Erfahren Sie, wie Sie kostenlos eine neue Testversion starten!

In diesem Artikel wird beschrieben, wie Sie die Copy-Aktivität in Azure Data Factory- und Synapse Analytics-Pipelines verwenden, um Daten aus Amazon Redshift zu kopieren. Er baut auf dem Artikel zur Übersicht über die Kopieraktivität auf, der eine allgemeine Übersicht über die Kopieraktivität enthält.

Unterstützte Funktionen

Dieser Amazon Redshift Connector wird für die folgenden Funktionen unterstützt:

Unterstützte Funktionen	IR
Kopieraktivität (Quelle/-)	① ②
Lookup-Aktivität	① ②

① Azure Integration Runtime ② Selbstgehostete Integration Runtime

Eine Liste der Datenspeicher, die als Quellen oder Senken für die Kopieraktivität unterstützt werden, finden Sie in der Tabelle Unterstützte Datenspeicher.

Insbesondere unterstützt dieser Amazon Redshift-Connector das Abrufen von Daten aus Redshift mittels Abfrage oder integrierter Redshift-UNLOAD-Unterstützung.

Der Connector unterstützt die Windows-Versionen in diesem Artikel.

Tipp

Um die optimale Leistung beim Kopieren großer Datenmengen aus Redshift zu erzielen, empfiehlt sich die Verwendung des integrierten Redshift-Befehls UNLOAD durch Amazon S3. Ausführliche Informationen finden Sie im Abschnitt Verwenden von UNLOAD zum Kopieren von Daten aus Amazon Redshift.

Voraussetzungen

Wenn Sie Daten mit selbstgehosteter Integration Runtime in einen lokalen Datenspeicher kopieren, gewähren Sie der Integration Runtime (IP-Adresse des Computers verwenden) den Zugriff auf den Amazon Redshift-Cluster. Anweisungen finden Sie unter Authorize access to the cluster (Autorisieren des Zugriffs auf den Cluster).
Wenn Sie Daten in einen Azure-Datenspeicher kopieren, nutzen Sie die Auflistung der Compute-IP-Adressbereiche unter Azure Data Center IP Ranges, um die von den Azure-Rechenzentren verwendeten Compute-IP-Adressen und SQL-Bereiche anzuzeigen.

Erste Schritte

Sie können eines der folgenden Tools oder SDKs verwenden, um die Kopieraktivität mit einer Pipeline zu verwenden:

Erstellen eines verknüpften Diensts zu Amazon Redshift über die Benutzeroberfläche

Verwenden Sie die folgenden Schritte, um einen verknüpften Dienst mit Amazon Redshift auf dem Azure-Portal zu erstellen.

Navigieren Sie in Ihrem Azure Data Factory- oder Synapse-Arbeitsbereich zur Registerkarte „Verwalten“, wählen Sie „Verknüpfte Dienste“ aus, und klicken Sie dann auf „Neu“:
- Azure Data Factory
- Azure Synapse
Suchen Sie nach Amazon, und wählen Sie den Amazon Redshift-Connector aus.
Konfigurieren Sie die Dienstdetails, testen Sie die Verbindung, und erstellen Sie den neuen verknüpften Dienst.

Details zur Connectorkonfiguration

Die folgenden Abschnitte enthalten Details zu Eigenschaften, die zum Definieren von Data Factory-Entitäten verwendet werden, die für den Amazon Redshift-Connector spezifisch sind.

Eigenschaften des verknüpften Diensts

Folgende Eigenschaften werden für den mit Amazon Redshift verknüpften Dienst unterstützt:

Eigenschaft	Beschreibung	Erforderlich
type	Die type-Eigenschaft muss auf Folgendes festgelegt werden: AmazonRedshift	Ja
server	IP-Adresse oder Hostname des Amazon Redshift-Servers.	Ja
port	Die Nummer des TCP-Ports, den der Amazon Redshift-Server verwendet, um auf Clientverbindungen zu lauschen.	Nein, Standard = 5439
database	Der Name der Amazon Redshift-Datenbank.	Ja
username	Der Name des Benutzers, der Zugriff auf die Datenbank hat.	Ja
password	Kennwort für das Benutzerkonto. Markieren Sie dieses Feld als einen „SecureString“, um es sicher zu speichern, oder verweisen Sie auf ein in Azure Key Vault gespeichertes Geheimnis.	Ja
connectVia	Die Integrationslaufzeit, die zum Herstellen einer Verbindung mit dem Datenspeicher verwendet werden muss. Sie können die Azure-Integrationslaufzeit oder selbstgehostete Integrationslaufzeit verwenden (sofern sich Ihr Datenspeicher in einem privaten Netzwerk befindet). Wenn keine Option angegeben ist, wird die standardmäßige Azure Integration Runtime verwendet.	Nein

Beispiel:

{
    "name": "AmazonRedshiftLinkedService",
    "properties":
    {
        "type": "AmazonRedshift",
        "typeProperties":
        {
            "server": "<server name>",
            "database": "<database name>",
            "username": "<username>",
            "password": {
                "type": "SecureString",
                "value": "<password>"
            }
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Dataset-Eigenschaften

Eine vollständige Liste mit den Abschnitten und Eigenschaften, die zum Definieren von Datasets zur Verfügung stehen, finden Sie im Artikel zu Datasets. Dieser Abschnitt enthält eine Liste der Eigenschaften, die vom Amazon Redshift-Dataset unterstützt werden.

Zum Kopieren von Daten aus Amazon Redshift werden die folgenden Eigenschaften unterstützt:

Eigenschaft	Beschreibung	Erforderlich
type	Die type-Eigenschaft des Datasets muss auf folgenden Wert festgelegt werden: AmazonRedshiftTable	Ja
schema	Name des Schemas.	Nein (wenn „query“ in der Aktivitätsquelle angegeben ist)
table	Der Name der Tabelle.	Nein (wenn „query“ in der Aktivitätsquelle angegeben ist)
tableName	Name der Tabelle mit Schema. Diese Eigenschaft wird aus Gründen der Abwärtskompatibilität weiterhin unterstützt. Verwenden Sie `schema` und `table` für eine neue Workload.	Nein (wenn „query“ in der Aktivitätsquelle angegeben ist)

Beispiel

{
    "name": "AmazonRedshiftDataset",
    "properties":
    {
        "type": "AmazonRedshiftTable",
        "typeProperties": {},
        "schema": [],
        "linkedServiceName": {
            "referenceName": "<Amazon Redshift linked service name>",
            "type": "LinkedServiceReference"
        }
    }
}

Wenn Sie das Datenset vom Typ RelationalTable verwenden, wird es weiterhin unverändert unterstützt. Es wird jedoch empfohlen, zukünftig die neue Version zu verwenden.

Eigenschaften der Kopieraktivität

Eine vollständige Liste mit den Abschnitten und Eigenschaften zum Definieren von Aktivitäten finden Sie im Artikel Pipelines. Dieser Abschnitt enthält eine Liste der Eigenschaften, die von der Amazon Redshift-Quelle unterstützt werden.

Amazon Redshift als Quelle

Legen Sie zum Kopieren von Daten aus Amazon Redshift den Quelltyp in der Kopieraktivität auf AmazonRedshiftSource fest. Folgende Eigenschaften werden im Abschnitt source der Kopieraktivität unterstützt:

Eigenschaft	Beschreibung	Erforderlich
type	Die type-Eigenschaft der Quelle der Kopieraktivität muss auf Folgendes festgelegt werden: AmazonRedshiftSource	Ja
Abfrage	Verwendet die benutzerdefinierte Abfrage zum Lesen von Daten. Beispiel: select * from MyTable.	Nein (wenn „tableName“ im Dataset angegeben ist)
redshiftUnloadSettings	Eigenschaftengruppe bei Verwendung von Amazon Redshift UNLOAD.	Nein
s3LinkedServiceName	Bezieht sich auf eine Amazon S3-Instanz, die als Zwischenspeicher verwendet wird, indem der Name eines verknüpften Diensts des Typs „AmazonS3“ angegeben wird.	Ja, wenn UNLOAD verwendet wird
bucketName	Gibt den S3-Bucket zum Speichern der vorläufigen Daten an. Ohne Angabe wird es vom Dienst automatisch generiert.	Ja, wenn UNLOAD verwendet wird

Beispiel: Amazon Redshift-Quelle in der Kopieraktivität mit UNLOAD

"source": {
    "type": "AmazonRedshiftSource",
    "query": "<SQL query>",
    "redshiftUnloadSettings": {
        "s3LinkedServiceName": {
            "referenceName": "<Amazon S3 linked service>",
            "type": "LinkedServiceReference"
        },
        "bucketName": "bucketForUnload"
    }
}

Erfahren Sie mehr darüber, wie Sie mithilfe von UNLOAD effizient Daten aus einem Amazon Redshift aus dem nächsten Abschnitt kopieren.

Verwenden von UNLOAD zum Kopieren von Daten aus Amazon Redshift

UNLOAD ist ein von Amazon Redshift bereitgestellter Mechanismus, mit dem die Ergebnisse einer Abfrage in eine oder mehrere Dateien in Amazon Simple Storage Service (Amazon S3) entladen werden können. Dieser Mechanismus wird von Amazon zum Kopieren großer DataSets aus Redshift empfohlen.

Beispiel: Kopieren von Daten aus Amazon Redshift in Azure Synapse Analytics mithilfe von UNLOAD, gestaffeltem Kopieren und PolyBase

In diesem Beispiel für einen Anwendungsfall werden bei der Kopieraktivität Daten entsprechend der Konfiguration in „redshiftUnloadSettings“ aus Amazon Redshift in Amazon S3 entladen, dann entsprechend der Angabe in „stagingSettings“ Daten aus Amazon S3 in Azure Blob kopiert und schließlich Daten mithilfe von PolyBase in Azure Synapse Analytics geladen. Die gesamte vorläufige Formatierung wird von der Kopieraktivität ordnungsgemäß verarbeitet.

Redshift zu Azure Synapse Analytics-Workflow zum Kopieren

"activities":[
    {
        "name": "CopyFromAmazonRedshiftToSQLDW",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "AmazonRedshiftDataset",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "AzureSQLDWDataset",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "AmazonRedshiftSource",
                "query": "select * from MyTable",
                "redshiftUnloadSettings": {
                    "s3LinkedServiceName": {
                        "referenceName": "AmazonS3LinkedService",
                        "type": "LinkedServiceReference"
                    },
                    "bucketName": "bucketForUnload"
                }
            },
            "sink": {
                "type": "SqlDWSink",
                "allowPolyBase": true
            },
            "enableStaging": true,
            "stagingSettings": {
                "linkedServiceName": "AzureStorageLinkedService",
                "path": "adfstagingcopydata"
            },
            "dataIntegrationUnits": 32
        }
    }
]

Datentypzuordnung für Amazon Redshift

Beim Kopieren von Daten aus Amazon Redshift werden die folgenden Zuordnungen von Amazon Redshift-Datentypen zu den vom Dienst intern verwendeten Zwischendatentypen verwendet. Unter Schema- und Datentypzuordnungen erfahren Sie, wie Sie Aktivitätszuordnungen für Quellschema und Datentyp in die Senke kopieren.

Amazon Redshift-Datentyp	Zwischendatentyp des Diensts
bigint	Int64
BOOLEAN	String
CHAR	String
DATE	Datetime
DECIMAL	Decimal
DOUBLE PRECISION	Double
INTEGER	Int32
real	Single
SMALLINT	Int16
TEXT	String
TIMESTAMP	Datetime
VARCHAR	String

Eigenschaften der Lookup-Aktivität

Ausführliche Informationen zu den Eigenschaften finden Sie unter Lookup-Aktivität.

Eine Liste der Datenspeicher, die als Quelles und Senken für die Kopieraktivität unterstützt werden, finden Sie in der Dokumentation für Unterstützte Datenspeicher.

Teilen über

Kopieren von Daten aus Amazon Redshift mithilfe von Azure Data Factory oder Synapse Analytics

Unterstützte Funktionen

Voraussetzungen

Erste Schritte

Erstellen eines verknüpften Diensts zu Amazon Redshift über die Benutzeroberfläche

Details zur Connectorkonfiguration

Eigenschaften des verknüpften Diensts

Dataset-Eigenschaften

Eigenschaften der Kopieraktivität

Amazon Redshift als Quelle

Verwenden von UNLOAD zum Kopieren von Daten aus Amazon Redshift

Datentypzuordnung für Amazon Redshift

Eigenschaften der Lookup-Aktivität

Feedback

Zusätzliche Ressourcen

Teilen über

Kopieren von Daten aus Amazon Redshift mithilfe von Azure Data Factory oder Synapse Analytics

Unterstützte Funktionen

Voraussetzungen

Erste Schritte

Erstellen eines verknüpften Diensts zu Amazon Redshift über die Benutzeroberfläche

Details zur Connectorkonfiguration

Eigenschaften des verknüpften Diensts

Dataset-Eigenschaften

Eigenschaften der Kopieraktivität

Amazon Redshift als Quelle

Verwenden von UNLOAD zum Kopieren von Daten aus Amazon Redshift

Datentypzuordnung für Amazon Redshift

Eigenschaften der Lookup-Aktivität

Zugehöriger Inhalt

Feedback

Zusätzliche Ressourcen