Kopieren von Daten aus Netezza mithilfe von Azure Data Factory oder Synapse Analytics

Artikel
08/05/2024

GILT FÜR: Azure Data Factory Azure Synapse Analytics

Tipp

Testen Sie Data Factory in Microsoft Fabric, eine All-in-One-Analyselösung für Unternehmen. Microsoft Fabric deckt alle Aufgaben ab, von der Datenverschiebung bis hin zu Data Science, Echtzeitanalysen, Business Intelligence und Berichterstellung. Erfahren Sie, wie Sie kostenlos eine neue Testversion starten!

In diesem Artikel wird beschrieben, wie Sie die Copy-Aktivität in Azure Data Factory- oder Azure Synapse Analytics-Pipelines verwenden, um Daten aus Netezza zu kopieren. Dieser Artikel baut auf dem Artikel zur Kopieraktivität auf, der eine allgemeine Übersicht über die Kopieraktivität enthält.

Tipp

Ein Szenario für die Datenmigration von Netezza zu Azure finden Sie im Artikel zum Migrieren von Daten von einem lokalen Netezza-Server zu Azure.

Unterstützte Funktionen

Dieser Netezza-Connector wird für die folgenden Funktionen unterstützt:

Unterstützte Funktionen	IR
Kopieraktivität (Quelle/-)	① ②
Lookup-Aktivität	① ②

① Azure Integration Runtime ② Selbstgehostete Integration Runtime

Eine Liste der Datenspeicher, die die Kopieraktivität als Quellen und Senken unterstützt, finden Sie unter Unterstützte Datenspeicher und Formate.

Der Netezza-Connector unterstützt das parallele Kopieren aus einer Quelle. Weitere Informationen finden Sie im Abschnitt Paralleles Kopieren aus Netezza.

Der Dienst enthält einen integrierten Treiber zum Herstellen der Konnektivität. Sie müssen Treiber für die Verwendung dieses Connectors nicht manuell installieren.

Voraussetzungen

Wenn sich Ihr Datenspeicher in einem lokalen Netzwerk, in einem virtuellen Azure-Netzwerk oder in einer virtuellen privaten Amazon-Cloud befindet, müssen Sie eine selbstgehostete Integration Runtime konfigurieren, um eine Verbindung herzustellen.

Handelt es sich bei Ihrem Datenspeicher um einen verwalteten Clouddatendienst, können Sie die Azure Integration Runtime verwenden. Ist der Zugriff auf IP-Adressen beschränkt, die in den Firewallregeln genehmigt sind, können Sie Azure Integration Runtime-IPs zur Positivliste hinzufügen.

Sie können auch das Feature managed virtual network integration runtime (Integration Runtime für verwaltete virtuelle Netzwerke) in Azure Data Factory verwenden, um auf das lokale Netzwerk zuzugreifen, ohne eine selbstgehostete Integration Runtime zu installieren und zu konfigurieren.

Weitere Informationen zu den von Data Factory unterstützten Netzwerksicherheitsmechanismen und -optionen finden Sie unter Datenzugriffsstrategien.

Erste Schritte

Sie können mit dem .NET SDK, Python SDK, Azure PowerShell, der REST-API oder einer Azure Resource Manager-Vorlage eine Pipeline erstellen, die eine Kopieraktivität verwendet. Eine ausführliche Anleitung zum Erstellen einer Pipeline mit einer Kopieraktivität finden Sie im Tutorial zur Kopieraktivität.

Erstellen eines mit Netezza verknüpften Diensts über die Benutzeroberfläche

Führen Sie die folgenden Schritte aus, um einen mit Netezza verknüpften Dienst über die Benutzeroberfläche des Azure-Portals zu erstellen.

Navigieren Sie in Ihrem Azure Data Factory- oder Synapse-Arbeitsbereich zu der Registerkarte „Verwalten“. Wählen Sie die Option „Verknüpfte Dienste“ aus, und klicken Sie anschließend auf „Neu“:
- Azure Data Factory
- Azure Synapse
Suchen Sie nach Netezza, und wählen Sie den Netezza-Connector aus.
Konfigurieren Sie die Dienstdetails, testen Sie die Verbindung, und erstellen Sie den neuen verknüpften Dienst.

Details zur Connectorkonfiguration

In den folgenden Abschnitten finden Sie Details zu den Eigenschaften, mit denen Sie die Entitäten definieren können, die spezifisch für den Netezza-Connector sind.

Eigenschaften des verknüpften Diensts

Folgende Eigenschaften werden für den mit Netezza verknüpften Dienst unterstützt:

Eigenschaft	Beschreibung	Erforderlich
type	Die type-Eigenschaft muss auf Netezza festgelegt werden.	Ja
connectionString	Eine ODBC-Verbindungszeichenfolge zum Herstellen einer Verbindung mit Netezza. Sie können auch das Kennwort in Azure Key Vault speichern und die `pwd`-Konfiguration aus der Verbindungszeichenfolge pullen. Ausführlichere Informationen finden Sie in den folgenden Beispielen und im Artikel Speichern von Anmeldeinformationen in Azure Key Vault.	Ja
connectVia	Die Integration Runtime, die zum Herstellen einer Verbindung mit dem Datenspeicher verwendet werden soll. Weitere Informationen finden Sie im Abschnitt Voraussetzungen. Wenn keine Option angegeben ist, wird die standardmäßige Azure Integration Runtime verwendet.	Nein

Eine typische Verbindungszeichenfolge ist Server=<server>;Port=<port>;Database=<database>;UID=<user name>;PWD=<password>. Die folgende Tabelle beschreibt weitere Eigenschaften, die Sie festlegen können:

Eigenschaft	Beschreibung	Erforderlich
SecurityLevel	Der Sicherheitsgrad, den der Treiber für die Verbindung mit dem Datenspeicher verwendet. Beispiel: `SecurityLevel=preferredUnSecured`. Diese Werte werden unterstützt: - Nur ungesichert (onlyUnSecured): Der Treiber verwendet SSL nicht. - Bevorzugt ungesichert (preferredUnSecured) (Standard) : Wenn der Server die Wahl zulässt, verwendet der Treiber SSL nicht.	No

Beispiel

{
    "name": "NetezzaLinkedService",
    "properties": {
        "type": "Netezza",
        "typeProperties": {
            "connectionString": "Server=<server>;Port=<port>;Database=<database>;UID=<user name>;PWD=<password>"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Beispiel: Speichern des Kennworts in Azure Key Vault

{
    "name": "NetezzaLinkedService",
    "properties": {
        "type": "Netezza",
        "typeProperties": {
            "connectionString": "Server=<server>;Port=<port>;Database=<database>;UID=<user name>;",
            "pwd": { 
                "type": "AzureKeyVaultSecret", 
                "store": { 
                    "referenceName": "<Azure Key Vault linked service name>", 
                    "type": "LinkedServiceReference" 
                }, 
                "secretName": "<secretName>" 
            }
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Dataset-Eigenschaften

Dieser Abschnitt enthält eine Liste der Eigenschaften, die das Netezza-Dataset unterstützt.

Eine vollständige Liste mit den Abschnitten und Eigenschaften, die zum Definieren von Datasets zur Verfügung stehen, finden Sie unter Datasets.

Legen Sie zum Kopieren von Daten aus Netezza die type-Eigenschaft des Datasets auf NetezzaTable fest. Folgende Eigenschaften werden unterstützt:

Eigenschaft	Beschreibung	Erforderlich
type	Die type-Eigenschaft des Datasets muss auf folgenden Wert festgelegt werden: NetezzaTable	Ja
schema	Name des Schemas.	Nein (wenn „query“ in der Aktivitätsquelle angegeben ist)
table	Der Name der Tabelle.	Nein (wenn „query“ in der Aktivitätsquelle angegeben ist)
tableName	Name der Tabelle mit Schema. Diese Eigenschaft wird aus Gründen der Abwärtskompatibilität weiterhin unterstützt. Verwenden Sie `schema` und `table` für eine neue Workload.	Nein (wenn „query“ in der Aktivitätsquelle angegeben ist)

Beispiel

{
    "name": "NetezzaDataset",
    "properties": {
        "type": "NetezzaTable",
        "linkedServiceName": {
            "referenceName": "<Netezza linked service name>",
            "type": "LinkedServiceReference"
        },
        "typeProperties": {}
    }
}

Eigenschaften der Kopieraktivität

Dieser Abschnitt enthält eine Liste der Eigenschaften, die die Netezza-Quelle unterstützt.

Eine vollständige Liste mit den verfügbaren Abschnitten und Eigenschaften zum Definieren von Aktivitäten finden Sie unter Pipelines.

Netezza als Quelle

Tipp

Weitere Informationen zum effizienten Laden von Daten aus Netezza mithilfe der Datenpartitionierung finden Sie unter Paralleles Kopieren aus Netezza.

Legen Sie zum Kopieren von Daten aus Netezza den Quelltyp in der Kopieraktivität auf NetezzaSource fest. Die folgenden Eigenschaften werden im Abschnitt source der Kopieraktivität unterstützt:

Eigenschaft	Beschreibung	Erforderlich
type	Die type-Eigenschaft der Quelle der Kopieraktivität muss auf NetezzaSource festgelegt werden.	Ja
Abfrage	Verwendet die benutzerdefinierte SQL-Abfrage zum Lesen von Daten. Beispiel: `"SELECT * FROM MyTable"`	Nein (wenn „tableName“ im Dataset angegeben ist)
partitionOptions	Gibt die Datenpartitionierungsoptionen an, mit denen Daten aus Netezza geladen werden. Zulässige Werte sind: None (Standardwert), DataSlice und DynamicRange. Wenn eine Partitionsoption aktiviert ist (d.h. nicht `None`), wird der Grad an Parallelität zum gleichzeitigen Laden von Daten aus einer Netezza-Datenbank durch die Einstellung `parallelCopies` für die Kopieraktivität gesteuert.	Nein
partitionSettings	Geben Sie die Gruppe der Einstellungen für die Datenpartitionierung an. Verwenden Sie diese Option, wenn die Partitionsoption nicht `None` lautet.	Nein
partitionColumnName	Geben Sie den Namen der Quellspalte als Integer an, der von der Bereichspartitionierung für den parallelen Kopiervorgang verwendet wird. Ohne Angabe wird der Primärschlüssel der Tabelle automatisch erkannt und als Partitionsspalte verwendet. Verwenden Sie diese Option, wenn die Partitionsoption `DynamicRange` lautet. Wenn Sie die Quelldaten mithilfe einer Abfrage abrufen, integrieren Sie `?AdfRangePartitionColumnName` in die WHERE-Klausel. Ein Beispiel finden Sie im Abschnitt Paralleles Kopieren aus Netezza.	Nein
partitionUpperBound	Der Höchstwert der Partitionsspalte zum Herauskopieren von Daten. Verwenden Sie ihn, wenn die Partitionsoption `DynamicRange` lautet. Wenn Sie Quelldaten per Abfrage abrufen, integrieren Sie `?AdfRangePartitionUpbound` in die WHERE-Klausel. Ein Beispiel finden Sie im Abschnitt Paralleles Kopieren aus Netezza.	Nein
partitionLowerBound	Der Mindestwert der Partitionsspalte zum Herauskopieren von Daten. Verwenden Sie diese Option, wenn die Partitionsoption `DynamicRange` lautet. Wenn Sie die Quelldaten mithilfe einer Abfrage abrufen, integrieren Sie `?AdfRangePartitionLowbound` in die WHERE-Klausel. Ein Beispiel finden Sie im Abschnitt Paralleles Kopieren aus Netezza.	Nein

Beispiel:

"activities":[
    {
        "name": "CopyFromNetezza",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Netezza input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "NetezzaSource",
                "query": "SELECT * FROM MyTable"
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Paralleles Kopieren aus Netezza

Der Data Factory-Netezza-Connector verfügt über eine integrierte Datenpartitionierung zum parallelen Kopieren von Daten aus Netezza. Die Datenpartitionierungsoptionen befinden sich auf der Registerkarte Quelle der Kopieraktivität.

Screenshot der Partitionierungsoptionen

Wenn Sie partitioniertes Kopieren aktivieren, führt der Dienst parallele Abfragen an die Netezza-Quelle aus, um Daten partitionsweise zu laden. Der Parallelitätsgrad wird über die Einstellung parallelCopies der Kopieraktivität gesteuert. Wenn Sie z. B. parallelCopies auf vier einstellen, generiert der Dienst gleichzeitig vier Abfragen auf der Grundlage der von Ihnen angegebenen Partitionsoption und -einstellungen und führt sie aus, wobei jede Abfrage einen Teil der Daten aus Ihrer Netezza-Datenbank abruft.

Es wird empfohlen, das parallele Kopieren mit Datenpartitionierung zu aktivieren, vor allem, wenn Sie große Datenmengen aus Ihrer Netezza-Datenbank laden. Im Anschluss finden Sie empfohlene Konfigurationen für verschiedene Szenarien. Beim Kopieren von Daten in einen dateibasierten Datenspeicher wird empfohlen, mehrere Dateien in einen Ordner zu schreiben. (Geben Sie nur den Ordnernamen an.) In diesem Fall ist die Leistung besser als beim Schreiben in eine einzelne Datei.

Szenario	Empfohlene Einstellungen
Vollständiges Laden aus großer Tabelle	Partitionsoption: Datenslice Der Dienst partitioniert während der Ausführung automatisch die Daten basierend auf den integrierten Datenslices von Netezza und kopiert die Daten partitionsweise.
Laden einer großen Datenmenge unter Verwendung einer benutzerdefinierten Abfrage	Partitionsoption: Datenslice Abfrage: `SELECT * FROM <TABLENAME> WHERE mod(datasliceid, ?AdfPartitionCount) = ?AdfDataSliceCondition AND <your_additional_where_clause>` Der Dienst ersetzt `?AdfPartitionCount` (bei festgelegter Anzahl paralleler Kopien für Copy-Aktivität) und `?AdfDataSliceCondition` während der Ausführung durch die Datenslice-Partitionierungslogik und sendet die Daten dann an Netezza.
Laden einer großen Datenmenge unter Verwendung einer benutzerdefinierten Abfrage, wenn eine Integerspalte mit gleichmäßig verteilten Werten für die Bereichspartitionierung vorhanden ist	Partitionsoptionen: Dynamische Bereichspartitionierung Abfrage: `SELECT * FROM <TABLENAME> WHERE ?AdfRangePartitionColumnName <= ?AdfRangePartitionUpbound AND ?AdfRangePartitionColumnName >= ?AdfRangePartitionLowbound AND <your_additional_where_clause>` Partitionsspalte: Geben Sie die Spalte für die Datenpartitionierung an. Die Partitionierung kann auf der Grundlage der Spalte mit dem Datentyp „Integer“ erfolgen. Obergrenze der Partition und Untergrenze der Partition: Geben Sie an, ob Sie anhand der Partitionsspalte filtern möchten, um nur Daten zwischen der Ober- und der Untergrenze zu erhalten. Der Dienst `?AdfRangePartitionColumnName`, `?AdfRangePartitionUpbound` und `?AdfRangePartitionLowbound` während der Ausführung durch die tatsächlichen Spaltennamen und Wertebereiche für jede Partition und sendet sie an Netezza. Wenn z. B. für die Partitionsspalte „ID“ die untere Grenze auf 1 und die obere Grenze auf 80 festgelegt ist und die Parallelkopie auf 4 eingestellt ist, ruft der Dienst Daten für jeweils 4 Partitionen ab. Die ID-Bereiche sehen dann wie folgt aus: [1–20], [21–40], [41–60] und [61–80].

Beispiel: Abfrage mit Datenslicepartition

"source": {
    "type": "NetezzaSource",
    "query": "SELECT * FROM <TABLENAME> WHERE mod(datasliceid, ?AdfPartitionCount) = ?AdfDataSliceCondition AND <your_additional_where_clause>",
    "partitionOption": "DataSlice"
}

Beispiel: Abfrage mit dynamischer Bereichspartition

"source": {
    "type": "NetezzaSource",
    "query": "SELECT * FROM <TABLENAME> WHERE ?AdfRangePartitionColumnName <= ?AdfRangePartitionUpbound AND ?AdfRangePartitionColumnName >= ?AdfRangePartitionLowbound AND <your_additional_where_clause>",
    "partitionOption": "DynamicRange",
    "partitionSettings": {
        "partitionColumnName": "<dynamic_range_partition_column_name>",
        "partitionUpperBound": "<upper_value_of_partition_column>",
        "partitionLowerBound": "<lower_value_of_partition_column>"
    }
}

Eigenschaften der Lookup-Aktivität

Ausführliche Informationen zu den Eigenschaften finden Sie unter Lookup-Aktivität.

Eine Liste der Datenspeicher, die die Kopieraktivität als Quellen und Senken unterstützt, finden Sie unter Unterstützte Datenspeicher und Formate.

Freigeben über

Kopieren von Daten aus Netezza mithilfe von Azure Data Factory oder Synapse Analytics

Unterstützte Funktionen

Voraussetzungen

Erste Schritte

Erstellen eines mit Netezza verknüpften Diensts über die Benutzeroberfläche

Details zur Connectorkonfiguration

Eigenschaften des verknüpften Diensts

Dataset-Eigenschaften

Eigenschaften der Kopieraktivität

Netezza als Quelle

Paralleles Kopieren aus Netezza

Eigenschaften der Lookup-Aktivität

Feedback

Zusätzliche Ressourcen

Freigeben über

Kopieren von Daten aus Netezza mithilfe von Azure Data Factory oder Synapse Analytics

Unterstützte Funktionen

Voraussetzungen

Erste Schritte

Erstellen eines mit Netezza verknüpften Diensts über die Benutzeroberfläche

Details zur Connectorkonfiguration

Eigenschaften des verknüpften Diensts

Dataset-Eigenschaften

Eigenschaften der Kopieraktivität

Netezza als Quelle

Paralleles Kopieren aus Netezza

Eigenschaften der Lookup-Aktivität

Zugehöriger Inhalt

Feedback

Zusätzliche Ressourcen