Konfigurieren von Data Warehouse in einer Copy-Aktivität

In diesem Artikel wird beschrieben, wie Sie die Copy-Aktivität in einer Datenpipeline verwenden, um Daten aus einem und in ein Data Warehouse zu kopieren.

Unterstützte Konfiguration

Die Konfiguration der einzelnen Registerkarten unter der Kopieraktivität finden Sie in den folgenden Abschnitten.

Allgemein

Wechseln Sie für die Konfiguration der Registerkarte Allgemein zu Allgemein.

Quelle

Die folgenden Eigenschaften werden für ein Data Warehouse als Quelle in einer Copy-Aktivität unterstützt.

Screenshot showing source tab and the list of properties.

Die folgenden Eigenschaften sind erforderlich:

  • Datenspeichertyp: Wählen Sie Arbeitsbereich aus.

  • Datenspeichertyp des Arbeitsbereichs: Wählen Sie in der Liste der Datenspeichertypen Data Warehouse aus.

  • Data Warehouse: Wählen Sie ein vorhandenes Data Warehouse im Arbeitsbereich aus.

  • Abfrage verwenden: Wählen Sie Tabelle, Abfrage oder Gespeicherte Prozedur aus.

    • Wenn Sie Tabelle auswählen, wählen Sie in der Tabellenliste eine vorhandene Tabelle aus, oder geben Sie manuell einen Tabellennamen an, indem Sie das Feld Bearbeiten auswählen.

      Screenshot showing use query of table.

    • Wenn Sie Abfrage auswählen, verwenden Sie den Editor für benutzerdefinierte SQL-Abfragen, um eine SQL-Abfrage für das Abrufen der Quelldaten zu schreiben.

      Screenshot showing use query of query.

    • Wenn Sie Gespeicherte Prozedur auswählen, wählen Sie in der Dropdownliste eine vorhandene gespeicherte Prozedur aus, oder geben Sie den Namen einer gespeicherten Prozedur als Quelle an, indem Sie das Feld Bearbeiten auswählen.

      Screenshot showing use query of stored procedure.

Unter Erweitert können Sie die folgenden Felder angeben:

  • Abfragetimeout (Minuten): Timeout für die Ausführung von Abfragebefehlen mit einem Standardwert von 120 Minuten. Wenn diese Eigenschaft festgelegt ist, haben die zulässigen Werte das Format einer Zeitspanne, z. B. „02:00:00“ (120 Minuten).

  • Isolationsstufe: Geben Sie das Sperrverhalten für Transaktionen für die SQL-Quelle an.

  • Partitionsoption: Geben Sie die Datenpartitionierungsoptionen für das Laden von Daten aus dem Data Warehouse an. Sie können Keine oder Dynamischer Bereich auswählen.

    Wenn Sie Dynamischer Bereich auswählen, ist der Bereichspartitionsparameter (?AdfDynamicRangePartitionCondition) erforderlich, wenn eine Abfrage mit aktivierter Parallelität verwendet wird. Beispielabfrage: SELECT * FROM <TableName> WHERE ?AdfDynamicRangePartitionCondition.

    Screenshot showing dynamic range.

    • Partitionsspaltenname: Geben Sie den Namen der Quellspalte als „integer“ oder „date/datetime“ (int, smallint, bigint, date, smalldatetime, datetime, datetime2 oder datetimeoffset) an, der bei der Bereichspartitionierung für das parallele Kopieren verwendet wird. Ohne Angabe wird der Index oder der Primärschlüssel der Tabelle automatisch erkannt und als Partitionsspalte verwendet.
    • Partitionsobergrenze: Der maximale Wert der Partitionsspalte für das Teilen des Partitionsbereichs. Dieser Wert wird zur Entscheidung über den Partitionssprung verwendet, nicht zum Filtern der Zeilen in der Tabelle. Alle Zeilen in der Tabelle oder im Abfrageergebnis werden partitioniert und kopiert.
    • Partitionsuntergrenze: Der Mindestwert der Partitionsspalte für das Teilen des Partitionsbereichs. Dieser Wert wird zur Entscheidung über den Partitionssprung verwendet, nicht zum Filtern der Zeilen in der Tabelle. Alle Zeilen in der Tabelle oder im Abfrageergebnis werden partitioniert und kopiert.
  • Zusätzliche Spalten: Fügen Sie zusätzliche Datenspalten hinzu, um den relativen Pfad oder statischen Wert der Quelldateien zu speichern. Für Letzteres wird ein Ausdruck unterstützt.

    Screenshot showing additional columns.

Destination

Die folgenden Eigenschaften werden für ein Data Warehouse als Ziel in einer Copy-Aktivität unterstützt.

Screenshot showing destination tab and the list of properties.

Die folgenden Eigenschaften sind erforderlich:

  • Datenspeichertyp: Wählen Sie Arbeitsbereich aus.
  • Datenspeichertyp des Arbeitsbereichs: Wählen Sie in der Liste der Datenspeichertypen Data Warehouse aus.
  • Data Warehouse: Wählen Sie ein vorhandenes Data Warehouse im Arbeitsbereich aus.
  • Tabelle: Wählen Sie in der Tabellenliste eine vorhandene Tabelle aus, oder geben Sie einen Tabellennamen als Ziel an.

Unter Erweitert können Sie die folgenden Felder angeben:

  • Kopierbefehlseinstellungen: Geben Sie die Eigenschaften des Kopierbefehls an.

    Screenshot showing default values of copy command settings.

  • Tabellenoptionen: Geben Sie an, ob die Zieltabelle auf Basis des Quellschemas automatisch erstellt werden soll, wenn sie nicht vorhanden ist. Sie können Keine oder Tabelle automatisch erstellen auswählen.

  • Skript vor Kopiervorgang: Geben Sie eine SQL-Abfrage an, die bei jeder Ausführung vor dem Schreiben von Daten in das Data Warehouse ausgeführt werden soll. Sie können diese Eigenschaft nutzen, um vorab geladene Daten zu bereinigen.

  • Zeitlimit für Batchschreibvorgang: Die Wartezeit beim Batcheinfügevorgang, bevor ein Timeout auftritt. Die zulässigen Werte haben das Format einer Zeitspanne. Der Standardwert lautet „00:30:00“ (30 Minuten).

  • Analyse von Leistungsmetriken deaktivieren: Der Dienst sammelt Metriken für die Optimierung der Kopierleistung und für Empfehlungen. Wenn dieses Feature problematisch sein könnte, deaktivieren Sie es.

Direktes Kopieren mithilfe des COPY-Befehls

Der COPY-Befehl für Data Warehouses unterstützt Azure Blob Storage und Azure Data Lake Storage Gen2 direkt als Quelldatenspeicher. Wenn Ihre Quelldaten die in diesem Abschnitt beschriebenen Kriterien erfüllen, können Sie mit dem COPY-Befehl direkt aus dem Quelldatenspeicher in ein Data Warehouse kopieren.

  1. Quelldaten und -format enthalten die folgenden Typen und Authentifizierungsmethoden:

    Unterstützter Quelldatenspeicher-Typ Unterstütztes Format Unterstützter Quellauthentifizierungstyp
    Azure Blob Storage Text mit Trennzeichen
    Parquet
    Anonyme Authentifizierung
    Kontoschlüsselauthentifizierung
    SAS-Authentifizierung (Shared Access Signature)
    Azure Data Lake Storage Gen2 Text mit Trennzeichen
    Parquet
    Kontoschlüsselauthentifizierung
    SAS-Authentifizierung (Shared Access Signature)
  2. Die folgenden Formateinstellungen können festgelegt werden:

    1. Für Parquet: Der Komprimierungstyp kann None, snappy oder gzip sein.
    2. Für DelimitedText:
      1. Zeilentrennzeichen: Geben Sie beim Kopieren von durch Trennzeichen getrennten Text in ein Data Warehouse über den direkten COPY-Befehl das Zeilentrennzeichen explizit an („\r“ „\n“ oder „\r\n“). Nur wenn das Zeilentrennzeichen der Quelldatei „\r\n“ ist, funktioniert der Standardwert („\r“, „\n“ oder „\r\n“). Aktivieren Sie andernfalls das Staging für Ihr Szenario.
      2. Sie können den Standardwert NULL-Wert übernehmen oder Leere Zeichenfolge („“) festlegen.
      3. Für die Codierung können Sie den Standardwert übernehmen oder UTF-8 bzw. UTF-16 festlegen.
      4. Für die Anzahl übersprungener Zeilen können Sie den Standardwert beibehalten oder 0 (null) festlegen.
      5. Der Komprimierungstyp kann None oder gzip sein.
  3. Wenn Ihre Quelle ein Ordner ist, müssen Sie das Kontrollkästchen Rekursiv aktivieren.

  4. Startzeit (UTC) und Endzeit (UTC) in Nach letzter Änderung filtern, Präfix, Partitionsermittlung aktivieren und Zusätzliche Spalten werden nicht angegeben.

Informationen zum Erfassen von Daten in Ihrem Data Warehouse mithilfe des COPY-Befehls finden Sie in diesem Artikel.

Wenn der Speicher und das Format der Quelldaten vom COPY-Befehl ursprünglich nicht unterstützt werden, können Sie stattdessen das Feature „Gestaffeltes Kopieren“ mit dem COPY-Befehl verwenden. Es konvertiert die Daten automatisch in ein für den COPY-Befehl kompatibles Format und ruft dann einen COPY-Befehl auf, um Daten in das Data Warehouse zu laden.

Zuordnung

Wechseln Sie für die Konfiguration der Registerkarte Zuordnung zu Zuordnung.

Einstellungen

Wechseln Sie für die Konfiguration der Registerkarte Einstellungen zu Einstellungen.

Tabellenzusammenfassung

Die folgenden Tabellen enthalten weitere Informationen zur Copy-Aktivität in Data Warehouse.

Quellinformationen

Name Beschreibung Wert Erforderlich JSON-Skripteigenschaft
Datenspeichertyp Ihr Datenspeichertyp Arbeitsbereich Ja /
Datenspeichertyp des Arbeitsbereichs In diesem Abschnitt wählen Sie den Datenspeichertyp des Arbeitsbereichs aus. Data Warehouse Ja Typ
Data Warehouse Das Data Warehouse, das Sie verwenden möchten. <Ihr Data Warehouse> Ja endpoint
artifactId
Abfrage verwenden Das Verfahren zum Lesen von Daten aus dem Data Warehouse. • Tabellen
• Abfrage
• Gespeicherte Prozedur
Nein (unter typeProperties>source)
• typeProperties:
 schema
 table
• sqlReaderQuery
• sqlReaderStoredProcedureName
Abfragetimeout (Minuten) Timeout für die Ausführung von Abfragebefehlen mit einem Standardwert von 120 Minuten. Wenn diese Eigenschaft festgelegt ist, haben die zulässigen Werte das Format einer Zeitspanne, z. B. „02:00:00“ (120 Minuten). Zeitraum Nein queryTimeout
Isolationsstufe Das Sperrverhalten für Transaktionen für die Quelle. • Keine
• Snapshot
Nein isolationLevel
Partitionsoption Die Datenpartitionierungsoptionen, mit denen Daten aus dem Data Warehouse geladen werden. • Keine
• Dynamischer Bereich
Nein partitionOption
Partitionsspaltenname Der Name der Quellspalte als „integer“ oder „date/datetime“ (int, smallint, bigint, date, smalldatetime, datetime, datetime2 oder datetimeoffset), der von der Bereichspartitionierung für das parallele Kopieren verwendet wird. Ohne Angabe wird der Index oder der Primärschlüssel der Tabelle automatisch erkannt und als Partitionsspalte verwendet. <Partitionsspaltenname> Nein partitionColumnName
Partitionsobergrenze Der maximale Wert der Partitionsspalte für das Teilen des Partitionsbereichs. Dieser Wert wird zur Entscheidung über den Partitionssprung verwendet, nicht zum Filtern der Zeilen in der Tabelle. Alle Zeilen in der Tabelle oder im Abfrageergebnis werden partitioniert und kopiert. <Partitionsobergrenze> Nein partitionUpperBound
Partitionsuntergrenze Der minimale Wert der Partitionsspalte für das Teilen des Partitionsbereichs. Dieser Wert wird zur Entscheidung über den Partitionssprung verwendet, nicht zum Filtern der Zeilen in der Tabelle. Alle Zeilen in der Tabelle oder im Abfrageergebnis werden partitioniert und kopiert. <Partitionsuntergrenze> Nein partitionLowerBound
Zusätzliche Spalten Fügen Sie zusätzliche Datenspalten hinzu, um den relativen Pfad oder statischen Wert der Quelldateien zu speichern. • Name
• Wert
Nein additionalColumns:
• Name
• Wert

Zielinformationen

Name Beschreibung Wert Erforderlich JSON-Skripteigenschaft
Datenspeichertyp Ihr Datenspeichertyp Arbeitsbereich Ja /
Datenspeichertyp des Arbeitsbereichs In diesem Abschnitt wählen Sie den Datenspeichertyp des Arbeitsbereichs aus. Data Warehouse Ja Typ
Data Warehouse Das Data Warehouse, das Sie verwenden möchten. <Ihr Data Warehouse> Ja endpoint
artifactId
Tabelle Die Zieltabelle für das Schreiben von Daten. <Name Ihrer Zieltabelle> Ja schema
table
Kopierbefehlseinstellungen Die Einstellungen für Eigenschaften des Kopierbefehls. Umfasst die Einstellungen für Standardwerte. Standardwert:
• Spalte
• Wert
Nein copyCommandSettings:
defaultValues:
• columnName
• defaultValue
Tabellenoption Gibt an, ob die Zieltabelle auf Basis des Quellschemas automatisch erstellt werden soll, wenn sie nicht vorhanden ist. • Keine
• Tabelle automatisch erstellen
Nein tableOption:

• autoCreate
Skript vor Kopiervorgang Eine SQL-Abfrage, die bei jeder Ausführung vor dem Schreiben von Daten in das Data Warehouse ausgeführt werden soll. Sie können diese Eigenschaft nutzen, um vorab geladene Daten zu bereinigen. <Skript vor Kopiervorgang> Nein preCopyScript
Zeitlimit für Batchschreibvorgang Die Wartezeit beim Batcheinfügevorgang, bevor ein Timeout auftritt. Die zulässigen Werte haben das Format einer Zeitspanne. Der Standardwert lautet „00:30:00“ (30 Minuten). Zeitraum Nein writeBatchTimeout
Analyse von Leistungsmetriken deaktivieren Der Dienst sammelt Metriken für die Leistungsoptimierung von Kopiervorgängen und für Empfehlungen, wodurch zusätzlicher Zugriff auf die Masterdatenbank ermöglicht wird. Aktivieren oder deaktivieren Nein disableMetricsCollection:
true oder false