Share via


Azure Database for PostgreSQL configureren in een kopieeractiviteit

In dit artikel wordt beschreven hoe u de kopieeractiviteit in de gegevenspijplijn gebruikt om gegevens van en naar Azure Database for PostgreSQL te kopiëren.

Ondersteunde configuratie

Voor de configuratie van elk tabblad onder kopieeractiviteit gaat u respectievelijk naar de volgende secties.

Algemeen

Raadpleeg de richtlijnen voor algemene instellingen voor het configureren van het tabblad Algemene instellingen.

Bron

Ga naar het tabblad Bron om de bron van de kopieeractiviteit te configureren. Zie de volgende inhoud voor de gedetailleerde configuratie.

Screenshot showing source tab and the list of properties.

De volgende drie eigenschappen zijn vereist:

  • Gegevensarchieftype: Selecteer Extern.
  • Verbinding maken ion: Selecteer een Azure Database for PostgreSQL-verbinding in de lijst met verbindingen. Als er geen verbinding bestaat, maakt u een nieuwe Azure Database for PostgreSQL-verbinding door Nieuw te selecteren.
  • Verbinding maken iontype: Selecteer Azure Database for PostgreSQL.
  • Query gebruiken: Selecteer Tabel om gegevens uit de opgegeven tabel te lezen of selecteer Query om gegevens te lezen met behulp van query's.
    • Als u Tabel selecteert:

      • Tabel: Selecteer de tabel in de vervolgkeuzelijst of selecteer Bewerken om deze handmatig in te voeren om gegevens te lezen.

        Screenshot showing Use query - Table.

    • Als u Query selecteert:

      • Query: Geef de aangepaste SQL-query op om gegevens te lezen. Bijvoorbeeld: SELECT * FROM mytable of SELECT * FROM "MyTable".

        Notitie

        In PostgreSQL wordt de naam van de entiteit behandeld als hoofdlettergevoelig als deze niet wordt geciteerd.

        Screenshot showing Use query - Query.

Onder Geavanceerd kunt u de volgende velden opgeven:

  • Partitieoptie: hiermee geeft u de opties voor gegevenspartitionering op die worden gebruikt voor het laden van gegevens uit Azure Database for PostgreSQL. Wanneer een partitieoptie is ingeschakeld (dat wil niet geen), wordt de mate van parallelle uitvoering om gegevens uit een Azure Database for PostgreSQL gelijktijdig te laden, beheerd door de mate van kopieerparallelisme op het tabblad Instellingen voor kopieeractiviteit.

    Als u Geen selecteert, kiest u ervoor om partitie niet te gebruiken.

    Als u fysieke partities van de tabel selecteert:

    • Partitienamen: geef de lijst met fysieke partities op die moeten worden gekopieerd.

      Als u een query gebruikt om de brongegevens op te halen, koppelt u deze ?AdfTabularPartitionName aan de WHERE-component. Zie de sectie Parallel kopiëren uit Azure Database for PostgreSQL voor een voorbeeld.

      Screenshot showing the configuration when you select Physical partitions of table.

    Als u dynamisch bereik selecteert:

    • Naam van partitiekolom: geef de naam op van de bronkolom in geheel getal of datum/datum/tijd -type (intbigintsmallint, , date, of timestamp without time zonetimestamp with time zone time without time zone) dat wordt gebruikt door bereikpartitionering voor parallelle kopie. Als deze niet is opgegeven, wordt de primaire sleutel van de tabel automatisch gedetecteerd en gebruikt als partitiekolom.

      Als u een query gebruikt om de brongegevens op te halen, koppelt u deze ?AdfRangePartitionColumnName aan de WHERE-component. Zie de sectie Parallel kopiëren uit Azure Database for PostgreSQL voor een voorbeeld.

    • Bovengrens partitioneren: geef de maximumwaarde van de partitiekolom op om gegevens te kopiëren.

      Als u een query gebruikt om de brongegevens op te halen, koppelt u deze ?AdfRangePartitionUpbound aan de WHERE-component. Zie de sectie Parallel kopiëren uit Azure Database for PostgreSQL voor een voorbeeld. .

    • Ondergrens partitie: geef de minimumwaarde van de partitiekolom op om gegevens te kopiëren.

      Als u een query gebruikt om de brongegevens op te halen, koppelt u deze ?AdfRangePartitionLowbound aan de WHERE-component. Zie de sectie Parallel kopiëren uit Azure Database for PostgreSQL voor een voorbeeld.

      Screenshot showing the configuration when you select Dynamic range.

  • Aanvullende kolommen: voeg extra gegevenskolommen toe om het relatieve pad of de statische waarde van bronbestanden op te slaan. Expressie wordt ondersteund voor de laatste.

Doel

Ga naar het tabblad Bestemming om de bestemming van uw kopieeractiviteit te configureren. Zie de volgende inhoud voor de gedetailleerde configuratie.

Screenshot showing destination tab and the list of properties.

De volgende drie eigenschappen zijn vereist:

  • Gegevensarchieftype: Selecteer Extern.
  • Verbinding maken ion: Selecteer een Azure Database for PostgreSQL-verbinding in de lijst met verbindingen. Als er geen verbinding bestaat, maakt u een nieuwe Azure Database for PostgreSQL-verbinding door Nieuw te selecteren.
  • Verbinding maken iontype: Selecteer Azure Database for PostgreSQL.
  • Tabel: Selecteer de tabel in de vervolgkeuzelijst of selecteer Bewerken om deze handmatig in te voeren om gegevens te schrijven.

Onder Geavanceerd kunt u de volgende velden opgeven:

  • Schrijfmethode: Selecteer de methode die wordt gebruikt voor het schrijven van gegevens naar Azure Database for PostgreSQL. Selecteer een van de opdracht Kopiëren (standaard, wat beter presteert) en Bulksgewijs invoegen.

  • Script vooraf kopiëren: geef in elke uitvoering een SQL-query op voor de kopieeractiviteit die moet worden uitgevoerd voordat u gegevens naar Azure Database for PostgreSQL schrijft. U kunt deze eigenschap gebruiken om de vooraf geladen gegevens op te schonen.

  • Time-out voor schrijven van batch: geef de wachttijd op voordat de batchinvoegbewerking is voltooid voordat er een time-out optreedt. De toegestane waarde is tijdspanne. De standaardwaarde is 00:30:00 (30 minuten).

  • Grootte van schrijfbatch: geef het aantal rijen op dat per batch in Azure Database for PostgreSQL is geladen. Toegestane waarde is een geheel getal dat het aantal rijen aangeeft. De standaardwaarde is 1.000.000.

Toewijzing

Zie Uw toewijzingen configureren onder het tabblad Toewijzing voor de configuratie van tabblad Toewijzingen.

Instellingen

Ga voor Instellingen tabbladconfiguratie naar Uw andere instellingen configureren op het tabblad Instellingen.

Parallel kopiëren vanuit Azure Database for PostgreSQL

De Azure Database for PostgreSQL-connector in kopieeractiviteit biedt ingebouwde gegevenspartitionering om gegevens parallel te kopiëren. U vindt opties voor gegevenspartitionering op het tabblad Bron van de kopieeractiviteit.

Wanneer u gepartitioneerde kopie inschakelt, worden parallelle query's uitgevoerd op uw Azure Database for PostgreSQL-bron om gegevens te laden op partities. De parallelle graad wordt bepaald door de mate van kopieerparallelisme op het tabblad Instellingen voor kopieeractiviteit. Als u bijvoorbeeld mate van kopieerparallelisme instelt op vier, genereert en voert de service gelijktijdig vier query's uit op basis van de opgegeven partitieoptie en -instellingen, en haalt elke query een deel van de gegevens op uit uw Azure Database for PostgreSQL.

U wordt aangeraden parallelle kopie met gegevenspartitionering in te schakelen, met name wanneer u grote hoeveelheden gegevens uit uw Azure Database for PostgreSQL laadt. Hier volgen voorgestelde configuraties voor verschillende scenario's. Wanneer u gegevens kopieert naar een bestandsgegevensarchief, is het raadzaam om naar een map te schrijven als meerdere bestanden (alleen mapnaam opgeven), in welk geval de prestaties beter zijn dan schrijven naar één bestand.

Scenario Voorgestelde instellingen
Volledige belasting van grote tabellen, met fysieke partities. Partitieoptie: fysieke partities van de tabel.

Tijdens de uitvoering detecteert de service automatisch de fysieke partities en kopieert de gegevens per partitie.
Volledige belasting van grote tabellen, zonder fysieke partities, terwijl met een kolom met gehele getallen voor gegevenspartitionering. Partitieopties: dynamisch bereik.
Partitiekolom: Geef de kolom op die wordt gebruikt om gegevens te partitioneren. Als dit niet is opgegeven, wordt de primaire-sleutelkolom gebruikt.
Laad een grote hoeveelheid gegevens met behulp van een aangepaste query, met fysieke partities. Partitieoptie: fysieke partities van de tabel.
Query: SELECT * FROM ?AdfTabularPartitionName WHERE <your_additional_where_clause>.
Partitienaam: geef de partitienaam(en) op waaruit u gegevens wilt kopiëren. Als dit niet is opgegeven, detecteert de service automatisch de fysieke partities in de tabel die u hebt opgegeven in de PostgreSQL-gegevensset.

Tijdens de uitvoering wordt de service vervangen door ?AdfTabularPartitionName de werkelijke partitienaam en verzonden naar Azure Database for PostgreSQL.
Laad een grote hoeveelheid gegevens met behulp van een aangepaste query, zonder fysieke partities, terwijl met een kolom geheel getal voor gegevenspartitionering. Partitieopties: dynamisch bereik.
Query: SELECT * FROM ?AdfTabularPartitionName WHERE ?AdfRangePartitionColumnName <= ?AdfRangePartitionUpbound AND ?AdfRangePartitionColumnName >= ?AdfRangePartitionLowbound AND <your_additional_where_clause>.
Partitiekolom: Geef de kolom op die wordt gebruikt om gegevens te partitioneren. U kunt partitioneren op basis van de kolom met een geheel getal of een datum/datum/tijd-gegevenstype.
Bovengrens en ondergrens partitioneren: geef op of u wilt filteren op partitiekolom om alleen gegevens op te halen tussen het onderste en bovenste bereik.

Tijdens de uitvoering vervangt ?AdfRangePartitionColumnNamede service, ?AdfRangePartitionUpbounden ?AdfRangePartitionLowbound door de werkelijke kolomnaam en waardebereiken voor elke partitie en verzendt deze naar Azure Database for PostgreSQL.
Als de partitiekolom 'ID' bijvoorbeeld is ingesteld met de ondergrens 1 en de bovengrens als 80, waarbij parallelle kopie is ingesteld als 4, haalt de service gegevens op met 4 partities. Hun id's liggen tussen [1.20], [21, 40], [41, 60] en [61, 80], respectievelijk.

Aanbevolen procedures voor het laden van gegevens met partitieoptie:

  • Kies een onderscheidende kolom als partitiekolom (zoals primaire sleutel of unieke sleutel) om scheeftrekken van gegevens te voorkomen.
  • Als de tabel een ingebouwde partitie heeft, gebruikt u de partitieoptie Fysieke partities van de tabel om betere prestaties te krijgen.

Tabelsamenvatting

De volgende tabel bevat meer informatie over de kopieeractiviteit in Azure Database for PostgreSQL.

Brongegevens

Name Beschrijving Waarde Vereist JSON-scripteigenschap
Gegevensarchieftype Het gegevensarchieftype. Extern Ja /
Verbinding Uw verbinding met het brongegevensarchief. < uw Azure Database for PostgreSQL-verbinding > Ja verbinding
Verbindingstype Uw bronverbindingstype. Azure Database for PostgreSQL Ja /
Query gebruiken De manier om gegevens te lezen. Pas tabel toe om gegevens uit de opgegeven tabel te lezen of pas Query toe om gegevens te lezen met behulp van query's. Tafel
Query
Ja • typeProperties (onder typeProperties ->source)
  - schema
  -Tabel
•Query
Partitienamen De lijst met fysieke partities die moeten worden gekopieerd. Als u een query gebruikt om de brongegevens op te halen, koppelt u deze ?AdfTabularPartitionName aan de WHERE-component. < uw partitienamen > Nee partitionNames
Naam van partitiekolom De naam van de bronkolom in geheel getal of datum/datum/tijd (int, bigintsmallint, date, of timestamp with time zone timestamp without time zonetime without time zone) die wordt gebruikt door bereikpartitionering voor parallelle kopie. Als deze niet is opgegeven, wordt de primaire sleutel van de tabel automatisch gedetecteerd en gebruikt als partitiekolom. < namen van partitiekolommen > Nee partitionColumnName
Bovengrens partitioneren De maximale waarde van de partitiekolom om gegevens te kopiëren. Als u een query gebruikt om de brongegevens op te halen, koppelt u deze ?AdfRangePartitionUpbound aan de WHERE-component. < uw partitie bovengrens > Nee partitionUpperBound
Ondergrens van partitie De minimale waarde van de partitiekolom om gegevens te kopiëren. Als u een query gebruikt om de brongegevens op te halen, koppelt u deze ?AdfRangePartitionLowbound aan de WHERE-component. < uw partitie ondergrens > Nee partitionLowerBound
Aanvullende kolommen Voeg extra gegevenskolommen toe om het relatieve pad of de statische waarde van bronbestanden op te slaan. Expressie wordt ondersteund voor de laatste. • Naam
•Waarde
Nee additionalColumns:
•Naam
•Waarde

Doelgegevens

Name Beschrijving Waarde Vereist JSON-scripteigenschap
Gegevensarchieftype Het gegevensarchieftype. Extern Ja /
Verbinding Uw verbinding met het doelgegevensarchief. < uw Azure Database for PostgreSQL-verbinding > Ja verbinding
Verbindingstype Uw doelverbindingstype. Azure Database for PostgreSQL Ja /
Tabel De doelgegevenstabel voor het schrijven van gegevens. < naam van de doeltabel > Ja typeProperties (onder typeProperties ->sink):
  - schema
  -Tabel
Schrijfmethode De methode die wordt gebruikt voor het schrijven van gegevens naar Azure Database for PostgreSQL. Opdracht kopiëren (standaard)
Bulksgewijs invoegen
Nee writeMethod:
• CopyCommand
• BulkInsert
Script vooraf kopiëren Een SQL-query voor de kopieeractiviteit die moet worden uitgevoerd voordat u in elke uitvoering gegevens naar Azure Database for PostgreSQL schrijft. U kunt deze eigenschap gebruiken om de vooraf geladen gegevens op te schonen. < uw script vooraf kopiëren > Nee preCopyScript
Time-out voor batchbewerkingen schrijven De wachttijd voordat de batchinvoegbewerking is voltooid voordat er een time-out optreedt. tijdsbestek
(de standaardwaarde is 00:30:00 - 30 minuten)
Nee writeBatchTimeout
Grootte van schrijfbatch Het aantal rijen dat per batch in Azure Database for PostgreSQL is geladen. geheel getal
(de standaardwaarde is 1.000.000)
Nee writeBatchSize