Dela via


Konfigurera Amazon S3 i en kopieringsaktivitet

Den här artikeln beskriver hur du använder kopieringsaktiviteten i en pipeline för att kopiera data från och till Amazon S3.

Behörigheter som krävs

Om du vill kopiera data från Amazon S3 kontrollerar du att du har beviljats följande behörigheter för Amazon S3-objektåtgärder: s3:GetObject och s3:GetObjectVersion.

Om du vill kopiera data till Amazon S3 kontrollerar du att du har beviljats behörighet för s3:PutObject Amazon S3-objektåtgärder.

Dessutom krävs s3:ListAllMyBucketss3:ListBucket/s3:GetBucketLocation behörigheter för åtgärder som att testa anslutningen och bläddra från roten.

Den fullständiga listan över Amazon S3-behörigheter finns i Ange behörigheter i en princip på AWS-webbplatsen.

Format som stöds

Amazon S3 stöder följande filformat. Se varje artikel för formatbaserade inställningar.

Konfiguration som stöds

För konfigurationen av varje flik under kopieringsaktivitet går du till följande avsnitt.

General

Se Allmänna-inställningar vägledning för att konfigurera inställningsfliken Allmänt.

Källa

Följande egenskaper stöds för Amazon S3 under fliken Källa i en kopieringsaktivitet.

Följande egenskaper krävs:

  • Anslutning: Välj en Amazon S3-anslutning i anslutningslistan. Om det inte finns någon anslutning skapar du en ny Amazon-anslutning genom att välja Ny.

  • Anslutningstyp: Välj Amazon S3 som anslutningstyp.

  • Filsökvägstyp: Du kan välja Filsökväg, Prefix, Jokersökväg eller Lista över filer som typ av filsökväg. Konfigurationen för varje inställning är:

    • Filsökväg: Om du väljer den här typen kan data kopieras från den angivna bucketen eller den angivna bucket- och mappsökvägen.

    • Prefix: Om du väljer den här typen anger du bucketen och prefixet.

      • Bucket: Ange namnet på S3-bucket. Det krävs.

      • Prefix: Ange prefixet för S3-nyckelnamnet under den angivna bucketen för att filtrera S3-källfiler. S3-nycklar vars namn börjar med bucket/this_prefix är markerade. Den använder S3:s Service-sidans filter, vilket ger bättre prestanda än ett wildcard-filter.

        När du använder prefix och väljer att kopiera till en filbaserad destination med bevarad hierarki, notera att delstigen efter den sista "/" i prefixet bevaras. Du har till exempel källan bucket/folder/subfolder/file.txt, och konfigurerar prefixet som folder/sub, och sedan är subfolder/file.txt den bevarade filsökvägen.

      Skärmbild som visar prefix.

    • Wildcard-sökväg: Om du väljer den här typen, ange Bucket och Wildcard-sökvägar.

      • Bucket: Ange namnet på S3-bucket. Det krävs.

      • Sökvägar med jokertecken: Ange mappen eller filsökvägen med jokertecken under den aktuella bucketen för att filtrera dina källmappar eller -filer.

        Tillåtna jokertecken är: * (matchar noll eller fler tecken) och ? (matchar noll eller enskilt tecken). Använd ^ för att fly om mappnamnet har jokertecken eller det här escape-tecknet inuti. Se fler exempel i exempel på mapp- och filfilter. Skärmbild som visar sökväg med jokertecken. Sökväg med jokertecken för mappar: Sökvägen med jokertecken under den angivna bucket för att filtrera källmappar.

        Namn på jokerteckenfil: Filnamnet med jokertecken under den angivna bucket- och mappsökvägen (eller sökvägen till jokerteckenmappen) för att filtrera källfiler.

    • Lista över filer: Om du väljer den här typen anger du Mappsökväg och Sökväg till fillista som anger att en angiven filuppsättning ska kopieras. Peka på en textfil som innehåller en lista över filer som du vill kopiera, en fil per rad, vilket är den relativa sökvägen till den konfigurerade sökvägen. Om du vill ha fler exempel går du till Exempel på fillista.

      Skärmbild som visar en lista över filer.

      • Mappsökväg: Ange sökvägen till mappen under angiven bucket. Det krävs.
      • Sökväg till fillista: Ange sökvägen till textfilen som innehåller en lista över filer som du vill kopiera.
  • Rekursivt: Ange om data ska läsas rekursivt från undermapparna eller endast från den angivna mappen. När Rekursivt har valts, och destinationen är ett filbaserat arkiv, kopieras eller skapas inte en tom mapp eller undermapp på destinationen. Den här egenskapen är markerad som standard och gäller inte när du konfigurerar Sökväg till fillista.

  • Filformat: Välj det filformat som används i listrutan. Välj Inställningar för att konfigurera filformatet. För inställningar för olika filformat, se artiklar i format som stöds för detaljerad information.

Under Avancerat kan du ange följande fält:

  • Filtrera efter senast ändrad: Filer filtreras baserat på de senast ändrade datumen som du angav. Den här egenskapen gäller inte när du konfigurerar filsökvägstypen som Lista över filer.

    • Starttid (UTC): Filerna väljs om deras senaste ändringstid är större än eller lika med den konfigurerade tiden.
    • Sluttid (UTC): Filerna väljs om deras senaste ändringstid är mindre än den konfigurerade tiden.

    När Starttid (UTC) har datetime-värde men Sluttid (UTC) är NULL innebär det att de filer vars senast ändrade attribut är större än eller lika med datetime-värdet väljs. När Sluttid (UTC) har datetime-värde men Starttid (UTC) är NULL innebär det att de filer vars senast ändrade attribut är mindre än datetime-värdet väljs. Egenskaperna kan vara NULL, vilket innebär att inget filattributfilter tillämpas på data.

  • Aktivera partitionsidentifiering: Ange om partitionerna ska parsas från filsökvägen och lägga till dem som ytterligare källkolumner. Den är avmarkerad som standard och stöds inte när du använder binärt filformat.

    • Partitionsrotsökväg: När partitionsidentifiering är aktiverat anger du den absoluta rotsökvägen för att läsa partitionerade mappar som datakolumner.

      Om det inte anges, som standardinställning,

      • När du använder filsökvägen eller listan över filer på källan är partitionsrotsökvägen den sökväg som du har konfigurerat.
      • När du använder ett flermappsfilter är huvudkatalogens sökväg underkatalogens sökväg före första wildcard.
      • När du använder ett prefix är partitionsrottens sökväg den del av sökvägen innan den sista "/".

      Anta till exempel att du konfigurerar sökvägen som root/folder/year=2020/month=08/day=27:

      • Om du anger partitionsrotsökväg som root/folder/year=2020genererar kopieringsaktiviteten ytterligare två kolumner månad och dag med värdet "08" respektive "27", förutom kolumnerna i filerna.
      • Om partitionsrotsökvägen inte har angetts genereras ingen extra kolumn.

      Skärmbild som visar Aktivera partitionsidentifiering.

  • Maximal samtidig anslutning: Den övre gränsen för samtidiga anslutningar som upprättats till datalagret under aktivitetskörningen. Ange endast ett värde när du vill begränsa samtidiga anslutningar.

  • Ytterligare kolumner: Lägg till ytterligare datakolumner för att lagra källfilernas relativa sökväg eller statiska värde. Uttrycket stöds för det senare fallet.

Resmål

Följande egenskaper stöds för Amazon S3 under fliken Mål för en kopieringsaktivitet.

Följande egenskaper krävs:

  • Anslutning: Välj en Amazon S3-anslutning i anslutningslistan. Om det inte finns någon anslutning skapar du en ny Amazon-anslutning genom att välja Ny.
  • Anslutningstyp: Välj Amazon S3 som anslutningstyp.
  • Filsökväg: Data kan kopieras till den angivna bucketen eller den angivna bucket- och mappsökvägen.
  • Filformat: Välj det filformat som används i listrutan. Välj Inställningar för att konfigurera filformatet. För inställningar för olika filformat, se artiklar i format som stöds för detaljerad information.

Under Avancerat kan du ange följande fält:

  • Kopieringsbeteende: Definierar kopieringsbeteendet när källan är filer från ett filbaserat datalager. Du kan välja ett beteende i listrutan.

    • Platta ut hierarki: Alla filer från källmappen är på den första nivån i målmappen. Målfilerna har automatiskt genererade namn.
    • Sammanfoga filer: Sammanfogar alla filer från källmappen till en fil. Om filnamnet anges är det kopplade filnamnet det angivna namnet. Annars är det ett automatiskt genererat filnamn.
    • Bevara hierarkin: Bevarar filhierarkin i målmappen. Den relativa sökvägen för källfilen till källmappen är identisk med den relativa sökvägen för målfilen till målmappen.
  • Maximalt antal samtidiga anslutningar: Den här egenskapen anger den övre gränsen för samtidiga anslutningar som upprättats till datalagret under aktivitetskörningen. Ange endast ett värde när du vill begränsa samtidiga anslutningar.

Kartläggning

För Konfiguration av fliken Mappning går du till Konfigurera dina mappningar under mappningsfliken. Om du väljer Binärt som filformat stöds inte mappning.

Inställningar

För flikkonfigurationen Inställningar går du till Konfigurera dina andra inställningar under fliken Inställningar.

Tabellsammanfattning

Följande tabeller innehåller mer information om kopieringsaktiviteten i Amazon S3.

Källinformation

Namn Description Värde Krävs JSON-skriptegenskap
Anslutning Din anslutning till källdatalagret. <din Amazon S3-anslutning> Yes connection
Anslutningstyp Välj en typ för anslutningen. Amazon S3 Yes /
Filsökvägstyp Filsökvägstypen som används för att hämta källdata. Filsökväg
Prefix
Jokerteckensökväg
Lista över filer
Yes /
För filsökväg
Bucket S3-bucketens namn. <ditt bucketnamn> Yes bucket-namn
Katalog Sökvägen till mappen under den angivna bucketen. <ditt mappnamn> Nej mappväg
Filnamn Filnamnet under den angivna bucket- och mappsökvägen. <ditt filnamn> Nej fileName
För Prefix
Bucket S3-bucketens namn. <ditt bucketnamn> Yes bucket-namn
Prefix Prefixet för S3-nyckelnamnet under den angivna bucketen för att filtrera S3-källfiler. <ditt prefix> Nej prefix
För sökväg till jokerteckenfil
Bucket S3-bucketens namn. <ditt bucketnamn> Yes bucket-namn
Jokerteckensökväg för mapp Mappsökvägen med jokertecken under den angivna bucketen för att filtrera källmappar. <din mappsökväg med jokertecken> Nej wildcardFolderPath
Wildcard-filnamn Filnamnet med jokertecken under den angivna lagringsutrymmet och mappsökvägen (eller sökväg med jokertecken) för att filtrera källfiler. <ditt filnamn med jokertecken> Yes wildcardFileName
För lista över filer
Bucket S3-bucketens namn. <ditt bucketnamn> Yes bucket-namn
Katalog Sökvägen till mappen under den angivna bucketen. <ditt mappnamn> Nej mappväg
Sökväg till fillista Anger att en angiven filuppsättning ska kopieras. Peka på en textfil som innehåller en lista över filer som du vill kopiera, en fil per rad. < sökväg till fillista > Nej fileListPath
Filformat Filformatet för dina källdata. Information om olika filformat finns i artiklar i format som stöds för detaljerad information. / Yes /
Rekursivt Anger om data läse rekursivt från undermapparna eller endast från den angivna mappen. Observera att när Rekursivt har valts och målet är en filbaserad lagring kopieras eller skapas inte en tom mapp eller undermapp på målet. Den här egenskapen gäller inte när du konfigurerar Sökväg till fillista. markerad (standard) eller avmarkera Nej recursive
Filtrera efter senast ändrad Filerna med senast ändrad tid i intervallet [Starttid, Sluttid) filtreras för vidare bearbetning. Tiden tillämpas på UTC-tidszonen i formatet yyyy-mm-ddThh:mm:ss.fffZ. Dessa egenskaper kan utelämnas, vilket innebär att något filattributfilter inte kommer att tillämpas. Den här egenskapen gäller inte när du konfigurerar filsökvägstypen som Lista över filer. tidpunkt Nej modifiedDatetimeStart
modifiedDatetimeEnd
Aktivera partitionsupptäckt Anger om partitionerna ska parsas från filsökvägen och lägga till dem som ytterligare källkolumner. markerad eller omarkerad (standard) Nej enablePartitionDiscovery: (aktivera partitionsupptäckt)
sant eller falskt (standard)
Partitionsrotsökväg När partitionsidentifiering är aktiverat anger du den absoluta rotsökvägen för att läsa partitionerade mappar som datakolumner. < partitionens rotsökväg > Nej partitionRootPath
Maximal samtidig anslutning Den övre gränsen för samtidiga anslutningar som upprättats till datalagret under aktiviteten. Ange endast ett värde när du vill begränsa samtidiga anslutningar. <maximalt antal samtidiga anslutningar> Nej maxConcurrentConnections
Ytterligare kolumner Lägg till ytterligare datakolumner för att lagra källfilernas relativa sökväg eller statiska värde. Uttrycket stöds för det senare fallet. •Namn
•Värde
Nej ytterligareKolumner:
•Namn
• värde

Destinationsinformation

Namn Description Värde Krävs JSON-skriptegenskap
Anslutning Din anslutning till måldatalagret. <din Amazon S3-anslutning> Yes connection
Anslutningstyp Välj en typ för anslutningen. Amazon S3 Yes /
Filsökväg Mapp-/filsökvägen till målfilen. <mapp/filsökväg> Yes /
Bucket S3-bucketens namn. <ditt bucketnamn> Yes bucket-namn
Katalog Sökvägen till mappen under den angivna bucketen. <ditt mappnamn> Nej mappväg
Filnamn Filnamnet under den angivna bucket- och mappsökvägen. <ditt filnamn> Nej fileName
Kopieringsbeteende Definierar kopieringsbeteendet när källan är filer från ett filbaserat datalager. • Platta ut hierarki
• Sammanfoga filer
• Bevara hierarkin
Nej copyBehavior:
• FlatHierarchy
• MergeFiles
• PreserveHierarchy
Maximalt antal samtidiga anslutningar Den övre gränsen för samtidiga anslutningar som upprättats till datalagret under aktiviteten. Ange endast ett värde när du vill begränsa samtidiga anslutningar. <maximalt antal samtidiga anslutningar> Nej maxConcurrentConnections