Dela via


Konfigurera Amazon S3-kompatibel i en kopieringsaktivitet

Den här artikeln beskriver hur du använder kopieringsaktiviteten i en datapipeline för att kopiera data från Amazon S3 Compatible.

Behörigheter som krävs

Om du vill kopiera data från Amazon S3 Compatible kontrollerar du att du har beviljats följande behörigheter för Amazon S3-kompatibla objektåtgärder: s3:GetObject och s3:GetObjectVersion.

Dessutom s3:ListAllMyBucketss3:ListBucket/s3:GetBucketLocation krävs behörigheter för åtgärder som att testa anslutningen och bläddra från roten.

Den fullständiga listan över Amazon S3-kompatibla behörigheter finns i Ange behörigheter i en princip på AWS-webbplatsen.

Format som stöds

Amazon S3 Compatible stöder följande filformat. Se varje artikel för formatbaserade inställningar.

Konfiguration som stöds

För konfigurationen av varje flik under kopieringsaktivitet går du till följande avsnitt.

Allmänt

Se vägledningen allmänna inställningar för att konfigurera fliken Allmänna inställningar.

Källa

Följande egenskaper stöds för Amazon S3 Compatible under fliken Källa i en kopieringsaktivitet.

Screenshot showing source tab and the list of properties.

Följande egenskaper krävs:

  • Datalagertyp: Välj Extern.

  • Anslut ion: Välj en Amazon S3-kompatibel anslutning i anslutningslistan. Om det inte finns någon anslutning skapar du en ny Amazon S3-kompatibel anslutning genom att välja Ny.

  • Anslut ionstyp: Välj Amazon S3 Kompatibel för din anslutningstyp.

  • Filsökvägstyp: Du kan välja Filsökväg, Prefix, Sökväg till jokertecken eller Lista över filer som filsökvägstyp. Konfigurationen för varje inställning är:

    • Filsökväg: Om du väljer den här typen kan data kopieras från den angivna bucketen eller den angivna bucket- och mappsökvägen.

    • Prefix: Om du väljer den här typen anger du bucketen och prefixet.

      • Bucket: Ange det S3-kompatibla lagrings bucketnamnet. Det krävs.

      • Prefix: Ange prefixet för S3-kompatibelt lagringsnyckelnamn under den angivna bucketen för att filtrera S3-kompatibla lagringsfiler för källa. S3 Kompatibla lagringsnycklar vars namn börjar med bucket/this_prefix är markerade. Den använder S3 Compatible Storages filter på tjänstsidan, vilket ger bättre prestanda än ett jokerteckenfilter.

        När du använder prefix och väljer att kopiera till filbaserat mål med bevarad hierarki, bör du notera att undersökvägen efter den sista "/" i prefixet bevaras. Du har till exempel källan bucket/folder/subfolder/file.txtoch konfigurerar prefixet som folder/sub, och sedan är subfolder/file.txtden bevarade filsökvägen .

      Screenshot showing prefix.

    • Sökväg till jokertecken: Om du väljer den här typen anger du sökvägarna Bucket och Jokertecken.

      • Bucket: Ange det S3-kompatibla lagrings bucketnamnet. Det krävs.

      • Sökvägar med jokertecken: Ange mappen eller filsökvägen med jokertecken under den aktuella bucketen för att filtrera dina källmappar eller -filer.

        Tillåtna jokertecken är: * (matchar noll eller fler tecken) och ? (matchar noll eller enskilt tecken). Använd ^ för att fly om mappnamnet har jokertecken eller det här escape-tecknet inuti. Se fler exempel i exempel på mapp- och filfilter. Screenshot showing wildcard file path.Sökväg till jokerteckenmapp: Mappsökvägen med jokertecken under den angivna bucketen för att filtrera källmappar.

        Namn på jokerteckenfil: Filnamnet med jokertecken under den angivna bucket- och mappsökvägen (eller sökvägen till jokerteckenmappen) för att filtrera källfiler.

    • Lista över filer: Om du väljer den här typen anger du Mappsökväg och Sökväg till fillista som anger att en angiven filuppsättning ska kopieras. Peka på en textfil som innehåller en lista över filer som du vill kopiera, en fil per rad, vilket är den relativa sökvägen till den konfigurerade sökvägen. Om du vill ha fler exempel går du till Exempel på fillista.

      Screenshot showing list of files.

      • Mappsökväg: Ange sökvägen till mappen under angiven bucket. Det krävs.
      • Sökväg till fillista: Ange sökvägen till textfilen som innehåller en lista över filer som du vill kopiera.
  • Filformat: Välj det filformat som används i listrutan. Välj Inställningar för att konfigurera filformatet. För inställningar för olika filformat, se artiklar i format som stöds för detaljerad information.

  • Rekursivt: Ange om data ska läsas rekursivt från undermapparna eller endast från den angivna mappen. När Rekursivt har valts och målet är ett filbaserat arkiv kopieras inte en tom mapp eller undermapp på målet. Den här egenskapen är markerad som standard och gäller inte när du konfigurerar Sökväg till fillista.

Under Avancerat kan du ange följande fält:

  • Filtrera efter senast ändrad: Filer filtreras baserat på de senast ändrade datumen som du angav. Den här egenskapen gäller inte när du konfigurerar filsökvägstypen som Lista över filer.

    • Starttid (UTC): Filerna väljs om deras senaste ändringstid är större än eller lika med den konfigurerade tiden.
    • Sluttid (UTC): Filerna väljs om deras senaste ändringstid är mindre än den konfigurerade tiden.

    När Starttid (UTC) har datetime-värde men Sluttid (UTC) är NULL innebär det att de filer vars senast ändrade attribut är större än eller lika med datetime-värdet väljs. När Sluttid (UTC) har datetime-värde men Starttid (UTC) är NULL innebär det att de filer vars senast ändrade attribut är mindre än datetime-värdet väljs. Egenskaperna kan vara NULL, vilket innebär att inget filattributfilter tillämpas på data.

  • Aktivera partitionsidentifiering: Ange om partitionerna ska parsas från filsökvägen och lägga till dem som ytterligare källkolumner. Den är avmarkerad som standard och stöds inte när du använder binärt filformat.

    • Partitionsrotsökväg: När partitionsidentifiering är aktiverat anger du den absoluta rotsökvägen för att läsa partitionerade mappar som datakolumner.

      Om det inte anges, som standard,

      • När du använder filsökvägen eller listan över filer på källan är partitionsrotsökvägen den sökväg som du har konfigurerat.
      • När du använder mappfilter för jokertecken är partitionsrotsökvägen undersökvägen före det första jokertecknet.
      • När du använder prefixet är partitionsrotsökvägen undersökväg före den sista "/".

      Anta till exempel att du konfigurerar sökvägen som root/folder/year=2020/month=08/day=27:

      • Om du anger partitionsrotsökväg som root/folder/year=2020genererar kopieringsaktiviteten ytterligare två kolumner månad och dag med värdet "08" respektive "27", förutom kolumnerna i filerna.
      • Om partitionsrotsökvägen inte har angetts genereras ingen extra kolumn.

      Screenshot showing Enable partition discovery.

  • Maximal samtidig anslutning: Den övre gränsen för samtidiga anslutningar som upprättats till datalagret under aktivitetskörningen. Ange endast ett värde när du vill begränsa samtidiga anslutningar.

  • Ytterligare kolumner: Lägg till ytterligare datakolumner för att lagra källfilernas relativa sökväg eller statiska värde. Uttrycket stöds för det senare.

Mål

Följande egenskaper stöds för Amazon S3 Compatible under fliken Mål för en kopieringsaktivitet.

Screenshot showing destination tab and the list of properties.

Följande egenskaper krävs:

  • Datalagertyp: Välj Extern.
  • Anslut ion: Välj en Amazon S3-kompatibel anslutning i anslutningslistan. Om det inte finns någon anslutning skapar du en ny Amazon S3-kompatibel anslutning genom att välja Ny.
  • Anslut ionstyp: Välj Amazon S3 Kompatibel för din anslutningstyp.
  • Filsökväg: Data kan kopieras till den angivna bucketen eller den angivna bucket- och mappsökvägen.
  • Filformat: Välj det filformat som används i listrutan. Välj Inställningar för att konfigurera filformatet. För inställningar för olika filformat, se artiklar i format som stöds för detaljerad information.

Under Avancerat kan du ange följande fält:

  • Kopieringsbeteende: Definierar kopieringsbeteendet när källan är filer från ett filbaserat datalager. Du kan välja ett beteende i listrutan.

    • Platta ut hierarki: Alla filer från källmappen är på den första nivån i målmappen. Målfilerna har automatiskt genererade namn.
    • Sammanfoga filer: Sammanfogar alla filer från källmappen till en fil. Om filnamnet anges är det kopplade filnamnet det angivna namnet. Annars är det ett automatiskt genererat filnamn.
    • Bevara hierarkin: Bevarar filhierarkin i målmappen. Den relativa sökvägen för källfilen till källmappen är identisk med den relativa sökvägen för målfilen till målmappen.
  • Maximalt antal samtidiga anslutningar: Den här egenskapen anger den övre gränsen för samtidiga anslutningar som upprättats till datalagret under aktivitetskörningen. Ange endast ett värde när du vill begränsa samtidiga anslutningar.

Mappning

För Konfiguration av fliken Mappning går du till Konfigurera dina mappningar under mappningsfliken. Om du väljer Binärt som filformat stöds inte mappning.

Inställningar

För Inställningar flikkonfiguration går du till Konfigurera dina andra inställningar under fliken Inställningar.

Tabellsammanfattning

Följande tabeller innehåller mer information om kopieringsaktiviteten i Amazon S3 Compatible.

Källinformation

Name Beskrivning Värde Obligatoriskt JSON-skriptegenskap
Typ av datalager Din datalagertyp. Externt Ja /
Anslutning Din anslutning till källdatalagret. <din Amazon S3-kompatibla anslutning> Ja anslutning
Anslutningstyp Välj en typ för anslutningen. Amazon S3-kompatibel Ja /
Filsökvägstyp Filsökvägstypen som används för att hämta källdata. Filsökväg
Prefix
Sökväg till jokerteckenfil
Lista över filer
Ja /
För filsökväg
Hink S3-kompatibel lagrings bucketnamn. <ditt bucketnamn> Ja bucketName
Katalog Sökvägen till mappen under den angivna bucketen. <ditt mappnamn> Nej mappsökväg
Filnamn Filnamnet under den angivna bucket- och mappsökvägen. <ditt filnamn> Nej fileName
För prefix
Hink S3-kompatibel lagrings bucketnamn. <ditt bucketnamn> Ja bucketName
Prefix Prefixet för det S3-kompatibla lagringsnyckelnamnet under den angivna bucketen för att filtrera S3-kompatibla lagringsfiler för källa. <ditt prefix> Nej Prefix
För sökväg till jokerteckenfil
Hink S3-kompatibel lagrings bucketnamn. <ditt bucketnamn> Ja bucketName
Sökväg till jokerteckenmapp Mappsökvägen med jokertecken under den angivna bucketen för att filtrera källmappar. <mappsökväg med jokertecken> Nej jokerteckenFolderPath
Jokerteckenfilnamn Filnamnet med jokertecken under den angivna bucket- och mappsökvägen (eller sökvägen till jokerteckenmappen) för att filtrera källfiler. <ditt filnamn med jokertecken> Ja jokerteckenFilnamn
För lista över filer
Hink S3-kompatibel lagrings bucketnamn. <ditt bucketnamn> Ja bucketName
Katalog Sökvägen till mappen under den angivna bucketen. <ditt mappnamn> Nej mappsökväg
Sökväg till fillista Anger att en angiven filuppsättning ska kopieras. Peka på en textfil som innehåller en lista över filer som du vill kopiera, en fil per rad. < sökväg till fillista > Nej fileListPath
Filformat Filformatet för dina källdata. Information om olika filformat finns i artiklar i format som stöds för detaljerad information. / Ja /
Rekursivt Anger om data läse rekursivt från undermapparna eller endast från den angivna mappen. Observera att när Rekursivt har valts och målet är ett filbaserat arkiv kopieras inte en tom mapp eller undermapp på målet. Den här egenskapen gäller inte när du konfigurerar Sökväg till fillista. markerad (standard) eller avmarkera Nej Rekursiv
Filtrera efter senast ändrad Filerna med senast ändrad tid i intervallet [Starttid, Sluttid) filtreras för vidare bearbetning. Tiden tillämpas på UTC-tidszonen i formatet yyyy-mm-ddThh:mm:ss.fffZ. Dessa egenskaper kan hoppas över, vilket innebär att inget filattributfilter kommer att tillämpas. Den här egenskapen gäller inte när du konfigurerar filsökvägstypen som Lista över filer. datetime Nej modifiedDatetimeStart
modifiedDatetimeEnd
Aktivera partitionsidentifiering Anger om partitionerna ska parsas från filsökvägen och lägga till dem som ytterligare källkolumner. markerad eller omarkerad (standard) Nej enablePartitionDiscovery:
sant eller falskt (standard)
Partitionsrotsökväg När partitionsidentifiering är aktiverat anger du den absoluta rotsökvägen för att läsa partitionerade mappar som datakolumner. < partitionens rotsökväg > Nej partitionRootPath
Maximal samtidig anslutning Den övre gränsen för samtidiga anslutningar som upprättats till datalagret under aktivitetskörningen. Ange endast ett värde när du vill begränsa samtidiga anslutningar. <maximalt antal samtidiga anslutningar> Nej maxConcurrent Anslut ions
Ytterligare kolumner Lägg till ytterligare datakolumner för att lagra källfilernas relativa sökväg eller statiska värde. Uttrycket stöds för det senare. • Namn
•Värde
Nej additionalColumns:
•Namn
•Värde

Målinformation

Name Beskrivning Värde Obligatoriskt JSON-skriptegenskap
Typ av datalager Din datalagertyp. Externt Ja /
Anslutning Din anslutning till måldatalagret. <din Amazon S3-kompatibla anslutning> Ja anslutning
Anslutningstyp Välj en typ för anslutningen. Amazon S3-kompatibel Ja /
Filsökväg Mapp-/filsökvägen till målfilen. <mapp/filsökväg> Ja /
Hink S3-kompatibel lagrings bucketnamn. <ditt bucketnamn> Ja bucketName
Katalog Sökvägen till mappen under den angivna bucketen. <ditt mappnamn> Nej mappsökväg
Filnamn Filnamnet under den angivna bucket- och mappsökvägen. <ditt filnamn> Nej fileName
Kopieringsbeteende Definierar kopieringsbeteendet när källan är filer från ett filbaserat datalager. • Platta ut hierarki
• Sammanfoga filer
• Bevara hierarkin
Nej copyBehavior:
• FlatHierarchy
• MergeFiles
• PreserveHierarchy
Maximalt antal samtidiga anslutningar Den övre gränsen för samtidiga anslutningar som upprättats till datalagret under aktivitetskörningen. Ange endast ett värde när du vill begränsa samtidiga anslutningar. <maximalt antal samtidiga anslutningar> Nej maxConcurrent Anslut ions