Konfigurera Google Cloud Storage i en kopieringsaktivitet
Den här artikeln beskriver hur du använder kopieringsaktiviteten i datapipelinen för att kopiera data från och till Google Cloud Storage.
Förutsättningar
Följande konfiguration krävs på ditt Google Cloud Storage-konto:
Aktivera samverkan för ditt Google Cloud Storage-konto.
Ange det standardprojekt som innehåller de data som du vill kopiera från mål-Bucketen för Google Cloud Storage.
Skapa ett tjänstkonto och definiera rätt behörighetsnivåer med hjälp av Cloud IAM på GCP.
Generera åtkomstnycklarna för det här tjänstkontot.
Behörigheter som krävs
Om du vill kopiera data från Google Cloud Storage kontrollerar du att du har beviljats följande behörigheter för objektåtgärder: storage.objects.get
och storage.objects.list
.
Dessutom storage.buckets.list
krävs behörighet för åtgärder som att testa anslutningen och bläddra från roten.
Den fullständiga listan över Google Cloud Storage-roller och associerade behörigheter finns i IAM-roller för Cloud Storage på Google Cloud-webbplatsen.
Format som stöds
Google Cloud Storage stöder följande filformat. Se varje artikel för formatbaserade inställningar.
- Avro-format
- Binärt format
- Avgränsat textformat
- Excel-format
- JSON-format
- ORC-format
- Parquet-format
- XML-format
Konfiguration som stöds
För konfigurationen av varje flik under kopieringsaktivitet går du till följande avsnitt.
Allmänt
För Konfiguration av fliken Allmänt går du till Allmänt.
Källa
Följande egenskaper stöds för Google Cloud Storage under fliken Källa i en kopieringsaktivitet.
Följande egenskaper krävs:
Datalagertyp: Välj Extern.
Anslut ion: Välj en Google Cloud Storage-anslutning i anslutningslistan. Om det inte finns någon anslutning skapar du en ny Google Cloud Storage-anslutning genom att välja Ny.
Filsökvägstyp: Du kan välja Filsökväg, Prefix, Sökväg till jokertecken eller Lista över filer som filsökvägstyp. Konfigurationen av var och en av dessa inställningar är:
Filsökväg: Om du väljer den här typen kan data kopieras från den angivna bucketen eller mapp-/filsökvägen som anges i Filsökväg.
Prefix: Om du väljer den här typen anger du bucketen och prefixet.
Bucket: Ange bucketnamnet för Google Cloud Storage. Det krävs.
Prefix: Prefix för Google Cloud Storage-nyckelnamnet under den angivna bucketen för att filtrera Källans Google Cloud Storage-filer. Google Cloud Storage-nycklar vars namn börjar med
given_bucket/this_prefix
har valts. Den använder Google Cloud Storages filter på tjänstsidan, vilket ger bättre prestanda än ett jokerteckenfilter.
Sökväg till jokertecken: Om du väljer den här typen anger du sökvägarna Bucket och Jokertecken.
Bucket: Ange bucketnamnet för Google Cloud Storage. Det krävs.
Sökvägar med jokertecken: Ange mappen eller filsökvägen med jokertecken under den aktuella bucketen för att filtrera dina källmappar eller -filer.
Tillåtna jokertecken är:
*
(matchar noll eller fler tecken) och?
(matchar noll eller enskilt tecken). Använd^
för att fly om mappnamnet har jokertecken eller det här escape-tecknet inuti. Fler exempel finns i Exempel på mapp- och filfilter.Sökväg till jokerteckenmapp: Ange mappsökvägen med jokertecken under den angivna bucketen för att filtrera källmappar.
Namn på jokerteckenfil: Ange filnamnet med jokertecken under den angivna bucket- och mappsökvägen (eller sökvägen till jokerteckenmappen) för att filtrera källfiler.
Lista över filer: Om du väljer den här typen anger du Mappsökväg och Sökväg till fillista som anger att en angiven filuppsättning ska kopieras. Peka på en textfil som innehåller en lista över filer som du vill kopiera, en fil per rad, vilket är den relativa sökvägen till den konfigurerade sökvägen. Om du vill ha fler exempel går du till Exempel på fillista.
- Mappsökväg: Ange sökvägen till mappen under angiven bucket. Det krävs.
- Sökväg till fillista: Ange sökvägen till textfilen som innehåller en lista över filer som du vill kopiera.
Rekursivt: Anger om data läse rekursivt från undermapparna eller endast från den angivna mappen. Observera att när den här kryssrutan är markerad och målet är ett filbaserat arkiv kopieras inte en tom mapp eller undermapp på målet.
Filformat: Välj det filformat som används i listrutan. Välj Inställningar för att konfigurera filformatet. För inställningar för olika filformat, se artiklar i format som stöds för detaljerad information.
Under Avancerat kan du ange följande fält:
Filtrera efter senast ändrad: Filer filtreras baserat på de senast ändrade datumen som du angav. Den här egenskapen gäller inte när du konfigurerar filsökvägstypen som Lista över filer.
- Starttid (UTC): Filerna väljs om deras senaste ändringstid är större än eller lika med den konfigurerade tiden.
- Sluttid (UTC): Filerna väljs om deras senaste ändringstid är mindre än den konfigurerade tiden.
När Starttid (UTC) har datetime-värde men Sluttid (UTC) är NULL innebär det att de filer vars senast ändrade attribut är större än eller lika med datetime-värdet väljs. När Sluttid (UTC) har datetime-värde men Starttid (UTC) är NULL innebär det att de filer vars senast ändrade attribut är mindre än datetime-värdet väljs. Egenskaperna kan vara NULL, vilket innebär att inget filattributfilter tillämpas på data.
Aktivera partitionsidentifiering: Ange om partitionerna ska parsas från filsökvägen och lägga till dem som ytterligare källkolumner. Den är avmarkerad som standard och stöds inte när du använder binärt filformat.
Partitionsrotsökväg: När partitionsidentifiering är aktiverat anger du den absoluta rotsökvägen för att läsa partitionerade mappar som datakolumner.
Om det inte anges, som standard,
- När du använder filsökvägen eller listan över filer på källan är partitionsrotsökvägen den sökväg som du har konfigurerat.
- När du använder mappfilter för jokertecken är partitionsrotsökvägen undersökvägen före det första jokertecknet.
- När du använder prefixet är partitionsrotsökvägen undersökväg före den sista "/".
Anta till exempel att du konfigurerar sökvägen som
root/folder/year=2020/month=08/day=27
:- Om du anger partitionsrotsökväg som
root/folder/year=2020
genererar kopieringsaktiviteten ytterligare två kolumner månad och dag med värdet "08" respektive "27", förutom kolumnerna i filerna. - Om partitionsrotsökvägen inte har angetts genereras ingen extra kolumn.
Maximal samtidig anslutning: Den övre gränsen för samtidiga anslutningar som upprättats till datalagret under aktivitetskörningen. Ange endast ett värde när du vill begränsa samtidiga anslutningar.
Ytterligare kolumner: Lägg till ytterligare datakolumner för att lagra källfilernas relativa sökväg eller statiska värde. Uttrycket stöds för det senare.
Mål
Följande egenskaper stöds för Google Cloud Storage under fliken Mål för en kopieringsaktivitet.
Följande egenskaper krävs:
- Datalagertyp: Välj Extern.
- Anslut ion: Välj en Google Cloud Storage-anslutning i anslutningslistan. Om det inte finns någon anslutning skapar du en ny Google Cloud Storage-anslutning genom att välja Ny.
- Filsökväg: Data kan kopieras till den angivna bucketen eller den angivna bucket- och mappsökvägen.
- Filformat: Välj det filformat som används i listrutan. Välj Inställningar för att konfigurera filformatet. För inställningar för olika filformat, se artiklar i format som stöds för detaljerad information.
Under Avancerat kan du ange följande fält:
Kopieringsbeteende: Definierar kopieringsbeteendet när källan är filer från ett filbaserat datalager. Du kan välja ett beteende i listrutan.
- Platta ut hierarki: Alla filer från källmappen är på den första nivån i målmappen. Målfilerna har automatiskt genererade namn.
- Sammanfoga filer: Sammanfogar alla filer från källmappen till en fil. Om filnamnet anges är det kopplade filnamnet det angivna namnet. Annars är det ett automatiskt genererat filnamn.
- Bevara hierarkin: Bevarar filhierarkin i målmappen. Den relativa sökvägen för källfilen till källmappen är identisk med den relativa sökvägen för målfilen till målmappen.
Maximalt antal samtidiga anslutningar: Den här egenskapen anger den övre gränsen för samtidiga anslutningar som upprättats till datalagret under aktivitetskörningen. Ange endast ett värde när du vill begränsa samtidiga anslutningar.
Mappning
Information om konfiguration av fliken Mappning finns i Konfigurera dina mappningar under mappningsfliken. Om du väljer Binärt som filformat stöds inte mappning.
Inställningar
För Inställningar flikkonfiguration går du till Konfigurera dina andra inställningar under fliken Inställningar.
Tabellsammanfattning
Följande tabeller innehåller mer information om kopieringsaktiviteten i Google Cloud Storage.
Källinformation
Name | Beskrivning | Värde | Obligatoriskt | JSON-skriptegenskap |
---|---|---|---|---|
Typ av datalager | Din datalagertyp. | Externt | Ja | / |
Anslutning | Din anslutning till källdatalagret. | <din Anslutning till Google Cloud Storage> | Ja | anslutning |
Filsökvägstyp | Filsökvägstypen som används för att hämta källdata. | • Filsökväg • Prefix • Sökväg till jokerteckenfil • Lista över filer |
Ja | / |
För filsökväg | ||||
Hink | Bucketnamnet för Google Cloud Storage. | <ditt bucketnamn> | Ja | bucketName |
Katalog | Sökvägen till mappen under den angivna bucketen. | <ditt mappnamn> | Nej | mappsökväg |
Filnamn | Filnamnet under den angivna bucket- och mappsökvägen. | <ditt filnamn> | Nej | fileName |
För prefix | ||||
Hink | Bucketnamnet för Google Cloud Storage. | <ditt bucketnamn> | Ja | bucketName |
Prefix | Prefixet för Google Cloud Storage-nyckelnamnet under den angivna bucketen för att filtrera källans Google Cloud Storage-filer. | <ditt prefix> | Nej | Prefix |
För sökväg till jokerteckenfil | ||||
Hink | Bucketnamnet för Google Cloud Storage. | <ditt bucketnamn> | Ja | bucketName |
Sökväg till jokerteckenmapp | Mappsökvägen med jokertecken under den angivna bucketen för att filtrera källmappar. | <mappsökväg med jokertecken> | Nej | jokerteckenFolderPath |
Jokerteckenfilnamn | Filnamnet med jokertecken under den angivna bucket- och mappsökvägen (eller sökvägen till jokerteckenmappen) för att filtrera källfiler. | <ditt filnamn med jokertecken> | Ja | jokerteckenFilnamn |
För lista över filer | ||||
Hink | Bucketnamnet för Google Cloud Storage. | <ditt bucketnamn> | Ja | bucketName |
Katalog | Sökvägen till mappen under den angivna bucketen. | <ditt mappnamn> | Nej | mappsökväg |
Sökväg till fillista | Anger att en angiven filuppsättning ska kopieras. Peka på en textfil som innehåller en lista över filer som du vill kopiera, en fil per rad. | < sökväg till fillista > | Nej | fileListPath |
Filformat | Filformatet för dina källdata. Information om olika filformat finns i artiklar i format som stöds för detaljerad information. | / | Ja | / |
Rekursivt | Anger om data läse rekursivt från undermapparna eller endast från den angivna mappen. Observera att när den här kryssrutan är markerad och målet är ett filbaserat arkiv kopieras inte en tom mapp eller undermapp på målet. | markerad (standard) eller avmarkera | Nej | Rekursiv |
Filtrera efter senast ändrad | Filerna med senast ändrad tid i intervallet [Starttid, Sluttid) filtreras för vidare bearbetning. Tiden tillämpas på UTC-tidszonen i formatet yyyy-mm-ddThh:mm:ss.fffZ . Dessa egenskaper kan hoppas över, vilket innebär att inget filattributfilter kommer att tillämpas. Den här egenskapen gäller inte när du konfigurerar filsökvägstypen som Lista över filer. |
datetime | Nej | modifiedDatetimeStart modifiedDatetimeEnd |
Aktivera partitionsidentifiering | Anger om partitionerna ska parsas från filsökvägen och lägga till dem som ytterligare källkolumner. | markerad eller omarkerad (standard) | Nej | enablePartitionDiscovery: sant eller falskt (standard) |
Partitionsrotsökväg | När partitionsidentifiering är aktiverat anger du den absoluta rotsökvägen för att läsa partitionerade mappar som datakolumner. | < partitionens rotsökväg > | Nej | partitionRootPath |
Maximal samtidig anslutning | Den övre gränsen för samtidiga anslutningar som upprättats till datalagret under aktivitetskörningen. Ange endast ett värde när du vill begränsa samtidiga anslutningar. | <maximalt antal samtidiga anslutningar> | Nej | maxConcurrent Anslut ions |
Ytterligare kolumner | Lägg till ytterligare datakolumner för att lagra källfilernas relativa sökväg eller statiska värde. Uttrycket stöds för det senare. | • Namn •Värde |
Nej | additionalColumns: •Namn •Värde |
Målinformation
Name | Beskrivning | Värde | Obligatoriskt | JSON-skriptegenskap |
---|---|---|---|---|
Typ av datalager | Din datalagertyp. | Externt | Ja | / |
Anslutning | Din anslutning till måldatalagret. | <din Anslutning till Google Cloud Storage> | Ja | anslutning |
Filsökväg | Mapp-/filsökvägen till målfilen. | < mapp/filsökväg> | Ja | / |
Hink | Bucketnamnet för Google Cloud Storage. | <ditt bucketnamn> | Ja | bucketName |
Katalog | Sökvägen till mappen under den angivna bucketen. | <ditt mappnamn> | Nej | mappsökväg |
Filnamn | Filnamnet under den angivna bucket- och mappsökvägen. | <ditt filnamn> | Nej | fileName |
Kopieringsbeteende | Definierar kopieringsbeteendet när källan är filer från ett filbaserat datalager. | • Platta ut hierarki • Sammanfoga filer • Bevara hierarkin |
Nej | copyBehavior: • FlatHierarchy • MergeFiles • PreserveHierarchy |
Maximalt antal samtidiga anslutningar | Den övre gränsen för samtidiga anslutningar som upprättats till datalagret under aktivitetskörningen. Ange endast ett värde när du vill begränsa samtidiga anslutningar. | <maximalt antal samtidiga anslutningar> | Nej | maxConcurrent Anslut ions |