Konfigurer Google Cloud Storage i en kopiaktivitet

I denne artikel beskrives det, hvordan du bruger kopiaktiviteten i datapipeline til at kopiere data fra og til Google Cloud Storage.

Forudsætninger

Følgende konfiguration er påkrævet på din Google Cloud Storage-konto:

  1. Aktivér interoperabilitet for din Google Cloud Storage-konto.

  2. Angiv det standardprojekt, der indeholder de data, du vil kopiere fra Google Cloud Storage-bucket'en.

  3. Opret en tjenestekonto, og definer de rette tilladelsesniveauer ved hjælp af Cloud IAM på GCP.

  4. Generér adgangsnøglerne for denne tjenestekonto.

    Screenshot showing the access key for Google Cloud Storage.

Påkrævede tilladelser

Hvis du vil kopiere data fra Google Cloud Storage, skal du sørge for, at du har fået tildelt følgende tilladelser til objekthandlinger: storage.objects.get og storage.objects.list.

Derudover storage.buckets.list kræves der tilladelse til handlinger, f.eks. test af forbindelse og gennemsyn fra roden.

Du kan se en komplet liste over Google Cloud Storage-roller og tilknyttede tilladelser ved at gå til IAM-roller for Cloud Storage på Google Cloud-webstedet.

Understøttet format

Google Cloud Storage understøtter følgende filformater. Se hver artikel for at få formatbaserede indstillinger.

Understøttet konfiguration

Hvis du vil konfigurere hver fane under kopiaktivitet, skal du gå til henholdsvis følgende afsnit.

Generelt

til Generelt for konfiguration af fanen Generelt.

Kilde

Følgende egenskaber understøttes for Google Cloud Storage under fanen Kilde for en kopiaktivitet.

Screenshot showing source tab and the list of properties.

Følgende egenskaber er påkrævet:

  • Datalagertype: Vælg ekstern.

  • Forbind ion: Vælg en Google Cloud Storage-forbindelse på forbindelseslisten. Hvis der ikke findes nogen forbindelse, skal du oprette en ny Google Cloud Storage-forbindelse ved at vælge Ny.

  • Filtype: Du kan vælge Filsti, Præfiks, Sti til jokertegn eller Liste over filer som filtype. Konfigurationen af hver af disse indstillinger er:

    • Filsti: Hvis du vælger denne type, kan dataene kopieres fra den angivne bucket eller mappe-/filsti, der er angivet i Filsti.

    • Præfiks: Hvis du vælger denne type, skal du angive bucketen og præfikset.

      • Bucket: Angiv navnet på Google Cloud Storage-bucketen. Det er påkrævet.

      • Præfiks: Præfiks for Nøglen til Google Cloud Storage under den angivne bucket til filtrering af Google Cloud Storage-filer. Google Cloud Storage-nøgler, hvis navne starter med given_bucket/this_prefix , er valgt. Det bruger Google Cloud Storages tjenestesidefilter, som giver bedre ydeevne end et jokertegnfilter.

        Screenshot showing how to configure Prefix file path type.

    • Sti til jokertegnfil: Hvis du vælger denne type, skal du angive stierne Bucket og Jokertegn.

      • Bucket: Angiv navnet på Google Cloud Storage-bucketen. Det er påkrævet.

      • Jokertegnstier: Angiv mappen eller filstien med jokertegn under den angivne bucket for at filtrere kildemapperne eller -filerne.

        Tilladte jokertegn er: * (svarer til nul eller flere tegn) og ? (svarer til nul eller enkelt tegn). Bruges ^ til at escape, hvis mappenavnet har jokertegn eller dette escape-tegn. Du kan få flere eksempler ved at gå til Eksempler på mappe- og filfilter.

        Screenshot showing how to configure wildcard file path.

        • Sti til jokertegnmappe: Angiv mappestien med jokertegn under den angivne bucket for at filtrere kildemapper.

        • Filnavn med jokertegn: Angiv filnavnet med jokertegn under den angivne bucket og mappesti (eller sti til jokertegnmappen) for at filtrere kildefiler.

    • Liste over filer: Hvis du vælger denne type, skal du angive mappestien og listen Sti til fil for at angive, at et bestemt filsæt skal kopieres. Peg på en tekstfil, der indeholder en liste over filer, du vil kopiere, én fil pr. linje, som er den relative sti til den konfigurerede sti. Du kan få flere eksempler ved at gå til Eksempler på fillister.

      Screenshot showing how to configure List of files.

      • Mappesti: Angiv stien til mappen under den angivne bucket. Det er påkrævet.
      • Sti til filliste: Angiv stien til den tekstfil, der indeholder en liste over filer, du vil kopiere.
  • Rekursivt: Angiver, om dataene læses rekursivt fra undermapperne eller kun fra den angivne mappe. Bemærk, at når dette afkrydsningsfelt er markeret, og destinationen er et filbaseret lager, kopieres eller oprettes der ikke en tom mappe eller undermappe på destinationen.

  • Filformat: Vælg det filformat, der anvendes på rullelisten. Vælg Indstillinger for at konfigurere filformatet. Du kan finde detaljerede oplysninger i artikler i Understøttet format for at få flere oplysninger om indstillinger for forskellige filformater.

Under Avanceret kan du angive følgende felter:

  • Filtrer efter senest ændret: Filer filtreres på baggrund af de senest ændrede datoer, du har angivet. Denne egenskab gælder ikke, når du konfigurerer filtypen som Liste over filer.

    • Starttidspunkt (UTC):Filerne vælges, hvis deres seneste ændringstid er større end eller lig med det konfigurerede tidspunkt.
    • Sluttidspunkt (UTC):Filerne vælges, hvis deres seneste ændringstidspunkt er mindre end det konfigurerede tidspunkt.

    Når Starttidspunkt (UTC) har datetime-værdi, men Sluttidspunkt (UTC) er NULL, betyder det, at de filer, hvis senest ændrede attribut er større end eller lig med datetime-værdien, vælges. Når Sluttidspunkt (UTC) har datetime-værdi, men Starttidspunkt (UTC) er NULL, betyder det, at de filer, hvis senest ændrede attribut er mindre end datetime-værdien, vælges. Egenskaberne kan være NULL, hvilket betyder, at der ikke anvendes et filattributfilter på dataene.

  • Aktivér registrering af partition: Angiv, om partitionerne skal fortolkes fra filstien, og tilføj dem som yderligere kildekolonner. Den er som standard ikke markeret og understøttes ikke, når du bruger binært filformat.

    • Partitionsrodsti: Når registrering af partition er aktiveret, skal du angive den absolutte rodsti for at læse partitionerede mapper som datakolonner.

      Hvis den ikke er angivet som standard,

      • Når du bruger filstien eller listen over filer på kilden, er partitionsrodstien den sti, du har konfigureret.
      • Når du bruger jokertegnmappefilteret, er partitionsrodstien understien før det første jokertegn.
      • Når du bruger præfikset, er partitionsrodstien understien før det sidste "/".

      Hvis du f.eks. konfigurerer stien som root/folder/year=2020/month=08/day=27:

      • Hvis du angiver rodstien for partitionen som root/folder/year=2020, genererer kopiaktivitet to kolonner mere måned og dag med værdien "08" og "27" ud over kolonnerne i filerne.
      • Hvis der ikke er angivet en partitionsrodsti, oprettes der ingen ekstra kolonne.

      Screenshot showing Enable partition discovery.

  • Maks. samtidig forbindelse: Den øvre grænse for samtidige forbindelser, der er oprettet til datalageret under aktivitetskørslen. Angiv kun en værdi, når du vil begrænse samtidige forbindelser.

  • Flere kolonner: Tilføj flere datakolonner for at gemme kildefilernes relative sti eller statiske værdi. Udtrykket understøttes for sidstnævnte.

Destination

Følgende egenskaber understøttes for Google Cloud Storage under fanen Destination for en kopiaktivitet.

Screenshot showing destination tab and the list of properties.

Følgende egenskaber er påkrævet:

  • Datalagertype: Vælg ekstern.
  • Forbind ion: Vælg en Google Cloud Storage-forbindelse på forbindelseslisten. Hvis der ikke findes nogen forbindelse, skal du oprette en ny Google Cloud Storage-forbindelse ved at vælge Ny.
  • Filsti: Dataene kan kopieres til den angivne bucket eller den angivne bucket- og mappesti.
  • Filformat: Vælg det filformat, der anvendes på rullelisten. Vælg Indstillinger for at konfigurere filformatet. Du kan finde detaljerede oplysninger i artikler i Understøttet format for at få flere oplysninger om indstillinger for forskellige filformater.

Under Avanceret kan du angive følgende felter:

  • Funktionsmåde for kopiering: Definerer kopifunktionsmåden, når kilden er filer fra et filbaseret datalager. Du kan vælge en funktionsmåde på rullelisten.

    • Fladgør hierarki: Alle filer fra kildemappen er på det første niveau i destinationsmappen. Destinationsfilerne har automatisk genererede navne.
    • Flet filer: Fletter alle filer fra kildemappen til én fil. Hvis filnavnet er angivet, er det flettede filnavn det angivne navn. Ellers er det et automatisk genereret filnavn.
    • Bevar hierarki: Bevarer filhierarkiet i destinationsmappen. Den relative sti for kildefilen til kildemappen er identisk med den relative sti for destinationsfilen til destinationsmappen.
  • Maks. antal samtidige forbindelser: Denne egenskab angiver den øvre grænse for samtidige forbindelser, der er oprettet til datalageret under aktivitetskørslen. Angiv kun en værdi, når du vil begrænse samtidige forbindelser.

Tilknytning

Hvis du vil have mere at vide om konfiguration af fanen Tilknytning , skal du se Konfigurer dine tilknytninger under fanen Tilknytning. Hvis du vælger Binær som filformat, understøttes tilknytning ikke.

Indstillinger

For konfigurationen af fanen Indstillinger skal du gå til Konfigurer dine andre indstillinger under fanen Indstillinger.

Tabeloversigt

Følgende tabeller indeholder flere oplysninger om kopiaktiviteten i Google Cloud Storage.

Kildeoplysninger

Navn Beskrivelse Værdi Obligatorisk JSON-scriptegenskab
Datalagertype Datalagertypen. Eksternt Ja /
Forbind ion Din forbindelse til kildedatalageret. <din Google Cloud Storage-forbindelse> Ja Forbindelse
Filtype Den filtype, der bruges til at hente kildedata. Filsti
Præfiks
Sti til jokertegnfil
Liste over filer
Ja /
For filsti
Spand Navnet på Google Cloud Storage-bucketen. <dit bucketnavn> Ja bucketName
Register Stien til mappen under den angivne bucket. <dit mappenavn> Nr. folderpath
Filnavn Filnavnet under den angivne bucket og mappesti. <dit filnavn> Nr. Filnavn
For præfiks
Spand Navnet på Google Cloud Storage-bucketen. <dit bucketnavn> Ja bucketName
Præfiks Præfikset for Nøglen til Google Cloud Storage under den angivne bucket til filtrering af Google Cloud Storage-filer fra kilden. <dit præfiks> Nr. Præfiks
For sti til jokertegnfil
Spand Navnet på Google Cloud Storage-bucketen. <dit bucketnavn> Ja bucketName
Sti til jokertegnmappe Mappestien med jokertegn under den angivne bucket til filtrering af kildemapper. <mappestien med jokertegn> Nr. jokertegnFolderPath
Filnavn med jokertegn Filnavnet med jokertegn under den angivne bucket og mappesti (eller sti til jokertegnmappen) til filtrering af kildefiler. <filnavnet med jokertegn> Ja jokertegnFileName
For Liste over filer
Spand Navnet på Google Cloud Storage-bucketen. <dit bucketnavn> Ja bucketName
Register Stien til mappen under den angivne bucket. <dit mappenavn> Nr. folderpath
Sti til filliste Angiver, at et givent filsæt skal kopieres. Peg på en tekstfil, der indeholder en liste over filer, du vil kopiere, én fil pr. linje. < sti til filliste > Nr. fileListPath
Filformat Filformatet for kildedataene. Du kan finde flere oplysninger om forskellige filformater i artikler i Understøttet format for at få detaljerede oplysninger. / Ja /
Rekursivt Angiver, om dataene læses rekursivt fra undermapperne eller kun fra den angivne mappe. Bemærk, at når dette afkrydsningsfelt er markeret, og destinationen er et filbaseret lager, kopieres eller oprettes der ikke en tom mappe eller undermappe på destinationen. valgt (standard) eller fravælg Nr. Rekursive
Filtrer efter senest ændret Filerne med tidspunkt for seneste ændring i intervallet [Starttidspunkt, Sluttidspunkt) filtreres til yderligere behandling. Klokkeslættet anvendes på UTC-tidszonen i formatet yyyy-mm-ddThh:mm:ss.fffZ. Disse egenskaber kan springes over, hvilket betyder, at der ikke anvendes et filattributfilter. Denne egenskab gælder ikke, når du konfigurerer filtypen som Liste over filer. dato/klokkeslæt Nr. modifiedDatetimeStart
modifiedDatetimeEnd
Aktivér registrering af partition Angiver, om partitionerne fra filstien skal fortolkes og tilføjes som yderligere kildekolonner. markeret eller ikke markeret (standard) Nr. enablePartitionDiscovery:
true eller false (standard)
Sti til partitionsrod Når registrering af partition er aktiveret, skal du angive den absolutte rodsti for at læse partitionerede mapper som datakolonner. < din partitionsrodsti > Nr. partitionRootPath
Maks. samtidig forbindelse Den øvre grænse for samtidige forbindelser, der er oprettet til datalageret under aktivitetskørslen. Angiv kun en værdi, når du vil begrænse samtidige forbindelser. <maks. antal samtidige forbindelser> Nr. maxConcurrent Forbind ions
Flere kolonner Tilføj yderligere datakolonner for at gemme kildefilernes relative sti eller statiske værdi. Udtrykket understøttes for sidstnævnte. • Navn
•Værdi
Nr. additionalColumns:
•Navn
•Værdi

Destinationsoplysninger

Navn Beskrivelse Værdi Obligatorisk JSON-scriptegenskab
Datalagertype Datalagertypen. Eksternt Ja /
Forbind ion Din forbindelse til destinationsdatalageret. <din Google Cloud Storage-forbindelse> Ja Forbindelse
Filsti Mappe-/filstien til destinationsfilen. < mappe-/filsti> Ja /
Spand Navnet på Google Cloud Storage-bucketen. <dit bucketnavn> Ja bucketName
Register Stien til mappen under den angivne bucket. <dit mappenavn> Nr. folderpath
Filnavn Filnavnet under den angivne bucket og mappesti. <dit filnavn> Nr. Filnavn
Funktionsmåde for kopiering Definerer funktionsmåden for kopiering, når kilden er filer fra et filbaseret datalager. • Fladgør hierarki
• Flet filer
• Bevar hierarki
Nr. copyBehavior:
• Fladt hierarki
• Fletfiler
• PreserveHierarchy
Maks. antal samtidige forbindelser Den øvre grænse for samtidige forbindelser, der er oprettet til datalageret under aktivitetskørslen. Angiv kun en værdi, når du vil begrænse samtidige forbindelser. <maks. antal samtidige forbindelser> Nr. maxConcurrent Forbind ions

Næste trin