Konfigurace Google Cloud Storage v aktivitě kopírování

Tento článek popisuje, jak pomocí aktivity kopírování v datovém kanálu kopírovat data z a do Google Cloud Storage.

Požadavky

V účtu služby Google Cloud Storage se vyžaduje následující nastavení:

  1. Povolte interoperabilitu účtu Google Cloud Storage.

  2. Nastavte výchozí projekt obsahující data, která chcete zkopírovat z cílového kontejneru úložiště Google Cloud Storage.

  3. Vytvořte účet služby a definujte správné úrovně oprávnění pomocí Cloud IAM v GCP.

  4. Vygenerujte přístupové klíče pro tento účet služby.

    Screenshot showing the access key for Google Cloud Storage.

Požadována oprávnění

Pokud chcete kopírovat data z Google Cloud Storage, ujistěte se, že máte udělená následující oprávnění pro operace objektů: storage.objects.get a storage.objects.list.

Kromě toho se vyžaduje oprávnění pro operace, storage.buckets.list jako je testování připojení a procházení z kořenového adresáře.

Úplný seznam rolí cloudového úložiště Google a přidružených oprávnění najdete v části Role IAM pro cloudové úložiště na webu Google Cloud.

Podporovaný formát

Google Cloud Storage podporuje následující formáty souborů. Informace o nastaveních založených na formátu najdete v jednotlivých článcích.

Podporovaná konfigurace

Konfigurace každé karty v aktivitě kopírování najdete v následujících částech.

OBECNÉ

V případě konfigurace karty Obecné přejděte na Obecné.

Source

Následující vlastnosti jsou podporovány pro Google Cloud Storage na kartě Zdroj aktivity kopírování.

Screenshot showing source tab and the list of properties.

Jsou vyžadovány následující vlastnosti:

  • Typ úložiště dat: Vyberte externí.

  • Připojení ion: Ze seznamu připojení vyberte připojení Ke cloudovému úložišti Google. Pokud žádné připojení neexistuje, vytvořte nové připojení Google Cloud Storage výběrem možnosti Nový.

  • Typ cesty k souboru: Jako typ cesty k souboru můžete zvolit cestu k souboru, předponu, cestu k souboru se zástupnými čísly nebo seznam souborů . Konfigurace každého z těchto nastavení je:

    • Cesta k souboru: Pokud zvolíte tento typ, lze data zkopírovat z daného kontejneru nebo složky nebo cesty k souboru zadané v cestě k souboru.

    • Předpona: Pokud zvolíte tento typ, zadejte kontejner a předponu.

      • Kontejner: Zadejte název kontejneru Cloudového úložiště Google. Je to povinné.

      • Předpona: Předpona pro název klíče cloudového úložiště Google v zadaném kontejneru pro filtrování zdrojových souborů Google Cloud Storage. Klíče google Cloud Storage, jejichž názvy začínají given_bucket/this_prefix , jsou vybrané. Využívá filtr na straně služby Google Cloud Storage, který poskytuje lepší výkon než filtr se zástupnými cardy.

        Screenshot showing how to configure Prefix file path type.

    • Cesta k souboru se zástupným znakem: Pokud zvolíte tento typ, zadejte cesty Bucket a Wildcard.

      • Kontejner: Zadejte název kontejneru Cloudového úložiště Google. Je to povinné.

      • Cesty se zástupnými znaky: Určete složku nebo cestu k souboru se zástupnými znaky v daném kontejneru a vyfiltrujte zdrojové složky nebo soubory.

        Povolené zástupné znaky jsou: * (odpovídá nule nebo více znaků) a ? (odpovídá nule nebo jednomu znaku). Slouží ^ k řídicímu znaku, pokud má název složky zástupný znak nebo tento řídicí znak uvnitř. Další příklady najdete v příkladech filtru složek a souborů.

        Screenshot showing how to configure wildcard file path.

        • Cesta ke složce se zástupnými znaky: Zadejte cestu ke složce se zástupnými znaky v daném kontejneru pro filtrování zdrojových složek.

        • Název souboru se zástupnými znaky: Zadejte název souboru se zástupnými znaky v daném kontejneru a cestě ke složce (nebo cestu ke složce se zástupnými znaky) pro filtrování zdrojových souborů.

    • Seznam souborů: Pokud zvolíte tento typ, zadejte cestu ke složce a cestu k seznamu souborů, které označují kopírování dané sady souborů. Přejděte na textový soubor, který obsahuje seznam souborů, které chcete kopírovat, jeden soubor na řádek, což je relativní cesta k nakonfigurované cestě. Další příklady najdete v příkladech se seznamem souborů.

      Screenshot showing how to configure List of files.

      • Cesta ke složce: Zadejte cestu ke složce v daném kontejneru. Je to povinné.
      • Cesta k seznamu souborů: Zadejte cestu k textovému souboru, který obsahuje seznam souborů, které chcete kopírovat.
  • Rekurzivně: Označuje, jestli se data čtou rekurzivně z podsložek nebo pouze ze zadané složky. Všimněte si, že když je toto zaškrtávací políčko zaškrtnuté a cílem je úložiště založené na souborech, prázdná složka nebo podsložka se v cíli nezkopíruje ani nevytvořila.

  • Formát souboru: V rozevíracím seznamu vyberte formát souboru použitý. Vyberte Nastavení a nakonfigurujte formát souboru. Podrobné informace najdete v článku o nastavení různých formátů souborů v podporovaném formátu .

V části Upřesnit můžete zadat následující pole:

  • Filtrovat podle poslední změny: Soubory se filtrují na základě data poslední změny, která jste zadali. Tato vlastnost se nepoužije při konfiguraci typu cesty k souboru jako seznam souborů.

    • Čas zahájení (UTC): Soubory se vyberou, pokud je jejich čas poslední změny větší nebo roven nakonfigurovanému času.
    • Čas ukončení (UTC): Soubory se vyberou, pokud je jejich čas poslední změny kratší než nakonfigurovaný čas.

    Pokud počáteční čas (UTC) má hodnotu datetime, ale koncový čas (UTC) má hodnotu NULL, znamená to, že budou vybrány soubory, jejichž atribut poslední změny je větší nebo roven hodnotě datetime. Pokud má koncový čas (UTC) hodnotu datetime, ale počáteční čas (UTC) má hodnotu NULL, znamená to, že soubory, jejichž atribut poslední změny je menší než hodnota datetime, budou vybrány. Vlastnosti mohou mít hodnotu NULL, což znamená, že na data se nepoužije žádný filtr atributů souboru.

  • Povolit zjišťování oddílů: Určete, jestli chcete analyzovat oddíly z cesty k souboru a přidat je jako další zdrojové sloupce. Ve výchozím nastavení se nevybíná a nepodporuje se při použití binárního formátu souboru.

    • Kořenová cesta oddílu: Pokud je povolené zjišťování oddílů, zadejte absolutní kořenovou cestu, abyste mohli číst dělené složky jako datové sloupce.

      Pokud není ve výchozím nastavení zadán,

      • Při použití cesty k souboru nebo seznamu souborů ve zdroji je kořenová cesta oddílu cesta, kterou jste nakonfigurovali.
      • Pokud používáte filtr složek se zástupnými otazemi, je kořenová cesta oddílu pod cestou před prvním zástupným znakem.
      • Při použití předpony je kořenová cesta oddílu dílčí cestou před poslední "/".

      Předpokládejme například, že cestu nakonfigurujete takto root/folder/year=2020/month=08/day=27:

      • Pokud zadáte kořenovou cestu oddílu jako root/folder/year=2020, aktivita kopírování vygeneruje dva další sloupce měsíc a den s hodnotou "08" a "27" kromě sloupců uvnitř souborů.
      • Pokud není zadaná kořenová cesta oddílu, nevygeneruje se žádný sloupec navíc.

      Screenshot showing Enable partition discovery.

  • Maximální souběžné připojení: Horní limit souběžných připojení vytvořených k úložišti dat během spuštění aktivity. Zadejte hodnotu pouze v případech, kdy chcete omezit souběžná připojení.

  • Další sloupce: Přidejte další datové sloupce pro ukládání relativní cesty nebo statické hodnoty zdrojových souborů. U druhého výrazu se podporuje.

Cíl

Následující vlastnosti jsou podporovány pro Google Cloud Storage na kartě Cíl aktivity kopírování.

Screenshot showing destination tab and the list of properties.

Jsou vyžadovány následující vlastnosti:

  • Typ úložiště dat: Vyberte externí.
  • Připojení ion: Ze seznamu připojení vyberte připojení Ke cloudovému úložišti Google. Pokud žádné připojení neexistuje, vytvořte nové připojení Google Cloud Storage výběrem možnosti Nový.
  • Cesta k souboru: Data je možné zkopírovat do daného kontejneru nebo do zadané cesty ke složce a kontejneru.
  • Formát souboru: V rozevíracím seznamu vyberte formát souboru použitý. Vyberte Nastavení a nakonfigurujte formát souboru. Podrobné informace najdete v článku o nastavení různých formátů souborů v podporovaném formátu .

V části Upřesnit můžete zadat následující pole:

  • Chování kopírování: Definuje chování kopírování, pokud zdroj je soubory ze souborového úložiště dat. V rozevíracím seznamu můžete zvolit chování.

    • Zploštěná hierarchie: Všechny soubory ze zdrojové složky jsou na první úrovni cílové složky. Cílové soubory mají automaticky vygenerované názvy.
    • Sloučit soubory: Sloučí všechny soubory ze zdrojové složky do jednoho souboru. Pokud je zadaný název souboru, je zadaným názvem sloučený soubor. V opačném případě se jedná o automaticky vygenerovaný název souboru.
    • Zachovat hierarchii: Zachová hierarchii souborů v cílové složce. Relativní cesta zdrojového souboru ke zdrojové složce je shodná s relativní cestou cílového souboru k cílové složce.
  • Maximální počet souběžných připojení: Tato vlastnost označuje horní limit souběžných připojení vytvořených k úložišti dat během spuštění aktivity. Zadejte hodnotu pouze v případech, kdy chcete omezit souběžná připojení.

mapování.

Konfigurace karty Mapování naleznete v části Konfigurace mapování na kartě mapování. Pokud jako formát souboru zvolíte Binary, mapování se nepodporuje.

Nastavení

Konfiguraci karty Nastavení získáte v části Konfigurace dalších nastavení na kartě Nastavení.

Souhrn tabulky

Následující tabulky obsahují další informace o aktivitě kopírování v Google Cloud Storage.

Informace o zdroji

Název Popis Hodnota Požaduje se Vlastnost skriptu JSON
Typ úložiště dat Váš typ úložiště dat. Externí Ano /
Připojení Vaše připojení ke zdrojovému úložišti dat. <připojení ke službě Google Cloud Storage> Ano připojení
Typ cesty k souboru Typ cesty k souboru sloužící k získání zdrojových dat. Cesta k souboru
Předpona
Cesta k souboru se zástupným znakem
Seznam souborů
Ano /
Cesta k souboru
Kbelík Název kontejneru Google Cloud Storage. <název kontejneru> Ano bucketName
Adresář Cesta ke složce v zadaném kontejneru. <název složky> No folderpath
Název souboru Název souboru v zadaném kontejneru a cestě ke složce. <název souboru> No fileName
Pro předponu
Kbelík Název kontejneru Google Cloud Storage. <název kontejneru> Ano bucketName
Předponu Předpona pro název klíče cloudového úložiště Google pod daným kontejnerem pro filtrování zdrojových souborů služby Google Cloud Storage. <vaše předpona> No Předponu
Cesta k souboru se zástupným znakem
Kbelík Název kontejneru Google Cloud Storage. <název kontejneru> Ano bucketName
Cesta ke složce se zástupným znakem Cesta ke složce se zástupnými znaky v zadaném kontejneru pro filtrování zdrojových složek. <cesta ke složce se zástupnými znaky> No Zástupný znakFolderPath
Název souboru se zástupným znakem Název souboru se zástupnými znaky v zadaném kontejneru a cestě ke složce (nebo cestu ke složce se zástupnými znaky) pro filtrování zdrojových souborů. <název souboru se zástupnými znaky> Ano wildcardFileName
Seznam souborů
Kbelík Název kontejneru Google Cloud Storage. <název kontejneru> Ano bucketName
Adresář Cesta ke složce v zadaném kontejneru. <název složky> No folderpath
Cesta k seznamu souborů Označuje, že chcete zkopírovat danou sadu souborů. Přejděte na textový soubor, který obsahuje seznam souborů, které chcete kopírovat, jeden soubor na řádek. < Cesta k seznamu souborů > No fileListPath
Formát souboru Formát souboru pro zdrojová data. Podrobné informace najdete v článcích v podporovaném formátu , kde najdete informace o různých formátech souborů. / Ano /
Rekurzivně Určuje, zda se data čtou rekurzivně z podsložek nebo pouze ze zadané složky. Všimněte si, že když je toto zaškrtávací políčko zaškrtnuté a cílem je úložiště založené na souborech, prázdná složka nebo podsložka se v cíli nezkopíruje ani nevytvořila. selected (default) or unselect No Rekurzivní
Filtrovat podle poslední změny Soubory s časem poslední změny v rozsahu [Počáteční čas, Koncový čas) se vyfiltrují pro další zpracování. Čas se použije u časového pásma UTC ve formátu yyyy-mm-ddThh:mm:ss.fffZ. Tyto vlastnosti lze přeskočit, což znamená, že se nepoužije žádný filtr atributů souboru. Tato vlastnost se nepoužije při konfiguraci typu cesty k souboru jako seznam souborů. datetime No modifiedDatetimeStart
modifiedDatetimeEnd
Povolení zjišťování oddílů Určuje, zda chcete analyzovat oddíly z cesty k souboru a přidat je jako další zdrojové sloupce. vybraná nebo nevybraná (výchozí) No enablePartitionDiscovery:
true nebo false (výchozí)
Kořenová cesta oddílu Pokud je povolené zjišťování oddílů, zadejte absolutní kořenovou cestu, abyste mohli číst dělené složky jako datové sloupce. < kořenová cesta oddílu > No partitionRootPath
Maximální počet souběžných připojení Horní limit souběžných připojení vytvořených k úložišti dat během spuštění aktivity. Zadejte hodnotu pouze v případech, kdy chcete omezit souběžná připojení. <maximální počet souběžných připojení> No maxConcurrent Připojení ions
Další sloupce Přidejte další datové sloupce pro ukládání relativní cesty ke zdrojovým souborům nebo statické hodnotě. U druhého výrazu se podporuje. • Jméno
•Hodnotu
No additionalColumns:
•Jméno
•Hodnotu

Informace o cíli

Název Popis Hodnota Požaduje se Vlastnost skriptu JSON
Typ úložiště dat Váš typ úložiště dat. Externí Ano /
Připojení Vaše připojení k cílovému úložišti dat. <připojení ke službě Google Cloud Storage> Ano připojení
Cesta k souboru Cesta ke složce nebo souboru k cílovému souboru. < cesta ke složce nebo souboru> Ano /
Kbelík Název kontejneru Google Cloud Storage. <název kontejneru> Ano bucketName
Adresář Cesta ke složce v zadaném kontejneru. <název složky> No folderpath
Název souboru Název souboru v zadaném kontejneru a cestě ke složce. <název souboru> No fileName
Chování kopírování Definuje chování kopírování, pokud je zdrojem soubory ze souborového úložiště dat. • Zploštěná hierarchie
• Sloučit soubory
• Zachovat hierarchii
No copyBehavior:
• FlattenHierarchy
• MergeFiles
• ZachovatHierarchy
Maximální počet souběžných připojení Horní limit souběžných připojení vytvořených k úložišti dat během spuštění aktivity. Zadejte hodnotu pouze v případech, kdy chcete omezit souběžná připojení. <maximální počet souběžných připojení> No maxConcurrent Připojení ions

Další kroky