Čítať v angličtine

Zdieľať cez


Konfigurácia služby Amazon S3 do kopírovanej aktivity

Tento článok popisuje, ako používať aktivitu kopírovania v údajovom kanáli na kopírovanie údajov z a do služby Amazon S3.

Požadované povolenia

Ak chcete kopírovať údaje zo služby Amazon S3, uistite sa, že vám boli udelené nasledujúce povolenia pre operácie objektov Amazon S3: s3:GetObject a s3:GetObjectVersion.

Okrem toho sa na operácie, ako je testovanie pripojenia a s3:ListBucket/s3:GetBucketLocation prehľadávanie z koreňového adresára, s3:ListAllMyBuckets vyžadujú povolenia.

Úplný zoznam povolení Amazon S3 prejdite na stránke Specifying Permissions in a Policy on aWS (Určenie povolení v politike na lokalite AWS).

Podporovaný formát

Amazon S3 podporuje nasledujúce formáty súborov. V každom článku nájdete informácie o nastaveniach založených na formáte.

Podporovaná konfigurácia

Ak chcete nastaviť každú kartu v časti Aktivita kopírovania, prejdite do nasledujúcich sekcií.

Všeobecné

Ak chcete nakonfigurovať kartu Všeobecné nastavenia, prečítajte si tému Všeobecné pokyny na nastavenie.

Source

Amazon S3 je podporovaný nasledujúcimi vlastnosťami na karte Zdroj kopírovanej aktivity.

Screenshot showing source tab and the list of properties.

Vyžadujú sa nasledujúce vlastnosti:

  • Typ ukladacieho priestoru údajov: Vyberte položku Externé.

  • Pripojenie ion: Zo zoznamu pripojení vyberte pripojenie Amazon S3. Ak neexistuje žiadne pripojenie, vytvorte nové pripojenie Amazon výberom položky Nové.

  • Pripojenie ion type (Typ pripojenia): Ako typ pripojenia vyberte amazon S3.

  • Typ cesty k súboru: Ako typ cesty k súboru môžete vybrať cestu k súboru, predponu, cestu k súboru zástupného znaku alebo Zoznam súborov . Konfigurácia každého nastavenia je:

    • Cesta k súboru: Ak vyberiete tento typ, údaje je možné skopírovať z daného sektora alebo do zadaného sektora a cesty k priečinku.

    • Predpona: Ak vyberiete tento typ, zadajte kontajner a predponu.

      • Bucket (Sektor): Zadajte názov sektora S3. Je to nutné.

      • Predpona: zadajte predponu názvu kľúča S3 v danom kontajneri na filtrovanie súborov S3 zdrojového kódu. Vyberú sa kľúče S3, ktorých názvy začínajú bucket/this_prefix na. Využíva filter služby S3, ktorý poskytuje lepší výkon ako zástupný filter.

        Ak použijete predponu a rozhodnete sa skopírovať do cieľa založeného na súbore so zachovaním hierarchie, podkategóriu po poslednej predpone "/" zachováte. Máte napríklad zdroj bucket/folder/subfolder/file.txta nakonfigurujete predponu ako folder/sub, zachovaná cesta k súboru bude subfolder/file.txt.

      Screenshot showing prefix.

    • Cesta k súboru so zástupnými znakmi: Ak vyberiete tento typ, zadajte cesty Bucket a Wildcard.

      • Bucket (Sektor): Zadajte názov sektora S3. Je to nutné.

      • Zástupné cesty: Zadajte priečinok alebo cestu k súboru so zástupnými znakmi do daného sektora na filtrovanie zdrojových priečinkov alebo súborov.

        Povolené zástupné znaky sú: * (zodpovedá nule alebo viacerým znakom) a ? (zodpovedá nule alebo jednému znaku). Ak názov priečinka obsahuje zástupný znak alebo tento escape znak, použite na ^ útek. Ďalšie príklady nájdete v príkladoch filtra priečinkov a súborov. Screenshot showing wildcard file path.Cesta k zástupnému priečinku: Cesta k priečinku so zástupnými znakmi v danom sektore do zdrojových priečinkov filtra.

        Názov zástupného súboru: Názov súboru so zástupnými znakmi v danom sektore a ceste k priečinku (alebo cesta k zástupnému priečinku) na filtrovanie zdrojových súborov.

    • Zoznam súborov: Ak vyberiete tento typ, zadajte cestu k priečinku a zoznam Cesta k súboru, čo označuje, že sa má skopírovať daná množina súborov. Ukážte na textový súbor obsahujúci zoznam súborov, ktoré chcete skopírovať, jeden súbor na riadok, čo je relatívna cesta k nakonfigurovanej ceste. Ďalšie príklady nájdete v príkladoch zoznamu Súbor.

      Screenshot showing list of files.

      • Cesta k priečinku: zadajte cestu k priečinku v danom kontajneri. Je to nutné.
      • Cesta k zoznamu súborov: zadajte cestu k textovému súboru, ktorý obsahuje zoznam súborov, ktoré chcete skopírovať.
  • Rekurzívne: Zadajte, či sa údaje čítajú rekurzívne z podpriečinkov alebo iba zo zadaného priečinka. Keď je vybratá rekurzívna možnosť a cieľom je úložisko založené na súbore, prázdny priečinok alebo podpriečinok sa neskopíruje ani nevytvorí v cieli. Táto vlastnosť je predvolene vybratá a nevzťahuje sa pri konfigurácii zoznamu cesta k súboru.

  • Formát súboru: Vyberte formát súboru použitý v rozbaľovacom zozname. Vyberte položku Nastavenia a nakonfigurujte formát súboru. Ak chcete získať nastavenia rôznych formátov súborov, podrobné informácie nájdete v článkoch v časti Podporované formáty .

V časti Rozšírené môžete zadať nasledujúce polia:

  • Filtrovať podľa poslednej úpravy: Súbory sa filtrujú na základe naposledy upravených dátumov, ktoré ste zadali. Táto vlastnosť sa nevzťahuje na konfiguráciu typu cesty k súboru ako zoznamu súborov.

    • Čas začatia (UTC): Súbory sa vyberú, ak je ich čas poslednej úpravy väčší alebo rovný nakonfigurovanému času.
    • Čas ukončenia (UTC): Súbory sa vyberú, ak je ich čas poslednej úpravy kratší ako nakonfigurovaný čas.

    Keď má čas začatia (UTC) hodnotu dátumu a času, ale čas ukončenia (UTC) je NULL, znamená to, že sa vyberú súbory, ktorých naposledy upravený atribút je väčší alebo rovnaký ako hodnota datetime. Keď má čas ukončenia (UTC) hodnotu dátumu a času, ale čas začatia (UTC) je NULL, znamená to, že súbory, ktorých posledný upravený atribút je menší ako hodnota datetime, sa vyberú. Vlastnosti môžu mať hodnotu NULL, čo znamená, že na údaje sa nepoužije žiadny filter atribútu súboru.

  • Povoliť zisťovanie oblasti: zadajte, či sa majú analyzovať oblasti z cesty k súboru, a pridajte ich ako ďalšie zdrojové stĺpce. Keď používate formát binárneho súboru, výber nie je predvolene zrušený a nepodporuje sa.

    • Koreňová cesta oblasti: Keď je povolené zisťovanie oblasti, zadajte absolútnu koreňovú cestu, aby ste mohli čítať zdieľané priečinky ako stĺpce údajov.

      Ak v predvolenom nastavení nie je zadaná,

      • Keď použijete cestu k súboru alebo zoznam súborov v zdroji, cesta ku koreňu oblasti je cesta, ktorú ste nakonfigurovali.
      • Ak použijete filter zástupného priečinka, koreňová cesta oblasti je podradená cesta pred prvým zástupným znakom.
      • Keď použijete predponu, koreňová cesta oblasti je čiastková cesta pred posledným znakom /.

      Za predpokladu, že napríklad nakonfigurujete cestu ako root/folder/year=2020/month=08/day=27:

      • Ak určíte koreňovú cestu oblasti ako root/folder/year=2020, aktivita kopírovania vygeneruje ďalšie dva stĺpce za mesiac a deň s hodnotou 08 a 27 okrem stĺpcov v súboroch.
      • Ak nie je zadaná koreňová cesta oblasti, nevygeneruje sa žiadny ďalší stĺpec.

      Screenshot showing Enable partition discovery.

  • Maximálne súbežné pripojenie: Horná hranica súbežných pripojení vytvorených na ukladací priestor údajov počas spustenia aktivity. Zadajte hodnotu iba vtedy, keď chcete obmedziť súbežné pripojenia.

  • Ďalšie stĺpce: Pridajte ďalšie stĺpce údajov na ukladanie relatívnej cesty alebo statickej hodnoty zdrojových súborov. Pre druhý sa podporuje výraz.

Cieľ

Amazon S3 je v kopírovanej aktivite podporovaný nasledujúcimi vlastnosťami na karte Cieľ .

Screenshot showing destination tab and the list of properties.

Vyžadujú sa nasledujúce vlastnosti:

  • Typ ukladacieho priestoru údajov: Vyberte položku Externé.
  • Pripojenie ion: Zo zoznamu pripojení vyberte pripojenie Amazon S3. Ak neexistuje žiadne pripojenie, vytvorte nové pripojenie Amazon výberom položky Nové.
  • Pripojenie ion type (Typ pripojenia): Ako typ pripojenia vyberte amazon S3.
  • Cesta k súboru: Údaje je možné skopírovať do daného sektora alebo do zadaného sektora a cesty k priečinku.
  • Formát súboru: Vyberte formát súboru použitý v rozbaľovacom zozname. Vyberte položku Nastavenia a nakonfigurujte formát súboru. Ak chcete získať nastavenia rôznych formátov súborov, podrobné informácie nájdete v článkoch v časti Podporované formáty .

V časti Rozšírené môžete zadať nasledujúce polia:

  • Správanie kopírovania: Definuje správanie pri kopírovaní, keď je zdrojom súbory z úložiska údajov založeného na súbore. V rozbaľovacom zozname si môžete vybrať správanie.

    • Hierarchia zjednodušenia štruktúry: Všetky súbory zo zdrojového priečinka sa nachádzajú v prvej úrovni cieľového priečinka. Cieľové súbory majú automaticky generované názvy.
    • Zlúčenie súborov: Zlúči všetky súbory zo zdrojového priečinka do jedného súboru. Ak je zadaný názov súboru, zlúčený názov súboru je zadaný názov. V opačnom prípade ide o automaticky vygenerovaný názov súboru.
    • Zachovanie hierarchie: Zachová hierarchiu súborov v cieľovom priečinku. Relatívna cesta zdrojového súboru k zdrojového priečinka je identická s relatívnou cestou cieľového súboru k cieľového priečinka.
  • Maximálny počet súbežných pripojení: Táto vlastnosť označuje hornú hranicu súbežných pripojení vytvorených do ukladacieho priestoru údajov počas spustenia aktivity. Zadajte hodnotu iba vtedy, keď chcete obmedziť súbežné pripojenia.

Mapovanie

V časti Konfigurácia karty Mapovanie prejdite na položku Konfigurácia priradení na karte priradenia. Ak ako formát súboru vyberiete binárnu hodnotu, mapovanie nebude podporované.

Nastavenie

Informácie o konfigurácii karty Nastavenia nájdete v časti Konfigurácia ďalších nastavení na karte Nastavenia.

Súhrn tabuľky

Nasledujúce tabuľky obsahujú ďalšie informácie o aktivite kopírovania v amazonskej S3.

Zdrojové informácie

Name Description Value Požaduje sa Vlastnosť skriptu JSON
Typ ukladacieho priestoru údajov Typ ukladacieho priestoru údajov. Externé Áno /
Pripojenie ion Pripojenie k zdrojového úložisku údajov. <pripojenie k Amazon S3> Áno Pripojenie
typ Pripojenie ionu Vyberte typ pripojenia. Amazon S3 Áno /
Typ cesty k súboru Typ cesty k súboru, ktorý sa používa na získanie zdrojových údajov. Cesta k súboru
Predpona
Cesta k zástupnému súboru
Zoznam súborov
Áno /
Cesta k súboru
Vedierko Názov sektora S3. <názov kontajnera> Áno bucketName
Adresár Cesta k priečinku v zadanom kontajneri. <názov priečinka> Nie cesta k priečinku
Názov súboru Názov súboru v zadanej ceste k priečinku a kontajneru . <názov súboru> Nie Názov_súboru
Pre predponu
Vedierko Názov sektora S3. <názov kontajnera> Áno bucketName
Predpona Predpona názvu kľúča S3 v danom kontajneri na filtrovanie zdrojových súborov S3. <vaša predpona> Nie Predpona
V prípade cesty k súboru so zástupnými znakmi
Vedierko Názov sektora S3. <názov kontajnera> Áno bucketName
Cesta k priečinku so zástupnými znakmi Cesta k priečinku so zástupnými znakmi v zadanom sektore na filtrovanie zdrojových priečinkov. <cesta k priečinku so zástupnými znakmi> Nie wildcardFolderPath
Zástupný názov súboru Názov súboru so zástupnými znakmi v zadanom sektore a ceste k priečinku (alebo cesta k zástupnému priečinku) na filtrovanie zdrojových súborov. <názov súboru so zástupnými znakmi> Áno wildcardFileName
Zoznam súborov
Vedierko Názov sektora S3. <názov kontajnera> Áno bucketName
Adresár Cesta k priečinku v zadanom kontajneri. <názov priečinka> Nie cesta k priečinku
Cesta k zoznamu súborov Označuje skopírovanie danej množiny súborov. Ukážte na textový súbor obsahujúci zoznam súborov, ktoré chcete skopírovať, jeden súbor na riadok. < cesta k zoznamu súborov > Nie fileListPath
Formát súboru Formát súboru pre zdrojové údaje. Informácie o rôznych formátoch súborov nájdete v článkoch v časti Podporované formáty , kde nájdete podrobné informácie. / Áno /
Rekurzívne Udáva, či sa údaje čítajú rekurzívne z podpriečinkov alebo iba zo zadaného priečinka. Všimnite si, že keď je vybratá rekurzívna hodnota a cieľom je obchod založený na súbore, prázdny priečinok alebo podpriečinok sa v cieli neskopíruje ani nevytvorí. Táto vlastnosť sa nevzťahuje na konfiguráciu cesty k zoznamu súborov. selected (predvolené) alebo zrušenie výberu Nie Rekurzívny
Filtrovanie podľa poslednej úpravy Súbory s časom poslednej úpravy v rozsahu [Čas začatia, Čas ukončenia) sa vyfiltrujú na ďalšie spracovanie. Čas sa použije na časové pásmo UTC vo formáte yyyy-mm-ddThh:mm:ss.fffZ. Tieto vlastnosti možno vynechať, čo znamená, že sa nepoužije žiadny filter atribútu súboru. Táto vlastnosť sa nevzťahuje na konfiguráciu typu cesty k súboru ako zoznamu súborov. Datetime Nie modifiedDatetimeStart
modifiedDatetimeEnd
Povolenie zisťovania oblasti Udáva, či sa majú analyzovať oblasti z cesty k súboru, a či sa majú pridať ako ďalšie zdrojové stĺpce. vybraté alebo nevybrané (predvolené) Nie enablePartitionDiscovery:
true alebo false (predvolené)
Koreňová cesta k oblasti Keď je povolené zisťovanie oblasti, zadajte absolútnu koreňovú cestu, aby ste mohli čítať priečinky so rozdelenými oblasťami ako stĺpce údajov. < vaša koreňová cesta oblasti > Nie partitionRootPath
Maximálny počet súbežných pripojení Horná hranica súbežných pripojení vytvorených do ukladacieho priestoru údajov počas spustenia aktivity. Zadajte hodnotu iba vtedy, keď chcete obmedziť súbežné pripojenia. <maximálny počet súbežných pripojení> Nie maxConcurrent Pripojenie ions
Ďalšie stĺpce Pridajte ďalšie stĺpce údajov na ukladanie relatívnej cesty alebo statickej hodnoty zdrojových súborov. Pre druhý sa podporuje výraz. •Meno
•Hodnota
Nie additionalColumns:
•meno
•Hodnota

Informácie o cieli

Name Description Value Požaduje sa Vlastnosť skriptu JSON
Typ ukladacieho priestoru údajov Typ ukladacieho priestoru údajov. Externé Áno /
Pripojenie ion Vaše pripojenie do cieľového úložiska údajov. <pripojenie k Amazon S3> Áno Pripojenie
typ Pripojenie ionu Vyberte typ pripojenia. Amazon S3 Áno /
Cesta k súboru Cesta k priečinku alebo súboru k cieľového súboru. <folder/file path> Áno /
Vedierko Názov sektora S3. <názov kontajnera> Áno bucketName
Adresár Cesta k priečinku v zadanom kontajneri. <názov priečinka> Nie cesta k priečinku
Názov súboru Názov súboru v zadanej ceste k priečinku a kontajneru . <názov súboru> Nie Názov_súboru
Správanie kopírovania Definuje správanie pri kopírovaní, keď je zdrojom súbory z úložiska údajov na základe súborov. • Hierarchia zjednodušenia ovládania
• Zlúčenie súborov
• Zachovanie hierarchie
Nie copyBehavior:
• FlattenHierarchy
• MergeFiles
• PreserveHierarchy
Maximálny počet súbežných pripojení Horná hranica súbežných pripojení vytvorených do ukladacieho priestoru údajov počas spustenia aktivity. Zadajte hodnotu iba vtedy, keď chcete obmedziť súbežné pripojenia. <maximálny počet súbežných pripojení> Nie maxConcurrent Pripojenie ions