Konfigurácia služby Amazon S3 do kopírovanej aktivity
Tento článok popisuje, ako používať aktivitu kopírovania v údajovom kanáli na kopírovanie údajov z a do služby Amazon S3.
Ak chcete kopírovať údaje zo služby Amazon S3, uistite sa, že vám boli udelené nasledujúce povolenia pre operácie objektov Amazon S3: s3:GetObject
a s3:GetObjectVersion
.
Okrem toho sa na operácie, ako je testovanie pripojenia a s3:ListBucket
/s3:GetBucketLocation
prehľadávanie z koreňového adresára, s3:ListAllMyBuckets
vyžadujú povolenia.
Úplný zoznam povolení Amazon S3 prejdite na stránke Specifying Permissions in a Policy on aWS (Určenie povolení v politike na lokalite AWS).
Amazon S3 podporuje nasledujúce formáty súborov. V každom článku nájdete informácie o nastaveniach založených na formáte.
- Formát Avro
- Binárny formát
- Text vo formáte s oddeľovačmi
- Formát Excelu
- Formát JSON
- Formát ORC
- Formát parketu
- Formát XML
Ak chcete nastaviť každú kartu v časti Aktivita kopírovania, prejdite do nasledujúcich sekcií.
Ak chcete nakonfigurovať kartu Všeobecné nastavenia, prečítajte si tému Všeobecné pokyny na nastavenie.
Amazon S3 je podporovaný nasledujúcimi vlastnosťami na karte Zdroj kopírovanej aktivity.
Vyžadujú sa nasledujúce vlastnosti:
Typ ukladacieho priestoru údajov: Vyberte položku Externé.
Pripojenie ion: Zo zoznamu pripojení vyberte pripojenie Amazon S3. Ak neexistuje žiadne pripojenie, vytvorte nové pripojenie Amazon výberom položky Nové.
Pripojenie ion type (Typ pripojenia): Ako typ pripojenia vyberte amazon S3.
Typ cesty k súboru: Ako typ cesty k súboru môžete vybrať cestu k súboru, predponu, cestu k súboru zástupného znaku alebo Zoznam súborov . Konfigurácia každého nastavenia je:
Cesta k súboru: Ak vyberiete tento typ, údaje je možné skopírovať z daného sektora alebo do zadaného sektora a cesty k priečinku.
Predpona: Ak vyberiete tento typ, zadajte kontajner a predponu.
Bucket (Sektor): Zadajte názov sektora S3. Je to nutné.
Predpona: zadajte predponu názvu kľúča S3 v danom kontajneri na filtrovanie súborov S3 zdrojového kódu. Vyberú sa kľúče S3, ktorých názvy začínajú
bucket/this_prefix
na. Využíva filter služby S3, ktorý poskytuje lepší výkon ako zástupný filter.Ak použijete predponu a rozhodnete sa skopírovať do cieľa založeného na súbore so zachovaním hierarchie, podkategóriu po poslednej predpone "/" zachováte. Máte napríklad zdroj
bucket/folder/subfolder/file.txt
a nakonfigurujete predponu akofolder/sub
, zachovaná cesta k súboru budesubfolder/file.txt
.
Cesta k súboru so zástupnými znakmi: Ak vyberiete tento typ, zadajte cesty Bucket a Wildcard.
Bucket (Sektor): Zadajte názov sektora S3. Je to nutné.
Zástupné cesty: Zadajte priečinok alebo cestu k súboru so zástupnými znakmi do daného sektora na filtrovanie zdrojových priečinkov alebo súborov.
Povolené zástupné znaky sú:
*
(zodpovedá nule alebo viacerým znakom) a?
(zodpovedá nule alebo jednému znaku). Ak názov priečinka obsahuje zástupný znak alebo tento escape znak, použite na^
útek. Ďalšie príklady nájdete v príkladoch filtra priečinkov a súborov.Cesta k zástupnému priečinku: Cesta k priečinku so zástupnými znakmi v danom sektore do zdrojových priečinkov filtra.
Názov zástupného súboru: Názov súboru so zástupnými znakmi v danom sektore a ceste k priečinku (alebo cesta k zástupnému priečinku) na filtrovanie zdrojových súborov.
Zoznam súborov: Ak vyberiete tento typ, zadajte cestu k priečinku a zoznam Cesta k súboru, čo označuje, že sa má skopírovať daná množina súborov. Ukážte na textový súbor obsahujúci zoznam súborov, ktoré chcete skopírovať, jeden súbor na riadok, čo je relatívna cesta k nakonfigurovanej ceste. Ďalšie príklady nájdete v príkladoch zoznamu Súbor.
- Cesta k priečinku: zadajte cestu k priečinku v danom kontajneri. Je to nutné.
- Cesta k zoznamu súborov: zadajte cestu k textovému súboru, ktorý obsahuje zoznam súborov, ktoré chcete skopírovať.
Rekurzívne: Zadajte, či sa údaje čítajú rekurzívne z podpriečinkov alebo iba zo zadaného priečinka. Keď je vybratá rekurzívna možnosť a cieľom je úložisko založené na súbore, prázdny priečinok alebo podpriečinok sa neskopíruje ani nevytvorí v cieli. Táto vlastnosť je predvolene vybratá a nevzťahuje sa pri konfigurácii zoznamu cesta k súboru.
Formát súboru: Vyberte formát súboru použitý v rozbaľovacom zozname. Vyberte položku Nastavenia a nakonfigurujte formát súboru. Ak chcete získať nastavenia rôznych formátov súborov, podrobné informácie nájdete v článkoch v časti Podporované formáty .
V časti Rozšírené môžete zadať nasledujúce polia:
Filtrovať podľa poslednej úpravy: Súbory sa filtrujú na základe naposledy upravených dátumov, ktoré ste zadali. Táto vlastnosť sa nevzťahuje na konfiguráciu typu cesty k súboru ako zoznamu súborov.
- Čas začatia (UTC): Súbory sa vyberú, ak je ich čas poslednej úpravy väčší alebo rovný nakonfigurovanému času.
- Čas ukončenia (UTC): Súbory sa vyberú, ak je ich čas poslednej úpravy kratší ako nakonfigurovaný čas.
Keď má čas začatia (UTC) hodnotu dátumu a času, ale čas ukončenia (UTC) je NULL, znamená to, že sa vyberú súbory, ktorých naposledy upravený atribút je väčší alebo rovnaký ako hodnota datetime. Keď má čas ukončenia (UTC) hodnotu dátumu a času, ale čas začatia (UTC) je NULL, znamená to, že súbory, ktorých posledný upravený atribút je menší ako hodnota datetime, sa vyberú. Vlastnosti môžu mať hodnotu NULL, čo znamená, že na údaje sa nepoužije žiadny filter atribútu súboru.
Povoliť zisťovanie oblasti: zadajte, či sa majú analyzovať oblasti z cesty k súboru, a pridajte ich ako ďalšie zdrojové stĺpce. Keď používate formát binárneho súboru, výber nie je predvolene zrušený a nepodporuje sa.
Koreňová cesta oblasti: Keď je povolené zisťovanie oblasti, zadajte absolútnu koreňovú cestu, aby ste mohli čítať zdieľané priečinky ako stĺpce údajov.
Ak v predvolenom nastavení nie je zadaná,
- Keď použijete cestu k súboru alebo zoznam súborov v zdroji, cesta ku koreňu oblasti je cesta, ktorú ste nakonfigurovali.
- Ak použijete filter zástupného priečinka, koreňová cesta oblasti je podradená cesta pred prvým zástupným znakom.
- Keď použijete predponu, koreňová cesta oblasti je čiastková cesta pred posledným znakom /.
Za predpokladu, že napríklad nakonfigurujete cestu ako
root/folder/year=2020/month=08/day=27
:- Ak určíte koreňovú cestu oblasti ako
root/folder/year=2020
, aktivita kopírovania vygeneruje ďalšie dva stĺpce za mesiac a deň s hodnotou 08 a 27 okrem stĺpcov v súboroch. - Ak nie je zadaná koreňová cesta oblasti, nevygeneruje sa žiadny ďalší stĺpec.
Maximálne súbežné pripojenie: Horná hranica súbežných pripojení vytvorených na ukladací priestor údajov počas spustenia aktivity. Zadajte hodnotu iba vtedy, keď chcete obmedziť súbežné pripojenia.
Ďalšie stĺpce: Pridajte ďalšie stĺpce údajov na ukladanie relatívnej cesty alebo statickej hodnoty zdrojových súborov. Pre druhý sa podporuje výraz.
Amazon S3 je v kopírovanej aktivite podporovaný nasledujúcimi vlastnosťami na karte Cieľ .
Vyžadujú sa nasledujúce vlastnosti:
- Typ ukladacieho priestoru údajov: Vyberte položku Externé.
- Pripojenie ion: Zo zoznamu pripojení vyberte pripojenie Amazon S3. Ak neexistuje žiadne pripojenie, vytvorte nové pripojenie Amazon výberom položky Nové.
- Pripojenie ion type (Typ pripojenia): Ako typ pripojenia vyberte amazon S3.
- Cesta k súboru: Údaje je možné skopírovať do daného sektora alebo do zadaného sektora a cesty k priečinku.
- Formát súboru: Vyberte formát súboru použitý v rozbaľovacom zozname. Vyberte položku Nastavenia a nakonfigurujte formát súboru. Ak chcete získať nastavenia rôznych formátov súborov, podrobné informácie nájdete v článkoch v časti Podporované formáty .
V časti Rozšírené môžete zadať nasledujúce polia:
Správanie kopírovania: Definuje správanie pri kopírovaní, keď je zdrojom súbory z úložiska údajov založeného na súbore. V rozbaľovacom zozname si môžete vybrať správanie.
- Hierarchia zjednodušenia štruktúry: Všetky súbory zo zdrojového priečinka sa nachádzajú v prvej úrovni cieľového priečinka. Cieľové súbory majú automaticky generované názvy.
- Zlúčenie súborov: Zlúči všetky súbory zo zdrojového priečinka do jedného súboru. Ak je zadaný názov súboru, zlúčený názov súboru je zadaný názov. V opačnom prípade ide o automaticky vygenerovaný názov súboru.
- Zachovanie hierarchie: Zachová hierarchiu súborov v cieľovom priečinku. Relatívna cesta zdrojového súboru k zdrojového priečinka je identická s relatívnou cestou cieľového súboru k cieľového priečinka.
Maximálny počet súbežných pripojení: Táto vlastnosť označuje hornú hranicu súbežných pripojení vytvorených do ukladacieho priestoru údajov počas spustenia aktivity. Zadajte hodnotu iba vtedy, keď chcete obmedziť súbežné pripojenia.
V časti Konfigurácia karty Mapovanie prejdite na položku Konfigurácia priradení na karte priradenia. Ak ako formát súboru vyberiete binárnu hodnotu, mapovanie nebude podporované.
Informácie o konfigurácii karty Nastavenia nájdete v časti Konfigurácia ďalších nastavení na karte Nastavenia.
Nasledujúce tabuľky obsahujú ďalšie informácie o aktivite kopírovania v amazonskej S3.
Name | Description | Value | Požaduje sa | Vlastnosť skriptu JSON |
---|---|---|---|---|
Typ ukladacieho priestoru údajov | Typ ukladacieho priestoru údajov. | Externé | Áno | / |
Pripojenie ion | Pripojenie k zdrojového úložisku údajov. | <pripojenie k Amazon S3> | Áno | Pripojenie |
typ Pripojenie ionu | Vyberte typ pripojenia. | Amazon S3 | Áno | / |
Typ cesty k súboru | Typ cesty k súboru, ktorý sa používa na získanie zdrojových údajov. | • Cesta k súboru • Predpona • Cesta k zástupnému súboru • Zoznam súborov |
Áno | / |
Cesta k súboru | ||||
Vedierko | Názov sektora S3. | <názov kontajnera> | Áno | bucketName |
Adresár | Cesta k priečinku v zadanom kontajneri. | <názov priečinka> | Nie | cesta k priečinku |
Názov súboru | Názov súboru v zadanej ceste k priečinku a kontajneru . | <názov súboru> | Nie | Názov_súboru |
Pre predponu | ||||
Vedierko | Názov sektora S3. | <názov kontajnera> | Áno | bucketName |
Predpona | Predpona názvu kľúča S3 v danom kontajneri na filtrovanie zdrojových súborov S3. | <vaša predpona> | Nie | Predpona |
V prípade cesty k súboru so zástupnými znakmi | ||||
Vedierko | Názov sektora S3. | <názov kontajnera> | Áno | bucketName |
Cesta k priečinku so zástupnými znakmi | Cesta k priečinku so zástupnými znakmi v zadanom sektore na filtrovanie zdrojových priečinkov. | <cesta k priečinku so zástupnými znakmi> | Nie | wildcardFolderPath |
Zástupný názov súboru | Názov súboru so zástupnými znakmi v zadanom sektore a ceste k priečinku (alebo cesta k zástupnému priečinku) na filtrovanie zdrojových súborov. | <názov súboru so zástupnými znakmi> | Áno | wildcardFileName |
Zoznam súborov | ||||
Vedierko | Názov sektora S3. | <názov kontajnera> | Áno | bucketName |
Adresár | Cesta k priečinku v zadanom kontajneri. | <názov priečinka> | Nie | cesta k priečinku |
Cesta k zoznamu súborov | Označuje skopírovanie danej množiny súborov. Ukážte na textový súbor obsahujúci zoznam súborov, ktoré chcete skopírovať, jeden súbor na riadok. | < cesta k zoznamu súborov > | Nie | fileListPath |
Formát súboru | Formát súboru pre zdrojové údaje. Informácie o rôznych formátoch súborov nájdete v článkoch v časti Podporované formáty , kde nájdete podrobné informácie. | / | Áno | / |
Rekurzívne | Udáva, či sa údaje čítajú rekurzívne z podpriečinkov alebo iba zo zadaného priečinka. Všimnite si, že keď je vybratá rekurzívna hodnota a cieľom je obchod založený na súbore, prázdny priečinok alebo podpriečinok sa v cieli neskopíruje ani nevytvorí. Táto vlastnosť sa nevzťahuje na konfiguráciu cesty k zoznamu súborov. | selected (predvolené) alebo zrušenie výberu | Nie | Rekurzívny |
Filtrovanie podľa poslednej úpravy | Súbory s časom poslednej úpravy v rozsahu [Čas začatia, Čas ukončenia) sa vyfiltrujú na ďalšie spracovanie. Čas sa použije na časové pásmo UTC vo formáte yyyy-mm-ddThh:mm:ss.fffZ . Tieto vlastnosti možno vynechať, čo znamená, že sa nepoužije žiadny filter atribútu súboru. Táto vlastnosť sa nevzťahuje na konfiguráciu typu cesty k súboru ako zoznamu súborov. |
Datetime | Nie | modifiedDatetimeStart modifiedDatetimeEnd |
Povolenie zisťovania oblasti | Udáva, či sa majú analyzovať oblasti z cesty k súboru, a či sa majú pridať ako ďalšie zdrojové stĺpce. | vybraté alebo nevybrané (predvolené) | Nie | enablePartitionDiscovery: true alebo false (predvolené) |
Koreňová cesta k oblasti | Keď je povolené zisťovanie oblasti, zadajte absolútnu koreňovú cestu, aby ste mohli čítať priečinky so rozdelenými oblasťami ako stĺpce údajov. | < vaša koreňová cesta oblasti > | Nie | partitionRootPath |
Maximálny počet súbežných pripojení | Horná hranica súbežných pripojení vytvorených do ukladacieho priestoru údajov počas spustenia aktivity. Zadajte hodnotu iba vtedy, keď chcete obmedziť súbežné pripojenia. | <maximálny počet súbežných pripojení> | Nie | maxConcurrent Pripojenie ions |
Ďalšie stĺpce | Pridajte ďalšie stĺpce údajov na ukladanie relatívnej cesty alebo statickej hodnoty zdrojových súborov. Pre druhý sa podporuje výraz. | •Meno •Hodnota |
Nie | additionalColumns: •meno •Hodnota |
Name | Description | Value | Požaduje sa | Vlastnosť skriptu JSON |
---|---|---|---|---|
Typ ukladacieho priestoru údajov | Typ ukladacieho priestoru údajov. | Externé | Áno | / |
Pripojenie ion | Vaše pripojenie do cieľového úložiska údajov. | <pripojenie k Amazon S3> | Áno | Pripojenie |
typ Pripojenie ionu | Vyberte typ pripojenia. | Amazon S3 | Áno | / |
Cesta k súboru | Cesta k priečinku alebo súboru k cieľového súboru. | <folder/file path> | Áno | / |
Vedierko | Názov sektora S3. | <názov kontajnera> | Áno | bucketName |
Adresár | Cesta k priečinku v zadanom kontajneri. | <názov priečinka> | Nie | cesta k priečinku |
Názov súboru | Názov súboru v zadanej ceste k priečinku a kontajneru . | <názov súboru> | Nie | Názov_súboru |
Správanie kopírovania | Definuje správanie pri kopírovaní, keď je zdrojom súbory z úložiska údajov na základe súborov. | • Hierarchia zjednodušenia ovládania • Zlúčenie súborov • Zachovanie hierarchie |
Nie | copyBehavior: • FlattenHierarchy • MergeFiles • PreserveHierarchy |
Maximálny počet súbežných pripojení | Horná hranica súbežných pripojení vytvorených do ukladacieho priestoru údajov počas spustenia aktivity. Zadajte hodnotu iba vtedy, keď chcete obmedziť súbežné pripojenia. | <maximálny počet súbežných pripojení> | Nie | maxConcurrent Pripojenie ions |