Google Cloud Storage konfigurálása másolási tevékenységben
Ez a cikk azt ismerteti, hogyan használhatja a másolási tevékenységet az adatfolyamban adatok másolására a Google Cloud Storage-ból és a Google Cloud Storage-ba.
Előfeltételek
A Google Cloud Storage-fiókhoz a következő beállítás szükséges:
A Google Cloud Storage-fiók együttműködési képességének engedélyezése.
Állítsa be az alapértelmezett projektet, amely a cél Google Cloud Storage-gyűjtőből másolni kívánt adatokat tartalmazza.
Hozzon létre egy szolgáltatásfiókot, és határozza meg a megfelelő engedélyeket a felhőbeli IAM használatával a GCP-n.
Hozza létre a szolgáltatásfiók hozzáférési kulcsait.
Szükséges engedélyek
Ha adatokat szeretne másolni a Google Cloud Storage-ból, győződjön meg arról, hogy a következő engedélyekkel rendelkezik az objektumműveletekhez: storage.objects.get
és storage.objects.list
.
Emellett engedélyre van szükség olyan műveletekhez, storage.buckets.list
mint a kapcsolat tesztelése és a gyökérszintű böngészés.
A Google Cloud Storage-szerepkörök és a kapcsolódó engedélyek teljes listájához lépjen a Cloud Storage IAM-szerepköreihez a Google Cloud webhelyén.
Támogatott formátum
A Google Cloud Storage a következő fájlformátumokat támogatja. A formátumalapú beállításokat az egyes cikkekben találja.
- Avro formátum
- Bináris formátum
- Tagolt szövegformátum
- Excel-formátum
- JSON formátum
- ORC formátum
- Parquet formátum
- XML-formátum
Támogatott konfiguráció
A másolási tevékenység alatt lévő lapok konfigurációjához tekintse meg a következő szakaszokat.
Általános
Az Általános lap konfigurációjához lépjen az Általános lapra.
Forrás
A Google Cloud Storage a másolási tevékenység Forrás lapján az alábbi tulajdonságokat támogatja.
A következő tulajdonságok szükségesek:
Adattár típusa: Válassza a Külső lehetőséget.
Csatlakozás ion: Válasszon egy Google Cloud Storage-kapcsolatot a kapcsolatlistából. Ha nincs kapcsolat, hozzon létre egy új Google Cloud Storage-kapcsolatot az Új lehetőség kiválasztásával.
Fájl elérési útjának típusa: A fájl elérési útjaként kiválaszthatja a fájl elérési útját, az előtagot, a helyettesítő karakterek elérési útját vagy a fájlok listáját. Az egyes beállítások konfigurációja a következő:
Fájl elérési útja: Ha ezt a típust választja, az adatok átmásolhatók a Fájl elérési útján megadott gyűjtőből vagy mappából/fájl elérési útból.
Előtag: Ha ezt a típust választja, adja meg a gyűjtőt és az előtagot.
Gyűjtő: Adja meg a Google Cloud Storage gyűjtő nevét. Ez kötelező.
Előtag: A Google Cloud Storage kulcs nevének előtagja a megadott gyűjtő alatt a Forrás Google Cloud Storage-fájlok szűréséhez. A Google Cloud Storage-kulcsok, amelyeknek a neve a kezdőbetűkkel
given_bucket/this_prefix
kezdődik, ki vannak választva. A Google Cloud Storage szolgáltatásoldali szűrőjét használja, amely jobb teljesítményt nyújt, mint a helyettesítő karakterek szűrői.
Helyettesítő karakterek elérési útja: Ha ezt a típust választja, adja meg a Gyűjtő és a Helyettesítő karakterek elérési útját.
Gyűjtő: Adja meg a Google Cloud Storage gyűjtő nevét. Ez kötelező.
Helyettesítő karakterek elérési útjai: A forrásmappák vagy fájlok szűréséhez adja meg az adott gyűjtő alatt helyettesítő karaktereket tartalmazó mappát vagy fájl elérési útját.
Az engedélyezett helyettesítő karakterek a következők:
*
(nulla vagy több karakternek felel meg) és?
(nulla vagy egyetlen karakternek felel meg). A feloldás akkor használható^
, ha a mappa neve helyettesítő karaktert vagy ebben a feloldó karaktert használ. További példákért tekintse meg a Mappa és fájlszűrő példákat.Helyettesítő karakterek mappa elérési útja: Adja meg a mappa elérési útját helyettesítő karakterekkel az adott gyűjtő alatt a forrásmappák szűréséhez.
Helyettesítő karakterek fájlneve: A forrásfájlok szűréséhez adja meg a megadott gyűjtő- és mappaútvonal (vagy helyettesítő mappa elérési útja) alatti helyettesítő karaktereket tartalmazó fájlnevet.
Fájlok listája: Ha ezt a típust választja, adja meg a mappa elérési útját és a fájllista elérési útját, amely egy adott fájlkészlet másolását jelzi. Mutasson egy szövegfájlra, amely tartalmazza a másolandó fájlok listáját, soronként egy fájlt, amely a konfigurált elérési út relatív elérési útja. További példákért tekintse meg a Fájllista példákat.
- Mappa elérési útja: Adja meg a mappa elérési útját az adott gyűjtő alatt. Ez kötelező.
- Elérési út a fájllistához: Adja meg a másolandó fájlok listáját tartalmazó szövegfájl elérési útját.
Rekurzívan: Azt jelzi, hogy az adatok rekurzív módon vannak-e beolvasva az almappákból vagy csak a megadott mappából. Vegye figyelembe, hogy ha ez a jelölőnégyzet be van jelölve, és a cél egy fájlalapú tároló, a program nem másol vagy hoz létre egy üres mappát vagy almappát a célhelyen.
Fájlformátum: Válassza ki a legördülő listából alkalmazott fájlformátumot. Válassza a Gépház a fájlformátum konfigurálásához. A különböző fájlformátumok beállításairól részletes információt a támogatott formátumú cikkekben talál.
A Speciális területen a következő mezőket adhatja meg:
Szűrés utoljára módosítva: A fájlok szűrése a megadott utolsó módosított dátumok alapján történik. Ez a tulajdonság nem érvényes, ha a fájl elérési útját fájllistaként konfigurálja.
- Kezdési idő (UTC):: A fájlok akkor lesznek kiválasztva, ha az utolsó módosításuk időpontja nagyobb vagy egyenlő a konfigurált időpontnál.
- Befejezési idő (UTC):: A fájlok akkor lesznek kiválasztva, ha utolsó módosításuk időpontja kisebb, mint a konfigurált idő.
Ha a kezdési időpont (UTC) dátum/idő értékkel rendelkezik, de a befejezési idő (UTC) NULL, az azt jelenti, hogy azok a fájlok lesznek kiválasztva, amelyek utolsó módosított attribútuma nagyobb vagy egyenlő a dátum/idő értékkel. Ha a befejezési idő (UTC) dátum/idő értékkel rendelkezik, de a kezdési idő (UTC) NULL, az azt jelenti, hogy azok a fájlok lesznek kiválasztva, amelyek utolsó módosított attribútuma kisebb, mint a dátum/idő érték. A tulajdonságok null értékűek lehetnek, ami azt jelenti, hogy a rendszer nem alkalmaz fájlattribútum-szűrőt az adatokra.
Partíciófelderítés engedélyezése: Adja meg, hogy elemezni szeretné-e a partíciókat a fájl elérési útjából, és további forrásoszlopokként adja hozzá őket. Alapértelmezés szerint nincs kiválasztva, és bináris fájlformátum használata esetén nem támogatott.
Partíció gyökérútvonala: Ha a partíciófelderítés engedélyezve van, adja meg az abszolút gyökér elérési utat a particionált mappák adatoszlopként való olvasásához.
Ha nincs megadva, alapértelmezés szerint
- Ha fájlelérési utat vagy fájllistát használ a forrásban, a partíció gyökérútvonala a konfigurált elérési út.
- Helyettesítő karakteres mappaszűrő használatakor a partíció gyökérútvonala az első helyettesítő karakter előtti alútvonal.
- Előtag használata esetén a partíció gyökérútvonala az utolsó "/" előtti alútvonal.
Tegyük fel például, hogy az elérési utat a következőképpen
root/folder/year=2020/month=08/day=27
konfigurálja:- Ha a partíció gyökérútvonalát adja meg,
root/folder/year=2020
a másolási tevékenység a fájlokon belüli oszlopok mellett még két oszlopot hoz létre a hónap és a nap során a "08" és a "27" értékkel. - Ha nincs megadva a partíció gyökérútvonala, a rendszer nem hoz létre további oszlopot.
Maximális egyidejű kapcsolat: Az adattárban a tevékenységfuttatás során létrehozott egyidejű kapcsolatok felső korlátja. Csak akkor adjon meg értéket, ha korlátozni szeretné az egyidejű kapcsolatokat.
További oszlopok: További adatoszlopok hozzáadása a forrásfájlok relatív elérési útjának vagy statikus értékének tárolásához. A kifejezés az utóbbi esetében támogatott.
Cél
A Google Cloud Storage a másolási tevékenység Cél lapján az alábbi tulajdonságokat támogatja.
A következő tulajdonságok szükségesek:
- Adattár típusa: Válassza a Külső lehetőséget.
- Csatlakozás ion: Válasszon egy Google Cloud Storage-kapcsolatot a kapcsolatlistából. Ha nincs kapcsolat, hozzon létre egy új Google Cloud Storage-kapcsolatot az Új lehetőség kiválasztásával.
- Fájl elérési útja: Az adatok átmásolhatók a megadott gyűjtőbe vagy a megadott gyűjtőbe és mappa elérési útba.
- Fájlformátum: Válassza ki a legördülő listából alkalmazott fájlformátumot. Válassza a Gépház a fájlformátum konfigurálásához. A különböző fájlformátumok beállításairól részletes információt a támogatott formátumú cikkekben talál.
A Speciális területen a következő mezőket adhatja meg:
Másolási viselkedés: Meghatározza a másolási viselkedést, ha a forrás fájlalapú adattárból származó fájl. A viselkedést a legördülő listában választhatja ki.
- Egybesimított hierarchia: A forrásmappából származó összes fájl a célmappa első szintjén található. A célfájlok automatikusan létrehozott névvel rendelkeznek.
- Fájlok egyesítése: A forrásmappából származó összes fájlt egyetlen fájlba egyesíti. Ha a fájlnév meg van adva, az egyesített fájlnév a megadott név. Ellenkező esetben ez egy automatikusan létrehozott fájlnév.
- Hierarchia megőrzése: Megőrzi a fájlhierarchiát a célmappában. A forrásfájl forrásmappához viszonyított elérési útja megegyezik a célfájl célmappához viszonyított elérési útjának elérési útával.
Egyidejű kapcsolatok maximális száma: Ez a tulajdonság az adattárban a tevékenységfuttatás során létesített egyidejű kapcsolatok felső korlátját jelzi. Csak akkor adjon meg értéket, ha korlátozni szeretné az egyidejű kapcsolatokat.
Hozzárendelés
A Leképezés lap konfigurálásához tekintse meg a leképezések konfigurálása a leképezési lapon című témakört. Ha a Bináris fájlt választja fájlformátumként, a leképezés nem támogatott.
Beállítások
A Gépház lap konfigurációjához válassza a Beállítások lap egyéb beállításainak konfigurálását.
Táblázat összefoglalása
Az alábbi táblázatok további információkat tartalmaznak a Google Cloud Storage másolási tevékenységéről.
Forrásadatok
Név | Leírás | Érték | Szükséges | JSON-szkripttulajdonság |
---|---|---|---|---|
Adattár típusa | Az adattár típusa. | Külső | Igen | / |
Kapcsolat | A forrásadattárhoz való kapcsolódás. | <a Google Cloud Storage-kapcsolat> | Igen | kapcsolat |
Fájl elérési útja | A forrásadatok lekéréséhez használt fájl elérési útja. | • Fájl elérési útja • Előtag • Helyettesítő karakterek elérési útja • Fájlok listája |
Igen | / |
Fájl elérési útja | ||||
Vödör | A Google Cloud Storage gyűjtő neve. | <a gyűjtő neve> | Igen | bucketName |
Taglista | A megadott gyűjtő alatti mappa elérési útja. | <a mappa neve> | Nem | folderpath |
Fájlnév | A megadott gyűjtő és mappa elérési útja alatti fájlnév. | <a fájl neve> | Nem | fileName |
Előtag esetén | ||||
Vödör | A Google Cloud Storage gyűjtő neve. | <a gyűjtő neve> | Igen | bucketName |
Előtag | A Google Cloud Storage kulcsnév előtagja az adott gyűjtő alatt a Forrás Google Cloud Storage-fájlok szűréséhez. | <az előtag> | Nem | Előtag |
Helyettesítő karakterek elérési útja | ||||
Vödör | A Google Cloud Storage gyűjtő neve. | <a gyűjtő neve> | Igen | bucketName |
Helyettesítő karakterek mappa elérési útja | A mappa elérési útja helyettesítő karakterekkel a megadott gyűjtő alatt a forrásmappák szűréséhez. | <a mappa elérési útja helyettesítő karakterekkel> | Nem | wildcardFolderPath |
Helyettesítő karakter fájlneve | A fájl neve helyettesítő karakterekkel a megadott gyűjtő- és mappaútvonal (vagy helyettesítő mappa elérési útja) alatt a forrásfájlok szűréséhez. | <a fájl neve helyettesítő karakterekkel> | Igen | wildcardFileName |
Fájlok listájához | ||||
Vödör | A Google Cloud Storage gyűjtő neve. | <a gyűjtő neve> | Igen | bucketName |
Taglista | A megadott gyűjtő alatti mappa elérési útja. | <a mappa neve> | Nem | folderpath |
Fájllista elérési útja | Egy adott fájlkészlet másolását jelzi. Mutasson egy szövegfájlra, amely a másolni kívánt fájlok listáját tartalmazza, soronként egy fájlt. | < fájllista elérési útja > | Nem | fileListPath |
Fájlformátum | A forrásadatok fájlformátuma. A különböző fájlformátumokról további információt a támogatott formátumú cikkekben talál. | / | Igen | / |
Rekurzív | Azt jelzi, hogy az adatok rekurzív módon vannak-e beolvasva az almappákból vagy csak a megadott mappából. Vegye figyelembe, hogy ha ez a jelölőnégyzet be van jelölve, és a cél egy fájlalapú tároló, a program nem másol vagy hoz létre egy üres mappát vagy almappát a célhelyen. | kiválasztva (alapértelmezett) vagy a kijelölés megszüntetése | Nem | Rekurzív |
Szűrés utoljára módosítva | A tartományban legutóbb módosított [Kezdési időpont, Befejezési idő) fájlok szűrése további feldolgozás céljából történik. Az idő az UTC időzónára lesz alkalmazva a következő yyyy-mm-ddThh:mm:ss.fffZ formátumban: . Ezek a tulajdonságok kihagyhatók, ami azt jelenti, hogy a rendszer nem alkalmaz fájlattribútum-szűrőt. Ez a tulajdonság nem érvényes, ha a fájl elérési útját fájllistaként konfigurálja. |
dátum/idő | Nem | modifiedDatetimeStart modifiedDatetimeEnd |
Partíciófelderítés engedélyezése | Azt jelzi, hogy elemezni kell-e a partíciókat a fájl elérési útjából, és további forrásoszlopokként kell-e hozzáadni őket. | ki van jelölve vagy nincs kijelölve (alapértelmezett) | Nem | enablePartitionDiscovery: igaz vagy hamis (alapértelmezett) |
Partíció gyökérútvonala | Ha a partíciófelderítés engedélyezve van, adja meg az abszolút gyökér elérési utat a particionált mappák adatoszlopként való olvasásához. | < a partíció gyökérútvonala > | Nem | partitionRootPath |
Egyidejű kapcsolat maximális kihasználtság | Az adattárhoz a tevékenység futtatása során létrehozott egyidejű kapcsolatok felső korlátja. Csak akkor adjon meg értéket, ha korlátozni szeretné az egyidejű kapcsolatokat. | <egyidejű kapcsolatok maximális kihasználása> | Nem | maxConcurrent Csatlakozás ions |
További oszlopok | Adjon hozzá további adatoszlopokat a forrásfájlok relatív elérési útjának vagy statikus értékének tárolásához. A kifejezés az utóbbi esetében támogatott. | •Név •Érték |
Nem | továbbicolumnok: •név •Érték |
Céladatok
Név | Leírás | Érték | Szükséges | JSON-szkripttulajdonság |
---|---|---|---|---|
Adattár típusa | Az adattár típusa. | Külső | Igen | / |
Kapcsolat | A céladattárhoz való kapcsolódás. | <a Google Cloud Storage-kapcsolat> | Igen | kapcsolat |
Elérési út | A célfájl mappa/fájl elérési útja. | < mappa/fájl elérési útja> | Igen | / |
Vödör | A Google Cloud Storage gyűjtő neve. | <a gyűjtő neve> | Igen | bucketName |
Taglista | A megadott gyűjtő alatti mappa elérési útja. | <a mappa neve> | Nem | folderpath |
Fájlnév | A megadott gyűjtő és mappa elérési útja alatti fájlnév. | <a fájl neve> | Nem | fileName |
Másolási viselkedés | Meghatározza a másolási viselkedést, ha a forrás fájlalapú adattárból származó fájlok. | • Egybesimított hierarchia • Fájlok egyesítése • A hierarchia megőrzése |
Nem | copyBehavior: • FlattenHierarchy • MergeFiles • PreserveHierarchy |
Egyidejű kapcsolatok maximális kihasználása | Az adattárhoz a tevékenység futtatása során létrehozott egyidejű kapcsolatok felső korlátja. Csak akkor adjon meg értéket, ha korlátozni szeretné az egyidejű kapcsolatokat. | <egyidejű kapcsolatok maximális kihasználása> | Nem | maxConcurrent Csatlakozás ions |