Az Amazon S3 konfigurálása másolási tevékenységben

Ez a cikk azt ismerteti, hogyan használhatja a másolási tevékenységet egy adatfolyamban adatok másolására az Amazon S3-ból és az Amazon S3-ba.

Szükséges engedélyek

Ha adatokat szeretne másolni az Amazon S3-ból, győződjön meg arról, hogy megkapta a következő engedélyeket az Amazon S3 objektumműveletekhez: s3:GetObject és s3:GetObjectVersion.

Emellett engedélyekre is szükség van az olyan műveletekhez, s3:ListAllMyBucketss3:ListBucket/s3:GetBucketLocation mint a kapcsolat tesztelése és a gyökérszintű böngészés.

Az Amazon S3-engedélyek teljes listájához nyissa meg az Engedélyek megadása az AWS-webhelyen található szabályzatokban.

Támogatott formátum

Az Amazon S3 a következő fájlformátumokat támogatja. A formátumalapú beállításokat az egyes cikkekben találja.

Támogatott konfiguráció

A másolási tevékenység alatt lévő lapok konfigurációjához tekintse meg a következő szakaszokat.

Általános

Az Általános beállítások lap konfigurálásához tekintse meg az Általános beállításokat ismertető útmutatót.

Forrás

Az Amazon S3 esetében a másolási tevékenység Forrás lapján az alábbi tulajdonságok támogatottak.

Screenshot showing source tab and the list of properties.

A következő tulajdonságok szükségesek:

  • Adattár típusa: Válassza a Külső lehetőséget.

  • Csatlakozás ion: Válasszon egy Amazon S3-kapcsolatot a kapcsolatlistából. Ha nincs kapcsolat, hozzon létre egy új Amazon-kapcsolatot az Új lehetőség kiválasztásával.

  • Csatlakozás ion típus: Válassza az Amazon S3 lehetőséget a kapcsolattípushoz.

  • Fájl elérési útjának típusa: A fájl elérési útjaként kiválaszthatja a fájl elérési útját, az előtagot, a helyettesítő karakterek elérési útját vagy a fájlok listáját. Az egyes beállítások konfigurációja a következő:

    • Fájl elérési útja: Ha ezt a típust választja, az adatok átmásolhatók az adott gyűjtőből vagy a megadott gyűjtőből és mappa elérési útból.

    • Előtag: Ha ezt a típust választja, adja meg a gyűjtőt és az előtagot.

      • Gyűjtő: Adja meg az S3 gyűjtő nevét. Ez kötelező.

      • Előtag: Adja meg az S3 kulcsnév előtagját az adott gyűjtőben a forrás S3-fájlok szűréséhez. Az S3-kulcsok, amelyek nevével bucket/this_prefix kezdődnek, ki vannak jelölve. Az S3 szolgáltatásoldali szűrőjét használja, amely jobb teljesítményt nyújt, mint a helyettesítő karakterek szűrői.

        Ha előtagot használ, és úgy dönt, hogy a hierarchiát megőrző fájlalapú célhelyre másol, vegye figyelembe, hogy az előtag utolsó "/" előtagja utáni alútvonal megmarad. Például rendelkezik forrásokkalbucket/folder/subfolder/file.txt, és konfigurálja az előtagot a következőképpenfolder/sub, majd a megőrzött fájl elérési útja.subfolder/file.txt

      Screenshot showing prefix.

    • Helyettesítő karakterek elérési útja: Ha ezt a típust választja, adja meg a Gyűjtő és a Helyettesítő karakterek elérési útját.

      • Gyűjtő: Adja meg az S3 gyűjtő nevét. Ez kötelező.

      • Helyettesítő karakterek elérési útjai: A forrásmappák vagy fájlok szűréséhez adja meg az adott gyűjtő alatt helyettesítő karaktereket tartalmazó mappát vagy fájl elérési útját.

        Az engedélyezett helyettesítő karakterek a következők: * (nulla vagy több karakternek felel meg) és ? (nulla vagy egyetlen karakternek felel meg). A feloldás akkor használható ^ , ha a mappa neve helyettesítő karaktert vagy ebben a feloldó karaktert használ. További példák a mappa- és fájlszűrő példákban. Screenshot showing wildcard file path.Helyettesítő karakterek mappa elérési útja: A mappa elérési útja helyettesítő karakterekkel az adott gyűjtő alatt a forrásmappák szűréséhez.

        Helyettesítő karakterfájl neve: A forrásfájlok szűréséhez használt fájlnév helyettesítő karakterekkel a megadott gyűjtő- és mappaútvonal (vagy helyettesítő mappa elérési útja) alatt.

    • Fájlok listája: Ha ezt a típust választja, adja meg a mappa elérési útját és a fájllista elérési útját, amely egy adott fájlkészlet másolását jelzi. Mutasson egy szövegfájlra, amely tartalmazza a másolandó fájlok listáját, soronként egy fájlt, amely a konfigurált elérési út relatív elérési útja. További példákért tekintse meg a Fájllista példákat.

      Screenshot showing list of files.

      • Mappa elérési útja: Adja meg a mappa elérési útját az adott gyűjtő alatt. Ez kötelező.
      • Elérési út a fájllistához: Adja meg a másolandó fájlok listáját tartalmazó szövegfájl elérési útját.
  • Rekurzívan: Adja meg, hogy az adatok rekurzívan vannak-e beolvasva az almappákból vagy csak a megadott mappából. Ha a Rekurzív elem ki van jelölve, és a cél egy fájlalapú tároló, a program nem másol vagy hoz létre üres mappát vagy almappát a célhelyen. Ez a tulajdonság alapértelmezés szerint ki van jelölve, és nem érvényes a fájllista elérési útjának konfigurálásakor.

  • Fájlformátum: Válassza ki a legördülő listából alkalmazott fájlformátumot. Válassza a Gépház a fájlformátum konfigurálásához. A különböző fájlformátumok beállításairól részletes információt a támogatott formátumú cikkekben talál.

A Speciális területen a következő mezőket adhatja meg:

  • Szűrés utoljára módosítva: A fájlok szűrése a megadott utolsó módosított dátumok alapján történik. Ez a tulajdonság nem érvényes, ha a fájl elérési útját fájllistaként konfigurálja.

    • Kezdési idő (UTC):: A fájlok akkor lesznek kiválasztva, ha az utolsó módosításuk időpontja nagyobb vagy egyenlő a konfigurált időpontnál.
    • Befejezési idő (UTC):: A fájlok akkor lesznek kiválasztva, ha utolsó módosításuk időpontja kisebb, mint a konfigurált idő.

    Ha a kezdési időpont (UTC) dátum/idő értékkel rendelkezik, de a befejezési idő (UTC) NULL, az azt jelenti, hogy azok a fájlok lesznek kiválasztva, amelyek utolsó módosított attribútuma nagyobb vagy egyenlő a dátum/idő értékkel. Ha a befejezési idő (UTC) dátum/idő értékkel rendelkezik, de a kezdési idő (UTC) NULL, az azt jelenti, hogy azok a fájlok lesznek kiválasztva, amelyek utolsó módosított attribútuma kisebb, mint a dátum/idő érték. A tulajdonságok null értékűek lehetnek, ami azt jelenti, hogy a rendszer nem alkalmaz fájlattribútum-szűrőt az adatokra.

  • Partíciófelderítés engedélyezése: Adja meg, hogy elemezni szeretné-e a partíciókat a fájl elérési útjából, és további forrásoszlopokként adja hozzá őket. Alapértelmezés szerint nincs kiválasztva, és bináris fájlformátum használata esetén nem támogatott.

    • Partíció gyökérútvonala: Ha a partíciófelderítés engedélyezve van, adja meg az abszolút gyökér elérési utat a particionált mappák adatoszlopként való olvasásához.

      Ha nincs megadva, alapértelmezés szerint

      • Ha fájlelérési utat vagy fájllistát használ a forrásban, a partíció gyökérútvonala a konfigurált elérési út.
      • Helyettesítő karakteres mappaszűrő használatakor a partíció gyökérútvonala az első helyettesítő karakter előtti alútvonal.
      • Előtag használata esetén a partíció gyökérútvonala az utolsó "/" előtti alútvonal.

      Tegyük fel például, hogy az elérési utat a következőképpen root/folder/year=2020/month=08/day=27konfigurálja:

      • Ha a partíció gyökérútvonalát adja meg, root/folder/year=2020a másolási tevékenység a fájlokon belüli oszlopok mellett még két oszlopot hoz létre a hónap és a nap során a "08" és a "27" értékkel.
      • Ha nincs megadva a partíció gyökérútvonala, a rendszer nem hoz létre további oszlopot.

      Screenshot showing Enable partition discovery.

  • Maximális egyidejű kapcsolat: Az adattárban a tevékenységfuttatás során létrehozott egyidejű kapcsolatok felső korlátja. Csak akkor adjon meg értéket, ha korlátozni szeretné az egyidejű kapcsolatokat.

  • További oszlopok: További adatoszlopok hozzáadása a forrásfájlok relatív elérési útjának vagy statikus értékének tárolásához. A kifejezés az utóbbi esetében támogatott.

Cél

Az Amazon S3 esetében a másolási tevékenység Cél lapján az alábbi tulajdonságok támogatottak.

Screenshot showing destination tab and the list of properties.

A következő tulajdonságok szükségesek:

  • Adattár típusa: Válassza a Külső lehetőséget.
  • Csatlakozás ion: Válasszon egy Amazon S3-kapcsolatot a kapcsolatlistából. Ha nincs kapcsolat, hozzon létre egy új Amazon-kapcsolatot az Új lehetőség kiválasztásával.
  • Csatlakozás ion típus: Válassza az Amazon S3 lehetőséget a kapcsolattípushoz.
  • Fájl elérési útja: Az adatok átmásolhatók a megadott gyűjtőbe vagy a megadott gyűjtőbe és mappa elérési útba.
  • Fájlformátum: Válassza ki a legördülő listából alkalmazott fájlformátumot. Válassza a Gépház a fájlformátum konfigurálásához. A különböző fájlformátumok beállításairól részletes információt a támogatott formátumú cikkekben talál.

A Speciális területen a következő mezőket adhatja meg:

  • Másolási viselkedés: Meghatározza a másolási viselkedést, ha a forrás fájlalapú adattárból származó fájl. A viselkedést a legördülő listában választhatja ki.

    • Egybesimított hierarchia: A forrásmappából származó összes fájl a célmappa első szintjén található. A célfájlok automatikusan létrehozott névvel rendelkeznek.
    • Fájlok egyesítése: A forrásmappából származó összes fájlt egyetlen fájlba egyesíti. Ha a fájlnév meg van adva, az egyesített fájlnév a megadott név. Ellenkező esetben ez egy automatikusan létrehozott fájlnév.
    • Hierarchia megőrzése: Megőrzi a fájlhierarchiát a célmappában. A forrásfájl forrásmappához viszonyított elérési útja megegyezik a célfájl célmappához viszonyított elérési útjának elérési útával.
  • Egyidejű kapcsolatok maximális száma: Ez a tulajdonság az adattárban a tevékenységfuttatás során létesített egyidejű kapcsolatok felső korlátját jelzi. Csak akkor adjon meg értéket, ha korlátozni szeretné az egyidejű kapcsolatokat.

Hozzárendelés

A Leképezés lap konfigurálásához válassza a Leképezés lap leképezési beállításainak konfigurálását. Ha a Bináris fájlt választja fájlformátumként, a leképezés nem támogatott.

Beállítások

A Gépház lap konfigurációjához válassza a Beállítások lap egyéb beállításainak konfigurálását.

Táblázat összefoglalása

Az alábbi táblázatok további információkat tartalmaznak az Amazon S3 másolási tevékenységéről.

Forrásadatok

Név Leírás Érték Szükséges JSON-szkripttulajdonság
Adattár típusa Az adattár típusa. Külső Igen /
Kapcsolat A forrásadattárhoz való kapcsolódás. <Az Amazon S3-kapcsolat> Igen kapcsolat
Kapcsolat típusa Válasszon egy típust a kapcsolathoz. Amazon S3 Igen /
Fájl elérési útja A forrásadatok lekéréséhez használt fájl elérési útja. Fájl elérési útja
Előtag
Helyettesítő karakterek elérési útja
Fájlok listája
Igen /
Fájl elérési útja
Vödör Az S3 gyűjtő neve. <a gyűjtő neve> Igen bucketName
Taglista A megadott gyűjtő alatti mappa elérési útja. <a mappa neve> Nem folderpath
Fájlnév A megadott gyűjtő és mappa elérési útja alatti fájlnév. <a fájl neve> Nem fileName
Előtag esetén
Vödör Az S3 gyűjtő neve. <a gyűjtő neve> Igen bucketName
Előtag Az S3-kulcsnév előtagja az adott gyűjtőben a forrás S3-fájlok szűréséhez. <az előtag> Nem Előtag
Helyettesítő karakterek elérési útja
Vödör Az S3 gyűjtő neve. <a gyűjtő neve> Igen bucketName
Helyettesítő karakterek mappa elérési útja A mappa elérési útja helyettesítő karakterekkel a megadott gyűjtő alatt a forrásmappák szűréséhez. <a mappa elérési útja helyettesítő karakterekkel> Nem wildcardFolderPath
Helyettesítő karakter fájlneve A fájl neve helyettesítő karakterekkel a megadott gyűjtő- és mappaútvonal (vagy helyettesítő mappa elérési útja) alatt a forrásfájlok szűréséhez. <a fájl neve helyettesítő karakterekkel> Igen wildcardFileName
Fájlok listájához
Vödör Az S3 gyűjtő neve. <a gyűjtő neve> Igen bucketName
Taglista A megadott gyűjtő alatti mappa elérési útja. <a mappa neve> Nem folderpath
Fájllista elérési útja Egy adott fájlkészlet másolását jelzi. Mutasson egy szövegfájlra, amely a másolni kívánt fájlok listáját tartalmazza, soronként egy fájlt. < fájllista elérési útja > Nem fileListPath
Fájlformátum A forrásadatok fájlformátuma. A különböző fájlformátumokról további információt a támogatott formátumú cikkekben talál. / Igen /
Rekurzív Azt jelzi, hogy az adatok rekurzív módon vannak-e beolvasva az almappákból vagy csak a megadott mappából. Vegye figyelembe, hogy ha a Rekurzív elem ki van jelölve, és a cél egy fájlalapú tároló, a program nem másol vagy hoz létre üres mappát vagy almappát a célhelyen. Ez a tulajdonság nem érvényes a fájllista elérési útjának konfigurálásakor. kiválasztva (alapértelmezett) vagy a kijelölés megszüntetése Nem Rekurzív
Szűrés utoljára módosítva A tartományban legutóbb módosított [Kezdési időpont, Befejezési idő) fájlok szűrése további feldolgozás céljából történik. Az idő az UTC időzónára lesz alkalmazva a következő yyyy-mm-ddThh:mm:ss.fffZformátumban: . Ezek a tulajdonságok kihagyhatók, ami azt jelenti, hogy a rendszer nem alkalmaz fájlattribútum-szűrőt. Ez a tulajdonság nem érvényes, ha a fájl elérési útját fájllistaként konfigurálja. dátum/idő Nem modifiedDatetimeStart
modifiedDatetimeEnd
Partíciófelderítés engedélyezése Azt jelzi, hogy elemezni kell-e a partíciókat a fájl elérési útjából, és további forrásoszlopokként kell-e hozzáadni őket. ki van jelölve vagy nincs kijelölve (alapértelmezett) Nem enablePartitionDiscovery:
igaz vagy hamis (alapértelmezett)
Partíció gyökérútvonala Ha a partíciófelderítés engedélyezve van, adja meg az abszolút gyökér elérési utat a particionált mappák adatoszlopként való olvasásához. < a partíció gyökérútvonala > Nem partitionRootPath
Egyidejű kapcsolat maximális kihasználtság Az adattárhoz a tevékenység futtatása során létrehozott egyidejű kapcsolatok felső korlátja. Csak akkor adjon meg értéket, ha korlátozni szeretné az egyidejű kapcsolatokat. <egyidejű kapcsolatok maximális kihasználása> Nem maxConcurrent Csatlakozás ions
További oszlopok Adjon hozzá további adatoszlopokat a forrásfájlok relatív elérési útjának vagy statikus értékének tárolásához. A kifejezés az utóbbi esetében támogatott. •Név
•Érték
Nem továbbicolumnok:
•név
•Érték

Céladatok

Név Leírás Érték Szükséges JSON-szkripttulajdonság
Adattár típusa Az adattár típusa. Külső Igen /
Kapcsolat A céladattárhoz való kapcsolódás. <Az Amazon S3-kapcsolat> Igen kapcsolat
Kapcsolat típusa Válasszon egy típust a kapcsolathoz. Amazon S3 Igen /
Elérési út A célfájl mappa/fájl elérési útja. <mappa/fájl elérési útja> Igen /
Vödör Az S3 gyűjtő neve. <a gyűjtő neve> Igen bucketName
Taglista A megadott gyűjtő alatti mappa elérési útja. <a mappa neve> Nem folderpath
Fájlnév A megadott gyűjtő és mappa elérési útja alatti fájlnév. <a fájl neve> Nem fileName
Másolási viselkedés Meghatározza a másolási viselkedést, ha a forrás fájlalapú adattárból származó fájlok. • Egybesimított hierarchia
• Fájlok egyesítése
• A hierarchia megőrzése
Nem copyBehavior:
• FlattenHierarchy
• MergeFiles
• PreserveHierarchy
Egyidejű kapcsolatok maximális kihasználása Az adattárhoz a tevékenység futtatása során létrehozott egyidejű kapcsolatok felső korlátja. Csak akkor adjon meg értéket, ha korlátozni szeretné az egyidejű kapcsolatokat. <egyidejű kapcsolatok maximális kihasználása> Nem maxConcurrent Csatlakozás ions