Az Azure Data Lake Storage Gen2 konfigurálása másolási tevékenységben
Ez a cikk azt ismerteti, hogyan használhatja a másolási tevékenységet az adatfolyamban adatok másolására az Azure Data Lake Storage Gen2-ből és az Azure Data Lake Storage Gen2-be.
Támogatott formátum
Az Azure Data Lake Storage Gen2 a következő fájlformátumokat támogatja. A formátumalapú beállításokat az egyes cikkekben találja.
- Avro formátum
- Bináris formátum
- Tagolt szövegformátum
- Excel-formátum
- JSON formátum
- ORC formátum
- Parquet formátum
- XML-formátum
Támogatott konfiguráció
A másolási tevékenység alatt lévő lapok konfigurációjához tekintse meg a következő szakaszokat.
Általános
Az Általános beállítások lap konfigurálásához tekintse meg az Általános beállításokat ismertető útmutatót.
Forrás
A másolási tevékenység Forrás lapján az Alábbi tulajdonságok támogatottak az Azure Data Lake Storage Gen2 esetében.
A következő tulajdonságok szükségesek:
Adattár típusa: Válassza a Külső lehetőséget.
Csatlakozás ion: Válasszon ki egy Azure Data Lake Storage Gen2-kapcsolatot a kapcsolatlistából. Ha nincs kapcsolat, hozzon létre egy új Azure Data Lake Storage Gen2-kapcsolatot az Új lehetőség kiválasztásával.
Csatlakozás ion típus: Válassza az Azure Data Lake Storage Gen2 lehetőséget.
Fájl elérési útjának típusa: A fájl elérési útjaként kiválaszthatja a Fájl elérési útját, a Helyettesítő karaktereket vagy a Fájlok listáját. Az egyes beállítások konfigurációja a következő:
Fájl elérési útja: Ha ezt a típust választja, az adatok átmásolhatók a korábban megadott fájlrendszerből vagy mappából/fájl elérési útból.
Helyettesítő karakterek elérési útja: Ha ezt a típust választja, adja meg a fájlrendszert és a helyettesítő karakterek elérési útját.
Fájlrendszer: Az Azure Data Lake Storage Gen2 fájlrendszer neve.
Helyettesítő karakterek elérési útjai: A forrásmappák vagy fájlok szűréséhez adja meg a megadott fájlrendszer alatti helyettesítő karaktereket tartalmazó mappát vagy fájl elérési útját.
Az engedélyezett helyettesítő karakterek a következők:
*
(nulla vagy több karakternek felel meg) és?
(nulla vagy egyetlen karakternek felel meg). A feloldás akkor használható^
, ha a mappa neve helyettesítő karaktert vagy ebben a feloldó karaktert használ. További példákért tekintse meg a Mappa és fájlszűrő példákat.Helyettesítő karakterek mappa elérési útja: Adja meg a mappa elérési útját helyettesítő karakterekkel a megadott fájlrendszerben a forrásmappák szűréséhez.
Helyettesítő karakterek fájlneve: A forrásfájlok szűréséhez adja meg a megadott fájlrendszer + mappa elérési útja (vagy helyettesítő mappa elérési útja) alatti helyettesítő karaktereket tartalmazó fájlnevet.
Fájlok listája: Azt jelzi, hogy egy adott fájlkészletet szeretne másolni. Adja meg a mappa elérési útját és a fájllista elérési útját, hogy egy olyan szövegfájlra mutasson, amely tartalmazza a másolandó fájlok listáját, soronként egy fájlt, amely az elérési út relatív elérési útja. További példákért tekintse meg a Fájllista példákat.
Mappa elérési útja: Adja meg a megadott fájlrendszer alatti mappa elérési útját. Ez kötelező.
Elérési út a fájllistához: Adja meg a másolandó fájlok listáját tartalmazó szövegfájl elérési útját.
Rekurzívan: Adja meg, hogy az adatok rekurzívan vannak-e beolvasva az almappákból vagy csak a megadott mappából. Vegye figyelembe, hogy ha a Rekurzív elem ki van jelölve, és a cél egy fájlalapú tároló, a program nem másol vagy hoz létre üres mappát vagy almappát a célhelyen. Ez a tulajdonság alapértelmezés szerint ki van jelölve, és nem érvényes a fájllista elérési útjának konfigurálásakor.
Fájlformátum: Válassza ki a legördülő listából alkalmazott fájlformátumot. Válassza a Gépház a fájlformátum konfigurálásához. A különböző fájlformátumok beállításairól részletes információt a támogatott formátumú cikkekben talál.
A Speciális területen a következő mezőket adhatja meg:
Szűrés utolsó módosítás szerint: A fájlok szűrése az utolsó módosított dátumok alapján történik. Ez a tulajdonság nem érvényes, ha a fájl elérési útját fájllistaként konfigurálja.
Kezdési idő (UTC):: A fájlok akkor lesznek kiválasztva, ha az utolsó módosításuk időpontja nagyobb vagy egyenlő a konfigurált időpontnál.
Befejezési idő (UTC):: A fájlok akkor lesznek kiválasztva, ha utolsó módosításuk időpontja kisebb, mint a konfigurált idő.
Ha a kezdési időpont (UTC) dátum/idő értékkel rendelkezik, de a befejezési idő (UTC) NULL, az azt jelenti, hogy azok a fájlok lesznek kiválasztva, amelyek utolsó módosított attribútuma nagyobb vagy egyenlő a dátum/idő értékkel. Ha a befejezési idő (UTC) dátum/idő értékkel rendelkezik, de a kezdési idő (UTC) NULL, az azt jelenti, hogy azok a fájlok lesznek kiválasztva, amelyek utolsó módosított attribútuma kisebb, mint a dátum/idő érték. A tulajdonságok null értékűek lehetnek, ami azt jelenti, hogy a rendszer nem alkalmaz fájlattribútum-szűrőt az adatokra.
Partíciófelderítés engedélyezése: Adja meg, hogy elemezni szeretné-e a partíciókat a fájl elérési útjából, és további forrásoszlopokként adja hozzá őket. Alapértelmezés szerint nincs kiválasztva, és bináris fájlformátum használata esetén nem támogatott.
Partíció gyökérútvonala: Ha a partíciófelderítés engedélyezve van, adja meg az abszolút gyökér elérési utat a particionált mappák adatoszlopként való olvasásához.
Ha nincs megadva, alapértelmezés szerint
- Ha fájlelérési utat vagy fájllistát használ a forrásban, a partíció gyökérútvonala a konfigurált elérési út.
- Helyettesítő karakteres mappaszűrő használatakor a partíció gyökérútvonala az első helyettesítő karakter előtti alútvonal.
Tegyük fel például, hogy az elérési utat a következőképpen
root/folder/year=2020/month=08/day=27
konfigurálja:- Ha a partíció gyökérútvonalát adja meg,
root/folder/year=2020
a másolási tevékenység a fájlokon belüli oszlopok mellett még két oszlopot hoz létre a hónap és a nap során a "08" és a "27" értékkel. - Ha nincs megadva a partíció gyökérútvonala, a rendszer nem hoz létre további oszlopot.
Egyidejű kapcsolatok maximális száma: Ez a tulajdonság az adattárban a tevékenységfuttatás során létesített egyidejű kapcsolatok felső korlátját jelzi. Csak akkor adjon meg értéket, ha korlátozni szeretné az egyidejű kapcsolatokat.
További oszlopok: További adatoszlopok hozzáadása a forrásfájlok relatív elérési útjának vagy statikus értékének tárolásához. A kifejezés az utóbbi esetében támogatott.
Cél
A másolási tevékenység Cél lapján az Alábbi tulajdonságok támogatottak az Azure Data Lake Storage Gen2 esetében.
A következő tulajdonságok szükségesek:
- Adattár típusa: Válassza a Külső lehetőséget.
- Csatlakozás ion: Válasszon ki egy Azure Data Lake Storage Gen2-kapcsolatot a kapcsolatlistából. Ha nincs kapcsolat, hozzon létre egy új Azure Data Lake Storage Gen2-kapcsolatot az Új lehetőség kiválasztásával.
- Csatlakozás ion típus: Válassza az Azure Data Lake Storage Gen2 lehetőséget.
- Fájl elérési útja: A Tallózás gombra kattintva válassza ki azt a fájlt, amelyet manuálisan szeretne másolni vagy kitölteni.
- Fájlformátum: Válassza ki a legördülő listából alkalmazott fájlformátumot. Válassza a Gépház a fájlformátum konfigurálásához. A különböző fájlformátumok beállításairól részletes információt a támogatott formátumú cikkekben talál.
A Speciális területen a következő mezőket adhatja meg:
Másolási viselkedés: Meghatározza a másolási viselkedést, ha a forrás fájlalapú adattárból származó fájl. A viselkedést a legördülő listában választhatja ki.
- Egybesimított hierarchia: A forrásmappából származó összes fájl a célmappa első szintjén található. A célfájlok automatikusan létrehozott névvel rendelkeznek.
- Fájlok egyesítése: A forrásmappából származó összes fájlt egyetlen fájlba egyesíti. Ha a fájlnév meg van adva, az egyesített fájlnév a megadott név. Ellenkező esetben ez egy automatikusan létrehozott fájlnév.
- Hierarchia megőrzése: Megőrzi a fájlhierarchiát a célmappában. A forrásfájl forrásmappához viszonyított elérési útja megegyezik a célfájl célmappához viszonyított elérési útjának elérési útával.
Egyidejű kapcsolatok maximális száma: Az adattárban a tevékenységfuttatás során létrehozott egyidejű kapcsolatok felső korlátja. Csak akkor adjon meg értéket, ha korlátozni szeretné az egyidejű kapcsolatokat.
Blokkméret (MB): Adja meg az adatok Azure Data Lake Storage Gen2-be való írásához használt MB blokkméretet. További információ: Blokkblobok. Az engedélyezett érték 4 MB és 100 MB között van.
Alapértelmezés szerint a rendszer automatikusan meghatározza a blokk méretét a forrástár típusa és adatai alapján. Az Azure Data Lake Storage Gen2-be történő nem bináris másolás esetén az alapértelmezett blokkméret 100 MB, hogy legfeljebb 4,75 TB-os adatokhoz férhessenek hozzá. Előfordulhat, hogy nem optimális, ha az adatok nem nagyok. Explicit módon megadhatja a blokkméretet, ugyanakkor győződjön meg arról, hogy a blokkméret (MB)*50000 elég nagy az adatok tárolásához, ellenkező esetben a másolási tevékenység futtatása sikertelen lesz.
Metaadatok: Egyéni metaadatok beállítása célhelyre másoláskor. A tömb alatti
metadata
objektumok egy további oszlopot jelölnek. Ezname
határozza meg a metaadatkulcs nevét, és avalue
kulcs adatértékét. Ha az attribútumok megőrzése funkciót használja, a megadott metaadatok egyesülnek/felülírják a forrásfájl metaadatait.Az engedélyezett adatértékek a következők:
$$LASTMODIFIED
: A fenntartott változó azt jelzi, hogy a forrásfájlok utolsó módosítási ideje tárolható. Csak bináris formátumú fájlalapú forrásra alkalmazható.- Kifejezés
- Statikus érték
Hozzárendelés
A Leképezés lap konfigurálásához válassza a Leképezés lap leképezési beállításainak konfigurálását. Ha a bináris fájlt választja fájlformátumként, a leképezés nem támogatott.
Beállítások
A Gépház lap konfigurációjához válassza a Beállítások lap egyéb beállításainak konfigurálását.
Táblázat összefoglalása
Az alábbi táblázatok további információkat tartalmaznak az Azure Data Lake Storage Gen2 másolási tevékenységéről.
Forrásadatok
Név | Leírás | Érték | Szükséges | JSON-szkripttulajdonság |
---|---|---|---|---|
Adattár típusa | Az adattár típusa. | Külső | Igen | / |
Kapcsolat | A forrásadattárhoz való kapcsolódás. | <Azure Data Lake Storage Gen2-kapcsolat> | Igen | kapcsolat |
Kapcsolat típusa | A kapcsolat típusa. Válassza az Azure Data Lake Storage Gen2 lehetőséget. | Azure Data Lake Storage Gen2 | Igen | / |
Fájl elérési útja | A használni kívánt fájl elérési útja. | • Fájl elérési útja • Helyettesítő karakterek mappa elérési útja, helyettesítő karakterek fájlneve •Fájlok listája |
Igen | • folderPath, fileName, fileSystem • wildcardFolderPath, wildcardFileName, fileSystem • folderPath, fileName, fileListPath |
Rekurzív | Azt jelzi, hogy az adatok rekurzív módon vannak-e beolvasva az almappákból vagy csak a megadott mappából. Vegye figyelembe, hogy ha a Rekurzív elem ki van jelölve, és a cél egy fájlalapú tároló, a program nem másol vagy hoz létre üres mappát vagy almappát a célhelyen. Ez a tulajdonság nem érvényes a fájllista elérési útjának konfigurálásakor. | kiválasztva (alapértelmezett) vagy a kijelölés megszüntetése | Nem | Rekurzív |
Szűrés utoljára módosítva | A tartományban legutóbb módosított [Kezdési időpont, Befejezési idő) fájlok szűrése további feldolgozás céljából történik. Az idő az UTC időzónára lesz alkalmazva a következő yyyy-mm-ddThh:mm:ss.fffZ formátumban: . Ezek a tulajdonságok kihagyhatók, ami azt jelenti, hogy a rendszer nem alkalmaz fájlattribútum-szűrőt. Ez a tulajdonság nem érvényes, ha a fájl elérési útját fájllistaként konfigurálja. |
dátum/idő | Nem | modifiedDatetimeStart modifiedDatetimeEnd |
Partíciófelderítés engedélyezése | Azt jelzi, hogy elemezni kell-e a partíciókat a fájl elérési útjából, és további forrásoszlopokként kell-e hozzáadni őket. | ki van jelölve vagy nincs kijelölve (alapértelmezett) | Nem | enablePartitionDiscovery: igaz vagy hamis (alapértelmezett) |
Partíció gyökérútvonala | Ha a partíciófelderítés engedélyezve van, adja meg az abszolút gyökér elérési utat a particionált mappák adatoszlopként való olvasásához. | < a partíció gyökérútvonala > | Nem | partitionRootPath |
Egyidejű kapcsolatok maximális kihasználása | Az adattárhoz a tevékenység futtatása során létrehozott egyidejű kapcsolatok felső korlátja. Csak akkor adjon meg értéket, ha korlátozni szeretné az egyidejű kapcsolatokat. | <egyidejű kapcsolatok maximális kihasználása> | Nem | maxConcurrent Csatlakozás ions |
További oszlopok | Adjon hozzá további adatoszlopokat a forrásfájlok relatív elérési útjának vagy statikus értékének tárolásához. A kifejezés az utóbbi esetében támogatott. | •Név •Érték |
Nem | továbbicolumnok: •név •Érték |
Céladatok
Név | Leírás | Érték | Szükséges | JSON-szkripttulajdonság |
---|---|---|---|---|
Adattár típusa | Az adattár típusa. | Külső | Igen | / |
Kapcsolat | A céladattárhoz való kapcsolódás. | <Azure Data Lake Storage Gen2-kapcsolat> | Igen | kapcsolat |
Kapcsolat típusa | A kapcsolat típusa. Válassza az Azure Data Lake Storage Gen2 lehetőséget. | Azure Data Lake Storage Gen2 | Igen | / |
Elérési út | A céladatok fájlútvonala. | < a fájl elérési útja > | Igen | folderPath, fileName, fileSystem |
Másolási viselkedés | Meghatározza a másolási viselkedést, ha a forrás fájlalapú adattárból származó fájlok. | • Egybesimított hierarchia • Fájlok egyesítése • A hierarchia megőrzése |
Nem | copyBehavior: • FlattenHierarchy • MergeFiles • PreserveHierarchy |
Egyidejű kapcsolatok maximális kihasználása | Az adattárhoz a tevékenység futtatása során létrehozott egyidejű kapcsolatok felső korlátja. Csak akkor adjon meg értéket, ha korlátozni szeretné az egyidejű kapcsolatokat. | <egyidejű kapcsolatok maximális kihasználása> | Nem | maxConcurrent Csatlakozás ions |
Blokkméret (MB) | Adja meg a blokk méretét MB-ban, amikor adatokat ír az Azure Data Lake Storage Gen2-be. Az engedélyezett érték 4 MB és 100 MB között van. | <blokkméret> | Nem | blockSizeInMB |
Metaadatok | Egyéni metaadatok beállítása a célhelyre másoláskor. | • $$LASTMODIFIED •Kifejezés • Statikus érték |
Nem | metaadatok |