Lakehouse konfigurálása másolási tevékenységben
Ez a cikk bemutatja, hogyan használhatja a másolási tevékenységet egy adatfolyamban adatok másolására a Fabric Lakehouse-ból és a Fabric Lakehouse-ba. Alapértelmezés szerint az adatok a Lakehouse Table in V-Order fájlba vannak írva, és további információért lépjen a Delta Lake-táblaoptimalizálásra és a V-Orderre .
Támogatott formátum
A Lakehouse a következő fájlformátumokat támogatja. A formátumalapú beállításokat az egyes cikkekben találja.
- Avro formátum
- Bináris formátum
- Tagolt szövegformátum
- Excel-formátum
- JSON formátum
- ORC formátum
- Parquet formátum
- XML-formátum
Támogatott konfiguráció
A másolási tevékenység alatt lévő lapok konfigurációjához tekintse meg a következő szakaszokat.
Általános
Az Általános lap konfigurációjához lépjen az Általános lapra.
Forrás
A Lakehouse a másolási tevékenység Forrás lapján az alábbi tulajdonságokat támogatja.
A következő tulajdonságok szükségesek:
Adattár típusa: Munkaterület kiválasztása.
Munkaterület-adattár típusa: Válassza ki a Lakehouse lehetőséget az adattár típuslistájából.
Lakehouse: Válasszon ki egy meglévő Lakehouse-t a munkaterületről. Ha nincs ilyen, hozzon létre egy új Lakehouse-t az Új gombra kattintva. Ha dinamikus tartalom hozzáadása használatával adja meg a Lakehouse-t, adjon hozzá egy paramétert, és adja meg a Lakehouse objektumazonosítót paraméterértékként. A Lakehouse objektumazonosítójának lekéréséhez nyissa meg a Lakehouse-t a munkaterületen, és az azonosító az URL-címben lesz.
/lakehouses/
Gyökérmappa: Válassza a Táblák vagy fájlok lehetőséget, amely a tó felügyelt vagy nem felügyelt területének virtuális nézetét jelzi. További információkért tekintse meg a Lakehouse bevezetését.
Ha a Táblák lehetőséget választja:
- Tábla neve: Válasszon ki egy meglévő táblát a táblázatlistából, vagy adjon meg egy táblanevet forrásként.
- A Speciális területen a következő mezőket adhatja meg:
- Időbélyeg: Adja meg, hogy egy régebbi pillanatképet időbélyeg alapján szeretne lekérdezni.
- Verzió: Adja meg, hogy egy régebbi pillanatképet szeretne lekérdezni verzió szerint.
- További oszlopok: További adatoszlopok hozzáadása a forrásfájlok relatív elérési útjának vagy statikus értékéhez. A kifejezés az utóbbi esetében támogatott.
Az olvasó 1-es verziója támogatott. Ebben a cikkben megtalálja a megfelelő támogatott Delta Lake-funkciókat.
Ha a Fájlok lehetőséget választja:
Fájl elérési útjának típusa: A fájl elérési útjaként kiválaszthatja a Fájl elérési útját, a Helyettesítő karaktereket vagy a Fájlok listáját. Az alábbi lista az egyes beállítások konfigurációját ismerteti:
Fájl elérési útja: Válassza a Tallózás lehetőséget a másolni kívánt fájl kiválasztásához, vagy töltse ki manuálisan az elérési utat.
Helyettesítő karakteres fájl elérési útja: A forrásmappák vagy fájlok szűréséhez adja meg azt a mappát vagy fájlelérési útvonalat, amely helyettesítő karaktereket tartalmaz az adott Lakehouse nem felügyelt területén (a Fájlok területen). Az engedélyezett helyettesítő karakterek a következők:
*
(nulla vagy több karakternek felel meg) és?
(nulla vagy egyetlen karakternek felel meg). A feloldás akkor használható^
, ha a mappában vagy a fájlnévben helyettesítő karakter vagy ez a feloldó karakter található.Helyettesítő karakterek mappa elérési útja: Az adott tároló alatti mappa elérési útja. Ha helyettesítő karakterrel szeretné szűrni a mappát, hagyja ki ezt a beállítást, és adja meg az adatokat a tevékenység forrásbeállításaiban.
Helyettesítő karakterfájl neve: A megadott Lakehouse nem felügyelt terület alatti fájlnév (a Fájlok területen) és a mappa elérési útja.
Fájlok listája: Egy adott fájlkészlet másolását jelzi.
- Mappa elérési útja: A másolni kívánt fájlokat tartalmazó mappára mutat.
- A fájllista elérési útja: A másolandó fájlok listáját tartalmazó szövegfájlra mutat, soronként egy fájlra, amely a konfigurált fájl elérési útjának relatív elérési útja.
Rekurzívan: Azt jelzi, hogy az adatok rekurzív módon vannak-e beolvasva az almappákból vagy csak a megadott mappából. Ha engedélyezve van, a bemeneti mappában és annak almappáiban lévő összes fájl rekurzív módon lesz feldolgozva. Ez a tulajdonság nem érvényes, ha a fájl elérési útját fájllistaként konfigurálja.
Fájlformátum: Válassza ki a fájlformátumot a legördülő listából. A fájlformátum konfigurálásához válassza a Gépház gombot. A különböző fájlformátumok beállításairól részletes információt a támogatott formátumú cikkekben talál.
A Speciális területen a következő mezőket adhatja meg:
- Szűrés utolsó módosítás szerint: A fájlok szűrése az utolsó módosított dátumok alapján történik. Ez a tulajdonság nem érvényes, ha a fájl elérési útját fájllistaként konfigurálja.
- Kezdési idő: A fájlok akkor lesznek kiválasztva, ha utolsó módosításuk időpontja nagyobb vagy egyenlő a konfigurált időpontnál.
- Befejezési idő: A fájlok akkor lesznek kiválasztva, ha az utolsó módosításuk kevesebb, mint a konfigurált idő.
- Partíciófelderítés engedélyezése: A particionált fájlok esetében adja meg, hogy elemezni szeretné-e a partíciókat a fájl elérési útján, és hozzáadja-e őket további forrásoszlopokként.
- Partíció gyökérútvonala: Ha a partíciófelderítés engedélyezve van, adja meg az abszolút gyökér elérési utat a particionált mappák adatoszlopként való olvasásához.
- Egyidejű kapcsolatok maximális száma: Az adattárban a tevékenységfuttatás során létesített egyidejű kapcsolatok felső korlátját jelzi. Csak akkor adjon meg értéket, ha korlátozni szeretné az egyidejű kapcsolatokat.
- Szűrés utolsó módosítás szerint: A fájlok szűrése az utolsó módosított dátumok alapján történik. Ez a tulajdonság nem érvényes, ha a fájl elérési útját fájllistaként konfigurálja.
Cél
A Lakehouse a másolási tevékenység Cél lapján az alábbi tulajdonságokat támogatja.
A következő tulajdonságok szükségesek:
Adattár típusa: Munkaterület kiválasztása.
Munkaterület-adattár típusa: Válassza ki a Lakehouse lehetőséget az adattár típuslistájából.
Lakehouse: Válasszon ki egy meglévő Lakehouse-t a munkaterületről. Ha nincs ilyen, hozzon létre egy új Lakehouse-t az Új gombra kattintva. Ha dinamikus tartalom hozzáadása használatával adja meg a Lakehouse-t, adjon hozzá egy paramétert, és adja meg a Lakehouse objektumazonosítót paraméterértékként. A Lakehouse objektumazonosítójának lekéréséhez nyissa meg a Lakehouse-t a munkaterületen, és az azonosító az URL-címben lesz.
/lakehouses/
Gyökérmappa: Válassza a Táblák vagy fájlok lehetőséget, amely a tó felügyelt vagy nem felügyelt területének virtuális nézetét jelzi. További információkért tekintse meg a Lakehouse bevezetését.
Ha a Táblák lehetőséget választja:
Tábla neve: Válasszon ki egy meglévő táblát a táblázatlistából, vagy adjon meg egy táblanevet célként.
A Speciális területen a következő mezőket adhatja meg:
Fájlonkénti sorok maximális száma: Adja meg a fájlonkénti maximális sorokat, amikor adatokat ír a Lakehouse-ba.
Táblaműveletek: Adja meg a műveletet a kijelölt táblán.
Hozzáfűzés: Új értékek hozzáfűzése a meglévő táblához.
- Partíció engedélyezése: Ezzel a kijelöléssel partíciókat hozhat létre egy mappastruktúrában egy vagy több oszlop alapján. Minden különálló oszlopérték (pár) egy új partíció. Például: "year=2000/month=01/file".
- Partícióoszlop neve: Válasszon a sémaleképezés céloszlopai közül, amikor adatokat fűz egy új táblához. Ha olyan meglévő táblához fűz adatokat, amely már rendelkezik partíciókkal, a partícióoszlopok automatikusan a meglévő táblából származnak. A támogatott adattípusok a sztring, az egész szám, a logikai és a datetime. A Formátum a Leképezés lap típuskonvertálási beállításait tiszteletben tartja.
- Partíció engedélyezése: Ezzel a kijelöléssel partíciókat hozhat létre egy mappastruktúrában egy vagy több oszlop alapján. Minden különálló oszlopérték (pár) egy új partíció. Például: "year=2000/month=01/file".
Felülírás: Írja felül a tábla meglévő adatait és sémáját az új értékekkel. Ha ezt a műveletet választja, engedélyezheti a partíciót a céltáblán:
- Partíció engedélyezése: Ezzel a kijelöléssel partíciókat hozhat létre egy mappastruktúrában egy vagy több oszlop alapján. Minden különálló oszlopérték (pár) egy új partíció. Például: "year=2000/month=01/file".
- Partícióoszlop neve: Válasszon a sémaleképezés céloszlopai közül. A támogatott adattípusok a sztring, az egész szám, a logikai és a datetime. A Formátum a Leképezés lap típuskonvertálási beállításait tiszteletben tartja.
Támogatja a Delta Lake időutazást. A felülírt táblázat az előző verziókhoz tartozó változásnaplókkal rendelkezik, amelyeket a Lakehouse-ban érhet el. Az előző verziótáblát a Lakehouse-ból is átmásolhatja a Másolási tevékenység forrásában megadott Verzió beállítással.
- Partíció engedélyezése: Ezzel a kijelöléssel partíciókat hozhat létre egy mappastruktúrában egy vagy több oszlop alapján. Minden különálló oszlopérték (pár) egy új partíció. Például: "year=2000/month=01/file".
Egyidejű kapcsolatok maximális száma: Az adattárban a tevékenységfuttatás során létrehozott egyidejű kapcsolatok felső korlátja. Csak akkor adjon meg értéket, ha korlátozni szeretné az egyidejű kapcsolatokat.
Az író 2. verziója támogatott. Ebben a cikkben megtalálja a megfelelő támogatott Delta Lake-funkciókat.
Ha a Fájlok lehetőséget választja:
Fájl elérési útja: Válassza a Tallózás lehetőséget a másolni kívánt fájl kiválasztásához, vagy töltse ki manuálisan az elérési utat.
Fájlformátum: Válassza ki a fájlformátumot a legördülő listából. Válassza a Gépház a fájlformátum konfigurálásához. A különböző fájlformátumok beállításairól részletes információt a támogatott formátumú cikkekben talál.
A Speciális területen a következő mezőket adhatja meg:
Másolási viselkedés: Meghatározza a másolási viselkedést, ha a forrás fájlalapú adattárból származó fájl. Másolási viselkedésként választhatja a Dinamikus tartalom hozzáadása, a Nincs, az Egybesimított hierarchia vagy a Hierarchia megőrzése lehetőséget. Az egyes beállítások konfigurációja a következő:
Dinamikus tartalom hozzáadása: Egy tulajdonságérték kifejezésének megadásához válassza a Dinamikus tartalom hozzáadása lehetőséget. Ez a mező megnyitja a kifejezésszerkesztőt, ahol támogatott rendszerváltozókból, tevékenységkimenetből, függvényekből és felhasználó által megadott változókból vagy paraméterekből hozhat létre kifejezéseket. A kifejezés nyelvével kapcsolatos további információkért lépjen a Kifejezések és függvények elemre.
Nincs: Válassza ezt a kijelölést, hogy ne használjon másolási viselkedést.
Egybesimított hierarchia: A forrásmappából származó összes fájl a célmappa első szintjén található. A célfájlok automatikusan létrehozott névvel rendelkeznek.
Hierarchia megőrzése: Megőrzi a fájlhierarchiát a célmappában. A forrásfájl forrásmappához viszonyított elérési útja megegyezik a célfájlnak a célmappához viszonyított elérési útával.
Egyidejű kapcsolatok maximális száma: Az adattárban a tevékenységfuttatás során létrehozott egyidejű kapcsolatok felső korlátja. Csak akkor adjon meg értéket, ha korlátozni szeretné az egyidejű kapcsolatokat.
Blokkméret (MB): Adja meg a blokk méretét MB-ban, amikor adatokat ír a Lakehouse-ba. Az engedélyezett érték 4 MB és 100 MB között van.
Metaadatok: Egyéni metaadatok beállítása a céladattárba való másoláskor. A tömb alatti
metadata
objektumok egy további oszlopot jelölnek. Ezname
határozza meg a metaadatkulcs nevét, és avalue
kulcs adatértékét. Ha az attribútumok megőrzése funkciót használja, a megadott metaadatok egyesülnek/felülírják a forrásfájl metaadatait. Az engedélyezett adatértékek a következők:
Hozzárendelés
A Leképezés lap konfigurációjához, ha nem alkalmazza a Lakehouse-táblát céladattárként, lépjen a Leképezés gombra.
Ha a Lakehouse-táblát alkalmazza céladattárként, kivéve a leképezési konfigurációt, szerkesztheti a céloszlopok típusát. Az Importálási sémák kiválasztása után megadhatja az oszloptípust a célhelyen.
A forrás PersonID oszlopának típusa például int, és a céloszlopra való leképezéskor sztringtípusra módosíthatja.
Feljegyzés
A céltípus szerkesztése jelenleg nem támogatott, ha a forrás decimális típusú.
Ha a bináris fájlt választja fájlformátumként, a leképezés nem támogatott.
Beállítások
A Gépház lap konfigurációjához lépjen a Gépház.
Táblázat összefoglalása
Az alábbi táblázatok további információkat tartalmaznak a Lakehouse-beli másolási tevékenységről.
Forrásadatok
Név | Leírás | Érték | Szükséges | JSON-szkripttulajdonság |
---|---|---|---|---|
Adattár típusa | Az adattár típusa. | Munkaterület | Igen | / |
Munkaterület adattártípusa | A munkaterület adattártípusának kiválasztásához használt szakasz. | Lakehouse | Igen | típus |
Lakehouse | A Lakehouse, amit forrásként használ. | <az Ön Lakehouse-ját> | Igen | workspaceId artifactId |
Gyökérmappa | A gyökérmappa típusa. | * Táblák * Fájlok |
Nem | rootFolder: Tábla vagy fájlok |
Tábla neve | Az adatokat beolvasni kívánt tábla neve. | <tábla neve> | Igen, amikor a Táblák lehetőséget választja a Gyökérmappában | Táblázat (under typeProperties ->source ->typeProperties ) |
Időbélyeg | Egy régebbi pillanatkép lekérdezésének időbélyege. | <Időbélyeg> | Nem | timestampAsOf |
Verzió | A régebbi pillanatkép lekérdezésére szolgáló verzió. | <Változat> | Nem | versionAsOf |
További oszlopok | További adatoszlopok a forrásfájlok relatív elérési útjának vagy statikus értékének tárolásához. A kifejezés az utóbbi esetében támogatott. | *Név *Érték |
Nem | továbbicolumnok: *név *Érték |
Fájl elérési útja | A használt fájl elérési útja. | * Elérési út * Helyettesítő karakter elérési útja * Fájlok listája |
Igen | / |
Elérési út | Másolja az elérési útból a forrásadattárban lévő mappába/fájlba. Alkalmazza a Fájl elérési útját a Fájl elérési útjának típusában. | <fájl elérési útja> | Igen, amikor a Fájl elérési útját választja | * folderPath *Fájlnév |
Helyettesítő karakterek elérési útjai | A forrásadattárban helyettesítő karaktereket tartalmazó mappa elérési útja, amely a forrásmappák szűrésére van konfigurálva. Alkalmazza a helyettesítő karakterek fájlelérési útját a Fájl elérési útjának típusában. | <helyettesítő karakterek elérési útjai> | Igen, amikor helyettesítő karakterfájl elérési útját választja | * helyettesítő karakterFolderPath * helyettesítő karakterFileName |
Mappa elérési útja | Egy másolni kívánt fájlokat tartalmazó mappára mutat. Alkalmazás a Fájl elérési útjának típusában található fájlok listájának kiválasztásakor. | <mappa elérési útja> | Nem | folderPath |
Fájllista elérési útja | Egy adott fájlkészlet másolását jelzi. Mutasson egy szövegfájlra, amely tartalmazza a másolandó fájlok listáját, soronként egy fájlt, amely a konfigurált elérési út relatív elérési útja. Alkalmazás a Fájl elérési útjának típusában található fájlok listájának kiválasztásakor. | <elérési út a fájllistához> | Nem | fileListPath |
Rekurzív | A bemeneti mappa és almappáinak összes fájljának rekurzív feldolgozása, vagy csak a kijelölt mappában lévő fájlok feldolgozása. Ez a beállítás egyetlen fájl kijelölésekor le van tiltva. | kijelölés vagy a kijelölés megszüntetése | Nem | Rekurzív: igaz vagy hamis |
Fájlformátum | A használt fájl formátuma. | <fájlformátum> | Igen | típus (alatt formatSettings ):DelimitedTextRead Gépház |
Szűrés utoljára módosítva | A tartományban legutóbb módosított [Kezdési időpont, Befejezési idő) fájlok szűrése további feldolgozás céljából történik. Az idő az UTC időzónára lesz alkalmazva a következő formátumban yyyy-mm-ddThh:mm:ss.fffZ : .Ez a tulajdonság kihagyható, ami azt jelenti, hogy a rendszer nem alkalmaz fájlattribútum-szűrőt. Ez a tulajdonság nem érvényes, ha a fájl elérési útját fájllistaként konfigurálja. |
* Kezdési idő * Befejezési idő |
Nem | modifiedDatetimeStart modifiedDatetimeEnd |
Partíciófelderítés engedélyezése | Elemezni szeretné-e a partíciókat a fájl elérési útjáról, és hozzáadja-e őket további forrásoszlopokként. | Kijelölve vagy kijelölve | Nem | enablePartitionDiscovery: igaz vagy hamis (alapértelmezett) |
Partíció gyökérútvonala | A particionált mappák adatoszlopként való olvasásához használható abszolút partíciógyökér elérési útja. | <a partíció gyökérútvonala> | Nem | partitionRootPath |
Egyidejű kapcsolatok maximális kihasználása | Az adattárhoz a tevékenység futtatása során létrehozott egyidejű kapcsolatok felső korlátja. Csak akkor van szükség értékre, ha korlátozni szeretné az egyidejű kapcsolatokat. | <egyidejű kapcsolatok maximális kihasználása> | Nem | maxConcurrent Csatlakozás ions |
Céladatok
Név | Leírás | Érték | Szükséges | JSON-szkripttulajdonság |
---|---|---|---|---|
Adattár típusa | Az adattár típusa. | Munkaterület | Igen | / |
Munkaterület adattártípusa | A munkaterület adattártípusának kiválasztásához használt szakasz. | Lakehouse | Igen | típus |
Lakehouse | A Lakehouse, amelyet célként használ. | <az Ön Lakehouse-ját> | Igen | workspaceId artifactId |
Gyökérmappa | A gyökérmappa típusa. | * Táblák * Fájlok |
Igen | rootFolder: Tábla vagy fájlok |
Tábla neve | Annak a táblának a neve, amelyhez adatokat szeretne írni. | <a tábla neve> | Igen, amikor a Táblák lehetőséget választja a Gyökérmappában | Táblázat (under typeProperties ->sink ->typeProperties ) |
Sorok maximális száma fájlonként | Ha adatokat ír egy mappába, több fájlba is írhat, és megadhatja a fájlonkénti maximális sorokat. | <flie-nkénti sorok maximális száma> | Nem | maxRowsPerFile |
Táblaművelet | Új értékek hozzáfűzése egy meglévő táblához, vagy felülírja a tábla meglévő adatait és sémáját az új értékekkel. | * Append * Felülírja |
Nem | tableActionOption: Hozzáfűzés vagy felülírás |
Egyidejű kapcsolatok maximális kihasználása | Az adattárhoz a tevékenység futtatása során létrehozott egyidejű kapcsolatok felső korlátja. Csak akkor adjon meg értéket, ha korlátozni szeretné az egyidejű kapcsolatokat. | <egyidejű kapcsolatok maximális kihasználása> | Nem | maxConcurrent Csatlakozás ions |
Elérési út | Adatok írása egy mappa/fájl elérési útjára a céladattár alatt. | <fájl elérési útja> | Nem | * folderPath *Fájlnév |
Fájlformátum | A használt fájl formátuma. | <fájlformátum> | Igen | típus (alatt formatSettings ):DelimitedTextWrite Gépház |
Másolási viselkedés | A másolási viselkedés akkor van meghatározva, ha a forrás fájlalapú adattárból származó fájlok. | * Dinamikus tartalom hozzáadása * Egyik sem * Hierarchia összesimítása * Hierarchia megőrzése |
Nem | copyBehavior: * FlattenHierarchy * PreserveHierarchy |
Blokkméret (MB) | Az adatok Lakehouse-ba való írásához használt blokkméret MB-ban. Az engedélyezett érték 4 MB és 100 MB között van. | <blokkméret> | Nem | blockSizeInMB |
Metaadatok | A célhelyre másoláskor beállított egyéni metaadatok. | * $$LASTMODIFIED *Kifejezés * Statikus érték |
Nem | metaadatok |
Kapcsolódó tartalom
Visszajelzés
https://aka.ms/ContentUserFeedback.
Hamarosan elérhető: 2024-ben fokozatosan kivezetjük a GitHub-problémákat a tartalom visszajelzési mechanizmusaként, és lecseréljük egy új visszajelzési rendszerre. További információ:Visszajelzés küldése és megtekintése a következőhöz: