Megjegyzés
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhat bejelentkezni vagy módosítani a címtárat.
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhatja módosítani a címtárat.
Ez a cikk azt ismerteti, hogyan használhatja az adatmásolási tevékenységet egy csővezetékben adatok átvitelére a Fabric Lakehouse-ből és a Fabric Lakehouse-ba. Alapértelmezés szerint az adatok a Lakehouse Table in V-Order fájlba vannak írva, és további információért lépjen a Delta Lake-táblaoptimalizálásra és a V-Orderre .
Ez az összekötő támogatja a Lakehouse-t a munkaterületen, és engedélyezve van egy privát kapcsolat. A konfigurációval kapcsolatos további információkért lásd: Privát hivatkozások beállítása és használata.
A helyszíni adatátjáró munkaterületszintű privát kapcsolatának támogatásához (3000.286.12-es vagy újabb verzió) hozzá kell adnia *.dfs.fabric.microsoft.com az engedélyezési listához, hogy a Lakehouse-összekötő hozzáférhessen a Onelake API-khoz a hálózaton keresztül.
Támogatott formátum
A Lakehouse a következő fájlformátumokat támogatja. A formátumalapú beállításokat az egyes cikkekben találja.
- Avro formátum
- Bináris formátum
- Tagolt szövegformátum
- Excel-formátum
- JSON formátum
- ORC formátum
- Parquet formátum
- XML-formátum
Támogatott konfiguráció
A másolási tevékenység alatt lévő lapok konfigurációjához tekintse meg a következő szakaszokat.
General
Az Általános lap konfigurációjához lépjen az Általános lapra.
Source
A Lakehouse a másolási tevékenység Forrás lapján az alábbi tulajdonságokat támogatja.
A következő tulajdonságok szükségesek:
Kapcsolat: Válasszon egy Lakehouse-kapcsolatot a kapcsolatlistából. Ha nincs kapcsolat, hozzon létre egy új Lakehouse-kapcsolatot. Ha dinamikus tartalom használatával adja meg a Lakehouse-t, adjon hozzá egy paramétert, és adja meg a Lakehouse objektumazonosítóját a paraméter értékeként. A Lakehouse objektumazonosítójának lekéréséhez nyissa meg a Lakehouse-t a munkaterületen, és az azonosító az URL-cím
/lakehouses/utáni részében található.
Lakehouse: Válasszon ki egy meglévő Lakehouse-t, amelyet használni szeretne.
Gyökérmappa: Válassza a Táblák vagy fájlok lehetőséget, amely a tó felügyelt vagy nem felügyelt területének virtuális nézetét jelzi. További információkért tekintse meg a Lakehouse bevezetését.
Ha a Táblák lehetőséget választja:
-
Lekérdezés használata: Válasszon a Tábla vagy a T-SQL-lekérdezés közül.
Ha Tábla-et választja:
Táblázat: Válasszon ki egy meglévő táblát a táblázatlistából, vagy adjon meg egy táblanevet forrásként. Vagy az Új lehetőséget választva létrehozhat egy új táblát.
Ha a Lakehouse-t sémákkal alkalmazza a kapcsolatban, válasszon ki egy meglévő táblát a táblázatlistából, vagy adjon meg egy sémát tartalmazó táblát forrásként. Vagy az Új lehetőséget választva létrehozhat egy új táblát sémával. Ha nem ad meg sémanevet, a szolgáltatás a dbo-t használja alapértelmezett sémaként.
A Speciális területen a következő mezőket adhatja meg:
- Időbélyeg: Adja meg, hogy egy régebbi pillanatképet időbélyeg alapján szeretne lekérdezni.
- Verzió: Adja meg, hogy egy régebbi pillanatképet szeretne lekérdezni verzió szerint.
- További oszlopok: További adatoszlopok hozzáadása a forrásfájlok relatív elérési útjának vagy statikus értékéhez. A kifejezés az utóbbi esetében támogatott.
Ha a T-SQL-lekérdezést választja:
T-SQL-lekérdezés: Adja meg az egyéni SQL-lekérdezést, amely adatokat olvas be a Lakehouse SQL Analytics-végponton keresztül. Például:
SELECT * FROM MyTable. Vegye figyelembe, hogy a Lakehouse tábla lekérdezési módja nem támogatja a munkaterületszintű privát hivatkozásokat.
A Speciális területen a következő mezőket adhatja meg:
lekérdezési időtúllépés (perc): Adja meg a lekérdezési parancs végrehajtásának időtúllépését, az alapértelmezett érték 120 perc.
Partíciós beállítás: Megadja a Lakehouse tábla lekérdezési módjából történő adatok betöltéséhez használt adatparticionálási beállításokat. Válassza a Nincs (alapértelmezett) vagy a Dinamikus tartomány lehetőséget.
Ha a Nincslehetőséget választja, akkor úgy dönt, hogy nem használja a partíciót.
Ha a dinamikus tartományt választja, ha a lekérdezés párhuzamos engedélyezve van, tartománypartíciós paraméterre(
?DfDynamicRangePartitionCondition) van szükség. Minta lekérdezés:SELECT * FROM <TableName> WHERE ?DfDynamicRangePartitionCondition.Partícióoszlop neve: Adja meg a forrásoszlop nevét egész számtípusban , amelyet a párhuzamos másoláshoz használt tartományparticionálás használ. Ha nincs megadva, a rendszer automatikusan észleli és partícióoszlopként használja a tábla indexét vagy elsődleges kulcsát. Ha lekérdezéssel kéri le a forrásadatokat, illessze be a
?DfDynamicRangePartitionCondition-t a WHERE záradékba. Például tekintse meg a Lakehouse-táblák párhuzamos másolatát a T-SQL Query szakasz használatával .Partíció felső határa: Adja meg a partícióoszlop maximális értékét a partíciós tartományok felosztásához. Ez az érték a partíciós léptetés meghatározására szolgál, nem pedig a tábla sorainak szűrésére. A tábla vagy lekérdezés eredményének összes sora particionálásra és másolásra kerül. Ha nincs megadva, a másolási tevékenység automatikusan észleli az értéket. Például tekintse meg a Lakehouse-táblák párhuzamos másolatát a T-SQL Query szakasz használatával .
Partíció alsó határa: Adja meg a partícióoszlop minimális értékét a partíció tartomány felosztásához. Ez az érték a partíciós léptetés meghatározására szolgál, nem pedig a tábla sorainak szűrésére. A tábla vagy lekérdezés eredményének összes sora particionálásra és másolásra kerül. Ha nincs megadva, a másolási tevékenység automatikusan észleli az értéket. Például tekintse meg a Lakehouse-táblák párhuzamos másolatát a T-SQL Query szakasz használatával .
További oszlopok: További adatoszlopok hozzáadása a forrásfájlok relatív elérési útjának vagy statikus értékéhez. A kifejezés az utóbbi esetében támogatott.
-
Lekérdezés használata: Válasszon a Tábla vagy a T-SQL-lekérdezés közül.
Ha a Fájlok lehetőséget választja:
Fájl elérési út típusa: Választhat a Fájl elérési útja, a Helyettesítő karakteres elérési út, vagy a Fájlok listája közül. Az alábbi lista az egyes beállítások konfigurációját ismerteti:
Fájl elérési útja: Válassza a Tallózás lehetőséget a másolni kívánt fájl kiválasztásához, vagy töltse ki manuálisan az elérési utat.
Helyettesítő karakteres fájl elérési útja: A forrásmappák vagy fájlok szűréséhez adja meg azt a mappát vagy fájlelérési útvonalat, amely helyettesítő karaktereket tartalmaz az adott Lakehouse nem felügyelt területén (a Fájlok területen). Az engedélyezett helyettesítő karakterek a következők:
*(nulla vagy több karakternek felel meg) és?(nulla vagy egyetlen karakternek felel meg). A feloldás akkor használható^, ha a mappában vagy a fájlnévben helyettesítő karakter vagy ez a feloldó karakter található.Helyettesítő mappa elérési út: Az adott tároló alatti mappa elérési útja. Ha helyettesítő karakterrel szeretné szűrni a mappát, hagyja ki ezt a beállítást, és adja meg az adatokat a tevékenység forrásbeállításaiban.
Helyettesítő karakterfájl neve: A megadott Lakehouse nem felügyelt terület alatti fájlnév (a Fájlok területen) és a mappa elérési útja.
Fájlok listája: Egy adott fájlkészlet másolását jelzi.
- Mappa elérési útja: A másolni kívánt fájlokat tartalmazó mappára mutat.
- A fájllista elérési útja: A másolandó fájlok listáját tartalmazó szövegfájlra mutat, soronként egy fájlra, amely a konfigurált fájl elérési útjának relatív elérési útja.
Rekurzívan: Azt jelzi, hogy az adatok rekurzív módon vannak-e beolvasva az almappákból vagy csak a megadott mappából. Ha engedélyezve van, a bemeneti mappában és annak almappáiban lévő összes fájl rekurzív módon lesz feldolgozva. Ez a tulajdonság nem érvényes, ha a fájl elérési útját fájllistaként konfigurálja.
Fájlformátum: Válassza ki a fájlformátumot a legördülő listából. A fájlformátum konfigurálásához válassza a Beállítások gombot. A különböző fájlformátumok beállításairól részletes információt a támogatott formátumú cikkekben talál.
A Speciális területen a következő mezőket adhatja meg:
-
Szűrés utolsó módosítás szerint: A fájlok szűrése az utolsó módosított dátumok alapján történik. Ez a tulajdonság nem érvényes, ha a fájl elérési útját fájllistaként konfigurálja.
- Kezdési idő: A fájlok akkor lesznek kiválasztva, ha utolsó módosításuk időpontja nagyobb vagy egyenlő a konfigurált időpontnál.
- Befejezési idő: A fájlok akkor lesznek kiválasztva, ha az utolsó módosításuk kevesebb, mint a konfigurált idő.
-
Partíciófelderítés engedélyezése: A particionált fájlok esetében adja meg, hogy elemezni szeretné-e a partíciókat a fájl elérési útján, és hozzáadja-e őket további forrásoszlopokként.
- Partíció gyökérútvonala: Ha a partíciófelderítés engedélyezve van, adja meg az abszolút gyökér elérési utat a particionált mappák adatoszlopként való olvasásához.
- Egyidejű kapcsolatok maximális száma: Az adattárban a tevékenységfuttatás során létesített egyidejű kapcsolatok felső korlátját jelzi. Csak akkor adjon meg értéket, ha korlátozni szeretné az egyidejű kapcsolatokat.
-
Szűrés utolsó módosítás szerint: A fájlok szűrése az utolsó módosított dátumok alapján történik. Ez a tulajdonság nem érvényes, ha a fájl elérési útját fájllistaként konfigurálja.
Destination
A Lakehouse a másolási tevékenység Cél lapján az alábbi tulajdonságokat támogatja.
A következő tulajdonságok szükségesek:
Kapcsolat: Válasszon egy Lakehouse-kapcsolatot a kapcsolatlistából. Ha nincs kapcsolat, hozzon létre egy új Lakehouse-kapcsolatot. Ha dinamikus tartalom használatával adja meg a Lakehouse-t, adjon hozzá egy paramétert, és adja meg a Lakehouse objektumazonosítóját a paraméter értékeként. A Lakehouse objektumazonosítójának lekéréséhez nyissa meg a Lakehouse-t a munkaterületen, és az azonosító az URL-cím
/lakehouses/utáni részében található.
Gyökérmappa: Válassza a Táblák vagy fájlok lehetőséget, amely a tó felügyelt vagy nem felügyelt területének virtuális nézetét jelzi. További információkért tekintse meg a Lakehouse bevezetését.
Ha a Táblák lehetőséget választja:
Táblázat: Válasszon ki egy meglévő táblát a táblázatlistából, vagy adjon meg egy táblanevet célként. Vagy az Új lehetőséget választva létrehozhat egy új táblát.
Ha a Lakehouse-t sémákkal alkalmazza a kapcsolatban, válasszon ki egy meglévő táblát a táblázatlistából, vagy adjon meg egy sémát tartalmazó táblát célként. Vagy az Új lehetőséget választva létrehozhat egy új táblát sémával. Ha nem ad meg sémanevet, a szolgáltatás a dbo-t használja alapértelmezett sémaként.
Note
A táblanévnek legalább egy karakter hosszúnak kell lennie, "/" vagy "\" nélkül, záró pont nélkül, valamint bevezető vagy záró szóközök nélkül.
Táblaműveletek: Adja meg a műveletet a kijelölt táblán.
Hozzáfűzés: Új értékek hozzáfűzése a meglévő táblához. A Speciális területen engedélyezheti a partíciót a céltáblában:
-
Partíció engedélyezése: Ezzel a kijelöléssel partíciókat hozhat létre egy mappastruktúrában egy vagy több oszlop alapján. Minden különálló oszlopérték (pár) egy új partíció. Például: "év=2000/hónap=01/fájl".
- Partícióoszlop neve: Válasszon a sémaleképezés céloszlopai közül, amikor adatokat fűz egy új táblához. Ha olyan meglévő táblához fűz adatokat, amely már rendelkezik partíciókkal, a partícióoszlopok automatikusan a meglévő táblából származnak. A támogatott adattípusok a karakterlánc, az egész szám, a logikai és a dátum-idő. A Formátum a Leképezés lap típuskonvertálási beállításait tiszteletben tartja.
-
Partíció engedélyezése: Ezzel a kijelöléssel partíciókat hozhat létre egy mappastruktúrában egy vagy több oszlop alapján. Minden különálló oszlopérték (pár) egy új partíció. Például: "év=2000/hónap=01/fájl".
Felülírás: Írja felül a tábla meglévő adatait és sémáját az új értékekkel. A Speciális területen engedélyezheti a partíciót a céltáblában:
-
Partíció engedélyezése: Ezzel a kijelöléssel partíciókat hozhat létre egy mappastruktúrában egy vagy több oszlop alapján. Minden különálló oszlopérték (pár) egy új partíció. Például: "év=2000/hónap=01/fájl".
- Partícióoszlop neve: Válasszon a sémaleképezés céloszlopai közül. A támogatott adattípusok a karakterlánc, az egész szám, a logikai és a dátum-idő. A Formátum a Leképezés lap típuskonvertálási beállításait tiszteletben tartja.
Támogatja a Delta Lake időutazást. A felülírott táblázat az előző verziókhoz tartozó delta naplókkal rendelkezik, amelyeket a Lakehouse-ban érhet el. Az előző verziótáblát a Lakehouse-ból is átmásolhatja a Másolási tevékenység forrásában megadott Verzió beállítással.
-
Partíció engedélyezése: Ezzel a kijelöléssel partíciókat hozhat létre egy mappastruktúrában egy vagy több oszlop alapján. Minden különálló oszlopérték (pár) egy új partíció. Például: "év=2000/hónap=01/fájl".
Upsert (előzetes verzió): Új értékek beszúrása a meglévő táblába, és a meglévő értékek frissítése. Az Upsert nem támogatott a particionált Lakehouse táblák használatakor. A partíció nem engedélyezhető, amíg a művelet ki van jelölve.
- Kulcsoszlopok: Válassza ki, hogy melyik oszlopot használja annak megállapításához, hogy a forrásból származó sor egyezik-e a célhely sorával. Az összes céloszlopot tartalmazó legördülő lista. Kiválaszthat egy vagy több oszlopot, amely kulcsoszlopként lesz kezelve, miközben a Lakehouse-táblába ír.
A Speciális területen a következő mezőket adhatja meg:
- V-Order alkalmazása: Határozza meg, hogy a másoláson keresztül alkalmazza a V-Ordert. A kikapcsolása az eredeti parquet fájlokat további V-Order optimalizálás nélkül őrzi meg. További információ: Delta Lake table optimization and V-Order.
Ha a Fájlok lehetőséget választja:
Fájl elérési útja: Válassza a Tallózás lehetőséget a másolni kívánt fájl kiválasztásához, vagy töltse ki manuálisan az elérési utat.
Fájlformátum: Válassza ki a fájlformátumot a legördülő listából. Válassza a Beállítások lehetőséget a fájlformátum konfigurálásához. A különböző fájlformátumok beállításairól részletes információt a támogatott formátumú cikkekben talál.
A Speciális területen a következő mezőket adhatja meg:
Másolási viselkedés: Meghatározza a másolási viselkedést, ha a forrás fájlalapú adattárból származó fájl. Másolási viselkedésként választhatja a hierarchia egyszerűsítését
, a fájlok egyesítését , a hierarchia megőrzését , vagy dinamikus tartalom hozzáadását . Az egyes beállítások konfigurációja a következő: Egybesimított hierarchia: A forrásmappából származó összes fájl a célmappa első szintjén található. A célfájlok automatikusan létrehozott névvel rendelkeznek.
Fájlok egyesítése: A forrásmappából származó összes fájlt egyetlen fájlba egyesíti. Ha a fájlnév meg van adva, az egyesített fájlnév a megadott név. Ellenkező esetben ez egy automatikusan létrehozott fájlnév.
Hierarchia megőrzése: Megőrzi a fájlhierarchiát a célmappában. A forrásfájl forrásmappához viszonyított elérési útja megegyezik a célfájlnak a célmappához viszonyított elérési útával.
Dinamikus tartalom hozzáadása: Egy tulajdonságérték kifejezésének megadásához válassza a Dinamikus tartalom hozzáadása lehetőséget. Ez a mező megnyitja a kifejezésszerkesztőt, ahol támogatott rendszerváltozókból, tevékenységkimenetből, függvényekből és felhasználó által megadott változókból vagy paraméterekből hozhat létre kifejezéseket. A kifejezés nyelvével kapcsolatos további információkért lépjen a Kifejezések és függvények elemre.
Egyidejű kapcsolatok maximális száma: Az adattárban a tevékenységfuttatás során létrehozott egyidejű kapcsolatok felső korlátja. Csak akkor adjon meg értéket, ha korlátozni szeretné az egyidejű kapcsolatokat.
Blokkméret (MB): Adja meg a blokk méretét MB-ban, amikor adatokat ír a Lakehouse-ba. Az engedélyezett érték 4 MB és 100 MB között van.
Metaadatok: Egyéni metaadatok beállítása a céladattárba való másoláskor. A tömb alatti
metadataobjektumok egy további oszlopot jelölnek. Eznamehatározza meg a metaadatkulcs nevét, és avaluekulcs adatértékét. Ha az attribútumok megőrzése funkciót használja, a megadott metaadatok egyesülnek/felülírják a forrásfájl metaadatait. Az engedélyezett adatértékek a következők:
Mapping
A Leképezés lap konfigurációjához, ha nem alkalmazza a Lakehouse-táblát céladattárként, lépjen a Leképezés gombra.
Ha a Lakehouse-táblát alkalmazza céladattárként, kivéve a leképezési konfigurációt, szerkesztheti a céloszlopok típusát. Az Importálási sémák kiválasztása után megadhatja az oszloptípust a célhelyen.
A forrás PersonID oszlopának típusa például int, amely a céloszlopra való leképezéskor módosítható sztringtípusra.
Note
A céltípus szerkesztése jelenleg nem támogatott, ha a forrás decimális típusú.
Ha a bináris fájlt választja fájlformátumként, a leképezés nem támogatott.
Settings
A Beállítások lap konfigurációjához válassza a Beállítások lehetőséget.
Lakehouse-táblák adattípus-leképezése
A következő szakaszok az adattípus-leképezéseket ismertetik, amikor adatokat másolnak a Lakehouse-táblákból. A részletekért tekintse meg a forrás módnak megfelelő alszakaszt.
Táblázat
Ha a Lakehouse-táblákból táblázatos módban másol adatokat, a rendszer a következő leképezéseket használja a Lakehouse-tábla adattípusaiból a szolgáltatás által belsőleg használt köztes adattípusokra.
| Lakehouse tábla adattípusa | Köztes szolgáltatás adattípusa |
|---|---|
| karakterlánc | String |
| long | Int64 |
| egész szám | Int32 |
| short | Int16 |
| bájt | SByte |
| float | Single |
| double | Double |
| decimális | Decimal |
| boolean | logikai |
| bináris | Bájttömb |
| date | Date |
| timestamp | DateTime |
Ha táblázatos módban másol adatokat a Lakehouse-táblákba, a rendszer az alábbi leképezéseket használja a szolgáltatás által belsőleg a támogatott delta céladattípusokhoz használt köztes adattípusokból.
| Köztes szolgáltatás adattípusa | Támogatott delta céltípus |
|---|---|
| logikai | boolean |
| SByte | bájt |
| Byte | short |
| Int16 | short |
| UInt16 | egész szám |
| Int32 | egész szám |
| UInt32 | long |
| Int64 | long |
| UInt64 | decimális (20,0) |
| Single | float |
| Double | double |
| GUID | karakterlánc |
| Date | date |
| TimeSpan | Nem támogatott |
| DateTime | timestamp |
| DateTimeOffset | timestamp |
| String | karakterlánc |
| Bájttömb | bináris |
| Decimal | decimális |
T-SQL-lekérdezés
A Lakehouse-táblákból T-SQL Query módban történő adatmásoláskor a rendszer a következő leképezéseket használja a Lakehouse-tábla adattípusaiból a szolgáltatás által belsőleg használt köztes adattípusokra.
| Lakehouse-tábla adattípusa T-SQL Query módban | Köztes szolgáltatás adattípusa |
|---|---|
| int | Int32 |
| varchar | String |
| bigint | Int64 |
| smallint | Int16 |
| valódi | Single |
| float | Double |
| decimális | Decimal |
| bit | logikai |
| varbinary | Byte[] |
| date | Date |
| datetime2 | DateTime |
Párhuzamos másolás Lakehouse-táblákból T-SQL Query használatával
A T-SQL Queryt használó Lakehouse-táblák összekötője másolási tevékenységben beépített adatparticionálást biztosít az adatok párhuzamos másolásához. Az adatparticionálási beállításokat a másolási tevékenység Forrás lapján találja.
Ha engedélyezi a particionált másolást, a másolási tevékenység párhuzamos lekérdezéseket futtat a Lakehouse-táblákon a T-SQL Query-forrás használatával az adatok partíciók szerinti betöltéséhez. A párhuzamos fokot a másolási tevékenység beállításai lap másolási párhuzamossági foka szabályozza. Ha például a másolási párhuzamosság fokát négyre állítja, a szolgáltatás egyszerre négy lekérdezést hoz létre és futtat a megadott partícióbeállítás és beállítások alapján, és mindegyik lekérdezés a Lakehouse-táblák egy részét kéri le a T-SQL Query használatával.
Javasoljuk, hogy engedélyezze a párhuzamos másolást adatparticionálással, különösen akkor, ha nagy mennyiségű adatot tölt be a Lakehouse-táblákból a T-SQL Query használatával. A következő javasolt konfigurációk különböző forgatókönyvekhez. Ha fájlalapú adattárba másol adatokat, ajánlott több fájlként írni egy mappába (csak a mappa nevét kell megadni), ebben az esetben a teljesítmény jobb, mint egyetlen fájlba írni.
| Scenario | Javasolt beállítások |
|---|---|
| Teljes betöltés nagy táblából fizikai partíciók nélkül, egész szám vagy dátum/idő oszloppal az adatparticionáláshoz. |
Partícióbeállítások: Dinamikus tartomány partíciója. Partícióoszlop (nem kötelező): Adja meg az adatok particionálásához használt oszlopot. Ha nincs megadva, a rendszer az indexet vagy az elsődleges kulcs oszlopot használja. A partíció felső határa és a partíció alsó határa (nem kötelező): Adja meg, hogy meg szeretné-e határozni a partíciós lépést. Ez nem a táblázat sorainak szűrésére, hanem a tábla összes sorának particionálása és másolása történik. Ha nincs megadva, a másolási tevékenység automatikusan észleli az értékeket, és a MIN és a MAX értékektől függően hosszú időt vehet igénybe. Javasoljuk, hogy felső és alsó határt adjon meg. Ha például az "ID" partícióoszlop értéke 1 és 100 között van, és az alsó határt 20-ra, a felső határt pedig 80-ra állítja be, a párhuzamos másolás 4 részre van osztva, a szolgáltatás 4 partícióban kéri le az adatokat – azonosítókat a <= 20, [21, 50], [51, 80] és >= 81 tartományokban. |
| Nagy mennyiségű adat betöltése egyéni lekérdezéssel, fizikai partíciók nélkül, az adatparticionáláshoz pedig oszlopként egész számot vagy dátumot/dátum/időt használva. |
Partícióbeállítások: Dinamikus tartomány partíciója. Lekérdezés: SELECT * FROM <TableName> WHERE ?DfDynamicRangePartitionCondition AND <your_additional_where_clause>.Partícióoszlop: Adja meg az adatok particionálásához használt oszlopot. A partíció felső határa és a partíció alsó határa (nem kötelező): Adja meg, hogy meg szeretné-e határozni a partíciós lépést. Ez nem a tábla sorainak szűrésére használható, a lekérdezés eredményének összes sora particionálásra és másolásra kerül. Ha nincs megadva, a másolási tevékenység automatikusan észleli az értéket. Ha például az "ID" partícióoszlop értékei 1 és 100 között vannak, és az alsó kötést 20-ra, a felső kötést pedig 80-ra állítja be, a párhuzamos másolás esetén 4, a szolgáltatás 4 partíció szerint kéri le az adatokat: <=20, [21, 50], [51, 80] és >=81 tartományban. Az alábbiakban további minta lekérdezéseket talál a különböző forgatókönyvekhez: • A teljes tábla lekérdezése: SELECT * FROM <TableName> WHERE ?DfDynamicRangePartitionCondition• Lekérdezés oszlopkijelöléssel és további where-clause szűrőkkel rendelkező táblából: SELECT <column_list> FROM <TableName> WHERE ?DfDynamicRangePartitionCondition AND <your_additional_where_clause>• Lekérdezés részlekérdezésekkel: SELECT <column_list> FROM (<your_sub_query>) AS T WHERE ?DfDynamicRangePartitionCondition AND <your_additional_where_clause>• Lekérdezés partícióval az al-lekérdezésben: SELECT <column_list> FROM (SELECT <your_sub_query_column_list> FROM <TableName> WHERE ?DfDynamicRangePartitionCondition) AS T |
Delta Lake-tábla támogatása
Az alábbi szakaszokban részletes információkat talál a Delta Lake-tábla támogatásáról mind a forrás, mind a cél tekintetében.
Source
Delta-oszlop-leképezés támogatott, amikor a 2. vagy 3. olvasóverziót alkalmazza columnMappingreaderFeatures a Lakehouse-táblájában.
A Delta-tábla oszlopleképezési képessége rugalmasabb sémafejlődést tesz lehetővé, biztosítva, hogy a táblaszerkezet változásai ne zavarják meg az adat-munkafolyamatokat. Az oszlopleképezéssel adatokat olvashat egy meglévő Delta Lake-táblából, ha delta.columnMapping.mode értékre van állítva: name vagy id.
Törlési vektorok akkor támogatottak, ha a 3. olvasóverziót deletionVectors a Lakehouse-táblában readerFeatures alkalmazza. A logikailag törölt sorok törlési vektorfájlokban vannak megjelölve, és kihagyásra kerülnek a Delta Lake tábla olvasása során.
A változás adatfolyam támogatott.
Destination
A Delta oszlop-leképezés támogatott. Ez a funkció rugalmasabb sémafejlődést tesz lehetővé, biztosítva, hogy a táblaszerkezet változásai ne zavarják meg az adat-munkafolyamatokat. Az oszlopleképezéssel a következőt teheti:
- Adatok írása egy meglévő Delta Lake-táblába, a
delta.columnMapping.modeésnamebeállításainak alkalmazásával. - Automatikusan hozzon létre egy táblázatot úgy, hogy
delta.columnMapping.modeértékétname-re állítja, ha a céltábla nem létezik, és a forrásoszlopok speciális karaktereket és szóközöket tartalmaznak. - Automatikusan hozzon létre egy táblázatot, amelyben
delta.columnMapping.modename-re van állítva, amikor a táblaművelet felülírás és a forrásadatkészlet oszlopai speciális karaktereket és szóközöket tartalmaznak.
A törlési vektorok támogatottak .
A változás adatfolyam támogatott.
Táblázat összefoglalása
Az alábbi táblázatok további információkat tartalmaznak a Lakehouse-beli másolási tevékenységről.
Forrásadatok
| Name | Description | Value | Required | JSON-szkripttulajdonság |
|---|---|---|---|---|
| Connection | A kapcsolat kiválasztásának szakasza. | < az Ön Lakehouse-kapcsolata> | Yes | workspaceId cikkszám |
| Gyökérmappa | A gyökérmappa típusa. | • Táblázatok • Fájlok |
No | rootFolder: Táblák vagy fájlok |
| A lekérdezés használata | Az adatok beolvasásának módja a Lakehouse-ból. Tábla alkalmazása a megadott táblából származó adatok beolvasására, vagy T-SQL-lekérdezés alkalmazása az adatok lekérdezéssel történő olvasására. | • tábla • T-SQL-lekérdezés |
Yes | / |
| Table | Annak a táblának a neve, amelyből adatokat szeretne olvasni, vagy annak a táblának a neve, amely sémával rendelkezik, amelyből adatokat szeretne olvasni, amikor a Lakehouse-t sémákkal alkalmazza kapcsolatként. | <az Ön táblájának neve> | Igen, amikor a Táblák lehetőséget választja a Gyökérmappában | tábla |
| séma neve | A séma neve. | sémanév <> | No | séma |
| tábla neve | A tábla neve. | az ön táblaneve <> | No | tábla |
| T-SQL-lekérdezés | Adatok olvasása az egyéni lekérdezés használatával. Például: SELECT * FROM MyTable. |
< lekérdezés > | No | sqlReaderQuery |
| Timestamp | Egy régebbi pillanatkép lekérdezésének időbélyege. | <Időbélyeg> | No | timestampAsOf |
| Version | A régebbi pillanatkép lekérdezésére szolgáló verzió. | <verzió> | No | versionAsOf |
| lekérdezés időtúllépése (perc) | A lekérdezési parancs végrehajtásának időtúllépése alapértelmezés szerint 120 perc. | időtartam | No | queryTimeout |
| Partíció beállítás | Az adatok Lakehouse-tábla lekérdezési módból való betöltéséhez használt adatparticionálási beállítások. | •Egyik sem • Dinamikus tartomány |
No | partitionOption |
| partícióoszlop neve | A forrásoszlop neve egész számtípusban , amelyet a párhuzamos másolás tartományparticionálása használ. Ha nincs megadva, a rendszer automatikusan észleli a tábla elsődleges kulcsát, és partícióoszlopként használja. | <partícióoszlop neve> | No | partícióoszlopNév |
| Partíció felső határa | A partíciós tartományok felosztásához használt partícióoszlop legnagyobb értéke. Ez az érték a partíciós léptetés meghatározására szolgál, nem pedig a tábla sorainak szűrésére. A tábla vagy lekérdezés eredményének összes sora particionálásra és másolásra kerül. | <partíció felső határa> | No | partíció felső határa |
| Partíció alsó határ | A partíciótartomány-felosztáshoz használt partícióoszlop minimális értéke. Ez az érték a partíciós léptetés meghatározására szolgál, nem pedig a tábla sorainak szűrésére. A tábla vagy lekérdezés eredményének összes sora particionálásra és másolásra kerül. | <partíció alsó határa> | No | partíció alsó határértéke |
| További oszlopok | További adatoszlopok a forrásfájlok relatív elérési útjának vagy statikus értékének tárolásához. A kifejezés az utóbbi esetében támogatott. | •Név •Érték |
No | additionalColumns: • név •érték |
| Fájl elérési útja | A használt fájl elérési út típusát. | • Fájl elérési útja • Wildcard fájlelőérési útja • Fájlok listája |
Igen, amikor a Gyökérmappában lévő Fájlok lehetőséget választja | / |
| Elérési út | Másolja az elérési útból a forrásadattárban lévő mappába/fájlba. | <fájl elérési útja> | Igen, amikor a Fájl elérési útját választja | • folderPath •fájlnév |
| Helyettesítő karakteres elérési útvonalak | A forrásadattárban helyettesítő karaktereket tartalmazó mappa elérési útja, amely a forrásmappák szűrésére van konfigurálva. | <előtag elérési útjai> | Igen, amikor helyettesítő karakterfájl elérési útját választja | • helyettesítő karakterFolderPath • helyettesítő karakterFileName |
| Mappa elérési útja | Egy másolni kívánt fájlokat tartalmazó mappára mutat. | <mappa elérési útja> | No | folderPath |
| Fájllista elérési útja | Egy adott fájlkészlet másolását jelzi. Mutasson egy szövegfájlra, amely tartalmazza a másolni kívánt fájlok listáját, egy fájl soronként, amelyek a konfigurált elérési út relatív elérési útvonalai. | <elérési út a fájllistához> | No | fileListPath |
| Recursively | A bemeneti mappa és almappáinak összes fájljának rekurzív feldolgozása, vagy csak a kijelölt mappában lévő fájlok feldolgozása. Ez a beállítás egyetlen fájl kijelölésekor le van tiltva. | kijelölés vagy a kijelölés megszüntetése | No | recursive: igaz vagy hamis |
| fájlformátum | A forrásadatok fájlformátuma. A különböző fájlformátumokról további információt a támogatott formátumú cikkekben talál. | / | Igen, amikor a Gyökérmappában lévő Fájlok lehetőséget választja | / |
| Szűrés utoljára módosítva | Azok a fájlok, amelyeket a [Kezdési időpont, Befejezési idő) tartományban módosítottak, szűrésre kerülnek a további feldolgozás céljából. Az idő az UTC időzónára lesz alkalmazva a következő formátumban yyyy-mm-ddThh:mm:ss.fffZ: .Ez a tulajdonság kihagyható, ami azt jelenti, hogy a rendszer nem alkalmaz fájlattribútum-szűrőt. Ez a tulajdonság nem érvényes, ha a fájl elérési útját fájllistaként konfigurálja. |
• Kezdési idő • Befejezési idő |
No | modifiedDatetimeStart modifiedDatetimeEnd |
| Partíciófelderítés engedélyezése | Elemezni szeretné-e a partíciókat a fájl elérési útjáról, és hozzáadja-e őket további forrásoszlopokként. | Kijelölve vagy nincs kijelölve | No | enablePartitionDiscovery: igaz vagy hamis (alapértelmezett) |
| Partíció gyökérútvonala | A particionált mappák adat-oszlopként történő olvasásához használható abszolút partíciógyökér elérési útja. | <a partíció gyökérútvonala> | No | partitionRootPath |
| Egyidejű kapcsolatok maximális kihasználása | Az adattárhoz a tevékenység futtatása során létrehozott egyidejű kapcsolatok felső korlátja. Csak akkor van szükség értékre, ha korlátozni szeretné az egyidejű kapcsolatokat. | <egyidejű kapcsolatok maximális kihasználása> | No | maxConcurrentConnections |
Céladatok
| Name | Description | Value | Required | JSON-szkripttulajdonság |
|---|---|---|---|---|
| Connection | A kapcsolat kiválasztásának szakasza. | < az Ön Lakehouse-kapcsolata> | Yes | workspaceId cikkszám |
| Gyökérmappa | A gyökérmappa típusa. | • Táblázatok • Fájlok |
Yes | rootFolder: Tábla vagy fájlok |
| Table | Annak a táblának a neve, amelybe adatokat szeretne írni. Vagy annak a táblának a neve, amely olyan sémával rendelkezik, amelybe adatokat szeretne írni, amikor a Lakehouse-t sémákkal alkalmazza kapcsolatként. | <az Ön táblájának neve> | Igen, amikor a Táblák lehetőséget választja a Gyökérmappában | tábla |
| séma neve | A séma neve. |
<a séma neve> (az alapértelmezett a dbo) |
No | séma |
| tábla neve | A tábla neve. | <az Ön táblájának neve> | Yes | tábla |
| Táblázatművelet | Új értékek hozzáfűzése egy meglévő táblához, felülírja a tábla meglévő adatait és sémáját az új értékekkel, vagy új értékeket szúr be a meglévő táblába, és frissíti a meglévő értékeket. | • Hozzáfűzés • Felülírás • Upsert |
No | tableActionOption: • Hozzáfűz • OverwriteSchema • Upsert (beillesztés és frissítés) |
| V-order alkalmazása | V-Order alkalmazása másolással. A kikapcsolása az eredeti parquet fájlokat további V-Order optimalizálás nélkül őrzi meg. További információ: Delta Lake table optimization and V-Order. | Ki van jelölve (alapértelmezett) vagy nincs kijelölve | No | applyVOrder |
| Partíciók engedélyezése | Ezzel a kijelöléssel partíciókat hozhat létre egy mappastruktúrában egy vagy több oszlop alapján. Minden különálló oszlopérték (pár) egy új partíció. Például: "év=2000/hónap=01/fájl". | Kijelölve vagy nincs kijelölve | No | partitionOption: PartitionByKey vagy None |
| Partícióoszlopok | A sémaleképezés céloszlopai. | <a partícióoszlopaid> | No | partitionNameList |
| Kulcsoszlopok | Válassza ki, hogy melyik oszlop alapján állapítsa meg, hogy a forrásból származó sor egyezik-e a célhely egyik sorával. | <kulcsoszlopai> | Yes | keyColumns |
| Elérési út | Adatok írása egy mappa/fájl elérési útjára a céladattár alatt. | <fájl elérési útja> | No | • folderPath •fájlnév |
| fájlformátum | A céladatok fájlformátuma. A különböző fájlformátumokról további információt a támogatott formátumú cikkekben talál. | / | Igen, amikor a Gyökérmappában lévő Fájlok lehetőséget választja | / |
| Másolási viselkedés | A másolási viselkedés akkor van meghatározva, ha a forrás fájlalapú adattárból származó fájlok. | • Egybesimított hierarchia • Fájlok egyesítése • A hierarchia megőrzése • Dinamikus tartalom hozzáadása |
No | copyBehavior: • FlattenHierarchy • MergeFiles • Hierarchia megőrzése |
| Egyidejű kapcsolatok maximális kihasználása | Az adattárhoz a tevékenység futtatása során létrehozott egyidejű kapcsolatok felső korlátja. Csak akkor adjon meg értéket, ha korlátozni szeretné az egyidejű kapcsolatokat. | <egyidejű kapcsolatok maximális kihasználása> | No | maxConcurrentConnections |
| Blokkméret (MB) | Az adatok Lakehouse-ba való írásához használt blokkméret MB-ban. Az engedélyezett érték 4 MB és 100 MB között van. | <blokkméret> | No | blockSizeInMB |
| Metadata | A célhelyre másoláskor beállított egyéni metaadatok. | • $$LASTMODIFIED•Kifejezés • Statikus érték |
No | metaadat |