Megosztás a következőn keresztül:


Lakehouse konfigurálása egy másolási művelet során

Ez a cikk azt ismerteti, hogyan használhatja az adatmásolási tevékenységet egy csővezetékben adatok átvitelére a Fabric Lakehouse-ből és a Fabric Lakehouse-ba. Alapértelmezés szerint az adatok a Lakehouse Table in V-Order fájlba vannak írva, és további információért lépjen a Delta Lake-táblaoptimalizálásra és a V-Orderre .

Ez az összekötő támogatja a Lakehouse-t a munkaterületen, és engedélyezve van egy privát kapcsolat. A konfigurációval kapcsolatos további információkért lásd: Privát hivatkozások beállítása és használata.

A helyszíni adatátjáró munkaterületszintű privát kapcsolatának támogatásához (3000.286.12-es vagy újabb verzió) hozzá kell adnia *.dfs.fabric.microsoft.com az engedélyezési listához, hogy a Lakehouse-összekötő hozzáférhessen a Onelake API-khoz a hálózaton keresztül.

Támogatott formátum

A Lakehouse a következő fájlformátumokat támogatja. A formátumalapú beállításokat az egyes cikkekben találja.

Támogatott konfiguráció

A másolási tevékenység alatt lévő lapok konfigurációjához tekintse meg a következő szakaszokat.

General

Az Általános lap konfigurációjához lépjen az Általános lapra.

Source

A Lakehouse a másolási tevékenység Forrás lapján az alábbi tulajdonságokat támogatja.

Képernyőkép a forráslapról és a tulajdonságok listájáról.

A következő tulajdonságok szükségesek:

  • Kapcsolat: Válasszon egy Lakehouse-kapcsolatot a kapcsolatlistából. Ha nincs kapcsolat, hozzon létre egy új Lakehouse-kapcsolatot. Ha dinamikus tartalom használatával adja meg a Lakehouse-t, adjon hozzá egy paramétert, és adja meg a Lakehouse objektumazonosítóját a paraméter értékeként. A Lakehouse objektumazonosítójának lekéréséhez nyissa meg a Lakehouse-t a munkaterületen, és az azonosító az URL-cím /lakehouses/ utáni részében található.

    Képernyőkép a Lakehouse objektumazonosítóról.

  • Lakehouse: Válasszon ki egy meglévő Lakehouse-t, amelyet használni szeretne.

  • Gyökérmappa: Válassza a Táblák vagy fájlok lehetőséget, amely a tó felügyelt vagy nem felügyelt területének virtuális nézetét jelzi. További információkért tekintse meg a Lakehouse bevezetését.

    • Ha a Táblák lehetőséget választja:

      • Lekérdezés használata: Válasszon a Tábla vagy a T-SQL-lekérdezés közül.
        • Ha Tábla-et választja:

          • Táblázat: Válasszon ki egy meglévő táblát a táblázatlistából, vagy adjon meg egy táblanevet forrásként. Vagy az Új lehetőséget választva létrehozhat egy új táblát.

            Képernyőkép a tábla nevéről.

            Ha a Lakehouse-t sémákkal alkalmazza a kapcsolatban, válasszon ki egy meglévő táblát a táblázatlistából, vagy adjon meg egy sémát tartalmazó táblát forrásként. Vagy az Új lehetőséget választva létrehozhat egy új táblát sémával. Ha nem ad meg sémanevet, a szolgáltatás a dbo-t használja alapértelmezett sémaként.

            Képernyőkép a táblázat nevéről a sémával.

          • A Speciális területen a következő mezőket adhatja meg:

            • Időbélyeg: Adja meg, hogy egy régebbi pillanatképet időbélyeg alapján szeretne lekérdezni.
            • Verzió: Adja meg, hogy egy régebbi pillanatképet szeretne lekérdezni verzió szerint.
            • További oszlopok: További adatoszlopok hozzáadása a forrásfájlok relatív elérési útjának vagy statikus értékéhez. A kifejezés az utóbbi esetében támogatott.
        • Ha a T-SQL-lekérdezést választja:

          • T-SQL-lekérdezés: Adja meg az egyéni SQL-lekérdezést, amely adatokat olvas be a Lakehouse SQL Analytics-végponton keresztül. Például: SELECT * FROM MyTable. Vegye figyelembe, hogy a Lakehouse tábla lekérdezési módja nem támogatja a munkaterületszintű privát hivatkozásokat.

            Képernyőkép a Lekérdezés használata – T-SQL-lekérdezésről.

          • A Speciális területen a következő mezőket adhatja meg:

            • lekérdezési időtúllépés (perc): Adja meg a lekérdezési parancs végrehajtásának időtúllépését, az alapértelmezett érték 120 perc.

            • Partíciós beállítás: Megadja a Lakehouse tábla lekérdezési módjából történő adatok betöltéséhez használt adatparticionálási beállításokat. Válassza a Nincs (alapértelmezett) vagy a Dinamikus tartomány lehetőséget.

              Ha a Nincslehetőséget választja, akkor úgy dönt, hogy nem használja a partíciót.

              Ha a dinamikus tartományt választja, ha a lekérdezés párhuzamos engedélyezve van, tartománypartíciós paraméterre(?DfDynamicRangePartitionCondition) van szükség. Minta lekérdezés: SELECT * FROM <TableName> WHERE ?DfDynamicRangePartitionCondition.

              • Partícióoszlop neve: Adja meg a forrásoszlop nevét egész számtípusban , amelyet a párhuzamos másoláshoz használt tartományparticionálás használ. Ha nincs megadva, a rendszer automatikusan észleli és partícióoszlopként használja a tábla indexét vagy elsődleges kulcsát. Ha lekérdezéssel kéri le a forrásadatokat, illessze be a ?DfDynamicRangePartitionCondition-t a WHERE záradékba. Például tekintse meg a Lakehouse-táblák párhuzamos másolatát a T-SQL Query szakasz használatával .

              • Partíció felső határa: Adja meg a partícióoszlop maximális értékét a partíciós tartományok felosztásához. Ez az érték a partíciós léptetés meghatározására szolgál, nem pedig a tábla sorainak szűrésére. A tábla vagy lekérdezés eredményének összes sora particionálásra és másolásra kerül. Ha nincs megadva, a másolási tevékenység automatikusan észleli az értéket. Például tekintse meg a Lakehouse-táblák párhuzamos másolatát a T-SQL Query szakasz használatával .

              • Partíció alsó határa: Adja meg a partícióoszlop minimális értékét a partíció tartomány felosztásához. Ez az érték a partíciós léptetés meghatározására szolgál, nem pedig a tábla sorainak szűrésére. A tábla vagy lekérdezés eredményének összes sora particionálásra és másolásra kerül. Ha nincs megadva, a másolási tevékenység automatikusan észleli az értéket. Például tekintse meg a Lakehouse-táblák párhuzamos másolatát a T-SQL Query szakasz használatával .

                A dinamikus tartomány kiválasztásakor megjelenő konfiguráció képernyőképe.

            • További oszlopok: További adatoszlopok hozzáadása a forrásfájlok relatív elérési útjának vagy statikus értékéhez. A kifejezés az utóbbi esetében támogatott.

    • Ha a Fájlok lehetőséget választja:

      • Fájl elérési út típusa: Választhat a Fájl elérési útja, a Helyettesítő karakteres elérési út, vagy a Fájlok listája közül. Az alábbi lista az egyes beállítások konfigurációját ismerteti:

        Képernyőkép a fájl elérési útról.

        • Fájl elérési útja: Válassza a Tallózás lehetőséget a másolni kívánt fájl kiválasztásához, vagy töltse ki manuálisan az elérési utat.

        • Helyettesítő karakteres fájl elérési útja: A forrásmappák vagy fájlok szűréséhez adja meg azt a mappát vagy fájlelérési útvonalat, amely helyettesítő karaktereket tartalmaz az adott Lakehouse nem felügyelt területén (a Fájlok területen). Az engedélyezett helyettesítő karakterek a következők: * (nulla vagy több karakternek felel meg) és ? (nulla vagy egyetlen karakternek felel meg). A feloldás akkor használható ^ , ha a mappában vagy a fájlnévben helyettesítő karakter vagy ez a feloldó karakter található.

          • Helyettesítő mappa elérési út: Az adott tároló alatti mappa elérési útja. Ha helyettesítő karakterrel szeretné szűrni a mappát, hagyja ki ezt a beállítást, és adja meg az adatokat a tevékenység forrásbeállításaiban.

          • Helyettesítő karakterfájl neve: A megadott Lakehouse nem felügyelt terület alatti fájlnév (a Fájlok területen) és a mappa elérési útja.

            Képernyőkép a helyettesítő karakterek útvonaláról.

        • Fájlok listája: Egy adott fájlkészlet másolását jelzi.

          • Mappa elérési útja: A másolni kívánt fájlokat tartalmazó mappára mutat.
          • A fájllista elérési útja: A másolandó fájlok listáját tartalmazó szövegfájlra mutat, soronként egy fájlra, amely a konfigurált fájl elérési útjának relatív elérési útja.

          Képernyőkép a fájllista elérési útról.

      • Rekurzívan: Azt jelzi, hogy az adatok rekurzív módon vannak-e beolvasva az almappákból vagy csak a megadott mappából. Ha engedélyezve van, a bemeneti mappában és annak almappáiban lévő összes fájl rekurzív módon lesz feldolgozva. Ez a tulajdonság nem érvényes, ha a fájl elérési útját fájllistaként konfigurálja.

      • Fájlformátum: Válassza ki a fájlformátumot a legördülő listából. A fájlformátum konfigurálásához válassza a Beállítások gombot. A különböző fájlformátumok beállításairól részletes információt a támogatott formátumú cikkekben talál.

      • A Speciális területen a következő mezőket adhatja meg:

        • Szűrés utolsó módosítás szerint: A fájlok szűrése az utolsó módosított dátumok alapján történik. Ez a tulajdonság nem érvényes, ha a fájl elérési útját fájllistaként konfigurálja.
          • Kezdési idő: A fájlok akkor lesznek kiválasztva, ha utolsó módosításuk időpontja nagyobb vagy egyenlő a konfigurált időpontnál.
          • Befejezési idő: A fájlok akkor lesznek kiválasztva, ha az utolsó módosításuk kevesebb, mint a konfigurált idő.
        • Partíciófelderítés engedélyezése: A particionált fájlok esetében adja meg, hogy elemezni szeretné-e a partíciókat a fájl elérési útján, és hozzáadja-e őket további forrásoszlopokként.
          • Partíció gyökérútvonala: Ha a partíciófelderítés engedélyezve van, adja meg az abszolút gyökér elérési utat a particionált mappák adatoszlopként való olvasásához.
        • Egyidejű kapcsolatok maximális száma: Az adattárban a tevékenységfuttatás során létesített egyidejű kapcsolatok felső korlátját jelzi. Csak akkor adjon meg értéket, ha korlátozni szeretné az egyidejű kapcsolatokat.

Destination

A Lakehouse a másolási tevékenység Cél lapján az alábbi tulajdonságokat támogatja.

Képernyőkép a céllapról.

A következő tulajdonságok szükségesek:

  • Kapcsolat: Válasszon egy Lakehouse-kapcsolatot a kapcsolatlistából. Ha nincs kapcsolat, hozzon létre egy új Lakehouse-kapcsolatot. Ha dinamikus tartalom használatával adja meg a Lakehouse-t, adjon hozzá egy paramétert, és adja meg a Lakehouse objektumazonosítóját a paraméter értékeként. A Lakehouse objektumazonosítójának lekéréséhez nyissa meg a Lakehouse-t a munkaterületen, és az azonosító az URL-cím /lakehouses/ utáni részében található.

    Képernyőkép a Lakehouse objektumazonosítóról.

  • Gyökérmappa: Válassza a Táblák vagy fájlok lehetőséget, amely a tó felügyelt vagy nem felügyelt területének virtuális nézetét jelzi. További információkért tekintse meg a Lakehouse bevezetését.

    • Ha a Táblák lehetőséget választja:

      • Táblázat: Válasszon ki egy meglévő táblát a táblázatlistából, vagy adjon meg egy táblanevet célként. Vagy az Új lehetőséget választva létrehozhat egy új táblát.

        Képernyőkép a tábla nevéről a célhelyen.

        Ha a Lakehouse-t sémákkal alkalmazza a kapcsolatban, válasszon ki egy meglévő táblát a táblázatlistából, vagy adjon meg egy sémát tartalmazó táblát célként. Vagy az Új lehetőséget választva létrehozhat egy új táblát sémával. Ha nem ad meg sémanevet, a szolgáltatás a dbo-t használja alapértelmezett sémaként.

        Képernyőkép a tábla nevéről a célhelyen lévő sémával.

      Note

      A táblanévnek legalább egy karakter hosszúnak kell lennie, "/" vagy "\" nélkül, záró pont nélkül, valamint bevezető vagy záró szóközök nélkül.

      • Táblaműveletek: Adja meg a műveletet a kijelölt táblán.

        • Hozzáfűzés: Új értékek hozzáfűzése a meglévő táblához. A Speciális területen engedélyezheti a partíciót a céltáblában:

          • Partíció engedélyezése: Ezzel a kijelöléssel partíciókat hozhat létre egy mappastruktúrában egy vagy több oszlop alapján. Minden különálló oszlopérték (pár) egy új partíció. Például: "év=2000/hónap=01/fájl".
            • Partícióoszlop neve: Válasszon a sémaleképezés céloszlopai közül, amikor adatokat fűz egy új táblához. Ha olyan meglévő táblához fűz adatokat, amely már rendelkezik partíciókkal, a partícióoszlopok automatikusan a meglévő táblából származnak. A támogatott adattípusok a karakterlánc, az egész szám, a logikai és a dátum-idő. A Formátum a Leképezés lap típuskonvertálási beállításait tiszteletben tartja.
        • Felülírás: Írja felül a tábla meglévő adatait és sémáját az új értékekkel. A Speciális területen engedélyezheti a partíciót a céltáblában:

          • Partíció engedélyezése: Ezzel a kijelöléssel partíciókat hozhat létre egy mappastruktúrában egy vagy több oszlop alapján. Minden különálló oszlopérték (pár) egy új partíció. Például: "év=2000/hónap=01/fájl".
            • Partícióoszlop neve: Válasszon a sémaleképezés céloszlopai közül. A támogatott adattípusok a karakterlánc, az egész szám, a logikai és a dátum-idő. A Formátum a Leképezés lap típuskonvertálási beállításait tiszteletben tartja.

          Támogatja a Delta Lake időutazást. A felülírott táblázat az előző verziókhoz tartozó delta naplókkal rendelkezik, amelyeket a Lakehouse-ban érhet el. Az előző verziótáblát a Lakehouse-ból is átmásolhatja a Másolási tevékenység forrásában megadott Verzió beállítással.

        • Upsert (előzetes verzió): Új értékek beszúrása a meglévő táblába, és a meglévő értékek frissítése. Az Upsert nem támogatott a particionált Lakehouse táblák használatakor. A partíció nem engedélyezhető, amíg a művelet ki van jelölve.

          • Kulcsoszlopok: Válassza ki, hogy melyik oszlopot használja annak megállapításához, hogy a forrásból származó sor egyezik-e a célhely sorával. Az összes céloszlopot tartalmazó legördülő lista. Kiválaszthat egy vagy több oszlopot, amely kulcsoszlopként lesz kezelve, miközben a Lakehouse-táblába ír.
      • A Speciális területen a következő mezőket adhatja meg:

        • V-Order alkalmazása: Határozza meg, hogy a másoláson keresztül alkalmazza a V-Ordert. A kikapcsolása az eredeti parquet fájlokat további V-Order optimalizálás nélkül őrzi meg. További információ: Delta Lake table optimization and V-Order.
    • Ha a Fájlok lehetőséget választja:

      • Fájl elérési útja: Válassza a Tallózás lehetőséget a másolni kívánt fájl kiválasztásához, vagy töltse ki manuálisan az elérési utat.

        Képernyőkép a fájlok elérési útról a célhelyen.

      • Fájlformátum: Válassza ki a fájlformátumot a legördülő listából. Válassza a Beállítások lehetőséget a fájlformátum konfigurálásához. A különböző fájlformátumok beállításairól részletes információt a támogatott formátumú cikkekben talál.

      • A Speciális területen a következő mezőket adhatja meg:

        • Másolási viselkedés: Meghatározza a másolási viselkedést, ha a forrás fájlalapú adattárból származó fájl. Másolási viselkedésként választhatja a hierarchia egyszerűsítését , a fájlok egyesítését , a hierarchia megőrzését , vagy dinamikus tartalom hozzáadását . Az egyes beállítások konfigurációja a következő:

          • Egybesimított hierarchia: A forrásmappából származó összes fájl a célmappa első szintjén található. A célfájlok automatikusan létrehozott névvel rendelkeznek.

          • Fájlok egyesítése: A forrásmappából származó összes fájlt egyetlen fájlba egyesíti. Ha a fájlnév meg van adva, az egyesített fájlnév a megadott név. Ellenkező esetben ez egy automatikusan létrehozott fájlnév.

          • Hierarchia megőrzése: Megőrzi a fájlhierarchiát a célmappában. A forrásfájl forrásmappához viszonyított elérési útja megegyezik a célfájlnak a célmappához viszonyított elérési útával.

          • Dinamikus tartalom hozzáadása: Egy tulajdonságérték kifejezésének megadásához válassza a Dinamikus tartalom hozzáadása lehetőséget. Ez a mező megnyitja a kifejezésszerkesztőt, ahol támogatott rendszerváltozókból, tevékenységkimenetből, függvényekből és felhasználó által megadott változókból vagy paraméterekből hozhat létre kifejezéseket. A kifejezés nyelvével kapcsolatos további információkért lépjen a Kifejezések és függvények elemre.

            Képernyőkép a másolási viselkedésről.

        • Egyidejű kapcsolatok maximális száma: Az adattárban a tevékenységfuttatás során létrehozott egyidejű kapcsolatok felső korlátja. Csak akkor adjon meg értéket, ha korlátozni szeretné az egyidejű kapcsolatokat.

        • Blokkméret (MB): Adja meg a blokk méretét MB-ban, amikor adatokat ír a Lakehouse-ba. Az engedélyezett érték 4 MB és 100 MB között van.

        • Metaadatok: Egyéni metaadatok beállítása a céladattárba való másoláskor. A tömb alatti metadata objektumok egy további oszlopot jelölnek. Ez name határozza meg a metaadatkulcs nevét, és a value kulcs adatértékét. Ha az attribútumok megőrzése funkciót használja, a megadott metaadatok egyesülnek/felülírják a forrásfájl metaadatait. Az engedélyezett adatértékek a következők:

          • $$LASTMODIFIED: egy fenntartott változó tárolja a forrásfájlok utolsó módosítási időpontját. Csak bináris formátumú fájlalapú forrásra alkalmazható.

          • Expression

          • Statikus érték

            Metaadatokat ábrázoló képernyőkép.

Mapping

A Leképezés lap konfigurációjához, ha nem alkalmazza a Lakehouse-táblát céladattárként, lépjen a Leképezés gombra.

Ha a Lakehouse-táblát alkalmazza céladattárként, kivéve a leképezési konfigurációt, szerkesztheti a céloszlopok típusát. Az Importálási sémák kiválasztása után megadhatja az oszloptípust a célhelyen.

A forrás PersonID oszlopának típusa például int, amely a céloszlopra való leképezéskor módosítható sztringtípusra.

Képernyőkép a céloszlop típusának leképezéséről.

Note

A céltípus szerkesztése jelenleg nem támogatott, ha a forrás decimális típusú.

Ha a bináris fájlt választja fájlformátumként, a leképezés nem támogatott.

Settings

A Beállítások lap konfigurációjához válassza a Beállítások lehetőséget.

Lakehouse-táblák adattípus-leképezése

A következő szakaszok az adattípus-leképezéseket ismertetik, amikor adatokat másolnak a Lakehouse-táblákból. A részletekért tekintse meg a forrás módnak megfelelő alszakaszt.

Táblázat

Ha a Lakehouse-táblákból táblázatos módban másol adatokat, a rendszer a következő leképezéseket használja a Lakehouse-tábla adattípusaiból a szolgáltatás által belsőleg használt köztes adattípusokra.

Lakehouse tábla adattípusa Köztes szolgáltatás adattípusa
karakterlánc String
long Int64
egész szám Int32
short Int16
bájt SByte
float Single
double Double
decimális Decimal
boolean logikai
bináris Bájttömb
date Date
timestamp DateTime

Ha táblázatos módban másol adatokat a Lakehouse-táblákba, a rendszer az alábbi leképezéseket használja a szolgáltatás által belsőleg a támogatott delta céladattípusokhoz használt köztes adattípusokból.

Köztes szolgáltatás adattípusa Támogatott delta céltípus
logikai boolean
SByte bájt
Byte short
Int16 short
UInt16 egész szám
Int32 egész szám
UInt32 long
Int64 long
UInt64 decimális (20,0)
Single float
Double double
GUID karakterlánc
Date date
TimeSpan Nem támogatott
DateTime timestamp
DateTimeOffset timestamp
String karakterlánc
Bájttömb bináris
Decimal decimális

T-SQL-lekérdezés

A Lakehouse-táblákból T-SQL Query módban történő adatmásoláskor a rendszer a következő leképezéseket használja a Lakehouse-tábla adattípusaiból a szolgáltatás által belsőleg használt köztes adattípusokra.

Lakehouse-tábla adattípusa T-SQL Query módban Köztes szolgáltatás adattípusa
int Int32
varchar String
bigint Int64
smallint Int16
valódi Single
float Double
decimális Decimal
bit logikai
varbinary Byte[]
date Date
datetime2 DateTime

Párhuzamos másolás Lakehouse-táblákból T-SQL Query használatával

A T-SQL Queryt használó Lakehouse-táblák összekötője másolási tevékenységben beépített adatparticionálást biztosít az adatok párhuzamos másolásához. Az adatparticionálási beállításokat a másolási tevékenység Forrás lapján találja.

Ha engedélyezi a particionált másolást, a másolási tevékenység párhuzamos lekérdezéseket futtat a Lakehouse-táblákon a T-SQL Query-forrás használatával az adatok partíciók szerinti betöltéséhez. A párhuzamos fokot a másolási tevékenység beállításai lap másolási párhuzamossági foka szabályozza. Ha például a másolási párhuzamosság fokát négyre állítja, a szolgáltatás egyszerre négy lekérdezést hoz létre és futtat a megadott partícióbeállítás és beállítások alapján, és mindegyik lekérdezés a Lakehouse-táblák egy részét kéri le a T-SQL Query használatával.

Javasoljuk, hogy engedélyezze a párhuzamos másolást adatparticionálással, különösen akkor, ha nagy mennyiségű adatot tölt be a Lakehouse-táblákból a T-SQL Query használatával. A következő javasolt konfigurációk különböző forgatókönyvekhez. Ha fájlalapú adattárba másol adatokat, ajánlott több fájlként írni egy mappába (csak a mappa nevét kell megadni), ebben az esetben a teljesítmény jobb, mint egyetlen fájlba írni.

Scenario Javasolt beállítások
Teljes betöltés nagy táblából fizikai partíciók nélkül, egész szám vagy dátum/idő oszloppal az adatparticionáláshoz. Partícióbeállítások: Dinamikus tartomány partíciója.
Partícióoszlop (nem kötelező): Adja meg az adatok particionálásához használt oszlopot. Ha nincs megadva, a rendszer az indexet vagy az elsődleges kulcs oszlopot használja.
A partíció felső határa és a partíció alsó határa (nem kötelező): Adja meg, hogy meg szeretné-e határozni a partíciós lépést. Ez nem a táblázat sorainak szűrésére, hanem a tábla összes sorának particionálása és másolása történik. Ha nincs megadva, a másolási tevékenység automatikusan észleli az értékeket, és a MIN és a MAX értékektől függően hosszú időt vehet igénybe. Javasoljuk, hogy felső és alsó határt adjon meg.

Ha például az "ID" partícióoszlop értéke 1 és 100 között van, és az alsó határt 20-ra, a felső határt pedig 80-ra állítja be, a párhuzamos másolás 4 részre van osztva, a szolgáltatás 4 partícióban kéri le az adatokat – azonosítókat a <= 20, [21, 50], [51, 80] és >= 81 tartományokban.
Nagy mennyiségű adat betöltése egyéni lekérdezéssel, fizikai partíciók nélkül, az adatparticionáláshoz pedig oszlopként egész számot vagy dátumot/dátum/időt használva. Partícióbeállítások: Dinamikus tartomány partíciója.
Lekérdezés: SELECT * FROM <TableName> WHERE ?DfDynamicRangePartitionCondition AND <your_additional_where_clause>.
Partícióoszlop: Adja meg az adatok particionálásához használt oszlopot.
A partíció felső határa és a partíció alsó határa (nem kötelező): Adja meg, hogy meg szeretné-e határozni a partíciós lépést. Ez nem a tábla sorainak szűrésére használható, a lekérdezés eredményének összes sora particionálásra és másolásra kerül. Ha nincs megadva, a másolási tevékenység automatikusan észleli az értéket.

Ha például az "ID" partícióoszlop értékei 1 és 100 között vannak, és az alsó kötést 20-ra, a felső kötést pedig 80-ra állítja be, a párhuzamos másolás esetén 4, a szolgáltatás 4 partíció szerint kéri le az adatokat: <=20, [21, 50], [51, 80] és >=81 tartományban.

Az alábbiakban további minta lekérdezéseket talál a különböző forgatókönyvekhez:
• A teljes tábla lekérdezése:
SELECT * FROM <TableName> WHERE ?DfDynamicRangePartitionCondition
• Lekérdezés oszlopkijelöléssel és további where-clause szűrőkkel rendelkező táblából:
SELECT <column_list> FROM <TableName> WHERE ?DfDynamicRangePartitionCondition AND <your_additional_where_clause>
• Lekérdezés részlekérdezésekkel:
SELECT <column_list> FROM (<your_sub_query>) AS T WHERE ?DfDynamicRangePartitionCondition AND <your_additional_where_clause>
• Lekérdezés partícióval az al-lekérdezésben:
SELECT <column_list> FROM (SELECT <your_sub_query_column_list> FROM <TableName> WHERE ?DfDynamicRangePartitionCondition) AS T

Delta Lake-tábla támogatása

Az alábbi szakaszokban részletes információkat talál a Delta Lake-tábla támogatásáról mind a forrás, mind a cél tekintetében.

Source

Delta-oszlop-leképezés támogatott, amikor a 2. vagy 3. olvasóverziót alkalmazza columnMappingreaderFeatures a Lakehouse-táblájában.

A Delta-tábla oszlopleképezési képessége rugalmasabb sémafejlődést tesz lehetővé, biztosítva, hogy a táblaszerkezet változásai ne zavarják meg az adat-munkafolyamatokat. Az oszlopleképezéssel adatokat olvashat egy meglévő Delta Lake-táblából, ha delta.columnMapping.mode értékre van állítva: name vagy id.

Törlési vektorok akkor támogatottak, ha a 3. olvasóverziót deletionVectors a Lakehouse-táblában readerFeatures alkalmazza. A logikailag törölt sorok törlési vektorfájlokban vannak megjelölve, és kihagyásra kerülnek a Delta Lake tábla olvasása során.

A változás adatfolyam támogatott.

Destination

A Delta oszlop-leképezés támogatott. Ez a funkció rugalmasabb sémafejlődést tesz lehetővé, biztosítva, hogy a táblaszerkezet változásai ne zavarják meg az adat-munkafolyamatokat. Az oszlopleképezéssel a következőt teheti:

  • Adatok írása egy meglévő Delta Lake-táblába, a delta.columnMapping.mode és name beállításainak alkalmazásával.
  • Automatikusan hozzon létre egy táblázatot úgy, hogy delta.columnMapping.mode értékét name-re állítja, ha a céltábla nem létezik, és a forrásoszlopok speciális karaktereket és szóközöket tartalmaznak.
  • Automatikusan hozzon létre egy táblázatot, amelyben delta.columnMapping.modename-re van állítva, amikor a táblaművelet felülírás és a forrásadatkészlet oszlopai speciális karaktereket és szóközöket tartalmaznak.

A törlési vektorok támogatottak .

A változás adatfolyam támogatott.

Táblázat összefoglalása

Az alábbi táblázatok további információkat tartalmaznak a Lakehouse-beli másolási tevékenységről.

Forrásadatok

Name Description Value Required JSON-szkripttulajdonság
Connection A kapcsolat kiválasztásának szakasza. < az Ön Lakehouse-kapcsolata> Yes workspaceId
cikkszám
Gyökérmappa A gyökérmappa típusa. Táblázatok
Fájlok
No rootFolder:
Táblák vagy fájlok
A lekérdezés használata Az adatok beolvasásának módja a Lakehouse-ból. Tábla alkalmazása a megadott táblából származó adatok beolvasására, vagy T-SQL-lekérdezés alkalmazása az adatok lekérdezéssel történő olvasására. tábla
T-SQL-lekérdezés
Yes /
Table Annak a táblának a neve, amelyből adatokat szeretne olvasni, vagy annak a táblának a neve, amely sémával rendelkezik, amelyből adatokat szeretne olvasni, amikor a Lakehouse-t sémákkal alkalmazza kapcsolatként. <az Ön táblájának neve> Igen, amikor a Táblák lehetőséget választja a Gyökérmappában tábla
séma neve A séma neve. sémanév <> No séma
tábla neve A tábla neve. az ön táblaneve <> No tábla
T-SQL-lekérdezés Adatok olvasása az egyéni lekérdezés használatával. Például: SELECT * FROM MyTable. < lekérdezés > No sqlReaderQuery
Timestamp Egy régebbi pillanatkép lekérdezésének időbélyege. <Időbélyeg> No timestampAsOf
Version A régebbi pillanatkép lekérdezésére szolgáló verzió. <verzió> No versionAsOf
lekérdezés időtúllépése (perc) A lekérdezési parancs végrehajtásának időtúllépése alapértelmezés szerint 120 perc. időtartam No queryTimeout
Partíció beállítás Az adatok Lakehouse-tábla lekérdezési módból való betöltéséhez használt adatparticionálási beállítások. •Egyik sem
• Dinamikus tartomány
No partitionOption
partícióoszlop neve A forrásoszlop neve egész számtípusban , amelyet a párhuzamos másolás tartományparticionálása használ. Ha nincs megadva, a rendszer automatikusan észleli a tábla elsődleges kulcsát, és partícióoszlopként használja. <partícióoszlop neve> No partícióoszlopNév
Partíció felső határa A partíciós tartományok felosztásához használt partícióoszlop legnagyobb értéke. Ez az érték a partíciós léptetés meghatározására szolgál, nem pedig a tábla sorainak szűrésére. A tábla vagy lekérdezés eredményének összes sora particionálásra és másolásra kerül. <partíció felső határa> No partíció felső határa
Partíció alsó határ A partíciótartomány-felosztáshoz használt partícióoszlop minimális értéke. Ez az érték a partíciós léptetés meghatározására szolgál, nem pedig a tábla sorainak szűrésére. A tábla vagy lekérdezés eredményének összes sora particionálásra és másolásra kerül. <partíció alsó határa> No partíció alsó határértéke
További oszlopok További adatoszlopok a forrásfájlok relatív elérési útjának vagy statikus értékének tárolásához. A kifejezés az utóbbi esetében támogatott. •Név
•Érték
No additionalColumns:
• név
•érték
Fájl elérési útja A használt fájl elérési út típusát. Fájl elérési útja
Wildcard fájlelőérési útja
Fájlok listája
Igen, amikor a Gyökérmappában lévő Fájlok lehetőséget választja /
Elérési út Másolja az elérési útból a forrásadattárban lévő mappába/fájlba. <fájl elérési útja> Igen, amikor a Fájl elérési útját választja • folderPath
•fájlnév
Helyettesítő karakteres elérési útvonalak A forrásadattárban helyettesítő karaktereket tartalmazó mappa elérési útja, amely a forrásmappák szűrésére van konfigurálva. <előtag elérési útjai> Igen, amikor helyettesítő karakterfájl elérési útját választja • helyettesítő karakterFolderPath
• helyettesítő karakterFileName
Mappa elérési útja Egy másolni kívánt fájlokat tartalmazó mappára mutat. <mappa elérési útja> No folderPath
Fájllista elérési útja Egy adott fájlkészlet másolását jelzi. Mutasson egy szövegfájlra, amely tartalmazza a másolni kívánt fájlok listáját, egy fájl soronként, amelyek a konfigurált elérési út relatív elérési útvonalai. <elérési út a fájllistához> No fileListPath
Recursively A bemeneti mappa és almappáinak összes fájljának rekurzív feldolgozása, vagy csak a kijelölt mappában lévő fájlok feldolgozása. Ez a beállítás egyetlen fájl kijelölésekor le van tiltva. kijelölés vagy a kijelölés megszüntetése No recursive:
igaz vagy hamis
fájlformátum A forrásadatok fájlformátuma. A különböző fájlformátumokról további információt a támogatott formátumú cikkekben talál. / Igen, amikor a Gyökérmappában lévő Fájlok lehetőséget választja /
Szűrés utoljára módosítva Azok a fájlok, amelyeket a [Kezdési időpont, Befejezési idő) tartományban módosítottak, szűrésre kerülnek a további feldolgozás céljából.

Az idő az UTC időzónára lesz alkalmazva a következő formátumban yyyy-mm-ddThh:mm:ss.fffZ: .

Ez a tulajdonság kihagyható, ami azt jelenti, hogy a rendszer nem alkalmaz fájlattribútum-szűrőt. Ez a tulajdonság nem érvényes, ha a fájl elérési útját fájllistaként konfigurálja.
Kezdési idő
Befejezési idő
No modifiedDatetimeStart
modifiedDatetimeEnd
Partíciófelderítés engedélyezése Elemezni szeretné-e a partíciókat a fájl elérési útjáról, és hozzáadja-e őket további forrásoszlopokként. Kijelölve vagy nincs kijelölve No enablePartitionDiscovery:
igaz vagy hamis (alapértelmezett)
Partíció gyökérútvonala A particionált mappák adat-oszlopként történő olvasásához használható abszolút partíciógyökér elérési útja. <a partíció gyökérútvonala> No partitionRootPath
Egyidejű kapcsolatok maximális kihasználása Az adattárhoz a tevékenység futtatása során létrehozott egyidejű kapcsolatok felső korlátja. Csak akkor van szükség értékre, ha korlátozni szeretné az egyidejű kapcsolatokat. <egyidejű kapcsolatok maximális kihasználása> No maxConcurrentConnections

Céladatok

Name Description Value Required JSON-szkripttulajdonság
Connection A kapcsolat kiválasztásának szakasza. < az Ön Lakehouse-kapcsolata> Yes workspaceId
cikkszám
Gyökérmappa A gyökérmappa típusa. Táblázatok
Fájlok
Yes rootFolder:
Tábla vagy fájlok
Table Annak a táblának a neve, amelybe adatokat szeretne írni. Vagy annak a táblának a neve, amely olyan sémával rendelkezik, amelybe adatokat szeretne írni, amikor a Lakehouse-t sémákkal alkalmazza kapcsolatként. <az Ön táblájának neve> Igen, amikor a Táblák lehetőséget választja a Gyökérmappában tábla
séma neve A séma neve. <a séma neve>
(az alapértelmezett a dbo)
No séma
tábla neve A tábla neve. <az Ön táblájának neve> Yes tábla
Táblázatművelet Új értékek hozzáfűzése egy meglévő táblához, felülírja a tábla meglévő adatait és sémáját az új értékekkel, vagy új értékeket szúr be a meglévő táblába, és frissíti a meglévő értékeket. Hozzáfűzés
Felülírás
Upsert
No tableActionOption:
• Hozzáfűz
• OverwriteSchema
• Upsert (beillesztés és frissítés)
V-order alkalmazása V-Order alkalmazása másolással. A kikapcsolása az eredeti parquet fájlokat további V-Order optimalizálás nélkül őrzi meg. További információ: Delta Lake table optimization and V-Order. Ki van jelölve (alapértelmezett) vagy nincs kijelölve No applyVOrder
Partíciók engedélyezése Ezzel a kijelöléssel partíciókat hozhat létre egy mappastruktúrában egy vagy több oszlop alapján. Minden különálló oszlopérték (pár) egy új partíció. Például: "év=2000/hónap=01/fájl". Kijelölve vagy nincs kijelölve No partitionOption:
PartitionByKey vagy None
Partícióoszlopok A sémaleképezés céloszlopai. <a partícióoszlopaid> No partitionNameList
Kulcsoszlopok Válassza ki, hogy melyik oszlop alapján állapítsa meg, hogy a forrásból származó sor egyezik-e a célhely egyik sorával. <kulcsoszlopai> Yes keyColumns
Elérési út Adatok írása egy mappa/fájl elérési útjára a céladattár alatt. <fájl elérési útja> No • folderPath
•fájlnév
fájlformátum A céladatok fájlformátuma. A különböző fájlformátumokról további információt a támogatott formátumú cikkekben talál. / Igen, amikor a Gyökérmappában lévő Fájlok lehetőséget választja /
Másolási viselkedés A másolási viselkedés akkor van meghatározva, ha a forrás fájlalapú adattárból származó fájlok. Egybesimított hierarchia
Fájlok egyesítése
A hierarchia megőrzése
Dinamikus tartalom hozzáadása
No copyBehavior:
• FlattenHierarchy
• MergeFiles
• Hierarchia megőrzése
Egyidejű kapcsolatok maximális kihasználása Az adattárhoz a tevékenység futtatása során létrehozott egyidejű kapcsolatok felső korlátja. Csak akkor adjon meg értéket, ha korlátozni szeretné az egyidejű kapcsolatokat. <egyidejű kapcsolatok maximális kihasználása> No maxConcurrentConnections
Blokkméret (MB) Az adatok Lakehouse-ba való írásához használt blokkméret MB-ban. Az engedélyezett érték 4 MB és 100 MB között van. <blokkméret> No blockSizeInMB
Metadata A célhelyre másoláskor beállított egyéni metaadatok. $$LASTMODIFIED
•Kifejezés
• Statikus érték
No metaadat