Zdieľať cez


Konfigurácia služby Lakehouse v kopírovanej aktivite

Tento článok popisuje, ako používať kopírovanú aktivitu v kanáli údajov na kopírovanie údajov z a do služby Fabric Lakehouse. Predvolene sa údaje zapisujú do tabuľky Lakehouse v režime V-Order a môžete prejsť na optimalizáciu tabuľky Delta Lake a poradie V, kde nájdete ďalšie informácie.

Podporovaný formát

Lakehouse podporuje nasledujúce formáty súborov. V každom článku nájdete informácie o nastaveniach založených na formáte.

Podporovaná konfigurácia

Ak chcete nastaviť každú kartu v časti Aktivita kopírovania, prejdite do nasledujúcich sekcií.

Všeobecné

Ak chcete získať konfiguráciu karty Všeobecné , prejdite na položku Všeobecné.

Source

Pre Lakehouse na karte Zdroj kopírovanej aktivity sú podporované nasledujúce vlastnosti.

Snímka obrazovky znázorňujúca kartu zdroj a zoznam vlastností.

Vyžadujú sa nasledujúce vlastnosti:

  • Pripojenie: Zo zoznamu pripojení vyberte pripojenie Lakehouse. Ak pripojenie neexistuje, vytvorte nové pripojenie Lakehouse výberom položky Viac v dolnej časti zoznamu pripojení. Ak použijete položku Použiť dynamický obsah na zadanie svojej služby Lakehouse, pridajte parameter a ako hodnotu parametra zadajte ID objektu Lakehouse. Ak chcete získať ID objektu Lakehouse, otvorte svoju službu Lakehouse vo svojom pracovnom priestore a id nasleduje za /lakehouses/vašou URL adresou.

    Snímka obrazovky zobrazujúca ID objektu Lakehouse.

  • Koreňový priečinok: vyberte tabuľky alebo súbory, čo označuje virtuálne zobrazenie spravovanej alebo nespravovaných oblastí vo vašom jazere. Ďalšie informácie nájdete v úvode k Lakehouse.

    • Ak vyberiete položku Tabuľky:

      • Názov tabuľky: Vyberte existujúcu tabuľku zo zoznamu tabuľky alebo zadajte názov tabuľky ako zdroj. Alebo môžete vybrať položku Nové a vytvoriť novú tabuľku.

        Snímka obrazovky zobrazujúca názov tabuľky.

      • Tabuľka: Keď v pripojení použijete lakehouse so schémami, vyberte existujúcu tabuľku so schémou zo zoznamu tabuľky alebo zadajte tabuľku so schémou ako zdroj. Alebo môžete vybrať položku Nové a vytvoriť novú tabuľku so schémou. Ak nezadáte názov schémy, služba použije ako predvolenú schému dbo .

        Snímka obrazovky znázorňujúca názov tabuľky so schémou.

      • V časti Rozšírené môžete zadať nasledujúce polia:

        • Časová pečiatka: zadajte dotaz na staršiu snímku podľa časovej pečiatky.
        • Verzia: Zadajte dotaz na staršiu snímku podľa verzie.
        • Ďalšie stĺpce: Pridajte ďalšie stĺpce údajov do relatívnej alebo statickej hodnoty zdrojových súborov ukladacieho priestoru. Pre druhý sa podporuje výraz.

      Čítačka verzie 1 je podporovaná. Zodpovedajúce podporované funkcie pre Delta Lake nájdete v tomto článku.

    • Ak vyberiete položku Súbory:

      • Typ cesty k súboru: Ako typ cesty k súboru môžete vybrať cestu k súboru, cestu k súboru zástupného súboru alebo Zoznam súborov . Nasledujúci zoznam popisuje konfiguráciu každého nastavenia:

        Snímka obrazovky zobrazujúca cestu k súboru.

        • Cesta k súboru: Výberom položky Prehľadávať vyberte súbor, ktorý chcete skopírovať, alebo cestu vyplňte manuálne.

        • Cesta k súboru so zástupným znakom: Zadajte cestu k priečinku alebo súboru so zástupnými znakmi v danej nespravované oblasti Lakehouse (v časti Súbory) na filtrovanie zdrojových priečinkov alebo súborov. Povolené zástupné znaky sú: * (zodpovedá nule alebo viacerým znakom) a ? (zodpovedá nule alebo jednému znaku). Ak sa v názve priečinka alebo súboru nachádza zástupný znak alebo tento escape znak, použite na ^ útek.

          • Cesta k zástupnému priečinku: Cesta k priečinku v danom kontajneri. Ak chcete na filtrovanie priečinka použiť zástupný znak, vynechajte toto nastavenie a zadajte tieto informácie v nastaveniach zdroja aktivity.

          • Názov zástupného súboru: Názov súboru v rámci danej nespravované oblasti Lakehouse (v časti Súbory) a cesty k priečinku.

            Snímka obrazovky znázorňujúca cestu k zástupnému súboru.

        • Zoznam súborov: Označuje skopírovanie danej množiny súborov.

          • Cesta k priečinku: Odkazuje na priečinok obsahujúci súbory, ktoré chcete skopírovať.
          • Cesta k zoznamu súborov: Odkazuje na textový súbor obsahujúci zoznam súborov, ktoré chcete skopírovať, jeden súbor na riadok, čo je relatívna cesta k nakonfigurovanej ceste k súboru.

          Snímka obrazovky znázorňujúca cestu k zoznamu súborov.

      • Rekurzívne: Udáva, či sa údaje čítajú rekurzívne z podpriečinkov alebo iba zo zadaného priečinka. Ak je táto možnosť povolená, všetky súbory vo vstupnom priečinku a jeho podpriečinkoch sa spracujú rekurzívne. Táto vlastnosť sa nevzťahuje na konfiguráciu typu cesty k súboru ako zoznamu súborov.

      • Formát súboru: Vyberte formát súboru z rozbaľovacieho zoznamu. Vyberte tlačidlo Nastavenia a nakonfigurujte formát súboru. Ak chcete získať nastavenia rôznych formátov súborov, podrobné informácie nájdete v článkoch v časti Podporované formáty .

      • V časti Rozšírené môžete zadať nasledujúce polia:

        • Filtrovať podľa poslednej úpravy: Súbory sa filtrujú na základe dátumov poslednej úpravy. Táto vlastnosť sa nevzťahuje na konfiguráciu typu cesty k súboru ako zoznamu súborov.
          • Čas spustenia: Súbory sa vyberú, ak je ich čas poslednej úpravy väčší alebo rovnaký ako nakonfigurovaný čas.
          • Čas ukončenia: Súbory sa vyberú, ak je ich čas poslednej úpravy kratší ako nakonfigurovaný čas.
        • Povoliť zisťovanie oblasti: V prípade súborov, ktoré sú rozdeľované, zadajte, či sa majú analyzovať oblasti z cesty k súboru a pridať ich ako nadbytočné zdrojové stĺpce.
          • Koreňová cesta oblasti: Keď je povolené zisťovanie oblasti, zadajte absolútnu koreňovú cestu, aby ste mohli čítať zdieľané priečinky ako stĺpce údajov.
        • Maximálny počet súbežných pripojení: označuje hornú hranicu súbežných pripojení vytvorených do ukladacieho priestoru údajov počas spustenia aktivity. Zadajte hodnotu iba vtedy, keď chcete obmedziť súbežné pripojenia.

Cieľ

Pre Lakehouse na karte Cieľ kopírovanej aktivity sú podporované nasledujúce vlastnosti.

Snímka obrazovky zobrazujúca cieľovú kartu.

Vyžadujú sa nasledujúce vlastnosti:

  • Pripojenie: Zo zoznamu pripojení vyberte pripojenie Lakehouse. Ak pripojenie neexistuje, vytvorte nové pripojenie Lakehouse výberom položky Viac v dolnej časti zoznamu pripojení. Ak použijete položku Použiť dynamický obsah na zadanie svojej služby Lakehouse, pridajte parameter a ako hodnotu parametra zadajte ID objektu Lakehouse. Ak chcete získať ID objektu Lakehouse, otvorte svoju službu Lakehouse vo svojom pracovnom priestore a id nasleduje za /lakehouses/vašou URL adresou.

    Snímka obrazovky zobrazujúca ID objektu Lakehouse.

  • Koreňový priečinok: vyberte tabuľky alebo súbory, čo označuje virtuálne zobrazenie spravovanej alebo nespravovaných oblastí vo vašom jazere. Ďalšie informácie nájdete v úvode k Lakehouse.

    • Ak vyberiete položku Tabuľky:

      • Názov tabuľky: Vyberte existujúcu tabuľku zo zoznamu tabuľky alebo zadajte názov tabuľky ako cieľ. Alebo môžete vybrať položku Nové a vytvoriť novú tabuľku.

        Snímka obrazovky zobrazujúca názov tabuľky.

      • Tabuľka: Keď v pripojení použijete lakehouse so schémami, vyberte existujúcu tabuľku so schémou zo zoznamu tabuliek alebo zadajte tabuľku so schémou ako cieľ. Alebo môžete vybrať položku Nové a vytvoriť novú tabuľku so schémou. Ak nezadáte názov schémy, služba použije ako predvolenú schému dbo .

        Snímka obrazovky znázorňujúca názov tabuľky so schémou.

      • V časti Rozšírené môžete zadať nasledujúce polia:

        • Akcie tabuľky: Zadajte operáciu vo vybratej tabuľke.

          • Pripojenie: Pripojte nové hodnoty do existujúcej tabuľky.

            • Povoliť oblasť: tento výber umožňuje vytvoriť oblasti v štruktúre priečinkov na základe jedného alebo viacerých stĺpcov. Každá jedinečná hodnota stĺpca (pár) je nová oblasť. Napríklad"year=2000/month=01/file".
              • Názov stĺpca oblasti: Keď pripojíte údaje do novej tabuľky, vyberte z cieľových stĺpcov v priradení schém. Keď pripojíte údaje do existujúcej tabuľky, ktorá už má oblasti, stĺpce oblastí sa automaticky odvodzujú z existujúcej tabuľky. Podporované typy údajov sú reťazec, celé číslo, booleovská hodnota a dátum a čas. Formát rešpektuje nastavenia konverzie typu na karte Mapovanie .
          • Prepísať: Prepíšte existujúce údaje a schému v tabuľke pomocou nových hodnôt. Ak je vybratá táto operácia, môžete povoliť oblasť v cieľovej tabuľke:

            • Povoliť oblasť: tento výber umožňuje vytvoriť oblasti v štruktúre priečinkov na základe jedného alebo viacerých stĺpcov. Každá jedinečná hodnota stĺpca (pár) je nová oblasť. Napríklad"year=2000/month=01/file".
              • Názov stĺpca oblasti: Vyberte z cieľových stĺpcov v priradení schém. Podporované typy údajov sú reťazec, celé číslo, booleovská hodnota a dátum a čas. Formát rešpektuje nastavenia konverzie typu na karte Mapovanie .

            Podporuje cestovanie v čase do Delta Lake. Prepísaná tabuľka má denníky delta pre predchádzajúce verzie, ku ktorým máte prístup v službe Lakehouse. Tabuľku predchádzajúcej verzie môžete tiež skopírovať z lakehouse tak, že do zdroja aktivity kopírovania zadáte Verziu .

        • Maximálny počet súbežných pripojení: Horná hranica súbežných pripojení vytvorených do ukladacieho priestoru údajov počas spustenia aktivity. Zadajte hodnotu iba vtedy, keď chcete obmedziť súbežné pripojenia.

      Je podporovaná verzia 2 pre autora. Zodpovedajúce podporované funkcie pre Delta Lake nájdete v tomto článku.

    • Ak vyberiete položku Súbory:

      • Cesta k súboru: Výberom položky Prehľadávať vyberte súbor, ktorý chcete skopírovať, alebo cestu vyplňte manuálne.

        Snímka obrazovky zobrazujúca cestu k súborom v cieli.

      • Formát súboru: Vyberte formát súboru z rozbaľovacieho zoznamu. Vyberte položku Nastavenia a nakonfigurujte formát súboru. Ak chcete získať nastavenia rôznych formátov súborov, podrobné informácie nájdete v článkoch v časti Podporované formáty .

      • V časti Rozšírené môžete zadať nasledujúce polia:

        • Správanie kopírovania: Definuje správanie pri kopírovaní, keď je zdrojom súbory z úložiska údajov založeného na súbore. Ako správanie pri kopírovaní môžete vybrať možnosť Zlúčiť hierarchiu, Zlúčiť súbory, Zachovať hierarchiu alebo Pridať dynamický obsah . Konfigurácia každého nastavenia je:

          • Hierarchia zjednodušenia štruktúry: Všetky súbory zo zdrojového priečinka sa nachádzajú v prvej úrovni cieľového priečinka. Cieľové súbory majú automaticky generované názvy.

          • Zlúčenie súborov: Zlúči všetky súbory zo zdrojového priečinka do jedného súboru. Ak je zadaný názov súboru, zlúčený názov súboru je zadaný názov. V opačnom prípade ide o automaticky vygenerovaný názov súboru.

          • Zachovanie hierarchie: Zachová hierarchiu súborov v cieľovom priečinku. Relatívna cesta zdrojového súboru k zdrojového priečinka je identická s relatívnou cestou cieľového súboru k cieľového priečinku.

          • Pridanie dynamického obsahu: Ak chcete zadať výraz pre hodnotu vlastnosti, vyberte položku Pridať dynamický obsah. Toto pole otvorí zostavovač výrazov, kde môžete vytvárať výrazy z podporovaných systémových premenných, výstup aktivity, funkcie a premenné alebo parametre zadané používateľom. Ďalšie informácie o jazyku výrazov nájdete v téme Výrazy a funkcie.

            Snímka obrazovky znázorňujúca správanie pri kopírovaní.

        • Maximálny počet súbežných pripojení: Horná hranica súbežných pripojení vytvorených do ukladacieho priestoru údajov počas spustenia aktivity. Zadajte hodnotu iba vtedy, keď chcete obmedziť súbežné pripojenia.

        • Veľkosť bloku (MB): zadajte veľkosť bloku v MB pri písaní údajov do služby Lakehouse. Povolená hodnota je v rozsahu od 4 MB do 100 MB.

        • Metaúdaje: Nastavte vlastné metaúdaje pri kopírovaní do cieľového úložiska údajov. Každý objekt pod poľom metadata predstavuje ďalší stĺpec. Položka name definuje názov kľúča metaúdajov a value označuje hodnotu údajov daného kľúča. Ak sa použije funkcia zachovať atribúty, zadané metaúdaje sa spoja alebo prepíšu metaúdajmi zdrojového súboru. Povolené hodnoty údajov sú:

          • $$LASTMODIFIED: vyhradená premenná označuje, že sa má uložiť čas poslednej úpravy zdrojových súborov. Použiť na zdroj založený na súbore iba v binárnom formáte.

          • Expression

          • Statická hodnota

            Snímka obrazovky zobrazujúca metaúdaje.

Mapovanie

Ak pre konfiguráciu karty Mapovanie nepoužijete tabuľku Lakehouse ako cieľový ukladací priestor údajov, prejdite na položku Mapovanie.

Ak použijete tabuľku Lakehouse ako cieľový ukladací priestor údajov, s výnimkou konfigurácie v časti Mapovanie, môžete upraviť typ pre cieľové stĺpce. Po výbere možnosti Importovať schémy môžete zadať typ stĺpca vo svojom cieli.

Napríklad typ stĺpca PersonID v zdroji je int a môžete ho zmeniť na typ reťazca pri mapovaní na cieľový stĺpec.

Snímka obrazovky znázorňujúca typ cieľového stĺpca priradenia.

Poznámka

Úprava typu cieľa v súčasnosti nie je podporovaná, ak je váš zdroj typ desatinného miesta.

Ak ako formát súboru vyberiete binárny údaj, mapovanie nie je podporované.

Nastavenia

Ak chcete získať konfiguráciu karty Nastavenia , prejdite do časti Nastavenia.

Súhrn tabuľky

Nasledujúce tabuľky obsahujú ďalšie informácie o aktivite kopírovania v službe Lakehouse.

Zdrojové informácie

Názov Popis Value Požaduje sa Vlastnosť skriptu JSON
Pripojenie Sekcia na výber pripojenia. < váš lakehouse pripojenie> Áno workspaceId
artifactId
Koreňový priečinok Typ koreňového priečinka. Tabuľky
Súbory
No rootFolder:
Tabuľka alebo Súbory
Názov tabuľky Názov tabuľky, ktorú chcete čítať údaje. <názov tabuľky> Áno, keď vyberiete tabuľku v koreňovom priečinku table
Table Názov tabuľky so schémou, ktorú chcete prečítať, keď použijete lakehouse so schémami ako pripojením. <tabuľka so schémou> Áno, keď vyberiete tabuľku v koreňovom priečinku /
Pre tabuľku
názov schémy Názov schémy. <názov schémy>
(predvolená hodnota je dbo)
No (v časti source –>datasetSettings ->typeProperties)
schéma
názov tabuľky Názov tabuľky. <názov tabuľky> Áno table
Timestamp Časová pečiatka na dotazovanie staršej snímky. <timestamp> No timestampAsOf
Verzia Verzia na dotazovanie staršej snímky. <verzia> No versionAsOf
Ďalšie stĺpce Ďalšie stĺpce údajov na ukladanie relatívnej cesty alebo statickej hodnoty zdrojových súborov. Pre druhý sa podporuje výraz. •Meno
•Hodnota
No additionalColumns:
•meno
•hodnota
Typ cesty k súboru Typ cesty k súboru, ktorú používate. Cesta k súboru
Cesta k zástupnému súboru
Zoznam súborov
Áno, keď vyberiete položku Súbory v koreňovom priečinku. /
Cesta k súboru Skopírujte z cesty do priečinka alebo súboru v zdrojovom úložisku údajov. <cesta k súboru> Áno pri výbere možnosti Cesta k súboru • folderPath
•Názov_súboru
Zástupné cesty Cesta k priečinku so zástupnými znakmi v zdrojovom úložisku údajov nakonfigurovaná na filtrovanie zdrojových priečinkov. <zástupné cesty> Áno pri výbere cesty k súboru zástupných znakov • zástupný ZnakPriečinokPath
• zástupný NázovSúboru
Cesta k priečinku Odkazuje na priečinok obsahujúci súbory, ktoré chcete skopírovať. <cesta k priečinku> No folderPath
Cesta k zoznamu súborov Označuje skopírovanie danej množiny súborov. Ukážte na textový súbor obsahujúci zoznam súborov, ktoré chcete skopírovať, jeden súbor na riadok, čo je relatívna cesta k nakonfigurovanej ceste. <cesta k zoznamu súborov> No fileListPath
Rekurzívne Spracovať všetky súbory vo vstupnom priečinku a jeho podpriečinkoch rekurzívne alebo len tie vo vybratom priečinku. Toto nastavenie je neaktívne, keď je vybratý jeden súbor. vybrať alebo zrušiť výber No rekurzívny:
true alebo false
Formát súboru Formát súboru pre zdrojové údaje. Informácie o rôznych formátoch súborov nájdete v článkoch v časti Podporované formáty , kde nájdete podrobné informácie. / Áno, keď vyberiete položku Súbory v koreňovom priečinku. /
Filtrovanie podľa poslednej úpravy Súbory s časom poslednej úpravy v rozsahu [Čas začatia, Čas ukončenia) sa vyfiltrujú na ďalšie spracovanie.

Čas sa použije na časové pásmo UTC vo formáte yyyy-mm-ddThh:mm:ss.fffZ.

Túto vlastnosť možno vynechať, čo znamená, že sa nepoužije žiadny filter atribútu súboru. Táto vlastnosť sa nevzťahuje na konfiguráciu typu cesty k súboru ako zoznamu súborov.
Čas spustenia
Čas skončenia
No modifiedDatetimeStart
modifiedDatetimeEnd
Povolenie zisťovania oblasti Určuje, či sa majú analyzovať oblasti z cesty k súboru a pridať ich ako ďalšie zdrojové stĺpce. Vybraté alebo nevybrané No enablePartitionDiscovery:
true alebo false (predvolené)
Koreňová cesta k oblasti Absolútna koreňová cesta oblasti na čítanie rozdelených priečinkov ako stĺpce údajov. <vaša koreňová cesta oblasti> No partitionRootPath
Maximálny počet súbežných pripojení Horná hranica súbežných pripojení vytvorených do ukladacieho priestoru údajov počas spustenia aktivity. Hodnota je potrebná len vtedy, ak chcete obmedziť súbežné pripojenia. <maximálny počet súbežných pripojení> No maxConcurrentConnections

Informácie o cieli

Názov Popis Value Požaduje sa Vlastnosť skriptu JSON
Pripojenie Sekcia na výber pripojenia. < váš lakehouse pripojenie> Áno workspaceId
artifactId
Koreňový priečinok Typ koreňového priečinka. Tabuľky
Súbory
Áno rootFolder:
Tabuľka alebo Súbory
Názov tabuľky Názov tabuľky, do ktorú chcete zapisovať údaje. <názov tabuľky> Áno, keď vyberiete tabuľku v koreňovom priečinku table
Table Názov tabuľky so schémou, do ktorou chcete zapisovať údaje, keď použijete lakehouse so schémou ako pripojením. <tabuľka so schémou> Áno, keď vyberiete tabuľku v koreňovom priečinku /
Pre tabuľku
názov schémy Názov schémy. <názov schémy>
(predvolená hodnota je dbo)
No (v časti sink –>datasetSettings ->typeProperties)
schéma
názov tabuľky Názov tabuľky. <názov tabuľky> Áno table
Akcia tabuľky Pripojte nové hodnoty do existujúcej tabuľky alebo prepíšte existujúce údaje a schému v tabuľke pomocou nových hodnôt. Pripojiť
Prepísať
No tableActionMožnosť:
Pripojiť alebo Prepísať Schému
Povolenie oblastí Tento výber vám umožňuje vytvoriť oblasti v štruktúre priečinkov na základe jedného alebo viacerých stĺpcov. Každá jedinečná hodnota stĺpca (pár) je nová oblasť. Napríklad"year=2000/month=01/file". Vybraté alebo nevybrané No partition (oblasť)Možnosť:
PartitionByKey alebo None
Stĺpce oblastí Cieľové stĺpce v priradení schém. <stĺpce oblasti> No partitionNameList
Cesta k súboru Zapisovať údaje do cesty k priečinku alebo súboru v cieľovom úložisku údajov. <cesta k súboru> No • folderPath
•Názov_súboru
Formát súboru Formát súboru pre cieľové údaje. Informácie o rôznych formátoch súborov nájdete v článkoch v časti Podporované formáty , kde nájdete podrobné informácie. / Áno, keď vyberiete položku Súbory v koreňovom priečinku. /
Správanie kopírovania Správanie kopírovania definované, keď je zdrojom súbory z úložiska údajov na základe súborov. Hierarchia zjednodušenia ovládania
Zlúčenie súborov
Zachovanie hierarchie
Pridať dynamický obsah
No copyBehavior:
• FlattenHierarchy
• MergeFiles
• PreserveHierarchy
Maximálny počet súbežných pripojení Horná hranica súbežných pripojení vytvorených do ukladacieho priestoru údajov počas spustenia aktivity. Zadajte hodnotu iba vtedy, keď chcete obmedziť súbežné pripojenia. <maximálny počet súbežných pripojení> No maxConcurrentConnections
Veľkosť bloku (MB) Veľkosť bloku v MB používaná na zápis údajov do Lakehouse. Povolená hodnota je v rozsahu od 4 MB do 100 MB. <veľkosť bloku> No blockSizeInMB
Metaúdaje Vlastná množina metaúdajov pri kopírovaní do cieľa. $$LASTMODIFIED
•Výraz
• Statická hodnota
No metaúdajov