Konfigurácia služby Lakehouse v kopírovanej aktivite
Tento článok popisuje, ako používať kopírovanú aktivitu v kanáli údajov na kopírovanie údajov z a do služby Fabric Lakehouse. Predvolene sa údaje zapisujú do tabuľky Lakehouse v režime V-Order a môžete prejsť na optimalizáciu tabuľky Delta Lake a poradie V, kde nájdete ďalšie informácie.
Podporovaný formát
Lakehouse podporuje nasledujúce formáty súborov. V každom článku nájdete informácie o nastaveniach založených na formáte.
- Formát Avro
- Binárny formát
- Text vo formáte s oddeľovačmi
- Formát Excelu
- Formát JSON
- Formát ORC
- Formát parketu
- Formát XML
Podporovaná konfigurácia
Ak chcete nastaviť každú kartu v časti Aktivita kopírovania, prejdite do nasledujúcich sekcií.
Všeobecné
Ak chcete získať konfiguráciu karty Všeobecné , prejdite na položku Všeobecné.
Source
Pre Lakehouse na karte Zdroj kopírovanej aktivity sú podporované nasledujúce vlastnosti.
Vyžadujú sa nasledujúce vlastnosti:
Pripojenie: Zo zoznamu pripojení vyberte pripojenie Lakehouse. Ak pripojenie neexistuje, vytvorte nové pripojenie Lakehouse výberom položky Viac v dolnej časti zoznamu pripojení. Ak použijete položku Použiť dynamický obsah na zadanie svojej služby Lakehouse, pridajte parameter a ako hodnotu parametra zadajte ID objektu Lakehouse. Ak chcete získať ID objektu Lakehouse, otvorte svoju službu Lakehouse vo svojom pracovnom priestore a id nasleduje za
/lakehouses/
vašou URL adresou.Koreňový priečinok: vyberte tabuľky alebo súbory, čo označuje virtuálne zobrazenie spravovanej alebo nespravovaných oblastí vo vašom jazere. Ďalšie informácie nájdete v úvode k Lakehouse.
Ak vyberiete položku Tabuľky:
Názov tabuľky: Vyberte existujúcu tabuľku zo zoznamu tabuľky alebo zadajte názov tabuľky ako zdroj. Alebo môžete vybrať položku Nové a vytvoriť novú tabuľku.
Tabuľka: Keď v pripojení použijete lakehouse so schémami, vyberte existujúcu tabuľku so schémou zo zoznamu tabuľky alebo zadajte tabuľku so schémou ako zdroj. Alebo môžete vybrať položku Nové a vytvoriť novú tabuľku so schémou. Ak nezadáte názov schémy, služba použije ako predvolenú schému dbo .
V časti Rozšírené môžete zadať nasledujúce polia:
- Časová pečiatka: zadajte dotaz na staršiu snímku podľa časovej pečiatky.
- Verzia: Zadajte dotaz na staršiu snímku podľa verzie.
- Ďalšie stĺpce: Pridajte ďalšie stĺpce údajov do relatívnej alebo statickej hodnoty zdrojových súborov ukladacieho priestoru. Pre druhý sa podporuje výraz.
Čítačka verzie 1 je podporovaná. Zodpovedajúce podporované funkcie pre Delta Lake nájdete v tomto článku.
Ak vyberiete položku Súbory:
Typ cesty k súboru: Ako typ cesty k súboru môžete vybrať cestu k súboru, cestu k súboru zástupného súboru alebo Zoznam súborov . Nasledujúci zoznam popisuje konfiguráciu každého nastavenia:
Cesta k súboru: Výberom položky Prehľadávať vyberte súbor, ktorý chcete skopírovať, alebo cestu vyplňte manuálne.
Cesta k súboru so zástupným znakom: Zadajte cestu k priečinku alebo súboru so zástupnými znakmi v danej nespravované oblasti Lakehouse (v časti Súbory) na filtrovanie zdrojových priečinkov alebo súborov. Povolené zástupné znaky sú:
*
(zodpovedá nule alebo viacerým znakom) a?
(zodpovedá nule alebo jednému znaku). Ak sa v názve priečinka alebo súboru nachádza zástupný znak alebo tento escape znak, použite na^
útek.Cesta k zástupnému priečinku: Cesta k priečinku v danom kontajneri. Ak chcete na filtrovanie priečinka použiť zástupný znak, vynechajte toto nastavenie a zadajte tieto informácie v nastaveniach zdroja aktivity.
Názov zástupného súboru: Názov súboru v rámci danej nespravované oblasti Lakehouse (v časti Súbory) a cesty k priečinku.
Zoznam súborov: Označuje skopírovanie danej množiny súborov.
- Cesta k priečinku: Odkazuje na priečinok obsahujúci súbory, ktoré chcete skopírovať.
- Cesta k zoznamu súborov: Odkazuje na textový súbor obsahujúci zoznam súborov, ktoré chcete skopírovať, jeden súbor na riadok, čo je relatívna cesta k nakonfigurovanej ceste k súboru.
Rekurzívne: Udáva, či sa údaje čítajú rekurzívne z podpriečinkov alebo iba zo zadaného priečinka. Ak je táto možnosť povolená, všetky súbory vo vstupnom priečinku a jeho podpriečinkoch sa spracujú rekurzívne. Táto vlastnosť sa nevzťahuje na konfiguráciu typu cesty k súboru ako zoznamu súborov.
Formát súboru: Vyberte formát súboru z rozbaľovacieho zoznamu. Vyberte tlačidlo Nastavenia a nakonfigurujte formát súboru. Ak chcete získať nastavenia rôznych formátov súborov, podrobné informácie nájdete v článkoch v časti Podporované formáty .
V časti Rozšírené môžete zadať nasledujúce polia:
- Filtrovať podľa poslednej úpravy: Súbory sa filtrujú na základe dátumov poslednej úpravy. Táto vlastnosť sa nevzťahuje na konfiguráciu typu cesty k súboru ako zoznamu súborov.
- Čas spustenia: Súbory sa vyberú, ak je ich čas poslednej úpravy väčší alebo rovnaký ako nakonfigurovaný čas.
- Čas ukončenia: Súbory sa vyberú, ak je ich čas poslednej úpravy kratší ako nakonfigurovaný čas.
- Povoliť zisťovanie oblasti: V prípade súborov, ktoré sú rozdeľované, zadajte, či sa majú analyzovať oblasti z cesty k súboru a pridať ich ako nadbytočné zdrojové stĺpce.
- Koreňová cesta oblasti: Keď je povolené zisťovanie oblasti, zadajte absolútnu koreňovú cestu, aby ste mohli čítať zdieľané priečinky ako stĺpce údajov.
- Maximálny počet súbežných pripojení: označuje hornú hranicu súbežných pripojení vytvorených do ukladacieho priestoru údajov počas spustenia aktivity. Zadajte hodnotu iba vtedy, keď chcete obmedziť súbežné pripojenia.
- Filtrovať podľa poslednej úpravy: Súbory sa filtrujú na základe dátumov poslednej úpravy. Táto vlastnosť sa nevzťahuje na konfiguráciu typu cesty k súboru ako zoznamu súborov.
Cieľ
Pre Lakehouse na karte Cieľ kopírovanej aktivity sú podporované nasledujúce vlastnosti.
Vyžadujú sa nasledujúce vlastnosti:
Pripojenie: Zo zoznamu pripojení vyberte pripojenie Lakehouse. Ak pripojenie neexistuje, vytvorte nové pripojenie Lakehouse výberom položky Viac v dolnej časti zoznamu pripojení. Ak použijete položku Použiť dynamický obsah na zadanie svojej služby Lakehouse, pridajte parameter a ako hodnotu parametra zadajte ID objektu Lakehouse. Ak chcete získať ID objektu Lakehouse, otvorte svoju službu Lakehouse vo svojom pracovnom priestore a id nasleduje za
/lakehouses/
vašou URL adresou.Koreňový priečinok: vyberte tabuľky alebo súbory, čo označuje virtuálne zobrazenie spravovanej alebo nespravovaných oblastí vo vašom jazere. Ďalšie informácie nájdete v úvode k Lakehouse.
Ak vyberiete položku Tabuľky:
Názov tabuľky: Vyberte existujúcu tabuľku zo zoznamu tabuľky alebo zadajte názov tabuľky ako cieľ. Alebo môžete vybrať položku Nové a vytvoriť novú tabuľku.
Tabuľka: Keď v pripojení použijete lakehouse so schémami, vyberte existujúcu tabuľku so schémou zo zoznamu tabuliek alebo zadajte tabuľku so schémou ako cieľ. Alebo môžete vybrať položku Nové a vytvoriť novú tabuľku so schémou. Ak nezadáte názov schémy, služba použije ako predvolenú schému dbo .
V časti Rozšírené môžete zadať nasledujúce polia:
Akcie tabuľky: Zadajte operáciu vo vybratej tabuľke.
Pripojenie: Pripojte nové hodnoty do existujúcej tabuľky.
- Povoliť oblasť: tento výber umožňuje vytvoriť oblasti v štruktúre priečinkov na základe jedného alebo viacerých stĺpcov. Každá jedinečná hodnota stĺpca (pár) je nová oblasť. Napríklad"year=2000/month=01/file".
- Názov stĺpca oblasti: Keď pripojíte údaje do novej tabuľky, vyberte z cieľových stĺpcov v priradení schém. Keď pripojíte údaje do existujúcej tabuľky, ktorá už má oblasti, stĺpce oblastí sa automaticky odvodzujú z existujúcej tabuľky. Podporované typy údajov sú reťazec, celé číslo, booleovská hodnota a dátum a čas. Formát rešpektuje nastavenia konverzie typu na karte Mapovanie .
- Povoliť oblasť: tento výber umožňuje vytvoriť oblasti v štruktúre priečinkov na základe jedného alebo viacerých stĺpcov. Každá jedinečná hodnota stĺpca (pár) je nová oblasť. Napríklad"year=2000/month=01/file".
Prepísať: Prepíšte existujúce údaje a schému v tabuľke pomocou nových hodnôt. Ak je vybratá táto operácia, môžete povoliť oblasť v cieľovej tabuľke:
- Povoliť oblasť: tento výber umožňuje vytvoriť oblasti v štruktúre priečinkov na základe jedného alebo viacerých stĺpcov. Každá jedinečná hodnota stĺpca (pár) je nová oblasť. Napríklad"year=2000/month=01/file".
- Názov stĺpca oblasti: Vyberte z cieľových stĺpcov v priradení schém. Podporované typy údajov sú reťazec, celé číslo, booleovská hodnota a dátum a čas. Formát rešpektuje nastavenia konverzie typu na karte Mapovanie .
Podporuje cestovanie v čase do Delta Lake. Prepísaná tabuľka má denníky delta pre predchádzajúce verzie, ku ktorým máte prístup v službe Lakehouse. Tabuľku predchádzajúcej verzie môžete tiež skopírovať z lakehouse tak, že do zdroja aktivity kopírovania zadáte Verziu .
- Povoliť oblasť: tento výber umožňuje vytvoriť oblasti v štruktúre priečinkov na základe jedného alebo viacerých stĺpcov. Každá jedinečná hodnota stĺpca (pár) je nová oblasť. Napríklad"year=2000/month=01/file".
Maximálny počet súbežných pripojení: Horná hranica súbežných pripojení vytvorených do ukladacieho priestoru údajov počas spustenia aktivity. Zadajte hodnotu iba vtedy, keď chcete obmedziť súbežné pripojenia.
Je podporovaná verzia 2 pre autora. Zodpovedajúce podporované funkcie pre Delta Lake nájdete v tomto článku.
Ak vyberiete položku Súbory:
Cesta k súboru: Výberom položky Prehľadávať vyberte súbor, ktorý chcete skopírovať, alebo cestu vyplňte manuálne.
Formát súboru: Vyberte formát súboru z rozbaľovacieho zoznamu. Vyberte položku Nastavenia a nakonfigurujte formát súboru. Ak chcete získať nastavenia rôznych formátov súborov, podrobné informácie nájdete v článkoch v časti Podporované formáty .
V časti Rozšírené môžete zadať nasledujúce polia:
Správanie kopírovania: Definuje správanie pri kopírovaní, keď je zdrojom súbory z úložiska údajov založeného na súbore. Ako správanie pri kopírovaní môžete vybrať možnosť Zlúčiť hierarchiu, Zlúčiť súbory, Zachovať hierarchiu alebo Pridať dynamický obsah . Konfigurácia každého nastavenia je:
Hierarchia zjednodušenia štruktúry: Všetky súbory zo zdrojového priečinka sa nachádzajú v prvej úrovni cieľového priečinka. Cieľové súbory majú automaticky generované názvy.
Zlúčenie súborov: Zlúči všetky súbory zo zdrojového priečinka do jedného súboru. Ak je zadaný názov súboru, zlúčený názov súboru je zadaný názov. V opačnom prípade ide o automaticky vygenerovaný názov súboru.
Zachovanie hierarchie: Zachová hierarchiu súborov v cieľovom priečinku. Relatívna cesta zdrojového súboru k zdrojového priečinka je identická s relatívnou cestou cieľového súboru k cieľového priečinku.
Pridanie dynamického obsahu: Ak chcete zadať výraz pre hodnotu vlastnosti, vyberte položku Pridať dynamický obsah. Toto pole otvorí zostavovač výrazov, kde môžete vytvárať výrazy z podporovaných systémových premenných, výstup aktivity, funkcie a premenné alebo parametre zadané používateľom. Ďalšie informácie o jazyku výrazov nájdete v téme Výrazy a funkcie.
Maximálny počet súbežných pripojení: Horná hranica súbežných pripojení vytvorených do ukladacieho priestoru údajov počas spustenia aktivity. Zadajte hodnotu iba vtedy, keď chcete obmedziť súbežné pripojenia.
Veľkosť bloku (MB): zadajte veľkosť bloku v MB pri písaní údajov do služby Lakehouse. Povolená hodnota je v rozsahu od 4 MB do 100 MB.
Metaúdaje: Nastavte vlastné metaúdaje pri kopírovaní do cieľového úložiska údajov. Každý objekt pod poľom
metadata
predstavuje ďalší stĺpec. Položkaname
definuje názov kľúča metaúdajov avalue
označuje hodnotu údajov daného kľúča. Ak sa použije funkcia zachovať atribúty, zadané metaúdaje sa spoja alebo prepíšu metaúdajmi zdrojového súboru. Povolené hodnoty údajov sú:
Mapovanie
Ak pre konfiguráciu karty Mapovanie nepoužijete tabuľku Lakehouse ako cieľový ukladací priestor údajov, prejdite na položku Mapovanie.
Ak použijete tabuľku Lakehouse ako cieľový ukladací priestor údajov, s výnimkou konfigurácie v časti Mapovanie, môžete upraviť typ pre cieľové stĺpce. Po výbere možnosti Importovať schémy môžete zadať typ stĺpca vo svojom cieli.
Napríklad typ stĺpca PersonID v zdroji je int a môžete ho zmeniť na typ reťazca pri mapovaní na cieľový stĺpec.
Poznámka
Úprava typu cieľa v súčasnosti nie je podporovaná, ak je váš zdroj typ desatinného miesta.
Ak ako formát súboru vyberiete binárny údaj, mapovanie nie je podporované.
Nastavenia
Ak chcete získať konfiguráciu karty Nastavenia , prejdite do časti Nastavenia.
Súhrn tabuľky
Nasledujúce tabuľky obsahujú ďalšie informácie o aktivite kopírovania v službe Lakehouse.
Zdrojové informácie
Názov | Popis | Value | Požaduje sa | Vlastnosť skriptu JSON |
---|---|---|---|---|
Pripojenie | Sekcia na výber pripojenia. | < váš lakehouse pripojenie> | Áno | workspaceId artifactId |
Koreňový priečinok | Typ koreňového priečinka. | • Tabuľky • Súbory |
No | rootFolder: Tabuľka alebo Súbory |
Názov tabuľky | Názov tabuľky, ktorú chcete čítať údaje. | <názov tabuľky> | Áno, keď vyberiete tabuľku v koreňovom priečinku | table |
Table | Názov tabuľky so schémou, ktorú chcete prečítať, keď použijete lakehouse so schémami ako pripojením. | <tabuľka so schémou> | Áno, keď vyberiete tabuľku v koreňovom priečinku | / |
Pre tabuľku | ||||
názov schémy | Názov schémy. | <názov schémy> (predvolená hodnota je dbo) |
No | (v časti source –>datasetSettings ->typeProperties )schéma |
názov tabuľky | Názov tabuľky. | <názov tabuľky> | Áno | table |
Timestamp | Časová pečiatka na dotazovanie staršej snímky. | <timestamp> | No | timestampAsOf |
Verzia | Verzia na dotazovanie staršej snímky. | <verzia> | No | versionAsOf |
Ďalšie stĺpce | Ďalšie stĺpce údajov na ukladanie relatívnej cesty alebo statickej hodnoty zdrojových súborov. Pre druhý sa podporuje výraz. | •Meno •Hodnota |
No | additionalColumns: •meno •hodnota |
Typ cesty k súboru | Typ cesty k súboru, ktorú používate. | • Cesta k súboru • Cesta k zástupnému súboru • Zoznam súborov |
Áno, keď vyberiete položku Súbory v koreňovom priečinku. | / |
Cesta k súboru | Skopírujte z cesty do priečinka alebo súboru v zdrojovom úložisku údajov. | <cesta k súboru> | Áno pri výbere možnosti Cesta k súboru | • folderPath •Názov_súboru |
Zástupné cesty | Cesta k priečinku so zástupnými znakmi v zdrojovom úložisku údajov nakonfigurovaná na filtrovanie zdrojových priečinkov. | <zástupné cesty> | Áno pri výbere cesty k súboru zástupných znakov | • zástupný ZnakPriečinokPath • zástupný NázovSúboru |
Cesta k priečinku | Odkazuje na priečinok obsahujúci súbory, ktoré chcete skopírovať. | <cesta k priečinku> | No | folderPath |
Cesta k zoznamu súborov | Označuje skopírovanie danej množiny súborov. Ukážte na textový súbor obsahujúci zoznam súborov, ktoré chcete skopírovať, jeden súbor na riadok, čo je relatívna cesta k nakonfigurovanej ceste. | <cesta k zoznamu súborov> | No | fileListPath |
Rekurzívne | Spracovať všetky súbory vo vstupnom priečinku a jeho podpriečinkoch rekurzívne alebo len tie vo vybratom priečinku. Toto nastavenie je neaktívne, keď je vybratý jeden súbor. | vybrať alebo zrušiť výber | No | rekurzívny: true alebo false |
Formát súboru | Formát súboru pre zdrojové údaje. Informácie o rôznych formátoch súborov nájdete v článkoch v časti Podporované formáty , kde nájdete podrobné informácie. | / | Áno, keď vyberiete položku Súbory v koreňovom priečinku. | / |
Filtrovanie podľa poslednej úpravy | Súbory s časom poslednej úpravy v rozsahu [Čas začatia, Čas ukončenia) sa vyfiltrujú na ďalšie spracovanie. Čas sa použije na časové pásmo UTC vo formáte yyyy-mm-ddThh:mm:ss.fffZ .Túto vlastnosť možno vynechať, čo znamená, že sa nepoužije žiadny filter atribútu súboru. Táto vlastnosť sa nevzťahuje na konfiguráciu typu cesty k súboru ako zoznamu súborov. |
• Čas spustenia • Čas skončenia |
No | modifiedDatetimeStart modifiedDatetimeEnd |
Povolenie zisťovania oblasti | Určuje, či sa majú analyzovať oblasti z cesty k súboru a pridať ich ako ďalšie zdrojové stĺpce. | Vybraté alebo nevybrané | No | enablePartitionDiscovery: true alebo false (predvolené) |
Koreňová cesta k oblasti | Absolútna koreňová cesta oblasti na čítanie rozdelených priečinkov ako stĺpce údajov. | <vaša koreňová cesta oblasti> | No | partitionRootPath |
Maximálny počet súbežných pripojení | Horná hranica súbežných pripojení vytvorených do ukladacieho priestoru údajov počas spustenia aktivity. Hodnota je potrebná len vtedy, ak chcete obmedziť súbežné pripojenia. | <maximálny počet súbežných pripojení> | No | maxConcurrentConnections |
Informácie o cieli
Názov | Popis | Value | Požaduje sa | Vlastnosť skriptu JSON |
---|---|---|---|---|
Pripojenie | Sekcia na výber pripojenia. | < váš lakehouse pripojenie> | Áno | workspaceId artifactId |
Koreňový priečinok | Typ koreňového priečinka. | • Tabuľky • Súbory |
Áno | rootFolder: Tabuľka alebo Súbory |
Názov tabuľky | Názov tabuľky, do ktorú chcete zapisovať údaje. | <názov tabuľky> | Áno, keď vyberiete tabuľku v koreňovom priečinku | table |
Table | Názov tabuľky so schémou, do ktorou chcete zapisovať údaje, keď použijete lakehouse so schémou ako pripojením. | <tabuľka so schémou> | Áno, keď vyberiete tabuľku v koreňovom priečinku | / |
Pre tabuľku | ||||
názov schémy | Názov schémy. | <názov schémy> (predvolená hodnota je dbo) |
No | (v časti sink –>datasetSettings ->typeProperties )schéma |
názov tabuľky | Názov tabuľky. | <názov tabuľky> | Áno | table |
Akcia tabuľky | Pripojte nové hodnoty do existujúcej tabuľky alebo prepíšte existujúce údaje a schému v tabuľke pomocou nových hodnôt. | • Pripojiť • Prepísať |
No | tableActionMožnosť: Pripojiť alebo Prepísať Schému |
Povolenie oblastí | Tento výber vám umožňuje vytvoriť oblasti v štruktúre priečinkov na základe jedného alebo viacerých stĺpcov. Každá jedinečná hodnota stĺpca (pár) je nová oblasť. Napríklad"year=2000/month=01/file". | Vybraté alebo nevybrané | No | partition (oblasť)Možnosť: PartitionByKey alebo None |
Stĺpce oblastí | Cieľové stĺpce v priradení schém. | <stĺpce oblasti> | No | partitionNameList |
Cesta k súboru | Zapisovať údaje do cesty k priečinku alebo súboru v cieľovom úložisku údajov. | <cesta k súboru> | No | • folderPath •Názov_súboru |
Formát súboru | Formát súboru pre cieľové údaje. Informácie o rôznych formátoch súborov nájdete v článkoch v časti Podporované formáty , kde nájdete podrobné informácie. | / | Áno, keď vyberiete položku Súbory v koreňovom priečinku. | / |
Správanie kopírovania | Správanie kopírovania definované, keď je zdrojom súbory z úložiska údajov na základe súborov. | • Hierarchia zjednodušenia ovládania • Zlúčenie súborov • Zachovanie hierarchie • Pridať dynamický obsah |
No | copyBehavior: • FlattenHierarchy • MergeFiles • PreserveHierarchy |
Maximálny počet súbežných pripojení | Horná hranica súbežných pripojení vytvorených do ukladacieho priestoru údajov počas spustenia aktivity. Zadajte hodnotu iba vtedy, keď chcete obmedziť súbežné pripojenia. | <maximálny počet súbežných pripojení> | No | maxConcurrentConnections |
Veľkosť bloku (MB) | Veľkosť bloku v MB používaná na zápis údajov do Lakehouse. Povolená hodnota je v rozsahu od 4 MB do 100 MB. | <veľkosť bloku> | No | blockSizeInMB |
Metaúdaje | Vlastná množina metaúdajov pri kopírovaní do cieľa. | • $$LASTMODIFIED •Výraz • Statická hodnota |
No | metaúdajov |