Jak nakonfigurovat Lakehouse v aktivitě kopírování
Tento článek popisuje, jak pomocí aktivity kopírování v datovém kanálu kopírovat data z a do objektu Fabric Lakehouse.
Důležité
Microsoft Fabric je v současné době ve verzi PREVIEW. Tyto informace se týkají předběžného vydání produktu, který může být před vydáním podstatně změněn. Společnost Microsoft neposkytuje na zde uvedené informace žádné záruky, ať už vyjádřené nebo předpokládané. Projděte si dokumentaci k Azure Data Factory pro službu v Azure.
Podporovaný formát
Lakehouse podporuje následující formáty souborů. Informace o nastaveních založených na formátu najdete v jednotlivých článcích.
- Formát Avro
- Binární formát
- Formát textu s oddělovači
- Excelový formát
- Formát JSON
- Formát ORC
- Formát Parquet
- Formát XML
Podporovaná konfigurace
Konfiguraci jednotlivých karet v části Aktivita kopírování najdete v následujících částech.
Obecné
Pro konfiguraci karty Obecné přejděte na Obecné.
Zdroj
Na kartě Zdroj aktivity kopírování jsou pro Lakehouse podporované následující vlastnosti.
Jsou vyžadovány následující vlastnosti:
- Typ úložiště dat: Vyberte Pracovní prostor.
- Typ úložiště dat pracovního prostoru: V seznamu typů úložiště dat vyberte Lakehouse .
- Lakehouse: V pracovním prostoru vyberte existující lakehouse. Pokud žádná neexistuje, vytvořte nový Lakehouse výběrem možnosti Nový.
- Kořenová složka: Vyberte Tabulky nebo Soubory, které označují virtuální zobrazení spravované nebo nespravované oblasti v jezeře. Další informace najdete v úvodu k Lakehouse.
- Pokud vyberete Tabulky:
- Název tabulky: Zvolte existující tabulku ze seznamu tabulek nebo jako zdroj zadejte název tabulky.
- V části Upřesnit můžete zadat následující pole:
- Časové razítko: Zadejte dotaz na starší snímek podle časového razítka.
- Verze: Zadejte dotaz na starší snímek podle verze.
- Další sloupce: Přidejte další sloupce dat do relativní cesty nebo statické hodnoty zdrojových souborů úložiště. Výraz je podporovaný pro druhý.
- Pokud vyberete Soubory:
Typ cesty k souboru: Jako typ cesty k souboru můžete zvolit Cesta k souboru, Cesta k souboru se zástupným znakem nebo Seznam souborů . Následující seznam popisuje konfiguraci jednotlivých nastavení:
Cesta k souboru: Vyberte Procházet a zvolte soubor, který chcete zkopírovat, nebo cestu vyplňte ručně.
Cesta k souboru se zástupnými znaky: Zadejte složku nebo cestu k souboru se zástupnými znaky v dané nespravované oblasti Lakehouse (v části Soubory), aby se vyfiltrovaly zdrojové složky nebo soubory. Povolené zástupné znaky jsou:
*
(odpovídají nule nebo více znakům) a?
(odpovídají nule nebo jednomu znaku). Pokud název složky nebo souboru obsahuje zástupný znak nebo tento řídicí znak uvnitř, použijte^
k řídicímu znaku.Cesta ke složce se zástupným znakem: Cesta ke složce v daném kontejneru. Pokud chcete k filtrování složky použít zástupný znak, přeskočte toto nastavení a zadejte tyto informace v nastavení zdroje aktivity.
Název souboru se zástupným znakem: Název souboru v dané nespravované oblasti Lakehouse (v části Soubory) a cesta ke složce.
Seznam souborů: Označuje, že se má zkopírovat daná sada souborů.
- Cesta ke složce: Odkazuje na složku, která obsahuje soubory, které chcete zkopírovat.
- Cesta k seznamu souborů: Odkazuje na textový soubor, který obsahuje seznam souborů, které chcete zkopírovat, jeden soubor na řádek, což je relativní cesta k nakonfigurované cestě k souboru.
Rekurzivně: Označuje, jestli se data čtou rekurzivně z podsložek nebo jenom ze zadané složky. Pokud je povoleno, všechny soubory ve vstupní složce a jejích podsložkách se zpracovávají rekurzivně. Tato vlastnost se nepoužije, pokud nakonfigurujete typ cesty k souboru jako Seznam souborů.
Formát souboru: V rozevíracím seznamu vyberte požadovaný formát souboru. Vyberte tlačítko Nastavení a nakonfigurujte formát souboru. Podrobné informace o nastavení různých formátů souborů najdete v článcích podporovaných formátů .
V části Upřesnit můžete zadat následující pole:
- Filtrovat podle poslední změny: Soubory se filtrují na základě dat poslední změny. Tato vlastnost se nepoužije, pokud nakonfigurujete typ cesty k souboru jako Seznam souborů.
- Čas zahájení: Soubory se vyberou, pokud je jejich čas poslední změny větší nebo roven nakonfigurovaného času.
- Koncový čas: Soubory se vyberou, pokud je čas jejich poslední změny kratší než nakonfigurovaný čas.
- Povolit zjišťování oddílů: U dělených souborů určete, jestli se mají oddíly analyzovat z cesty k souboru, a přidejte je jako další zdrojové sloupce.
- Kořenová cesta oddílu: Pokud je povolené zjišťování oddílů, zadejte absolutní kořenovou cestu, aby bylo možné číst dělené složky jako sloupce dat.
- Maximální počet souběžných připojení: Označuje horní limit souběžných připojení vytvořených k úložišti dat během spuštění aktivity. Hodnotu zadejte pouze v případech, kdy chcete omezit souběžná připojení.
- Filtrovat podle poslední změny: Soubory se filtrují na základě dat poslední změny. Tato vlastnost se nepoužije, pokud nakonfigurujete typ cesty k souboru jako Seznam souborů.
- Pokud vyberete Tabulky:
Cíl
Na kartě Cíl aktivity kopírování jsou pro Lakehouse podporované následující vlastnosti.
Jsou vyžadovány následující vlastnosti:
- Typ úložiště dat: Vyberte Pracovní prostor.
- Typ úložiště dat pracovního prostoru: V seznamu typů úložiště dat vyberte Lakehouse .
- Lakehouse: V pracovním prostoru vyberte existující lakehouse. Pokud žádná neexistuje, vytvořte nový Lakehouse výběrem možnosti Nový.
- Kořenová složka: Vyberte Tabulky nebo Soubory, které označují virtuální zobrazení spravované nebo nespravované oblasti v jezeře. Další informace najdete v úvodu k Lakehouse.
Pokud vyberete Tabulky:
Název tabulky: Zvolte existující tabulku ze seznamu tabulek nebo jako cíl zadejte název tabulky.
V části Upřesnit můžete zadat následující pole:
- Maximální počet řádků na soubor: Zadejte maximální počet řádků na soubor při zápisu dat do Lakehouse.
- Akce tabulky: Zadejte operaci s vybranou tabulkou.
- Připojit: Připojte nové hodnoty k existující tabulce.
- Přepsání: Přepište existující data a schéma v tabulce pomocí nových hodnot. Pokud je tato operace vybraná, můžete v cílové tabulce povolit oddíl:
- Povolit oddíl: Tento výběr umožňuje vytvořit oddíly ve struktuře složek na základě jednoho nebo více sloupců. Každá jedinečná hodnota sloupce (dvojice) je nový oddíl. Například "year=2000/month=01/file". Tento výběr podporuje režim jen pro vložení a vyžaduje prázdný adresář v cíli.
- Název sloupce oddílu: Vyberte z cílových sloupců v mapování schémat. Mezi podporované datové typy patří řetězec, celé číslo, logická hodnota a datum a čas. Formát respektuje nastavení převodu typů na kartě Mapování .
- Povolit oddíl: Tento výběr umožňuje vytvořit oddíly ve struktuře složek na základě jednoho nebo více sloupců. Každá jedinečná hodnota sloupce (dvojice) je nový oddíl. Například "year=2000/month=01/file". Tento výběr podporuje režim jen pro vložení a vyžaduje prázdný adresář v cíli.
- Maximální počet souběžných připojení: Horní limit souběžných připojení vytvořených k úložišti dat během spuštění aktivity. Hodnotu zadejte pouze v případech, kdy chcete omezit souběžná připojení.
Pokud vyberete Soubory:
Cesta k souboru: Vyberte Procházet a zvolte soubor, který chcete zkopírovat, nebo cestu vyplňte ručně.
Formát souboru: V rozevíracím seznamu vyberte formát souboru. Vyberte Nastavení a nakonfigurujte formát souboru. Podrobné informace o nastavení různých formátů souborů najdete v článcích podporovaných formátů .
V části Upřesnit můžete zadat následující pole:
Chování kopírování: Definuje chování kopírování, když zdrojem jsou soubory ze souborového úložiště dat. Jako chování kopírování můžete zvolit Přidat dynamický obsah, Žádný, Zploštět hierarchii nebo Zachovat hierarchii . Konfigurace každého nastavení je následující:
Přidat dynamický obsah: Pokud chcete zadat výraz pro hodnotu vlastnosti, vyberte Přidat dynamický obsah. Toto pole otevře tvůrce výrazů, kde můžete vytvářet výrazy z podporovaných systémových proměnných, výstupu aktivity, funkcí a uživatelem zadaných proměnných nebo parametrů. Další informace o jazyku výrazů najdete v tématu Výrazy a funkce.
Žádné: Tuto možnost vyberte, pokud nechcete používat žádné chování při kopírování.
Zploštěná hierarchie: Všechny soubory ze zdrojové složky jsou na první úrovni cílové složky. Cílové soubory mají automaticky vygenerované názvy.
Zachovat hierarchii: Zachová hierarchii souborů v cílové složce. Relativní cesta zdrojového souboru ke zdrojové složce je shodná s relativní cestou cílového souboru k cílové složce.
Maximální počet souběžných připojení: Horní limit souběžných připojení vytvořených k úložišti dat během spuštění aktivity. Hodnotu zadejte pouze v případech, kdy chcete omezit souběžná připojení.
Velikost bloku (MB): Zadejte velikost bloku v MB při zápisu dat do Lakehouse. Povolená hodnota je 4 MB až 100 MB.
Metadata: Nastavte vlastní metadata při kopírování do cílového úložiště dat. Každý objekt v
metadata
poli představuje sloupec navíc. Definujename
název klíče metadat avalue
označuje hodnotu dat tohoto klíče. Pokud se použije funkce zachování atributů , zadaná metadata se sjednocují nebo přepíšou s metadaty zdrojového souboru. Povolené hodnoty dat jsou:
Mapování
Konfiguraci karty Mapování najdete v části Mapování. Pokud jako formát souboru zvolíte Binární, mapování se nepodporuje.
Nastavení
Pro konfiguraci karty Nastavení přejděte na Nastavení.
Souhrn tabulky
Následující tabulky obsahují další informace o aktivitě kopírování v Lakehouse.
Informace o zdroji
Název | Popis | Hodnota | Vyžadováno | Vlastnost skriptu JSON |
---|---|---|---|---|
Typ úložiště dat | Typ vašeho úložiště dat. | Pracovní prostor | Yes | / |
Typ úložiště dat pracovního prostoru | V části vyberte typ úložiště dat pracovního prostoru. | Lakehouse | Yes | typ |
Lakehouse | Lakehouse, který použijete jako zdroj. | <váš Lakehouse> | Yes | workspaceId id artefaktu |
Kořenová složka | Typ kořenové složky. | * Tabulky * Soubory |
No | rootFolder: Tabulka nebo soubory |
Název tabulky | Název tabulky pro čtení dat. | <název tabulky> | Ano, když vyberete Tabulky v kořenové složce | tabulka (v části typeProperties ->source ->typeProperties ) |
Timestamp | Časové razítko pro dotaz na starší snímek. | <časové razítko> | No | timestampAsOf |
Verze | Verze pro dotazování staršího snímku. | <version> | No | verzeAsOf |
Další sloupce | Další sloupce dat pro uložení relativní cesty ke zdrojovým souborům nebo statické hodnoty Výraz se podporuje pro druhou možnost. | *Jméno *Hodnotu |
No | additionalColumns: *Jméno *Hodnotu |
Typ cesty k souboru | Typ cesty k souboru, který používáte. | * Cesta k souboru * Cesta k souboru se zástupným znakem * Seznam souborů |
Yes | / |
Cesta k souboru | Zkopírujte z cesty do složky nebo souboru ve zdrojovém úložišti dat. Použijte při výběru možnosti Cesta k souboru v poli Typ cesty k souboru. | <cesta k souboru> | Ano při výběru cesty k souboru | * folderPath *Název_souboru |
Zástupné cesty | Cesta ke složce se zástupnými znaky ve zdrojovém úložišti dat nakonfigurovaná pro filtrování zdrojových složek. Použít při volbě Cesta k souboru se zástupným znakem v části Typ cesty k souboru. | <Zástupné cesty> | Ano při výběru cesty k souboru se zástupným znakem | * wildcardFolderPath * zástupný znakFileName |
Cesta ke složce | Odkazuje na složku, která obsahuje soubory, které chcete zkopírovat. Použít, když zvolíte Seznam souborů v poli Typ cesty k souboru. | <cesta ke složce> | No | folderPath |
Cesta k seznamu souborů | Označuje zkopírování dané sady souborů. Přejděte na textový soubor, který obsahuje seznam souborů, které chcete zkopírovat, jeden soubor na řádek, což je relativní cesta k nakonfigurované cestě. Použít, když zvolíte Seznam souborů v poli Typ cesty k souboru. | <cesta k seznamu souborů> | No | fileListPath |
Rekurzivně | Zpracujte všechny soubory ve vstupní složce a jejích podsložkách rekurzivně nebo jen ty ve vybrané složce. Toto nastavení je zakázáno, pokud je vybraný jeden soubor. | výběr nebo zrušení výběru | No | Rekurzivní: true nebo false |
Formát souboru | Formát souboru, který používáte. | <formát souboru> | Yes | type (v části formatSettings ):DelimitedTextReadSettings |
Filtrovat podle poslední změny | Soubory s časem poslední změny v rozsahu [Čas zahájení, čas ukončení) budou filtrovány pro další zpracování. Čas se použije pro časové pásmo UTC ve formátu "rrrr-mm-ddThh:mm:ss.fffZ". Tuto vlastnost je možné přeskočit, což znamená, že nebude použit žádný filtr atributů souboru. Tato vlastnost se nepoužije, pokud nakonfigurujete typ cesty k souboru jako Seznam souborů. |
* Počáteční čas * Čas ukončení |
No | modifiedDatetimeStart modifiedDatetimeEnd |
Povolení zjišťování oddílů | Zda analyzovat oddíly z cesty k souboru a přidat je jako další zdrojové sloupce. | Vybrané nebo nevybrané | No | enablePartitionDiscovery: true nebo false (výchozí) |
Kořenová cesta oddílu | Absolutní kořenová cesta oddílu pro čtení dělených složek jako datových sloupců. | <kořenová cesta k vašemu oddílu> | No | partitionRootPath |
Maximální počet souběžných připojení | Horní limit souběžných připojení vytvořených k úložišti dat během spuštění aktivity Hodnota je potřebná pouze v případě, že chcete omezit souběžná připojení. | <maximální počet souběžných připojení> | No | maxConcurrentConnections |
Informace o cíli
Název | Popis | Hodnota | Vyžadováno | Vlastnost skriptu JSON |
---|---|---|---|---|
Typ úložiště dat | Typ úložiště dat. | Pracovní prostor | Yes | / |
Typ úložiště dat pracovního prostoru | Oddíl pro výběr typu úložiště dat pracovního prostoru | Lakehouse | Yes | typ |
Lakehouse | Lakehouse, který použijete jako cíl. | <váš Lakehouse> | Yes | workspaceId artifactId |
Kořenová složka | Typ kořenové složky. | * Tabulky * Soubory |
Yes | rootFolder: Tabulka nebo soubory |
Název tabulky | Název tabulky, do které chcete zapisovat data. | <název vaší tabulky> | Ano, když vyberete Tabulky v kořenové složce | tabulka (v části typeProperties ->sink ->typeProperties ) |
Maximální počet řádků na soubor | Při zápisu dat do složky můžete zvolit zápis do více souborů a zadat maximální počet řádků na soubor. | <maximální počet řádků na flie> | No | maxRowsPerFile |
Akce tabulky | Připojte nové hodnoty k existující tabulce nebo přepište existující data a schéma v tabulce pomocí nových hodnot. | * Připojit * Přepsat |
No | tableActionOption: Připojit nebo přepsat |
Maximální počet souběžných připojení | Horní limit souběžných připojení vytvořených k úložišti dat během spuštění aktivity Hodnotu zadejte pouze v případech, kdy chcete omezit souběžná připojení. | <maximální počet souběžných připojení> | No | maxConcurrentConnections |
Cesta k souboru | Zapište data do cesty ke složce nebo souboru v cílovém úložišti dat. | <cesta k souboru> | No | * folderPath *Název_souboru |
Formát souboru | Formát souboru, který používáte. | <formát souboru> | Yes | type (v části formatSettings ):DelimitedTextWriteSettings |
Chování kopírování | Chování kopírování definované, když zdrojem jsou soubory ze souborového úložiště dat. | * Přidání dynamického obsahu * Žádný * Zploštět hierarchii * Zachovat hierarchii |
No | copyBehavior: * FlattenHierarchy * PreserveHierarchy |
Velikost bloku (MB) | Velikost bloku v MB, která se používá k zápisu dat do Lakehouse. Povolená hodnota je mezi 4 MB a 100 MB. | <velikost bloku> | No | blockSizeInMB |
Metadata | Vlastní metadata nastavená při kopírování do cíle. | * $$LASTMODIFIED *Výraz * Statická hodnota |
No | zprostředkovatele identity |