Sdílet prostřednictvím


Konfigurace Lakehouse v aktivitě kopírování

Tento článek popisuje, jak pomocí aktivity kopírování v datovém kanálu kopírovat data z a do Fabric Lakehouse. Ve výchozím nastavení se data zapisují do tabulky Lakehouse v objednávce V a další informace najdete v optimalizaci tabulek Delta Lake a V-Order .

Podporovaný formát

Lakehouse podporuje následující formáty souborů. Informace o nastaveních založených na formátu najdete v jednotlivých článcích.

Podporovaná konfigurace

Konfigurace každé karty v aktivitě kopírování najdete v následujících částech.

OBECNÉ

Pro konfiguraci karty Obecné přejděte na Obecné.

Zdroj

U Lakehouse na kartě Zdroj aktivity kopírování se podporují následující vlastnosti.

Snímek obrazovky zobrazující kartu zdroje a seznam vlastností

Jsou vyžadovány následující vlastnosti:

  • Připojení: Ze seznamu připojení vyberte připojení Lakehouse. Pokud žádné připojení neexistuje, vytvořte nové připojení Lakehouse výběrem možnosti Další v dolní části seznamu připojení. Pokud použijete k zadání objektu Lakehouse dynamický obsah , přidejte parametr a jako hodnotu parametru zadejte ID objektu Lakehouse. Pokud chcete získat ID objektu Lakehouse, otevřete v pracovním prostoru objekt Lakehouse a ID je za /lakehouses/vaší adresou URL.

    Snímek obrazovky znázorňující ID objektu Lakehouse

  • Kořenová složka: Vyberte tabulky nebo soubory, které označují virtuální zobrazení spravované nebo nespravované oblasti ve vašem jezeře. Další informace najdete v úvodu k Lakehouse.

    • Pokud vyberete Tabulky:

      • Název tabulky: Vyberte existující tabulku ze seznamu tabulek nebo jako zdroj zadejte název tabulky. Nebo můžete vybrat Možnost Nový a vytvořit novou tabulku.

        Snímek obrazovky s názvem tabulky

      • Tabulka: Pokud použijete Lakehouse se schématy v připojení, zvolte existující tabulku se schématem ze seznamu tabulek nebo zadejte tabulku se schématem jako zdrojem. Nebo můžete vybrat Možnost Nový a vytvořit novou tabulku se schématem. Pokud nezadáte název schématu, služba jako výchozí schéma použije dbo .

        Snímek obrazovky zobrazující název tabulky se schématem

      • V části Upřesnit můžete zadat následující pole:

        • Časové razítko: Zadejte dotaz na starší snímek podle časového razítka.
        • Verze: Zadejte dotaz na starší snímek podle verze.
        • Další sloupce: Přidejte další datové sloupce do relativní cesty nebo statické hodnoty zdrojových souborů úložiště. U druhého výrazu se podporuje.

      Podporuje se čtečka verze 1. Odpovídající podporované funkce Delta Lake najdete v tomto článku.

    • Pokud vyberete Soubory:

      • Typ cesty k souboru: Jako typ cesty k souboru můžete zvolit cestu k souboru, cestu k souboru se zástupným znakem nebo seznam souborů . Následující seznam popisuje konfiguraci jednotlivých nastavení:

        Snímek obrazovky znázorňující cestu k souboru

        • Cesta k souboru: Vyberte Procházet a zvolte soubor, který chcete zkopírovat, nebo cestu vyplňte ručně.

        • Cesta k souboru se zástupnými znaky: Zadejte složku nebo cestu k souboru se zástupnými znaky v dané nespravované oblasti Lakehouse (v části Soubory) a vyfiltrujte zdrojové složky nebo soubory. Povolené zástupné znaky jsou: * (odpovídá nule nebo více znaků) a ? (odpovídá nule nebo jednomu znaku). Slouží ^ k řídicímu znaku, pokud má název složky nebo souboru zástupný znak nebo tento řídicí znak uvnitř.

          • Cesta ke složce se zástupným znakem: Cesta ke složce v daném kontejneru. Pokud chcete k filtrování složky použít zástupný znak, přeskočte toto nastavení a zadejte tyto informace v nastavení zdroje aktivity.

          • Název souboru se zástupnými znamény: Název souboru v dané nespravované oblasti Lakehouse (v části Soubory) a cesta ke složce.

            Snímek obrazovky znázorňující cestu k souboru se zástupným znakem

        • Seznam souborů: Označuje, že chcete zkopírovat danou sadu souborů.

          • Cesta ke složce: Odkazuje na složku obsahující soubory, které chcete kopírovat.
          • Cesta k seznamu souborů: Odkazuje na textový soubor, který obsahuje seznam souborů, které chcete kopírovat, jeden soubor na řádek, což je relativní cesta k nakonfigurované cestě k souboru.

          Snímek obrazovky znázorňující cestu k seznamu souborů

      • Rekurzivně: Označuje, jestli se data čtou rekurzivně z podsložek nebo pouze ze zadané složky. Pokud je tato možnost povolená, všechny soubory ve vstupní složce a jejích podsložkách se zpracovávají rekurzivně. Tato vlastnost se nepoužije při konfiguraci typu cesty k souboru jako seznam souborů.

      • Formát souboru: V rozevíracím seznamu vyberte formát souboru. Výběrem tlačítka Nastavení nakonfigurujte formát souboru. Podrobné informace najdete v článku o nastavení různých formátů souborů v podporovaném formátu .

      • V části Upřesnit můžete zadat následující pole:

        • Filtrovat podle poslední změny: Soubory se filtrují na základě data poslední změny. Tato vlastnost se nepoužije při konfiguraci typu cesty k souboru jako seznam souborů.
          • Čas zahájení: Soubory jsou vybrány, pokud je jejich čas poslední změny větší nebo roven nakonfigurované době.
          • Čas ukončení: Soubory se vyberou, pokud je jejich čas poslední změny kratší než nakonfigurovaný čas.
        • Povolit zjišťování oddílů: U souborů, které jsou rozdělené na oddíly, určete, jestli se mají analyzovat oddíly z cesty k souboru a přidat je jako další zdrojové sloupce.
          • Kořenová cesta oddílu: Pokud je povolené zjišťování oddílů, zadejte absolutní kořenovou cestu, abyste mohli číst dělené složky jako datové sloupce.
        • Maximální počet souběžných připojení: Označuje horní limit souběžných připojení vytvořených k úložišti dat během spuštění aktivity. Zadejte hodnotu pouze v případech, kdy chcete omezit souběžná připojení.

Cíl

U Lakehouse na kartě Cíl aktivity kopírování jsou podporovány následující vlastnosti.

Snímek obrazovky znázorňující cílovou kartu

Jsou vyžadovány následující vlastnosti:

  • Připojení: Ze seznamu připojení vyberte připojení Lakehouse. Pokud žádné připojení neexistuje, vytvořte nové připojení Lakehouse výběrem možnosti Další v dolní části seznamu připojení. Pokud použijete k zadání objektu Lakehouse dynamický obsah , přidejte parametr a jako hodnotu parametru zadejte ID objektu Lakehouse. Pokud chcete získat ID objektu Lakehouse, otevřete v pracovním prostoru objekt Lakehouse a ID je za /lakehouses/vaší adresou URL.

    Snímek obrazovky znázorňující ID objektu Lakehouse

  • Kořenová složka: Vyberte tabulky nebo soubory, které označují virtuální zobrazení spravované nebo nespravované oblasti ve vašem jezeře. Další informace najdete v úvodu k Lakehouse.

    • Pokud vyberete Tabulky:

      • Název tabulky: Vyberte existující tabulku ze seznamu tabulek nebo jako cíl zadejte název tabulky. Nebo můžete vybrat Možnost Nový a vytvořit novou tabulku.

        Snímek obrazovky s názvem tabulky

      • Tabulka: Pokud použijete Lakehouse se schématy v připojení, zvolte existující tabulku se schématem ze seznamu tabulek nebo zadejte tabulku se schématem jako cílem. Nebo můžete vybrat Možnost Nový a vytvořit novou tabulku se schématem. Pokud nezadáte název schématu, služba jako výchozí schéma použije dbo .

        Snímek obrazovky zobrazující název tabulky se schématem

      • V části Upřesnit můžete zadat následující pole:

        • Akce tabulky: Zadejte operaci s vybranou tabulkou.

          • Připojení: Připojte nové hodnoty k existující tabulce.

            • Povolit oddíl: Tento výběr umožňuje vytvářet oddíly ve struktuře složek na základě jednoho nebo více sloupců. Každá jedinečná hodnota sloupce (pár) je nový oddíl. Například "year=2000/month=01/file".
              • Název sloupce oddílu: Při připojení dat k nové tabulce vyberte z cílových sloupců v mapování schémat. Když připojíte data k existující tabulce, která už obsahuje oddíly, sloupce oddílů se odvozují z existující tabulky automaticky. Podporované datové typy jsou řetězec, celé číslo, logická hodnota a datum a čas. Formát respektuje nastavení převodu typů na kartě Mapování .
          • Přepsání: Přepište existující data a schéma v tabulce pomocí nových hodnot. Pokud je tato operace vybraná, můžete v cílové tabulce povolit oddíl:

            • Povolit oddíl: Tento výběr umožňuje vytvářet oddíly ve struktuře složek na základě jednoho nebo více sloupců. Každá jedinečná hodnota sloupce (pár) je nový oddíl. Například "year=2000/month=01/file".
              • Název sloupce oddílu: Vyberte z cílových sloupců v mapování schémat. Podporované datové typy jsou řetězec, celé číslo, logická hodnota a datum a čas. Formát respektuje nastavení převodu typů na kartě Mapování .

            Podporuje časové cestování Delta Lake. Přepsáná tabulka obsahuje rozdílové protokoly pro předchozí verze, ke kterým máte přístup ve svém Lakehouse. Předchozí tabulku verzí můžete z Lakehouse zkopírovat také zadáním verze ve zdroji aktivity kopírování.

        • Maximální počet souběžných připojení: Horní limit souběžných připojení vytvořených k úložišti dat během spuštění aktivity. Zadejte hodnotu pouze v případech, kdy chcete omezit souběžná připojení.

      Podporuje se zapisovač verze 2. Odpovídající podporované funkce Delta Lake najdete v tomto článku.

    • Pokud vyberete Soubory:

      • Cesta k souboru: Vyberte Procházet a zvolte soubor, který chcete zkopírovat, nebo cestu vyplňte ručně.

        Snímek obrazovky znázorňující cestu k souborům v cíli

      • Formát souboru: V rozevíracím seznamu vyberte formát souboru. Vyberte Nastavení a nakonfigurujte formát souboru. Podrobné informace najdete v článku o nastavení různých formátů souborů v podporovaném formátu .

      • V části Upřesnit můžete zadat následující pole:

        • Chování kopírování: Definuje chování kopírování, pokud zdroj je soubory ze souborového úložiště dat. Jako chování kopírování můžete zvolit zploštěnou hierarchii, sloučit soubory, zachovat hierarchii nebo přidat dynamický obsah . Konfigurace každého nastavení je:

          • Zploštěná hierarchie: Všechny soubory ze zdrojové složky jsou na první úrovni cílové složky. Cílové soubory mají automaticky vygenerované názvy.

          • Sloučit soubory: Sloučí všechny soubory ze zdrojové složky do jednoho souboru. Pokud je zadaný název souboru, je zadaným názvem sloučený soubor. V opačném případě se jedná o automaticky vygenerovaný název souboru.

          • Zachovat hierarchii: Zachová hierarchii souborů v cílové složce. Relativní cesta zdrojového souboru ke zdrojové složce je shodná s relativní cestou cílového souboru s cílovou složkou.

          • Přidat dynamický obsah: Chcete-li zadat výraz pro hodnotu vlastnosti, vyberte Přidat dynamický obsah. Toto pole otevře tvůrce výrazů, kde můžete vytvářet výrazy z podporovaných systémových proměnných, výstupu aktivity, funkcí a parametrů zadaných uživatelem. Další informace o jazyce výrazů najdete v tématu Výrazy a funkce.

            Snímek obrazovky znázorňující chování kopírování

        • Maximální počet souběžných připojení: Horní limit souběžných připojení vytvořených k úložišti dat během spuštění aktivity. Zadejte hodnotu pouze v případech, kdy chcete omezit souběžná připojení.

        • Velikost bloku (MB): Při zápisu dat do Lakehouse zadejte velikost bloku v MB. Povolená hodnota je mezi 4 MB a 100 MB.

        • Metadata: Při kopírování do cílového úložiště dat nastavte vlastní metadata. Každý objekt pod metadata polem představuje další sloupec. Definuje name název klíče metadat a value označuje hodnotu dat tohoto klíče. Pokud se použije funkce zachování atributů, zadaná metadata se sjednocují nebo přepíšou metadaty zdrojového souboru. Povolené datové hodnoty jsou:

          • $$LASTMODIFIED: Rezervovaná proměnná označuje, že se má uložit čas poslední změny zdrojových souborů. Platí pouze pro souborový zdroj s binárním formátem.

          • Výraz

          • Statická hodnota

            Snímek obrazovky s metadaty

mapování.

Pokud jako cílové úložiště dat nepoužíváte tabulku Lakehouse, přejděte do části Mapování.

Pokud jako cílové úložiště dat použijete tabulku Lakehouse s výjimkou konfigurace v mapování, můžete typ cílových sloupců upravit. Po výběru schémat importu můžete zadat typ sloupce v cíli.

Například typ sloupce PersonID ve zdroji je int a můžete ho změnit na typ řetězce při mapování na cílový sloupec.

Snímek obrazovky s mapováním typu cílového sloupce

Poznámka:

Úprava cílového typu v současné době není podporována, pokud je zdrojem desetinný typ.

Pokud jako formát souboru zvolíte Binary, mapování se nepodporuje.

Nastavení

Pro konfiguraci karty Nastavení přejděte na Nastavení.

Souhrn tabulky

Následující tabulky obsahují další informace o aktivitě kopírování v Lakehouse.

Informace o zdroji

Název Popis Hodnota Požaduje se Vlastnost skriptu JSON
Připojení V oddílu vyberte připojení. < vaše spojení Lakehouse> Ano workspaceId
artifactId
Kořenová složka Typ kořenové složky. Tabulky
Soubory
No rootFolder:
Tabulka nebo soubory
Název tabulky Název tabulky, kterou chcete číst data. <název tabulky> Ano, když vyberete Tabulky v kořenové složce table
Tabulka Název tabulky se schématem, které chcete číst data při použití Lakehouse se schématy jako připojení. <tabulka se schématem> Ano, když vyberete Tabulky v kořenové složce /
Pro tabulku
název schématu Název schématu. <název vašeho schématu>
(výchozí hodnota je dbo)
No (pod source ->>datasetSettingstypeProperties)
schema
název tabulky Název tabulky. <název tabulky> Ano table
Timestamp Časové razítko pro dotazování na starší snímek <časová značka> No timestampAsOf
Verze Verze, která se má dotazovat na starší snímek. <version> No versionAsOf
Další sloupce Další datové sloupce pro ukládání relativní cesty nebo statické hodnoty zdrojových souborů U druhého výrazu se podporuje. • Jméno
•Hodnota
No additionalColumns:
•Jméno
•hodnota
Typ cesty k souboru Typ cesty k souboru, který používáte. Cesta k souboru
Cesta k souboru se zástupným znakem
Seznam souborů
Ano, když vyberete Soubory v kořenové složce /
Cesta k souboru Zkopírujte cestu ke složce nebo souboru ve zdrojovém úložišti dat. <cesta k souboru> Ano při výběru cesty k souboru • folderPath
•jméno souboru
Zástupné cesty Cesta ke složce se zástupnými znaky ve zdrojovém úložišti dat nakonfigurovaná pro filtrování zdrojových složek. <Zástupné cesty> Ano při výběru cesty k souboru se zástupným znakem • Zástupný znakFolderPath
• zástupný znakFileName
Cesta ke složce Odkazuje na složku, která obsahuje soubory, které chcete kopírovat. <cesta ke složce> No folderPath
Cesta k seznamu souborů Označuje, že chcete zkopírovat danou sadu souborů. Přejděte na textový soubor, který obsahuje seznam souborů, které chcete kopírovat, jeden soubor na řádek, což je relativní cesta k nakonfigurované cestě. <cesta k seznamu souborů> No fileListPath
Rekurzívně Zpracovat všechny soubory ve vstupní složce a jejích podsložkách rekurzivně nebo jenom ty ve vybrané složce. Toto nastavení je zakázané, když je vybrán jeden soubor. výběr nebo zrušení výběru No rekurzivní:
true nebo false
Formát souboru Formát souboru pro zdrojová data. Podrobné informace najdete v článcích v podporovaném formátu , kde najdete informace o různých formátech souborů. / Ano, když vyberete Soubory v kořenové složce /
Filtrovat podle poslední změny Soubory s časem poslední změny v rozsahu [Počáteční čas, Koncový čas) se vyfiltrují pro další zpracování.

Čas se použije u časového pásma UTC ve formátu yyyy-mm-ddThh:mm:ss.fffZ.

Tuto vlastnost lze přeskočit, což znamená, že není použit žádný filtr atributů souboru. Tato vlastnost se nepoužije při konfiguraci typu cesty k souboru jako seznam souborů.
Počáteční čas
Koncový čas
No modifiedDatetimeStart
modifiedDatetimeEnd
Povolení zjišťování oddílů Zda chcete parsovat oddíly z cesty k souboru a přidat je jako další zdrojové sloupce. Vybraná nebo nevybraná No enablePartitionDiscovery:
true nebo false (výchozí)
Kořenová cesta oddílu Absolutní kořenová cesta oddílu ke čtení dělených složek jako datových sloupců. <kořenová cesta oddílu> No partitionRootPath
Maximální počet souběžných připojení Horní limit souběžných připojení vytvořených k úložišti dat během spuštění aktivity. Hodnota se vyžaduje jenom v případě, že chcete omezit souběžná připojení. <maximální počet souběžných připojení> No maxConcurrentConnections

Informace o cíli

Název Popis Hodnota Požaduje se Vlastnost skriptu JSON
Připojení V oddílu vyberte připojení. < vaše spojení Lakehouse> Ano workspaceId
artifactId
Kořenová složka Typ kořenové složky. Tabulky
Soubory
Ano rootFolder:
Tabulka nebo soubory
Název tabulky Název tabulky, do které chcete zapisovat data. <název tabulky> Ano, když vyberete Tabulky v kořenové složce table
Tabulka Název tabulky se schématem, do kterého chcete zapisovat data při použití Lakehouse se schématy jako připojení. <tabulka se schématem> Ano, když vyberete Tabulky v kořenové složce /
Pro tabulku
název schématu Název schématu. <název vašeho schématu>
(výchozí hodnota je dbo)
No (pod sink ->>datasetSettingstypeProperties)
schema
název tabulky Název tabulky. <název tabulky> Ano table
Akce tabulky Připojte nové hodnoty k existující tabulce nebo přepište existující data a schéma v tabulce pomocí nových hodnot. Připojení
Přepsat
No tableActionOption:
Připojení nebo přepsáníSchema
Povolení oddílů Tento výběr umožňuje vytvářet oddíly ve struktuře složek na základě jednoho nebo více sloupců. Každá jedinečná hodnota sloupce (pár) je nový oddíl. Například "year=2000/month=01/file". Vybraná nebo nevybraná No partitionOption:
PartitionByKey nebo None
Sloupce oddílů Cílové sloupce v mapování schémat. <sloupce oddílů> No partitionNameList
Cesta k souboru Zapisujte data do cesty ke složce nebo souboru v cílovém úložišti dat. <cesta k souboru> No • folderPath
•jméno souboru
Formát souboru Formát souboru pro cílová data. Podrobné informace najdete v článcích v podporovaném formátu , kde najdete informace o různých formátech souborů. / Ano, když vyberete Soubory v kořenové složce /
Chování kopírování Chování kopírování definované, když je zdrojem soubory ze souborového úložiště dat. Zploštěná hierarchie
Sloučit soubory
Zachovat hierarchii
Přidat dynamický obsah
No copyBehavior:
• FlattenHierarchy
• MergeFiles
• ZachovatHierarchy
Maximální počet souběžných připojení Horní limit souběžných připojení vytvořených k úložišti dat během spuštění aktivity. Zadejte hodnotu pouze v případech, kdy chcete omezit souběžná připojení. <maximální počet souběžných připojení> No maxConcurrentConnections
Velikost bloku (MB) Velikost bloku v MB použitá k zápisu dat do Lakehouse. Povolená hodnota je mezi 4 MB a 100 MB. <velikost bloku> No blockSizeInMB
Metadata Vlastní metadata nastavená při kopírování do cíle. $$LASTMODIFIED
•Výraz
• Statická hodnota
No metadata