Kopírování a transformace dat v Microsoft Fabric Lakehouse pomocí Azure Data Factory nebo Azure Synapse Analytics

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Tip

Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.

Microsoft Fabric Lakehouse je platforma architektury dat pro ukládání, správu a analýzu strukturovaných a nestrukturovaných dat v jednom umístění. Pokud chcete dosáhnout bezproblémového přístupu k datům napříč všemi výpočetními moduly v Microsoft Fabric, přejděte do tabulky Lakehouse a Delta, kde najdete další informace. Ve výchozím nastavení se data zapisují do tabulky Lakehouse v objednávce V a další informace najdete v optimalizaci tabulek Delta Lake a V-Order .

Tento článek popisuje, jak pomocí aktivita Copy kopírovat data z Microsoft Fabric Lakehouse a používat Tok dat k transformaci dat v Microsoft Fabric Lakehouse. Další informace najdete v úvodním článku pro Azure Data Factory nebo Azure Synapse Analytics.

Podporované funkce

Tento konektor Microsoft Fabric Lakehouse je podporovaný pro následující funkce:

Podporované funkce IR
aktivita Copy (zdroj/jímka) (1) (2)
Mapování toku dat (zdroj/jímka) (1)
Aktivita Lookup (1) (2)
Aktivita GetMetadata (1) (2)
Aktivita odstranění (1) (2)

(1) Prostředí Azure Integration Runtime (2) Místní prostředí Integration Runtime

Začínáme

K provedení aktivita Copy s kanálem můžete použít jeden z následujících nástrojů nebo sad SDK:

Vytvoření propojené služby Microsoft Fabric Lakehouse pomocí uživatelského rozhraní

Pomocí následujících kroků vytvořte propojenou službu Microsoft Fabric Lakehouse v uživatelském rozhraní webu Azure Portal.

  1. Přejděte na kartu Správa v pracovním prostoru Azure Data Factory nebo Synapse a vyberte Propojené služby a pak vyberte Nový:

  2. Vyhledejte Microsoft Fabric Lakehouse a vyberte konektor.

    Snímek obrazovky znázorňující výběr konektoru Microsoft Fabric Lakehouse

  3. Nakonfigurujte podrobnosti o službě, otestujte připojení a vytvořte novou propojenou službu.

    Snímek obrazovky s konfigurací propojené služby Microsoft Fabric Lakehouse

podrobnosti o konfiguraci Připojení oru

Následující části obsahují podrobnosti o vlastnostech, které slouží k definování entit služby Data Factory specifických pro Microsoft Fabric Lakehouse.

Vlastnosti propojené služby

Konektor Microsoft Fabric Lakehouse podporuje následující typy ověřování. Podrobnosti najdete v odpovídajících částech:

Ověřování instančního objektu

Pokud chcete použít ověřování instančního objektu, postupujte takto.

  1. Zaregistrujte aplikaci na platformě Microsoft Identity Platform a přidejte tajný klíč klienta. Potom si poznamenejte tyto hodnoty, které použijete k definování propojené služby:

    • ID aplikace (klienta), což je ID instančního objektu v propojené službě.
    • Hodnota tajného klíče klienta, což je instanční klíč v propojené službě.
    • ID tenanta
  2. Udělte instančnímu objektu alespoň roli Přispěvatel v pracovním prostoru Microsoft Fabric. Postupujte následovně:

    1. Přejděte do pracovního prostoru Microsoft Fabric a na horním panelu vyberte Spravovat přístup . Pak vyberte Přidat lidi nebo skupiny.

      Snímek obrazovky znázorňující výběr pracovního prostoru Prostředky infrastruktury – Spravovat přístup

       Snímek obrazovky znázorňující podokno Spravovat přístup k pracovnímu prostoru Prostředky infrastruktury

    2. V podokně Přidat lidi zadejte název instančního objektu a v rozevíracím seznamu vyberte instanční objekt.

    3. Zadejte roli přispěvatele nebo vyšší (Správa člena) a pak vyberte Přidat.

      Snímek obrazovky znázorňující přidání role pracovního prostoru Fabric

    4. Instanční objekt se zobrazí v podokně Správa přístupu .

Propojená služba podporuje tyto vlastnosti:

Vlastnost Popis Povinní účastníci
type Vlastnost typu musí být nastavena na Lakehouse. Ano
workspaceId ID pracovního prostoru Microsoft Fabric. Ano
artifactId ID objektu Microsoft Fabric Lakehouse. Ano
tenant Zadejte informace o tenantovi (název domény nebo ID tenanta), pod kterým se vaše aplikace nachází. Načtěte ho tak, že nainstalujete myš v pravém horním rohu webu Azure Portal. Ano
servicePrincipalId Zadejte ID klienta aplikace. Ano
servicePrincipalCredentialType Typ přihlašovacích údajů, který se má použít pro ověřování instančního objektu. Povolené hodnoty jsou ServicePrincipalKey a ServicePrincipalCert. Ano
servicePrincipalCredential Přihlašovací údaje instančního objektu.
Pokud jako typ přihlašovacích údajů použijete ServicePrincipalKey , zadejte hodnotu tajného klíče klienta aplikace. Označte toto pole jako SecureString , abyste ho mohli bezpečně uložit, nebo odkazovat na tajný kód uložený ve službě Azure Key Vault.
Pokud jako přihlašovací údaje použijete ServicePrincipalCert , odkazujte na certifikát ve službě Azure Key Vault a ujistěte se, že typ obsahu certifikátu je PKCS #12.
Ano
connectVia Prostředí Integration Runtime , které se má použít pro připojení k úložišti dat. Pokud je vaše úložiště dat v privátní síti, můžete použít prostředí Azure Integration Runtime nebo místní prostředí Integration Runtime. Pokud není zadaný, použije se výchozí prostředí Azure Integration Runtime. No

Příklad: Použití ověřování pomocí instančního klíče

Ve službě Azure Key Vault můžete také uložit instanční klíč.

{
    "name": "MicrosoftFabricLakehouseLinkedService",
    "properties": {
        "type": "Lakehouse",
        "typeProperties": {
            "workspaceId": "<Microsoft Fabric workspace ID>",
            "artifactId": "<Microsoft Fabric Lakehouse object ID>",
            "tenant": "<tenant info, e.g. microsoft.onmicrosoft.com>",
            "servicePrincipalId": "<service principal id>",
            "servicePrincipalCredentialType": "ServicePrincipalKey",
            "servicePrincipalCredential": {
                "type": "SecureString",
                "value": "<service principal key>"
            }   
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Vlastnosti datové sady

Konektor Microsoft Fabric Lakehouse podporuje dva typy datových sad, což jsou datové sady Microsoft Fabric Lakehouse Files a datová sada tabulek Microsoft Fabric Lakehouse. Podrobnosti najdete v odpovídajících částech.

Úplný seznam oddílů a vlastností dostupných pro definování datových sad najdete v tématu Datové sady.

Datová sada Microsoft Fabric Lakehouse Files

Konektor Microsoft Fabric Lakehouse podporuje následující formáty souborů. Informace o nastaveních založených na formátu najdete v jednotlivých článcích.

V nastaveních datové sady Microsoft Fabric Lakehouse Files se podporují location následující vlastnosti:

Vlastnost Popis Povinní účastníci
type Vlastnost location typu v datové sadě musí být nastavena na LakehouseLocation. Ano
folderPath Cesta ke složce. Pokud chcete k filtrování složek použít zástupný znak, přeskočte toto nastavení a zadejte ho v nastavení zdroje aktivity. No
fileName Název souboru v dané cestě folderPath. Pokud chcete k filtrování souborů použít zástupný znak, přeskočte toto nastavení a zadejte ho v nastavení zdroje aktivity. No

Příklad:

{
    "name": "DelimitedTextDataset",
    "properties": {
        "type": "DelimitedText",
        "linkedServiceName": {
            "referenceName": "<Microsoft Fabric Lakehouse linked service name>",
            "type": "LinkedServiceReference"
        },
        "typeProperties": {
            "location": {
                "type": "LakehouseLocation",
                "fileName": "<file name>",
                "folderPath": "<folder name>"
            },
            "columnDelimiter": ",",
            "compressionCodec": "gzip",
            "escapeChar": "\\",
            "firstRowAsHeader": true,
            "quoteChar": "\""
        },
        "schema": [ < physical schema, optional, auto retrieved during authoring > ]
    }
}

Datová sada tabulek Microsoft Fabric Lakehouse

Pro datovou sadu tabulky Microsoft Fabric Lakehouse se podporují následující vlastnosti:

Vlastnost Popis Povinní účastníci
type Vlastnost typu datové sady musí být nastavena na LakehouseTable. Ano
table Název tabulky. Ano

Příklad:

{ 
    "name": "LakehouseTableDataset", 
    "properties": {
        "type": "LakehouseTable",
        "linkedServiceName": { 
            "referenceName": "<Microsoft Fabric Lakehouse linked service name>", 
            "type": "LinkedServiceReference" 
        }, 
        "typeProperties": { 
            "table": "<table_name>"   
        }, 
        "schema": [< physical schema, optional, retrievable during authoring >] 
    } 
}

Vlastnosti aktivity kopírování

Vlastnosti aktivity kopírování pro datovou sadu Microsoft Fabric Lakehouse Files a datovou sadu tabulky Microsoft Fabric Lakehouse se liší. Podrobnosti najdete v odpovídajících částech.

Úplný seznam oddílů a vlastností dostupných pro definování aktivit najdete v tématu aktivita Copy konfigurace a kanály a aktivity.

Soubory Microsoft Fabric Lakehouse v aktivita Copy

Pokud chcete jako zdroj nebo jímku v aktivita Copy použít typ datové sady Microsoft Fabric Lakehouse Files, projděte si podrobné konfigurace v následujících částech.

Soubory Microsoft Fabric Lakehouse jako typ zdroje

Konektor Microsoft Fabric Lakehouse podporuje následující formáty souborů. Informace o nastaveních založených na formátu najdete v jednotlivých článcích.

Můžete zkopírovat data z Microsoft Fabric Lakehouse pomocí datové sady Microsoft Fabric Lakehouse Files:

  • Zkopírujte z dané cesty zadané v datové sadě.
  • Filtr zástupných znaků pro cestu ke složce nebo název souboru, viz wildcardFolderPath a wildcardFileName.
  • Zkopírujte soubory definované v daném textovém souboru jako sadu souborů, viz fileListPath.

Následující vlastnosti jsou v storeSettings nastavení ve zdroji kopírování založeném na formátu při použití datové sady Microsoft Fabric Lakehouse Files:

Vlastnost Popis Povinní účastníci
type Vlastnost typu v části storeSettings musí být nastavena na LakehouseRead Nastavení. Ano
Vyhledejte soubory, které chcete zkopírovat:
MOŽNOST 1: Statická cesta
Zkopírujte z cesty ke složce nebo souboru zadané v datové sadě. Pokud chcete zkopírovat všechny soubory ze složky, dále zadejte wildcardFileName jako *.
MOŽNOST 2: Zástupný znak
– zástupný znakFolderPath
Cesta ke složce se zástupnými znaky pro filtrování zdrojových složek.
Povolené zástupné znaky jsou: * (odpovídá nule nebo více znaků) a ? (odpovídá nule nebo jednomu znaku), použijte ^ k řídicímu znaku, pokud má skutečný název složky zástupný znak nebo tento řídicí znak uvnitř.
Další příklady najdete v příkladech filtru složek a souborů.
No
MOŽNOST 2: Zástupný znak
- wildcardFileName
Název souboru se zástupnými znaky v dané složcePath/wildcardFolderPath pro filtrování zdrojových souborů.
Povolené zástupné znaky jsou: * (odpovídá nule nebo více znaků) a ? (odpovídá nule nebo jednomu znaku), použijte ^ k řídicímu znaku, pokud má váš skutečný název souboru zástupný znak nebo tento řídicí znak uvnitř. Další příklady najdete v příkladech filtru složek a souborů.
Ano
MOŽNOST 3: seznam souborů
- fileListPath
Označuje, že chcete zkopírovat danou sadu souborů. Přejděte na textový soubor, který obsahuje seznam souborů, které chcete kopírovat, jeden soubor na řádek, což je relativní cesta k cestě nakonfigurované v datové sadě.
Při použití této možnosti nezadávejte v datové sadě název souboru. Další příklady najdete v příkladech seznamu souborů.
No
Další nastavení:
Rekurzivní Určuje, zda se data čtou rekurzivně z podsložek nebo pouze ze zadané složky. Pokud je rekurzivní nastavena na hodnotu true a jímka je úložiště založené na souborech, prázdná složka nebo podsložka se v jímce nezkopíruje ani nevytvoří.
Povolené hodnoty jsou true (výchozí) a false.
Tato vlastnost se nepoužije při konfiguraci fileListPath.
No
deleteFilesAfterCompletion Určuje, zda se binární soubory odstraní ze zdrojového úložiště po úspěšném přesunutí do cílového úložiště. Odstranění souboru je na jeden soubor, takže když aktivita kopírování selže, uvidíte, že některé soubory se už zkopírovaly do cíle a odstranily ze zdroje, zatímco ostatní zůstávají ve zdrojovém úložišti.
Tato vlastnost je platná pouze ve scénáři kopírování binárních souborů. Výchozí hodnota: false.
No
modifiedDatetimeStart Filtr souborů na základě atributu: Naposledy změněno.
Soubory budou vybrány, pokud je jejich čas poslední změny větší nebo roven modifiedDatetimeStart a menší než modifiedDatetimeEnd. Čas se použije u časového pásma UTC ve formátu "2018-12-01T05:00:00Z".
Vlastnosti můžou mít hodnotu NULL, což znamená, že u datové sady není použit žádný filtr atributů souboru. Pokud modifiedDatetimeStart má hodnotu datetime, ale modifiedDatetimeEnd má hodnotu NULL, znamená to, že soubory, jejichž atribut poslední změny je větší nebo roven hodnotě datetime, budou vybrány. Pokud modifiedDatetimeEnd má hodnotu datetime, ale modifiedDatetimeStart má hodnotu NULL, znamená to, že soubory, jejichž atribut poslední změny je menší než hodnota datetime, budou vybrány.
Tato vlastnost se nepoužije při konfiguraci fileListPath.
No
modifiedDatetimeEnd Platí to samé jako výše. No
enablePartitionDiscovery U souborů, které jsou rozdělené na oddíly, určete, zda chcete analyzovat oddíly z cesty k souboru a přidat je jako další zdrojové sloupce.
Povolené hodnoty jsou false (výchozí) a true.
No
partitionRootPath Pokud je povolené zjišťování oddílů, zadejte absolutní kořenovou cestu, abyste mohli číst dělené složky jako datové sloupce.

Pokud ho nezadáte, ve výchozím nastavení
– Při použití cesty k souboru v datové sadě nebo seznamu souborů ve zdroji je kořenová cesta oddílu cesta nakonfigurovaná v datové sadě.
– Pokud používáte filtr složky se zástupnými otazemi, je kořenová cesta oddílu dílčí cestou před prvním zástupným znakem.

Předpokládejme například, že cestu v datové sadě nakonfigurujete jako "root/folder/year=2020/month=08/day=27":
– Pokud zadáte kořenovou cestu oddílu jako "root/folder/year=2020", aktivita kopírování generuje dva další sloupce month a day s hodnotou 08 a 27 kromě sloupců uvnitř souborů.
– Pokud není zadaná kořenová cesta oddílu, nevygeneruje se žádný další sloupec.
No
maxConcurrent Připojení ions Horní limit souběžných připojení vytvořených k úložišti dat během spuštění aktivity. Zadejte hodnotu pouze v případech, kdy chcete omezit souběžná připojení. No

Příklad:

"activities": [
    {
        "name": "CopyFromLakehouseFiles",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Delimited text input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "DelimitedTextSource",
                "storeSettings": {
                    "type": "LakehouseReadSettings",
                    "recursive": true,
                    "enablePartitionDiscovery": false
                },
                "formatSettings": {
                    "type": "DelimitedTextReadSettings"
                }
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Soubory Microsoft Fabric Lakehouse jako typ jímky

Konektor Microsoft Fabric Lakehouse podporuje následující formáty souborů. Informace o nastaveních založených na formátu najdete v jednotlivých článcích.

Následující vlastnosti jsou v storeSettings nastavení v jímce kopírování založené na formátu při použití datové sady Microsoft Fabric Lakehouse Files:

Vlastnost Popis Povinní účastníci
type Vlastnost storeSettings typu pod musí být nastavena na LakehouseWrite Nastavení. Ano
copyBehavior Definuje chování kopírování, pokud je zdrojem soubory ze souborového úložiště dat.

Povolené hodnoty jsou následující:
- PreserveHierarchy (výchozí):: Zachová hierarchii souborů v cílové složce. Relativní cesta zdrojového souboru ke zdrojové složce je shodná s relativní cestou cílového souboru s cílovou složkou.
- FlattenHierarchy: Všechny soubory ze zdrojové složky jsou na první úrovni cílové složky. Cílové soubory mají automaticky vygenerované názvy.
- MergeFiles: Sloučí všechny soubory ze zdrojové složky do jednoho souboru. Pokud je zadaný název souboru, je zadaným názvem sloučený soubor. V opačném případě se jedná o automaticky vygenerovaný název souboru.
No
blockSizeInMB Zadejte velikost bloku v MB použitou k zápisu dat do Microsoft Fabric Lakehouse. Přečtěte si další informace o objektech blob bloku.
Povolená hodnota je mezi 4 MB a 100 MB.
Ve výchozím nastavení ADF automaticky určuje velikost bloku na základě typu a dat zdrojového úložiště. Pro nebinární kopírování do Microsoft Fabric Lakehouse je výchozí velikost bloku 100 MB, aby se vešla maximálně do 4,75 TB dat. Nemusí být optimální, pokud vaše data nejsou velká, zejména pokud používáte místní prostředí Integration Runtime s nízkým výkonem sítě, což vede k vypršení časového limitu operace nebo problému s výkonem. Můžete explicitně zadat velikost bloku, zatímco se ujistěte, že blockSizeInMB*50000 je dostatečně velký k uložení dat, jinak se spuštění aktivity kopírování nezdaří.
No
maxConcurrent Připojení ions Horní limit souběžných připojení vytvořených k úložišti dat během spuštění aktivity. Zadejte hodnotu pouze v případech, kdy chcete omezit souběžná připojení. No
metadata Při kopírování do jímky nastavte vlastní metadata. Každý objekt pod metadata polem představuje další sloupec. Definuje name název klíče metadat a value označuje hodnotu dat tohoto klíče. Pokud se použije funkce zachování atributů, zadaná metadata se sjednocují nebo přepíšou metadaty zdrojového souboru.

Povolené datové hodnoty jsou:
- $$LASTMODIFIED: Rezervovaná proměnná označuje, že se má uložit čas poslední změny zdrojových souborů. Platí pouze pro souborový zdroj s binárním formátem.
-Výraz
- Statická hodnota
No

Příklad:

"activities": [
    {
        "name": "CopyToLakehouseFiles",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<Parquet output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "<source type>"
            },
            "sink": {
                "type": "ParquetSink",
                "storeSettings": {
                    "type": "LakehouseWriteSettings",
                    "copyBehavior": "PreserveHierarchy",
                    "metadata": [
                        {
                            "name": "testKey1",
                            "value": "value1"
                        },
                        {
                            "name": "testKey2",
                            "value": "value2"
                        }
                    ]
                },
                "formatSettings": {
                    "type": "ParquetWriteSettings"
                }
            }
        }
    }
]

Příklady filtrů složek a souborů

Tato část popisuje výsledné chování cesty ke složce a názvu souboru pomocí filtrů zástupných znaků.

folderPath fileName Rekurzivní Struktura zdrojové složky a výsledek filtru (soubory se načítají tučně )
Folder* (Prázdné, použít výchozí) false (nepravda) FolderA
    File1.csv
    File2.json
    Podsložka 1
        File3.csv
        File4.json
        File5.csv
AnotherFolderB
    File6.csv
Folder* (Prázdné, použít výchozí) true FolderA
    File1.csv
    File2.json
    Podsložka 1
        File3.csv
        File4.json
        File5.csv
AnotherFolderB
    File6.csv
Folder* *.csv false (nepravda) FolderA
    File1.csv
    File2.json
    Podsložka 1
        File3.csv
        File4.json
        File5.csv
AnotherFolderB
    File6.csv
Folder* *.csv true FolderA
    File1.csv
    File2.json
    Podsložka 1
        File3.csv
        File4.json
        File5.csv
AnotherFolderB
    File6.csv

Příklady seznamu souborů

Tato část popisuje výsledné chování použití cesty k seznamu souborů ve zdroji aktivity kopírování.

Za předpokladu, že máte následující strukturu zdrojové složky a chcete zkopírovat soubory tučně:

Ukázková zdrojová struktura Obsah v FileListToCopy.txt Konfigurace ADF
systém souborů
    FolderA
        File1.csv
        File2.json
        Podsložka 1
            File3.csv
            File4.json
            File5.csv
    Metadata
        FileListToCopy.txt
File1.csv
Podsložka1/File3.csv
Podsložka1/File5.csv
V datové sadě:
- Cesta ke složce: FolderA

Ve zdroji aktivity kopírování:
- Cesta k seznamu souborů: Metadata/FileListToCopy.txt

Cesta k seznamu souborů odkazuje na textový soubor ve stejném úložišti dat, který obsahuje seznam souborů, které chcete kopírovat, jeden soubor na řádek s relativní cestou k cestě nakonfigurované v datové sadě.

Příklady rekurzivního a copyBehavioru

Tato část popisuje výsledné chování operace kopírování pro různé kombinace rekurzivních a copyBehavior hodnot.

Rekurzivní copyBehavior Struktura zdrojových složek Výsledný cíl
true preserveHierarchy Složka 1
    Soubor 1
    Soubor 2
    Podsložka 1
        Soubor 3
        Soubor 4
        Soubor 5
Cílová složka1 se vytvoří se stejnou strukturou jako zdroj:

Složka 1
    Soubor 1
    Soubor 2
    Podsložka 1
        Soubor 3
        Soubor 4
        Soubor 5
true flattenHierarchy Složka 1
    Soubor 1
    Soubor 2
    Podsložka 1
        Soubor 3
        Soubor 4
        Soubor 5
Cílová složka1 se vytvoří s následující strukturou:

Složka 1
    automaticky vygenerovaný název souboru 1
    automaticky vygenerovaný název souboru 2
    automaticky vygenerovaný název souboru 3
    automaticky vygenerovaný název souboru 4
    automaticky vygenerovaný název souboru 5
true mergeFiles Složka 1
    Soubor 1
    Soubor 2
    Podsložka 1
        Soubor 3
        Soubor 4
        Soubor 5
Cílová složka1 se vytvoří s následující strukturou:

Složka 1
    File1 + File2 + File3 + File4 + File5 obsah jsou sloučeny do jednoho souboru s automaticky vygenerovaným názvem souboru.
false (nepravda) preserveHierarchy Složka 1
    Soubor 1
    Soubor 2
    Podsložka 1
        Soubor 3
        Soubor 4
        Soubor 5
Cílová složka1 se vytvoří s následující strukturou:

Složka 1
    Soubor 1
    Soubor 2

Podsložka1 se souborem File3, File4 a File5 se nenabídne.
false (nepravda) flattenHierarchy Složka 1
    Soubor 1
    Soubor 2
    Podsložka 1
        Soubor 3
        Soubor 4
        Soubor 5
Cílová složka1 se vytvoří s následující strukturou:

Složka 1
    automaticky vygenerovaný název souboru 1
    automaticky vygenerovaný název souboru 2

Podsložka1 se souborem File3, File4 a File5 se nenabídne.
false (nepravda) mergeFiles Složka 1
    Soubor 1
    Soubor 2
    Podsložka 1
        Soubor 3
        Soubor 4
        Soubor 5
Cílová složka1 se vytvoří s následující strukturou:

Složka 1
    Obsah File1 + File2 se sloučí do jednoho souboru s automaticky vygenerovaným názvem souboru. automaticky vygenerovaný název souboru 1

Podsložka1 se souborem File3, File4 a File5 se nenabídne.

Tabulka Microsoft Fabric Lakehouse v aktivita Copy

Pokud chcete datovou sadu Tabulky Microsoft Fabric Lakehouse použít jako zdrojovou datovou sadu nebo datovou sadu jímky v aktivita Copy, projděte si podrobné konfigurace v následujících částech.

Tabulka Microsoft Fabric Lakehouse jako typ zdroje

Pokud chcete kopírovat data z Microsoft Fabric Lakehouse pomocí datové sady Tabulky Microsoft Fabric Lakehouse, nastavte vlastnost typu ve zdroji aktivita Copy na LakehouseTableSource. V části zdroje aktivita Copy jsou podporovány následující vlastnosti:

Vlastnost Popis Povinní účastníci
type Vlastnost typu zdroje aktivity kopírování musí být nastavena na LakehouseTableSource. Ano
timestampAsOf Časové razítko pro dotazování na starší snímek No
versionAsOf Verze, která se má dotazovat na starší snímek. No

Příklad:

"activities":[
    {
        "name": "CopyFromLakehouseTable",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Microsoft Fabric Lakehouse Table input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "LakehouseTableSource",
                "timestampAsOf": "2023-09-23T00:00:00.000Z",
                "versionAsOf": 2
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Tabulka Microsoft Fabric Lakehouse jako typ jímky

Pokud chcete zkopírovat data do Microsoft Fabric Lakehouse pomocí datové sady Tabulky Microsoft Fabric Lakehouse, nastavte vlastnost typu v jímce aktivity kopírování na LakehouseTableSink. V části jímky aktivita Copy jsou podporovány následující vlastnosti:

Vlastnost Popis Povinní účastníci
type Vlastnost typu zdroje aktivity kopírování musí být nastavena na LakehouseTableSink. Ano

Poznámka:

Data se ve výchozím nastavení zapisují do tabulky Lakehouse v pořadí V. Další informace najdete v tématu Optimalizace tabulek Delta Lake a pořadí V-Order.

Příklad:

"activities":[
    {
        "name": "CopyToLakehouseTable",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<Microsoft Fabric Lakehouse Table output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "<source type>"
            },
            "sink": {
                "type": "LakehouseTableSink",
                "tableActionOption ": "Append"
            }
        }
    }
]

Mapování vlastností toku dat

Při transformaci dat při mapování toku dat můžete číst a zapisovat do souborů nebo tabulek v Microsoft Fabric Lakehouse. Podrobnosti najdete v odpovídajících částech.

Další informace najdete v tématu transformace zdroje a transformace jímky v mapování toků dat.

Soubory Microsoft Fabric Lakehouse v mapování toku dat

Pokud chcete v mapování toku dat použít datovou sadu Microsoft Fabric Lakehouse Files jako zdrojovou datovou sadu nebo datovou sadu jímky, přejděte k následujícím částem podrobných konfigurací.

Soubory Microsoft Fabric Lakehouse jako typ zdroje nebo jímky

Konektor Microsoft Fabric Lakehouse podporuje následující formáty souborů. Informace o nastaveních založených na formátu najdete v jednotlivých článcích.

Pokud chcete používat konektor založený na souborech Fabric Lakehouse v vložené datové sadě, musíte pro svá data zvolit správný vložený typ datové sady. V závislosti na formátu dat můžete použít Oddělovač, Avro, JSON, ORC nebo Parquet.

Tabulka Microsoft Fabric Lakehouse v mapování toku dat

Pokud chcete použít datovou sadu Tabulky Microsoft Fabric Lakehouse jako zdrojovou datovou sadu nebo datovou sadu jímky při mapování toku dat, přejděte k následujícím částem podrobných konfigurací.

Tabulka Microsoft Fabric Lakehouse jako typ zdroje

V možnostech zdroje nejsou konfigurovatelné vlastnosti.

Poznámka:

Podpora CDC pro zdroj tabulek Lakehouse není aktuálně dostupná.

Tabulka Microsoft Fabric Lakehouse jako typ jímky

V části Mapování Tok dat s jímky jsou podporovány následující vlastnosti:

Název Popis Povinní účastníci Povolené hodnoty Vlastnost skriptu toku dat
Metoda aktualizace Když vyberete možnost Povolit vložení samostatně nebo když zapíšete do nové tabulky delta, cíl přijme všechny příchozí řádky bez ohledu na nastavené zásady řádků. Pokud data obsahují řádky jiných zásad řádků, je potřeba je vyloučit pomocí předchozí transformace filtru.

Pokud jsou vybrány všechny metody Aktualizace sloučení, kde jsou řádky vloženy, odstraněny, upserted/aktualizovány podle zásad řádků nastavené pomocí předchozí transformace Alter Row.
ano true nebo false vložitelné
s možností odsud
upsertable
Aktualizovatelné
Optimalizovaný zápis Dosažení vyšší propustnosti operace zápisu prostřednictvím optimalizace interního náhodného prohazování v exekutorech Sparku. V důsledku toho si můžete všimnout menšího počtu oddílů a souborů, které mají větší velikost. ne true nebo false optimizedWrite: true
Automaticky zkomprimovat Po dokončení jakékoli operace zápisu OPTIMIZE Spark automaticky spustí příkaz k změně uspořádání dat, což v případě potřeby povede k dalším oddílům, aby se v budoucnu zlepšil výkon čtení. ne true nebo false autoCompact: true
Sloučení schématu Možnost schématu sloučení umožňuje vývoj schématu, tj. všechny sloupce, které jsou přítomné v aktuálním příchozím datovém proudu, ale ne v cílové tabulce Delta, se automaticky přidají do svého schématu. Tato možnost je podporována napříč všemi metodami aktualizace. ne true nebo false mergeSchema: true

Příklad: Jímka tabulky Microsoft Fabric Lakehouse

sink(allowSchemaDrift: true, 
    validateSchema: false, 
    input( 
        CustomerID as string,
        NameStyle as string, 
        Title as string, 
        FirstName as string, 
        MiddleName as string,
        LastName as string, 
        Suffix as string, 
        CompanyName as string,
        SalesPerson as string, 
        EmailAddress as string, 
        Phone as string, 
        PasswordHash as string, 
        PasswordSalt as string, 
        rowguid as string, 
        ModifiedDate as string 
    ), 
    deletable:false, 
    insertable:true, 
    updateable:false, 
    upsertable:false, 
    optimizedWrite: true, 
    mergeSchema: true, 
    autoCompact: true, 
    skipDuplicateMapInputs: true, 
    skipDuplicateMapOutputs: true) ~> CustomerTable

U konektoru založeného na tabulce Fabric Lakehouse v vložené datové sadě stačí jako typ datové sady použít pouze Delta. To vám umožní číst a zapisovat data z tabulek Fabric Lakehouse.

Vlastnosti aktivity vyhledávání

Podrobnosti o vlastnostech najdete v aktivitě Vyhledávání.

Vlastnosti aktivity GetMetadata

Podrobnosti o vlastnostech najdete v aktivitě GetMetadata.

Odstranění vlastností aktivity

Podrobnosti o vlastnostech najdete v aktivitě Odstranění.

Seznam úložišť dat podporovaných jako zdroje a jímky aktivitou kopírování najdete v tématu Podporované úložiště dat.