Gegevens kopiëren en transformeren in Microsoft Fabric Lakehouse met behulp van Azure Data Factory of Azure Synapse Analytics

VAN TOEPASSING OP: Azure Data Factory Azure Synapse Analytics

Tip

Probeer Data Factory uit in Microsoft Fabric, een alles-in-één analyseoplossing voor ondernemingen. Microsoft Fabric omvat alles, van gegevensverplaatsing tot gegevenswetenschap, realtime analyses, business intelligence en rapportage. Meer informatie over het gratis starten van een nieuwe proefversie .

Microsoft Fabric Lakehouse is een platform voor gegevensarchitectuur voor het opslaan, beheren en analyseren van gestructureerde en ongestructureerde gegevens op één locatie. Als u naadloze toegang tot gegevens wilt krijgen in alle rekenengines in Microsoft Fabric, gaat u naar Lakehouse en Delta Tables voor meer informatie. Standaard worden gegevens geschreven naar Lakehouse Table in V-Order en kunt u naar Delta Lake-tabeloptimalisatie en V-Order gaan voor meer informatie.

In dit artikel wordt beschreven hoe u Copy-activiteit gebruikt om gegevens van en naar Microsoft Fabric Lakehouse te kopiëren en Gegevensstroom te gebruiken om gegevens te transformeren in Microsoft Fabric Lakehouse. Lees het inleidende artikel voor Azure Data Factory of Azure Synapse Analytics voor meer informatie.

Ondersteunde mogelijkheden

Deze Microsoft Fabric Lakehouse-connector wordt ondersteund voor de volgende mogelijkheden:

Ondersteunde mogelijkheden IR
Copy-activiteit (bron/sink) (1) (2)
Toewijzingsgegevensstroom (bron/sink) (1)
Activiteit Lookup (1) (2)
GetMetadata-activiteit (1) (2)
Activiteit verwijderen (1) (2)

(1) Azure Integration Runtime (2) Zelf-hostende Integration Runtime

Aan de slag

Als u de kopieeractiviteit wilt uitvoeren met een pijplijn, kunt u een van de volgende hulpprogramma's of SDK's gebruiken:

Een gekoppelde Microsoft Fabric Lakehouse-service maken met behulp van de gebruikersinterface

Gebruik de volgende stappen om een gekoppelde Microsoft Fabric Lakehouse-service te maken in de gebruikersinterface van Azure Portal.

  1. Blader naar het tabblad Beheren in uw Azure Data Factory- of Synapse-werkruimte en selecteer Gekoppelde services en selecteer vervolgens Nieuw:

  2. Zoek naar Microsoft Fabric Lakehouse en selecteer de connector.

    Schermopname van de optie Microsoft Fabric Lakehouse-connector.

  3. Configureer de servicedetails, test de verbinding en maak de nieuwe gekoppelde service.

    Schermopname van de configuratie voor de gekoppelde Microsoft Fabric Lakehouse-service.

configuratiedetails Verbinding maken or

De volgende secties bevatten details over eigenschappen die worden gebruikt om Data Factory-entiteiten te definiëren die specifiek zijn voor Microsoft Fabric Lakehouse.

Eigenschappen van gekoppelde service

De Microsoft Fabric Lakehouse-connector ondersteunt de volgende verificatietypen. Zie de bijbehorende secties voor meer informatie:

Verificatie van service-principal

Volg deze stappen om verificatie van de service-principal te gebruiken.

  1. Registreer een toepassing bij het Microsoft Identity Platform en voeg een clientgeheim toe. Noteer daarna deze waarden, die u gebruikt om de gekoppelde service te definiëren:

    • Toepassings-id (client), de id van de service-principal in de gekoppelde service.
    • Waarde van clientgeheim, de sleutel van de service-principal in de gekoppelde service.
    • Tenant-id
  2. Verdeel de service-principal ten minste de rol Inzender in de Microsoft Fabric-werkruimte. Volg vervolgens deze stappen:

    1. Ga naar uw Microsoft Fabric-werkruimte en selecteer Toegang beheren op de bovenste balk. Selecteer Vervolgens Personen of groepen toevoegen.

      Schermopname van het selecteren van de infrastructuurwerkruimte Toegang beheren.

       Schermopname van het deelvenster Toegang beheren in de infrastructuurwerkruimte.

    2. Voer in het deelvenster Personen toevoegen de naam van uw service-principal in en selecteer uw service-principal in de vervolgkeuzelijst.

    3. Geef de rol op als inzender of hoger (Beheer lid) en selecteer vervolgens Toevoegen.

      Schermopname van het toevoegen van de rol Fabric-werkruimte.

    4. Uw service-principal wordt weergegeven in het deelvenster Toegang beheren.

Deze eigenschappen worden ondersteund voor de gekoppelde service:

Eigenschappen Beschrijving Vereist
type De eigenschap type moet worden ingesteld op Lakehouse. Ja
workspaceId De werkruimte-id van Microsoft Fabric. Ja
artifactId De object-id van Microsoft Fabric Lakehouse. Ja
AD-tenant Geef de tenantgegevens (domeinnaam of tenant-id) op waaronder uw toepassing zich bevindt. Haal deze op door de muis in de rechterbovenhoek van Azure Portal te bewegen. Ja
servicePrincipalId Geef de client-id van de toepassing op. Ja
servicePrincipalCredentialType Het referentietype dat moet worden gebruikt voor verificatie van de service-principal. Toegestane waarden zijn ServicePrincipalKey en ServicePrincipalCert. Ja
servicePrincipalCredential De referenties van de service-principal.
Wanneer u ServicePrincipalKey als referentietype gebruikt, geeft u de waarde van het clientgeheim van de toepassing op. Markeer dit veld als SecureString om het veilig op te slaan of verwijs naar een geheim dat is opgeslagen in Azure Key Vault.
Wanneer u ServicePrincipalCert als referentie gebruikt, verwijst u naar een certificaat in Azure Key Vault en zorgt u ervoor dat het certificaatinhoudstype PKCS #12 is.
Ja
connectVia De Integration Runtime die moet worden gebruikt om verbinding te maken met het gegevensarchief. U kunt de Azure Integration Runtime of een zelf-hostende Integration Runtime gebruiken als uw gegevensarchief zich in een particulier netwerk bevindt. Als dit niet is opgegeven, wordt de standaard Azure Integration Runtime gebruikt. Nee

Voorbeeld: verificatie van de service-principalsleutel gebruiken

U kunt ook een service-principalsleutel opslaan in Azure Key Vault.

{
    "name": "MicrosoftFabricLakehouseLinkedService",
    "properties": {
        "type": "Lakehouse",
        "typeProperties": {
            "workspaceId": "<Microsoft Fabric workspace ID>",
            "artifactId": "<Microsoft Fabric Lakehouse object ID>",
            "tenant": "<tenant info, e.g. microsoft.onmicrosoft.com>",
            "servicePrincipalId": "<service principal id>",
            "servicePrincipalCredentialType": "ServicePrincipalKey",
            "servicePrincipalCredential": {
                "type": "SecureString",
                "value": "<service principal key>"
            }   
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Eigenschappen van gegevensset

De Microsoft Fabric Lakehouse-connector ondersteunt twee typen gegevenssets. Dit zijn microsoft Fabric Lakehouse Files-gegevensset en Microsoft Fabric Lakehouse Table-gegevensset. Zie de bijbehorende secties voor meer informatie.

Zie Gegevenssets voor een volledige lijst met secties en eigenschappen die beschikbaar zijn voor het definiëren van gegevenssets.

Microsoft Fabric Lakehouse Files-gegevensset

Microsoft Fabric Lakehouse-connector ondersteunt de volgende bestandsindelingen. Raadpleeg elk artikel voor op indeling gebaseerde instellingen.

De volgende eigenschappen worden ondersteund onder location instellingen in de op indeling gebaseerde Microsoft Fabric Lakehouse Files-gegevensset:

Eigenschappen Beschrijving Vereist
type De typeeigenschap onder location in de gegevensset moet worden ingesteld op LakehouseLocation. Ja
folderPath Het pad naar een map. Als u een jokerteken wilt gebruiken om mappen te filteren, slaat u deze instelling over en geeft u deze op in de instellingen van de activiteitsbron. Nee
fileName De bestandsnaam onder het opgegeven folderPath. Als u een jokerteken wilt gebruiken om bestanden te filteren, slaat u deze instelling over en geeft u deze op in de instellingen van de activiteitsbron. Nee

Voorbeeld:

{
    "name": "DelimitedTextDataset",
    "properties": {
        "type": "DelimitedText",
        "linkedServiceName": {
            "referenceName": "<Microsoft Fabric Lakehouse linked service name>",
            "type": "LinkedServiceReference"
        },
        "typeProperties": {
            "location": {
                "type": "LakehouseLocation",
                "fileName": "<file name>",
                "folderPath": "<folder name>"
            },
            "columnDelimiter": ",",
            "compressionCodec": "gzip",
            "escapeChar": "\\",
            "firstRowAsHeader": true,
            "quoteChar": "\""
        },
        "schema": [ < physical schema, optional, auto retrieved during authoring > ]
    }
}

Microsoft Fabric Lakehouse Table-gegevensset

De volgende eigenschappen worden ondersteund voor microsoft Fabric Lakehouse Table-gegevensset:

Eigenschappen Beschrijving Vereist
type De typeeigenschap van de gegevensset moet worden ingesteld op LakehouseTable. Ja
table De naam van de tabel. Ja

Voorbeeld:

{ 
    "name": "LakehouseTableDataset", 
    "properties": {
        "type": "LakehouseTable",
        "linkedServiceName": { 
            "referenceName": "<Microsoft Fabric Lakehouse linked service name>", 
            "type": "LinkedServiceReference" 
        }, 
        "typeProperties": { 
            "table": "<table_name>"   
        }, 
        "schema": [< physical schema, optional, retrievable during authoring >] 
    } 
}

Eigenschappen van de kopieeractiviteit

De eigenschappen van de kopieeractiviteit voor de gegevensset Microsoft Fabric Lakehouse Files en microsoft Fabric Lakehouse Table verschillen. Zie de bijbehorende secties voor meer informatie.

Zie Copy-activiteit configuraties en pijplijnen en activiteiten voor een volledige lijst met secties en eigenschappen die beschikbaar zijn voor het definiëren van activiteiten.

Microsoft Fabric Lakehouse Files in Copy-activiteit

Als u het gegevenssettype Microsoft Fabric Lakehouse Files wilt gebruiken als bron of sink in Copy-activiteit, gaat u naar de volgende secties voor de gedetailleerde configuraties.

Microsoft Fabric Lakehouse Files als brontype

Microsoft Fabric Lakehouse-connector ondersteunt de volgende bestandsindelingen. Raadpleeg elk artikel voor op indeling gebaseerde instellingen.

U hebt verschillende opties voor het kopiëren van gegevens uit Microsoft Fabric Lakehouse met behulp van de gegevensset Microsoft Fabric Lakehouse Files:

  • Kopieer vanuit het opgegeven pad dat is opgegeven in de gegevensset.
  • Jokertekenfilter tegen mappad of bestandsnaam, zie wildcardFolderPath en wildcardFileName.
  • Kopieer de bestanden die zijn gedefinieerd in een bepaald tekstbestand als bestandsset.fileListPath

De volgende eigenschappen bevinden zich onder storeSettings instellingen in op indeling gebaseerde kopieerbron bij het gebruik van de gegevensset Microsoft Fabric Lakehouse Files:

Eigenschappen Beschrijving Vereist
type De eigenschap type onder storeSettings moet worden ingesteld op LakehouseRead Instellingen. Ja
Zoek de bestanden die u wilt kopiëren:
OPTIE 1: statisch pad
Kopieer de map/het bestandspad dat is opgegeven in de gegevensset. Als u alle bestanden uit een map wilt kopiëren, moet u ook opgeven wildcardFileName als *.
OPTIE 2: jokerteken
- jokertekenFolderPath
Het pad naar de map met jokertekens om bronmappen te filteren.
Toegestane jokertekens zijn: * (komt overeen met nul of meer tekens) en ? (komt overeen met nul of één teken); gebruik ^ deze optie om te ontsnappen als de naam van de map een jokerteken heeft of dit escape-teken bevat.
Bekijk meer voorbeelden in voorbeelden van mappen en bestandsfilters.
Nee
OPTIE 2: jokerteken
- wildcardFileName
De bestandsnaam met jokertekens onder het opgegeven folderPath/wildcardFolderPath om bronbestanden te filteren.
Toegestane jokertekens zijn: * (komt overeen met nul of meer tekens) en ? (komt overeen met nul of één teken); gebruik ^ deze optie om te ontsnappen als uw werkelijke bestandsnaam jokertekens of dit escapeteken bevat. Bekijk meer voorbeelden in voorbeelden van mappen en bestandsfilters.
Ja
OPTIE 3: een lijst met bestanden
- fileListPath
Geeft aan om een bepaalde bestandsset te kopiëren. Wijs een tekstbestand aan met een lijst met bestanden die u wilt kopiëren, één bestand per regel. Dit is het relatieve pad naar het pad dat is geconfigureerd in de gegevensset.
Wanneer u deze optie gebruikt, geeft u geen bestandsnaam op in de gegevensset. Bekijk meer voorbeelden in voorbeelden van de lijst met bestanden.
Nee
Aanvullende instellingen:
Recursieve Hiermee wordt aangegeven of de gegevens recursief worden gelezen uit de submappen of alleen uit de opgegeven map. Wanneer recursief is ingesteld op true en de sink een archief op basis van bestanden is, wordt een lege map of submap niet gekopieerd of gemaakt in de sink.
Toegestane waarden zijn waar (standaard) en onwaar.
Deze eigenschap is niet van toepassing wanneer u configureert fileListPath.
Nee
deleteFilesAfterCompletion Geeft aan of de binaire bestanden worden verwijderd uit het bronarchief nadat ze naar het doelarchief zijn verplaatst. Het verwijderen van bestanden is per bestand, dus wanneer de kopieeractiviteit mislukt, ziet u dat sommige bestanden al naar het doel zijn gekopieerd en uit de bron zijn verwijderd, terwijl anderen nog steeds in het bronarchief blijven.
Deze eigenschap is alleen geldig in het scenario voor het kopiëren van binaire bestanden. De standaardwaarde: false.
Nee
modifiedDatetimeStart Bestandenfilter op basis van het kenmerk: Laatst gewijzigd.
De bestanden worden geselecteerd als de laatste wijzigingstijd groter is dan of gelijk is aan modifiedDatetimeStart en kleiner is dan modifiedDatetimeEnd. De tijd wordt toegepast op utc-tijdzone in de notatie 2018-12-01T05:00:00Z.
De eigenschappen kunnen NULL zijn, wat betekent dat er geen bestandskenmerkfilter wordt toegepast op de gegevensset. Wanneer modifiedDatetimeStart een datum/tijd-waarde heeft maar modifiedDatetimeEnd NULL is, betekent dit dat de bestanden waarvan het laatst gewijzigde kenmerk groter is dan of gelijk is aan de datum/tijd-waarde worden geselecteerd. Wanneer modifiedDatetimeEnd de datum/tijd-waarde is, maar modifiedDatetimeStart NULL is, betekent dit dat de bestanden waarvan het kenmerk voor het laatst is gewijzigd kleiner is dan de datum/tijd-waarde wordt geselecteerd.
Deze eigenschap is niet van toepassing wanneer u configureert fileListPath.
Nee
modifiedDatetimeEnd Hetzelfde als hierboven. Nee
enablePartitionDiscovery Geef voor bestanden die zijn gepartitioneerd op of de partities van het bestandspad moeten worden geparseerd en als andere bronkolommen moeten worden toegevoegd.
Toegestane waarden zijn onwaar (standaard) en waar.
Nee
partitionRootPath Wanneer partitiedetectie is ingeschakeld, geeft u het absolute hoofdpad op om gepartitioneerde mappen als gegevenskolommen te lezen.

Als deze niet is opgegeven, is dit standaard
- Wanneer u bestandspad gebruikt in de gegevensset of lijst met bestanden op de bron, is het pad naar de partitiehoofdmap dat is geconfigureerd in de gegevensset.
- Wanneer u het filter voor jokertekens gebruikt, is het hoofdpad van de partitie het subpad vóór het eerste jokerteken.

Stel dat u het pad in de gegevensset configureert als 'root/folder/year=2020/month=08/day=27':
- Als u het partitiehoofdpad opgeeft als root/folder/year=2020, genereert de kopieeractiviteit twee kolommen month en day met respectievelijk de waarde 08 en 27, naast de kolommen in de bestanden.
- Als het hoofdpad van de partitie niet is opgegeven, wordt er geen extra kolom gegenereerd.
Nee
maxConcurrent Verbinding maken ions De bovengrens van gelijktijdige verbindingen die tijdens de uitvoering van de activiteit tot stand zijn gebracht met het gegevensarchief. Geef alleen een waarde op wanneer u gelijktijdige verbindingen wilt beperken. Nee

Voorbeeld:

"activities": [
    {
        "name": "CopyFromLakehouseFiles",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Delimited text input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "DelimitedTextSource",
                "storeSettings": {
                    "type": "LakehouseReadSettings",
                    "recursive": true,
                    "enablePartitionDiscovery": false
                },
                "formatSettings": {
                    "type": "DelimitedTextReadSettings"
                }
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Microsoft Fabric Lakehouse Files als sinktype

Microsoft Fabric Lakehouse-connector ondersteunt de volgende bestandsindelingen. Raadpleeg elk artikel voor op indeling gebaseerde instellingen.

De volgende eigenschappen bevinden zich onder storeSettings instellingen in de op indeling gebaseerde kopiesink wanneer u de gegevensset Microsoft Fabric Lakehouse Files gebruikt:

Eigenschappen Beschrijving Vereist
type De eigenschap type onder storeSettings moet worden ingesteld op LakehouseWrite Instellingen. Ja
copyBehavior Definieert het kopieergedrag wanneer de bron bestanden is uit een gegevensarchief op basis van bestanden.

Toegestane waarden zijn:
- PreserveHierarchy (standaard): behoudt de bestandshiërarchie in de doelmap. Het relatieve pad van het bronbestand naar de bronmap is identiek aan het relatieve pad van het doelbestand naar de doelmap.
- FlattenHierarchy: Alle bestanden uit de bronmap bevinden zich op het eerste niveau van de doelmap. De doelbestanden hebben automatisch gegenereerde namen.
- MergeFiles: hiermee worden alle bestanden uit de bronmap samengevoegd tot één bestand. Als de bestandsnaam is opgegeven, is de naam van het samengevoegde bestand de opgegeven naam. Anders is het een automatisch gegenereerde bestandsnaam.
Nee
blockSizeInMB Geef de blokgrootte op in MB die wordt gebruikt voor het schrijven van gegevens naar Microsoft Fabric Lakehouse. Meer informatie over blok-blobs.
De toegestane waarde ligt tussen 4 MB en 100 MB.
Standaard bepaalt ADF automatisch de blokgrootte op basis van het type bronarchief en gegevens. Voor niet-binaire kopie in Microsoft Fabric Lakehouse is de standaardblokgrootte 100 MB, zodat deze maximaal 4,75 TB aan gegevens past. Het is mogelijk niet optimaal wanneer uw gegevens niet groot zijn, met name wanneer u zelf-hostende Integration Runtime gebruikt met een slecht netwerk, wat resulteert in een time-out van bewerkingen of prestatieproblemen. U kunt expliciet een blokgrootte opgeven, terwijl blockSizeInMB*50000 groot genoeg is om de gegevens op te slaan, anders mislukt de kopieeractiviteit.
Nee
maxConcurrent Verbinding maken ions De bovengrens van gelijktijdige verbindingen die tijdens de uitvoering van de activiteit tot stand zijn gebracht met het gegevensarchief. Geef alleen een waarde op wanneer u gelijktijdige verbindingen wilt beperken. Nee
metagegevens Stel aangepaste metagegevens in wanneer u kopieert naar sink. Elk object onder de metadata matrix vertegenwoordigt een extra kolom. De name naam van de metagegevenssleutel wordt gedefinieerd en de value gegevenswaarde van die sleutel wordt aangegeven. Als de kenmerkfunctie behouden wordt gebruikt, worden de opgegeven metagegevens samengevoegd/overschreven met de metagegevens van het bronbestand.

Toegestane gegevenswaarden zijn:
- $$LASTMODIFIED: een gereserveerde variabele geeft aan dat de laatste wijzigingstijd van de bronbestanden moet worden opgeslagen. Alleen van toepassing op een bron op basis van bestanden met binaire indeling.
-Expressie
- Statische waarde
Nee

Voorbeeld:

"activities": [
    {
        "name": "CopyToLakehouseFiles",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<Parquet output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "<source type>"
            },
            "sink": {
                "type": "ParquetSink",
                "storeSettings": {
                    "type": "LakehouseWriteSettings",
                    "copyBehavior": "PreserveHierarchy",
                    "metadata": [
                        {
                            "name": "testKey1",
                            "value": "value1"
                        },
                        {
                            "name": "testKey2",
                            "value": "value2"
                        }
                    ]
                },
                "formatSettings": {
                    "type": "ParquetWriteSettings"
                }
            }
        }
    }
]

Voorbeelden van map- en bestandsfilters

In deze sectie wordt het resulterende gedrag van het mappad en de bestandsnaam met jokertekenfilters beschreven.

folderPath fileName Recursieve Structuur van bronmap en filterresultaat (bestanden vetgedrukt worden opgehaald)
Folder* (Leeg, standaard gebruiken) false MapA
    File1.csv
    File2.json
    Submap1
        File3.csv
        File4.json
        File5.csv
AnotherFolderB
    File6.csv
Folder* (Leeg, standaard gebruiken) true MapA
    File1.csv
    File2.json
    Submap1
        File3.csv
        File4.json
        File5.csv
AnotherFolderB
    File6.csv
Folder* *.csv false MapA
    File1.csv
    File2.json
    Submap1
        File3.csv
        File4.json
        File5.csv
AnotherFolderB
    File6.csv
Folder* *.csv true MapA
    File1.csv
    File2.json
    Submap1
        File3.csv
        File4.json
        File5.csv
AnotherFolderB
    File6.csv

Voorbeelden van bestandslijsten

In deze sectie wordt het resulterende gedrag beschreven van het gebruik van bestandslijstpad in bron van kopieeractiviteit.

Ervan uitgaande dat u de volgende bronmapstructuur hebt en de bestanden vetgedrukt wilt kopiëren:

Voorbeeldbronstructuur Inhoud in FileListToCopy.txt ADF-configuratie
bestandssysteem
    MapA
        File1.csv
        File2.json
        Submap1
            File3.csv
            File4.json
            File5.csv
    Metagegevens
        FileListToCopy.txt
File1.csv
Submap1/File3.csv
Submap1/File5.csv
In gegevensset:
- Mappad: FolderA

In bron van kopieeractiviteit:
- Pad naar bestandslijst: Metadata/FileListToCopy.txt

Het bestandslijstpad verwijst naar een tekstbestand in hetzelfde gegevensarchief met een lijst met bestanden die u wilt kopiëren, één bestand per regel met het relatieve pad naar het pad dat is geconfigureerd in de gegevensset.

Enkele recursieve en copyBehavior-voorbeelden

In deze sectie wordt het resulterende gedrag van de kopieerbewerking beschreven voor verschillende combinaties van recursieve en copyBehavior-waarden.

Recursieve copyBehavior Structuur van bronmap Resulterend doel
true preserveHierarchy Map1
    Bestand1
    Bestand2
    Submap1
        Bestand3
        Bestand4
        Bestand5
De doelmap1 wordt gemaakt met dezelfde structuur als de bron:

Map1
    Bestand1
    Bestand2
    Submap1
        Bestand3
        Bestand4
        Bestand5
true flattenHierarchy Map1
    Bestand1
    Bestand2
    Submap1
        Bestand3
        Bestand4
        Bestand5
De doelmap1 wordt gemaakt met de volgende structuur:

Map1
    automatisch gegenereerde naam voor Bestand1
    automatisch gegenereerde naam voor File2
    automatisch gegenereerde naam voor File3
    automatisch gegenereerde naam voor File4
    automatisch gegenereerde naam voor File5
true mergeFiles Map1
    Bestand1
    Bestand2
    Submap1
        Bestand3
        Bestand4
        Bestand5
De doelmap1 wordt gemaakt met de volgende structuur:

Map1
    File1 + File2 + File3 + File4 + File5-inhoud worden samengevoegd in één bestand met een automatisch gegenereerde bestandsnaam.
false preserveHierarchy Map1
    Bestand1
    Bestand2
    Submap1
        Bestand3
        Bestand4
        Bestand5
De doelmap1 wordt gemaakt met de volgende structuur:

Map1
    Bestand1
    Bestand2

Submap1 met File3, File4 en File5 wordt niet opgehaald.
false flattenHierarchy Map1
    Bestand1
    Bestand2
    Submap1
        Bestand3
        Bestand4
        Bestand5
De doelmap1 wordt gemaakt met de volgende structuur:

Map1
    automatisch gegenereerde naam voor Bestand1
    automatisch gegenereerde naam voor File2

Submap1 met File3, File4 en File5 wordt niet opgehaald.
false mergeFiles Map1
    Bestand1
    Bestand2
    Submap1
        Bestand3
        Bestand4
        Bestand5
De doelmap1 wordt gemaakt met de volgende structuur:

Map1
    De inhoud van Bestand1 + File2 wordt samengevoegd in één bestand met een automatisch gegenereerde bestandsnaam. automatisch gegenereerde naam voor Bestand1

Submap1 met File3, File4 en File5 wordt niet opgehaald.

Microsoft Fabric Lakehouse Table in Copy-activiteit

Als u microsoft Fabric Lakehouse Table-gegevensset wilt gebruiken als bron- of sinkgegevensset in Copy-activiteit, gaat u naar de volgende secties voor de gedetailleerde configuraties.

Microsoft Fabric Lakehouse Table als brontype

Als u gegevens uit Microsoft Fabric Lakehouse wilt kopiëren met behulp van de gegevensset Microsoft Fabric Lakehouse Table, stelt u de typeeigenschap in de Copy-activiteit bron in op LakehouseTableSource. De volgende eigenschappen worden ondersteund in de Copy-activiteit bronsectie:

Eigenschappen Beschrijving Vereist
type De typeeigenschap van de bron van de kopieeractiviteit moet worden ingesteld op LakehouseTableSource. Ja
timestampAsOf De tijdstempel om een query uit te voeren op een oudere momentopname. Nee
versionAsOf De versie om een query uit te voeren op een oudere momentopname. Nee

Voorbeeld:

"activities":[
    {
        "name": "CopyFromLakehouseTable",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Microsoft Fabric Lakehouse Table input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "LakehouseTableSource",
                "timestampAsOf": "2023-09-23T00:00:00.000Z",
                "versionAsOf": 2
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Microsoft Fabric Lakehouse Table als sinktype

Als u gegevens wilt kopiëren naar Microsoft Fabric Lakehouse met behulp van microsoft Fabric Lakehouse Table-gegevensset, stelt u de typeeigenschap in de sink copy activity in op LakehouseTableSink. De volgende eigenschappen worden ondersteund in de sectie Copy-activiteit sink:

Eigenschappen Beschrijving Vereist
type De typeeigenschap van de bron van de kopieeractiviteit moet worden ingesteld op LakehouseTableSink. Ja

Notitie

Gegevens worden standaard geschreven naar Lakehouse Table in V-Order. Ga voor meer informatie naar Optimalisatie van Delta Lake-tabellen en V-Order.

Voorbeeld:

"activities":[
    {
        "name": "CopyToLakehouseTable",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<Microsoft Fabric Lakehouse Table output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "<source type>"
            },
            "sink": {
                "type": "LakehouseTableSink",
                "tableActionOption ": "Append"
            }
        }
    }
]

Eigenschappen van toewijzingsgegevensstroom

Wanneer u gegevens transformeert in de toewijzingsgegevensstroom, kunt u bestanden of tabellen lezen en schrijven in Microsoft Fabric Lakehouse. Zie de bijbehorende secties voor meer informatie.

Zie de brontransformatie en sinktransformatie in toewijzingsgegevensstromen voor meer informatie.

Microsoft Fabric Lakehouse Files in toewijzingsgegevensstroom

Als u de gegevensset Microsoft Fabric Lakehouse Files wilt gebruiken als bron- of sinkgegevensset in de toewijzingsgegevensstroom, gaat u naar de volgende secties voor de gedetailleerde configuraties.

Microsoft Fabric Lakehouse-bestanden als bron- of sinktype

Microsoft Fabric Lakehouse-connector ondersteunt de volgende bestandsindelingen. Raadpleeg elk artikel voor op indeling gebaseerde instellingen.

Als u een Fabric Lakehouse-connector wilt gebruiken in het type inlinegegevensset, moet u het juiste inlinegegevenssettype voor uw gegevens kiezen. U kunt DelimitedText, Avro, JSON, ORC of Parquet gebruiken, afhankelijk van uw gegevensindeling.

Microsoft Fabric Lakehouse Table in toewijzingsgegevensstroom

Als u microsoft Fabric Lakehouse Table-gegevensset wilt gebruiken als bron- of sinkgegevensset in de toewijzingsgegevensstroom, gaat u naar de volgende secties voor de gedetailleerde configuraties.

Microsoft Fabric Lakehouse Table als brontype

Er zijn geen configureerbare eigenschappen onder bronopties.

Notitie

CDC-ondersteuning voor Lakehouse-tabelbron is momenteel niet beschikbaar.

Microsoft Fabric Lakehouse Table als sinktype

De volgende eigenschappen worden ondersteund in de sectie Mapping Gegevensstroom s sink:

Name Beschrijving Vereist Toegestane waarden Eigenschap gegevensstroomscript
Bijwerkingsmethode Wanneer u alleen Invoegen toestaan selecteert of wanneer u naar een nieuwe deltatabel schrijft, ontvangt het doel alle binnenkomende rijen, ongeacht de set Met beleidsregels voor rijen. Als uw gegevens rijen met andere rijbeleidsregels bevatten, moeten ze worden uitgesloten met behulp van een voorgaande filtertransformatie.

Wanneer alle updatemethoden zijn geselecteerd, wordt een samenvoeging uitgevoerd, waarbij rijen worden ingevoegd/verwijderd/upserted/bijgewerkt volgens de set Rijbeleid met behulp van een voorgaande transformatie voor het wijzigen van rijen.
ja true of false invoegbaar
te verwijderen
upsertable
kan worden bijgewerkt
Geoptimaliseerde schrijfbewerking Behaalt een hogere doorvoer voor schrijfbewerkingen via het optimaliseren van interne shuffle in Spark-uitvoerders. Als gevolg hiervan ziet u mogelijk minder partities en bestanden die groter zijn nee true of false optimizedWrite: true
Automatisch comprimeren Nadat een schrijfbewerking is voltooid, voert Spark automatisch de OPTIMIZE opdracht uit om de gegevens opnieuw te ordenen, wat resulteert in meer partities, indien nodig, voor betere leesprestaties in de toekomst nee true of false autoCompact: true
Schema samenvoegen Met de optie Schema samenvoegen kunnen schema's worden ontwikkeld, dat wil gezegd, alle kolommen die aanwezig zijn in de huidige binnenkomende stroom, maar niet in de doel-Delta-tabel, worden automatisch toegevoegd aan het schema. Deze optie wordt ondersteund voor alle updatemethoden. nee true of false mergeSchema: true

Voorbeeld: Microsoft Fabric Lakehouse Table Sink

sink(allowSchemaDrift: true, 
    validateSchema: false, 
    input( 
        CustomerID as string,
        NameStyle as string, 
        Title as string, 
        FirstName as string, 
        MiddleName as string,
        LastName as string, 
        Suffix as string, 
        CompanyName as string,
        SalesPerson as string, 
        EmailAddress as string, 
        Phone as string, 
        PasswordHash as string, 
        PasswordSalt as string, 
        rowguid as string, 
        ModifiedDate as string 
    ), 
    deletable:false, 
    insertable:true, 
    updateable:false, 
    upsertable:false, 
    optimizedWrite: true, 
    mergeSchema: true, 
    autoCompact: true, 
    skipDuplicateMapInputs: true, 
    skipDuplicateMapOutputs: true) ~> CustomerTable

Voor fabric Lakehouse-connector op basis van tabellen in het inlinegegevenssettype hoeft u Alleen Delta als gegevenssettype te gebruiken. Hiermee kunt u gegevens lezen en schrijven uit Fabric Lakehouse-tabellen.

Eigenschappen van opzoekactiviteit

Als u meer wilt weten over de eigenschappen, controleert u de lookup-activiteit.

Eigenschappen van GetMetadata-activiteit

Als u meer wilt weten over de eigenschappen, controleert u de Activiteit GetMetadata

Activiteitseigenschappen verwijderen

Als u meer wilt weten over de eigenschappen, controleert u De activiteit Verwijderen

Zie Ondersteunde gegevensarchieven voor een lijst met gegevensarchieven die worden ondersteund als bronnen en sinks door de kopieeractiviteit.