Gegevens kopiëren en transformeren in Microsoft Fabric Lakehouse met behulp van Azure Data Factory of Azure Synapse Analytics

Artikel
03/07/2024

VAN TOEPASSING OP: Azure Data Factory Azure Synapse Analytics

Tip

Probeer Data Factory uit in Microsoft Fabric, een alles-in-één analyseoplossing voor ondernemingen. Microsoft Fabric omvat alles, van gegevensverplaatsing tot gegevenswetenschap, realtime analyses, business intelligence en rapportage. Meer informatie over het gratis starten van een nieuwe proefversie .

Microsoft Fabric Lakehouse is een platform voor gegevensarchitectuur voor het opslaan, beheren en analyseren van gestructureerde en ongestructureerde gegevens op één locatie. Als u naadloze toegang tot gegevens wilt krijgen in alle rekenengines in Microsoft Fabric, gaat u naar Lakehouse en Delta Tables voor meer informatie. Standaard worden gegevens geschreven naar Lakehouse Table in V-Order en kunt u naar Delta Lake-tabeloptimalisatie en V-Order gaan voor meer informatie.

In dit artikel wordt beschreven hoe u Copy-activiteit gebruikt om gegevens van en naar Microsoft Fabric Lakehouse te kopiëren en Gegevensstroom te gebruiken om gegevens te transformeren in Microsoft Fabric Lakehouse. Lees het inleidende artikel voor Azure Data Factory of Azure Synapse Analytics voor meer informatie.

Ondersteunde mogelijkheden

Deze Microsoft Fabric Lakehouse-connector wordt ondersteund voor de volgende mogelijkheden:

Ondersteunde mogelijkheden	IR
Copy-activiteit (bron/sink)	(1) (2)
Toewijzingsgegevensstroom (bron/sink)	(1)
Activiteit Lookup	(1) (2)
GetMetadata-activiteit	(1) (2)
Activiteit verwijderen	(1) (2)

(1) Azure Integration Runtime (2) Zelf-hostende Integration Runtime

Aan de slag

Als u de kopieeractiviteit wilt uitvoeren met een pijplijn, kunt u een van de volgende hulpprogramma's of SDK's gebruiken:

Een gekoppelde Microsoft Fabric Lakehouse-service maken met behulp van de gebruikersinterface

Gebruik de volgende stappen om een gekoppelde Microsoft Fabric Lakehouse-service te maken in de gebruikersinterface van Azure Portal.

Blader naar het tabblad Beheren in uw Azure Data Factory- of Synapse-werkruimte en selecteer Gekoppelde services en selecteer vervolgens Nieuw:
- Azure Data Factory
- Azure Synapse
Zoek naar Microsoft Fabric Lakehouse en selecteer de connector.
Configureer de servicedetails, test de verbinding en maak de nieuwe gekoppelde service.

Configuratiedetails van connector

De volgende secties bevatten details over eigenschappen die worden gebruikt om Data Factory-entiteiten te definiëren die specifiek zijn voor Microsoft Fabric Lakehouse.

Eigenschappen van gekoppelde service

De Microsoft Fabric Lakehouse-connector ondersteunt de volgende verificatietypen. Zie de bijbehorende secties voor meer informatie:

Verificatie van service-principal

Verificatie van service-principal

Volg deze stappen om verificatie van de service-principal te gebruiken.

Registreer een toepassing bij het Microsoft Identity Platform en voeg een clientgeheim toe. Noteer daarna deze waarden, die u gebruikt om de gekoppelde service te definiëren:
- Toepassings-id (client), de id van de service-principal in de gekoppelde service.
- Waarde van clientgeheim, de sleutel van de service-principal in de gekoppelde service.
- Tenant-id
Verdeel de service-principal ten minste de rol Inzender in de Microsoft Fabric-werkruimte. Volg vervolgens deze stappen:
1. Ga naar uw Microsoft Fabric-werkruimte en selecteer Toegang beheren op de bovenste balk. Selecteer Vervolgens Personen of groepen toevoegen.
2. Voer in het deelvenster Personen toevoegen de naam van uw service-principal in en selecteer uw service-principal in de vervolgkeuzelijst.
  
  Notitie
  
  De service-principal wordt niet weergegeven in de lijst Personen toevoegen, tenzij de instellingen van de Power BI-tenant toegang tot Fabric-API's inschakelen.
3. Geef de rol op als Inzender of hoger (Beheerder, Lid) en selecteer Vervolgens Toevoegen.
4. Uw service-principal wordt weergegeven in het deelvenster Toegang beheren.

Deze eigenschappen worden ondersteund voor de gekoppelde service:

Eigenschappen	Beschrijving	Vereist
type	De eigenschap type moet worden ingesteld op Lakehouse.	Ja
workspaceId	De werkruimte-id van Microsoft Fabric.	Ja
artifactId	De object-id van Microsoft Fabric Lakehouse.	Ja
AD-tenant	Geef de tenantgegevens (domeinnaam of tenant-id) op waaronder uw toepassing zich bevindt. Haal deze op door de muis in de rechterbovenhoek van Azure Portal te bewegen.	Ja
servicePrincipalId	Geef de client-id van de toepassing op.	Ja
servicePrincipalCredentialType	Het referentietype dat moet worden gebruikt voor verificatie van de service-principal. Toegestane waarden zijn ServicePrincipalKey en ServicePrincipalCert.	Ja
servicePrincipalCredential	De referenties van de service-principal. Wanneer u ServicePrincipalKey als referentietype gebruikt, geeft u de waarde van het clientgeheim van de toepassing op. Markeer dit veld als SecureString om het veilig op te slaan of verwijs naar een geheim dat is opgeslagen in Azure Key Vault. Wanneer u ServicePrincipalCert als referentie gebruikt, verwijst u naar een certificaat in Azure Key Vault en zorgt u ervoor dat het certificaatinhoudstype PKCS #12 is.	Ja
connectVia	De Integration Runtime die moet worden gebruikt om verbinding te maken met het gegevensarchief. U kunt de Azure Integration Runtime of een zelf-hostende Integration Runtime gebruiken als uw gegevensarchief zich in een particulier netwerk bevindt. Als dit niet is opgegeven, wordt de standaard Azure Integration Runtime gebruikt.	Nee

Voorbeeld: verificatie van de service-principalsleutel gebruiken

U kunt ook een service-principalsleutel opslaan in Azure Key Vault.

{
    "name": "MicrosoftFabricLakehouseLinkedService",
    "properties": {
        "type": "Lakehouse",
        "typeProperties": {
            "workspaceId": "<Microsoft Fabric workspace ID>",
            "artifactId": "<Microsoft Fabric Lakehouse object ID>",
            "tenant": "<tenant info, e.g. microsoft.onmicrosoft.com>",
            "servicePrincipalId": "<service principal id>",
            "servicePrincipalCredentialType": "ServicePrincipalKey",
            "servicePrincipalCredential": {
                "type": "SecureString",
                "value": "<service principal key>"
            }   
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Eigenschappen van gegevensset

De Microsoft Fabric Lakehouse-connector ondersteunt twee typen gegevenssets. Dit zijn microsoft Fabric Lakehouse Files-gegevensset en Microsoft Fabric Lakehouse Table-gegevensset. Zie de bijbehorende secties voor meer informatie.

Microsoft Fabric Lakehouse Files-gegevensset
Microsoft Fabric Lakehouse Table-gegevensset

Zie Gegevenssets voor een volledige lijst met secties en eigenschappen die beschikbaar zijn voor het definiëren van gegevenssets.

Microsoft Fabric Lakehouse Files-gegevensset

Microsoft Fabric Lakehouse-connector ondersteunt de volgende bestandsindelingen. Raadpleeg elk artikel voor op indeling gebaseerde instellingen.

De volgende eigenschappen worden ondersteund onder location instellingen in de op indeling gebaseerde Microsoft Fabric Lakehouse Files-gegevensset:

Eigenschappen	Beschrijving	Vereist
type	De typeeigenschap onder `location` in de gegevensset moet worden ingesteld op LakehouseLocation.	Ja
folderPath	Het pad naar een map. Als u een jokerteken wilt gebruiken om mappen te filteren, slaat u deze instelling over en geeft u deze op in de instellingen van de activiteitsbron.	Nee
fileName	De bestandsnaam onder het opgegeven folderPath. Als u een jokerteken wilt gebruiken om bestanden te filteren, slaat u deze instelling over en geeft u deze op in de instellingen van de activiteitsbron.	Nee

Voorbeeld:

{
    "name": "DelimitedTextDataset",
    "properties": {
        "type": "DelimitedText",
        "linkedServiceName": {
            "referenceName": "<Microsoft Fabric Lakehouse linked service name>",
            "type": "LinkedServiceReference"
        },
        "typeProperties": {
            "location": {
                "type": "LakehouseLocation",
                "fileName": "<file name>",
                "folderPath": "<folder name>"
            },
            "columnDelimiter": ",",
            "compressionCodec": "gzip",
            "escapeChar": "\\",
            "firstRowAsHeader": true,
            "quoteChar": "\""
        },
        "schema": [ < physical schema, optional, auto retrieved during authoring > ]
    }
}

Microsoft Fabric Lakehouse Table-gegevensset

De volgende eigenschappen worden ondersteund voor microsoft Fabric Lakehouse Table-gegevensset:

Eigenschappen	Beschrijving	Vereist
type	De typeeigenschap van de gegevensset moet worden ingesteld op LakehouseTable.	Ja
table	De naam van de tabel.	Ja

Voorbeeld:

{ 
    "name": "LakehouseTableDataset", 
    "properties": {
        "type": "LakehouseTable",
        "linkedServiceName": { 
            "referenceName": "<Microsoft Fabric Lakehouse linked service name>", 
            "type": "LinkedServiceReference" 
        }, 
        "typeProperties": { 
            "table": "<table_name>"   
        }, 
        "schema": [< physical schema, optional, retrievable during authoring >] 
    } 
}

Eigenschappen van de kopieeractiviteit

De eigenschappen van de kopieeractiviteit voor de gegevensset Microsoft Fabric Lakehouse Files en microsoft Fabric Lakehouse Table verschillen. Zie de bijbehorende secties voor meer informatie.

Microsoft Fabric Lakehouse Files in Copy-activiteit
Microsoft Fabric Lakehouse Table in Copy-activiteit

Zie Copy-activiteit configuraties en pijplijnen en activiteiten voor een volledige lijst met secties en eigenschappen die beschikbaar zijn voor het definiëren van activiteiten.

Microsoft Fabric Lakehouse Files in Copy-activiteit

Als u het gegevenssettype Microsoft Fabric Lakehouse Files wilt gebruiken als bron of sink in Copy-activiteit, gaat u naar de volgende secties voor de gedetailleerde configuraties.

Microsoft Fabric Lakehouse Files als brontype

Microsoft Fabric Lakehouse-connector ondersteunt de volgende bestandsindelingen. Raadpleeg elk artikel voor op indeling gebaseerde instellingen.

U hebt verschillende opties voor het kopiëren van gegevens uit Microsoft Fabric Lakehouse met behulp van de gegevensset Microsoft Fabric Lakehouse Files:

Kopieer vanuit het opgegeven pad dat is opgegeven in de gegevensset.
Jokertekenfilter tegen mappad of bestandsnaam, zie wildcardFolderPath en wildcardFileName.
Kopieer de bestanden die zijn gedefinieerd in een bepaald tekstbestand als bestandsset.fileListPath

De volgende eigenschappen bevinden zich onder storeSettings instellingen in op indeling gebaseerde kopieerbron bij het gebruik van de gegevensset Microsoft Fabric Lakehouse Files:

Eigenschappen	Beschrijving	Vereist
type	De eigenschap type onder `storeSettings` moet worden ingesteld op LakehouseReadSettings.	Ja
Zoek de bestanden die u wilt kopiëren:
OPTIE 1: statisch pad	Kopieer de map/het bestandspad dat is opgegeven in de gegevensset. Als u alle bestanden uit een map wilt kopiëren, moet u ook opgeven `wildcardFileName` als `*`.
OPTIE 2: jokerteken - jokertekenFolderPath	Het pad naar de map met jokertekens om bronmappen te filteren. Toegestane jokertekens zijn: `*` (komt overeen met nul of meer tekens) en `?` (komt overeen met nul of één teken); gebruik `^` deze optie om te ontsnappen als de naam van de map een jokerteken heeft of dit escape-teken bevat. Bekijk meer voorbeelden in voorbeelden van mappen en bestandsfilters.	Nee
OPTIE 2: jokerteken - wildcardFileName	De bestandsnaam met jokertekens onder het opgegeven folderPath/wildcardFolderPath om bronbestanden te filteren. Toegestane jokertekens zijn: `*` (komt overeen met nul of meer tekens) en `?` (komt overeen met nul of één teken); gebruik `^` deze optie om te ontsnappen als uw werkelijke bestandsnaam jokertekens of dit escapeteken bevat. Bekijk meer voorbeelden in voorbeelden van mappen en bestandsfilters.	Ja
OPTIE 3: een lijst met bestanden - fileListPath	Geeft aan om een bepaalde bestandsset te kopiëren. Wijs een tekstbestand aan met een lijst met bestanden die u wilt kopiëren, één bestand per regel. Dit is het relatieve pad naar het pad dat is geconfigureerd in de gegevensset. Wanneer u deze optie gebruikt, geeft u geen bestandsnaam op in de gegevensset. Bekijk meer voorbeelden in voorbeelden van de lijst met bestanden.	Nee
Aanvullende instellingen:
recursief	Hiermee wordt aangegeven of de gegevens recursief worden gelezen uit de submappen of alleen uit de opgegeven map. Wanneer recursief is ingesteld op true en de sink een archief op basis van bestanden is, wordt een lege map of submap niet gekopieerd of gemaakt in de sink. Toegestane waarden zijn waar (standaard) en onwaar. Deze eigenschap is niet van toepassing wanneer u configureert `fileListPath`.	Nee
deleteFilesAfterCompletion	Geeft aan of de binaire bestanden worden verwijderd uit het bronarchief nadat ze naar het doelarchief zijn verplaatst. Het verwijderen van bestanden is per bestand, dus wanneer de kopieeractiviteit mislukt, ziet u dat sommige bestanden al naar het doel zijn gekopieerd en uit de bron zijn verwijderd, terwijl anderen nog steeds in het bronarchief blijven. Deze eigenschap is alleen geldig in het scenario voor het kopiëren van binaire bestanden. De standaardwaarde: false.	Nee
modifiedDatetimeStart	Bestandenfilter op basis van het kenmerk: Laatst gewijzigd. De bestanden worden geselecteerd als de laatste wijzigingstijd groter is dan of gelijk is aan `modifiedDatetimeStart` en kleiner is dan `modifiedDatetimeEnd`. De tijd wordt toegepast op utc-tijdzone in de notatie 2018-12-01T05:00:00Z. De eigenschappen kunnen NULL zijn, wat betekent dat er geen bestandskenmerkfilter wordt toegepast op de gegevensset. Wanneer `modifiedDatetimeStart` een datum/tijd-waarde heeft maar `modifiedDatetimeEnd` NULL is, betekent dit dat de bestanden waarvan het laatst gewijzigde kenmerk groter is dan of gelijk is aan de datum/tijd-waarde worden geselecteerd. Wanneer `modifiedDatetimeEnd` de datum/tijd-waarde is, maar `modifiedDatetimeStart` NULL is, betekent dit dat de bestanden waarvan het kenmerk voor het laatst is gewijzigd kleiner is dan de datum/tijd-waarde wordt geselecteerd. Deze eigenschap is niet van toepassing wanneer u configureert `fileListPath`.	Nee
modifiedDatetimeEnd	Hetzelfde als hierboven.	Nee
enablePartitionDiscovery	Geef voor bestanden die zijn gepartitioneerd op of de partities van het bestandspad moeten worden geparseerd en als andere bronkolommen moeten worden toegevoegd. Toegestane waarden zijn onwaar (standaard) en waar.	Nee
partitionRootPath	Wanneer partitiedetectie is ingeschakeld, geeft u het absolute hoofdpad op om gepartitioneerde mappen als gegevenskolommen te lezen. Als deze niet is opgegeven, is dit standaard - Wanneer u bestandspad gebruikt in de gegevensset of lijst met bestanden op de bron, is het pad naar de partitiehoofdmap dat is geconfigureerd in de gegevensset. - Wanneer u het filter voor jokertekens gebruikt, is het hoofdpad van de partitie het subpad vóór het eerste jokerteken. Stel dat u het pad in de gegevensset configureert als 'root/folder/year=2020/month=08/day=27': - Als u het partitiehoofdpad opgeeft als root/folder/year=2020, genereert de kopieeractiviteit twee kolommen `month` en `day` met respectievelijk de waarde 08 en 27, naast de kolommen in de bestanden. - Als het hoofdpad van de partitie niet is opgegeven, wordt er geen extra kolom gegenereerd.	Nee
maxConcurrentConnections	De bovengrens van gelijktijdige verbindingen die tijdens de uitvoering van de activiteit tot stand zijn gebracht met het gegevensarchief. Geef alleen een waarde op wanneer u gelijktijdige verbindingen wilt beperken.	Nee

Voorbeeld:

"activities": [
    {
        "name": "CopyFromLakehouseFiles",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Delimited text input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "DelimitedTextSource",
                "storeSettings": {
                    "type": "LakehouseReadSettings",
                    "recursive": true,
                    "enablePartitionDiscovery": false
                },
                "formatSettings": {
                    "type": "DelimitedTextReadSettings"
                }
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Microsoft Fabric Lakehouse Files als sinktype

Microsoft Fabric Lakehouse-connector ondersteunt de volgende bestandsindelingen. Raadpleeg elk artikel voor op indeling gebaseerde instellingen.

De volgende eigenschappen bevinden zich onder storeSettings instellingen in de op indeling gebaseerde kopiesink wanneer u de gegevensset Microsoft Fabric Lakehouse Files gebruikt:

Eigenschappen	Beschrijving	Vereist
type	De typeeigenschap onder `storeSettings` moet worden ingesteld op LakehouseWriteSettings.	Ja
copyBehavior	Definieert het kopieergedrag wanneer de bron bestanden is uit een gegevensarchief op basis van bestanden. Toegestane waarden zijn: - PreserveHierarchy (standaard): behoudt de bestandshiërarchie in de doelmap. Het relatieve pad van het bronbestand naar de bronmap is identiek aan het relatieve pad van het doelbestand naar de doelmap. - FlattenHierarchy: Alle bestanden uit de bronmap bevinden zich op het eerste niveau van de doelmap. De doelbestanden hebben automatisch gegenereerde namen. - MergeFiles: hiermee worden alle bestanden uit de bronmap samengevoegd tot één bestand. Als de bestandsnaam is opgegeven, is de naam van het samengevoegde bestand de opgegeven naam. Anders is het een automatisch gegenereerde bestandsnaam.	Nee
blockSizeInMB	Geef de blokgrootte op in MB die wordt gebruikt voor het schrijven van gegevens naar Microsoft Fabric Lakehouse. Meer informatie over blok-blobs. De toegestane waarde ligt tussen 4 MB en 100 MB. Standaard bepaalt ADF automatisch de blokgrootte op basis van het type bronarchief en gegevens. Voor niet-binaire kopie in Microsoft Fabric Lakehouse is de standaardblokgrootte 100 MB, zodat deze maximaal 4,75 TB aan gegevens past. Het is mogelijk niet optimaal wanneer uw gegevens niet groot zijn, met name wanneer u zelf-hostende Integration Runtime gebruikt met een slecht netwerk, wat resulteert in een time-out van bewerkingen of prestatieproblemen. U kunt expliciet een blokgrootte opgeven, terwijl blockSizeInMB*50000 groot genoeg is om de gegevens op te slaan, anders mislukt de kopieeractiviteit.	Nee
maxConcurrentConnections	De bovengrens van gelijktijdige verbindingen die tijdens de uitvoering van de activiteit tot stand zijn gebracht met het gegevensarchief. Geef alleen een waarde op wanneer u gelijktijdige verbindingen wilt beperken.	Nee
metagegevens	Stel aangepaste metagegevens in wanneer u kopieert naar sink. Elk object onder de `metadata` matrix vertegenwoordigt een extra kolom. De `name` naam van de metagegevenssleutel wordt gedefinieerd en de `value` gegevenswaarde van die sleutel wordt aangegeven. Als de kenmerkfunctie behouden wordt gebruikt, worden de opgegeven metagegevens samengevoegd/overschreven met de metagegevens van het bronbestand. Toegestane gegevenswaarden zijn: - `$$LASTMODIFIED`: een gereserveerde variabele geeft aan dat de laatste wijzigingstijd van de bronbestanden moet worden opgeslagen. Alleen van toepassing op een bron op basis van bestanden met binaire indeling. -Uitdrukking - Statische waarde	Nee

Voorbeeld:

"activities": [
    {
        "name": "CopyToLakehouseFiles",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<Parquet output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "<source type>"
            },
            "sink": {
                "type": "ParquetSink",
                "storeSettings": {
                    "type": "LakehouseWriteSettings",
                    "copyBehavior": "PreserveHierarchy",
                    "metadata": [
                        {
                            "name": "testKey1",
                            "value": "value1"
                        },
                        {
                            "name": "testKey2",
                            "value": "value2"
                        }
                    ]
                },
                "formatSettings": {
                    "type": "ParquetWriteSettings"
                }
            }
        }
    }
]

Voorbeelden van map- en bestandsfilters

In deze sectie wordt het resulterende gedrag van het mappad en de bestandsnaam met jokertekenfilters beschreven.

folderPath	fileName	recursief	Structuur van bronmap en filterresultaat (bestanden vetgedrukt worden opgehaald)
`Folder*`	(Leeg, standaard gebruiken)	false	MapA File1.csv File2.json Submap1 File3.csv File4.json File5.csv AnotherFolderB File6.csv
`Folder*`	(Leeg, standaard gebruiken)	true	MapA File1.csv File2.json Submap1 File3.csv File4.json File5.csv AnotherFolderB File6.csv
`Folder*`	`*.csv`	false	MapA File1.csv File2.json Submap1 File3.csv File4.json File5.csv AnotherFolderB File6.csv
`Folder*`	`*.csv`	true	MapA File1.csv File2.json Submap1 File3.csv File4.json File5.csv AnotherFolderB File6.csv

Voorbeelden van bestandslijsten

In deze sectie wordt het resulterende gedrag beschreven van het gebruik van bestandslijstpad in bron van kopieeractiviteit.

Ervan uitgaande dat u de volgende bronmapstructuur hebt en de bestanden vetgedrukt wilt kopiëren:

Voorbeeldbronstructuur	Inhoud in FileListToCopy.txt	ADF-configuratie
bestandssysteem MapA File1.csv File2.json Submap1 File3.csv File4.json File5.csv Metagegevens FileListToCopy.txt	File1.csv Submap1/File3.csv Submap1/File5.csv	In gegevensset: - Mappad: `FolderA` In bron van kopieeractiviteit: - Pad naar bestandslijst: `Metadata/FileListToCopy.txt` Het bestandslijstpad verwijst naar een tekstbestand in hetzelfde gegevensarchief met een lijst met bestanden die u wilt kopiëren, één bestand per regel met het relatieve pad naar het pad dat is geconfigureerd in de gegevensset.

Enkele recursieve en copyBehavior-voorbeelden

In deze sectie wordt het resulterende gedrag van de kopieerbewerking beschreven voor verschillende combinaties van recursieve en copyBehavior-waarden.

recursief	copyBehavior	Structuur van bronmap	Resulterend doel
true	preserveHierarchy	Map1 Bestand1 Bestand2 Submap1 Bestand3 Bestand4 Bestand5	De doelmap1 wordt gemaakt met dezelfde structuur als de bron: Map1 Bestand1 Bestand2 Submap1 Bestand3 Bestand4 Bestand5
true	flattenHierarchy	Map1 Bestand1 Bestand2 Submap1 Bestand3 Bestand4 Bestand5	De doelmap1 wordt gemaakt met de volgende structuur: Map1 automatisch gegenereerde naam voor Bestand1 automatisch gegenereerde naam voor File2 automatisch gegenereerde naam voor File3 automatisch gegenereerde naam voor File4 automatisch gegenereerde naam voor File5
true	mergeFiles	Map1 Bestand1 Bestand2 Submap1 Bestand3 Bestand4 Bestand5	De doelmap1 wordt gemaakt met de volgende structuur: Map1 File1 + File2 + File3 + File4 + File5-inhoud worden samengevoegd in één bestand met een automatisch gegenereerde bestandsnaam.
false	preserveHierarchy	Map1 Bestand1 Bestand2 Submap1 Bestand3 Bestand4 Bestand5	De doelmap1 wordt gemaakt met de volgende structuur: Map1 Bestand1 Bestand2 Submap1 met File3, File4 en File5 wordt niet opgehaald.
false	flattenHierarchy	Map1 Bestand1 Bestand2 Submap1 Bestand3 Bestand4 Bestand5	De doelmap1 wordt gemaakt met de volgende structuur: Map1 automatisch gegenereerde naam voor Bestand1 automatisch gegenereerde naam voor File2 Submap1 met File3, File4 en File5 wordt niet opgehaald.
false	mergeFiles	Map1 Bestand1 Bestand2 Submap1 Bestand3 Bestand4 Bestand5	De doelmap1 wordt gemaakt met de volgende structuur: Map1 De inhoud van Bestand1 + File2 wordt samengevoegd in één bestand met een automatisch gegenereerde bestandsnaam. automatisch gegenereerde naam voor Bestand1 Submap1 met File3, File4 en File5 wordt niet opgehaald.

Microsoft Fabric Lakehouse Table in Copy-activiteit

Als u microsoft Fabric Lakehouse Table-gegevensset wilt gebruiken als bron- of sinkgegevensset in Copy-activiteit, gaat u naar de volgende secties voor de gedetailleerde configuraties.

Microsoft Fabric Lakehouse Table als brontype

Als u gegevens uit Microsoft Fabric Lakehouse wilt kopiëren met behulp van de gegevensset Microsoft Fabric Lakehouse Table, stelt u de typeeigenschap in de Copy-activiteit bron in op LakehouseTableSource. De volgende eigenschappen worden ondersteund in de Copy-activiteit bronsectie:

Eigenschappen	Beschrijving	Vereist
type	De typeeigenschap van de bron van de kopieeractiviteit moet worden ingesteld op LakehouseTableSource.	Ja
timestampAsOf	De tijdstempel om een query uit te voeren op een oudere momentopname.	Nee
versionAsOf	De versie om een query uit te voeren op een oudere momentopname.	Nee

Voorbeeld:

"activities":[
    {
        "name": "CopyFromLakehouseTable",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Microsoft Fabric Lakehouse Table input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "LakehouseTableSource",
                "timestampAsOf": "2023-09-23T00:00:00.000Z",
                "versionAsOf": 2
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Microsoft Fabric Lakehouse Table als sinktype

Als u gegevens wilt kopiëren naar Microsoft Fabric Lakehouse met behulp van microsoft Fabric Lakehouse Table-gegevensset, stelt u de typeeigenschap in de sink copy activity in op LakehouseTableSink. De volgende eigenschappen worden ondersteund in de sectie Copy-activiteit sink:

Eigenschappen	Beschrijving	Vereist
type	De typeeigenschap van de bron van de kopieeractiviteit moet worden ingesteld op LakehouseTableSink.	Ja

Notitie

Gegevens worden standaard geschreven naar Lakehouse Table in V-Order. Ga voor meer informatie naar Optimalisatie van Delta Lake-tabellen en V-Order.

Voorbeeld:

"activities":[
    {
        "name": "CopyToLakehouseTable",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<Microsoft Fabric Lakehouse Table output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "<source type>"
            },
            "sink": {
                "type": "LakehouseTableSink",
                "tableActionOption ": "Append"
            }
        }
    }
]

Eigenschappen van toewijzingsgegevensstroom

Wanneer u gegevens transformeert in de toewijzingsgegevensstroom, kunt u bestanden of tabellen lezen en schrijven in Microsoft Fabric Lakehouse. Zie de bijbehorende secties voor meer informatie.

Microsoft Fabric Lakehouse Files in toewijzingsgegevensstroom
Microsoft Fabric Lakehouse Table in toewijzingsgegevensstroom

Zie de brontransformatie en sinktransformatie in toewijzingsgegevensstromen voor meer informatie.

Microsoft Fabric Lakehouse Files in toewijzingsgegevensstroom

Als u de gegevensset Microsoft Fabric Lakehouse Files wilt gebruiken als bron- of sinkgegevensset in de toewijzingsgegevensstroom, gaat u naar de volgende secties voor de gedetailleerde configuraties.

Microsoft Fabric Lakehouse-bestanden als bron- of sinktype

Microsoft Fabric Lakehouse-connector ondersteunt de volgende bestandsindelingen. Raadpleeg elk artikel voor op indeling gebaseerde instellingen.

Als u een Fabric Lakehouse-connector wilt gebruiken in het type inlinegegevensset, moet u het juiste inlinegegevenssettype voor uw gegevens kiezen. U kunt DelimitedText, Avro, JSON, ORC of Parquet gebruiken, afhankelijk van uw gegevensindeling.

Microsoft Fabric Lakehouse Table in toewijzingsgegevensstroom

Als u microsoft Fabric Lakehouse Table-gegevensset wilt gebruiken als bron- of sinkgegevensset in de toewijzingsgegevensstroom, gaat u naar de volgende secties voor de gedetailleerde configuraties.

Microsoft Fabric Lakehouse Table als brontype

Er zijn geen configureerbare eigenschappen onder bronopties.

Notitie

CDC-ondersteuning voor Lakehouse-tabelbron is momenteel niet beschikbaar.

Microsoft Fabric Lakehouse Table als sinktype

De volgende eigenschappen worden ondersteund in de sectie Mapping Gegevensstroom s sink:

Name	Beschrijving	Vereist	Toegestane waarden	Eigenschap gegevensstroomscript
Bijwerkingsmethode	Wanneer u alleen Invoegen toestaan selecteert of wanneer u naar een nieuwe deltatabel schrijft, ontvangt het doel alle binnenkomende rijen, ongeacht de set Met beleidsregels voor rijen. Als uw gegevens rijen met andere rijbeleidsregels bevatten, moeten ze worden uitgesloten met behulp van een voorgaande filtertransformatie. Wanneer alle updatemethoden zijn geselecteerd, wordt een samenvoeging uitgevoerd, waarbij rijen worden ingevoegd/verwijderd/upserted/bijgewerkt volgens de set Rijbeleid met behulp van een voorgaande transformatie voor het wijzigen van rijen.	ja	`true` of `false`	invoegbaar te verwijderen upsertable kan worden bijgewerkt
Geoptimaliseerde schrijfbewerking	Behaalt een hogere doorvoer voor schrijfbewerkingen via het optimaliseren van interne shuffle in Spark-uitvoerders. Als gevolg hiervan ziet u mogelijk minder partities en bestanden die groter zijn	nee	`true` of `false`	optimizedWrite: true
Automatisch comprimeren	Nadat een schrijfbewerking is voltooid, voert Spark automatisch de `OPTIMIZE` opdracht uit om de gegevens opnieuw te ordenen, wat resulteert in meer partities, indien nodig, voor betere leesprestaties in de toekomst	nee	`true` of `false`	autoCompact: true
Schema samenvoegen	Met de optie Schema samenvoegen kunnen schema's worden ontwikkeld, dat wil gezegd, alle kolommen die aanwezig zijn in de huidige binnenkomende stroom, maar niet in de doel-Delta-tabel, worden automatisch toegevoegd aan het schema. Deze optie wordt ondersteund voor alle updatemethoden.	nee	`true` of `false`	mergeSchema: true

Voorbeeld: Microsoft Fabric Lakehouse Table Sink

sink(allowSchemaDrift: true, 
    validateSchema: false, 
    input( 
        CustomerID as string,
        NameStyle as string, 
        Title as string, 
        FirstName as string, 
        MiddleName as string,
        LastName as string, 
        Suffix as string, 
        CompanyName as string,
        SalesPerson as string, 
        EmailAddress as string, 
        Phone as string, 
        PasswordHash as string, 
        PasswordSalt as string, 
        rowguid as string, 
        ModifiedDate as string 
    ), 
    deletable:false, 
    insertable:true, 
    updateable:false, 
    upsertable:false, 
    optimizedWrite: true, 
    mergeSchema: true, 
    autoCompact: true, 
    skipDuplicateMapInputs: true, 
    skipDuplicateMapOutputs: true) ~> CustomerTable

Voor fabric Lakehouse-connector op basis van tabellen in het inlinegegevenssettype hoeft u Alleen Delta als gegevenssettype te gebruiken. Hiermee kunt u gegevens lezen en schrijven uit Fabric Lakehouse-tabellen.

Eigenschappen van opzoekactiviteit

Als u meer wilt weten over de eigenschappen, controleert u de lookup-activiteit.

Eigenschappen van GetMetadata-activiteit

Als u meer wilt weten over de eigenschappen, controleert u de Activiteit GetMetadata

Activiteitseigenschappen verwijderen

Als u meer wilt weten over de eigenschappen, controleert u De activiteit Verwijderen

Zie Ondersteunde gegevensarchieven voor een lijst met gegevensarchieven die worden ondersteund als bronnen en sinks door de kopieeractiviteit.

Delen via

Gegevens kopiëren en transformeren in Microsoft Fabric Lakehouse met behulp van Azure Data Factory of Azure Synapse Analytics

Ondersteunde mogelijkheden

Aan de slag

Een gekoppelde Microsoft Fabric Lakehouse-service maken met behulp van de gebruikersinterface

Configuratiedetails van connector

Eigenschappen van gekoppelde service

Verificatie van service-principal

Eigenschappen van gegevensset

Microsoft Fabric Lakehouse Files-gegevensset

Microsoft Fabric Lakehouse Table-gegevensset

Eigenschappen van de kopieeractiviteit

Microsoft Fabric Lakehouse Files in Copy-activiteit

Microsoft Fabric Lakehouse Files als brontype

Microsoft Fabric Lakehouse Files als sinktype

Voorbeelden van map- en bestandsfilters

Voorbeelden van bestandslijsten

Enkele recursieve en copyBehavior-voorbeelden

Microsoft Fabric Lakehouse Table in Copy-activiteit

Microsoft Fabric Lakehouse Table als brontype

Microsoft Fabric Lakehouse Table als sinktype

Eigenschappen van toewijzingsgegevensstroom

Microsoft Fabric Lakehouse Files in toewijzingsgegevensstroom

Microsoft Fabric Lakehouse-bestanden als bron- of sinktype

Microsoft Fabric Lakehouse Table in toewijzingsgegevensstroom

Microsoft Fabric Lakehouse Table als brontype

Microsoft Fabric Lakehouse Table als sinktype

Eigenschappen van opzoekactiviteit

Eigenschappen van GetMetadata-activiteit

Activiteitseigenschappen verwijderen

Feedback

Feedback

Aanvullende resources

Delen via

Gegevens kopiëren en transformeren in Microsoft Fabric Lakehouse met behulp van Azure Data Factory of Azure Synapse Analytics

Ondersteunde mogelijkheden

Aan de slag

Een gekoppelde Microsoft Fabric Lakehouse-service maken met behulp van de gebruikersinterface

Configuratiedetails van connector

Eigenschappen van gekoppelde service

Verificatie van service-principal

Eigenschappen van gegevensset

Microsoft Fabric Lakehouse Files-gegevensset

Microsoft Fabric Lakehouse Table-gegevensset

Eigenschappen van de kopieeractiviteit

Microsoft Fabric Lakehouse Files in Copy-activiteit

Microsoft Fabric Lakehouse Files als brontype

Microsoft Fabric Lakehouse Files als sinktype

Voorbeelden van map- en bestandsfilters

Voorbeelden van bestandslijsten

Enkele recursieve en copyBehavior-voorbeelden

Microsoft Fabric Lakehouse Table in Copy-activiteit

Microsoft Fabric Lakehouse Table als brontype

Microsoft Fabric Lakehouse Table als sinktype

Eigenschappen van toewijzingsgegevensstroom

Microsoft Fabric Lakehouse Files in toewijzingsgegevensstroom

Microsoft Fabric Lakehouse-bestanden als bron- of sinktype

Microsoft Fabric Lakehouse Table in toewijzingsgegevensstroom

Microsoft Fabric Lakehouse Table als brontype

Microsoft Fabric Lakehouse Table als sinktype

Eigenschappen van opzoekactiviteit

Eigenschappen van GetMetadata-activiteit

Activiteitseigenschappen verwijderen

Gerelateerde inhoud

Feedback

Feedback

Aanvullende resources