Condividi tramite


Copiare e trasformare i dati in Microsoft Fabric Lakehouse usando Azure Data Factory o Azure Synapse Analytics

SI APPLICA A: Azure Data Factory Azure Synapse Analytics

Suggerimento

Provare Data Factory in Microsoft Fabric, una soluzione di analisi all-in-one per le aziende. Microsoft Fabric copre tutto, dallo spostamento dati al data science, all'analisi in tempo reale, alla business intelligence e alla creazione di report. Vedere le informazioni su come iniziare una nuova prova gratuita!

Microsoft Fabric Lakehouse è una piattaforma di architettura dei dati per l'archiviazione, la gestione e l'analisi di dati strutturati e non strutturati in un'unica posizione. Per ottenere un accesso semplice ai dati in tutti i motori di calcolo in Microsoft Fabric, andare aTabelle Lakehouse e Delta per altre informazioni. Per impostazione predefinita, i dati vengono scritti nella tabella Lakehouse in V-Order ed è possibile andare a Ottimizzazione delle tabella Delta Lake e V-Order per altre informazioni.

Questo articolo illustra come usare l'attività Copy per copiare dati da e in Microsoft Fabric Lakehouse e usare Flusso di dati per trasformare i dati in Microsoft Fabric Lakehouse. Per altre informazioni, leggere l'articolo introduttivo per Azure Data Factory o Azure Synapse Analytics.

Funzionalità supportate

Questo connettore Microsoft Fabric Lakehouse è supportato per le funzionalità seguenti:

Funzionalità supportate IR
Attività di copia (origine/sink) ① ②
Flusso di dati per mapping (origine/sink)
Attività Lookup ① ②
Attività GetMetadata ① ②
Attività Delete ① ②

① Azure Integration Runtime ② Runtime di integrazione self-hosted

Operazioni preliminari

Per eseguire l'attività di copia con una pipeline, è possibile usare uno degli strumenti o SDK seguenti:

Creare un servizio collegato Microsoft Fabric Lakehouse usando l'interfaccia utente

Usare la procedura seguente per creare un servizio collegato Microsoft Fabric Lakehouse nell'interfaccia utente del portale di Azure.

  1. Andare alla scheda Gestisci nell'area di lavoro di Azure Data Factory o Synapse e selezionare Servizi collegati, quindi selezionare Nuovo:

  2. Cercare Microsoft Fabric Lakehouse e selezionare il connettore.

    Screenshot che mostra la selezione del connettore Microsoft Fabric Lakehouse.

  3. Configurare i dettagli del servizio, testare la connessione e creare il nuovo servizio collegato.

    Screenshot della configurazione per il servizio collegato Microsoft Fabric Lakehouse.

Dettagli di configurazione del connettore

Le sezioni seguenti forniscono informazioni dettagliate sulle proprietà usate per definire entità di Data Factory specifiche di Microsoft Fabric Lakehouse.

Proprietà del servizio collegato

Il connettore Microsoft Fabric Lakehouse supporta i tipi di autenticazione seguenti. Per informazioni dettagliate, vedere le sezioni corrispondenti:

Autenticazione dell'entità servizio

Per usare l'autenticazione basata sull'entità servizio, eseguire queste operazioni.

  1. Registrare un'applicazione con Microsoft Identity Platform e aggiungere un segreto client. Successivamente, prendere nota di questi valori che si usano per definire il servizio collegato:

    • ID applicazione (client), ovvero l'ID entità servizio nel servizio collegato.
    • Valore del segreto client, ovvero la chiave dell'entità servizio nel servizio collegato.
    • ID tenant
  2. Concedere all'entità servizio almeno il ruolo Collaboratore nell'area di lavoro di Microsoft Fabric. Seguire questa procedura:

    1. Andare all'area di lavoro di Microsoft Fabric, selezionare Gestisci accesso nella barra superiore. Successivamente, selezionare Aggiungi persone o gruppi.

      Screenshot che mostra la selezione dell'area di lavoro Infrastruttura Gestisci l'accesso.

       Screenshot che mostra il riquadro Gestisci accesso dell'area di lavoro infrastruttura.

    2. Nel riquadro Aggiungi persone immettere il nome dell'entità servizio e selezionare l'entità servizio dall'elenco a discesa.

      Nota

      L'entità servizio non verrà visualizzata nell'elenco Aggiungi persone a meno che le impostazioni del tenant di Power BI non consentano l'accesso alle API di Fabric.

    3. Specificare il ruolo Collaboratore o superiore (Amministratore, Membro), quindi selezionare Aggiungi.

      Screenshot che mostra l'aggiunta del ruolo dell'area di lavoro infrastruttura.

    4. L'entità servizio viene visualizzata nel riquadro Gestisci accesso.

Queste sono le proprietà supportate dal servizio collegato:

Proprietà Descrizione Richiesto
type La proprietà Tipo deve essere impostata su Lakehouse.
workspaceId ID dell'area di lavoro di Microsoft Fabric.
artifactId ID oggetto Microsoft Fabric Lakehouse.
tenant Specificare le informazioni sul tenant (nome di dominio o ID tenant) in cui si trova l'applicazione. Recuperarlo passando il cursore del mouse sull'angolo superiore destro del portale di Azure.
servicePrincipalId Specificare l'ID client dell'applicazione.
servicePrincipalCredentialType Tipo di credenziale da usare per l'autenticazione dell'entità servizio. I valori consentiti sono ServicePrincipalKey e ServicePrincipalCert.
servicePrincipalCredential Credenziali dell'entità servizio.
Quando si usa ServicePrincipalKey come tipo di credenziale, specificare il valore del segreto client dell'applicazione. Contrassegnare questo campo come SecureString per archiviarlo in modo sicuro, oppure fare riferimento a un segreto archiviato in Azure Key Vault.
Quando si usa ServicePrincipalCert come credenziale, fare riferimento a un certificato in Azure Key Vault e assicurarsi che il tipo di contenuto del certificato sia PKCS #12.
connectVia Runtime di integrazione da usare per la connessione all'archivio dati. È possibile usare Azure Integration Runtime o un runtime di integrazione self-hosted, se l'archivio dati si trova in una rete privata. Se non specificato, viene usato il runtime di integrazione di Azure predefinito. No

Esempio: usare l'autenticazione con chiave dell'entità servizio

È anche possibile archiviare la chiave dell'entità servizio in Azure Key Vault.

{
    "name": "MicrosoftFabricLakehouseLinkedService",
    "properties": {
        "type": "Lakehouse",
        "typeProperties": {
            "workspaceId": "<Microsoft Fabric workspace ID>",
            "artifactId": "<Microsoft Fabric Lakehouse object ID>",
            "tenant": "<tenant info, e.g. microsoft.onmicrosoft.com>",
            "servicePrincipalId": "<service principal id>",
            "servicePrincipalCredentialType": "ServicePrincipalKey",
            "servicePrincipalCredential": {
                "type": "SecureString",
                "value": "<service principal key>"
            }   
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Proprietà del set di dati

Il connettore Microsoft Fabric Lakehouse supporta due tipi di set di dati, ovvero set di dati di Microsoft Fabric Lakehouse Files e set di dati di Microsoft Fabric Lakehouse Table. Per informazioni dettagliate, vedere le sezioni corrispondenti.

Per un elenco completo delle sezioni e delle proprietà disponibili per la definizione dei set di dati, vedere Set di dati.

Set di dati di Microsoft Fabric Lakehouse Files

Il connettore Microsoft Fabric Lakehouse supporta i formati di file seguenti. Per impostazioni basate sui formati, fare riferimento ai singoli articoli.

Le proprietà seguenti sono supportate nelle impostazioni location nel set di dati Microsoft Fabric Lakehouse Files basato sul formato:

Proprietà Descrizione Richiesto
type La proprietà Tipo in location nel set di dati deve essere impostata su LakehouseLocation.
folderPath Il percorso di una cartella. Se si intende usare un carattere jolly per filtrare le cartelle, ignorare questa impostazione e specificarla nelle impostazioni dell'origine dell'attività. No
fileName Nome del file nel percorso cartella specificato. Se si intende usare un carattere jolly per filtrare i file, ignorare questa impostazione e specificarla nelle impostazioni dell'origine dell'attività. No

Esempio:

{
    "name": "DelimitedTextDataset",
    "properties": {
        "type": "DelimitedText",
        "linkedServiceName": {
            "referenceName": "<Microsoft Fabric Lakehouse linked service name>",
            "type": "LinkedServiceReference"
        },
        "typeProperties": {
            "location": {
                "type": "LakehouseLocation",
                "fileName": "<file name>",
                "folderPath": "<folder name>"
            },
            "columnDelimiter": ",",
            "compressionCodec": "gzip",
            "escapeChar": "\\",
            "firstRowAsHeader": true,
            "quoteChar": "\""
        },
        "schema": [ < physical schema, optional, auto retrieved during authoring > ]
    }
}

Set di dati Microsoft Fabric Lakehouse Table

Per il set di dati Microsoft Fabric Lakehouse Table sono supportate le proprietà seguenti:

Proprietà Descrizione Richiesto
type La proprietà type del set di dati deve essere impostata su LakehouseTable.
schema Nome dello schema. Se non è specificato, il valore predefinito è dbo. No
table Nome della tabella.

Esempio:

{ 
    "name": "LakehouseTableDataset", 
    "properties": {
        "type": "LakehouseTable",
        "linkedServiceName": { 
            "referenceName": "<Microsoft Fabric Lakehouse linked service name>", 
            "type": "LinkedServiceReference" 
        }, 
        "typeProperties": { 
            "schema": "<schema_name>",
            "table": "<table_name>"   
        },
        "schema": [< physical schema, optional, retrievable during authoring >]
    } 
}

Proprietà dell'attività di copia

Le proprietà dell'attività Copy per il set di dati di Microsoft Fabric Lakehouse Files e il set di dati Microsoft Fabric Lakehouse Table sono diversi. Per informazioni dettagliate, vedere le sezioni corrispondenti.

Per un elenco completo delle sezioni e delle proprietà disponibili per la definizione delle attività, vedere Configurazioni dell'attività di copia e Pipeline e attività.

Microsoft Fabric Lakehouse Files nell'attività Copy

Per usare il tipo di set di dati Microsoft Fabric Lakehouse Files come origine o sink nell'attività Copy, vedere le sezioni seguenti per le configurazioni dettagliate.

Microsoft Fabric Lakehouse Files come tipo di origine

Il connettore Microsoft Fabric Lakehouse supporta i formati di file seguenti. Per impostazioni basate sui formati, fare riferimento ai singoli articoli.

Sono disponibili diverse opzioni per copiare dati da Microsoft Fabric Lakehouse usando il set di dati Microsoft Fabric Lakehouse Files:

  • Copia dal percorso specificato nel set di dati.
  • Filtro con caratteri jolly per il percorso della cartella o il nome del file, vedere wildcardFolderPath e wildcardFileName.
  • Copia dei file definiti in un file di testo specificato come set di file, vedere fileListPath.

Le proprietà seguenti si trovano nelle impostazioni storeSettings nell'origine di copia basata sul formato quando si usa il set di dati Microsoft Fabric Lakehouse Files:

Proprietà Descrizione Richiesto
type La proprietà Tipo in storeSettings deve essere impostata su LakehouseReadSettings.
Individuare i file da copiare:
OPZIONE 1: percorso statico
Copia dal percorso di cartella/file specificato nel set di dati. Se si vogliono copiare tutti i file da una cartella, specificare anche wildcardFileName come *.
OPZIONE 2: carattere jolly
- wildcardFolderPath
Percorso della cartella con caratteri jolly per filtrare le cartelle di origine.
I caratteri jolly consentiti sono: * (corrisponde a zero o più caratteri) e ? (corrisponde a zero caratteri o a un carattere singolo). Usare ^ come carattere di escape se il nome effettivo della cartella include caratteri jolly o questo carattere di escape.
Vedere altri esempi in Esempi di filtro file e cartelle.
No
OPZIONE 2: carattere jolly
- wildcardFileName
Nome file con caratteri jolly nel percorso folderPath/wildcardFolderPath specificato per filtrare i file di origine.
I caratteri jolly consentiti sono: * (corrispondenza di zero o più caratteri) e ? (corrispondenza di zero caratteri o di un carattere singolo). Usare ^ per il carattere escape se il nome effettivo del file include caratteri jolly o escape. Vedere altri esempi in Esempi di filtro file e cartelle.
OPZIONE 3: un elenco di file
- fileListPath
Indica di copiare un determinato set di file. Puntare a un file di testo che include un elenco di file da copiare, un file per riga, che rappresenta il percorso relativo del percorso configurato nel set di dati.
Quando si usa questa opzione, non specificare il nome del file nel set di dati. Per altri esempi, vedere Esempi di elenco di file.
No
Impostazioni aggiuntive:
recursive Indica se i dati vengono letti in modo ricorsivo dalle cartelle secondarie o solo dalla cartella specificata. Quando la proprietà recursive è impostata su true e il sink è un archivio basato su file, una cartella o una sottocartella vuota non viene copiata o creata nel sink.
I valori consentiti sono true (predefinito) e false.
Questa proprietà non è applicabile quando si configura fileListPath.
No
deleteFilesAfterCompletion Indica se i file binari verranno eliminati dall'archivio di origine dopo il passaggio all'archivio di destinazione. L'eliminazione del file è per file, quindi quando l'attività Copy non riesce, vengono visualizzati alcuni file già copiati nella destinazione ed eliminati dall'origine, mentre altri rimangono nell'archivio di origine.
Questa proprietà è valida solo nello scenario di copia dei file binari. Il valore predefinito è false.
No
modifiedDatetimeStart Filtro di file basato sull'attributo Ultima modifica.
I file verranno selezionati se l'ora dell'ultima modifica è maggiore o uguale a modifiedDatetimeStart e minore di modifiedDatetimeEnd. L'ora viene applicata con il fuso orario UTC e il formato "2018-12-01T05:00:00Z".
Le proprietà possono essere NULL, a indicare che al set di dati non viene applicato alcun filtro di attributo di file. Quando modifiedDatetimeStart ha un valore datetime ma modifiedDatetimeEnd è NULL, vengono selezionati i file il cui ultimo attributo modificato è maggiore o uguale al valore datetime. Quando modifiedDatetimeEnd ha un valore datetime ma modifiedDatetimeStart è NULL vengono selezionati i file il cui ultimo attributo modificato è minore del valore datetime.
Questa proprietà non è applicabile quando si configura fileListPath.
No
modifiedDatetimeEnd Come sopra. No
enablePartitionDiscovery Per i file partizionati, specificare se analizzare le partizioni dal percorso del file e aggiungerle come colonne di origine aggiuntive.
I valori consentiti sono false (predefinito) e true.
No
partitionRootPath Quando l'individuazione delle partizioni è abilitata, specificare il percorso radice assoluto per leggere le cartelle partizionate come colonne di dati.

Se non è specificato, per impostazione predefinita,
- Quando si usa il percorso del file nel set di dati o nell'elenco di file nell'origine, il percorso radice della partizione è il percorso configurato nel set di dati.
- Quando si usa il filtro delle cartelle con caratteri jolly, il percorso radice della partizione è il sottopercorso prima del primo carattere jolly.

Si supponga, ad esempio, di configurare il percorso nel set di dati come "root/folder/year=2020/month=08/day=27":
- Se si specifica il percorso radice della partizione come "root/folder/year=2020", l'attività di copia genera altre due colonne month e day con il valore "08" e "27" rispettivamente, oltre alle colonne all'interno dei file.
- Se il percorso radice della partizione non è specificato, non viene generata alcuna colonna aggiuntiva.
No
maxConcurrentConnections Limite massimo di connessioni simultanee stabilite all'archivio dati durante l'esecuzione dell'attività. Specificare un valore solo quando si desidera limitare le connessioni simultanee. No

Esempio:

"activities": [
    {
        "name": "CopyFromLakehouseFiles",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Delimited text input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "DelimitedTextSource",
                "storeSettings": {
                    "type": "LakehouseReadSettings",
                    "recursive": true,
                    "enablePartitionDiscovery": false
                },
                "formatSettings": {
                    "type": "DelimitedTextReadSettings"
                }
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Microsoft Fabric Lakehouse Files come tipo di sink

Il connettore Microsoft Fabric Lakehouse supporta i formati di file seguenti. Per impostazioni basate sui formati, fare riferimento ai singoli articoli.

Le proprietà seguenti si trovano nelle impostazioni storeSettings nel sink di copia basato sul formato quando si usa il set di dati Microsoft Fabric Lakehouse Files:

Proprietà Descrizione Richiesto
type La proprietà Tipo in storeSettings deve essere impostata su LakehouseWriteSettings.
copyBehavior Definisce il comportamento di copia quando l'origine è costituita da file di un archivio dati basato su file.

I valori consentiti sono i seguenti:
- PreserveHierarchy (predefinito): mantiene la gerarchia dei file nella cartella di destinazione. Il percorso relativo del file di origine nella cartella di origine è identico al percorso relativo del file di destinazione nella cartella di destinazione.
- FlattenHierarchy: tutti i file della cartella di origine si trovano nel primo livello della cartella di destinazione. I nomi dei file di destinazione vengono generati automaticamente.
- MergeFiles: unisce tutti i file della cartella di origine in un solo file. Se si specifica il nome di file, il nome del file unito sarà il nome specificato. In caso contrario, verrà usato un nome di file generato automaticamente.
No
blockSizeInMB Specificare le dimensioni del blocco in MB usate per scrivere dati in Microsoft Fabric Lakehouse. Altre informazioni sui BLOB in blocchi.
Il valore consentito è compreso tra 4 e 100 MB.
Per impostazione predefinita, Azure Data Factory determina automaticamente le dimensioni del blocco in base al tipo e ai dati dell'archivio di origine. Per la copia nonbinary in Microsoft Fabric Lakehouse, le dimensioni predefinite del blocco sono pari a 100 MB in modo da adattarsi al massimo a dati di circa 4,75 TB. Potrebbe non essere una soluzione ottimale quando i dati non sono di grandi dimensioni, soprattutto quando si usa il runtime di integrazione self-hosted con prestazioni di rete scarse, causando il timeout dell'operazione o un problema di prestazioni. È possibile specificare in modo esplicito le dimensioni del blocco, assicurandosi che blockSizeInMB*50000 sia sufficientemente grande per archiviare i dati. In caso contrario, l'esecuzione dell'attività Copy ha esito negativo.
No
maxConcurrentConnections Limite massimo di connessioni simultanee stabilite all'archivio dati durante l'esecuzione dell'attività. Specificare un valore solo quando si desidera limitare le connessioni simultanee. No
metadata Impostare metadati personalizzati per la copia in un sink. Ogni oggetto nella matrice metadata rappresenta una colonna aggiuntiva. name definisce il nome della chiave di metadati mentre value indica il valore dei dati di tale chiave. Se viene usata la funzionalità per mantenere gli attributi, i metadati specificati verranno uniti/sovrascritti con i metadati del file di origine.

I valori dei dati consentiti sono:
- $$LASTMODIFIED: una variabile riservata indica di archiviare data/ora dell'ultima modifica dei file di origine. Si applica all'origine basata su file solo con formato binario.
- Espressione
- Valore statico
No

Esempio:

"activities": [
    {
        "name": "CopyToLakehouseFiles",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<Parquet output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "<source type>"
            },
            "sink": {
                "type": "ParquetSink",
                "storeSettings": {
                    "type": "LakehouseWriteSettings",
                    "copyBehavior": "PreserveHierarchy",
                    "metadata": [
                        {
                            "name": "testKey1",
                            "value": "value1"
                        },
                        {
                            "name": "testKey2",
                            "value": "value2"
                        }
                    ]
                },
                "formatSettings": {
                    "type": "ParquetWriteSettings"
                }
            }
        }
    }
]

Esempi di filtro file e cartelle

Questa sezione descrive il comportamento risultante del percorso cartella e del nome del file con i filtri con caratteri jolly.

folderPath fileName recursive Struttura delle cartelle di origine e risultato del filtro (i file in grassetto sono stati recuperati)
Folder* (vuoto, usare il valore predefinito) false CartellaA
    File1.csv
    File2.json
    Sottocartella1
        File3.csv
        File4.json
        File5.csv
AltraCartellaB
    File6.csv
Folder* (vuoto, usare il valore predefinito) true CartellaA
    File1.csv
    File2.json
    Sottocartella1
        File3.csv
        File4.json
        File5.csv
AltraCartellaB
    File6.csv
Folder* *.csv false CartellaA
    File1.csv
    File2.json
    Sottocartella1
        File3.csv
        File4.json
        File5.csv
AltraCartellaB
    File6.csv
Folder* *.csv true CartellaA
    File1.csv
    File2.json
    Sottocartella1
        File3.csv
        File4.json
        File5.csv
AltraCartellaB
    File6.csv

Esempi di elenco di file

Questa sezione descrive il comportamento risultante dall'uso del percorso di elenco file nell'origine dell'attività di copia.

Si supponga di disporre della struttura di cartelle di origine seguente e di voler copiare i file in grassetto:

Esempio di struttura di origine Contenuto in FileListToCopy.txt Configurazione di Azure Data Factory
filesystem
    CartellaA
        File1.csv
        File2.json
        Sottocartella1
            File3.csv
            File4.json
            File5.csv
    Metadati UFX
        FileListToCopy.txt
File1.csv
Sottocartella1/File3.csv
Sottocartella1/File5.csv
Nel set di dati:
- Percorso cartella: FolderA

Nell'origine dell'attività Copy:
- Percorso elenco file: Metadata/FileListToCopy.txt

Il percorso dell'elenco di file fa riferimento a un file di testo nello stesso archivio dati che include un elenco di file da copiare, un file per riga con il percorso relativo del percorso configurato nel set di dati.

Alcuni esempi dei valori recursive e copyBehavior

Questa sezione descrive il comportamento derivante dall'operazione di copia per diverse combinazioni di valori ricorsivi e copyBehavior.

recursive copyBehavior Struttura della cartella di origine Destinazione risultante
true preserveHierarchy Cartella1
    File1
    File2
    Sottocartella1
        File3
        File4
        File5
La Cartella1 di destinazione viene creata con la stessa struttura dell'origine:

Cartella1
    File1
    File2
    Sottocartella1
        File3
        File4
        File5
true flattenHierarchy Cartella1
    File1
    File2
    Sottocartella1
        File3
        File4
        File5
La Cartella1 di destinazione viene creata con la struttura seguente:

Cartella1
    Nome generato automaticamente per File1
    Nome generato automaticamente per File2
    Nome generato automaticamente per File3
    Nome generato automaticamente per File4
    Nome generato automaticamente per File5
true mergeFiles Cartella1
    File1
    File2
    Sottocartella1
        File3
        File4
        File5
La Cartella1 di destinazione viene creata con la struttura seguente:

Cartella1
    Il contenuto di File1 + File2 + File3 + File4 + File 5 viene unito in un file con nome generato automaticamente.
false preserveHierarchy Cartella1
    File1
    File2
    Sottocartella1
        File3
        File4
        File5
La Cartella1 di destinazione viene creata con la struttura seguente:

Cartella1
    File1
    File2

La sottocartella1 con File3, File4 e File5 non viene considerata.
false flattenHierarchy Cartella1
    File1
    File2
    Sottocartella1
        File3
        File4
        File5
La Cartella1 di destinazione viene creata con la struttura seguente:

Cartella1
    Nome generato automaticamente per File1
    Nome generato automaticamente per File2

La sottocartella1 con File3, File4 e File5 non viene considerata.
false mergeFiles Cartella1
    File1
    File2
    Sottocartella1
        File3
        File4
        File5
La Cartella1 di destinazione viene creata con la struttura seguente:

Cartella1
    Il contenuto di File1 + File2 viene unito in un file con un nome di file generato automaticamente. Nome generato automaticamente per File1

La sottocartella1 con File3, File4 e File5 non viene considerata.

Microsoft Fabric Lakehouse Table nell'attività Copy

Per usare il set di dati Microsoft Fabric Lakehouse Table come set di dati di origine o sink nell'attività Copy, vedere le sezioni seguenti per le configurazioni dettagliate.

Microsoft Fabric Lakehouse Table come tipo di origine

Per copiare dati da Microsoft Fabric Lakehouse usando il set di dati Microsoft Fabric Lakehouse Table, impostare la proprietà tipo nell'origine dell'attività Copy su LakehouseTableSource. Nella sezione source dell'attività Copy sono supportate le proprietà seguenti:

Proprietà Descrizione Richiesto
type La proprietà type dell'origine dell'attività Copy deve essere impostata su LakehouseTableSource.
timestampAsOf Timestamp per eseguire una query su uno snapshot precedente. No
versionAsOf Versione per eseguire una query su uno snapshot precedente. No

Esempio:

"activities":[
    {
        "name": "CopyFromLakehouseTable",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Microsoft Fabric Lakehouse Table input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "LakehouseTableSource",
                "timestampAsOf": "2023-09-23T00:00:00.000Z",
                "versionAsOf": 2
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Microsoft Fabric Lakehouse Table come tipo di sink

Per copiare dati in Microsoft Fabric Lakehouse usando il set di dati Microsoft Fabric Lakehouse Table, impostare la proprietà tipo nel sink dell'attività Copy su LakehouseTableSink. Nella sezione sink dell'attività Copy sono supportate le proprietà seguenti:

Proprietà Descrizione Richiesto
type La proprietà type dell'origine dell'attività Copy deve essere impostata su LakehouseTableSink.

Nota

I dati sono scritti nella tabella Lakehouse nell'ordine V per impostazione predefinita. Per altre informazioni, vedere Ottimizzazione tabella Delta Lake e V-Order.

Esempio:

"activities":[
    {
        "name": "CopyToLakehouseTable",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<Microsoft Fabric Lakehouse Table output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "<source type>"
            },
            "sink": {
                "type": "LakehouseTableSink",
                "tableActionOption ": "Append"
            }
        }
    }
]

Proprietà del flusso di dati per mapping

Quando si trasformano i dati nel flusso di dati di mapping, è possibile leggere e scrivere in file o tabelle in Microsoft Fabric Lakehouse. Per informazioni dettagliate, vedere le sezioni corrispondenti.

Per altre informazioni, vedere la trasformazione origine e la trasformazione sink nei flussi di dati per mapping.

File di Microsoft Fabric Lakehouse nel flusso di dati di mapping

Per usare il set di dati di Microsoft Fabric Lakehouse Files come set di dati di origine o sink nel flusso di dati di mapping, vedere le sezioni seguenti per le configurazioni dettagliate.

Microsoft Fabric Lakehouse Files come tipo di origine o sink

Il connettore Microsoft Fabric Lakehouse supporta i formati di file seguenti. Per impostazioni basate sui formati, fare riferimento ai singoli articoli.

Per usare il connettore basato su file Fabric Lakehouse nel tipo di set di dati inline, è necessario scegliere il tipo di set di dati Inline corretto per i dati. È possibile usare DelimitedText, Avro, JSON, ORC o Parquet a seconda del formato di dati.

Microsoft Fabric Lakehouse Table nel flusso di dati di mapping

Per usare il set di dati di Tabelle di Microsoft Fabric Lakehouse come set di dati di origine o sink nel flusso di dati di mapping, vedere le sezioni seguenti per le configurazioni dettagliate.

Microsoft Fabric Lakehouse Table come tipo di origine

Non esistono proprietà configurabili nelle opzioni di origine.

Nota

Il supporto CDC per l'origine tabella Lakehouse non è attualmente disponibile.

Microsoft Fabric Lakehouse Table come tipo di sink

Nella sezione sink di Flussi di dati per mapping sono supportate le proprietà seguenti:

Nome Descrizione Richiesto Valori consentiti Proprietà script del flusso di dati
Metodo di aggiornamento Quando si seleziona "Consenti inserimento" da solo o quando si scrive in una nuova tabella differenziale, la destinazione riceve tutte le righe in ingresso indipendentemente dal set di criteri riga. Se i dati contengono righe di altri criteri di riga, è necessario escluderli usando una trasformazione filtro precedente.

Quando vengono selezionati tutti i metodi Update, viene eseguita un'operazione Merge, in cui le righe vengono inserite/eliminate/aggiornate in base ai criteri di riga impostati utilizzando una trasformazione Alter Row precedente.
yes true oppure false insertable
deletable
upsertable
aggiornabile
Scrittura ottimizzata Ottenere una velocità effettiva più elevata per l'operazione di scrittura tramite l'ottimizzazione dello shuffle interno negli executor Spark. Di conseguenza, è possibile notare un minor numero di partizioni e file con dimensioni maggiori no true oppure false optimizedWrite: true
Compattazione automatica Al termine di un'operazione di scrittura, Spark eseguirà automaticamente il comando OPTIMIZE per riorganizzare i dati, ottenendo così più partizioni, se necessario, per migliorare le prestazioni di lettura in futuro no true oppure false autoCompact: true
Merge Schema L'opzione Merge Schema consente l'evoluzione dello schema, ovvero tutte le colonne presenti nel flusso in ingresso corrente, ma non nella tabella Delta di destinazione vengono aggiunte automaticamente al relativo schema. Questa opzione è supportata in tutti i metodi di aggiornamento. no true oppure false mergeSchema: true

Esempio: sink di Microsoft Fabric Lakehouse Table

sink(allowSchemaDrift: true, 
    validateSchema: false, 
    input( 
        CustomerID as string,
        NameStyle as string, 
        Title as string, 
        FirstName as string, 
        MiddleName as string,
        LastName as string, 
        Suffix as string, 
        CompanyName as string,
        SalesPerson as string, 
        EmailAddress as string, 
        Phone as string, 
        PasswordHash as string, 
        PasswordSalt as string, 
        rowguid as string, 
        ModifiedDate as string 
    ), 
    deletable:false, 
    insertable:true, 
    updateable:false, 
    upsertable:false, 
    optimizedWrite: true, 
    mergeSchema: true, 
    autoCompact: true, 
    skipDuplicateMapInputs: true, 
    skipDuplicateMapOutputs: true) ~> CustomerTable

Per il connettore basato su tabelle di Fabric Lakehouse nel tipo di set di dati inline, è sufficiente usare Delta come tipo di set di dati. In questo modo sarà possibile leggere e scrivere dati dalle tabelle Fabric Lakehouse.

Proprietà dell'attività Lookup

Per altre informazioni sulle proprietà, vedere Attività Lookup.

Proprietà dell'attività GetMetadata

Per altre informazioni sulle proprietà, vedere Attività GetMetadata

Proprietà dell'attività Delete

Per altre informazioni sulle proprietà, vedere Attività Delete

Per un elenco degli archivi dati supportati come origini e sink dall'attività di copia, vedere Archivi dati supportati.