Come configurare Lakehouse in un'attività di copia
Questo articolo illustra come usare l'attività di copia in una pipeline di dati per copiare i dati da e verso Fabric Lakehouse.
Importante
Microsoft Fabric è attualmente in ANTEPRIMA. Queste informazioni si riferiscono a un prodotto di versione preliminare che può essere modificato sostanzialmente prima che venga rilasciato. Microsoft non garantisce alcuna garanzia, espressa o implicita, rispetto alle informazioni fornite qui. Vedere Azure Data Factory documentazione per il servizio in Azure.
Formato supportato
Lakehouse supporta i formati di file seguenti. Per impostazioni basate sui formati, fare riferimento ai singoli articoli.
- Formato Avro
- Formato binario
- Formato di testo delimitato
- Formato Excel
- Formato JSON
- Formato ORC
- Formato Parquet
- Formato XML
Configurazione supportata
Per la configurazione di ogni scheda in attività di copia, passare rispettivamente alle sezioni seguenti.
Generale
Per la configurazione della scheda Generale , passare a Generale.
Source (Sorgente)
Le proprietà seguenti sono supportate per Lakehouse nella scheda Origine di un'attività di copia.
Sono necessarie le proprietà seguenti:
- Tipo di archivio dati: selezionare Area di lavoro.
- Tipo di archivio dati dell'area di lavoro: selezionare Lakehouse dall'elenco dei tipi di archivio dati.
- Lakehouse: selezionare un lakehouse esistente dall'area di lavoro. Se nessuna esiste, creare un nuovo Lakehouse selezionando Nuovo.
- Cartella radice: selezionare Tabelle o file, che indica la visualizzazione virtuale dell'area gestita o non gestita nel lago. Per altre informazioni, vedere Introduzione a Lakehouse.
- Se si seleziona Tabelle:
- Nome tabella: scegliere una tabella esistente dall'elenco tabelle o specificare un nome di tabella come origine.
- In Avanzate è possibile specificare i campi seguenti:
- Timestamp: specificare per eseguire query su uno snapshot precedente in base al timestamp.
- Versione: specificare per eseguire una query su uno snapshot precedente in base alla versione.
- Colonne aggiuntive: aggiungere colonne di dati aggiuntive al percorso relativo o al valore statico dei file di origine dell'archivio. L'espressione è supportata per quest'ultima.
- Se si seleziona File:
Tipo di percorso file: è possibile scegliere Percorso file, percorsofile jolly o Elenco di file come tipo di percorso file. L'elenco seguente descrive la configurazione di ogni impostazione:
Percorso file: selezionare Sfoglia per scegliere il file da copiare o compilare manualmente il percorso.
Percorso file con caratteri jolly: specificare la cartella o il percorso file con caratteri jolly nell'area specificata di Lakehouse non gestita (in File) per filtrare le cartelle o i file di origine. I caratteri jolly consentiti sono:
*
(corrispondenza di zero o più caratteri) e?
(corrispondenza di zero caratteri o di un carattere singolo). Usare^
per eseguire l'escape se la cartella o il nome del file ha caratteri jolly o questo carattere di escape all'interno.Percorso della cartella con caratteri jolly: percorso della cartella nel contenitore specificato. Se si vuole usare un carattere jolly per filtrare la cartella, ignorare questa impostazione e specificare le informazioni nelle impostazioni dell'origine attività.
Nome file con caratteri jolly: nome del file nell'area non gestita specificata di Lakehouse (in File) e percorso della cartella.
Elenco di file: indica di copiare un determinato set di file.
- Percorso cartella: punta a una cartella che include i file da copiare.
- Percorso dell'elenco di file: punta a un file di testo che include un elenco di file che si desidera copiare, un file per riga, ovvero il percorso relativo del percorso file configurato.
Ricorsivamente: indica se i dati vengono letti in modo ricorsivo dalle sottocartelle o solo dalla cartella specificata. Se abilitato, tutti i file nella cartella di input e le relative sottocartelle vengono elaborati in modo ricorsivo. Questa proprietà non si applica quando si configura il tipo di percorso del file come Elenco di file.
Formato file: selezionare il formato del file dall'elenco a discesa. Selezionare il pulsante Impostazioni per configurare il formato di file. Per le impostazioni di formati di file diversi, vedere articoli in formato Supportato per informazioni dettagliate.
In Avanzate è possibile specificare i campi seguenti:
- Filtro per ultima modifica: i file vengono filtrati in base alle ultime date modificate. Questa proprietà non si applica quando si configura il tipo di percorso del file come Elenco di file.
- Ora di inizio: i file vengono selezionati se l'ultima ora modificata è maggiore o uguale all'ora configurata.
- Ora di fine: i file vengono selezionati se l'ultima ora modificata è minore dell'ora configurata.
- Abilitare l'individuazione delle partizioni: per i file partizionati, specificare se analizzare le partizioni dal percorso del file e aggiungerle come colonne di origine aggiuntive.
- Percorso radice della partizione: quando l'individuazione delle partizioni è abilitata, specificare il percorso radice assoluto per leggere le cartelle partizionate come colonne di dati.
- Numero massimo di connessioni simultanee: indica il limite superiore di connessioni simultanee stabilite nell'archivio dati durante l'esecuzione dell'attività. Specificare un valore solo quando si desidera limitare le connessioni simultanee.
- Filtro per ultima modifica: i file vengono filtrati in base alle ultime date modificate. Questa proprietà non si applica quando si configura il tipo di percorso del file come Elenco di file.
- Se si seleziona Tabelle:
Destination
Le proprietà seguenti sono supportate per Lakehouse nella scheda Destinazione di un'attività di copia.
Sono necessarie le proprietà seguenti:
- Tipo di archivio dati: selezionare Area di lavoro.
- Tipo di archivio dati dell'area di lavoro: selezionare Lakehouse dall'elenco dei tipi di archivio dati.
- Lakehouse: selezionare un lakehouse esistente dall'area di lavoro. Se nessuna esiste, creare un nuovo Lakehouse selezionando Nuovo.
- Cartella radice: selezionare Tabelle o file, che indica la visualizzazione virtuale dell'area gestita o non gestita nel lago. Per altre informazioni, vedere Introduzione a Lakehouse.
Se si seleziona Tabelle:
Nome tabella: scegliere una tabella esistente dall'elenco tabelle o specificare un nome di tabella come destinazione.
In Avanzate è possibile specificare i campi seguenti:
- Numero massimo di righe per file: specificare le righe massime per ogni file durante la scrittura di dati in Lakehouse.
- Azioni tabella: specificare l'operazione sulla tabella selezionata.
- Accodamento: aggiungere nuovi valori alla tabella esistente.
- Sovrascrivere: sovrascrivere i dati e lo schema esistenti nella tabella usando i nuovi valori. Se questa operazione è selezionata, è possibile abilitare la partizione nella tabella di destinazione:
- Abilita Partizione: questa selezione consente di creare partizioni in una struttura di cartelle in base a una o più colonne. Ogni valore di colonna distinto (coppia) è una nuova partizione. Ad esempio, "year=2000/month=01/file". Questa selezione supporta la modalità di sola inserimento e richiede una directory vuota nella destinazione.
- Nome colonna partizione: selezionare tra le colonne di destinazione nel mapping degli schemi. I tipi di dati supportati sono string, integer, boolean e datetime. Il formato rispetta le impostazioni di conversione dei tipi nella scheda Mapping .
- Abilita Partizione: questa selezione consente di creare partizioni in una struttura di cartelle in base a una o più colonne. Ogni valore di colonna distinto (coppia) è una nuova partizione. Ad esempio, "year=2000/month=01/file". Questa selezione supporta la modalità di sola inserimento e richiede una directory vuota nella destinazione.
- Numero massimo di connessioni simultanee: limite massimo di connessioni simultanee stabilite all'archivio dati durante l'esecuzione dell'attività. Specificare un valore solo quando si desidera limitare le connessioni simultanee.
Se si seleziona File:
Percorso file: selezionare Sfoglia per scegliere il file da copiare o compilare manualmente il percorso.
Formato file: selezionare il formato di file dall'elenco a discesa. Selezionare Impostazioni per configurare il formato di file. Per le impostazioni di formati di file diversi, fare riferimento agli articoli in Formato supportato per informazioni dettagliate.
In Avanzate è possibile specificare i campi seguenti:
Comportamento di copia: definisce il comportamento di copia quando l'origine è file da un archivio dati basato su file. È possibile scegliere Aggiungi contenuto dinamico, Nessuno, Flatten hierarchy o Preserve hierarchy (Mantieni gerarchia ) come comportamento di copia. La configurazione di ogni impostazione è:
Aggiungi contenuto dinamico: per specificare un'espressione per un valore di proprietà, selezionare Aggiungi contenuto dinamico. Questo campo apre il generatore di espressioni in cui è possibile compilare espressioni da variabili di sistema supportate, output di attività, funzioni e variabili o parametri specificati dall'utente. Per altre informazioni sul linguaggio delle espressioni, vedere Espressioni e funzioni.
Nessuno: scegliere questa selezione per non usare alcun comportamento di copia.
Gerarchia flat: tutti i file della cartella di origine si trovano nel primo livello della cartella di destinazione. I file di destinazione hanno nomi generati automaticamente.
Mantieni gerarchia: mantiene la gerarchia dei file nella cartella di destinazione. Il percorso relativo di un file di origine nella cartella di origine è identico al percorso relativo di un file di destinazione alla cartella di destinazione.
Numero massimo di connessioni simultanee: limite massimo di connessioni simultanee stabilite all'archivio dati durante l'esecuzione dell'attività. Specificare un valore solo quando si desidera limitare le connessioni simultanee.
Dimensioni blocco (MB): specificare le dimensioni del blocco in MB durante la scrittura di dati in Lakehouse. Il valore consentito è compreso tra 4 MB e 100 MB.
Metadati: impostare metadati personalizzati durante la copia nell'archivio dati di destinazione. Ogni oggetto nella
metadata
matrice rappresenta una colonna aggiuntiva. Definiscename
il nome della chiave di metadati evalue
indica il valore dei dati di tale chiave. Se viene usata la funzionalità mantieni attributi , i metadati specificati si uniranno/sovrascriveranno con i metadati del file di origine. I valori dei dati consentiti sono:
Mapping
Per la configurazione della scheda Mapping , passare a Mapping. Se si sceglie Binario come formato di file, il mapping non è supportato.
Impostazioni
Per la configurazione della scheda Impostazioni , passare a Impostazioni.
Riepilogo tabella
Le tabelle seguenti contengono altre informazioni su un'attività di copia in Lakehouse.
Informazioni sull'origine.
Nome | Descrizione | Valore | Necessario | Proprietà dello script JSON |
---|---|---|---|---|
Tipo di archivio dati | Tipo di archivio dati. | Area di lavoro | Sì | / |
Tipo di archivio dati dell'area di lavoro | Sezione per selezionare il tipo di archivio dati dell'area di lavoro. | Lakehouse | Sì | type |
Lakehouse | La Lakehouse usata come origine. | <il tuo Lakehouse> | Sì | workspaceId artifactId |
Cartella radice | Tipo della cartella radice. | * Tabelle * File |
No | rootFolder: Tabella o file |
Nome tabella | Nome della tabella da leggere. | <nome tabella> | Sì quando si seleziona Tabelle nella cartella radice | table (in typeProperties ->source ->typeProperties ) |
Timestamp | Timestamp per eseguire una query su uno snapshot precedente. | <timestamp> | No | timestampAsOf |
Versione | Versione di cui eseguire una query su uno snapshot precedente. | <version> | No | versionAsOf |
Colonne aggiuntive | Colonne di dati aggiuntive per archiviare il percorso relativo o il valore statico dei file di origine. L'espressione è supportata per quest'ultima. | *Nome *Valore |
No | additionalColumns: *Nome *Valore |
Tipo di percorso file | Tipo del percorso del file usato. | * Percorso file * Percorso del file con caratteri jolly * Elenco di file |
Sì | / |
Percorso file | Copiare dal percorso a una cartella o un file nell'archivio dati di origine. Applicare quando si sceglie Percorso file in Tipo di percorso file. | <percorso file> | Sì quando si sceglie Percorso file | *Folderpath *Filename |
Percorsi con caratteri jolly | Percorso della cartella con caratteri jolly nell'archivio dati di origine configurato per filtrare le cartelle di origine. Si applica quando si sceglie Il percorso del file con caratteri jolly nel tipo di percorso file. | <percorsi con caratteri jolly> | Sì quando si sceglie il percorso del file con caratteri jolly | * wildcardFolderPath * wildcardFileName |
Percorso cartella | Punta a una cartella che include i file da copiare. Si applica quando si sceglie Elenco di file nel tipo di percorso file. | <percorso cartella> | No | folderPath |
Percorso dell'elenco di file | Indica di copiare un determinato set di file. Puntare a un file di testo che include un elenco di file che si desidera copiare, un file per riga, ovvero il percorso relativo del percorso configurato. Si applica quando si sceglie Elenco di file nel tipo di percorso file. | <percorso dell'elenco di file> | No | fileListPath |
Recursively (Ricorsivo) | Elaborare tutti i file nella cartella di input e nelle relative sottocartelle in modo ricorsivo o solo quelli nella cartella selezionata. Questa impostazione è disabilitata quando viene selezionato un singolo file. | selezionare o deselezionare | No | Ricorsive: true o false |
Formato file | Formato del file utilizzato. | <formato di file> | Sì | tipo (in formatSettings ):DelimitedTextReadSettings |
Filtrare in base all'ultima modifica | I file con l'ora dell'ultima modifica nell'intervallo [Ora di inizio, Ora di fine) verranno filtrati per un'ulteriore elaborazione. L'ora verrà applicata al fuso orario UTC nel formato "aa-mm-ggThh:mm:ss.fffZ". Questa proprietà può essere ignorata, il che significa che non verrà applicato alcun filtro di attributo di file. Questa proprietà non si applica quando si configura il tipo di percorso del file come Elenco di file. |
* Ora di inizio * Ora di fine |
No | modifiedDatetimeStart modifiedDatetimeEnd |
Abilitare l'individuazione delle partizioni | Indica se analizzare le partizioni dal percorso del file e aggiungerle come colonne di origine aggiuntive. | Selezionato o deselezionato | No | enablePartitionDiscovery: true o false (impostazione predefinita) |
Partition Root Path (Percorso radice partizione) | Percorso radice della partizione assoluta per leggere le cartelle partizionate come colonne di dati. | <percorso radice della partizione> | No | partitionRootPath |
Numero massimo di connessioni simultanee | Limite massimo di connessioni simultanee stabilite all'archivio dati durante l'esecuzione dell'attività. Un valore è necessario solo quando si desidera limitare le connessioni simultanee. | <numero massimo di connessioni simultanee> | No | maxConcurrentConnections |
Informazioni sulla destinazione
Nome | Descrizione | Valore | Necessario | Proprietà dello script JSON |
---|---|---|---|---|
Tipo di archivio dati | Tipo di archivio dati. | Area di lavoro | Sì | / |
Tipo di archivio dati dell'area di lavoro | Sezione per selezionare il tipo di archivio dati dell'area di lavoro. | Lakehouse | Sì | type |
Lakehouse | La Lakehouse utilizzata come destinazione. | <il tuo Lakehouse> | Sì | workspaceId artifactId |
Cartella radice | Tipo della cartella radice. | * Tabelle * File |
Sì | rootFolder: Tabella o file |
Nome tabella | Nome della tabella in cui si desidera scrivere dati. | <nome della tabella> | Sì quando si seleziona Tabelle nella cartella radice | table (in typeProperties ->sink ->typeProperties ) |
Numero massimo di righe per file | Quando si scrivono dati in una cartella, è possibile scegliere di scrivere in più file e specificare il numero massimo di righe per file. | <max rows per flie> | No | maxRowsPerFile |
azione Tabella | Aggiungere nuovi valori a una tabella esistente o sovrascrivere i dati e lo schema esistenti nella tabella usando i nuovi valori. | * Aggiungere * Sovrascrivere |
No | tableActionOption: Accodare o sovrascrivere |
Numero massimo di connessioni simultanee | Limite massimo di connessioni simultanee stabilite all'archivio dati durante l'esecuzione dell'attività. Specificare un valore solo quando si desidera limitare le connessioni simultanee. | <numero massimo di connessioni simultanee> | No | maxConcurrentConnections |
Percorso file | Scrivere dati nel percorso di una cartella o di un file nell'archivio dati di destinazione. | <percorso file> | No | *Folderpath *Filename |
Formato file | Formato del file utilizzato. | <formato di file> | Sì | tipo (in formatSettings ):DelimitedTextWriteSettings |
Comportamento di copia | Comportamento di copia definito quando l'origine è file da un archivio dati basato su file. | * Aggiungere contenuto dinamico * Nessuno * Rendere flat la gerarchia * Mantenere la gerarchia |
No | copyBehavior: * FlattenHierarchy * PreserveHierarchy |
Dimensioni blocco (MB) | Dimensione del blocco in MB usata per scrivere dati in Lakehouse. Il valore consentito è compreso tra 4 MB e 100 MB. | <dimensioni del blocco> | No | blockSizeInMB |
Metadata | Set di metadati personalizzati durante la copia in una destinazione. | * $$LASTMODIFIED *Espressione * Valore statico |
No | metadata |