Configurare Azure Data Lake Archiviazione Gen1 nell'attività di copia
Questo articolo illustra come usare l'attività di copia nella pipeline di dati per copiare dati da e in Azure Data Lake Archiviazione Gen1.
Formato supportato
Azure Data Lake Archiviazione Gen1 supporta i formati di file seguenti. Per impostazioni basate sui formati, fare riferimento ai singoli articoli.
- Formato Avro
- Formato binario
- Formato testo delimitato
- Formato Excel
- Formato JSON
- Formato ORC
- Formato Parquet
- Formato XML
Configurazione supportata
Per la configurazione di ogni scheda nell'attività di copia, passare rispettivamente alle sezioni seguenti.
Generali
Fare riferimento alle indicazioni generali sulle impostazioni per configurare la scheda Impostazioni generali .
Origine
Le proprietà seguenti sono supportate per Azure Data Lake Archiviazione Gen1 nella scheda Origine di un'attività di copia.
Sono necessarie le proprietà seguenti:
Tipo di archivio dati: selezionare Esterno.
Connessione ion: selezionare una connessione di Azure Data Lake Archiviazione Gen1 dall'elenco delle connessioni. Se non esiste alcuna connessione, creare una nuova connessione di Azure Data Lake Archiviazione Gen1 selezionando Nuovo.
Connessione tipo: selezionare Azure Data Lake Archiviazione Gen1.
Tipo di percorso file: è possibile scegliere Percorso file, Intervallo nome, Percorso file con caratteri jolly o Elenco di file come tipo di percorso del file. La configurazione di ognuna di queste impostazioni è:
Percorso file: se si sceglie questo tipo, i dati possono essere copiati dal percorso di cartella/file specificato.
Intervallo di nomi: recuperare cartelle/file con nomi prima o dopo un valore specifico in ordine alfabetico. Usa il filtro lato servizio per ADLS Gen1, che offre prestazioni migliori rispetto a un filtro con caratteri jolly. Per altri esempi, vedere Esempi di filtro dell'intervallo di nomi.
Percorso cartella: percorso di una cartella nei dati di origine.
Elenco dopo: recuperare le cartelle/i file il cui nome è dopo questo valore alfabeticamente (esclusivo).
Elenco prima: recuperare le cartelle/i file il cui nome è prima di questo valore in ordine alfabetico (inclusivo).
Percorso del file con caratteri jolly: specificare la cartella o il percorso del file con caratteri jolly per filtrare cartelle o file di origine.
I caratteri jolly consentiti sono:
*
(corrispondenza di zero o più caratteri) e?
(corrispondenza di zero caratteri o di un carattere singolo). Usare^
per eseguire l'escape se il nome della cartella contiene caratteri jolly o questo carattere di escape. Per altri esempi, vedere Esempi di filtro di file e cartelle.Percorso cartella con caratteri jolly: specificare il percorso della cartella con caratteri jolly per filtrare le cartelle di origine.
Nome file con caratteri jolly: specificare il nome del file con caratteri jolly nel percorso della cartella/caratteri jolly configurati per filtrare i file di origine.
Elenco di file: indica che si vuole copiare un determinato set di file. Specificare Percorso cartella e Percorso dell'elenco di file in modo che punti a un file di testo che include un elenco di file da copiare, un file per riga, ovvero il percorso relativo del percorso. Per altri esempi, vedere Esempi di elenco file.
Percorso cartella: specificare il percorso di una cartella. Questo argomento è obbligatorio.
Percorso dell'elenco di file: specificare il percorso del file di testo che include un elenco di file da copiare.
Ricorsivamente: specificare se i dati vengono letti in modo ricorsivo dalle sottocartelle o solo dalla cartella specificata. Si noti che quando si seleziona Ricorsivamente e la destinazione è un archivio basato su file, una cartella o una sottocartella vuota non viene copiata o creata nella destinazione. Questa proprietà è selezionata per impostazione predefinita e non si applica quando si configura Path to file list.This property is selected by default and't apply when you configure Path to file list.
Formato file: selezionare il formato di file applicato dall'elenco a discesa. Selezionare Impostazioni per configurare il formato di file. Per le impostazioni di formati di file diversi, vedere articoli in Formato supportato per informazioni dettagliate.
In Avanzate è possibile specificare i campi seguenti:
Filtro in base all'ultima modifica: i file vengono filtrati in base alle date dell'ultima modifica. Questa proprietà non si applica quando si configura il tipo di percorso del file come elenco di file.
- Ora di inizio (UTC): i file vengono selezionati se l'ora dell'ultima modifica è maggiore o uguale all'ora configurata.
- Ora di fine (UTC): i file vengono selezionati se l'ora dell'ultima modifica è inferiore all'ora configurata.
Quando l'ora di inizio (UTC) ha un valore datetime ma l'ora di fine (UTC) è NULL, significa che verranno selezionati i file il cui ultimo attributo modificato è maggiore o uguale al valore datetime. Quando l'ora di fine (UTC) ha un valore datetime, ma ora di inizio (UTC) è NULL, significa che i file il cui attributo modificato ultimo è minore del valore datetime verrà selezionato. Le proprietà possono essere NULL, il che significa che ai dati non verrà applicato alcun filtro di attributo di file.
Abilita individuazione partizione: specificare se analizzare le partizioni dal percorso del file e aggiungerle come colonne di origine aggiuntive. Non è selezionata per impostazione predefinita e non è supportata quando si usa il formato di file binario.
Percorso radice della partizione: quando l'individuazione della partizione è abilitata, specificare il percorso radice assoluto per leggere le cartelle partizionate come colonne di dati.
Se non è specificato, per impostazione predefinita,
- Quando si usa il percorso del file o l'elenco di file nell'origine, il percorso radice della partizione è il percorso configurato.
- Quando si usa il filtro delle cartelle con caratteri jolly, il percorso radice della partizione è il sottopercorso prima del primo carattere jolly.
Si supponga, ad esempio, di configurare il percorso come
root/folder/year=2020/month=08/day=27
:- Se si specifica il percorso radice della partizione come
root/folder/year=2020
, l'attività di copia genererà altre due colonne mese e giorno rispettivamente con valore "08" e "27", oltre alle colonne all'interno dei file. - Se il percorso radice della partizione non è specificato, non verrà generata alcuna colonna aggiuntiva.
Numero massimo di connessioni simultanee: questa proprietà indica il limite massimo di connessioni simultanee stabilite all'archivio dati durante l'esecuzione dell'attività. Specificare un valore solo quando si desidera limitare le connessioni simultanee.
Colonne aggiuntive: aggiungere altre colonne di dati per archiviare il percorso relativo o il valore statico dei file di origine. L'espressione è supportata per quest'ultima.
Destinazione
Le proprietà seguenti sono supportate per Azure Data Lake Archiviazione Gen1 nella scheda Destinazione di un'attività di copia.
Sono necessarie le proprietà seguenti:
- Tipo di archivio dati: selezionare Esterno.
- Connessione ion: selezionare una connessione di Azure Data Lake Archiviazione Gen1 dall'elenco delle connessioni. Se la connessione non esiste, creare una nuova connessione di Azure Data Lake Archiviazione Gen1 selezionando Nuovo.
- Connessione tipo: selezionare Azure Data Lake Archiviazione Gen1.
- Percorso file: selezionare Sfoglia per scegliere il file che si vuole copiare o compilare manualmente il percorso.
- Formato file: selezionare il formato di file applicato dall'elenco a discesa. Selezionare Impostazioni per configurare il formato di file. Per le impostazioni di formati di file diversi, vedere articoli in Formato supportato per informazioni dettagliate.
In Avanzate è possibile specificare i campi seguenti:
Comportamento di copia: definisce il comportamento di copia quando l'origine è file da un archivio dati basato su file. È possibile scegliere un comportamento dall'elenco a discesa.
- Gerarchia flat: tutti i file della cartella di origine si trovano nel primo livello della cartella di destinazione. I file di destinazione hanno nomi generati automaticamente.
- Unisci file: unisce tutti i file dalla cartella di origine a un unico file. Se si specifica il nome di file, il nome del file unito sarà il nome specificato. In caso contrario, si tratta di un nome file generato automaticamente.
- Mantieni gerarchia: mantiene la gerarchia di file nella cartella di destinazione. Il percorso relativo del file di origine nella cartella di origine è identico al percorso relativo del file di destinazione nella cartella di destinazione.
Numero massimo di connessioni simultanee: limite massimo di connessioni simultanee stabilite all'archivio dati durante l'esecuzione dell'attività. Specificare un valore solo quando si desidera limitare le connessioni simultanee.
Datetime di scadenza (UTC): specifica l'ora di scadenza dei file scritti. La scadenza viene applicata in orario UTC nel formato "2020-03-01T08:00:00Z". Per impostazione predefinita, è NULL, il che significa che i file scritti non sono mai scaduti.
Mapping
Per La configurazione della scheda Mapping , passare a Configurare i mapping nella scheda Mapping. Se si sceglie Binary come formato di file, il mapping non sarà supportato.
Impostazione
Per la configurazione della scheda Impostazioni, passare a Configurare le altre impostazioni nella scheda Impostazioni.
Riepilogo tabella
Le tabelle seguenti contengono altre informazioni sull'attività di copia in Azure Data Lake Archiviazione Gen1.
Informazioni sull'origine
Nome | Descrizione | Valore | Richiesto | Proprietà script JSON |
---|---|---|---|---|
Tipo di archivio dati | Tipo di archivio dati. | Esterno | Sì | / |
Connessione | Connessione all'archivio dati di origine. | <connessione di Azure Data Lake Archiviazione Gen1> | Sì | connection |
Tipo di connessione | Tipo di connessione. Selezionare Azure Data Lake Archiviazione Gen1. | Azure Data Lake Storage Gen1 | Sì | / |
Tipo di percorso del file | Tipo di percorso del file da usare. | • Percorso file • Intervallo di nomi • Percorso cartella con caratteri jolly, nome file con caratteri jolly •Elenco di file |
No | • folderPath, fileName • listAfter, listBefore • wildcardFolderPath, wildcardFileName • fileListPath |
Ricorsivamente | Indica se i dati vengono letti in modo ricorsivo dalle cartelle secondarie o solo dalla cartella specificata. Si noti che quando si seleziona Ricorsivamente e la destinazione è un archivio basato su file, una cartella o una sottocartella vuota non viene copiata o creata nella destinazione. Questa proprietà non si applica quando si configura l'elenco di file Path to file. | selezionato (impostazione predefinita) o deselezionare | No | recursive |
Filtrare in base all'ultima modifica | I file con ora dell'ultima modifica nell'intervallo [Ora di inizio, Ora di fine) verranno filtrati per un'ulteriore elaborazione. L'ora verrà applicata al fuso orario UTC nel formato .yyyy-mm-ddThh:mm:ss.fffZ Queste proprietà possono essere ignorate, il che significa che non verrà applicato alcun filtro dell'attributo di file. Questa proprietà non si applica quando si configura il tipo di percorso del file come elenco di file. |
datetime | No | modifiedDatetimeStart modifiedDatetimeEnd |
Abilitare l'individuazione delle partizioni | Indica se analizzare le partizioni dal percorso del file e aggiungerle come colonne di origine aggiuntive. | selezionato o non selezionato (impostazione predefinita) | No | enablePartitionDiscovery: true o false (impostazione predefinita) |
Partition Root Path (Percorso radice partizione) | Quando l'individuazione delle partizioni è abilitata, specificare il percorso radice assoluto per leggere le cartelle partizionate come colonne di dati. | < percorso radice della partizione > | No | partitionRootPath |
Numero massimo di connessioni simultanee | Limite massimo di connessioni simultanee stabilite all'archivio dati durante l'esecuzione dell'attività. Specificare un valore solo quando si desidera limitare le connessioni simultanee. | <numero massimo di connessioni simultanee> | No | maxConcurrentConnections |
Colonne aggiuntive | Aggiungere altre colonne di dati per archiviare il percorso relativo o il valore statico dei file di origine. L'espressione è supportata per quest'ultima. | • Name •Valore |
No | additionalColumns: •Nome •Valore |
Informazioni sulla destinazione
Nome | Descrizione | Valore | Richiesto | Proprietà script JSON |
---|---|---|---|---|
Tipo di archivio dati | Tipo di archivio dati. | Esterno | Sì | / |
Connessione | Connessione all'archivio dati di destinazione. | <connessione di Azure Data Lake Archiviazione Gen1> | Sì | connection |
Tipo di connessione | Tipo di connessione. Selezionare Azure Data Lake Archiviazione Gen1. | Azure Data Lake Storage Gen1 | Sì | / |
Percorso file | Percorso del file dei dati di destinazione. | < percorso del file > | Sì | folderPath, fileName |
Comportamento di copia | Definisce il comportamento di copia quando l'origine è costituita da file di un archivio dati basato su file. | • Appiattire la gerarchia • Unire file • Mantenere la gerarchia |
No | copyBehavior: • FlattenHierarchy • MergeFiles • PreserveHierarchy |
Numero massimo di connessioni simultanee | Limite massimo di connessioni simultanee stabilite all'archivio dati durante l'esecuzione dell'attività. Specificare un valore solo quando si desidera limitare le connessioni simultanee. | <numero massimo di connessioni simultanee> | No | maxConcurrentConnections |
Datetime scadenza (UTC) | Ora di scadenza dei file scritti. La scadenza viene applicata in orario UTC nel formato "2020-03-01T08:00:00Z". Per impostazione predefinita, è NULL, il che significa che i file scritti non sono mai scaduti. | < datetime scadenza > | No | expiryDatetime |
Contenuto correlato
Commenti e suggerimenti
https://aka.ms/ContentUserFeedback.
Presto disponibile: Nel corso del 2024 verranno gradualmente disattivati i problemi di GitHub come meccanismo di feedback per il contenuto e ciò verrà sostituito con un nuovo sistema di feedback. Per altre informazioni, vedereInvia e visualizza il feedback per