Come configurare SFTP in un'attività di copia
Questo articolo illustra come usare l'attività di copia nella pipeline di dati per copiare dati da SFTP.
Importante
Microsoft Fabric è attualmente disponibile in ANTEPRIMA. Queste informazioni si riferiscono a un prodotto in versione preliminare che può essere modificato in modo sostanziale prima del rilascio. Microsoft non fornisce alcuna garanzia, espressa o implicita, rispetto alle informazioni fornite qui. Vedere Azure Data Factory documentazione per il servizio in Azure.
Formato supportato
SFTP supporta i formati di file seguenti. Per impostazioni basate sui formati, fare riferimento ai singoli articoli.
- Formato Avro
- Formato binario
- Formato di testo delimitato
- Formato Excel
- Formato JSON
- Formato ORC
- Formato Parquet
- Formato XML
Configurazione supportata
Per la configurazione di ogni scheda nell'attività di copia, passare rispettivamente alle sezioni seguenti.
Generale
Per configurare la scheda Impostazioni generali, fare riferimento alle linee guida generali.
Origine
Passare alla scheda Origine per configurare l'origine dell'attività di copia. Per informazioni dettagliate sulla configurazione, vedere il contenuto seguente.
Sono necessarie le tre proprietà seguenti:
Tipo di archivio dati: selezionare Esterno.
Connessione: selezionare una connessione SFTP dall'elenco di connessioni. Se non esiste alcuna connessione, creare una nuova connessione SFTP selezionando Nuovo.
Tipo di percorso file: selezionare da Percorso file, Percorso file con caratteri jolly e Elenco di file in base al modo in cui si desidera leggere i file.
Percorso file: se si sceglie questo tipo, specificare il percorso del file di origine. È possibile selezionare Sfoglia per selezionare i file di origine o immettere manualmente il percorso del file.
Percorso file jolly: se si sceglie questo tipo, specificare i percorsi con caratteri jolly per filtrare le cartelle o i file di origine.
I caratteri jolly consentiti sono
*
(corrispondenza di zero o più caratteri) e?
(corrispondenza di zero caratteri o di un carattere singolo). Usare^
per eseguire l'escape se il nome della cartella ha un carattere jolly o questo carattere di escape all'interno. Per altri esempi, vedere Esempi di filtro cartelle e file.Percorso cartella con caratteri jolly: specificare il percorso della cartella con caratteri jolly per filtrare le cartelle di origine.
Nome file con caratteri jolly: specificare il nome file con caratteri jolly nel percorso della cartella o nel percorso della cartella con caratteri jolly specificati per filtrare i file di origine.
Elenco di file: se si seleziona questo tipo, specificare il percorso della cartella e l'elenco Percorso file per indicare di copiare un set di file specificato. Puntare a un file di testo che include un elenco di file da copiare, un file per riga. Per altri esempi, vedere Esempi di elenco file.
Percorso cartella: specificare il percorso della cartella di origine. Questo argomento è obbligatorio.
Percorso dell'elenco di file: specificare il percorso del file di testo che include un elenco di file da copiare.
Formato file: selezionare il formato di file applicato dall'elenco a discesa. Selezionare Impostazioni per configurare il formato di file. Per le impostazioni di formati di file diversi, fare riferimento agli articoli in Formato supportato per informazioni dettagliate.
In Avanzate è possibile specificare i campi seguenti:
Filtro in base all'ultima modifica: i file vengono filtrati in base alle date dell'ultima modifica specificate. Questa proprietà non si applica quando si configura il tipo di percorso del file come Elenco di file.
- Ora di inizio (UTC): i file vengono selezionati se l'ora dell'ultima modifica è maggiore o uguale all'ora configurata.
- Ora di fine (UTC): i file vengono selezionati se l'ora dell'ultima modifica è inferiore all'ora configurata.
Quando l'ora di inizio (UTC) ha un valore datetime, ma l'ora di fine (UTC) è NULL, significa che verranno selezionati i file il cui ultimo attributo modificato è maggiore o uguale al valore datetime. Quando l'ora di fine (UTC) ha un valore datetime, ma l'ora di inizio (UTC) è NULL, significa che verranno selezionati i file il cui attributo dell'ultima modifica è minore del valore datetime. Le proprietà possono essere NULL, il che significa che ai dati non verrà applicato alcun filtro di attributo di file.
Disabilita la suddivisione in blocchi: la suddivisione in blocchi è progettata per ottimizzare le prestazioni e si verifica sotto. Questa opzione consente di disabilitare la suddivisione in blocchi all'interno di ogni file. Quando si copiano dati da SFTP, il servizio tenta prima di tutto di ottenere la lunghezza del file, quindi dividere il file in più parti e leggerli in parallelo. Specificare se il server SFTP supporta il recupero della lunghezza del file o la ricerca di letture da un determinato offset. L'opzione non è selezionata per impostazione predefinita.
Abilita individuazione partizione: specificare se analizzare le partizioni dal percorso del file e aggiungerle come colonne di origine aggiuntive. Questa opzione non è selezionata per impostazione predefinita e non è supportata quando si usa il formato di file binario.
Percorso radice della partizione: quando l'individuazione della partizione è abilitata, specificare il percorso radice assoluto per leggere le cartelle partizionate come colonne di dati.
Se non è specificato, per impostazione predefinita,- Quando si usa il percorso del file o l'elenco di file nell'origine, il percorso radice della partizione è il percorso configurato.
- Quando si usa il filtro della cartella con caratteri jolly, il percorso radice della partizione è il sottopercorso prima del primo carattere jolly.
Si supponga, ad esempio, di configurare il percorso come
root/folder/year=2020/month=08/day=27
:- Se si specifica il percorso radice della partizione come
root/folder/year=2020
, l'attività di copia genererà due altre colonne mese e giorno con valore rispettivamente "08" e "27", oltre alle colonne all'interno dei file. - Se il percorso radice della partizione non viene specificato, non verrà generata alcuna colonna aggiuntiva.
Numero massimo di connessioni simultanee: questa proprietà indica il limite massimo di connessioni simultanee stabilite all'archivio dati durante l'esecuzione dell'attività. Specificare un valore solo quando si desidera limitare le connessioni simultanee.
Colonne aggiuntive: aggiungere altre colonne di dati per archiviare il percorso relativo o il valore statico dei file di origine. L'espressione è supportata per quest'ultima. Per altre informazioni, vedere Aggiungere altre colonne durante la copia.
Destination
Passare alla scheda Destinazione per configurare la destinazione dell'attività di copia. Per informazioni dettagliate sulla configurazione, vedere il contenuto seguente.
- Tipo di archivio dati: selezionare Esterno.
- Connessione: selezionare una connessione SFTP dall'elenco di connessioni. Se non esiste alcuna connessione, creare una nuova connessione SFTP selezionando Nuovo.
- Percorso file: specificare il percorso del file in cui scrivere i dati. È possibile selezionare Sfoglia per selezionare i file di origine o immettere manualmente il percorso del file.
- Formato file: selezionare il formato di file applicato dall'elenco a discesa. Selezionare Impostazioni per configurare il formato di file. Per le impostazioni di formati di file diversi, fare riferimento agli articoli in Formato supportato per informazioni dettagliate.
In Avanzate è possibile specificare i campi seguenti:
Comportamento di copia: specificare il comportamento di copia quando l'origine è file da un archivio dati basato su file. Scegliere tra le proprietà seguenti.
- Gerarchia flat: tutti i file della cartella di origine si trovano nel primo livello della cartella di destinazione. I nomi dei file di destinazione vengono generati automaticamente.
- File di merge: unire tutti i file dalla cartella di origine a un file. Se si specifica il nome di file, il nome del file unito sarà il nome specificato. In caso contrario, è un nome di file generato automaticamente.
- Mantenere la gerarchia (impostazione predefinita) : mantiene la gerarchia dei file nella cartella di destinazione. Il percorso relativo del file di origine nella cartella di origine è identico al percorso relativo del file di destinazione nella cartella di destinazione.
- Aggiungere contenuto dinamico: selezionare questa opzione per specificare il comportamento di copia usando il contenuto dinamico.
Numero massimo di connessioni simultanee: limite superiore di connessioni simultanee stabilite nell'archivio dati durante l'esecuzione dell'attività. Specificare un valore solo quando si desidera limitare le connessioni simultanee.
Timeout dell'operazione (minuti): specificare il timeout per la scrittura di ogni blocco nel server SFTP. Il valore predefinito è 60 minuti.
Caricare con il file temporaneo: specificare se caricare in file temporanei e rinominarli o scrivere direttamente nella cartella di destinazione o nel percorso del file. Per impostazione predefinita, è selezionata e il servizio scrive prima in file temporanei e quindi li rinomina al termine del caricamento.
Questa sequenza consente di evitare conflitti che potrebbero causare conflitti che potrebbero causare un file danneggiato se si dispone di altri processi che scrivono nello stesso file e (2) assicurarsi che la versione originale del file esista durante il trasferimento. Se il server SFTP non supporta un'operazione di ridenominazione, disabilitare questa opzione e assicurarsi di non avere una scrittura simultanea nel file di destinazione.
Suggerimento
Se viene visualizzato l'errore "UserErrorSftpPathNotFound", "UserErrorSftpPermissionDenied" o "SftpOperationFail" quando si scrivono dati in SFTP e l'utente SFTP usato dispone delle autorizzazioni appropriate, verificare se l'operazione di ridenominazione del file del server SFTP funziona. In caso contrario, disabilitare l'opzione Carica con file temp e riprovare.
Mapping
Per La configurazione della scheda Mapping, vedere Configurare i mapping nella scheda mapping. Se si sceglie Binary come formato file, il mapping non sarà supportato.
Impostazioni
Per la configurazione della scheda Impostazioni , passare a Configurare le altre impostazioni nella scheda Impostazioni.
Riepilogo tabella
La tabella seguente contiene altre informazioni sull'attività di copia in SFTP.
Origine
Nome | Descrizione | Valore | Necessario | Proprietà script JSON |
---|---|---|---|---|
Tipo di archivio dati | Tipo di archivio dati. | Esterno | Sì | / |
Connection | Connessione SFTP all'archivio dati di origine. | < connessione SFTP > | Sì | connection |
Tipo di percorso file | Tipo di percorso file usato per ottenere i dati di origine. | • Percorso file • Percorso del file con caratteri jolly • Elenco di file |
Sì | / |
Percorso file | Percorso del file di origine. | < percorso file> | Sì | fileName folderPath |
Percorsi con caratteri jolly | Percorso jolly del file di origine. | < percorso del file con caratteri jolly > | Sì per il nome del file con caratteri jolly | jollyFolderPath jollyFileName |
Percorso cartella | Percorso della cartella di origine. | < percorso della cartella> | Sì | folderPath |
Percorso dell'elenco di file | Indica di copiare un determinato set di file. Puntare a un file di testo che include un elenco di file che si desidera copiare, un file per riga. | < percorso elenco file > | No | fileListPath |
Formato file | Formato di file per i dati di origine. Per informazioni sui diversi formati di file, vedere articoli in formato Supportato per informazioni dettagliate. | / | Sì | / |
Filtro per ultima modifica | I file con l'ora dell'ultima modifica nell'intervallo [Ora di inizio, Ora di fine) verranno filtrati per un'ulteriore elaborazione. L'ora verrà applicata al fuso orario UTC nel formato .yyyy-mm-ddThh:mm:ss.fffZ Queste proprietà possono essere ignorate, il che significa che non verrà applicato alcun filtro di attributo di file. Questa proprietà non si applica quando si configura il tipo di percorso del file come Elenco di file. |
Datetime | No | modifiedDatetimeStart modifiedDatetimeEnd |
Disabilitare la suddivisione in blocchi | La suddivisione in blocchi è progettata per ottimizzare le prestazioni e si verifica sotto. Questa opzione consente di disabilitare la suddivisione in blocchi all'interno di ogni file. Quando si copiano dati da SFTP, il servizio tenta di ottenere prima la lunghezza del file, quindi dividere il file in più parti e leggerli in parallelo. Specificare se il server SFTP supporta il recupero della lunghezza del file o la ricerca di una lettura da un determinato offset. | selezionato o non selezionato (impostazione predefinita) | No | disableChunking: true o false (impostazione predefinita) |
Abilitare l'individuazione delle partizioni | Indica se analizzare le partizioni dal percorso del file e aggiungerle come colonne di origine aggiuntive. | selezionato o non selezionato (impostazione predefinita) | No | enablePartitionDiscovery: true o false (impostazione predefinita) |
Partition Root Path (Percorso radice partizione) | Percorso radice della partizione assoluta per leggere le cartelle partizionate come colonne di dati. Specificarlo quando l'individuazione delle partizioni è abilitata. | < percorso radice della partizione > | No | partitionRootPath |
Numero massimo di connessioni simultanee | Limite massimo di connessioni simultanee stabilite all'archivio dati durante l'esecuzione dell'attività. Specificare un valore solo quando si desidera limitare le connessioni simultanee. | < limite massimo di connessioni simultanee > (intero) |
No | maxConcurrentConnections |
Colonne aggiuntive | Aggiungere altre colonne di dati per archiviare il percorso relativo o il valore statico dei file di origine. L'espressione è supportata per quest'ultima. Per altre informazioni, vedere Aggiungere altre colonne durante la copia | • Name •Valore |
No | additionalColumns: •Nome •Valore |
Destination
Nome | Descrizione | Valore | Necessario | Proprietà dello script JSON |
---|---|---|---|---|
Tipo di archivio dati | Tipo di archivio dati. | Esterno | Sì | / |
Connection | Connessione a SFTP di origine. | < la connessione > | Sì | connection |
Percorso file | Percorso del file dei dati di destinazione. | Percorso del file della destinazione | Sì | folderPath fileName |
Formato file | Formato di file per i dati di origine. Per informazioni sui diversi formati di file, vedere articoli in Formato supportato per informazioni dettagliate. | / | Sì | / |
Comportamento di copia | Definisce il comportamento di copia quando l'origine è costituita da file di un archivio dati basato su file. | • Rendere flat la gerarchia • Unire file • Mantenere la gerarchia |
No | copyBehavior: - FlattenHierarchy - MergeFiles - PreserveHierarchy |
Numero massimo di connessioni simultanee | Limite massimo di connessioni simultanee stabilite all'archivio dati durante l'esecuzione dell'attività. Specificare un valore solo quando si desidera limitare le connessioni simultanee. | < numero massimo di connessioni simultanee > | No | maxConcurrentConnections |
Timeout dell'operazione (minuti) | Timeout per la scrittura di ogni blocco nel server SFTP. | < timeout dell'operazione > Il valore predefinito è 60 |
No | operationTimeout |
Caricare con il file temporaneo | Indica se caricare file temporanei e rinominare. Disabilitare questa opzione se il server SFTP non supporta l'operazione di ridenominazione. | selezionato (impostazione predefinita) o deselezionato | No | useTempFileRename: true (impostazione predefinita) o false |
Passaggi successivi
Commenti e suggerimenti
Invia e visualizza il feedback per