Formato di testo delimitato in Data Factory in Microsoft Fabric
Questo articolo illustra come configurare il formato di testo delimitato nella pipeline di dati di Data Factory in Microsoft Fabric.
Importante
Microsoft Fabric è attualmente disponibile in ANTEPRIMA. Queste informazioni si riferiscono a un prodotto in versione preliminare che può essere modificato in modo sostanziale prima del rilascio. Microsoft non fornisce alcuna garanzia, espressa o implicita, rispetto alle informazioni fornite qui. Vedere Azure Data Factory documentazione per il servizio in Azure.
Funzionalità supportate
Il formato di testo delimitato è supportato per le attività e i connettori seguenti come origine e destinazione.
Category | Connettore/attività |
---|---|
Connettore supportato | Amazon S3 |
Archiviazione BLOB di Azure | |
Azure Data Lake Storage Gen1 | |
Azure Data Lake Storage Gen2 | |
Google Cloud Storage | |
HTTP | |
Attività supportata | attività Copy |
Attività Lookup | |
Attività GetMetadata | |
DeleteActivity |
Formato di testo delimitato nell'attività di copia
Per configurare il formato di testo delimitato, scegliere la connessione nell'origine o nella destinazione dell'attività di copia della pipeline di dati e quindi selezionare DelimitedText nell'elenco a discesa Formato file. Selezionare Impostazioni per un'ulteriore configurazione di questo formato.
Formato di testo delimitato come origine
Dopo aver selezionato Impostazioni nella sezione Formato file , le proprietà seguenti vengono visualizzate nella finestra di dialogo Impostazioni formato file popup.
Tipo di compressione: codec di compressione usato per leggere file di testo delimitati. È possibile scegliere tra Nessuno, bzip2, gzip, deflate, ZipDeflate, TarGzip o tar nell'elenco a discesa.
Se si seleziona ZipDeflate come tipo di compressione, mantenere il nome del file ZIP come cartella verrà visualizzato in Impostazioni avanzate nella scheda Origine .
- Mantieni il nome del file ZIP come cartella: indica se mantenere il nome del file ZIP di origine come struttura di cartelle durante la copia.
- Se questa casella è selezionata (impostazione predefinita), il servizio scrive i file decompressi in
<specified file path>/<folder named as source zip file>/
. - Se questa casella è deselezionata, il servizio scrive i file decompressi direttamente in
<specified file path>
. Assicurarsi di non avere nomi di file duplicati in file ZIP di origine diversi per evitare corse o comportamenti imprevisti.
- Se questa casella è selezionata (impostazione predefinita), il servizio scrive i file decompressi in
Se si seleziona TarGzip/tar come tipo di compressione, mantenere il nome del file di compressione come cartella verrà visualizzato in Impostazioni avanzate nella scheda Origine .
- Mantieni il nome del file di compressione come cartella: indica se mantenere il nome del file compresso di origine come struttura di cartelle durante la copia.
- Se questa casella è selezionata (impostazione predefinita), il servizio scrive i file decompressi in
<specified file path>/<folder named as source compressed file>/
. - Se questa casella è deselezionata, il servizio scrive i file decompressi direttamente in
<specified file path>
. Assicurarsi di non avere nomi di file duplicati in file ZIP di origine diversi per evitare corse o comportamenti imprevisti.
- Se questa casella è selezionata (impostazione predefinita), il servizio scrive i file decompressi in
- Mantieni il nome del file ZIP come cartella: indica se mantenere il nome del file ZIP di origine come struttura di cartelle durante la copia.
Livello di compressione: specificare il rapporto di compressione quando si seleziona un tipo di compressione. È possibile scegliere tra Ottimale o Più veloce.
- Più veloce: l'operazione di compressione deve essere completata il più rapidamente possibile, anche se il file risultante non è compresso in modo ottimale.
- Optimal: l'operazione di compressione deve comprimere il file in modo ottimale, anche se il completamento richiede più tempo. Per altre informazioni, vedere l'argomento Livello di compressione.
Delimitatore di colonna: i caratteri usati per separare le colonne in un file. Il valore predefinito è virgola (
,
).Delimitatore di riga: specificare il carattere utilizzato per separare le righe in un file. È consentito un solo carattere. Il valore predefinito è avanzamento
\n
riga .Codifica: tipo di codifica usato per leggere/scrivere file di test. Il valore predefinito è UTF-8.
Carattere di escape: carattere singolo per l'escape delle virgolette all'interno di un valore tra virgolette. Il valore predefinito è barra rovesciata
\
. Quando il carattere di escape è definito come stringa vuota, anche il carattere virgolette deve essere impostato come stringa vuota, nel qual caso assicurarsi che tutti i valori di colonna non contengano delimitatori.Carattere virgolette: carattere singolo da virgolettere i valori di colonna se contiene il delimitatore di colonna. Il valore predefinito è virgolette
"
doppie. Quando il carattere virgolette è definito come stringa vuota, significa che non vi sono virgolette e il valore della colonna non è tra virgolette e il carattere di escape viene usato per eseguire l'escape del delimitatore di colonna e se stesso.Prima riga come intestazione: specifica se trattare o impostare la prima riga come riga di intestazione con nomi di colonne. I valori consentiti sono selezionati e deselezionati (impostazione predefinita). Quando la prima riga come intestazione non è selezionata, si noti che l'anteprima dei dati dell'interfaccia utente e l'output dell'attività di ricerca generano automaticamente nomi di colonna come Prop_{n} (a partire da 0), l'attività di copia richiede il mapping esplicito dall'origine alla destinazione e individua le colonne in base all'ordinale (a partire da 1).
Valore Null: specifica la rappresentazione di stringa del valore Null. Il valore predefinito è una stringa vuota.
In Impostazioni avanzate nella scheda Origine vengono visualizzate ulteriori proprietà correlate al formato di testo delimitato.
- Ignora conteggio righe: indica il numero di righe non interrotte da ignorare durante la lettura dei dati dai file di input. Se vengono specificati sia il numero di righe Skip che First row as header , le righe vengono ignorate per prime e quindi le informazioni sull'intestazione vengono lette dal file di input.
Formato di testo delimitato come destinazione
Dopo aver selezionato Impostazioni nella sezione Formato file , le proprietà seguenti vengono visualizzate nella finestra di dialogo Impostazioni formato file popup.
Tipo di compressione: codec di compressione usato per scrivere file di testo delimitati. È possibile scegliere tra Nessuno, bzip2, gzip, deflate, ZipDeflate, TarGzip o tar nell'elenco a discesa.
Livello di compressione: specificare il rapporto di compressione quando si seleziona un tipo di compressione. È possibile scegliere tra Ottimale o Più veloce.
- Più veloce: l'operazione di compressione deve essere completata il più rapidamente possibile, anche se il file risultante non è compresso in modo ottimale.
- Optimal: l'operazione di compressione deve comprimere il file in modo ottimale, anche se il completamento richiede più tempo. Per altre informazioni, vedere l'argomento Livello di compressione.
Delimitatore di colonna: i caratteri usati per separare le colonne in un file. Il valore predefinito è virgola (
,
).Delimitatore di riga: carattere utilizzato per separare le righe in un file. È consentito un solo carattere. Il valore predefinito è avanzamento
\n
riga .Codifica: tipo di codifica usato per scrivere file di test. Il valore predefinito è UTF-8.
Carattere di escape: carattere singolo per l'escape delle virgolette all'interno di un valore tra virgolette. Il valore predefinito è barra rovesciata
\
. Quando il carattere di escape è definito come stringa vuota, anche il carattere virgolette deve essere impostato come stringa vuota, nel qual caso assicurarsi che tutti i valori di colonna non contengano delimitatori.Carattere virgolette: carattere singolo da virgolettere i valori di colonna se contiene il delimitatore di colonna. Il valore predefinito è virgolette
"
doppie. Quando il carattere virgolette è definito come stringa vuota, significa che non vi sono virgolette e il valore della colonna non è tra virgolette e il carattere di escape viene usato per eseguire l'escape del delimitatore di colonna e se stesso.Prima riga come intestazione: specifica se trattare o impostare la prima riga come riga di intestazione con nomi di colonne. I valori consentiti sono selezionati e deselezionati (impostazione predefinita). Quando la prima riga come intestazione non è selezionata, si noti che l'anteprima dei dati dell'interfaccia utente e l'output dell'attività di ricerca generano automaticamente nomi di colonna come Prop_{n} (a partire da 0), l'attività di copia richiede il mapping esplicito dall'origine alla destinazione e individua le colonne in base all'ordinale (a partire da 1).
Valore Null: specifica la rappresentazione di stringa del valore Null. Il valore predefinito è una stringa vuota.
In Impostazioni avanzate nella scheda Destinazione vengono visualizzate ulteriori proprietà correlate al formato di testo delimitato.
Virgolette tutte le virgolette: racchiudere tutti i valori tra virgolette.
Estensione file: estensione di file usata per denominare i file di output, ad esempio ,
.csv
.txt
.Numero massimo di righe per file: quando si scrivono dati in una cartella, è possibile scegliere di scrivere in più file e specificare le righe massime per ogni file.
Prefisso del nome file: applicabile quando è configurato il numero massimo di righe per file . Specificare il prefisso del nome file durante la scrittura di dati in più file, con questo modello:
<fileNamePrefix>_00000.<fileExtension>
. Se non specificato, il prefisso del nome file verrà generato automaticamente. Questa proprietà non si applica quando l'origine è l'archivio basato su file o l'opzione di partizione abilitata per l'archivio dati.
Riepilogo tabella
Testo delimitato come origine
Le proprietà seguenti sono supportate nella sezione Origine dell'attività di copia quando si usa il formato di testo delimitato.
Nome | Descrizione | Valore | Necessario | Proprietà dello script JSON |
---|---|---|---|---|
Formato file | Formato di file che si desidera utilizzare. | DelimitedText | Sì | tipo (in datasetSettings ):DelimitedText |
Tipo di compressione | Codec di compressione utilizzato per leggere file di testo delimitati. | Scegliere tra: Nessuno bzip2 Gzip Sgonfiare ZipDeflate TarGzip Tar |
No | tipo (in compression ):bzip2 gzip Sgonfiare ZipDeflate TarGzip Tar |
Mantenere il nome del file ZIP come cartella | Indica se mantenere il nome del file ZIP di origine come struttura di cartelle durante la copia. Si applica quando si seleziona Compressione ZipDeflate . | Selezionato o deselezionato | No | preserveZipFileNameAsFolder (under compressionProperties ->type as ZipDeflateReadSettings ) |
Mantenere il nome del file di compressione come cartella | Indica se mantenere il nome del file compresso di origine come struttura di cartelle durante la copia. Si applica quando si seleziona la compressione TarGzip/tar . | Selezionato o deselezionato | No | preserveCompressionFileNameAsFolder (in compressionProperties ->type come TarGZipReadSettings o TarReadSettings ) |
Livello di compressione | Rapporto di compressione. I valori consentiti sono Optimal o Fastest. | Ottimale o più veloce | No | livello (in compression ):Il più rapido Ottimale |
Delimitatore di colonna | Caratteri utilizzati per separare le colonne in un file. | < delimitatore di colonna selezionato > Virgola , (per impostazione predefinita) |
No | columnDelimiter |
Delimitatore di riga | carattere usato per separare le righe in un file. | < delimitatore di riga selezionato > \r ,\n (per impostazione predefinita) o r\n |
No | rowDelimiter |
Encoding | Tipo di codifica utilizzato per leggere/scrivere file di test. | "UTF-8" (per impostazione predefinita),"UTF-8 without BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM870", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISOO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251" ", "WINDOWS-1252", "WINDOWS-1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" | No | encodingName |
Carattere di escape | Carattere singolo per l'escape delle virgolette all'interno di un valore racchiuso tra virgolette. Quando il carattere di escape è definito come stringa vuota, anche il carattere virgolette deve essere impostato come stringa vuota, nel qual caso assicurarsi che tutti i valori di colonna non contengano delimitatori. | < carattere di escape selezionato > Barra rovesciata \ (per impostazione predefinita) |
No | escapeChar |
Carattere virgolette | Carattere singolo da virgolettere i valori di colonna se contiene delimitatori di colonna. Quando il carattere virgolette è definito come stringa vuota, significa che non vi sono virgolette e il valore della colonna non è tra virgolette e il carattere di escape viene usato per eseguire l'escape del delimitatore di colonna e se stesso. | < il carattere di virgoletta selezionato > Virgolette " (per impostazione predefinita) |
No | quoteChar |
Prima riga come intestazione | Specifica se considerare la prima riga del foglio di lavoro o dell'intervallo specificato come riga di intestazione con nomi di colonne. | Selezionato o deselezionato | No | firstRowAsHeader: true o false (impostazione predefinita) |
Valore Null | Specifica la rappresentazione di stringa del valore Null. Il valore predefinito è una stringa vuota. | < rappresentazione stringa di valore Null > stringa vuota (per impostazione predefinita) |
No | nullValue |
Conteggio righe ignora | indica il numero di righe non vuote da ignorare durante la lettura dei dati dai file di input. Se vengono specificati sia il conteggio delle righe skip che la prima riga come intestazione , le righe vengono ignorate e quindi le informazioni sull'intestazione vengono letti dal file di input. | < numero di righe ignora > | No | skipLineCount |
Testo delimitato come destinazione
Le proprietà seguenti sono supportate nella sezione Destinazione attività di copia quando si usa il formato di testo delimitato.
Nome | Descrizione | Valore | Necessario | Proprietà script JSON |
---|---|---|---|---|
Formato file | Formato di file da usare. | DelimitedText | Sì | tipo (in datasetSettings ):DelimitedText |
Tipo di compressione | Codec di compressione usato per scrivere file di testo delimitati. | Scegliere tra: Nessuno bzip2 Gzip Sgonfiare ZipDeflate TarGzip Tar |
No | tipo (in compression ):bzip2 gzip Sgonfiare ZipDeflate TarGzip Tar |
Mantenere il nome del file zip come cartella | Indica se mantenere il nome del file zip di origine come struttura di cartelle durante la copia. | Selezionata o deselezionata | No | preserveZipFileNameAsFolder (sotto compressionProperties ->type come ZipDeflateReadSettings ) |
Mantenere il nome del file di compressione come cartella | Indica se mantenere il nome del file compresso di origine come struttura di cartelle durante la copia. | Selezionata o deselezionata | No | preserveCompressionFileNameAsFolder (sotto compressionProperties ->type come TarGZipReadSettings o TarReadSettings ) |
Livello di compressione | Rapporto di compressione. I valori consentiti sono Ottimali o Veloci. | Ottimale o Più veloce | No | livello (sotto compression ):Il più rapido Ottimale |
Delimitatore di colonna | Caratteri usati per separare le colonne in un file. | < delimitatore di colonne selezionato > virgola , (per impostazione predefinita) |
No | columnDelimiter |
Delimitatore di riga | carattere usato per separare le righe in un file. | < delimitatore di righe selezionato > \r ,\n (per impostazione predefinita) o r\n |
No | rowDelimiter |
Encoding | Tipo di codifica usato per leggere/scrivere file di test. | "UTF-8" (per impostazione predefinita),"UTF-8 senza BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM870", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM011444", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-3", "ISOO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1251 "WINDOWS-1252", "WINDOWS-1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" | No | encodingName |
Carattere di escape | Carattere singolo da escape virgolette all'interno di un valore con virgolette. Quando il carattere di escape è definito come stringa vuota, il carattere Virgolette deve essere impostato anche come stringa vuota, in questo caso assicurarsi che tutti i valori di colonna non contengano delimitatori. | < carattere di escape selezionato > Barra rovesciata \ (per impostazione predefinita) |
No | escapeChar |
Carattere virgolette | Carattere singolo per virgolette valori di colonna se contiene il delimitatore di colonne. Quando il carattere Virgolette è definito come stringa vuota, significa che non è presente alcun carattere di virgolette e il valore di colonna non viene citato e il carattere di escape viene usato per eseguire l'escape del delimitatore di colonna e se stesso. | < carattere di virgolette selezionate > Virgolette " (per impostazione predefinita) |
No | quoteChar |
Prima riga come intestazione | Specifica se considerare la prima riga nel foglio di lavoro/intervallo specificato come riga di intestazione con nomi di colonne. | Selezionata o non selezionata | No | firstRowAsHeader: true o false (impostazione predefinita) |
Virgolette tutto il testo | Racchiudere tutti i valori nelle virgolette. | Selezionato (impostazione predefinita) o non selezionato | No | quoteAllText: true (impostazione predefinita) o false |
Estensione file | Estensione del file usata per assegnare un nome ai file di output. | < estensione del file > .txt (per impostazione predefinita) |
No | Fileextension |
Numero massimo di righe per file | Quando si scrivono dati in una cartella, è possibile scegliere di scrivere in più file e specificare le righe massime per ogni file. | < righe massime per file > | No | maxRowsPerFile |
Prefisso nome file | Applicabile quando vengono configurate le righe massime per ogni file . Specificare il prefisso del nome file durante la scrittura di dati in più file, è stato generato questo modello: <fileNamePrefix>_00000.<fileExtension> . Se non specificato, il prefisso del nome file verrà generato automaticamente. Questa proprietà non si applica quando l'origine è l'archivio file o l'opzione di partizione abilitata per l'archivio dati. |
< prefisso del nome file > | No | fileNamePrefix |