Formato XML in Data Factory in Microsoft Fabric

Questo articolo illustra come configurare il formato XML nella pipeline di dati di Data Factory in Microsoft Fabric.

Funzionalità supportate

Il formato XML è supportato per le attività e i connettori seguenti come origine.

Category Connessione or/attività
Connettore supportato Amazon S3
Archiviazione BLOB di Azure
Azure Data Lake Storage Gen1
Azure Data Lake Storage Gen2
FTP
Google Cloud Storage
HTTP
SFTP
Attività supportata attività Copy
Attività Lookup
Attività GetMetadata
Attività Delete

Formato XML nell'attività di copia

Per configurare il formato XML, scegliere la connessione nell'origine dell'attività di copia della pipeline di dati e quindi selezionare XML nell'elenco a discesa Formato file. Selezionare Impostazioni per ulteriori configurazioni di questo formato.

Screenshot showing file format settings.

XML come origine

Dopo aver selezionato Impostazioni nella sezione Formato file, nella finestra di dialogo Impostazioni formato file popup vengono visualizzate le proprietà seguenti.

Screenshot showing selecting file format.

  • Tipo di compressione: codec di compressione usato per leggere i file XML. È possibile scegliere tra Tipo none, bzip2, gzip, deflate, ZipDeflate, TarGZip o tar nell'elenco a discesa.

    Se si seleziona ZipDeflate come tipo di compressione, mantenere il nome del file ZIP come cartella viene visualizzato nelle impostazioni avanzate nella scheda Origine .

    • Mantieni il nome del file ZIP come cartella: indica se mantenere il nome del file ZIP di origine come struttura di cartelle durante la copia.
      • Se questa casella è selezionata (impostazione predefinita), il servizio scrive i file decompressi in <specified file path>/<folder named as source zip file>/.
      • Se questa casella è deselezionata, il servizio scrive i file decompressi direttamente in <specified file path>. Assicurarsi di non avere nomi di file duplicati in file ZIP di origine diversi per evitare corse o comportamenti imprevisti.

    Se si seleziona TarGZip/tar come tipo di compressione, mantenere il nome del file di compressione come cartella viene visualizzato nelle impostazioni avanzate nella scheda Origine .

    • Mantieni il nome del file di compressione come cartella: indica se mantenere il nome del file compresso di origine come struttura di cartelle durante la copia.
      • Se questa casella è selezionata (impostazione predefinita), il servizio scrive i file decompressi in <specified file path>/<folder named as source compressed file>/.
      • Se questa casella è deselezionata, il servizio scrive i file decompressi direttamente in <specified file path>. Assicurarsi di non avere nomi di file duplicati in file di origine diversi per evitare corse o comportamenti imprevisti.
  • Livello di compressione: specificare il rapporto di compressione quando si seleziona un tipo di compressione. È possibile scegliere tra Più veloce o Ottimale.

    • Fastest: l'operazione di compressione deve essere completata il più rapidamente possibile, anche se il file risultante non viene compresso in modo ottimale.
    • Optimal: l'operazione di compressione deve comprimere il file in modo ottimale, anche se il completamento richiede più tempo. Per maggiori informazioni, vedere l'argomento relativo al livello di compressione .
  • Codifica: specificare il tipo di codifica usato per scrivere file di test. Selezionare un tipo dall'elenco a discesa. Il valore predefinito è UTF-8.

  • Valore Null: specifica la rappresentazione di stringa del valore Null. Il valore predefinito è una stringa vuota.

In Impostazioni avanzate nella scheda Origine vengono visualizzate le proprietà correlate al formato XML seguenti.

  • Modalità di convalida: specifica se convalidare lo schema XML. Selezionare una modalità dall'elenco a discesa.

    • Nessuno: selezionare questa opzione per non usare la modalità di convalida.
    • xsd: selezionare questa opzione per convalidare lo schema XML tramite XSD.
    • dtd: selezionare questa opzione per convalidare lo schema XML usando DTD.

    Screenshot showing validation modes.

  • Spazi dei nomi: specificare se abilitare lo spazio dei nomi durante l'analisi dei file XML. È selezionata per impostazione predefinita.

  • Coppie di prefissi dello spazio dei nomi: se lo spazio dei nomi è abilitato, selezionare + Nuovo e specificare l'URL e il prefisso. È possibile aggiungere altre coppie selezionando + Nuovo.
    L'URI dello spazio dei nomi per il mapping dei prefissi viene usato per denominare i campi durante l'analisi del file XML. Se uno spazio dei nomi e lo spazio dei nomi di un file XML è abilitato, per impostazione predefinita, il nome del campo corrisponde a quello nel documento XML. Se nella mappa è definito un elemento per l'URI dello spazio dei nomi, il nome del campo è prefix:fieldName.

    Screenshot showing namespace prefix pairs.

  • Rilevare il tipo di dati: specificare se rilevare i tipi di dati integer, double e Boolean. È selezionata per impostazione predefinita.

Riepilogo tabella

XML come origine

Le proprietà seguenti sono supportate nella sezione Origine attività di copia quando si usa il formato XML.

Nome Descrizione Valore Obbligatorio Proprietà script JSON
Formato file Formato di file che si desidera utilizzare. XML type (in datasetSettings):
XML
Tipo di compressione Codec di compressione utilizzato per leggere i file XML. Nessuno
bzip2
Gzip
Sgonfiare
ZipDeflate
TarGZip
Tar
No type (in compression):

bzip2
gzip
Sgonfiare
ZipDeflate
TarGZip
Tar
Livello di compressione  Rapporto di compressione. Il più rapido
Ottimale 
No livello (in compression):
Il più rapido
Ottimale
Encoding Tipo di codifica utilizzato per leggere i file di test. "UTF-8" (per impostazione predefinita),"UTF-8 without BOM", "UTF-16LE", "UTF-16BE", "UTF-32LE", "UTF-32BE", "US-ASCII", "UTF-7", "BIG"5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM273", ""IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864" " IBM865", "IBM869", "IBM870", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-2", "ISO-8859-1"3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8859-8 " ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" No encodingName
Mantenere il nome del file ZIP come cartella Indica se mantenere il nome del file ZIP di origine come struttura di cartelle durante la copia. Selezionato (impostazione predefinita) o deselezionare No preserveZipFileNameAsFolder
(in compressionProperties->type come ZipDeflateReadSettings):
true (impostazione predefinita) o false
Mantenere il nome del file di compressione come cartella Indica se mantenere il nome del file compresso di origine come struttura di cartelle durante la copia. Selezionato (impostazione predefinita) o deselezionare No preserveCompressionFileNameAsFolder
(in compressionProperties->type come TarGZipReadSettings o TarReadSettings):
true (impostazione predefinita) o false
Valore Null Rappresentazione di stringa di un valore Null. <valore Null>
stringa vuota (per impostazione predefinita)
No nullValue
Modalità di convalida Indica se convalidare lo schema XML. Nessuno
Xsd
Dtd
No validationMode:

xsd
Dtd
Namespaces (Spazi dei nomi) Indica se abilitare lo spazio dei nomi durante l'analisi dei file XML. Selezionato (impostazione predefinita) o deselezionato No Namespaces:
true (impostazione predefinita) o false
Coppie di prefissi dello spazio dei nomi URI dello spazio dei nomi per il mapping dei prefissi, usato per denominare i campi durante l'analisi del file XML.
Se uno spazio dei nomi e lo spazio dei nomi di un file XML è abilitato, per impostazione predefinita, il nome del campo corrisponde a quello nel documento XML.
Se nella mappa è definito un elemento per l'URI dello spazio dei nomi, il nome del campo è prefix:fieldName.
< url >:< prefisso > No namespacePrefixes:
< url >:< prefisso >
Rilevare il tipo di dati Indica se rilevare tipi di dati integer, double e booleani. Selezionato (impostazione predefinita) o deselezionato No detectDataType:
true (impostazione predefinita) o false