Formato XML en Data Factory en Microsoft Fabric

En este artículo se explica cómo configurar el formato XML en la canalización de datos de Data Factory en Microsoft Fabric.

Funcionalidades admitidas

El formato XML se admite para las siguientes actividades y conectores como origen.

Categoría Conector/Actividad
Conector compatible Amazon S3
Azure Blob Storage
Azure Data Lake Storage Gen1
Azure Data Lake Storage Gen2
FTP
Google Cloud Storage
HTTP
SFTP
Actividad compatible Actividad de copia
Actividad de búsqueda
Actividad GetMetadata
Actividad de eliminación

Formato XML en la actividad de copia

Para configurar el formato XML, elija la conexión en el origen de la actividad de copia de la canalización de datos y seleccione XML en la lista desplegable Formato de archivo . Seleccione Configuración para una configuración adicional de este formato.

Screenshot showing file format settings.

XML como origen

Después de seleccionar Configuración en la sección Formato de archivo , se muestran las siguientes propiedades en el cuadro de diálogo emergente Configuración de formato de archivo .

Screenshot showing selecting file format.

  • Tipo de compresión: códec de compresión utilizado para leer archivos XML. Puede elegir entre los tipos Ninguno, bzip2, gzip, deflate, ZipDeflate , TarGZip o tar en la lista desplegable.

    Si selecciona ZipDeflate como tipo de compresión, Conservar el nombre del archivo zip como carpeta aparecerá en la configuración Avanzada de la pestaña Origen.

    • Conservar el nombre del archivo zip como carpeta: Indica si se debe conservar el nombre del archivo zip de origen como estructura de carpetas durante la copia.
      • Si esta casilla está marcada (predeterminado), el servicio escribe los archivos descomprimidos en <specified file path>/<folder named as source zip file>/.
      • Si esta casilla no está marcada, el servicio escribe los archivos descomprimidos directamente en <specified file path>. Asegúrese de que no tenga nombres de archivo duplicados en distintos archivos ZIP de origen para evitar comportamientos acelerados o inesperados.

    Si selecciona TarGZip/tar como tipo de compresión, se muestra la opción Conservar el nombre del archivo de compresión como carpeta en la configuración Avanzada de la pestaña Origen.

    • Conservar el nombre del archivo de compresión como carpeta: Indica si se debe conservar el nombre del archivo de compresión de origen como estructura de carpetas durante la copia.
      • Si esta casilla está marcada (predeterminado), el servicio escribe los archivos descomprimidos en <specified file path>/<folder named as source compressed file>/.
      • Si esta casilla no está marcada, el servicio escribe los archivos descomprimidos directamente en <specified file path>. Asegúrese de que no haya nombres de archivo duplicados en distintos archivos de origen para evitar comportamientos acelerados o inesperados.
  • Nivel de compresión: especifique la relación de compresión al seleccionar un tipo de compresión. Puede elegir entre Más rápido u Óptimo.

    • Más rápido: la operación de compresión debe completarse lo más rápido posible, incluso si el archivo resultante no se comprime de manera óptima.
    • Optimal: la operación de compresión se debe comprimir óptimamente, incluso si tarda más tiempo en completarse. Para obtener más información, consulte el tema Nivel de compresión .
  • Codificación: el tipo de codificación usado para escribir archivos de prueba. Seleccione un tipo de la lista desplegable. El valor predeterminado es UTF-8.

  • Valor nulo : especifica la representación de cadena del valor nulo. El valor predeterminado es una cadena vacía.

En la configuración Avanzada de la pestaña Origen, se muestran las siguientes propiedades relacionadas con el formato XML.

  • Modo de validación: especifica si debe validarse el esquema XML. Seleccione un modo en la lista desplegable.

    • Ninguno: seleccione esta opción para no usar ningún modo de validación.
    • xsd: seleccione esta opción para validar el esquema XML con XSD.
    • dtd: seleccione esta opción para validar el esquema XML con DTD.

    Screenshot showing validation modes.

  • Espacios de nombres: indica si debe habilitarse el espacio de nombres cuando se analizan los archivos XML. Esta opción está seleccionada de forma predeterminada.

  • Pares de prefijo de espacio de nombres: si está activada la opción Espacios de nombres, seleccione + Nuevo y especifique los valores de Dirección URL y Prefijo. Para agregar más pares, seleccione + Nuevo.
    La asignación de URI de espacio de nombres a prefijo se usa para darles nombre a los campos cuando se analiza el archivo XML. Si un archivo XML tiene un espacio de nombres y este está habilitado, de forma predeterminada, el nombre del campo es el mismo que en el documento XML. Si hay un elemento definido para el URI del espacio de nombres en esta asignación, el nombre del campo es prefix:fieldName.

    Screenshot showing namespace prefix pairs.

  • Detectar tipo de datos: especifique si deben detectarse los tipos de datos entero, doble y booleano. Esta opción está seleccionada de forma predeterminada.

Resumen de tabla

XML como origen

Las siguientes propiedades se admiten en la sección Origen de la actividad de copia cuando se utiliza el formato XML.

Nombre Descripción Valor Obligatorio Propiedad de script JSON
Formato de archivo El formato de archivo que quiere usar. XML tipo (en datasetSettings):
Xml
Tipo de compresión Códec de compresión usado para leer archivos XML. Ninguna
bzip2
gzip
deflate
ZipDeflate
TarGZip
tar
No tipo (en compression):

bzip2
gzip
deflate
ZipDeflate
TarGZip
tar
Nivel de compresión  La razón de compresión. Más rápida
Optimal 
No nivel (en compression):
Más rápido
Óptimo
Encoding El tipo de codificación usado para leer archivos de prueba. "UTF-8" (de manera predeterminada),"UTF-8 without BOM", "UTF-16LE", "UTF-16BE", "UTF-32LE", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM870", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" No encodingName
Conservar el nombre del archivo ZIP como carpeta Indica si se debe conservar el nombre del archivo ZIP de origen como estructura de carpetas durante la copia. Seleccionado (predeterminado) o no seleccionado No preserveZipFileNameAsFolder
(en compressionProperties>type como ZipDeflateReadSettings):
true (valor predeterminado) o false
Conservar el nombre del archivo de compresión como carpeta Indica si, durante la copia, debe conservarse el nombre del archivo de origen comprimido como una estructura de carpetas. Seleccionado (predeterminado) o no seleccionado No preserveCompressionFileNameAsFolder
(en compressionProperties->type como TarGZipReadSettings o TarReadSettings):
true (valor predeterminado) o false
Valor null La representación de cadena del valor null. <el valor NULL>
cadena vacía (de forma predeterminada)
No nullValue
Modo de validación Indica si debe validarse el esquema XML. Ninguna
xsd
dtd
No validationMode:

xsd
dtd
Espacios de nombres Indica si habilitar el espacio de nombres al analizar los archivos XML. Seleccionado (valor predeterminado) o no seleccionado No namespaces:
true (valor predeterminado) o false
Pares de prefijo de espacio de nombres Asignación de URI de espacio de nombres a prefijo, que se usa para asignarles un nombre a los campos cuando se analiza el archivo XML.
Si un archivo XML tiene un espacio de nombres y este está habilitado, de forma predeterminada, el nombre del campo es el mismo que en el documento XML.
Si hay un elemento definido para el URI del espacio de nombres en esta asignación, el nombre del campo es prefix:fieldName.
<url>:<prefix> No namespacePrefixes:
<url>:<prefix>
Detectar tipo de datos Si se van a detectar tipos de datos enteros, dobles y booleanos. Seleccionado (valor predeterminado) o no seleccionado No detectDataType:
true (valor predeterminado) o false