Formato de texto delimitado en Azure Data Factory | Microsoft Docs

En este artículo se describe cómo configurar el formato de texto delimitado en la canalización de datos de Data Factory en Microsoft Fabric.

Funcionalidades admitidas

El formato de texto delimitado es compatible con las siguientes actividades y conectores como origen y destino.

Category Conector/Actividad
Conector compatible Amazon S3
Azure Blob Storage
Azure Data Lake Storage Gen1
Azure Data Lake Storage Gen2
Google Cloud Storage
HTTP
Actividad compatible Actividad de copia
Actividad de búsqueda
Actividad GetMetadata
Actividad de eliminación

Formato de texto delimitado en la actividad de copia

Para configurar el formato de texto delimitado, elija la conexión en el origen o destino de la actividad de copia de canalización de datos y, a continuación, seleccione DelimitedText en la lista desplegable Formato de archivo. Seleccione Configuración para seguir configurando este formato.

Screenshot showing file format settings.

Formato de texto delimitado como origen

Después de seleccionar Configuración en la sección Formato de archivo , las siguientes propiedades se muestran en el cuadro de diálogo Configuración del formato de archivo emergente.

Screenshot showing source file format settings.

  • Tipo de compresión: el códec de compresión usado para leer archivos de texto delimitados. Puede elegir entre Ninguno, bzip2, gzip, deflate, ZipDeflate, TarGzip o tar en la lista desplegable.

    Si selecciona ZipDeflate como tipo de compresión, Conservar el nombre del archivo zip como carpeta aparecerá en la configuración Avanzada de la pestaña Origen.

    • Conservar el nombre del archivo zip como carpeta: indica si se debe conservar el nombre del archivo zip de origen como estructura de carpetas durante la copia.
      • Si esta casilla está marcada (predeterminado), el servicio escribe los archivos descomprimidos en <specified file path>/<folder named as source zip file>/.
      • Si esta casilla no está marcada, el servicio escribe los archivos descomprimidos directamente en <specified file path>. Asegúrese de que no tenga nombres de archivo duplicados en distintos archivos ZIP de origen para evitar comportamientos acelerados o inesperados.

    Si selecciona TarGzip/tar como tipo de compresión, Conservar el nombre del archivo de compresión como carpeta aparecerá en la configuración Avanzada de la pestaña Origen.

    • Conservar el nombre del archivo de compresión como carpeta: indica si se debe conservar el nombre del archivo de compresión de origen como estructura de carpetas durante la copia.
      • Si esta casilla está marcada (predeterminado), el servicio escribe los archivos descomprimidos en <specified file path>/<folder named as source compressed file>/.
      • Si esta casilla no está marcada, el servicio escribe los archivos descomprimidos directamente en <specified file path>. Asegúrese de que no tenga nombres de archivo duplicados en distintos archivos ZIP de origen para evitar comportamientos acelerados o inesperados.
  • Nivel de compresión: especifique la relación de compresión al seleccionar un tipo de compresión. Puede elegir entre Óptimo o Más rápido.

    • Más rápido: la operación de compresión debe completarse lo más rápido posible, incluso si el archivo resultante no se comprime de manera óptima.
    • Optimal: la operación de compresión se debe comprimir óptimamente, incluso si tarda más tiempo en completarse. Para más información, consulte el tema Nivel de compresión .
  • Delimitador de columna: el carácter o caracteres usados para separar columnas en un fichero. El valor predeterminado es comma (,).

  • Delimitador de filas: especifique el carácter usado para separar las filas de un archivo. Solo se permite un carácter. El valor predeterminado es el avance de línea \n.

  • Codificación: el tipo de codificación usado para leer/escribir archivos de prueba. El valor predeterminado es UTF-8.

  • Carácter de escape: el carácter único para escapar las comillas dentro de un valor entre comillas. El valor predeterminado es barra diagonal inversa\. Cuando el carácter de escape se define como cadena vacía, el Carácter de entrecomillado debe establecerse también como cadena vacía, en cuyo caso hay que asegurarse de que todos los valores de columna no contienen delimitadores.

  • Carácter de entrecomillado: el carácter único para entrecomillar los valores de columna si contiene el delimitador de columna. El valor predeterminado es comillas dobles". Cuando el Carácter de entrecomillado se define como una cadena vacía, significa que no hay ningún carácter de comillas y el valor de la columna no está entre comillas, y el carácter de escape se usa como carácter de escape para el delimitador de columna y para sí mismo.

  • Primera fila como encabezado: especifica si se debe tratar o convertir la primera fila como una línea de encabezado con nombres de columnas. Los valores permitidos son seleccionado y no seleccionado (predeterminado). Cuando la opción de primera fila como encabezado no está seleccionada, observe que la vista previa de los datos de la interfaz de usuario y la salida de la actividad de búsqueda generan automáticamente los nombres de las columnas como Prop_{n} (empezando por 0), la actividad de copia requiere una asignación explícita del origen al destino y ubica las columnas por ordinal (empezando por 1).

  • Valor null: especifica la representación en cadena del valor null. El valor predeterminado es una cadena vacía.

En la configuración Avanzada de la pestaña Origen, se muestran otras propiedades relacionadas con el formato de texto delimitado.

  • Recuento de líneas omitidas: indica el número de líneas no vacías que deben omitirse al leer los datos de los archivos de entrada. Si se especifican Recuento de líneas omitidas y Primera fila como encabezado, primero se omiten las líneas y después se lee la información del encabezado del archivo de entrada.

Formato de texto delimitado como destino

Después de seleccionar Configuración en la sección Formato de archivo , las siguientes propiedades se muestran en el cuadro de diálogo Configuración del formato de archivo emergente.

Screenshot showing destination file format settings.

  • Tipo de compresión: el códec de compresión usado para escribir archivos de texto delimitados. Puede elegir entre Ninguno, bzip2, gzip, deflate, ZipDeflate, TarGzip o tar en la lista desplegable.

  • Nivel de compresión: especifique la relación de compresión al seleccionar un tipo de compresión. Puede elegir entre Óptimo o Más rápido.

    • Más rápido: la operación de compresión debe completarse lo más rápido posible, incluso si el archivo resultante no se comprime de manera óptima.
    • Optimal: la operación de compresión se debe comprimir óptimamente, incluso si tarda más tiempo en completarse. Para más información, consulte el tema Nivel de compresión .
  • Delimitador de columna: el carácter o caracteres usados para separar columnas en un fichero. El valor predeterminado es la coma (,).

  • Delimitador de filas: el carácter usado para separar las filas de un archivo. Solo se permite un carácter. El valor predeterminado es el avance de línea \n.

  • Codificación: el tipo de codificación usado para escribir archivos de prueba. El valor predeterminado es UTF-8.

  • Carácter de escape: el carácter único para escapar las comillas dentro de un valor entre comillas. El valor predeterminado es barra diagonal inversa\. Cuando el carácter de escape se define como cadena vacía, el Carácter de entrecomillado debe establecerse también como cadena vacía, en cuyo caso hay que asegurarse de que todos los valores de columna no contienen delimitadores.

  • Carácter de entrecomillado: el carácter único para entrecomillar los valores de columna si contiene el delimitador de columna. El valor predeterminado es comillas dobles". Cuando el Carácter de entrecomillado se define como una cadena vacía, significa que no hay ningún carácter de comillas y el valor de la columna no está entre comillas, y el carácter de escape se usa como carácter de escape para el delimitador de columna y para sí mismo.

  • Primera fila como encabezado: especifica si se debe tratar o convertir la primera fila como una línea de encabezado con nombres de columnas. Los valores permitidos son seleccionado y no seleccionado (predeterminado). Cuando la opción de primera fila como encabezado no está seleccionada, observe que la vista previa de los datos de la interfaz de usuario y la salida de la actividad de búsqueda generan automáticamente los nombres de las columnas como Prop_{n} (empezando por 0), la actividad de copia requiere una asignación explícita del origen al destino y ubica las columnas por ordinal (empezando por 1).

  • Valor null: especifica la representación en cadena del valor null. El valor predeterminado es una cadena vacía.

En la configuración Avanzada de la pestaña Destino, se muestran otras propiedades relacionadas con el formato de texto delimitado.

  • Entrecomillar todo el texto: incluya todos los valores entre comillas.

  • Extensión del archivo: la extensión de archivo usada para nombrar los archivos de salida, por ejemplo, .csv, .txt.

  • Máximo de filas por archivo: al escribir datos en una carpeta, puede optar por escribir en varios archivos y especificar el número máximo de filas de cada archivo.

  • Prefijo de nombre de archivo: aplicable cuando se configura Número máximo de filas por archivo. Especifique el prefijo de nombre de archivo al escribir datos en varios archivos, lo que da como resultado este patrón: <fileNamePrefix>_00000.<fileExtension>. Si no se especifica, el prefijo de nombre de archivo se generará automáticamente. Esta propiedad no se aplica cuando el origen es un almacén basado en archivos o un almacén de datos habilitado para la opción de partición.

Resumen de tabla

Texto delimitado como origen

Las siguientes propiedades se admiten en la sección Origen de la actividad de copia cuando se usa el formato de texto delimitado.

Nombre Descripción Valor Obligatorio Propiedad de script JSON
 Formato de archivo El formato de archivo que quiere usar. DelimitedText tipo (en datasetSettings):
DelimitedText
Tipo de compresión El códec de compresión usado para leer archivos de texto delimitados. Elija entre las siguientes opciones:
None
bzip2
gzip
deflate
ZipDeflate
TarGzip
tar
No tipo (en compression):

bzip2
gzip
deflate
ZipDeflate
TarGzip
tar
Conservar el nombre del archivo ZIP como carpeta Indica si se debe conservar el nombre del archivo ZIP de origen como estructura de carpetas durante la copia. Se aplica al seleccionar la compresión ZipDeflate. Selección o anulación de selección No preserveZipFileNameAsFolder
(en compressionProperties->type como ZipDeflateReadSettings)
Conservar el nombre del archivo de compresión como carpeta Indica si se debe conservar el nombre del archivo de origen comprimido como estructura de carpetas durante la copia. Se aplica al seleccionar la compresión TarGzip/tar. Selección o anulación de selección No preserveCompressionFileNameAsFolder
(en compressionProperties->type como TarGZipReadSettings o TarReadSettings)
Nivel de compresión  La razón de compresión. Los valores permitidos son Optimal o Fastest. Óptimo o Más rápido No nivel (en compression):
Más rápido
Óptimo
Delimitador de columna  Los caracteres usados para separar las columnas en un archivo.  < el delimitador de columna seleccionado >
coma, (de forma predeterminada)
No columnDelimiter
Delimitador de filas carácter utilizado para separar filas en un archivo. < el delimitador de columna seleccionado >
\r,\n (de manera predeterminada) o r\n
No rowDelimiter
Encoding El tipo de codificación usado para leer y escribir archivos de prueba. "UTF-8" (de manera predeterminada),"UTF-8 without BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM870", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" No encodingName
Carácter de escape El carácter único para escapar las comillas dentro de un valor entre comillas. Cuando el carácter de escape se define como cadena vacía, el Carácter de entrecomillado debe establecerse también como cadena vacía, en cuyo caso hay que asegurarse de que todos los valores de columna no contienen delimitadores. < el carácter de escape seleccionado >
barra invertida\ (de forma predeterminada)
No escapeChar
Carácter de entrecomillado El carácter único para entrecomillar los valores de columna si contiene el delimitador de columna. Cuando el Carácter de entrecomillado se define como una cadena vacía, significa que no hay ningún carácter de comillas y el valor de la columna no está entre comillas, y el carácter de escape se usa como carácter de escape para el delimitador de columna y para sí mismo. < el carácter de entrecomillado seleccionado >
comillas dobles" (de forma predeterminada)
No quoteChar
Primera fila como encabezado Especifica si se debe tratar la primera fila del rango o la hoja de cálculo determinados como una línea de encabezado con nombres de columnas. Seleccionado o no seleccionado No firstRowAsHeader:
true o false (valor predeterminado)
Valor null Especifica la representación de cadena del valor null. El valor predeterminado es una cadena vacía. < la representación de cadena del valor null >
cadena vacía (de forma predeterminada)
No nullValue

Texto delimitado como destino

Las siguientes propiedades se admiten en la sección Destino de la actividad de copia cuando se usa el formato de texto delimitado.

Nombre Descripción Valor Obligatorio Propiedad de script JSON
 Formato de archivo El formato de archivo que quiere usar. DelimitedText tipo (en datasetSettings):
DelimitedText
Tipo de compresión El códec de compresión usado para escribir archivos de texto delimitados. Elija entre las siguientes opciones:
None
bzip2
gzip
deflate
ZipDeflate
TarGzip
tar
No tipo (en compression):

bzip2
gzip
deflate
ZipDeflate
TarGzip
tar
Conservar el nombre del archivo ZIP como carpeta Indica si se debe conservar el nombre del archivo ZIP de origen como estructura de carpetas durante la copia. Selección o anulación de selección No preserveZipFileNameAsFolder
(en compressionProperties->type como ZipDeflateReadSettings)
Conservar el nombre del archivo de compresión como carpeta Indica si se debe conservar el nombre del archivo de origen comprimido como estructura de carpetas durante la copia. Selección o anulación de selección No preserveCompressionFileNameAsFolder
(en compressionProperties->type como TarGZipReadSettings o TarReadSettings)
Nivel de compresión  La razón de compresión. Los valores permitidos son Optimal o Fastest. Óptimo o Más rápido No nivel (en compression):
Más rápido
Óptimo
Delimitador de columna  Los caracteres usados para separar las columnas en un archivo.  < el delimitador de columna seleccionado >
coma, (de forma predeterminada)
No columnDelimiter
Delimitador de filas carácter utilizado para separar filas en un archivo. < el delimitador de columna seleccionado >
\r,\n (de manera predeterminada) o r\n
No rowDelimiter
Encoding El tipo de codificación usado para leer y escribir archivos de prueba. "UTF-8" (de manera predeterminada),"UTF-8 without BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM870", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" No encodingName
Carácter de escape El carácter único para escapar las comillas dentro de un valor entre comillas. Cuando el carácter de escape se define como cadena vacía, el Carácter de entrecomillado debe establecerse también como cadena vacía, en cuyo caso hay que asegurarse de que todos los valores de columna no contienen delimitadores. < el carácter de escape seleccionado >
barra invertida\ (de forma predeterminada)
No escapeChar
Carácter de entrecomillado El carácter único para entrecomillar los valores de columna si contiene el delimitador de columna. Cuando el Carácter de entrecomillado se define como una cadena vacía, significa que no hay ningún carácter de comillas y el valor de la columna no está entre comillas, y el carácter de escape se usa como carácter de escape para el delimitador de columna y para sí mismo. < el carácter de entrecomillado seleccionado >
comillas dobles" (de forma predeterminada)
No quoteChar
Primera fila como encabezado Especifica si se debe tratar la primera fila del rango o la hoja de cálculo determinados como una línea de encabezado con nombres de columnas. Seleccionado o no seleccionado No firstRowAsHeader:
true o false (valor predeterminado)
Entrecomillar todo el texto Incluir todos los valores entre comillas. Seleccionado (valor predeterminado) o no seleccionado No quoteAllText:
true (valor predeterminado) o false
Extensión de archivo La extensión de archivo que se usa para denominar los archivos de salida. < la extensión de archivo >
.txt (de manera predeterminada)
No fileExtension
Número máximo de filas por archivo Al escribir datos en una carpeta, puede optar por escribir en varios archivos y especificar el número máximo de filas por archivo. < el número máximo de filas por archivo > No maxRowsPerFile
Prefijo de nombre de archivo Se aplica cuando Número máximo de filas por archivo está configurado. Especifique el prefijo de nombre de archivo al escribir datos en varios archivos, lo que da como resultado este patrón: <fileNamePrefix>_00000.<fileExtension>. Si no se especifica, el prefijo de nombre de archivo se generará automáticamente. Esta propiedad no se aplica cuando el origen es un almacén basado en archivos o un almacén de datos habilitado para la opción de partición. < el prefijo del nombre de archivo > No fileNamePrefix