Formatos de datos admitidos para la ingesta

Artículo
09/26/2024

Se aplica a: ✅Microsoft Fabric✅Azure Data Explorer

La ingesta de datos es el proceso por el que se agregan datos a una tabla y están disponibles para la consulta. En el caso de los métodos de ingesta que no sean la ingesta desde consulta, los datos deben tener uno de los formatos admitidos. En la tabla siguiente se enumeran y describen los formatos que se admiten para la ingesta de datos.

Nota:

Antes de ingerir datos, asegúrese de que tengan el formato correcto y de que definan los campos esperados. Se recomienda usar el validador de su elección para confirmar que el formato sea válido. Por ejemplo, puede encontrar útiles los siguientes validadores para comprobar archivos CSV y JSON:

CSV: http://csvlint.io/
JSON: https://jsonlint.com/

Para obtener más información sobre por qué podría producirse un error en la ingesta, consulte Errores de ingesta.

y códigos de error de ingesta en Azure Data Explorer.

Format	Extensión	Descripción
ApacheAvro	`.avro`	Formato Avro compatible con tipos lógicos. Se admiten los siguientes códecs de compresión: `null`, `deflate` y `snappy`. La implementación del lector del formato `apacheavro` se basa en la `apacheavro`. Para obtener información sobre la ingesta de archivos Avro de Event Hubs Capture, consulte Ingesta de archivos Avro de Event Hubs Capture.
Avro	`.avro`	Una implementación heredada del formato AVRO basada en la biblioteca de .NET. Se admiten los siguientes codecs de compresión: `null` y `deflate` (para `snappy`, utilice el formato de datos `ApacheAvro`).
CSV	`.csv`	Un archivo de texto con valores separados por comas (`,`). Consulte RFC 4180: Formato común y tipo MIME para archivos de valores separados por comas (CSV).
JSON	`.json`	Un archivo de texto con objetos JSON delimitados por `\n` o `\r\n`. Consulte JSON Lines (JSONL).
MultiJSON	`.multijson`	Un archivo de texto con una matriz JSON de contenedores de propiedades (cada uno de los cuales representa un registro) o cualquier número de contenedores de propiedades delimitados por espacios en blanco, `\n` o `\r\n`. Cada contenedor de propiedades se puede distribuir en varias líneas.
ORC	`.orc`	Un archivo ORC.
Parquet	`.parquet`	Un archivo Parquet.
PSV	`.psv`	Un archivo de texto con valores separados por barras verticales (`\|`).
RAW	`.raw`	Un archivo de texto cuyo contenido completo es un valor de cadena único.
SCsv	`.scsv`	Un archivo de texto con valores separados por punto y coma (`;`).
SOHsv	`.sohsv`	Un archivo de texto con valores separados por SOH. (SOH es un punto de código ASCII 1; este formato lo usa Hive en HDInsight).
TSV	`.tsv`	Un archivo de texto con valores separados por tabulaciones (`\t`).
TSVE	`.tsv`	Un archivo de texto con valores separados por tabulaciones (`\t`). Se utiliza un carácter de barra diagonal inversa (`\`) para el escape.
TXT	`.txt`	Un archivo de texto con líneas delimitadas por `\n`. Se omiten las líneas vacías.
W3CLOGFILE	`.log`	Formato de archivo de registro web normalizado por W3C.

Nota:

No se admite la ingesta desde sistemas de almacenamiento de datos que proporcionan funcionalidad ACID sobre los archivos de formato Parquet normales (por ejemplo, Apache Iceberg, Apache Hudi, Delta Lake).
No se admite Avro sin esquema.

Para obtener más información sobre la ingesta de datos mediante json formatos o multijson , consulte ingesta de formatos JSON.

Formatos de compresión de datos admitidos

Tanto los blobs como los archivos se pueden comprimir con cualquiera de los siguientes algoritmos de compresión:

Compresión	Extensión
gzip	.gz
zip	.zip

Indique la compresión anexando la extensión al nombre del blob o archivo.

Por ejemplo:

MyData.csv.zip indica un blob o un archivo con formato CSV, comprimido con zip (archivo o un único archivo)
MyData.json.gz indica un blob o un archivo con formato JSON, comprimido con gzip.

Los nombres de blobs o archivos que no incluyen extensiones de formato y solo incluyen la compresión (por ejemplo, MyData.zip) también se admiten. En este caso, el formato de archivo se debe especificar como una propiedad de la ingesta ya que no se puede deducir.

Nota

Algunos formatos de compresión mantienen un seguimiento de la extensión de archivo original como parte del flujo de compresión. Normalmente, esta extensión se omite para determinar el formato de archivo. Si este no se puede determinar a partir del nombre de archivo o blob (comprimido), debe especificarse mediante la propiedad de ingesta format.
No se debe confundir con el códec de compresión interno (nivel de fragmento) utilizado por los formatos Parquet, AVRO y ORC. El nombre de la compresión interna normalmente se agrega al nombre de archivo antes de la extensión de formato de archivo, por ejemplo: file1.gz.parquet, file1.snappy.avro, etc.
No se admite el método de compresión zip Deflate deflate/Enhanced Deflate . Tenga en cuenta que el compresor zip integrado de Windows puede optar por usar este método de compresión en archivos de tamaño superior a 2 GB.

Más información sobre los formatos de datos compatibles
Más información sobre las propiedades de ingesta de datos

Más información sobre la ingesta de datos

Compartir vía

Formatos de datos admitidos para la ingesta

Formatos de compresión de datos admitidos

Comentarios

Recursos adicionales

Compartir vía

Formatos de datos admitidos para la ingesta

Formatos de compresión de datos admitidos

Contenido relacionado

Comentarios

Recursos adicionales