Compartir vía


Formatos de datos admitidos para la ingesta

Se aplica a: ✅Microsoft FabricAzure Data Explorer

La ingesta de datos es el proceso por el que se agregan datos a una tabla y están disponibles para la consulta. En el caso de los métodos de ingesta que no sean la ingesta desde consulta, los datos deben tener uno de los formatos admitidos. En la tabla siguiente se enumeran y describen los formatos que se admiten para la ingesta de datos.

Nota:

Antes de ingerir datos, asegúrese de que tengan el formato correcto y de que definan los campos esperados. Se recomienda usar el validador de su elección para confirmar que el formato sea válido. Por ejemplo, puede encontrar útiles los siguientes validadores para comprobar archivos CSV y JSON:

Para obtener más información sobre por qué podría producirse un error en la ingesta, consulte Errores de ingesta.

Format Extensión Descripción
ApacheAvro .avro Formato Avro compatible con tipos lógicos. Se admiten los siguientes códecs de compresión: null, deflate y snappy. La implementación del lector del formato apacheavro se basa en la apacheavro. Para obtener información sobre la ingesta de archivos Avro de Event Hubs Capture, consulte Ingesta de archivos Avro de Event Hubs Capture.
Avro .avro Una implementación heredada del formato AVRO basada en la biblioteca de .NET. Se admiten los siguientes codecs de compresión: null y deflate (para snappy, utilice el formato de datos ApacheAvro).
CSV .csv Un archivo de texto con valores separados por comas (,). Consulte RFC 4180: Formato común y tipo MIME para archivos de valores separados por comas (CSV).
JSON .json Un archivo de texto con objetos JSON delimitados por \n o \r\n. Consulte JSON Lines (JSONL).
MultiJSON .multijson Un archivo de texto con una matriz JSON de contenedores de propiedades (cada uno de los cuales representa un registro) o cualquier número de contenedores de propiedades delimitados por espacios en blanco, \n o \r\n. Cada contenedor de propiedades se puede distribuir en varias líneas.
ORC .orc Un archivo ORC.
Parquet .parquet Un archivo Parquet.
PSV .psv Un archivo de texto con valores separados por barras verticales (|).
RAW .raw Un archivo de texto cuyo contenido completo es un valor de cadena único.
SCsv .scsv Un archivo de texto con valores separados por punto y coma (;).
SOHsv .sohsv Un archivo de texto con valores separados por SOH. (SOH es un punto de código ASCII 1; este formato lo usa Hive en HDInsight).
TSV .tsv Un archivo de texto con valores separados por tabulaciones (\t).
TSVE .tsv Un archivo de texto con valores separados por tabulaciones (\t). Se utiliza un carácter de barra diagonal inversa (\) para el escape.
TXT .txt Un archivo de texto con líneas delimitadas por \n. Se omiten las líneas vacías.
W3CLOGFILE .log Formato de archivo de registro web normalizado por W3C.

Nota:

  • No se admite la ingesta desde sistemas de almacenamiento de datos que proporcionan funcionalidad ACID sobre los archivos de formato Parquet normales (por ejemplo, Apache Iceberg, Apache Hudi, Delta Lake).
  • No se admite Avro sin esquema.

Para obtener más información sobre la ingesta de datos mediante json formatos o multijson , consulte ingesta de formatos JSON.

Formatos de compresión de datos admitidos

Tanto los blobs como los archivos se pueden comprimir con cualquiera de los siguientes algoritmos de compresión:

Compresión Extensión
gzip .gz
zip .zip

Indique la compresión anexando la extensión al nombre del blob o archivo.

Por ejemplo:

  • MyData.csv.zip indica un blob o un archivo con formato CSV, comprimido con zip (archivo o un único archivo)
  • MyData.json.gz indica un blob o un archivo con formato JSON, comprimido con gzip.

Los nombres de blobs o archivos que no incluyen extensiones de formato y solo incluyen la compresión (por ejemplo, MyData.zip) también se admiten. En este caso, el formato de archivo se debe especificar como una propiedad de la ingesta ya que no se puede deducir.

Nota

  • Algunos formatos de compresión mantienen un seguimiento de la extensión de archivo original como parte del flujo de compresión. Normalmente, esta extensión se omite para determinar el formato de archivo. Si este no se puede determinar a partir del nombre de archivo o blob (comprimido), debe especificarse mediante la propiedad de ingesta format.
  • No se debe confundir con el códec de compresión interno (nivel de fragmento) utilizado por los formatos Parquet, AVRO y ORC. El nombre de la compresión interna normalmente se agrega al nombre de archivo antes de la extensión de formato de archivo, por ejemplo: file1.gz.parquet, file1.snappy.avro, etc.
  • No se admite el método de compresión zip Deflate deflate/Enhanced Deflate . Tenga en cuenta que el compresor zip integrado de Windows puede optar por usar este método de compresión en archivos de tamaño superior a 2 GB.