Partilhar via


Formatos de dados suportados pelo Azure Data Explorer para ingestão

A ingestão de dados é o processo pelo qual os dados são adicionados a uma tabela e são disponibilizados para consulta no Azure Data Explorer. Para todos os métodos de ingestão, para além da ingestão de consultas, os dados têm de estar num dos formatos suportados. A tabela seguinte lista e descreve os formatos que o Azure Data Explorer suporta para a ingestão de dados.

Nota

Antes de ingerir dados, certifique-se de que os seus dados estão corretamente formatados e define os campos esperados. Recomendamos que utilize o validador preferencial para confirmar que o formato é válido. Por exemplo, pode considerar os seguintes validadores úteis para verificar ficheiros CSV ou JSON:

Para obter mais informações sobre o motivo pelo qual a ingestão pode falhar, veja Falhas de ingestão e códigos de erro de ingestão no Azure Data Explorer.

Formato Extensão Description
ApacheAvro .avro Um formato AVRO com suporte para tipos lógicos. Os seguintes codecs de compressão são suportados: null, deflatee snappy. A implementação do formato do apacheavro leitor baseia-se na biblioteca oficial do Apache Avro. Para obter informações sobre como ingerir ficheiros Avro de Captura do Hub de Eventos, veja Ingesting Event Hub Capture Avro files (Ingesting Event Hub Capture Avro files).
Avro .avro Uma implementação legada para o formato AVRO com base na biblioteca .NET. São suportados os seguintes codecs de compressão: null, deflate (para snappy - utilizar ApacheAvro o formato de dados).
CSV .csv Um ficheiro de texto com valores separados por vírgulas (,). Veja RFC 4180: Common Format and MIME Type for Comma-Separated Values (CSV) Files (Ficheiros CSV).
JSON .json Um ficheiro de texto com objetos JSON delimitados por \n ou \r\n. Veja Linhas JSON (JSONL).
MultiJSON .multijson Um ficheiro de texto com uma matriz JSON de sacos de propriedades (cada um representando um registo) ou qualquer número de sacos de propriedade delimitados pelo espaço em branco, \n ou \r\n. Cada saco de propriedades pode ser distribuído em várias linhas.
ORC .orc Um ficheiro ORC.
Parquet .parquet Um ficheiro Parquet.
PSV .psv Um ficheiro de texto com valores separados por pipe (|).
RAW .raw Um ficheiro de texto cujo conteúdo completo é um único valor de cadeia.
SCsv .scsv Um ficheiro de texto com valores separados por ponto e vírgula (;).
SOHsv .sohsv Um ficheiro de texto com valores separados por SOH. (SOH é o codepoint ASCII 1; este formato é utilizado pelo Hive no HDInsight.)
TSV .tsv Um ficheiro de texto com valores separados por separadores (\t).
TSVE .tsv Um ficheiro de texto com valores separados por separadores (\t). É utilizado um caráter de barra invertida (\) para escapar.
TXT .txt Um ficheiro de texto com linhas delimitadas por \n. As linhas vazias são ignoradas.
W3CLOGFILE .log Formato de ficheiro de registo Web padronizado pelo W3C.

Nota

  • A ingestão de sistemas de armazenamento de dados que fornecem funcionalidade ACID para além de ficheiros de formato Parquet normais (por exemplo, Apache Iceberg, Apache Hudi, Delta Lake) não é suportada.

  • O Avro sem esquema não é suportado.

  • Para obter mais informações sobre como ingerir dados com json ou multijson formatos, veja este documento.

Formatos de compressão de dados suportados

Os blobs e os ficheiros podem ser comprimidos através de qualquer um dos seguintes algoritmos de compressão:

Compressão Extensão
GZip .gz
Zip .zip

Indique compressão ao acrescentar a extensão ao nome do blob ou ficheiro.

Por exemplo:

  • MyData.csv.zip indica um blob ou um ficheiro formatado como CSV, comprimido com ZIP (arquivo ou um único ficheiro)
  • MyData.json.gz indica um blob ou um ficheiro formatado como JSON, comprimido com GZip.

Os nomes de blobs ou ficheiros que não incluem as extensões de formato, mas apenas a compressão (por exemplo, MyData.zip) também são suportados. Neste caso, o formato de ficheiro tem de ser especificado como uma propriedade de ingestão porque não pode ser inferido.

Nota

  • Alguns formatos de compressão mantêm um registo da extensão de ficheiro original como parte do fluxo comprimido. Geralmente, esta extensão é ignorada para determinar o formato de ficheiro. Se não for possível determinar o formato de ficheiro a partir do blob (comprimido) ou do nome do ficheiro, tem de ser especificado através da format propriedade ingestão.
  • Não deve ser confundido com o codec de compressão interno (nível de segmento) utilizado pelo Parquete AVROORC formatos. Normalmente, o nome da compressão interna é adicionado a um nome de ficheiro antes da extensão de formato de ficheiro, por exemplo: file1.gz.parquet, file1.snappy.avro, etc.
  • Esvaziar 64/Esvaziar Melhorado O método de compressão zip não é suportado. Tenha em atenção que o compressor Zip incorporado do Windows pode optar por utilizar este método de compressão em ficheiros com mais de 2 GB.