Formatos de dados suportados pelo Azure Data Explorer para ingestão
A ingestão de dados é o processo pelo qual os dados são adicionados a uma tabela e são disponibilizados para consulta no Azure Data Explorer. Para todos os métodos de ingestão, para além da ingestão de consultas, os dados têm de estar num dos formatos suportados. A tabela seguinte lista e descreve os formatos que o Azure Data Explorer suporta para a ingestão de dados.
Nota
Antes de ingerir dados, certifique-se de que os seus dados estão corretamente formatados e define os campos esperados. Recomendamos que utilize o validador preferencial para confirmar que o formato é válido. Por exemplo, pode considerar os seguintes validadores úteis para verificar ficheiros CSV ou JSON:
- CSV: http://csvlint.io/
- JSON: https://jsonlint.com/
Para obter mais informações sobre o motivo pelo qual a ingestão pode falhar, veja Falhas de ingestão e códigos de erro de ingestão no Azure Data Explorer.
Formato | Extensão | Description |
---|---|---|
ApacheAvro | .avro |
Um formato AVRO com suporte para tipos lógicos. Os seguintes codecs de compressão são suportados: null , deflate e snappy . A implementação do formato do apacheavro leitor baseia-se na biblioteca oficial do Apache Avro. Para obter informações sobre como ingerir ficheiros Avro de Captura do Hub de Eventos, veja Ingesting Event Hub Capture Avro files (Ingesting Event Hub Capture Avro files). |
Avro | .avro |
Uma implementação legada para o formato AVRO com base na biblioteca .NET. São suportados os seguintes codecs de compressão: null , deflate (para snappy - utilizar ApacheAvro o formato de dados). |
CSV | .csv |
Um ficheiro de texto com valores separados por vírgulas (, ). Veja RFC 4180: Common Format and MIME Type for Comma-Separated Values (CSV) Files (Ficheiros CSV). |
JSON | .json |
Um ficheiro de texto com objetos JSON delimitados por \n ou \r\n . Veja Linhas JSON (JSONL). |
MultiJSON | .multijson |
Um ficheiro de texto com uma matriz JSON de sacos de propriedades (cada um representando um registo) ou qualquer número de sacos de propriedade delimitados pelo espaço em branco, \n ou \r\n . Cada saco de propriedades pode ser distribuído em várias linhas. |
ORC | .orc |
Um ficheiro ORC. |
Parquet | .parquet |
Um ficheiro Parquet. |
PSV | .psv |
Um ficheiro de texto com valores separados por pipe (| ). |
RAW | .raw |
Um ficheiro de texto cujo conteúdo completo é um único valor de cadeia. |
SCsv | .scsv |
Um ficheiro de texto com valores separados por ponto e vírgula (; ). |
SOHsv | .sohsv |
Um ficheiro de texto com valores separados por SOH. (SOH é o codepoint ASCII 1; este formato é utilizado pelo Hive no HDInsight.) |
TSV | .tsv |
Um ficheiro de texto com valores separados por separadores (\t ). |
TSVE | .tsv |
Um ficheiro de texto com valores separados por separadores (\t ). É utilizado um caráter de barra invertida (\ ) para escapar. |
TXT | .txt |
Um ficheiro de texto com linhas delimitadas por \n . As linhas vazias são ignoradas. |
W3CLOGFILE | .log |
Formato de ficheiro de registo Web padronizado pelo W3C. |
Nota
A ingestão de sistemas de armazenamento de dados que fornecem funcionalidade ACID para além de ficheiros de formato Parquet normais (por exemplo, Apache Iceberg, Apache Hudi, Delta Lake) não é suportada.
O Avro sem esquema não é suportado.
Para obter mais informações sobre como ingerir dados com
json
oumultijson
formatos, veja este documento.
Formatos de compressão de dados suportados
Os blobs e os ficheiros podem ser comprimidos através de qualquer um dos seguintes algoritmos de compressão:
Compressão | Extensão |
---|---|
GZip | .gz |
Zip | .zip |
Indique compressão ao acrescentar a extensão ao nome do blob ou ficheiro.
Por exemplo:
-
MyData.csv.zip
indica um blob ou um ficheiro formatado como CSV, comprimido com ZIP (arquivo ou um único ficheiro) -
MyData.json.gz
indica um blob ou um ficheiro formatado como JSON, comprimido com GZip.
Os nomes de blobs ou ficheiros que não incluem as extensões de formato, mas apenas a compressão (por exemplo, MyData.zip
) também são suportados. Neste caso, o formato de ficheiro tem de ser especificado como uma propriedade de ingestão porque não pode ser inferido.
Nota
- Alguns formatos de compressão mantêm um registo da extensão de ficheiro original como parte do fluxo comprimido. Geralmente, esta extensão é ignorada para determinar o formato de ficheiro. Se não for possível determinar o formato de ficheiro a partir do blob (comprimido) ou do nome do ficheiro, tem de ser especificado através da
format
propriedade ingestão. - Não deve ser confundido com o codec de compressão interno (nível de segmento) utilizado pelo
Parquet
eAVRO
ORC
formatos. Normalmente, o nome da compressão interna é adicionado a um nome de ficheiro antes da extensão de formato de ficheiro, por exemplo:file1.gz.parquet
,file1.snappy.avro
, etc. - Esvaziar 64/Esvaziar Melhorado O método de compressão zip não é suportado. Tenha em atenção que o compressor Zip incorporado do Windows pode optar por utilizar este método de compressão em ficheiros com mais de 2 GB.
Conteúdo relacionado
- Saiba mais sobre a ingestão de dados
- Saiba mais sobre as propriedades de ingestão de dados do Azure Data Explorer