Formáty dat podporované službou Azure Data Explorer pro příjem dat
Příjem dat je proces, kterým se data přidávají do tabulky a jsou zpřístupněna pro dotazy v Azure Data Explorer. Pro všechny metody příjmu dat kromě metody ingestování z dotazu musí být data v jednom z podporovaných formátů. Následující tabulka uvádí a popisuje formáty, které Azure Data Explorer podporuje pro příjem dat.
Poznámka
Před příjmem dat se ujistěte, že jsou správně naformátovaná a definují očekávaná pole. K potvrzení platnosti formátu doporučujeme použít preferovaný validátor. Při kontrole souborů CSV nebo JSON můžete například najít následující validátory:
- CSV: http://csvlint.io/
- JSON: https://jsonlint.com/
Další informace o tom, proč může selhat příjem dat, najdete v tématu Chyby příjmu dat a kódy chyb příjmu dat v Azure Data Explorer.
Formát | Rozšíření | Description |
---|---|---|
ApacheAvro | .avro |
Formát AVRO s podporou logických typů. Podporují se následující kompresní kodeky: null , deflate a snappy . Čtenářská apacheavro implementace formátu je založená na oficiální knihovně Apache Avro. Informace o ingestování souborů Avro capture centra událostí najdete v tématu Ingestování souborů Avro capture centra událostí. |
Avro | .avro |
Starší verze implementace formátu AVRO založeného na knihovně .NET. Podporují se následující kompresní kodeky: null , deflate (pro snappy - použijte ApacheAvro datový formát). |
CSV | .csv |
Textový soubor s hodnotami oddělenými čárkami (, ). Viz RFC 4180: Běžný formát a typ MIME pro soubory Comma-Separated hodnot (CSV). |
JSON | .json |
Textový soubor s objekty JSON oddělenými nebo \n \r\n . Viz Řádky JSON (JSONL). |
MultiJSON | .multijson |
Textový soubor s polem objektů JSON (každý představuje záznam) nebo libovolný počet pytlů vlastností oddělených prázdnými znaky \n nebo \r\n . Každý pytel nemovitostí může být rozložen na více řádků. |
ORC | .orc |
Soubor ORC. |
Parquet | .parquet |
Soubor Parquet. |
PSV | .psv |
Textový soubor s hodnotami oddělenými kanály (| ). |
SYROVÉ | .raw |
Textový soubor, jehož celý obsah představuje hodnotu s jedním řetězcem. |
SCsv | .scsv |
Textový soubor s hodnotami oddělenými středníky (; ). |
SOHsv | .sohsv |
Textový soubor s hodnotami oddělenými SOH. (SOH je kódový bod ASCII 1; tento formát používá Hive ve službě HDInsight.) |
TSV | .tsv |
Textový soubor s hodnotami oddělenými tabulátory (\t ). |
TSVE | .tsv |
Textový soubor s hodnotami oddělenými tabulátory (\t ). Znak zpětného lomítka (\ ) se používá pro uvozování. |
TXT | .txt |
Textový soubor s řádky odděleným znakem \n . Prázdné čáry se přeskočí. |
W3CLOGFILE | .log |
Formát souboru webového protokolu standardizovaný V3C. |
Poznámka
Příjem dat ze systémů úložiště dat, které poskytují funkce ACID nad běžnými soubory formátu Parquet (např. Apache Iceberg, Apache Hudi nebo Delta Lake), se nepodporuje.
Avro bez schématu se nepodporuje.
Další informace o ingestování dat pomocí
json
nebomultijson
formátů najdete v tomto dokumentu.
Podporované formáty komprese dat
Objekty blob a soubory je možné komprimovat pomocí některého z následujících algoritmů komprese:
Komprese | Rozšíření |
---|---|
Gzip | .Gz |
ZIP | .zip |
Kompresi označte připojením přípony k názvu objektu blob nebo souboru.
Příklad:
MyData.csv.zip
označuje objekt blob nebo soubor formátovaný jako CSV komprimovaný pomocí souboru ZIP (archiv nebo jeden soubor).MyData.json.gz
označuje objekt blob nebo soubor formátovaný jako JSON komprimovaný pomocí GZip.
Podporují se také názvy objektů blob nebo souborů, které neobsahují přípony formátu, MyData.zip
ale jenom kompresi (například ). V tomto případě musí být formát souboru zadán jako vlastnost příjmu dat, protože nelze odvodit.
Poznámka
- Některé formáty komprese sledují původní příponu souboru jako součást komprimovaného datového proudu. Toto rozšíření se při určování formátu souboru obecně ignoruje. Pokud formát souboru nejde určit z (komprimovaného) názvu souboru nebo objektu blob, musí se zadat prostřednictvím vlastnosti příjmu
format
dat. - Nezaměňovat s interním komprimačním kodekem (na úrovni bloků dat) používaným
Parquet
formáty aAVRO
ORC
. Název interní komprese se obvykle přidává k názvu souboru před příponu formátu souboru, například ,file1.gz.parquet
file1.snappy.avro
atd. - Deflate64 / Enhanced Deflate Metoda komprese ZIP není podporována. Upozorňujeme, že vestavěný kompresor Zip systému Windows se může rozhodnout použít tuto metodu komprese u souborů o velikosti větší než 2 GB.
Související obsah
- Další informace o příjmu dat
- Další informace o vlastnostech azure Data Explorer příjmu dat
Váš názor
https://aka.ms/ContentUserFeedback.
Připravujeme: V průběhu roku 2024 budeme postupně vyřazovat problémy z GitHub coby mechanismus zpětné vazby pro obsah a nahrazovat ho novým systémem zpětné vazby. Další informace naleznete v tématu:Odeslat a zobrazit názory pro