A Valós idejű elemzés által támogatott adatformátumok

Az adatbetöltés az a folyamat, amellyel adatokat ad hozzá egy táblához, és elérhetővé válik a lekérdezéshez a valós idejű elemzésekben. A lekérdezésből való betöltéstől eltérő összes betöltési módszer esetében az adatoknak a támogatott formátumok egyikében kell lenniük. Az alábbi táblázat felsorolja és ismerteti azokat a formátumokat, amelyeket a Real-Time Analytics támogat az adatbetöltéshez.

Megjegyzés:

Mielőtt betöltené az adatokat, győződjön meg arról, hogy az adatok megfelelően formázva lesznek, és meghatározza a várt mezőket. Javasoljuk, hogy használja az előnyben részesített érvényesítőt annak ellenőrzéséhez, hogy a formátum érvényes-e. A CSV- vagy JSON-fájlok ellenőrzéséhez például a következő érvényesítők lehetnek hasznosak:

A betöltési hibák okáról további információt a Betöltési hibák című témakörben talál.

Format Bővítmény Leírás
ApacheAvro .avro AVRO formátum logikai típusok támogatásával. A következő tömörítési kodekek támogatottak: null, deflateés snappy. A formátum olvasói implementálása a apacheavro hivatalos Apache Avro-kódtáron alapul. Az Event Hubs Capture Avro-fájlok betöltésével kapcsolatos információkért tekintse meg az Event Hubs Capture Avro-fájlok sémaleképezését.
Avro .avro Régi implementáció a .NET-kódtáron alapuló AVRO-formátumhoz. A következő tömörítési kodekek támogatottak: null, deflate (for snappy - use ApacheAvro data format).
CSV .csv Szövegfájl vesszővel elválasztott értékekkel (,). Lásd : RFC 4180: Common Format and MIME Type for Vesszővel tagolt értékek (CSV) fájlok.
JSON .json Egy JSON-objektumokat tartalmazó szövegfájl, amely a következő szerint \n van elválasztva: vagy \r\n. Lásd: JSON-vonalak (JSONL).
MultiJSON .multijson Olyan szövegfájl, amely tulajdonságcsomagok JSON-tömbjével rendelkezik (amelyek mindegyike egy rekordot jelöl), vagy tetszőleges számú, szóközzel tagolt tulajdonságcsomaggal vagy \n\r\n. Az egyes tulajdonságzsákok több sorban is eloszthatók. Ezt a formátumot részesíti előnyben JSON, kivéve, ha az adatok nem minősülnek használaton kívüli csomagoknak.
ORK .orc ORC-fájl.
Parquet .parquet Egy parquet fájl.
PSV .psv Csővel elválasztott értékeket (|) tartalmazó szövegfájl.
NYERS .raw Olyan szövegfájl, amelynek teljes tartalma egyetlen sztringérték.
SCsv .scsv Pontosvesszővel tagolt értékeket (;) tartalmazó szövegfájl.
SOHsv .sohsv SoH által elválasztott értékeket tartalmazó szövegfájl. (A SOH az ASCII codepoint 1, ezt a formátumot használja a Hive a HDInsighton.)
TSV .tsv Tabulátorral elválasztott értékeket tartalmazó szövegfájl (\t).
TSVE .tsv Tabulátorral elválasztott értékeket tartalmazó szövegfájl (\t). A rendszer egy fordított perjel karaktert (\) használ a meneküléshez.
TXT .txt Szövegfájl, amelynek sorait a következő tagolja \n: . A program kihagyja az üres sorokat.
W3CLOGFILE .log A W3C által szabványosított webes naplófájlformátum .

Megjegyzés:

  • A szokásos Parquet formátumú fájlokon (pl. Apache Iceberg, Apache Hudi) alapuló ACID-funkciókat biztosító adattároló rendszerekből történő betöltés nem támogatott.
  • A séma nélküli Avro nem támogatott

Támogatott adattömörítési formátumok

A blobok és fájlok a következő tömörítési algoritmusok bármelyikével tömöríthetők:

Compression Bővítmény
Gzip .Gz
Irányítószám .zip

A tömörítést úgy jelezheti, hogy hozzáfűzi a bővítményt a blob vagy fájl nevéhez.

Például:

  • MyData.csv.zip EGY CSV-ként formázott blobot vagy fájlt jelöl, tömörítve ZIP-fájllal (archív vagy egyetlen fájllal)
  • MyData.json.gz Egy JSON-ként formázott blobot vagy fájlt jelöl, amely GZip-vel van tömörítve.

A formátumkiterjesztéseket nem tartalmazó blob- vagy fájlnevek, MyData.zipde a tömörítés (például) is támogatott. Ebben az esetben a fájlformátumot betöltési tulajdonságként kell megadni, mert nem lehet következtetni rá.

Megjegyzés:

  • Egyes tömörítési formátumok nyomon követik az eredeti fájlkiterjesztést a tömörített adatfolyam részeként. Ezt a bővítményt a rendszer általában figyelmen kívül hagyja a fájlformátum meghatározásához. Ha a fájlformátum nem határozható meg a (tömörített) blobból vagy fájlnévből, azt a format betöltési tulajdonságon keresztül kell megadni.
  • Nem tévesztendő össze a formátumok által ORC használt belső (adattömbszintű) tömörítési ParquetAVRO kodekkel. A belső tömörítési nevet általában a fájlformátum kiterjesztése előtt adja hozzá egy fájlnévhez, például: file1.gz.parquet, file1.snappy.avrostb.