A valós idejű intelligencia által támogatott adatformátumok
Az adatbetöltés az a folyamat, amellyel adatokat ad hozzá egy táblához, és a valós idejű intelligencia segítségével teszi elérhetővé a lekérdezésekhez. A lekérdezésből való betöltéstől eltérő összes betöltési módszer esetében az adatoknak a támogatott formátumok egyikében kell lenniük. Az alábbi táblázat felsorolja és ismerteti a valós idejű intelligencia által az adatbetöltéshez támogatott formátumokat.
Feljegyzés
Mielőtt betöltené az adatokat, győződjön meg arról, hogy az adatok megfelelően formázva lesznek, és meghatározza a várt mezőket. Javasoljuk, hogy használja az előnyben részesített érvényesítőt annak ellenőrzéséhez, hogy a formátum érvényes-e. A CSV- vagy JSON-fájlok ellenőrzéséhez például a következő érvényesítők lehetnek hasznosak:
- CSV: http://csvlint.io/
- JSON: https://jsonlint.com/
A betöltési hibák okáról további információt a Betöltési hibák című témakörben talál.
Formátum | Mellék | Leírás |
---|---|---|
ApacheAvro | .avro |
AVRO formátum logikai típusok támogatásával. A következő tömörítési kodekek támogatottak: null , deflate és snappy . A formátum olvasói implementálása a apacheavro hivatalos Apache Avro-kódtáron alapul. Az Event Hubs Capture Avro-fájlok betöltésével kapcsolatos információkért tekintse meg az Event Hubs Capture Avro-fájlok sémaleképezését. |
Avro | .avro |
Régi implementáció a .NET-kódtáron alapuló AVRO-formátumhoz. A következő tömörítési kodekek támogatottak: null , deflate (for snappy - use ApacheAvro data format). |
CSV | .csv |
Szövegfájl vesszővel elválasztott értékekkel (, ). Lásd : RFC 4180: Common Format and MIME Type for Vesszővel tagolt értékek (CSV) fájlok. |
JSON | .json |
Egy JSON-objektumokat tartalmazó szövegfájl, amely a következő szerint \n van elválasztva: vagy \r\n . Lásd: JSON-vonalak (JSONL). |
MultiJSON | .multijson |
Olyan szövegfájl, amely tulajdonságcsomagok JSON-tömbjével rendelkezik (amelyek mindegyike egy rekordot jelöl), vagy tetszőleges számú, szóközzel tagolt tulajdonságcsomaggal vagy \n \r\n . Az egyes tulajdonságzsákok több sorban is eloszthatók. Ezt a formátumot részesíti előnyben JSON , kivéve, ha az adatok nem minősülnek használaton kívüli csomagoknak. |
ORK | .orc |
ORC-fájl. |
Parketta | .parquet |
Egy parquet fájl. |
PSV | .psv |
Csővel elválasztott értékeket (| ) tartalmazó szövegfájl. |
NYERS | .raw |
Olyan szövegfájl, amelynek teljes tartalma egyetlen sztringérték. |
SCsv | .scsv |
Pontosvesszővel tagolt értékeket (; ) tartalmazó szövegfájl. |
SOHsv | .sohsv |
SoH által elválasztott értékeket tartalmazó szövegfájl. (A SOH az ASCII codepoint 1, ezt a formátumot használja a Hive a HDInsighton.) |
TSV | .tsv |
Tabulátorral elválasztott értékeket tartalmazó szövegfájl (\t ). |
TSVE | .tsv |
Tabulátorral elválasztott értékeket tartalmazó szövegfájl (\t ). A rendszer egy fordított perjel karaktert (\ ) használ a meneküléshez. |
TXT | .txt |
Szövegfájl, amelynek sorait a következő tagolja \n : . A program kihagyja az üres sorokat. |
W3CLOGFILE | .log |
A W3C által szabványosított webes naplófájlformátum . |
Feljegyzés
- A szokásos Parquet formátumú fájlokon (pl. Apache Iceberg, Apache Hudi) alapuló ACID-funkciókat biztosító adattároló rendszerekből történő betöltés nem támogatott.
- A séma nélküli Avro nem támogatott
Támogatott adattömörítési formátumok
A blobok és fájlok a következő tömörítési algoritmusok bármelyikével tömöríthetők:
Tömörítés | Mellék |
---|---|
GZip | .gz |
Irányítószám | .zip |
A tömörítést úgy jelezheti, hogy hozzáfűzi a bővítményt a blob vagy fájl nevéhez.
Példa:
MyData.csv.zip
EGY CSV-ként formázott blobot vagy fájlt jelöl, tömörítve ZIP-fájllal (archív vagy egyetlen fájllal)MyData.json.gz
Egy JSON-ként formázott blobot vagy fájlt jelöl, amely GZip-vel van tömörítve.
A formátumkiterjesztéseket nem tartalmazó blob- vagy fájlnevek, MyData.zip
de a tömörítés (például) is támogatott. Ebben az esetben a fájlformátumot betöltési tulajdonságként kell megadni, mert nem lehet következtetni rá.
Feljegyzés
- Egyes tömörítési formátumok nyomon követik az eredeti fájlkiterjesztést a tömörített adatfolyam részeként. Ezt a bővítményt a rendszer általában figyelmen kívül hagyja a fájlformátum meghatározásához. Ha a fájlformátum nem határozható meg a (tömörített) blobból vagy fájlnévből, azt a
format
betöltési tulajdonságon keresztül kell megadni. - Nem tévesztendő össze a formátumok által
ORC
használt belső (adattömbszintű) tömörítésiParquet
AVRO
kodekkel. A belső tömörítési nevet általában a fájlformátum kiterjesztése előtt adja hozzá egy fájlnévhez, például:file1.gz.parquet
,file1.snappy.avro
stb.