Gegevensindelingen die worden ondersteund door Realtime Intelligence

Artikel
06/06/2024

Gegevensopname is het proces waarmee gegevens worden toegevoegd aan een tabel en beschikbaar worden gesteld voor query's in Realtime Intelligence. Voor alle opnamemethoden, met uitzondering van opname vanuit query, moeten de gegevens een van de ondersteunde indelingen hebben. De volgende tabel bevat en beschrijft de indelingen die realtime intelligence ondersteunt voor gegevensopname.

Notitie

Voordat u gegevens opneemt, moet u ervoor zorgen dat uw gegevens correct zijn opgemaakt en de verwachte velden definiëren. U wordt aangeraden uw voorkeursvalidator te gebruiken om te bevestigen dat de indeling geldig is. U kunt bijvoorbeeld de volgende validators vinden die handig zijn om CSV- of JSON-bestanden te controleren:

CSV: http://csvlint.io/
JSON: https://jsonlint.com/

Zie Opnamefouten voor meer informatie over waarom opname kan mislukken.

Notatie	Extensie	Beschrijving
ApacheAvro	`.avro`	Een AVRO-indeling met ondersteuning voor logische typen. De volgende compressiecodecs worden ondersteund: `null`, `deflate`en `snappy`. De implementatie van de lezer van de `apacheavro` indeling is gebaseerd op de officiële Apache Avro-bibliotheek. Zie Schematoewijzing voor Avro-bestanden voor Event Hubs Capture avro-bestanden voor informatie over het opnemen van Avro-bestanden van Event Hubs.
Avro	`.avro`	Een verouderde implementatie voor AVRO-indeling op basis van .NET-bibliotheek. De volgende compressiecodecs worden ondersteund: `null`, `deflate` (voor `snappy` - gegevensindeling gebruiken `ApacheAvro` ).
CSV	`.csv`	Een tekstbestand met door komma's gescheiden waarden (`,`). Zie RFC 4180: Common Format en MIME-type voor CSV-bestanden (Door komma's gescheiden waarden).
JSON	`.json`	Een tekstbestand met JSON-objecten gescheiden door `\n` of `\r\n`. Zie JSON-lijnen (JSONL).
MultiJSON	`.multijson`	Een tekstbestand met een JSON-matrix met eigenschappentassen (elk die een record vertegenwoordigen) of een willekeurig aantal eigenschapstassen gescheiden door witruimte, `\n` of `\r\n`. Elke eigenschappentas kan op meerdere lijnen worden verdeeld. Deze indeling heeft de voorkeur, `JSON`tenzij de gegevens niet-property zakken zijn.
ORC	`.orc`	Een ORC-bestand.
Parquet	`.parquet`	Een Parquet-bestand.
PSV	`.psv`	Een tekstbestand met door pijpen gescheiden waarden (`\|`).
RAUW	`.raw`	Een tekstbestand waarvan de volledige inhoud één tekenreekswaarde is.
SCsv	`.scsv`	Een tekstbestand met door puntkomma's gescheiden waarden (`;`).
SOHsv	`.sohsv`	Een tekstbestand met door SOH gescheiden waarden. (SOH is ASCII-codepunt 1; deze indeling wordt gebruikt door Hive in HDInsight.)
TSV	`.tsv`	Een tekstbestand met door tabs gescheiden waarden (`\t`).
TSVE	`.tsv`	Een tekstbestand met door tabs gescheiden waarden (`\t`). Er wordt een backslash-teken (`\`) gebruikt om te ontsnappen.
TXT	`.txt`	Een tekstbestand met regels gescheiden door `\n`. Lege regels worden overgeslagen.
W3CLOGFILE	`.log`	Weblogboekbestandsindeling gestandaardiseerd door W3C.

Notitie

Opname van gegevensopslagsystemen die ACID-functionaliteit bieden boven op reguliere Parquet-indelingsbestanden (bijvoorbeeld Apache Iceberg, Apache Hudi) wordt niet ondersteund.
Avro zonder schema wordt niet ondersteund

Ondersteunde indelingen voor gegevenscompressie

Blobs en bestanden kunnen worden gecomprimeerd via een van de volgende compressiealgoritmen:

Compressie	Toestel
GZip	.gz
Postcode	.zip

Geef compressie aan door de extensie toe te voegen aan de naam van de blob of het bestand.

Voorbeeld:

MyData.csv.zip geeft een blob of een bestandsindeling aan die is opgemaakt als CSV, gecomprimeerd met ZIP (archief of één bestand)
MyData.json.gz geeft een blob of een bestandsindeling aan die is opgemaakt als JSON, gecomprimeerd met GZip.

Blob- of bestandsnamen die geen indelingsextensies bevatten, maar alleen compressie (bijvoorbeeld MyData.zip) wordt ook ondersteund. In dit geval moet de bestandsindeling worden opgegeven als een opname-eigenschap omdat deze niet kan worden afgeleid.

Notitie

Sommige compressieindelingen houden de oorspronkelijke bestandsextensie bij als onderdeel van de gecomprimeerde stream. Deze extensie wordt over het algemeen genegeerd voor het bepalen van de bestandsindeling. Als de bestandsindeling niet kan worden bepaald op basis van de (gecomprimeerde) blob of bestandsnaam, moet deze worden opgegeven via de format opname-eigenschap.
Niet te verwarren met interne (segmentniveau) compressiecodec die wordt gebruikt door ParquetAVRO en ORC indelingen. De interne compressienaam wordt meestal toegevoegd aan een bestandsnaam vóór de bestandsindelingsextensie, bijvoorbeeld: file1.gz.parquet, file1.snappy.avro, enzovoort.

Share via

Gegevensindelingen die worden ondersteund door Realtime Intelligence

Ondersteunde indelingen voor gegevenscompressie

Feedback

Aanvullende resources

Share via

Gegevensindelingen die worden ondersteund door Realtime Intelligence

Ondersteunde indelingen voor gegevenscompressie

Gerelateerde inhoud

Feedback

Aanvullende resources