Dataformater som støttes av sanntidsintelligens

Artikkel
05/21/2024

Datainntak er prosessen der data legges til i en tabell og gjøres tilgjengelig for spørring i sanntidsintelligens. For alle inntaksmetoder, bortsett fra inntak fra spørring, må dataene være i ett av de støttede formatene. Tabellen nedenfor viser og beskriver formatene som sanntidsintelligens støtter for datainntak.

Merk

Før du inntar data, må du kontrollere at dataene er riktig formatert og definerer de forventede feltene. Vi anbefaler at du bruker den foretrukne validatoren til å bekrefte at formatet er gyldig. Du kan for eksempel finne følgende validatorer nyttige for å kontrollere CSV- eller JSON-filer:

CSV: http://csvlint.io/
JSON: https://jsonlint.com/

Hvis du vil ha mer informasjon om hvorfor inntak kan mislykkes, kan du se Inntaksfeil.

Format	Utvidelse	Bekrivelse
ApacheAvro	`.avro`	Et AVRO-format med støtte for logiske typer. Følgende komprimeringskodeker støttes: `null`, `deflate`og `snappy`. Leserimplementeringen `apacheavro` av formatet er basert på det offisielle Apache Avro-biblioteket. Hvis du vil ha informasjon om hvordan du inntar Hendelseshuber, kan du fange opp Avro-filer, se Skjematilordning for Event Hubs Capture Avro-filer.
Avro	`.avro`	En eldre implementering for AVRO-format basert på .NET-bibliotek. Følgende komprimeringskodeker støttes: `null`, `deflate` (for `snappy` - bruk `ApacheAvro` dataformat).
CSV	`.csv`	En tekstfil med kommadelte verdier (`,`). Se RFC 4180: Common Format og MIME Type for CSV-filer (Comma-Separated Values).
JSON	`.json`	En tekstfil med JSON-objekter avgrenset av `\n` eller `\r\n`. Se JSON Lines (JSONL).
MultiJSON	`.multijson`	En tekstfil med en JSON-matrise med egenskapsposer (hver representerer en post), eller et hvilket som helst antall egenskapsposer avgrenset av mellomrom eller `\n\r\n`. Hver egenskapspose kan spres på flere linjer. Dette formatet foretrekkes fremfor `JSON`, med mindre dataene er ikke-egenskaper.
ORC	`.orc`	En ORC-fil.
Parquet	`.parquet`	En parkettfil.
PSV	`.psv`	En tekstfil med verdier atskilt med datakanal (`\|`).
RÅ	`.raw`	En tekstfil med hele innholdet er en enkelt strengverdi.
SCsv	`.scsv`	En tekstfil med semikolondelte verdier (`;`).
SOHsv	`.sohsv`	En tekstfil med SOH-separerte verdier. (SOH er ASCII codepoint 1. Dette formatet brukes av Hive på HDInsight.)
TSV	`.tsv`	En tekstfil med tabulatordelte verdier (`\t`).
TSVE	`.tsv`	En tekstfil med tabulatordelte verdier (`\t`). Et omvendt skråstrek (`\`) brukes til å slippe ut.
TXT	`.txt`	En tekstfil med linjer avgrenset av `\n`. Tomme linjer hoppes over.
W3CLOGFILE	`.log`	Webloggfilformat standardisert av W3C.

Merk

Inntak fra datalagringssystemer som gir ACID-funksjonalitet på toppen av vanlige parquetformatfiler (f.eks Apache Iceberg, Apache Hudi) støttes ikke.
Skjemaløs Avro støttes ikke

Støttede datakomprimeringsformater

Blober og filer kan komprimeres gjennom følgende komprimeringsalgoritmer:

Komprimering	Internnummer
Gzip	.Gz
Postnummer	.zip

Angi komprimering ved å tilføye filtypen til navnet på bloben eller filen.

Eksempel:

MyData.csv.zip angir en blob eller en fil formatert som CSV, komprimert med ZIP (arkiv eller én enkelt fil)
MyData.json.gz angir en blob eller en fil formatert som JSON, komprimert med GZip.

Blob- eller filnavn som ikke inneholder formatutvidelsene, MyData.zipmen bare komprimering (for eksempel) støttes også. I dette tilfellet må filformatet angis som en inntaksegenskap fordi det ikke kan utledes.

Merk

Noen komprimeringsformater holder oversikt over den opprinnelige filtypen som en del av den komprimerte strømmen. Denne filtypen ignoreres vanligvis for å fastslå filformatet. Hvis filformatet ikke kan fastslås fra (komprimert) blob eller filnavn, må det angis gjennom inntaksegenskapen format .
Må ikke forveksles med intern komprimeringskodek (delnivå) som brukes av Parquet, AVRO og ORC formater. Internt komprimeringsnavn legges vanligvis til et filnavn før filtypen, for eksempel: file1.gz.parquet, osv file1.snappy.avro.

Del via

Dataformater som støttes av sanntidsintelligens

Støttede datakomprimeringsformater

Tilbakemeldinger

Tilbakemeldinger

Flere ressurser

Del via

Dataformater som støttes av sanntidsintelligens

Støttede datakomprimeringsformater

Relatert innhold

Tilbakemeldinger

Tilbakemeldinger

Flere ressurser