Del via


Dataformater som støttes av sanntidsintelligens

Datainntak er prosessen der data legges til i en tabell og gjøres tilgjengelig for spørring i sanntidsintelligens. For alle inntaksmetoder, bortsett fra inntak fra spørring, må dataene være i ett av de støttede formatene. Tabellen nedenfor viser og beskriver formatene som sanntidsintelligens støtter for datainntak.

Merk

Før du inntar data, må du kontrollere at dataene er riktig formatert og definerer de forventede feltene. Vi anbefaler at du bruker den foretrukne validatoren til å bekrefte at formatet er gyldig. Du kan for eksempel finne følgende validatorer nyttige for å kontrollere CSV- eller JSON-filer:

Hvis du vil ha mer informasjon om hvorfor inntak kan mislykkes, kan du se Inntaksfeil.

Format Utvidelse Bekrivelse
ApacheAvro .avro Et AVRO-format med støtte for logiske typer. Følgende komprimeringskodeker støttes: null, deflateog snappy. Leserimplementeringen apacheavro av formatet er basert på det offisielle Apache Avro-biblioteket. Hvis du vil ha informasjon om hvordan du inntar Hendelseshuber, kan du fange opp Avro-filer, se Skjematilordning for Event Hubs Capture Avro-filer.
Avro .avro En eldre implementering for AVRO-format basert på .NET-bibliotek. Følgende komprimeringskodeker støttes: null, deflate (for snappy - bruk ApacheAvro dataformat).
CSV .csv En tekstfil med kommadelte verdier (,). Se RFC 4180: Common Format og MIME Type for CSV-filer (Comma-Separated Values).
JSON .json En tekstfil med JSON-objekter avgrenset av \n eller \r\n. Se JSON Lines (JSONL).
MultiJSON .multijson En tekstfil med en JSON-matrise med egenskapsposer (hver representerer en post), eller et hvilket som helst antall egenskapsposer avgrenset av mellomrom eller \n\r\n. Hver egenskapspose kan spres på flere linjer. Dette formatet foretrekkes fremfor JSON, med mindre dataene er ikke-egenskaper.
ORC .orc En ORC-fil.
Parquet .parquet En parkettfil.
PSV .psv En tekstfil med verdier atskilt med datakanal (|).
.raw En tekstfil med hele innholdet er en enkelt strengverdi.
SCsv .scsv En tekstfil med semikolondelte verdier (;).
SOHsv .sohsv En tekstfil med SOH-separerte verdier. (SOH er ASCII codepoint 1. Dette formatet brukes av Hive på HDInsight.)
TSV .tsv En tekstfil med tabulatordelte verdier (\t).
TSVE .tsv En tekstfil med tabulatordelte verdier (\t). Et omvendt skråstrek (\) brukes til å slippe ut.
TXT .txt En tekstfil med linjer avgrenset av \n. Tomme linjer hoppes over.
W3CLOGFILE .log Webloggfilformat standardisert av W3C.

Merk

  • Inntak fra datalagringssystemer som gir ACID-funksjonalitet på toppen av vanlige parquetformatfiler (f.eks Apache Iceberg, Apache Hudi) støttes ikke.
  • Skjemaløs Avro støttes ikke

Støttede datakomprimeringsformater

Blober og filer kan komprimeres gjennom følgende komprimeringsalgoritmer:

Komprimering Internnummer
Gzip .Gz
Postnummer .zip

Angi komprimering ved å tilføye filtypen til navnet på bloben eller filen.

Eksempel:

  • MyData.csv.zip angir en blob eller en fil formatert som CSV, komprimert med ZIP (arkiv eller én enkelt fil)
  • MyData.json.gz angir en blob eller en fil formatert som JSON, komprimert med GZip.

Blob- eller filnavn som ikke inneholder formatutvidelsene, MyData.zipmen bare komprimering (for eksempel) støttes også. I dette tilfellet må filformatet angis som en inntaksegenskap fordi det ikke kan utledes.

Merk

  • Noen komprimeringsformater holder oversikt over den opprinnelige filtypen som en del av den komprimerte strømmen. Denne filtypen ignoreres vanligvis for å fastslå filformatet. Hvis filformatet ikke kan fastslås fra (komprimert) blob eller filnavn, må det angis gjennom inntaksegenskapen format .
  • Må ikke forveksles med intern komprimeringskodek (delnivå) som brukes av Parquet, AVRO og ORC formater. Internt komprimeringsnavn legges vanligvis til et filnavn før filtypen, for eksempel: file1.gz.parquet, osv file1.snappy.avro.