Dataformat som stöds av Azure Synapse Data Explorer för inmatning (förhandsversion)
Datainmatning är den process genom vilken data läggs till i en tabell och görs tillgängliga för frågor i Datautforskaren. För alla inmatningsmetoder, förutom inmatning från fråga, måste data vara i något av de format som stöds. I följande tabell visas och beskrivs de format som datautforskaren stöder för datainmatning.
Kommentar
Innan du matar in data kontrollerar du att dina data är korrekt formaterade och definierar de förväntade fälten. Vi rekommenderar att du använder den validator du föredrar för att bekräfta att formatet är giltigt. Du kanske till exempel tycker att följande validatorer är användbara för att kontrollera CSV- eller JSON-filer:
- CSV: http://csvlint.io/
- JSON: https://jsonlint.com/
Mer information om varför inmatning kan misslyckas finns i Felkoder för inmatning och inmatningsfel i Datautforskaren.
Format | Tillägg | beskrivning |
---|---|---|
ApacheAvro | .avro |
Ett AVRO-format med stöd för logiska typer. Följande komprimerings codecs stöds: null , deflate och snappy . Läsarimplementeringen apacheavro av formatet baseras på det officiella Apache Avro-biblioteket. |
Avro | .avro |
En äldre implementering för AVRO-format baserat på .NET-biblioteket. Följande komprimerings codecs stöds: null , deflate (för snappy – använd ApacheAvro dataformat). |
CSV | .csv |
En textfil med kommaavgränsade värden (, ). Se RFC 4180: Common Format och MIME Type for Comma-Separated Values (CSV)-filer. |
JSON | .json |
En textfil med JSON-objekt avgränsade av \n eller \r\n . Se JSON Lines (JSONL). |
MultiJSON | .multijson |
En textfil med en JSON-matris med egenskapspåsar (var och en representerar en post) eller valfritt antal egenskapspåsar avgränsade med blanksteg eller \n \r\n . Varje egenskapsväska kan spridas på flera linjer. Det här formatet föredras framför JSON , såvida inte data är icke-egenskapspåsar. |
ORCH | .orc |
En ORC-fil. |
Parquet | .parquet |
En Parquet-fil. |
PSV | .psv |
En textfil med pipe-avgränsade värden (| ). |
RÅ | .raw |
En textfil vars hela innehåll är ett enda strängvärde. |
SCsv | .scsv |
En textfil med semikolonavgränsade värden (; ). |
SOHsv | .sohsv |
En textfil med SOH-avgränsade värden. (SOH är ASCII-kodpunkt 1. Det här formatet används av Hive i HDInsight.) |
TSV | .tsv |
En textfil med tab-avgränsade värden (\t ). |
TSVE | .tsv |
En textfil med tab-avgränsade värden (\t ). Ett omvänt snedstreck (\ ) används för att fly. |
TXT | .txt |
En textfil med rader avgränsade med \n . Tomma rader hoppas över. |
W3CLOGFILE | .log |
Webbloggfilformat som standardiserats av W3C. |
Datakomprimeringsformat som stöds
Blobbar och filer kan komprimeras via någon av följande komprimeringsalgoritmer:
Komprimering | Anknytning |
---|---|
GZip | .gz |
Postnummer | .zip |
Ange komprimering genom att lägga till tillägget till namnet på bloben eller filen.
Till exempel:
MyData.csv.zip
anger en blob eller en fil formaterad som CSV, komprimerad med ZIP (arkiv eller en enda fil)MyData.json.gz
anger en blob eller en fil som är formaterad som JSON, komprimerad med GZip.
Blob- eller filnamn som inte innehåller formattilläggen utan bara komprimering (till exempel MyData.zip
) stöds också. I det här fallet måste filformatet anges som en inmatningsegenskap eftersom det inte kan härledas.
Kommentar
- Vissa komprimeringsformat håller reda på det ursprungliga filtillägget som en del av den komprimerade strömmen. Det här tillägget ignoreras vanligtvis för att fastställa filformatet. Om filformatet inte kan fastställas från den (komprimerade) bloben eller filnamnet måste det anges via inmatningsegenskapen
format
. - Ska inte förväxlas med intern (segmentnivå) komprimeringskodc som används av
Parquet
,AVRO
ochORC
format. Internt komprimeringsnamn läggs vanligtvis till i ett filnamn före filformatstillägget, till exempel:file1.gz.parquet
,file1.snappy.avro
osv.
Nästa steg
- Läs mer om datainmatning
- Läs mer om datainmatningsegenskaper