Condividi tramite


Mapping Parquet

Usare il mapping Parquet per eseguire il mapping dei dati in ingresso alle colonne all'interno di tabelle quando il file di origine di inserimento è in formato Parquet.

Ogni elemento nell'elenco di mapping definisce il mapping per una colonna specifica. Questi elementi vengono costruiti da tre proprietà: column, datatypee properties. Altre informazioni sono disponibili nella panoramica dei mapping dei dati.

Ogni elemento di mapping Parquet deve contenere una delle proprietà facoltative seguenti:

Proprietà Type Descrizione
Campo string Nome del campo nel record Parquet.
Percorso string Se il valore inizia con $ viene interpretato come percorso del campo nel documento Parquet che diventerà il contenuto della colonna nella tabella. Il percorso che indica l'intero record Parquet è $. Se il valore non inizia con $ viene interpretato come valore costante. I percorsi che includono caratteri speciali devono essere preceduti da caratteri di escape ['Nome proprietà']. Per altre informazioni, vedere sintassi JSONPath.
ConstValue string Valore costante da utilizzare per una colonna invece di un valore all'interno del file Parquet.
Trasformazione string Trasformazione che deve essere applicata al contenuto con trasformazioni di mapping.

Nota

Field e Path si escludono a vicenda.

Le alternative seguenti sono equivalenti:

[
  {"Column": "event_name", "Properties": {"Path": "$.EventName"}}
]
[
  {"Column": "event_name", "Properties": {"Field": "EventName"}}
]

Importante

Per l'inserimento in coda:

  • Se la tabella a cui si fa riferimento nel mapping non esiste nel database, viene creata automaticamente, dato che per tutte le colonne vengono specificati tipi di dati validi.
  • Se una colonna a cui si fa riferimento nel mapping non esiste nella tabella, viene aggiunta automaticamente alla tabella come ultima colonna alla prima inserimento dei dati per tale colonna, dato che per la colonna viene specificato un tipo di dati valido. Per aggiungere nuove colonne a un mapping, usare il comando di mapping di inserimento .alter.
  • I dati vengono inseriti in batch usando le proprietà di inserimento. Le proprietà di mapping di inserimento più distinte usate, ad esempio valori ConstValue diversi, diventano più frammentate l'inserimento, il che può causare una riduzione delle prestazioni.

Conversioni di tipi Parquet

È disponibile il supporto completo per la conversione dei tipi di dati durante l'inserimento o l'esecuzione di query sui dati da un'origine Parquet.

La tabella seguente fornisce un mapping dei tipi di campo Parquet e i tipi di colonna di tabella in cui possono essere convertiti. La prima colonna elenca il tipo Parquet e gli altri mostrano i tipi di colonna della tabella in cui possono essere convertiti.

Nota

Per i tipi DECIMALst, il tipo fisico viene specificato tra parentesi, come indicato di seguito:

  • I32: INT32 (intero a 32 bit)
  • I64: INT64 (intero a 64 bit)
  • FLBA: matrice di byte a lunghezza fissa
  • BA: Matrice di byte
Tipo Parquet bool INT long real decimal Datetime timespan string guid dinamico
INT8 ✔️
INT16 ✔️
INT32 ✔️
INT64 ✔️
UINT8 ✔️
UINT16 ✔️
UINT32 ✔️
UINT64 ✔️
FLOAT32 ✔️
FLOAT64 ✔️
BOOLEAN ✔️
DECIMAL (I32) ✔️
DECIMAL (I64) ✔️
DECIMAL (FLBA) ✔️
DECIMAL (BA) ✔️
timestamp ✔️
DATE ✔️
STRING ✔️
UUID ✔️
JSON ✔️
INSERZIONE ✔️
MAP ✔️
STRUCT ✔️

Esempio

[
  {"Column": "event_timestamp", "Properties": {"Path": "$.Timestamp"}},
  {"Column": "event_name",      "Properties": {"Path": "$.Event.Name"}},
  {"Column": "event_type",      "Properties": {"Path": "$.Event.Type"}},
  {"Column": "event_time",      "Properties": {"Path": "$.Timestamp", "Transform": "DateTimeFromUnixMilliseconds"}},
  {"Column": "ingestion_time",  "Properties": {"ConstValue": "2021-01-01T10:32:00"}},
  {"Column": "full_record",     "Properties": {"Path": "$"}}
]

Il mapping precedente viene serializzato come stringa JSON quando viene fornito come parte del .ingest comando di gestione.

.ingest into Table123 (@"source1", @"source2")
  with
  (
    format = "parquet",
    ingestionMapping =
    ```
    [
      {"Column": "column_a", "Properties": {"Path": "$.Field1.Subfield"}},
      {"Column": "column_b", "Properties": {"Path": "$.[\'Field name with space\']"}},
    ]
    ```
  )

Mapping pre-creato

Dopo la creazione preliminare del mapping, fare riferimento al mapping in base al nome nel .ingest comando di gestione.

.ingest into Table123 (@"source1", @"source2")
  with
  (
      format="parquet",
      ingestionMappingReference = "Mapping_Name"
  )

Mapping di identità

Usare il mapping Parquet durante l'inserimento senza definire uno schema di mapping (vedere Mapping delle identità).

.ingest into Table123 (@"source1", @"source2")
  with
  (
    format="parquet"
  )