Opzioni del caricatore automatico

Le opzioni di configurazione specifiche dell'origine cloudFiles sono precedute cloudFiles da un prefisso in modo che si trovino in uno spazio dei nomi separato da altre opzioni di origine Structured Streaming.

Opzioni comuni del caricatore automatico

È possibile configurare le opzioni seguenti per l'elenco di directory o la modalità di notifica file.

Opzione
cloudFiles.allowOverwrites

Tipo: Boolean

Indica se consentire modifiche al file della directory di input per sovrascrivere i dati esistenti.

Esistono alcune avvertenze relative all'abilitazione di questa configurazione. Per informazioni dettagliate, vedere Domande frequenti sul caricatore automatico.

Valore predefinito: false
cloudFiles.backfillInterval

Tipo: Interval String

Il caricatore automatico può attivare i backfill asincroni a un determinato intervallo,
ad esempio 1 day per il riempimento una volta al giorno o 1 week per il riempimento una volta alla settimana. I sistemi di notifica degli eventi file non garantiscono il 100% di recapito di tutti i file caricati, pertanto è possibile usare i backfill per garantire che tutti i file vengano elaborati, disponibili in Databricks Runtime 8.4 (non supportati) e versioni successive.

Valore predefinito: Nessuno
cloudFiles.format

Tipo: String

Formato del file di dati nel percorso di origine. I valori consentiti includono:

* avro: file Avro
* binaryFile: file binario
* csv: lettura e scrittura in file CSV
* json: file JSON
* orc: file ORC
* parquet: leggere i file Parquet con Azure Databricks
* text: file di testo

Valore predefinito: Nessuna (opzione obbligatoria)
cloudFiles.includeExistingFiles

Tipo: Boolean

Indica se includere file esistenti nel percorso di input di elaborazione del flusso o elaborare solo i nuovi file in arrivo dopo l'installazione iniziale. Questa opzione viene valutata solo quando si avvia un flusso per la prima volta. La modifica di questa opzione dopo il riavvio del flusso non ha alcun effetto.

Valore predefinito: true
cloudFiles.inferColumnTypes

Tipo: Boolean

Indica se dedurre tipi di colonna esatti quando si sfrutta l'inferenza dello schema. Per impostazione predefinita, le colonne vengono dedotte come stringhe durante l'inferenza di set di dati JSON e CSV. Per altri dettagli, vedere Inferenza dello schema.

Valore predefinito: false
cloudFiles.maxBytesPerTrigger

Tipo: Byte String

Numero massimo di nuovi byte da elaborare in ogni trigger. È possibile specificare una stringa di byte, 10g ad esempio per limitare ogni microbatch a 10 GB di dati. Questo è un massimo morbido. Se sono presenti file di 3 GB ciascuno, Azure Databricks elabora 12 GB in un microbatch. Se usato insieme a cloudFiles.maxFilesPerTrigger, Azure Databricks usa fino al limite inferiore di cloudFiles.maxFilesPerTrigger o cloudFiles.maxBytesPerTrigger, a qualsiasi valore raggiunto per primo. Questa opzione non ha alcun effetto se usata con Trigger.Once() (deprecato).

Valore predefinito: Nessuno
cloudFiles.maxFileAge

Tipo: Interval String

Per quanto tempo viene rilevato un evento di file a scopo di deduplicazione. Databricks non consiglia di ottimizzare questo parametro a meno che non si inseriscano dati nell'ordine di milioni di file un'ora. Per altri dettagli, vedere la sezione relativa alla conservazione degli eventi.

L'ottimizzazione cloudFiles.maxFileAge troppo aggressiva può causare problemi di qualità dei dati, ad esempio l'inserimento duplicato o i file mancanti. Di conseguenza, Databricks consiglia un'impostazione conservativa per cloudFiles.maxFileAge, ad esempio 90 giorni, che è simile a quella consigliata per le soluzioni di inserimento dati simili.

Valore predefinito: Nessuno
cloudFiles.maxFilesPerTrigger

Tipo: Integer

Numero massimo di nuovi file da elaborare in ogni trigger. Se usato insieme a cloudFiles.maxBytesPerTrigger, Azure Databricks usa fino al limite inferiore di cloudFiles.maxFilesPerTrigger o cloudFiles.maxBytesPerTrigger, a qualsiasi valore raggiunto per primo. Questa opzione non ha alcun effetto se usata con Trigger.Once() (deprecato).

Valore predefinito: 1000
cloudFiles.partitionColumns

Tipo: String

Elenco delimitato da virgole di colonne di partizione di stile Hive che si desidera dedurre dalla struttura di directory dei file. Le colonne di partizione dello stile Hive sono coppie chiave-valore combinate da un segno di uguaglianza, ad esempio
<base-path>/a=x/b=1/c=y/file.format. In questo esempio le colonne di partizione sono a, be c. Per impostazione predefinita, queste colonne verranno aggiunte automaticamente allo schema se si usa l'inferenza dello schema e si fornirà per <base-path> caricare i dati da. Se si specifica uno schema, il caricatore automatico prevede che queste colonne vengano incluse nello schema. Se non si desidera che queste colonne facciano parte dello schema, è possibile specificare "" di ignorare queste colonne. Inoltre, è possibile usare questa opzione quando si vuole dedurre il percorso del file in strutture di directory complesse, come nell'esempio seguente:

<base-path>/year=2022/week=1/file1.csv
<base-path>/year=2022/month=2/day=3/file2.csv
<base-path>/year=2022/month=2/day=4/file3.csv

Specificando cloudFiles.partitionColumns come year,month,day verrà restituito
year=2022 per file1.csv, ma le month colonne e day saranno null.
month e day verranno analizzati correttamente per file2.csv e file3.csv.

Valore predefinito: Nessuno
cloudFiles.schemaEvolutionMode

Tipo: String

La modalità per l'evoluzione dello schema man mano che vengono individuate nuove colonne nei dati. Per impostazione predefinita, le colonne vengono dedotte come stringhe durante l'inferenza di set di dati JSON. Per altri dettagli, vedere Evoluzione dello schema.

Valore predefinito: "addNewColumns" quando non viene specificato uno schema.
In caso contrario, "none".
cloudFiles.schemaHints

Tipo: String

Informazioni sullo schema fornite al caricatore automatico durante l'inferenza dello schema. Per altri dettagli, vedere Hint dello schema.

Valore predefinito: Nessuno
cloudFiles.schemaLocation

Tipo: String

Percorso in cui archiviare lo schema dedotto e le modifiche successive. Per altri dettagli, vedere Inferenza dello schema.

Valore predefinito: Nessuno (obbligatorio quando si deduce lo schema)
cloudFiles.useStrictGlobber

Tipo: Boolean

Indica se usare un globber rigoroso che corrisponde al comportamento predefinito di globbing di altre origini file in Apache Spark. Per altri dettagli, vedere Modelli di caricamento dei dati comuni. Disponibile in Databricks Runtime 12.2 LTS e versioni successive.

Valore predefinito: false
cloudFiles.validateOptions

Tipo: Boolean

Indica se convalidare le opzioni del caricatore automatico e restituire un errore per opzioni sconosciute o incoerenti.

Valore predefinito: true

Opzioni di elenco delle directory

Le opzioni seguenti sono rilevanti per la modalità elenco directory.

Opzione
cloudFiles.useIncrementalListing (deprecato)

Tipo: String

Questa funzionalità è stata deprecata. Databricks consiglia di usare la modalità di notifica file anziché
cloudFiles.useIncrementalListing.

Indica se usare l'elenco incrementale anziché l'elenco completo in modalità elenco directory. Per impostazione predefinita, il caricatore automatico fa il massimo sforzo per rilevare automaticamente se una determinata directory è applicabile per l'elenco incrementale. È possibile usare in modo esplicito l'elenco incrementale o usare l'elenco completo della directory impostandolo rispettivamente come true o false .

L'abilitazione errata dell'elenco incrementale in una directory non lessicalmente ordinata impedisce al caricatore automatico di individuare nuovi file.

Funziona con Azure Data Lake Archiviazione Gen2 (abfss://), S3 (s3://) e GCS (gs://).

Disponibile in Databricks Runtime 9.1 LTS e versioni successive.

Valore predefinito: auto

Valori disponibili: auto, true, false

Opzioni di notifica file

Le opzioni seguenti sono rilevanti per la modalità di notifica dei file.

Opzione
cloudFiles.fetchParallelism

Tipo: Integer

Numero di thread da usare per il recupero di messaggi dal servizio di accodamento.

Valore predefinito: 1
cloudFiles.pathRewrites

Tipo: stringa JSON

Obbligatorio solo se si specifica un queueUrl oggetto che riceve notifiche di file da più bucket S3 e si vuole sfruttare i punti di montaggio configurati per l'accesso ai dati in questi contenitori. Usare questa opzione per riscrivere il prefisso del bucket/key percorso con il punto di montaggio. È possibile riscrivere solo i prefissi. Ad esempio, per la configurazione
{"<databricks-mounted-bucket>/path": "dbfs:/mnt/data-warehouse"}, il percorso
s3://<databricks-mounted-bucket>/path/2017/08/fileA.json viene riscritto in dbfs:/mnt/data-warehouse/2017/08/fileA.json.

Valore predefinito: Nessuno
cloudFiles.resourceTag

Tipo: Map(String, String)

Una serie di coppie di tag chiave-valore che consentono di associare e identificare le risorse correlate, ad esempio:

cloudFiles.option("cloudFiles.resourceTag.myFirstKey", "myFirstValue")
.option("cloudFiles.resourceTag.mySecondKey", "mySecondValue")

Per altre informazioni su AWS, vedere Tag di allocazione dei costi di Amazon SQS e Configurazione dei tag per un argomento Amazon SNS. (1)

Per altre informazioni su Azure, vedere Denominazione di code e metadati e copertura di properties.labels nelle sottoscrizioni di eventi. Il caricatore automatico archivia queste coppie di tag chiave-valore in JSON come etichette. (1)

Per altre informazioni su GCP, vedere Creazione di report sull'utilizzo con le etichette. (1)

Valore predefinito: Nessuno
cloudFiles.useNotifications

Tipo: Boolean

Indica se usare la modalità di notifica file per determinare quando sono presenti nuovi file. Se false, usare la modalità elenco directory. Vedere Funzionamento del caricatore automatico.

Valore predefinito: false

(1) Il caricatore automatico aggiunge per impostazione predefinita le coppie di tag chiave-valore seguenti per impostazione predefinita:

  • vendor: Databricks
  • path: percorso da cui vengono caricati i dati. Non disponibile in GCP a causa di limitazioni di etichettatura.
  • checkpointLocation: posizione del checkpoint del flusso. Non disponibile in GCP a causa di limitazioni di etichettatura.
  • streamId: identificatore univoco globale per il flusso.

Questi nomi di chiave sono riservati e non è possibile sovrascrivere i relativi valori.

Opzioni di formato file

Con il caricatore automatico è possibile inserire JSONfile , CSV, PARQUET, TEXTAVRO, BINARYFILE, e ORC .

Opzioni generica

Le opzioni seguenti si applicano a tutti i formati di file.

Opzione
ignoreCorruptFiles

Tipo: Boolean

Indica se ignorare i file danneggiati. Se true, i processi Spark continueranno a essere eseguiti quando si verificano file danneggiati e il contenuto letto verrà comunque restituito. Osservabile come numSkippedCorruptFiles in
operationMetrics colonna della cronologia di Delta Lake. Disponibile in Databricks Runtime 11.3 LTS e versioni successive.

Valore predefinito: false
ignoreMissingFiles

Tipo: Boolean

Indica se ignorare i file mancanti. Se true, i processi Spark continueranno a essere eseguiti quando vengono rilevati file mancanti e il contenuto letto verrà comunque restituito. Disponibile in Databricks Runtime 11.3 LTS e versioni successive.

Valore predefinito: false (true per COPY INTO)
modifiedAfter

Tipo: Timestamp String, ad esempio 2021-01-01 00:00:00.000000 UTC+0

Timestamp facoltativo per inserire file con un timestamp di modifica dopo il timestamp specificato.

Valore predefinito: Nessuno
modifiedBefore

Tipo: Timestamp String, ad esempio 2021-01-01 00:00:00.000000 UTC+0

Timestamp facoltativo per inserire file con un timestamp di modifica prima del timestamp specificato.

Valore predefinito: Nessuno
pathGlobFilter oppure fileNamePattern

Tipo: String

Un potenziale modello glob da fornire per la scelta dei file. Equivalente a
PATTERN in COPY INTO. fileNamePattern può essere usato in read_files.

Valore predefinito: Nessuno
recursiveFileLookup

Tipo: Boolean

Se ignorare l'inferenza della partizione durante l'inferenza dello schema. Ciò non influisce sui file caricati.

Valore predefinito: false

Opzioni JSON

Opzione
allowBackslashEscapingAnyCharacter

Tipo: Boolean

Indica se consentire alle barre rovesciate di eseguire l'escape di qualsiasi carattere che abbia esito positivo. Se non è abilitata, solo i caratteri elencati in modo esplicito dalla specifica JSON possono essere preceduti da un carattere di escape.

Valore predefinito: false
allowComments

Tipo: Boolean

Indica se consentire o meno l'uso dei commenti di stile Java, C e C++ ('/', '*'e '//' ) all'interno del contenuto analizzato.

Valore predefinito: false
allowNonNumericNumbers

Tipo: Boolean

Indica se consentire il set di token non numerici (NaN) come valori numerici mobili legali.

Valore predefinito: true
allowNumericLeadingZeros

Tipo: Boolean

Indica se consentire ai numeri integrali di iniziare con zeli aggiuntivi (ignorabili), ad esempio 000001.

Valore predefinito: false
allowSingleQuotes

Tipo: Boolean

Indica se consentire l'uso di virgolette singole (apostrofo, carattere '\') per le stringhe tra virgolette (nomi e valori stringa).

Valore predefinito: true
allowUnquotedControlChars

Tipo: Boolean

Indica se consentire alle stringhe JSON di contenere caratteri di controllo senza caratteri di escape (caratteri ASCII con valore minore di 32, inclusi caratteri di tabulazioni e avanzamento riga) o meno.

Valore predefinito: false
allowUnquotedFieldNames

Tipo: Boolean

Indica se consentire l'uso di nomi di campo senza virgo chiave (consentiti da JavaScript, ma non dalla specifica JSON).

Valore predefinito: false
badRecordsPath

Tipo: String

Percorso per archiviare i file per registrare le informazioni sui record JSON non validi.

Valore predefinito: Nessuno
columnNameOfCorruptRecord

Tipo: String

Colonna per l'archiviazione di record non validi e non analizzabili. Se l'oggetto per l'analisi mode è impostato su DROPMALFORMED, questa colonna sarà vuota.

Valore predefinito: _corrupt_record
dateFormat

Tipo: String

Formato per l'analisi delle stringhe di data.

Valore predefinito: yyyy-MM-dd
dropFieldIfAllNull

Tipo: Boolean

Indica se ignorare le colonne di tutti i valori Null o matrici e struct vuoti durante l'inferenza dello schema.

Valore predefinito: false
encoding oppure charset

Tipo: String

Nome della codifica dei file JSON. Vedere java.nio.charset.Charset per l'elenco delle opzioni. Non è possibile usare UTF-16 e UTF-32 quando multiline è true.

Valore predefinito: UTF-8
inferTimestamp

Tipo: Boolean

Indica se provare e dedurre stringhe di timestamp come .TimestampType Se impostato su
true, l'inferenza dello schema potrebbe richiedere molto più tempo. È necessario abilitare cloudFiles.inferColumnTypes l'uso con il caricatore automatico.

Valore predefinito: false
lineSep

Tipo: String

Stringa tra due record JSON consecutivi.

Valore predefinito: Nessuno, che copre \r, \r\ne \n
locale

Tipo: String

Identificatore java.util.Locale . Influenza l'analisi di data, timestamp e decimale predefinita all'interno di JSON.

Valore predefinito: US
mode

Tipo: String

Modalità parser per la gestione di record in formato non valido. Uno di 'PERMISSIVE',
'DROPMALFORMED''FAILFAST'o .

Valore predefinito: PERMISSIVE
multiLine

Tipo: Boolean

Indica se i record JSON si estendono su più righe.

Valore predefinito: false
prefersDecimal

Tipo: Boolean

Tenta di dedurre stringhe come DecimalType invece di tipo float o double, quando possibile. È anche necessario usare l'inferenza dello schema, abilitando
inferSchema o usando cloudFiles.inferColumnTypes con il caricatore automatico.

Valore predefinito: false
primitivesAsString

Tipo: Boolean

Indica se dedurre tipi primitivi come numeri e booleani come StringType.

Valore predefinito: false
readerCaseSensitive

Tipo: Boolean

Specifica il comportamento di distinzione tra maiuscole e minuscole quando rescuedDataColumn è abilitato. Se true, salvare le colonne di dati i cui nomi differiscono per maiuscole e minuscole rispetto allo schema; in caso contrario, leggere i dati senza distinzione tra maiuscole e minuscole. Disponibile in Databricks Runtime
13.3 e versioni successive.

Valore predefinito: true
rescuedDataColumn

Tipo: String

Indica se raccogliere tutti i dati che non possono essere analizzati a causa di una mancata corrispondenza del tipo di dati o di una mancata corrispondenza dello schema (inclusa la combinazione di maiuscole e minuscole) in una colonna separata. Questa colonna è inclusa per impostazione predefinita quando si usa il caricatore automatico. Per altre informazioni, vedere Che cos'è la colonna di dati salvata?

Valore predefinito: Nessuno
timestampFormat

Tipo: String

Formato per l'analisi delle stringhe di timestamp.

Valore predefinito: yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]
timeZone

Tipo: String

Oggetto java.time.ZoneId da utilizzare durante l'analisi di timestamp e date.

Valore predefinito: Nessuno

Opzioni CSV

Opzione
badRecordsPath

Tipo: String

Percorso in cui archiviare i file per registrare le informazioni sui record CSV non validi.

Valore predefinito: Nessuno
charToEscapeQuoteEscaping

Tipo: Char

Carattere utilizzato per eseguire l'escape del carattere utilizzato per l'escape delle virgolette. Ad esempio, per il record seguente: : [ " a\\", b ]

* Se il carattere di escape dell'oggetto '\' non è definito, il record non verrà analizzato. Il parser leggerà i caratteri e [a],[\],["],[,],[ ],[b] genererà un errore perché non riesce a trovare un'virgoletta di chiusura.
* Se il carattere di escape '\' è definito come '\', il record verrà letto con 2 valori: [a\] e [b].

Valore predefinito: '\0'
columnNameOfCorruptRecord

> [! NOTA] >> Supportato per il caricatore automatico. Non supportato per COPY INTO.

Tipo: String

Colonna per l'archiviazione di record non validi e non analizzabili. Se l'oggetto per l'analisi mode è impostato su DROPMALFORMED, questa colonna sarà vuota.

Valore predefinito: _corrupt_record
comment

Tipo: Char

Definisce il carattere che rappresenta un commento di riga quando viene trovato all'inizio di una riga di testo. Usare '\0' per disabilitare l'ignoramento dei commenti.

Valore predefinito: '\u0000'
dateFormat

Tipo: String

Formato per l'analisi delle stringhe di data.

Valore predefinito: yyyy-MM-dd
emptyValue

Tipo: String

Rappresentazione di stringa di un valore vuoto.

Valore predefinito: ""
encoding oppure charset

Tipo: String

Nome della codifica dei file CSV. Vedere java.nio.charset.Charset per l'elenco delle opzioni. UTF-16 e UTF-32 non possono essere usati quando multiline è true.

Valore predefinito: UTF-8
enforceSchema

Tipo: Boolean

Indica se applicare forzatamente lo schema specificato o dedotto ai file CSV. Se l'opzione è abilitata, le intestazioni dei file CSV vengono ignorate. Questa opzione viene ignorata per impostazione predefinita quando si usa il caricatore automatico per salvare i dati e consentire l'evoluzione dello schema.

Valore predefinito: true
escape

Tipo: Char

Carattere di escape da utilizzare durante l'analisi dei dati.

Valore predefinito: '\'
header

Tipo: Boolean

Indica se i file CSV contengono un'intestazione. Il caricatore automatico presuppone che i file abbiano intestazioni durante l'inferenza dello schema.

Valore predefinito: false
ignoreLeadingWhiteSpace

Tipo: Boolean

Indica se ignorare gli spazi vuoti iniziali per ogni valore analizzato.

Valore predefinito: false
ignoreTrailingWhiteSpace

Tipo: Boolean

Indica se ignorare gli spazi vuoti finali per ogni valore analizzato.

Valore predefinito: false
inferSchema

Tipo: Boolean

Indica se dedurre i tipi di dati dei record CSV analizzati o per presupporre che tutte le colonne siano di StringType. Richiede un passaggio aggiuntivo sui dati se impostato su true. Per Il caricatore automatico, usare cloudFiles.inferColumnTypes invece .

Valore predefinito: false
lineSep

Tipo: String

Stringa tra due record CSV consecutivi.

Valore predefinito: Nessuno, che copre \r, \r\ne \n
locale

Tipo: String

Identificatore java.util.Locale . Influenza l'analisi di data, timestamp e decimale predefinita all'interno del file CSV.

Valore predefinito: US
maxCharsPerColumn

Tipo: Int

Numero massimo di caratteri previsti da un valore da analizzare. Può essere usato per evitare errori di memoria. Il valore predefinito è -1, ovvero illimitato.

Valore predefinito: -1
maxColumns

Tipo: Int

Limite rigido del numero di colonne che un record può avere.

Valore predefinito: 20480
mergeSchema

Tipo: Boolean

Indica se dedurre lo schema tra più file e unire lo schema di ogni file. Abilitato per impostazione predefinita per il caricatore automatico durante l'inferenza dello schema.

Valore predefinito: false
mode

Tipo: String

Modalità parser per la gestione di record in formato non valido. Uno di 'PERMISSIVE',
'DROPMALFORMED' e 'FAILFAST'.

Valore predefinito: PERMISSIVE
multiLine

Tipo: Boolean

Indica se i record CSV si estendono su più righe.

Valore predefinito: false
nanValue

Tipo: String

Rappresentazione di stringa di un valore non numerico durante l'analisi e DoubleType le FloatType colonne.

Valore predefinito: "NaN"
negativeInf

Tipo: String

Rappresentazione di stringa dell'infinito negativo durante l'analisi o DoubleType le FloatType colonne.

Valore predefinito: "-Inf"
nullValue

Tipo: String

Rappresentazione di stringa di un valore Null.

Valore predefinito: ""
parserCaseSensitive (deprecato)

Tipo: Boolean

Durante la lettura dei file, se allineare le colonne dichiarate nell'intestazione con la distinzione tra maiuscole e minuscole dello schema. Questa opzione è true per impostazione predefinita per il caricatore automatico. Le colonne che differiscono per caso verranno salvate nel rescuedDataColumn se abilitato. Questa opzione è stata deprecata a favore di readerCaseSensitive.

Valore predefinito: false
positiveInf

Tipo: String

Rappresentazione di stringa dell'infinito positivo durante l'analisi o DoubleType le FloatType colonne.

Valore predefinito: "Inf"
preferDate

Tipo: Boolean

Tenta di dedurre stringhe come date anziché timestamp, quando possibile. È anche necessario usare l'inferenza dello schema, abilitando inferSchema o usando
cloudFiles.inferColumnTypes con caricatore automatico.

Valore predefinito: true
quote

Tipo: Char

Carattere utilizzato per l'escape dei valori in cui il delimitatore di campo fa parte del valore.

Valore predefinito: "
readerCaseSensitive

Tipo: Boolean

Specifica il comportamento di distinzione tra maiuscole e minuscole quando rescuedDataColumn è abilitato. Se true, salvare le colonne di dati i cui nomi differiscono per maiuscole e minuscole rispetto allo schema; in caso contrario, leggere i dati senza distinzione tra maiuscole e minuscole.

Valore predefinito: true
rescuedDataColumn

Tipo: String

Indica se raccogliere tutti i dati che non possono essere analizzati a causa di: mancata corrispondenza del tipo di dati e mancata corrispondenza dello schema (incluse le maiuscole maiuscole) in una colonna separata. Questa colonna è inclusa per impostazione predefinita quando si usa il caricatore automatico. Per altri dettagli, vedere Che cos'è la colonna di dati salvata?.

Valore predefinito: Nessuno
sep oppure delimiter

Tipo: String

Stringa separatore tra le colonne.

Valore predefinito: ","
skipRows

Tipo: Int

Numero di righe dall'inizio del file CSV che devono essere ignorate (incluse le righe commentate e vuote). Se header è true, l'intestazione sarà la prima riga non ignorata e non commentata.

Valore predefinito: 0
timestampFormat

Tipo: String

Formato per l'analisi delle stringhe di timestamp.

Valore predefinito: yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]
timeZone

Tipo: String

Oggetto java.time.ZoneId da utilizzare durante l'analisi di timestamp e date.

Valore predefinito: Nessuno
unescapedQuoteHandling

Tipo: String

Strategia per la gestione delle virgolette senza caratteri di escape. Opzioni consentite:

* STOP_AT_CLOSING_QUOTE: se nell'input vengono trovate virgolette senza caratteri di escape, accumulare il carattere di virgolette e continuare a analizzare il valore come valore tra virgolette, fino a quando non viene trovata una virgoletta di chiusura.
* BACK_TO_DELIMITER: se nell'input vengono trovate virgolette senza caratteri di escape, considerare il valore come valore senza virgolette. In questo modo il parser accumula tutti i caratteri del valore analizzato corrente fino a quando non viene trovato il delimitatore definito da sep . Se non viene trovato alcun delimitatore nel valore, il parser continuerà ad accumulare caratteri dall'input fino a quando non viene trovato un delimitatore o una terminazione di riga.
* STOP_AT_DELIMITER: se nell'input vengono trovate virgolette senza caratteri di escape, considerare il valore come valore senza virgolette. In questo modo il parser accumula tutti i caratteri fino a quando il delimitatore definito da sepo una fine di riga viene trovata nell'input.
* SKIP_VALUE: se nell'input vengono trovate virgolette senza caratteri di escape, il contenuto analizzato per il valore specificato verrà ignorato (fino a quando non viene trovato il delimitatore successivo) e il valore impostato in nullValue verrà generato.
* RAISE_ERROR: se nell'input vengono trovate virgolette senza caratteri di escape,
TextParsingException verrà generata.

Valore predefinito: STOP_AT_DELIMITER

Opzioni XML

Opzione Descrizione Scope
rowTag Tag di riga dei file XML da considerare come riga. Nell'esempio XML <books> <book><book>...<books>il valore appropriato è book. Si tratta di un'opzione obbligatoria. lettura
samplingRatio Definisce una frazione di righe utilizzate per l'inferenza dello schema. Le funzioni predefinite XML ignorano questa opzione. Impostazione predefinita: 1.0. lettura
excludeAttribute Indica se escludere gli attributi negli elementi. Impostazione predefinita: false. lettura
mode Modalità per gestire i record danneggiati durante l'analisi.

PERMISSIVE: per i record danneggiati, inserisce la stringa in formato non valido in un campo configurato da columnNameOfCorruptRecorde imposta i campi in formato non valido su null. Per mantenere i record danneggiati, è possibile impostare un string campo di tipo denominato columnNameOfCorruptRecord in uno schema definito dall'utente. Se il campo non è presente in uno schema, i record danneggiati vengono eliminati durante l'analisi. Quando si deduce uno schema, il parser aggiunge in modo implicito un columnNameOfCorruptRecord campo in uno schema di output.

DROPMALFORMED: ignora i record danneggiati. Questa modalità non è supportata per le funzioni predefinite XML.

FAILFAST: genera un'eccezione quando il parser soddisfa i record danneggiati.
lettura
inferSchema Se true, tenta di dedurre un tipo appropriato per ogni colonna DataFrame risultante. Se false, tutte le colonne risultanti sono di string tipo . Impostazione predefinita:
true. Le funzioni predefinite XML ignorano questa opzione.
lettura
columnNameOfCorruptRecord Consente di rinominare il nuovo campo contenente una stringa in formato non valido creata da
PERMISSIVE Modalità. Impostazione predefinita: spark.sql.columnNameOfCorruptRecord.
lettura
attributePrefix Prefisso per gli attributi per distinguere gli attributi dagli elementi. Questo sarà il prefisso per i nomi dei campi. Il valore predefinito è _. Può essere vuoto per la lettura del codice XML, ma non per la scrittura. lettura, scrittura
valueTag Tag utilizzato per i dati di tipo carattere all'interno di elementi che dispongono anche di attributi o elementi figlio. L'utente può specificare il valueTag campo nello schema oppure verrà aggiunto automaticamente durante l'inferenza dello schema quando i dati di tipo carattere sono presenti in elementi con altri elementi o attributi. Impostazione predefinita: _VALUE lettura,scrittura
encoding Per la lettura, decodifica i file XML in base al tipo di codifica specificato. Per la scrittura, specifica la codifica (charset) dei file XML salvati. Le funzioni predefinite XML ignorano questa opzione. Impostazione predefinita: UTF-8. lettura, scrittura
ignoreSurroundingSpaces Definisce se gli spazi vuoti circostanti dai valori letti devono essere ignorati. Impostazione predefinita: true. I dati di tipo carattere solo spazi vuoti vengono ignorati. lettura
rowValidationXSDPath Percorso di un file XSD facoltativo utilizzato per convalidare il codice XML per ogni riga singolarmente. Le righe che non riescono a convalidare vengono considerate come gli errori di analisi come sopra. L'XSD non influisce in caso contrario sullo schema fornito o dedotto. lettura
ignoreNamespace Se true, i prefissi degli spazi dei nomi sugli elementi e gli attributi XML vengono ignorati. I tag <abc:author> e <def:author>, ad esempio, vengono considerati come se entrambi siano solo <author>. Gli spazi dei nomi non possono essere ignorati nell'elemento rowTag , ma solo i relativi elementi figlio di lettura. L'analisi XML non è compatibile con lo spazio dei nomi anche se false. Impostazione predefinita: false. lettura
timestampFormat Stringa di formato timestamp personalizzata che segue il formato di modello datetime. Questo vale per timestamp il tipo. Impostazione predefinita: yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]. lettura, scrittura
timestampNTZFormat Stringa di formato personalizzata per timestamp senza fuso orario che segue il formato del modello datetime. Questo vale per il tipo TimestampNTZType. Impostazione predefinita:
yyyy-MM-dd'T'HH:mm:ss[.SSS]
lettura, scrittura
dateFormat Stringa di formato data personalizzata che segue il formato del modello datetime. Questo vale per il tipo di data. Impostazione predefinita: yyyy-MM-dd. lettura, scrittura
locale Imposta le impostazioni locali come tag di lingua in formato IETF BCP 47. Ad esempio, locale viene usato durante l'analisi di date e timestamp. Impostazione predefinita: en-US. lettura
rootTag Tag radice dei file XML. Ad esempio, in <books> <book><book>...</books>il valore appropriato è books. È possibile includere attributi di base specificando un valore come books foo="bar". Impostazione predefinita: ROWS. write
declaration Contenuto della dichiarazione XML da scrivere all'inizio di ogni file XML di output, prima di rootTag. Ad esempio, un valore di foo causa <?xml foo?> la scrittura. Impostare su una stringa vuota da eliminare. Impostazione predefinita: version="1.0"
encoding="UTF-8" standalone="yes".
write
arrayElementName Nome dell'elemento XML che racchiude ogni elemento di una colonna con valori di matrice durante la scrittura. Impostazione predefinita: item. write
nullValue Imposta la rappresentazione di stringa di un valore Null. Impostazione predefinita: stringa null. Quando si tratta di null, il parser non scrive attributi ed elementi per i campi. lettura, scrittura
compression Codice di compressione da usare per il salvataggio nel file. Può trattarsi di uno dei nomi abbreviati senza distinzione tra maiuscole e minuscole note (none, bzip2, gzip, , snappy', and<br>lz4deflate'). Le funzioni predefinite XML ignorano questa opzione. Impostazione predefinita: none. write
validateName Se true, genera un errore in caso di errore di convalida del nome dell'elemento XML. Ad esempio, i nomi dei campi SQL possono avere spazi, ma i nomi degli elementi XML non possono. Impostazione predefinita:
true.
write
readerCaseSensitive Specifica il comportamento di distinzione tra maiuscole e minuscole quando rescuedDataColumn è abilitato. Se true, salvare le colonne di dati i cui nomi differiscono per maiuscole e minuscole rispetto allo schema; in caso contrario, leggere i dati senza distinzione tra maiuscole e minuscole. Impostazione predefinita: true. lettura
rescuedDataColumn Indica se raccogliere tutti i dati che non possono essere analizzati a causa di una mancata corrispondenza del tipo di dati e della mancata corrispondenza dello schema (inclusa la combinazione di maiuscole e minuscole) in una colonna separata. Questa colonna è inclusa per impostazione predefinita quando si usa il caricatore automatico. Per altri dettagli, vedere Che cos'è la colonna di dati salvata?. Impostazione predefinita: Nessuno. lettura

Opzioni PARQUET

Opzione
datetimeRebaseMode

Tipo: String

Controlla la ribasazione dei valori DATE e TIMESTAMP tra i calendari gregoriani Julian e Proleptic. Valori consentiti: EXCEPTION, LEGACYe
CORRECTED.

Valore predefinito: LEGACY
int96RebaseMode

Tipo: String

Controlla la ribasazione dei valori di timestamp INT96 tra i calendari gregoriani Julian e Proleptic. Valori consentiti: EXCEPTION, LEGACYe
CORRECTED.

Valore predefinito: LEGACY
mergeSchema

Tipo: Boolean

Indica se dedurre lo schema tra più file e unire lo schema di ogni file.

Valore predefinito: false
readerCaseSensitive

Tipo: Boolean

Specifica il comportamento di distinzione tra maiuscole e minuscole quando rescuedDataColumn è abilitato. Se true, salvare le colonne di dati i cui nomi differiscono per maiuscole e minuscole rispetto allo schema; in caso contrario, leggere i dati senza distinzione tra maiuscole e minuscole.

Valore predefinito: true
rescuedDataColumn

Tipo: String

Indica se raccogliere tutti i dati che non possono essere analizzati a causa di: mancata corrispondenza del tipo di dati e mancata corrispondenza dello schema (incluse le maiuscole maiuscole) in una colonna separata. Questa colonna è inclusa per impostazione predefinita quando si usa il caricatore automatico. Per altri dettagli, vedere Che cos'è la colonna di dati salvata?.

Valore predefinito: Nessuno

Opzioni AVRO

Opzione
avroSchema

Tipo: String

Schema facoltativo fornito da un utente in formato Avro. Quando si legge Avro, questa opzione può essere impostata su uno schema evoluto, compatibile ma diverso con lo schema Avro effettivo. Lo schema di deserializzazione sarà coerente con lo schema evoluto. Ad esempio, se si imposta uno schema evoluto contenente una colonna aggiuntiva con un valore predefinito, il risultato di lettura conterrà anche la nuova colonna.

Valore predefinito: Nessuno
datetimeRebaseMode

Tipo: String

Controlla la ribasazione dei valori DATE e TIMESTAMP tra i calendari gregoriani Julian e Proleptic. Valori consentiti: EXCEPTION, LEGACYe
CORRECTED.

Valore predefinito: LEGACY
mergeSchema

Tipo: Boolean

Indica se dedurre lo schema tra più file e unire lo schema di ogni file.
mergeSchema per Avro non rilassare i tipi di dati.

Valore predefinito: false
readerCaseSensitive

Tipo: Boolean

Specifica il comportamento di distinzione tra maiuscole e minuscole quando rescuedDataColumn è abilitato. Se true, salvare le colonne di dati i cui nomi differiscono per maiuscole e minuscole rispetto allo schema; in caso contrario, leggere i dati senza distinzione tra maiuscole e minuscole.

Valore predefinito: true
rescuedDataColumn

Tipo: String

Indica se raccogliere tutti i dati che non possono essere analizzati a causa di: mancata corrispondenza del tipo di dati e mancata corrispondenza dello schema (incluse le maiuscole maiuscole) in una colonna separata. Questa colonna è inclusa per impostazione predefinita quando si usa il caricatore automatico. Per altri dettagli, vedere Che cos'è la colonna di dati salvata?.

Valore predefinito: Nessuno

Opzioni BINARYFILE

I file binari non dispongono di opzioni di configurazione aggiuntive.

Opzioni TEXT

Opzione
encoding

Tipo: String

Nome della codifica dei file TEXT. Vedere java.nio.charset.Charset per l'elenco delle opzioni.

Valore predefinito: UTF-8
lineSep

Tipo: String

Stringa tra due record TEXT consecutivi.

Valore predefinito: Nessuno, che copre \r, \r\n e \n
wholeText

Tipo: Boolean

Indica se leggere un file come singolo record.

Valore predefinito: false

Opzioni ORC

Opzione
mergeSchema

Tipo: Boolean

Indica se dedurre lo schema tra più file e unire lo schema di ogni file.

Valore predefinito: false

Opzioni specifiche del cloud

Il caricatore automatico offre diverse opzioni per la configurazione dell'infrastruttura cloud.

Opzioni specifiche di AWS

Specificare l'opzione seguente solo se si sceglie cloudFiles.useNotifications = true e si vuole che il caricatore automatico configuri automaticamente i servizi di notifica:

Opzione
cloudFiles.region

Tipo: String

L'area in cui risiede il bucket S3 di origine e dove verranno creati i servizi AWS SNS e SQS.

Valore predefinito: area dell'istanza EC2.

Specificare l'opzione seguente solo se si sceglie cloudFiles.useNotifications = true e si vuole che il caricatore automatico usi una coda già configurata:

Opzione
cloudFiles.queueUrl

Tipo: String

URL della coda SQS. Se specificato, Il caricatore automatico usa direttamente gli eventi di questa coda invece di configurare i propri servizi AWS SNS e SQS.

Valore predefinito: Nessuno

È possibile usare le opzioni seguenti per fornire le credenziali per accedere a AWS SNS e SQS quando i ruoli IAM non sono disponibili o quando si inseriscono dati da cloud diversi.

Opzione
cloudFiles.awsAccessKey

Tipo: String

ID della chiave di accesso AWS per l'utente. Deve essere fornito con
cloudFiles.awsSecretKey.

Valore predefinito: Nessuno
cloudFiles.awsSecretKey

Tipo: String

Chiave di accesso al segreto AWS per l'utente. Deve essere fornito con
cloudFiles.awsAccessKey.

Valore predefinito: Nessuno
cloudFiles.roleArn

Tipo: String

ARN di un ruolo IAM da assumere. Il ruolo può essere assunto dal profilo dell'istanza del cluster o fornendo credenziali con
cloudFiles.awsAccessKey e cloudFiles.awsSecretKey.

Valore predefinito: Nessuno
cloudFiles.roleExternalId

Tipo: String

Identificatore da specificare mentre si presuppone un ruolo tramite cloudFiles.roleArn.

Valore predefinito: Nessuno
cloudFiles.roleSessionName

Tipo: String

Un nome di sessione facoltativo da usare durante l'assunzione di un ruolo tramite
cloudFiles.roleArn.

Valore predefinito: Nessuno
cloudFiles.stsEndpoint

Tipo: String

Endpoint facoltativo da fornire per l'accesso al servizio token di sicurezza AWS quando si presuppone un ruolo usando cloudFiles.roleArn.

Valore predefinito: Nessuno

Opzioni specifiche di Azure

È necessario specificare i valori per tutte le opzioni seguenti se si specifica cloudFiles.useNotifications = true e si vuole che il caricatore automatico configuri automaticamente i servizi di notifica:

Opzione
cloudFiles.clientId

Tipo: String

ID client o ID applicazione dell'entità servizio.

Valore predefinito: Nessuno
cloudFiles.clientSecret

Tipo: String

Segreto client dell'entità servizio.

Valore predefinito: Nessuno
cloudFiles.connectionString

Tipo: String

Il stringa di connessione per l'account di archiviazione, in base alla chiave di accesso dell'account o alla firma di accesso condiviso.

Valore predefinito: Nessuno
cloudFiles.resourceGroup

Tipo: String

Gruppo di risorse di Azure in cui viene creato l'account di archiviazione.

Valore predefinito: Nessuno
cloudFiles.subscriptionId

Tipo: String

ID sottoscrizione di Azure in cui viene creato il gruppo di risorse.

Valore predefinito: Nessuno
cloudFiles.tenantId

Tipo: String

ID tenant di Azure con cui viene creata l'entità servizio.

Valore predefinito: Nessuno

Importante

La configurazione automatica delle notifiche è disponibile nelle aree di Azure Cina e enti pubblici con Databricks Runtime 9.1 e versioni successive. È necessario fornire un queueName oggetto per usare il caricatore automatico con le notifiche dei file in queste aree per le versioni precedenti di DBR.

Specificare l'opzione seguente solo se si sceglie cloudFiles.useNotifications = true e si vuole che il caricatore automatico usi una coda già configurata:

Opzione
cloudFiles.queueName

Tipo: String

Nome della coda di Azure. Se specificato, l'origine dei file cloud utilizza direttamente gli eventi di questa coda invece di configurare i propri servizi di Griglia di eventi di Azure e accodamento Archiviazione. In tal caso, cloudFiles.connectionString sono necessarie solo autorizzazioni di lettura per la coda.

Valore predefinito: Nessuno

Opzioni specifiche di Google

Il caricatore automatico può configurare automaticamente i servizi di notifica sfruttando gli account del servizio Google. È possibile configurare il cluster per presupporre un account del servizio seguendo la configurazione del servizio Google. Le autorizzazioni necessarie per l'account del servizio sono specificate in Modalità di notifica file del caricatore automatico? In caso contrario, è possibile specificare le opzioni seguenti per l'autenticazione se si vuole che il caricatore automatico configuri automaticamente i servizi di notifica.

Opzione
cloudFiles.client

Tipo: String

ID client dell'account del servizio Google.

Valore predefinito: Nessuno
cloudFiles.clientEmail

Tipo: String

Indirizzo di posta elettronica dell'account del servizio Google.

Valore predefinito: Nessuno
cloudFiles.privateKey

Tipo: String

Chiave privata generata per l'account del servizio Google.

Valore predefinito: Nessuno
cloudFiles.privateKeyId

Tipo: String

ID della chiave privata generata per l'account del servizio Google.

Valore predefinito: Nessuno
cloudFiles.projectId

Tipo: String

ID del progetto in cui si trova il bucket GCS. Anche la sottoscrizione di Google Cloud Pub/Sub verrà creata all'interno di questo progetto.

Valore predefinito: Nessuno

Specificare l'opzione seguente solo se si sceglie cloudFiles.useNotifications = true e si vuole che il caricatore automatico usi una coda già configurata:

Opzione
cloudFiles.subscription

Tipo: String

Nome della sottoscrizione Google Cloud Pub/Sub. Se specificato, l'origine dei file cloud utilizza gli eventi di questa coda invece di configurare i propri servizi GCS Notification e Google Cloud Pub/Sub.

Valore predefinito: Nessuno