Share via


Optionen für den Autoloader

Spezifischen Konfigurationsoptionen für die cloudFiles-Quelle wird das Präfix cloudFiles vorangestellt, sodass sie sich in einem separaten, von anderen Quellenoptionen für strukturiertes Streaming getrennten Namespace befinden.

Allgemeine Optionen für den Autoloader

Sie können die folgenden Optionen für den Verzeichnisauflistungs- oder Dateibenachrichtigungsmodus konfigurieren.

Option
cloudFiles.allowOverwrites

Typ: Boolean

Gibt an, ob Änderungen der Eingabeverzeichnisdatei zum Überschreiben vorhandener Daten zulässig sind.

Es gibt einige Einschränkungen beim Aktivieren dieser Konfiguration. Weitere Informationen finden Sie unter Häufig gestellte Fragen zu Autoloader.

Standardwert: false
cloudFiles.backfillInterval

Typ: Interval String

Der Autoloader kann in bestimmten Intervallen einen asynchronen Abgleich auslösen,
z. B. 1 day zum Abgleich einmal pro Tag oder 1 week zum Abgleich einmal pro Woche. Benachrichtigungssysteme für Dateiereignisse garantieren keine hundertprozentige Zustellung aller hochgeladenen Dateien. Daher können Sie mithilfe eines Abgleichs sicherstellen, dass alle Dateien verarbeitet werden. Diese Funktion ist ab Databricks Runtime 8.4 (nicht unterstützt) verfügbar.

Standardwert: None
cloudFiles.format

Typ: String

Das Datendateiformat im Quellpfad. Zulässige Werte sind:

* avro: Avro-Datei
* binaryFile: Binärdatei
* csv: Lesen von und Schreiben in CSV-Dateien
* json: JSON-Datei
* orc: ORC-Datei
* parquet: Lesen von Parquet-Dateien mit Azure Databricks
* text: Textdatei

Standardwert: Keiner (erforderliche Option)
cloudFiles.includeExistingFiles

Typ: Boolean

Gibt an, ob vorhandene Dateien in den Eingabepfad für die Streamverarbeitung einbezogen werden, oder ob nur neue Dateien verarbeitet werden sollen, die nach der Ersteinrichtung eingehen. Diese Option wird nur ausgewertet, wenn Sie einen Stream zum ersten Mal starten. Das Ändern dieser Option nach dem Neustart des Streams hat keine Auswirkungen.

Standardwert: true
cloudFiles.inferColumnTypes

Typ: Boolean

Gibt an, ob exakte Spaltentypen abgeleitet werden sollen, wenn der Schemarückschluss verwendet wird. Standardmäßig werden Spalten als Zeichenfolgen abgeleitet, wenn JSON- und CSV-Datasets abgeleitet werden. Weitere Informationen finden Sie unter Schemarückschluss.

Standardwert: false
cloudFiles.maxBytesPerTrigger

Typ: Byte String

Die maximale Anzahl neuer Bytes, die in jedem Trigger verarbeitet werden sollen. Sie können eine Bytezeichenfolge wie z. B. 10g angeben, um jeden Microbatch auf 10 GB Daten zu beschränken. Dies ist ein weicher Maximalwert. Wenn Sie über Dateien mit jeweils 3 GB verfügen, verarbeitet Azure Databricks 12 GB in einem Microbatch. Bei Verwendung in Kombination mit cloudFiles.maxFilesPerTrigger steigt der Verbrauch von Azure Databricks bis zur Untergrenze von cloudFiles.maxFilesPerTrigger oder cloudFiles.maxBytesPerTrigger, je nachdem, welcher Wert zuerst erreicht wird. Diese Option hat keine Auswirkung, wenn sie mit Trigger.Once() (veraltet) verwendet wird.

Standardwert: None
cloudFiles.maxFileAge

Typ: Interval String

Gibt an, wie lange ein Dateiereignis zu Deduplizierungszwecken nachverfolgt wird. Databricks empfiehlt, diesen Parameter nur dann anzupassen, wenn Sie Daten in einer Größenordnung von mehreren Millionen Dateien pro Stunde erfassen. Weitere Informationen finden Sie im Abschnitt zur Ereignisaufbewahrung.

Eine zu aggressive Optimierung von cloudFiles.maxFileAge kann zu Problemen mit der Datenqualität führen, z. B. zu doppelter Erfassung oder fehlenden Dateien. Daher empfiehlt Databricks eine konservative Einstellung für cloudFiles.maxFileAge, z. B. 90 Tage. Dies entspricht ungefähr der Empfehlung vergleichbarer Datenerfassungslösungen.

Standardwert: None
cloudFiles.maxFilesPerTrigger

Typ: Integer

Die maximale Anzahl neuer Dateien, die in jedem Trigger verarbeitet werden sollen. Bei Verwendung in Kombination mit cloudFiles.maxBytesPerTrigger steigt der Verbrauch von Azure Databricks bis zur Untergrenze von cloudFiles.maxFilesPerTrigger oder cloudFiles.maxBytesPerTrigger, je nachdem, welcher Wert zuerst erreicht wird. Diese Option hat keine Auswirkung, wenn sie mit Trigger.Once() (veraltet) verwendet wird.

Standardwert: 1000
cloudFiles.partitionColumns

Typ: String

Eine durch Komma getrennte Liste von Partitionsspalten im Hive-Stil, die aus der Verzeichnisstruktur der Dateien abgeleitet werden sollen. Partitionsspalten im Hive-Stil sind Schlüssel-Wert-Paare, die durch ein Gleichheitszeichen wie kombiniert werden.
<base-path>/a=x/b=1/c=y/file.format. In diesem Beispiel sind die Partitionsspalten a, bund c. Standardmäßig werden diese Spalten automatisch zu Ihrem Schema hinzugefügt, wenn Sie die Schema-Inferenz verwenden und den <base-path> zum Laden der Daten angeben. Wenn Sie ein Schema bereitstellen, erwartet Autoloader, dass diese Spalten im Schema enthalten sind. Wenn Sie diese Spalten nicht als Teil des Schemas verwenden möchten, können Sie angeben, dass "" diese Spalten ignoriert. Darüber hinaus können Sie diese Option verwenden, wenn Spalten den Dateipfad in komplexen Verzeichnisstrukturen wie im folgenden Beispiel abgeleitet werden sollen:

<base-path>/year=2022/week=1/file1.csv
<base-path>/year=2022/month=2/day=3/file2.csv
<base-path>/year=2022/month=2/day=4/file3.csv

Die Angabe von cloudFiles.partitionColumns als year,month,day gibt zurück
year=2022 für file1.csv, aber die Spalten month und day sind null.
month und day werden ordnungsgemäß für file2.csv und file3.csv analysiert.

Standardwert: None
cloudFiles.schemaEvolutionMode

Typ: String

Der Modus zum Weiterentwickeln des Schemas, wenn neue Spalten in den Daten ermittelt werden. Standardmäßig werden Spalten als Zeichenfolgen abgeleitet, wenn JSON-Datasets abgeleitet werden. Weitere Informationen finden Sie unter Schemaentwicklung.

Standardwert: "addNewColumns", wenn kein Schema bereitgestellt wird.
Andernfalls "none".
cloudFiles.schemaHints

Typ: String

Schemainformationen, die Sie dem Autoloader während des Schemarückschlusses bereitstellen. Weitere Informationen finden Sie unter Schemahinweise.

Standardwert: None
cloudFiles.schemaLocation

Typ: String

Der Speicherort, an dem das abgeleitete Schema und nachfolgende Änderungen gespeichert werden. Weitere Informationen finden Sie unter Schemarückschluss.

Standardwert: Keiner (erforderlich, wenn das Schema abgeleitet wird)
cloudFiles.useStrictGlobber

Typ: Boolean

Gibt an, ob ein strenger Globber verwendet werden soll, der dem Standard-Globbingverhalten anderer Dateiquellen in Apache Spark entspricht. Ausführlichere Informationen finden Sie unter Allgemeine Muster zum Laden von Daten. Verfügbar in Databricks Runtime 12.2 LTS und höher.

Standardwert: false
cloudFiles.validateOptions

Typ: Boolean

Gibt an, ob die Autoloader-Optionen überprüft werden und ob bei unbekannten oder inkonsistenten Optionen ein Fehler ausgegeben werden soll.

Standardwert: true

Optionen für die Verzeichnisauflistung

Die folgenden Optionen sind für den Verzeichnisauflistungsmodus relevant.

Option
cloudFiles.useIncrementalListing (veraltet)

Typ: String

Diese Funktion wurde eingestellt. Databricks empfiehlt die Verwendung des Dateibenachrichtigungsmodus anstelle von
cloudFiles.useIncrementalListing.

Gibt an, ob im Verzeichnisauflistungsmodus anstelle der vollständigen Auflistung die inkrementelle Auflistung verwendet werden soll. Standardmäßig versucht der Autoloader, automatisch zu ermitteln, ob ein bestimmtes Verzeichnis für die inkrementelle Auflistung geeignet ist. Sie können explizit die inkrementelle Auflistung oder die vollständige Verzeichnisauflistung verwenden, indem Sie den Wert true bzw. false festlegen.

Eine nicht ordnungsgemäße Aktivierung der inkrementellen Auflistung in einem nicht lexikalisch sortierten Verzeichnis verhindert, dass der Autoloader neue Dateien erkennt.

Funktioniert mit Azure Data Lake Storage Gen2 (abfss://), S3 (s3://) und GCS (gs://).

Verfügbar in Databricks Runtime 9.1 LTS und höheren Versionen.

Standardwert: auto

Verfügbare Werte: auto, true, false

Dateibenachrichtigungsoptionen

Die folgenden Optionen sind für den Dateibenachrichtigungsmodus relevant.

Option
cloudFiles.fetchParallelism

Typ: Integer

Die Anzahl von Threads, die beim Abrufen von Nachrichten aus dem Warteschlangendienst verwendet werden sollen.

Standardwert: 1
cloudFiles.pathRewrites

Typ: Eine JSON-Zeichenfolge

Wird nur benötigt, wenn Sie eine queueUrl angeben, die Dateibenachrichtigungen von mehreren S3-Buckets empfängt und Sie Bereitstellungspunkte nutzen möchten, die für den Zugriff auf Daten in diesen Containern konfiguriert sind. Verwenden Sie diese Option, um das Präfix des bucket/key-Pfads mit dem Bereitstellungspunkt umzuschreiben. Nur Präfixe können umgeschrieben werden. Beispielsweise wird für die Konfiguration
{"<databricks-mounted-bucket>/path": "dbfs:/mnt/data-warehouse"} der Pfad
s3://<databricks-mounted-bucket>/path/2017/08/fileA.json in dbfs:/mnt/data-warehouse/2017/08/fileA.json umgeschrieben.

Standardwert: None
cloudFiles.resourceTag

Typ: Map(String, String)

Eine Reihe von Schlüssel-Wert-Tagpaaren zum Zuordnen und Identifizieren verwandter Ressourcen. Beispiel:

cloudFiles.option("cloudFiles.resourceTag.myFirstKey", "myFirstValue")
.option("cloudFiles.resourceTag.mySecondKey", "mySecondValue")

Weitere Informationen zu AWS finden Sie unter Amazon SQS-Kostenzuteilungstags und Konfigurieren von Tags für ein Amazon SNS-Thema. (1)

Weitere Informationen zu Azure finden Sie unter Benennen von Warteschlangen und Metadaten und in der Erläuterung von properties.labels in Ereignisabonnements. Der Autoloader speichert diese Schlüssel-Wert-Tagpaare in JSON als Bezeichnungen. (1)

Weitere Informationen zu GCP finden Sie unter Melden der Verwendung mit Bezeichnungen. (1)

Standardwert: None
cloudFiles.useNotifications

Typ: Boolean

Gibt an, ob mithilfe des Dateibenachrichtigungsmodus bestimmt werden soll, ob neue Dateien verfügbar sind. Bei einer Festlegung auf false wird der Verzeichnisauflistungsmodus verwendet. Weitere Informationen finden Sie unter Funktionsweise des Autoloaders.

Standardwert: false

(1) Der Autoloader fügt standardmäßig die folgenden Schlüssel-Wert-Tagpaare nach bestem Bemühen hinzu:

  • vendor: Databricks
  • path: Der Speicherort, von dem aus die Daten geladen werden. In GCP aufgrund von Bezeichnungseinschränkungen nicht verfügbar.
  • checkpointLocation: Der Speicherort für den Prüfpunkt des Streams. In GCP aufgrund von Bezeichnungseinschränkungen nicht verfügbar.
  • streamId: Ein global eindeutiger Bezeichner für den Stream.

Diese Schlüsselnamen sind reserviert, und Sie können ihre Werte nicht überschreiben.

Dateiformatoptionen

Mit dem Autoloader können Sie JSON-, CSV-, PARQUET-, AVRO-, TEXT-, BINARYFILE- und ORC-Dateien erfassen.

Generische Optionen

Die folgenden Optionen gelten für alle Dateiformate.

Option
ignoreCorruptFiles

Typ: Boolean

Gibt an, ob beschädigte Dateien ignoriert werden sollen. Bei TRUE werden die Spark-Aufträge weiterhin ausgeführt, wenn beschädigte Dateien festgestellt werden, und gelesene Inhalte werden weiterhin zurückgegeben. Beobachtbar wie numSkippedCorruptFiles in der
operationMetrics-Spalte des Delta Lake-Verlaufs. Verfügbar in Databricks Runtime 11.3 LTS und höher.

Standardwert: false
ignoreMissingFiles

Typ: Boolean

Gibt an, ob fehlende Dateien ignoriert werden sollen. Bei TRUE werden die Spark-Aufträge weiterhin ausgeführt, wenn fehlende Dateien festgestellt werden, und gelesene Inhalte werden weiterhin zurückgegeben. Verfügbar in Databricks Runtime 11.3 LTS und höher.

Standardwert: false (true für COPY INTO)
modifiedAfter

Typ: Timestamp String, z. B. 2021-01-01 00:00:00.000000 UTC+0

Ein optionaler Zeitstempel zum Erfassen von Dateien mit einem Änderungszeitstempel nach dem angegebenen Zeitstempel.

Standardwert: None
modifiedBefore

Typ: Timestamp String, z. B. 2021-01-01 00:00:00.000000 UTC+0

Ein optionaler Zeitstempel zum Erfassen von Dateien mit einem Änderungszeitstempel vor dem angegebenen Zeitstempel.

Standardwert: None
pathGlobFilter oder fileNamePattern

Typ: String

Ein mögliches Globmuster für die Auswahl von Dateien. Entspricht
PATTERN in COPY INTO. fileNamePattern kann in read_files verwendet werden.

Standardwert: None
recursiveFileLookup

Typ: Boolean

Gibt an, ob die Ableitung der Partition während des Schemarückschließens übersprungen werden soll. Dies hat keinen Einfluss darauf, welche Dateien geladen werden.

Standardwert: false

JSON-Optionen

Option
allowBackslashEscapingAnyCharacter

Typ: Boolean

Gibt an, ob umgekehrte Schrägstriche als Escapezeichen für das folgende Zeichen zugelassen werden sollen. Wenn diese Option nicht aktiviert ist, können nur Zeichen mit Escapezeichen versehen werden, die explizit in der JSON-Spezifikation aufgeführt werden.

Standardwert: false
allowComments

Typ: Boolean

Gibt an, ob die Verwendung von Java-, C- und C++-Kommentaren ('/', '*' bzw. '//') in analysierten Inhalten zugelassen werden soll oder nicht.

Standardwert: false
allowNonNumericNumbers

Typ: Boolean

Gibt an, ob die Menge der NaN-Token (Not-a-Number) als zulässige Gleitkommazahlenwerte zugelassen werden soll.

Standardwert: true
allowNumericLeadingZeros

Typ: Boolean

Gibt an, ob ganze Zahlen mit zusätzlichen (zu ignorierenden) Nullen beginnen sollen (z. B. 000001).

Standardwert: false
allowSingleQuotes

Typ: Boolean

Gibt an, ob die Verwendung von einfachen Anführungszeichen (Apostroph, Zeichen '\') als Anführungszeichen für Zeichenfolgen (Namen und Zeichenfolgenwerte) zugelassen werden soll.

Standardwert: true
allowUnquotedControlChars

Typ: Boolean

Gibt an, ob JSON-Zeichenfolgen Steuerzeichen ohne Escapezeichen (ASCII-Zeichen mit einem Wert kleiner als 32, z. B. Tabstopp- und Zeilenvorschubzeichen) enthalten dürfen.

Standardwert: false
allowUnquotedFieldNames

Typ: Boolean

Gibt an, ob die Verwendung von Feldnamen ohne Anführungszeichen zugelassen werden soll (die von JavaScript, aber nicht von der JSON-Spezifikation zugelassen werden).

Standardwert: false
badRecordsPath

Typ: String

Der Pfad zum Speichern von Dateien zum Aufzeichnen der Informationen für fehlerhafte JSON-Datensätze.

Standardwert: None
columnNameOfCorruptRecord

Typ: String

Die Spalte zum Speichern von Datensätzen, die fehlerhaft formatiert sind und nicht analysiert werden können. Wenn mode für die Analyse auf DROPMALFORMED festgelegt ist, ist diese Spalte leer.

Standardwert: _corrupt_record
dateFormat

Typ: String

Das Format für die Analyse von Datumszeichenfolgen.

Standardwert: yyyy-MM-dd
dropFieldIfAllNull

Typ: Boolean

Gibt an, ob Spalten beim Schemarückschluss ignoriert werden sollen, die nur NULL-Werte oder leere Arrays bzw. Strukturen enthalten.

Standardwert: false
encoding oder charset

Typ: String

Der Name der Codierung der JSON-Dateien. Eine Liste der Optionen finden Sie unter java.nio.charset.Charset. Sie können UTF-16 und UTF-32 nicht verwenden, wenn multilinetrue ist.

Standardwert: UTF-8
inferTimestamp

Typ: Boolean

Gibt an, ob versucht werden soll, Zeitstempelzeichenfolgen als TimestampType abzuleiten. Wenn festgelegt auf
true, der Schemarückschluss kann deutlich länger dauern. Für die Verwendung mit dem Autoloader müssen Sie cloudFiles.inferColumnTypes aktivieren.

Standardwert: false
lineSep

Typ: String

Eine Zeichenfolge zwischen zwei aufeinander folgenden JSON-Datensätzen.

Standardwert: ohne (deckt \r, \r\n und \n ab)
locale

Typ: String

Ein java.util.Locale-Bezeichner. Beeinflusst die standardmäßige Analyse von Datumsangaben, Zeitstempeln und Dezimalzahlen im JSON-Code.

Standardwert: US
mode

Typ: String

Parsermodus für die Verarbeitung fehlerhaft formatierter Datensätze. Einer der folgenden Werte: 'PERMISSIVE',
'DROPMALFORMED' oder 'FAILFAST'.

Standardwert: PERMISSIVE
multiLine

Typ: Boolean

Gibt an, ob die JSON-Datensätze mehrere Zeilen umfassen.

Standardwert: false
prefersDecimal

Typ: Boolean

Versucht, Zeichenfolgen nach Möglichkeit als DecimalType abzuleiten, nicht als float- oder double-Typ. Sie müssen auch den Schemarückschluss verwenden, indem Sie entweder
inferSchema aktivieren oder cloudFiles.inferColumnTypes mit dem Autoloader verwenden.

Standardwert: false
primitivesAsString

Typ: Boolean

Gibt an, ob primitive Typen wie Zahlen und boolesche Werte als StringType abgeleitet werden sollen.

Standardwert: false
readerCaseSensitive

Typ: Boolean

Diese Option gibt das Verhalten bei Groß- und Kleinschreibung an, wenn rescuedDataColumn aktiviert ist. Bei „True“ werden die Datenspalten wiederhergestellt, deren Namen in Bezug auf Groß- und Kleinschreibung vom Schema abweichen. Andernfalls werden die Daten ohne Beachtung der Groß- und Kleinschreibung gelesen. Verfügbar in Databricks Runtime
13.3 und höher.

Standardwert: true
rescuedDataColumn

Typ: String

Gibt an, ob alle Daten, die aufgrund eines Datentypkonflikts oder Schemakonflikts (einschließlich Spaltenschreibweise) nicht analysiert werden können, in einer separaten Spalte erfasst werden sollen. Diese Spalte ist bei Verwendung des Autoloaders standardmäßig enthalten. Weitere Informationen finden Sie unter Was ist die Spalte „rescued data“ (gerettete Daten)?.

Standardwert: None
timestampFormat

Typ: String

Das Format zum Analysieren von Zeitstempelzeichenfolgen.

Standardwert: yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]
timeZone

Typ: String

Die java.time.ZoneId, die beim Analysieren von Zeitstempeln und Datumsangaben verwendet werden soll.

Standardwert: None

CSV-Optionen

Option
badRecordsPath

Typ: String

Der Pfad zum Speichern von Dateien zum Aufzeichnen der Informationen für fehlerhafte CSV-Datensätze.

Standardwert: None
charToEscapeQuoteEscaping

Typ: Char

Das Zeichen, das als Escapezeichen für das Zeichen verwendet wird, das als Escapezeichen für Anführungszeichen verwendet wird, z. B. für den Datensatz [ " a\\", b ]:

* Wenn das Escapezeichen für '\' nicht definiert ist, wird der Datensatz nicht analysiert. Der Parser liest die Zeichen [a],[\],["],[,],[ ],[b] und löst einen Fehler aus, da kein schließendes Anführungszeichen gefunden wird.
* Wenn das Escapezeichen für '\' als '\' definiert ist, wird der Datensatz mit zwei Werten gelesen: [a\] und [b].

Standardwert: '\0'
columnNameOfCorruptRecord

> [! HINWEIS] >> für Autoloader unterstützt. Wird für COPY INTO nicht unterstützt.

Typ: String

Die Spalte zum Speichern von Datensätzen, die fehlerhaft formatiert sind und nicht analysiert werden können. Wenn mode für die Analyse auf DROPMALFORMED festgelegt ist, ist diese Spalte leer.

Standardwert: _corrupt_record
comment

Typ: Char

Definiert das Zeichen, das einen Zeilenkommentar darstellt, wenn es am Anfang einer Textzeile steht. Verwenden Sie '\0', um das Überspringen von Kommentaren zu deaktivieren.

Standardwert: '\u0000'
dateFormat

Typ: String

Das Format für die Analyse von Datumszeichenfolgen.

Standardwert: yyyy-MM-dd
emptyValue

Typ: String

Zeichenfolgendarstellung eines leeren Werts.

Standardwert: ""
encoding oder charset

Typ: String

Der Name der Codierung der CSV-Dateien. Eine Liste der Optionen finden Sie unter java.nio.charset.Charset. UTF-16 und UTF-32 können nicht verwendet werden, wenn multiline ist true.

Standardwert: UTF-8
enforceSchema

Typ: Boolean

Gibt an, ob das angegebene oder abgeleitete Schema zwangsweise auf die CSV-Dateien angewendet werden soll. Wenn die Option aktiviert ist, werden Kopfzeilen von CSV-Dateien ignoriert. Diese Option wird standardmäßig ignoriert, wenn der Autoloader verwendet wird, um Daten zu retten und die Schemaentwicklung zu ermöglichen.

Standardwert: true
escape

Typ: Char

Das Escapezeichen, das beim Analysieren der Daten verwendet werden soll.

Standardwert: '\'
header

Typ: Boolean

Gibt an, ob die CSV-Dateien ein Kopfzeile enthalten. Der Autoloader geht bei der Schemaableitung davon aus, dass Dateien Kopfzeilen enthalten.

Standardwert: false
ignoreLeadingWhiteSpace

Typ: Boolean

Gibt an, ob führende Leerzeichen für einzelne analysierte Werte ignoriert werden sollen.

Standardwert: false
ignoreTrailingWhiteSpace

Typ: Boolean

Gibt an, ob nachstehende Leerzeichen für einzelne analysierte Werte ignoriert werden sollen.

Standardwert: false
inferSchema

Typ: Boolean

Gibt an, ob die Datentypen der analysierten CSV-Datensätze abgeleitet werden sollen oder angenommen werden soll, dass alle Spalten den Typ StringType aufweisen. Bei Festlegung auf true ist eine zusätzliche Übergabe der Daten erforderlich. Verwenden Sie für den Autoloader stattdessen cloudFiles.inferColumnTypes.

Standardwert: false
lineSep

Typ: String

Eine Zeichenfolge zwischen zwei aufeinander folgenden CSV-Datensätzen.

Standardwert: ohne (deckt \r, \r\n und \n ab)
locale

Typ: String

Ein java.util.Locale-Bezeichner. Beeinflusst die standardmäßige Analyse von Datumsangaben, Zeitstempeln und Dezimalzahlen in der CSV-Datei.

Standardwert: US
maxCharsPerColumn

Typ: Int

Maximale Anzahl von Zeichen, die von einem zu analysierenden Wert erwartet werden. Kann verwendet werden, um Speicherfehler zu vermeiden. Der Standardwert ist -1, d. h. unbegrenzt.

Standardwert: -1
maxColumns

Typ: Int

Der absolute Höchstwert für die Anzahl der Spalten, die ein Datensatz enthalten kann.

Standardwert: 20480
mergeSchema

Typ: Boolean

Gibt an, ob das Schema über mehrere Dateien hinweg abgeleitet und das Schema der einzelnen Dateien zusammengeführt werden soll. Standardmäßig für Autoloader aktiviert, wenn das Schema abgeleitet wird.

Standardwert: false
mode

Typ: String

Parsermodus für die Verarbeitung fehlerhaft formatierter Datensätze. Einer der folgenden Werte: 'PERMISSIVE',
'DROPMALFORMED' und 'FAILFAST'.

Standardwert: PERMISSIVE
multiLine

Typ: Boolean

Gibt an, ob die CSV-Datensätze mehrere Zeilen umfassen.

Standardwert: false
nanValue

Typ: String

Die Zeichenfolgendarstellung eines NaN-Werts, wenn FloatType- und DoubleType-Spalten verwendet werden.

Standardwert: "NaN"
negativeInf

Typ: String

Die Zeichenfolgendarstellung von negativ Unendlich, wenn FloatType- und DoubleType-Spalten verwendet werden.

Standardwert: "-Inf"
nullValue

Typ: String

Zeichenfolgendarstellung eines NULL-Werts.

Standardwert: ""
parserCaseSensitive (veraltet)

Typ: Boolean

Gibt beim Lesen von Dateien an, ob Spalten, die in der Kopfzeile deklariert sind, unter Berücksichtigung der Groß-/Kleinschreibung am Schema angepasst werden sollen. Diese Option ist für den Autoloader standardmäßig true. Spalten, deren Groß-/Kleinschreibung abweicht, werden in die rescuedDataColumn-Spalte gerettet (sofern aktiviert). Diese Option wurde durch readerCaseSensitive ersetzt und gilt als veraltet.

Standardwert: false
positiveInf

Typ: String

Die Zeichenfolgendarstellung von positiv Unendlich, wenn FloatType- und DoubleType-Spalten verwendet werden.

Standardwert: "Inf"
preferDate

Typ: Boolean

Versucht, Zeichenfolgen nach Möglichkeit als Datumsangaben abzuleiten, nicht als Zeitstempel. Sie müssen auch den Schemarückschluss verwenden, indem Sie entweder inferSchema aktivieren oder
cloudFiles.inferColumnTypes mit dem Autoloader verwenden.

Standardwert: true
quote

Typ: Char

Das Zeichen, das als Escapezeichen für Werte verwendet wird, bei denen das Feldtrennzeichen Bestandteil des Werts ist.

Standardwert: "
readerCaseSensitive

Typ: Boolean

Diese Option gibt das Verhalten bei Groß- und Kleinschreibung an, wenn rescuedDataColumn aktiviert ist. Bei „True“ werden die Datenspalten wiederhergestellt, deren Namen in Bezug auf Groß- und Kleinschreibung vom Schema abweichen. Andernfalls werden die Daten ohne Beachtung der Groß- und Kleinschreibung gelesen.

Standardwert: true
rescuedDataColumn

Typ: String

Gibt an, ob alle Daten, die aufgrund eines Datentypkonflikts oder Schemakonflikts (einschließlich Spaltenschreibweise) nicht analysiert werden können, in einer separaten Spalte erfasst werden sollen. Diese Spalte ist bei Verwendung des Autoloaders standardmäßig enthalten. Weitere Informationen finden Sie unter Was ist die Spalte „rescued data“ (gerettete Daten)?.

Standardwert: None
sep oder delimiter

Typ: String

Die Trennzeichenfolge zwischen Spalten.

Standardwert: ","
skipRows

Typ: Int

Die Anzahl der Zeilen vom Anfang der CSV-Datei, die ignoriert werden sollen (einschließlich auskommentierter und leerer Zeilen). Wenn header „True“ ist, ist die Kopfzeile die erste nicht übersprungene und nicht auskommentierte Zeile.

Standardwert: 0
timestampFormat

Typ: String

Das Format zum Analysieren von Zeitstempelzeichenfolgen.

Standardwert: yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]
timeZone

Typ: String

Die java.time.ZoneId, die beim Analysieren von Zeitstempeln und Datumsangaben verwendet werden soll.

Standardwert: None
unescapedQuoteHandling

Typ: String

Die Strategie für die Behandlung von Anführungszeichen ohne Escapezeichen. Zulässige Optionen:

* STOP_AT_CLOSING_QUOTE: Wenn in der Eingabe Anführungszeichen ohne Escapezeichen erkannt werden, wird das Anführungszeichen akkumuliert und der Wert als Anführungszeichenwert analysiert, bis ein schließendes Anführungszeichen gefunden wird.
* BACK_TO_DELIMITER: Wenn in der Eingabe Anführungszeichen ohne Escapezeichen erkannt werden, wird der Wert als ein Wert ohne Anführungszeichen betrachtet. Der Parser akkumuliert dann alle Zeichen des aktuellen analysierten Werts, bis das von sep definierte Trennzeichen gefunden wird. Wenn im Wert kein Trennzeichen gefunden wird, akkumuliert der Parser weiter Zeichen aus der Eingabe, bis ein Trennzeichen oder Zeilenende gefunden wird.
* STOP_AT_DELIMITER: Wenn in der Eingabe Anführungszeichen ohne Escapezeichen erkannt werden, wird der Wert als ein Wert ohne Anführungszeichen betrachtet. Dadurch wird der Parser veranlasst, alle Zeichen zu akkumulieren, bis das durch sep definierte Trennzeichen oder ein Zeilenende in der Eingabe gefunden wird.
* SKIP_VALUE: Wenn in der Eingabe Anführungszeichen ohne Escapezeichen gefunden werden, wird der Inhalt, der für den angegebenen Wert geparst wurde, übersprungen (bis das nächste Trennzeichen gefunden wird) und stattdessen wird der in nullValue angegebene Wert erzeugt.
* RAISE_ERROR: Wenn in der Eingabe Anführungszeichen ohne Escapezeichen erkannt werden, wird eine
TextParsingException ausgelöst.

Standardwert: STOP_AT_DELIMITER

XML-Optionen

Option BESCHREIBUNG Bereich
rowTag Das Zeilentag der XML-Dateien, die als Zeile behandelt werden sollen. Im XML-Beispiel <books> <book><book>...<books> ist der entsprechende Wert book. Diese Option muss angegeben werden. Lesen
samplingRatio Definiert einen Bruchteil der Zeilen, die für den Schemarückschluss verwendet werden. Diese Option wird von integrierten XML-Funktionen ignoriert. Standardwert: 1.0. Lesen
excludeAttribute Gibt an, ob Attribute in Elementen ausgeschlossen werden sollen. Standardwert: false. Lesen
mode Modus für den Umgang mit beschädigten Datensätzen beim Parsen.

PERMISSIVE: Fügt bei beschädigten Datensätzen die nicht wohlgeformte Zeichenfolge in ein durch columnNameOfCorruptRecord konfiguriertes Feld ein und legt nicht wohlgeformte Felder auf null fest. Um beschädigte Datensätze beizubehalten, können Sie in einem benutzerdefinierten Schema ein Feld des Typs string mit dem Namen columnNameOfCorruptRecord festlegen. Wenn ein Schema nicht über das Feld verfügt, werden beschädigte Datensätze beim Parsen gelöscht. Beim Rückschließen eines Schemas fügt der Parser in einem Ausgabeschema ein columnNameOfCorruptRecord-Feld implizit hinzu.

DROPMALFORMED: Ignoriert beschädigte Datensätze. Dieser Modus wird für integrierte XML-Funktionen nicht unterstützt.

FAILFAST: Löst eine Ausnahme aus, wenn der Parser beschädigte Datensätze erkennt.
Lesen
inferSchema Versucht bei true, einen geeigneten Typ für jede resultierende DataFrame-Spalte abzuleiten. Bei false weisen alle resultierenden Spalten den Typ string auf. Standardwert:
true. Diese Option wird von integrierten XML-Funktionen ignoriert.
Lesen
columnNameOfCorruptRecord Ermöglicht das Umbenennen des neuen Felds, das eine nicht wohlgeformte Zeichenfolge enthält, die durch
den PERMISSIVE-Modus erzeugt wurde. Standardwert: spark.sql.columnNameOfCorruptRecord.
Lesen
attributePrefix Das Präfix für Attribute, um Attribute von Elementen zu unterscheiden. Dies wird das Präfix für Feldnamen sein. Der Standardwert ist _. Kann zum Lesen von XML-Code leer sein, jedoch nicht zum Schreiben. Lesen und Schreiben
valueTag Das Tag, das für die Zeichendaten in Elementen verwendet wird, die ebenfalls Attribute oder untergeordnete Elemente enthalten. Benutzer können das valueTag-Feld im Schema angeben. Andernfalls wird es beim Schemarückschluss automatisch hinzugefügt, wenn Zeichendaten in Elementen mit anderen Elementen oder Attributen vorhanden sind. Standard: _VALUE Lesen und Schreiben
encoding Decodieren Sie zum Lesen die XML-Dateien durch den angegebenen Codierungstyp. Gibt zum Schreiben die Codierung (Zeichensatz) gespeicherter XML-Dateien an. Diese Option wird von integrierten XML-Funktionen ignoriert. Standardwert: UTF-8. Lesen und Schreiben
ignoreSurroundingSpaces Definiert, ob umgebende Leerzeichen von zu lesenden Werten übersprungen werden sollen. Standardwert: true. Zeichendaten, die ausschließlich aus Leerzeichen bestehen, werden ignoriert. Lesen
rowValidationXSDPath Pfad zu einer optionalen XSD-Datei, die verwendet wird, um den XML-Code für jede Zeile einzeln zu überprüfen. Zeilen, die nicht validiert werden können, werden wie oben beschrieben als Parse-Fehler behandelt. Die XSD wirkt sich nicht anderweitig auf das bereitgestellte oder abgeleitete Schema aus. Lesen
ignoreNamespace Bei true werden Namespacepräfixe bei XML-Elementen und -Attributen ignoriert. Die Tags <abc:author> und <def:author> werden beispielsweise so behandelt werden, als wären beide lediglich <author>. Namespaces können für das rowTag-Element nicht ignoriert werden. Das ist lediglich für sein untergeordnetes Element möglich, das gelesen werden soll. Das XML-Parsing ist selbst bei false nicht namespacefähig. Standardwert: false. Lesen
timestampFormat Benutzerdefinierte Zeichenfolge für das Zeitstempelformat, die dem Format des Datetime-Musters folgt. Dies gilt für Typ timestamp. Standardwert: yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]. Lesen und Schreiben
timestampNTZFormat Benutzerdefinierte Zeichenfolge für das Zeitstempelformat ohne Zeitzone, die dem Format des Datetime-Musters folgt. Dies gilt für den TimestampNTZType-Typ. Standardwert:
yyyy-MM-dd'T'HH:mm:ss[.SSS]
Lesen und Schreiben
dateFormat Benutzerdefinierte Zeichenfolge für das Datumsformat, die dem Format des Datetime-Musters folgt. Dies gilt für den date-Typ. Standardwert: yyyy-MM-dd. Lesen und Schreiben
locale Legt ein Gebietsschema als Sprachtag im IETF BCP 47-Format fest. Beispiel: locale wird beim Parsen von Daten und Zeitstempeln verwendet. Standardwert: en-US. Lesen
rootTag Stammtag der XML-Dateien. Beispiel: Der entsprechende Wert in <books> <book><book>...</books> lautet books. Sie können grundlegende Attribute durch das Angeben eines Werts wie books foo="bar" einschließen. Standardwert: ROWS. Schreiben
declaration Inhalt der XML-Deklaration, die am Anfang jeder XML-Ausgabedatei vor rootTag geschrieben werden soll. Beispiel: Durch einen Wert von foo wird <?xml foo?> geschrieben. Legen Sie diesen Wert auf eine leere Zeichenfolge fest, um diesen Vorgang zu unterdrücken. Standard: version="1.0"
encoding="UTF-8" standalone="yes".
Schreiben
arrayElementName Name des XML-Elements, das beim Schreiben jedes Element einer Spalte, die Arraywerte enthält, umschließt. Standardwert: item. Schreiben
nullValue Legt die Darstellung der Zeichenfolge eines NULL-Werts fest. Standard: Zeichenfolge null. Wenn dies der Fall ist null, schreibt der Parser keine Attribute und Elemente für Felder. Lesen und Schreiben
compression Komprimierungscode, der beim Speichern als Datei verwendet werden soll. Das kann einer der bekannten verkürzten Namen ohne Beachtung von Groß-/Kleinbuchstaben sein (none, bzip2, gzip, lz4 oder snappy', and<br>verkleinert). Diese Option wird von integrierten XML-Funktionen ignoriert. Standardwert: none. Schreiben
validateName Bei TRUE wird ein Fehler bei der Validierung von XML-Elementnamen ausgelöst. Beispiel: Namen von SQL-Feldern können Leerzeichen enthalten, XML-Elementnamen jedoch nicht. Standardwert:
true.
Schreiben
readerCaseSensitive Gibt das Verhalten bei der Berücksichtigung der Groß-/Kleinschreibung an, wenn rescuedDataColumn aktiviert ist. Bei „True“ werden die Datenspalten wiederhergestellt, deren Namen in Bezug auf Groß- und Kleinschreibung vom Schema abweichen. Andernfalls werden die Daten ohne Beachtung der Groß- und Kleinschreibung gelesen. Standardwert: true. Lesen
rescuedDataColumn Gibt an, ob alle Daten, die aufgrund eines Datentypkonflikts oder Schemakonflikts (einschließlich Spaltenschreibweise) nicht analysiert werden können, in einer separaten Spalte erfasst werden sollen. Diese Spalte ist bei Verwendung des Autoloaders standardmäßig enthalten. Ausführlichere Informationen finden Sie unter Was ist die Spalte „rescued data“ (gerettete Daten)?. Standard: Keine. Lesen

PARQUET-Optionen

Option
datetimeRebaseMode

Typ: String

Steuert, ob DATE- und TIMESTAMP-Werte auf dem gregorianischen Kalender und dem proleptischen gregorianischen Kalender basieren sollen. Zulässige Werte: EXCEPTION, LEGACY und
CORRECTED.

Standardwert: LEGACY
int96RebaseMode

Typ: String

Steuert, ob INT96-Zeitstempelwerte auf dem gregorianischen Kalender und dem proleptischen gregorianischen Kalender basieren sollen. Zulässige Werte: EXCEPTION, LEGACY und
CORRECTED.

Standardwert: LEGACY
mergeSchema

Typ: Boolean

Gibt an, ob das Schema über mehrere Dateien hinweg abgeleitet und das Schema der einzelnen Dateien zusammengeführt werden soll.

Standardwert: false
readerCaseSensitive

Typ: Boolean

Diese Option gibt das Verhalten bei Groß- und Kleinschreibung an, wenn rescuedDataColumn aktiviert ist. Bei „True“ werden die Datenspalten wiederhergestellt, deren Namen in Bezug auf Groß- und Kleinschreibung vom Schema abweichen. Andernfalls werden die Daten ohne Beachtung der Groß- und Kleinschreibung gelesen.

Standardwert: true
rescuedDataColumn

Typ: String

Gibt an, ob alle Daten, die aufgrund eines Datentypkonflikts oder Schemakonflikts (einschließlich Spaltenschreibweise) nicht analysiert werden können, in einer separaten Spalte erfasst werden sollen. Diese Spalte ist bei Verwendung des Autoloaders standardmäßig enthalten. Weitere Informationen finden Sie unter Was ist die Spalte „rescued data“ (gerettete Daten)?.

Standardwert: None

AVRO-Optionen

Option
avroSchema

Typ: String

Optionales Schema, das von einem Benutzer im Avro-Format bereitgestellt wird. Beim Lesen von Avro kann diese Option auf ein weiterentwickeltes Schema festgelegt werden, das kompatibel mit dem tatsächlichen Avro-Schema ist, aber nicht damit übereinstimmt. Das Deserialisierungsschema ist mit dem weiterentwickelten Schema konsistent. Wenn Sie beispielsweise ein weiterentwickeltes Schema festlegen, das eine zusätzliche Spalte mit einem Standardwert enthält, enthält das Leseergebnis ebenfalls die neue Spalte.

Standardwert: None
datetimeRebaseMode

Typ: String

Steuert, ob DATE- und TIMESTAMP-Werte auf dem gregorianischen Kalender und dem proleptischen gregorianischen Kalender basieren sollen. Zulässige Werte: EXCEPTION, LEGACY und
CORRECTED.

Standardwert: LEGACY
mergeSchema

Typ: Boolean

Gibt an, ob das Schema über mehrere Dateien hinweg abgeleitet und das Schema der einzelnen Dateien zusammengeführt werden soll.
mergeSchema für Avro bewirkt keine Lockerung von Datentypen.

Standardwert: false
readerCaseSensitive

Typ: Boolean

Diese Option gibt das Verhalten bei Groß- und Kleinschreibung an, wenn rescuedDataColumn aktiviert ist. Bei „True“ werden die Datenspalten wiederhergestellt, deren Namen in Bezug auf Groß- und Kleinschreibung vom Schema abweichen. Andernfalls werden die Daten ohne Beachtung der Groß- und Kleinschreibung gelesen.

Standardwert: true
rescuedDataColumn

Typ: String

Gibt an, ob alle Daten, die aufgrund eines Datentypkonflikts oder Schemakonflikts (einschließlich Spaltenschreibweise) nicht analysiert werden können, in einer separaten Spalte erfasst werden sollen. Diese Spalte ist bei Verwendung des Autoloaders standardmäßig enthalten. Weitere Informationen finden Sie unter Was ist die Spalte „rescued data“ (gerettete Daten)?.

Standardwert: None

BINARYFILE-Optionen

Für Binärdateien gibt es keine zusätzlichen Konfigurationsoptionen.

TEXT-Optionen

Option
encoding

Typ: String

Der Name der Codierung der TEXT-Dateien. Eine Liste der Optionen finden Sie unter java.nio.charset.Charset.

Standardwert: UTF-8
lineSep

Typ: String

Eine Zeichenfolge zwischen zwei aufeinander folgenden TEXT-Datensätzen.

Standardwert: ohne (deckt \r, \r\n und \n ab)
wholeText

Typ: Boolean

Gibt an, ob eine Datei als einzelner Datensatz gelesen werden soll.

Standardwert: false

ORC-Optionen

Option
mergeSchema

Typ: Boolean

Gibt an, ob das Schema über mehrere Dateien hinweg abgeleitet und das Schema der einzelnen Dateien zusammengeführt werden soll.

Standardwert: false

Cloudspezifische Optionen

Autoloader bietet eine Reihe von Optionen zum Konfigurieren der Cloudinfrastruktur.

AWS-spezifische Optionen

Geben Sie die folgende Option nur an, wenn Sie cloudFiles.useNotifications = true festlegen und möchten, dass der Autoloader die Benachrichtigungsdienste für Sie einrichtet:

Option
cloudFiles.region

Typ: String

Die Region, in der sich der S3-Quellbucket befindet und in der die AWS SNS- und SQS-Dienste erstellt werden.

Standardwert: Region der EC2-Instanz

Geben Sie die folgende Option nur an, wenn Sie cloudFiles.useNotifications = true auswählen und möchten, dass der Autoloader eine Warteschlange verwendet, die Sie bereits eingerichtet haben:

Option
cloudFiles.queueUrl

Typ: String

Die URL der SQS-Warteschlange. Wenn dies angegeben ist, bezieht der Autoloader Ereignisse direkt aus dieser Warteschlange, anstatt eigene AWS SNS- und SQS-Dienste einzurichten.

Standardwert: None

Sie können die folgenden Optionen verwenden, um Anmeldeinformationen für den Zugriff auf AWS SNS und SQS bereitzustellen, wenn keine IAM-Rollen verfügbar sind oder wenn Sie Daten aus verschiedenen Clouds erfassen.

Option
cloudFiles.awsAccessKey

Typ: String

Die ID des AWS-Zugriffsschlüssels für den Benutzer. Muss angegeben werden mit
cloudFiles.awsSecretKey.

Standardwert: None
cloudFiles.awsSecretKey

Typ: String

Der geheime AWS-Zugriffsschlüssel für den Benutzer. Muss angegeben werden mit
cloudFiles.awsAccessKey.

Standardwert: None
cloudFiles.roleArn

Typ: String

Der ARN einer IAM-Rolle, die angenommen werden soll. Die Rolle kann aus dem Instanzprofil Ihres Clusters übernommen oder durch das Angeben von Anmeldeinformationen mit folgenden Werten festgelegt werden:
cloudFiles.awsAccessKey und cloudFiles.awsSecretKey:

Standardwert: None
cloudFiles.roleExternalId

Typ: String

Ein Bezeichner, der beim Annehmen einer Rolle mit cloudFiles.roleArn angegeben werden muss.

Standardwert: None
cloudFiles.roleSessionName

Typ: String

Ein optionaler Sitzungsname zur Verwendung beim Annehmen einer Rolle mit
cloudFiles.roleArn.

Standardwert: None
cloudFiles.stsEndpoint

Typ: String

Ein optionaler Endpunkt, der für den Zugriff auf AWS STS angegeben wird, wenn mit cloudFiles.roleArn eine Rolle angenommen wird.

Standardwert: None

Azure-spezifische Optionen

Sie müssen Werte für alle folgenden Optionen angeben, wenn Sie cloudFiles.useNotifications = true festlegen und möchten, dass der Autoloader die Benachrichtigungsdienste für Sie einrichtet:

Option
cloudFiles.clientId

Typ: String

Die Client-ID oder Anwendungs-ID des Dienstprinzipals.

Standardwert: None
cloudFiles.clientSecret

Typ: String

Das Kundengeheimnis des Dienstherrn.

Standardwert: None
cloudFiles.connectionString

Typ: String

Die Verbindungszeichenfolge für das Speicherkonto basierend auf dem Kontozugriffsschlüssel oder SAS (Shared Access Signature).

Standardwert: None
cloudFiles.resourceGroup

Typ: String

Die Azure-Ressourcengruppe, unter der das Speicherkonto erstellt wird.

Standardwert: None
cloudFiles.subscriptionId

Typ: String

Die Azure-Abonnement-ID, unter der die Ressourcengruppe erstellt wird.

Standardwert: None
cloudFiles.tenantId

Typ: String

Die Azure-Mandanten-ID, unter der der Dienstprinzipal erstellt wird.

Standardwert: None

Wichtig

Die automatisierte Einrichtung von Benachrichtigungen ist in Azure China Und Government-Regionen mit Databricks Runtime 9.1 und höher verfügbar. Sie müssen einen queueName angeben, um den Autoloader mit Dateibenachrichtigungen in diesen Regionen für ältere DBR-Versionen zu verwenden.

Geben Sie die folgende Option nur an, wenn Sie cloudFiles.useNotifications = true auswählen und möchten, dass der Autoloader eine Warteschlange verwendet, die Sie bereits eingerichtet haben:

Option
cloudFiles.queueName

Typ: String

Der Name der Azure-Warteschlange. Wenn dieser angegeben ist, bezieht die Clouddateiquelle Ereignisse direkt aus dieser Warteschlange, anstatt eigene Azure Event Grid- und Queue Storage-Dienste einzurichten. In diesem Fall benötigt die cloudFiles.connectionString nur Leseberechtigungen für die Warteschlange.

Standardwert: None

Google-spezifische Optionen

Autoloader kann mithilfe von Google-Dienstkonten automatisch Benachrichtigungsdienste für Sie einrichten. Sie können Ihren Cluster so konfigurieren, dass ein Dienstkonto angenommen wird, indem Sie die Einrichtung des Google-Diensts ausführen. Die Berechtigungen, die Ihr Dienstkonto benötigt, sind unter Was ist der Dateibenachrichtrigungsmodus von Autoloader? angegeben. Andernfalls können Sie die folgenden Optionen zur Authentifizierung angeben, wenn der Autoloader die Benachrichtigungsdienste für Sie einrichten soll.

Option
cloudFiles.client

Typ: String

Die Client-ID des Google-Dienstkontos.

Standardwert: None
cloudFiles.clientEmail

Typ: String

Die E-Mail-Adresse des Google-Dienstkontos.

Standardwert: None
cloudFiles.privateKey

Typ: String

Der private Schlüssel, der für das Google-Dienstkonto generiert wird.

Standardwert: None
cloudFiles.privateKeyId

Typ: String

Die ID des privaten Schlüssels, der für das Google-Dienstkonto generiert wird.

Standardwert: None
cloudFiles.projectId

Typ: String

Die ID des Projekts, in dem sich der GCS-Bucket befindet. Das Google Cloud Pub/Sub-Abonnement wird ebenfalls in diesem Projekt erstellt.

Standardwert: None

Geben Sie die folgende Option nur an, wenn Sie cloudFiles.useNotifications = true auswählen und möchten, dass der Autoloader eine Warteschlange verwendet, die Sie bereits eingerichtet haben:

Option
cloudFiles.subscription

Typ: String

Der Name des Google Cloud Pub/Sub-Abonnements. Falls angegeben, nutzt die Clouddateiquelle Ereignisse aus dieser Warteschlange, anstatt eigene GCS-Benachrichtigungs- und Google Cloud Pub/Sub-Dienste einzurichten.

Standardwert: None