Optionen für den Autoloader

2025-06-05

Spezifischen Konfigurationsoptionen für die cloudFiles-Quelle wird das Präfix cloudFiles vorangestellt, sodass sie sich in einem separaten, von anderen Quellenoptionen für strukturiertes Streaming getrennten Namespace befinden.

Allgemeine Optionen für das automatische Laden
Optionen für Verzeichnisauflistung
Dateibenachrichtigungsoptionen
Dateiformatoptionen
Cloudspezifische Optionen

Allgemeine Optionen für den Autoloader

Sie können die folgenden Optionen für Auto Loader-Datenströme konfigurieren.

Optionen
`cloudFiles.allowOverwrites` Typ: `Boolean` Gibt an, ob Änderungen der Eingabeverzeichnisdatei zum Überschreiben vorhandener Daten zulässig sind. Informationen zu Konfigurationseinschränkungen finden Sie unter Verarbeitet das automatische Laden die Datei erneut, wenn die Datei angefügt oder überschrieben wird?. Standard: `false`
`cloudFiles.backfillInterval` Typ: `Interval String` Auto Loader kann asynchrone Rückfüllungen in einem bestimmten Intervall auslösen. Beispiel `1 day` : tägliches Ausfüllen oder `1 week` wöchentliches Zurückfüllen. Weitere Informationen finden Sie unter Regelmäßige Rückfüllungen mit cloudFiles.backfillInterval auslösen. Nicht verwenden, wenn `cloudFiles.useManagedFileEvents` auf `true` eingestellt ist. Standard: Keine
`cloudFiles.cleanSource` Typ: `String` Gibt an, ob verarbeitete Dateien automatisch aus dem Eingabeverzeichnis gelöscht werden sollen. Bei Festlegung auf `OFF` (Standard) werden keine Dateien gelöscht. Wenn diese Einstellung auf `DELETE`"Auto Loader" festgelegt ist, werden Dateien automatisch 30 Tage nach der Verarbeitung gelöscht. Dazu muss das automatische Laden über Schreibberechtigungen für das Quellverzeichnis verfügen. Wenn dieser Wert auf "Auto Loader" festgelegt ist `MOVE`, werden Dateien nach der Verarbeitung in `cloudFiles.cleanSource.moveDestination` 30 Tagen automatisch an den angegebenen Speicherort verschoben. Autoloader muss über Schreibberechtigungen für das Quellverzeichnis sowie den Verschiebungsort verfügen. Eine Datei wird als verarbeitet betrachtet, wenn sie einen Wert ungleich NULL in `commit_time` im Ergebnis der `cloud_files_state` Tabellenwertfunktion zurückgibt. Siehe `cloud_files_state` Tabellenwertfunktion. Die 30-tägige zusätzliche Wartezeit nach der Bearbeitung kann mit `cloudFiles.cleanSource.retentionDuration` konfiguriert werden. Hinweis: Databricks empfiehlt die Verwendung dieser Option nicht, wenn mehrere Datenströme Daten vom Quellspeicherort konsumieren, da der schnellste Konsument die Dateien löscht und diese in den langsameren Quellen nicht aufgenommen werden. Hinweis: Das Aktivieren dieses Features erfordert, dass Autoloader zusätzlichen Zustand in seinem Prüfpunkt beibehält, was zwar zu Leistungseinbußen führt, aber eine verbesserte Beobachtbarkeit über die `cloud_files_state` Tabellenwertfunktion ermöglicht. Siehe `cloud_files_state` Tabellenwertfunktion. Hinweis: `cleanSource` verwendet die aktuelle Einstellung, um zu entscheiden, ob eine Datei `MOVE` oder `DELETE` wird. Angenommen, die Einstellung war `MOVE`, als die Datei ursprünglich verarbeitet wurde, wurde aber in `DELETE` geändert, als die Datei 30 Tage später zum Kandidaten für die Bereinigung wurde. In diesem Fall löscht cleanSource die Datei. Verfügbar in Databricks Runtime 16.4 und höher. Voreinstellung: AUS
`cloudFiles.cleanSource.retentionDuration` Typ: `Interval String` Die Anzahl der Zeit, die gewartet werden muss, bevor verarbeitete Dateien zu Archivierungskandidaten mit `cleanSource` werden. Für `DELETE` muss es größer als 7 Tage sein. Keine Mindesteinschränkung für `MOVE`. Verfügbar in Databricks Runtime 16.4 und höher. Standardwert: 30 Tage
`cloudFiles.cleanSource.moveDestination` Typ: `String` Pfad zum Archivieren verarbeiteter Dateien, wenn `cloudFiles.cleanSource` auf `MOVE` gesetzt wird. Der Zielort der Verschiebung ist auf folgende Weise eingeschränkt: Sollte kein untergeordnetes Element des Quellverzeichnisses sein (dies führt dazu, dass die archivierten Dateien erneut erfasst werden) S3: Sollte ein Verzeichnis im gleichen S3-Bucket sein. Cross-Bucket-Verschiebungen erfordern, dass Dateien heruntergeladen und in den neuen Bucket hochgeladen werden, was teuer sein kann. GCS: Sollte ein Verzeichnis im gleichen GCS-Bucket sein. Cross-Bucket-Verschiebungen erfordern, dass Dateien heruntergeladen und in den neuen Bucket hochgeladen werden, was teuer sein kann. Azure: Sollte ein Verzeichnis im selben Azure-Container sein. Containerübergreifende Verschiebungen erfordern, dass Dateien heruntergeladen und in den neuen Container hochgeladen werden, was teuer sein kann. Auto Loader muss Schreibberechtigungen für dieses Verzeichnis besitzen. Verfügbar in Databricks Runtime 16.4 und höher. Standardwert: None
`cloudFiles.format` Typ: `String` Das Datendateiformat im Quellpfad. Zulässige Werte sind: `avro`: Avro-Dateien `binaryFile`: Binärdateien `csv`: CSV-Dateien `json`: JSON-Dateien `orc`: ORC-Dateien `parquet`: Parquet-Dateien `text`: TXT-Dateien `xml`: XML-Dateien Standard: Keine (erforderliche Option)
`cloudFiles.includeExistingFiles` Typ: `Boolean` Gibt an, ob vorhandene Dateien in den Eingabepfad für die Streamverarbeitung einbezogen werden, oder ob nur neue Dateien verarbeitet werden sollen, die nach der Ersteinrichtung eingehen. Diese Option wird nur ausgewertet, wenn Sie einen Stream zum ersten Mal starten. Das Ändern dieser Option nach dem Neustart des Streams hat keine Auswirkungen. Standard: `true`
`cloudFiles.inferColumnTypes` Typ: `Boolean` Gibt an, ob exakte Spaltentypen abgeleitet werden sollen, wenn der Schemarückschluss verwendet wird. Standardmäßig werden Spalten als Zeichenfolgen abgeleitet, wenn JSON- und CSV-Datasets abgeleitet werden. Weitere Informationen finden Sie unter schemainference . Standard: `false`
`cloudFiles.maxBytesPerTrigger` Typ: `Byte String` Die maximale Anzahl neuer Bytes, die in jedem Trigger verarbeitet werden sollen. Sie können eine Bytezeichenfolge wie z. B. `10g` angeben, um jeden Microbatch auf 10 GB Daten zu beschränken. Dies ist ein weicher Maximalwert. Wenn Sie über Dateien mit jeweils 3 GB verfügen, verarbeitet Azure Databricks 12 GB in einem Microbatch. Bei Verwendung in Kombination mit `cloudFiles.maxFilesPerTrigger` steigt der Verbrauch von Azure Databricks bis zur Untergrenze von `cloudFiles.maxFilesPerTrigger` oder `cloudFiles.maxBytesPerTrigger`, je nachdem, welcher Wert zuerst erreicht wird. Diese Option hat keine Auswirkung, wenn sie mit `Trigger.Once()` verwendet wird (`Trigger.Once()` ist veraltet). Standard: Keine
`cloudFiles.maxFileAge` Typ: `Interval String` Gibt an, wie lange ein Dateiereignis zu Deduplizierungszwecken nachverfolgt wird. Databricks empfiehlt, diesen Parameter nur dann anzupassen, wenn Sie Daten in einer Größenordnung von mehreren Millionen Dateien pro Stunde erfassen. Weitere Informationen finden Sie im Abschnitt zur Dateiereignisverfolgung . Eine zu aggressive Optimierung von `cloudFiles.maxFileAge` kann zu Problemen mit der Datenqualität führen, z. B. zu doppelter Erfassung oder fehlenden Dateien. Daher empfiehlt Databricks eine konservative Einstellung für `cloudFiles.maxFileAge`, z. B. 90 Tage. Dies entspricht ungefähr der Empfehlung vergleichbarer Datenerfassungslösungen. Standard: Keine
`cloudFiles.maxFilesPerTrigger` Typ: `Integer` Die maximale Anzahl neuer Dateien, die in jedem Trigger verarbeitet werden sollen. Bei Verwendung in Kombination mit `cloudFiles.maxBytesPerTrigger` steigt der Verbrauch von Azure Databricks bis zur Untergrenze von `cloudFiles.maxFilesPerTrigger` oder `cloudFiles.maxBytesPerTrigger`, je nachdem, welcher Wert zuerst erreicht wird. Diese Option hat keine Auswirkung, wenn sie mit `Trigger.Once()` (veraltet) verwendet wird. Standardwert: 1000
`cloudFiles.partitionColumns` Typ: `String` Eine durch Komma getrennte Liste von Partitionsspalten im Hive-Stil, die aus der Verzeichnisstruktur der Dateien abgeleitet werden sollen. Partitionsspalten im Hive-Stil sind Schlüssel-Wert-Paare, die durch ein Gleichheitszeichen wie `<base-path>/a=x/b=1/c=y/file.format` kombiniert werden. In diesem Beispiel sind die Partitionsspalten `a`, `b`und `c`. Standardmäßig werden diese Spalten automatisch zu Ihrem Schema hinzugefügt, wenn Sie Schemaerkennung verwenden und das `<base-path>` zum Laden von Daten bereitstellen. Wenn Sie ein Schema bereitstellen, erwartet Autoloader, dass diese Spalten im Schema enthalten sind. Wenn Sie diese Spalten nicht als Teil des Schemas verwenden möchten, können Sie angeben, dass `""` diese Spalten ignoriert. Darüber hinaus können Sie diese Option verwenden, wenn Spalten aus dem Dateipfad in komplexen Verzeichnisstrukturen wie im untenstehenden Beispiel abgeleitet werden sollen. `<base-path>/year=2022/week=1/file1.csv` `<base-path>/year=2022/month=2/day=3/file2.csv` `<base-path>/year=2022/month=2/day=4/file3.csv` Die Spezifizierung von `cloudFiles.partitionColumns` als `year,month,day` gibt `year=2022` für `file1.csv` zurück, aber die Spalten `month` und `day` sind `null`. `month` und `day` werden richtig analysiert für `file2.csv` und `file3.csv`. Standard: Keine
`cloudFiles.schemaEvolutionMode` Typ: `String` Der Modus zum Weiterentwickeln des Schemas, wenn neue Spalten in den Daten ermittelt werden. Standardmäßig werden Spalten als Zeichenfolgen abgeleitet, wenn JSON-Datasets abgeleitet werden. Weitere Informationen finden Sie in der Schemaentwicklung . Standard: `addNewColumns` wenn kein Schema bereitgestellt wird, `none` andernfalls
`cloudFiles.schemaHints` Typ: `String` Schemainformationen, die Sie dem Autoloader während der Schema-Inferenz bereitstellen. Weitere Informationen finden Sie unter Schemahinweise . Standard: Keine
`cloudFiles.schemaLocation` Typ: `String` Der Speicherort, an dem das abgeleitete Schema und nachfolgende Änderungen gespeichert werden. Weitere Informationen finden Sie unter schemainference . Standard: Keine (erforderlich, um das Schema abzuleiten)
`cloudFiles.useStrictGlobber` Typ: `Boolean` Gibt an, ob ein strenger Globber verwendet werden soll, der dem Standard-Globbingverhalten anderer Dateiquellen in Apache Spark entspricht. Weitere Informationen finden Sie unter "Allgemeine Datenlademuster ". Verfügbar in Databricks Runtime 12.2 LTS und höher. Standard: `false`
`cloudFiles.validateOptions` Typ: `Boolean` Gibt an, ob die Autoloader-Optionen überprüft werden und ob bei unbekannten oder inkonsistenten Optionen ein Fehler ausgegeben werden soll. Standard: `true`

Optionen für die Verzeichnisauflistung

Die folgenden Optionen sind für den Verzeichnisauflistungsmodus relevant.

Optionen

Optionen
`cloudFiles.useIncrementalListing` (veraltet) Typ: `String` Diese Funktion wurde eingestellt. Databricks empfiehlt die Verwendung des Dateibenachrichtigungsmodus mit Dateiereignissen anstelle von `cloudFiles.useIncrementalListing`. Gibt an, ob im Verzeichnisauflistungsmodus anstelle der vollständigen Auflistung die inkrementelle Auflistung verwendet werden soll. Standardmäßig versucht der Autoloader, automatisch zu ermitteln, ob ein bestimmtes Verzeichnis für die inkrementelle Auflistung geeignet ist. Sie können explizit die inkrementelle Auflistung oder die vollständige Verzeichnisauflistung verwenden, indem Sie den Wert `true` bzw. `false` festlegen. Eine nicht ordnungsgemäße Aktivierung der inkrementellen Auflistung in einem nicht lexikalisch sortierten Verzeichnis verhindert, dass der Autoloader neue Dateien erkennt. Arbeitet mit Azure Data Lake Storage (`abfss://`), S3 (`s3://`) und GCS (`gs://`). Verfügbar in Databricks Runtime 9.1 LTS und höher. Standard: `auto`auf Databricks Runtime 16.4 LTS und darunter, `false` auf Databricks Runtime 17.0 und darüber Verfügbare Werte: `auto`, `true`, `false`

cloudFiles.useIncrementalListing (veraltet)
Typ: String
Diese Funktion wurde eingestellt. Databricks empfiehlt die Verwendung des Dateibenachrichtigungsmodus mit Dateiereignissen anstelle von cloudFiles.useIncrementalListing.
Gibt an, ob im Verzeichnisauflistungsmodus anstelle der vollständigen Auflistung die inkrementelle Auflistung verwendet werden soll. Standardmäßig versucht der Autoloader, automatisch zu ermitteln, ob ein bestimmtes Verzeichnis für die inkrementelle Auflistung geeignet ist. Sie können explizit die inkrementelle Auflistung oder die vollständige Verzeichnisauflistung verwenden, indem Sie den Wert true bzw. false festlegen.
Eine nicht ordnungsgemäße Aktivierung der inkrementellen Auflistung in einem nicht lexikalisch sortierten Verzeichnis verhindert, dass der Autoloader neue Dateien erkennt.
Arbeitet mit Azure Data Lake Storage (abfss://), S3 (s3://) und GCS (gs://).
Verfügbar in Databricks Runtime 9.1 LTS und höher.
Standard: autoauf Databricks Runtime 16.4 LTS und darunter, false auf Databricks Runtime 17.0 und darüber
Verfügbare Werte: auto, true, false

Dateibenachrichtigungsoptionen

Die folgenden Optionen sind für den Dateibenachrichtigungsmodus relevant.

Optionen
`cloudFiles.fetchParallelism` Typ: `Integer` Anzahl der Threads, die beim Abrufen von Nachrichten aus dem Warteschlangendienst verwendet werden. Nicht verwenden, wenn `cloudFiles.useManagedFileEvents` auf `true` eingestellt ist. Standardwert: 1
`cloudFiles.pathRewrites` Typ: Eine JSON-Zeichenfolge Wird nur benötigt, wenn Sie ein `queueUrl` angeben, das Dateibenachrichtigungen von mehreren S3-Buckets empfängt und Sie Einhängepunkte nutzen möchten, die für den Zugriff auf Daten in diesen Containern konfiguriert sind. Verwenden Sie diese Option, um das Präfix des `bucket/key`-Pfads mit dem Bereitstellungspunkt umzuschreiben. Nur Präfixe können umgeschrieben werden. Zum Beispiel wird bei der Konfiguration `{"<databricks-mounted-bucket>/path": "dbfs:/mnt/data-warehouse"}` der Pfad `s3://<databricks-mounted-bucket>/path/2017/08/fileA.json` in `dbfs:/mnt/data-warehouse/2017/08/fileA.json` umgeschrieben. Nicht verwenden, wenn `cloudFiles.useManagedFileEvents` auf `true` eingestellt ist. Standard: Keine
`cloudFiles.resourceTag` Typ: `Map(String, String)` Eine Reihe von Schlüssel-Wert-Tagpaaren zum Zuordnen und Identifizieren verwandter Ressourcen. Beispiel: `cloudFiles.option("cloudFiles.resourceTag.myFirstKey", "myFirstValue")` `.option("cloudFiles.resourceTag.mySecondKey", "mySecondValue")` Weitere Informationen zu AWS finden Sie unter Amazon SQS Kostenzuordnungstags und Konfigurieren von Tags für ein Amazon SNS-Thema. (1) Weitere Informationen zu Azure finden Sie unter Benennen von Warteschlangen und Metadaten und die Berichterstattung über `properties.labels` in Ereignisabonnements. Der Autoloader speichert diese Schlüssel-Wert-Tagpaare in JSON als Bezeichnungen. (1) Weitere Informationen zu GCP finden Sie unter Nutzung mit Labels melden. (1) Nicht verwenden, wenn `cloudFiles.useManagedFileEvents` auf `true` eingestellt ist. Legen Sie stattdessen Ressourcentags mithilfe der Cloudanbieterkonsole fest. Standard: Keine
`cloudFiles.useManagedFileEvents` Vorschau: Die Unterstützung des automatischen Ladeprogramms für Dateiereignisse befindet sich in der öffentlichen Vorschau. Es ist nur für Databricks Runtime 14.3 LTS und höher verfügbar. Wenden Sie sich an Ihr Azure Databricks-Kontoteam, um sich bei der Vorschau anzumelden. Wenn `true` festgelegt ist, verwendet Auto Loader den Dateiereignisdienst, um Dateien an Ihrem externen Standort zu entdecken. Sie können diese Option nur verwenden, wenn sich der Ladepfad an einem externen Speicherort mit aktivierten Dateivorgängen befindet. Siehe Verwenden des Dateibenachrichtigungsmodus mit Dateiereignissen. Dateiereignisse bieten eine Performance auf Benachrichtigungsebene bei der Dateierkennung, da Auto Loader neue Dateien seit dem letzten Durchlauf feststellen kann. Im Gegensatz zur Verzeichnisauflistung muss dieser Prozess nicht alle Dateien im Verzeichnis auflisten. Es gibt einige Situationen, in denen der Auto Loader die Verzeichnisauflistung verwendet, obwohl die Option "Dateiereignisse" aktiviert ist. Beim anfänglichen Laden, wenn `includeExistingFiles` auf `true` festgelegt ist, wird eine vollständige Verzeichnisauflistung durchgeführt, um alle Dateien zu ermitteln, die im Verzeichnis vorhanden waren, bevor das automatische Laden gestartet wurde. Der Dateiereignisdienst optimiert die Ermittlung von Dateien, indem er die zuletzt erstellten Dateien zwischenspeichert. Wenn das automatische Laden selten ausgeführt wird, kann dieser Cache ablaufen, und das automatische Laden greift auf die Verzeichnisauflistung zurück, um Dateien zu ermitteln und den Cache zu aktualisieren. Um dieses Szenario zu vermeiden, rufen Sie das automatische Laden mindestens einmal alle sieben Tage auf.
`cloudFiles.useNotifications` Typ: `Boolean` Gibt an, ob mithilfe des Dateibenachrichtigungsmodus bestimmt werden soll, ob neue Dateien verfügbar sind. Bei einer Festlegung auf `false` wird der Verzeichnisauflistungsmodus verwendet. Siehe "Vergleichen Sie die Modi zur Dateierkennung beim automatischen Laden". Nicht verwenden, wenn `cloudFiles.useManagedFileEvents` auf `true` eingestellt ist. Standard: `false`

(1) Der Autoloader fügt standardmäßig die folgenden Schlüssel-Wert-Tagpaare nach bestem Bemühen hinzu:

vendor: Databricks
path: Der Speicherort, von dem aus die Daten geladen werden. In GCP aufgrund von Bezeichnungseinschränkungen nicht verfügbar.
checkpointLocation: Die Position des Stream-Checkpoints. In GCP aufgrund von Bezeichnungseinschränkungen nicht verfügbar.
streamId: Ein global eindeutiger Bezeichner für den Stream.

Diese Schlüsselnamen sind reserviert, und Sie können ihre Werte nicht überschreiben.

Dateiformatoptionen

Mit dem Autoloader können Sie JSON-, CSV-, PARQUET-, AVRO-, TEXT-, BINARYFILE- und ORC-Dateien erfassen.

Generische Optionen
JSON Optionen
CSV Optionen
XML Optionen
PARQUET Optionen
AVRO Optionen
BINARYFILE Optionen
TEXT Optionen
ORC Optionen

Generische Optionen

Die folgenden Optionen gelten für alle Dateiformate.

Auswahlmöglichkeit
`ignoreCorruptFiles` Typ: `Boolean` Gibt an, ob beschädigte Dateien ignoriert werden sollen. Bei TRUE werden die Spark-Aufträge weiterhin ausgeführt, wenn beschädigte Dateien festgestellt werden, und gelesene Inhalte werden weiterhin zurückgegeben. Beobachtbar wie `numSkippedCorruptFiles` in der `operationMetrics`-Spalte des Delta Lake-Verlaufs. Verfügbar in Databricks Runtime 11.3 LTS und höher. Standardwert: `false`
`ignoreMissingFiles` Typ: `Boolean` Gibt an, ob fehlende Dateien ignoriert werden sollen. Bei TRUE werden die Spark-Aufträge weiterhin ausgeführt, wenn fehlende Dateien festgestellt werden, und gelesene Inhalte werden weiterhin zurückgegeben. Verfügbar in Databricks Runtime 11.3 LTS und höher. Standardwert: `false` für das automatische Laden `true` für `COPY INTO` (Legacy)
`modifiedAfter` Typ: `Timestamp String`, z. B. `2021-01-01 00:00:00.000000 UTC+0` Optionaler Zeitstempel als Filter, um nur Dateien aufzunehmen, die nach dem angegebenen Zeitstempel einen Änderungszeitstempel aufweisen. Standardwert: None
`modifiedBefore` Typ: `Timestamp String`, z. B. `2021-01-01 00:00:00.000000 UTC+0` Ein optionaler Zeitstempel als Filter, um nur Dateien aufzunehmen, die einen Änderungszeitstempel vor dem bereitgestellten Zeitstempel aufweisen. Standardwert: None
`pathGlobFilter` oder `fileNamePattern` Typ: `String` Ein mögliches Globmuster für die Auswahl von Dateien. Entspricht `PATTERN` in `COPY INTO` (Legacy). `fileNamePattern` kann in `read_files` verwendet werden. Standardwert: None
`recursiveFileLookup` Typ: `Boolean` Diese Option durchsucht geschachtelte Verzeichnisse, auch wenn ihre Namen keinem Partitionsbenennungsschema folgen, z. B. date=2019-07-01. Standardwert: `false`

`JSON`-Optionen

Auswahlmöglichkeit
`allowBackslashEscapingAnyCharacter` Typ: `Boolean` Gibt an, ob umgekehrte Schrägstriche als Escapezeichen für das folgende Zeichen zugelassen werden sollen. Wenn diese Option nicht aktiviert ist, können nur Zeichen mit Escapezeichen versehen werden, die explizit in der JSON-Spezifikation aufgeführt werden. Standardwert: `false`
`allowComments` Typ: `Boolean` Gibt an, ob die Verwendung von Java-, C- und C++-Kommentaren (`'/'`, `'*'` bzw. `'//'`) in analysierten Inhalten zugelassen werden soll oder nicht. Standardwert: `false`
`allowNonNumericNumbers` Typ: `Boolean` Gibt an, ob die Menge der `NaN`-Token (Not-a-Number) als zulässige Gleitkommazahlenwerte zugelassen werden soll. Standardwert: `true`
`allowNumericLeadingZeros` Typ: `Boolean` Gibt an, ob ganze Zahlen mit zusätzlichen (zu ignorierenden) Nullen beginnen sollen (z. B. `000001`). Standardwert: `false`
`allowSingleQuotes` Typ: `Boolean` Gibt an, ob die Verwendung von einfachen Anführungszeichen (Apostroph, Zeichen `'\'`) für das Zitieren von Zeichenfolgen, einschließlich Namen und Werte, zugelassen werden soll. Standardwert: `true`
`allowUnquotedControlChars` Typ: `Boolean` Gibt an, ob JSON-Zeichenfolgen Steuerzeichen ohne Escapezeichen (ASCII-Zeichen mit einem Wert kleiner als 32, z. B. Tabstopp- und Zeilenvorschubzeichen) enthalten dürfen. Standardwert: `false`
`allowUnquotedFieldNames` Typ: `Boolean` Gibt an, ob die Verwendung von Feldnamen ohne Anführungszeichen zugelassen werden soll (die von JavaScript, aber nicht von der JSON-Spezifikation zugelassen werden). Standardwert: `false`
`badRecordsPath` Typ: `String` Der Pfad zum Speichern von Dateien zur Aufzeichnung von Informationen über fehlerhafte JSON-Datensätze. Die Verwendung der `badRecordsPath` Option in einer dateibasierten Datenquelle hat die folgenden Einschränkungen: Es ist nicht transaktional und kann zu inkonsistenten Ergebnissen führen. Vorübergehende Fehler werden als Fehler behandelt. Standardwert: None
`columnNameOfCorruptRecord` Typ: `String` Die Spalte zum Speichern von Datensätzen, die fehlerhaft formatiert sind und nicht analysiert werden können. Wenn `mode` für die Analyse auf `DROPMALFORMED` festgelegt ist, ist diese Spalte leer. Standardwert: `_corrupt_record`
`dateFormat` Typ: `String` Das Format für die Analyse von Datumszeichenfolgen. Standardwert: `yyyy-MM-dd`
`dropFieldIfAllNull` Typ: `Boolean` Ob Spalten während der Schemaerkennung ignoriert werden sollen, die nur NULL-Werte oder leere Arrays und Strukturen enthalten. Standardwert: `false`
`encoding` oder `charset` Typ: `String` Der Name der Codierung der JSON-Dateien. Eine Liste der Optionen finden Sie unter `java.nio.charset.Charset`. Sie können `UTF-16` und `UTF-32` nicht verwenden, wenn `multilinetrue` ist. Standardwert: `UTF-8`
`inferTimestamp` Typ: `Boolean` Gibt an, ob versucht werden soll, Zeitstempelzeichenfolgen als `TimestampType` abzuleiten. Wenn festgelegt auf `true`, die Schemaableitung könnte merklich länger dauern. Für die Verwendung mit dem Autoloader müssen Sie `cloudFiles.inferColumnTypes` aktivieren. Standardwert: `false`
`lineSep` Typ: `String` Eine Zeichenfolge zwischen zwei aufeinander folgenden JSON-Datensätzen. Standardwert: ohne (deckt `\r`, `\r\n` und `\n` ab)
`locale` Typ: `String` Ein `java.util.Locale`-Bezeichner. Beeinflusst die standardmäßige Analyse von Datumsangaben, Zeitstempeln und Dezimalzahlen im JSON-Code. Standardwert: `US`
`mode` Typ: `String` Parsermodus für die Verarbeitung fehlerhaft formatierter Datensätze. Einer der folgenden Werte: `PERMISSIVE`, `DROPMALFORMED` oder `FAILFAST`. Standardwert: `PERMISSIVE`
`multiLine` Typ: `Boolean` Gibt an, ob die JSON-Datensätze mehrere Zeilen umfassen. Standardwert: `false`
`prefersDecimal` Typ: `Boolean` Versucht, Zeichenfolgen nach Möglichkeit als `DecimalType` abzuleiten, nicht als float- oder double-Typ. Sie müssen auch den Schemarückschluss verwenden, indem Sie entweder `inferSchema` oder `cloudFiles.inferColumnTypes` in Verbindung mit dem Auto Loader verwenden. Standardwert: `false`
`primitivesAsString` Typ: `Boolean` Gibt an, ob primitive Typen wie Zahlen und boolesche Werte als `StringType` abgeleitet werden sollen. Standardwert: `false`
`readerCaseSensitive` Typ: `Boolean` Diese Option gibt das Verhalten bei Groß- und Kleinschreibung an, wenn `rescuedDataColumn` aktiviert ist. Bei „True“ werden die Datenspalten wiederhergestellt, deren Namen in Bezug auf Groß- und Kleinschreibung vom Schema abweichen. Andernfalls werden die Daten ohne Beachtung der Groß- und Kleinschreibung gelesen. Verfügbar in Databricks Runtime 13.3 und höher. Standardwert: `true`
`rescuedDataColumn` Typ: `String` Gibt an, ob alle Daten, die aufgrund eines Datentypkonflikts oder Schemakonflikts (einschließlich Spaltenschreibweise) nicht analysiert werden können, in einer separaten Spalte erfasst werden sollen. Diese Spalte ist bei Verwendung des Autoloaders standardmäßig enthalten. Weitere Informationen finden Sie unter "Was ist die Spalte für gerettete Daten?". `COPY INTO` (Legacy) unterstützt die gerettete Datenspalte nicht, da Sie das Schema nicht manuell mit `COPY INTO`festlegen können. Databricks empfiehlt die Verwendung des automatischen Ladens für die meisten Aufnahmeszenarien. Standardwert: None
`singleVariantColumn` Typ: `String` Gibt an, ob das gesamte JSON-Dokument in einer einzelnen Spalte „Variante“ geparst mit der angegebenen Zeichenfolge als Spaltenname erfasst werden soll. Wenn dies deaktiviert ist, werden die JSON-Felder in ihren eigenen Spalten erfasst. Standardwert: None
`timestampFormat` Typ: `String` Das Format zum Analysieren von Zeitstempelzeichenfolgen. Standardwert: `yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]`
`timeZone` Typ: `String` Die `java.time.ZoneId`, die beim Analysieren von Zeitstempeln und Datumsangaben verwendet werden soll. Standardwert: None

`CSV`-Optionen

Auswahlmöglichkeit
`badRecordsPath` Typ: `String` Der Speicherpfad für Dateien, die Informationen über fehlerhafte CSV-Datensätze aufzeichnen. Standardwert: None
`charToEscapeQuoteEscaping` Typ: `Char` Das Zeichen, das als Escapezeichen für das Zeichen verwendet wird, das als Escapezeichen für Anführungszeichen verwendet wird. z. B. für den Datensatz `[ " a\\", b ]`: Wenn das Zeichen, um dem `'\'` zu entkommen, nicht definiert ist, werden die Daten nicht analysiert. Der Parser liest die Zeichen `[a],[\],["],[,],[ ],[b]` und löst einen Fehler aus, da kein schließendes Anführungszeichen gefunden wird. Wenn das Zeichen, das zum Escapen des `'\'` verwendet wird, als `'\'` definiert ist, wird der Datensatz mit 2 Werten gelesen: `[a\]` und `[b]`. Standardwert: `'\0'`
`columnNameOfCorruptRecord` Unterstützt für Autoloader. Wird für `COPY INTO` (Legacy) nicht unterstützt. Typ: `String` Die Spalte zum Speichern von Datensätzen, die fehlerhaft formatiert sind und nicht analysiert werden können. Wenn `mode` für die Analyse auf `DROPMALFORMED` festgelegt ist, ist diese Spalte leer. Standardwert: `_corrupt_record`
`comment` Typ: `Char` Definiert das Zeichen, das einen Zeilenkommentar darstellt, wenn es am Anfang einer Textzeile steht. Verwenden Sie `'\0'`, um das Überspringen von Kommentaren zu deaktivieren. Standardwert: `'\u0000'`
`dateFormat` Typ: `String` Das Format für die Analyse von Datumszeichenfolgen. Standardwert: `yyyy-MM-dd`
`emptyValue` Typ: `String` Zeichenfolgendarstellung eines leeren Werts. Standardwert: `""`
`encoding` oder `charset` Typ: `String` Der Name der Codierung der CSV-Dateien. Eine Liste der Optionen finden Sie unter `java.nio.charset.Charset`. `UTF-16` und `UTF-32` können nicht verwendet werden, wenn `multiline` ist `true`. Standardwert: `UTF-8`
`enforceSchema` Typ: `Boolean` Gibt an, ob das angegebene oder abgeleitete Schema zwangsweise auf die CSV-Dateien angewendet werden soll. Wenn die Option aktiviert ist, werden Kopfzeilen von CSV-Dateien ignoriert. Diese Option wird standardmäßig ignoriert, wenn der Autoloader verwendet wird, um Daten zu retten und die Schemaentwicklung zu ermöglichen. Standardwert: `true`
`escape` Typ: `Char` Das Escapezeichen, das beim Analysieren der Daten verwendet werden soll. Standardwert: `'\'`
`header` Typ: `Boolean` Gibt an, ob die CSV-Dateien ein Kopfzeile enthalten. Der Autoloader geht bei der Schemaableitung davon aus, dass Dateien Kopfzeilen enthalten. Standardwert: `false`
`ignoreLeadingWhiteSpace` Typ: `Boolean` Gibt an, ob führende Leerzeichen für einzelne analysierte Werte ignoriert werden sollen. Standardwert: `false`
`ignoreTrailingWhiteSpace` Typ: `Boolean` Gibt an, ob nachstehende Leerzeichen für einzelne analysierte Werte ignoriert werden sollen. Standardwert: `false`
`inferSchema` Typ: `Boolean` Gibt an, ob die Datentypen der analysierten CSV-Datensätze abgeleitet werden sollen oder angenommen werden soll, dass alle Spalten den Typ `StringType` aufweisen. Bei Festlegung auf `true` ist eine zusätzliche Übergabe der Daten erforderlich. Verwenden Sie für den Autoloader stattdessen `cloudFiles.inferColumnTypes`. Standardwert: `false`
`lineSep` Typ: `String` Eine Zeichenfolge zwischen zwei aufeinander folgenden CSV-Datensätzen. Standardwert: ohne (deckt `\r`, `\r\n` und `\n` ab)
`locale` Typ: `String` Ein `java.util.Locale`-Bezeichner. Beeinflusst die standardmäßige Analyse von Datumsangaben, Zeitstempeln und Dezimalzahlen in der CSV-Datei. Standardwert: `US`
`maxCharsPerColumn` Typ: `Int` Maximale Anzahl von Zeichen, die von einem zu analysierenden Wert erwartet werden. Kann verwendet werden, um Speicherfehler zu vermeiden. Der Standardwert ist `-1`, d. h. unbegrenzt. Standardwert: `-1`
`maxColumns` Typ: `Int` Der absolute Höchstwert für die Anzahl der Spalten, die ein Datensatz enthalten kann. Standardwert: `20480`
`mergeSchema` Typ: `Boolean` Gibt an, ob das Schema über mehrere Dateien hinweg abgeleitet und das Schema der einzelnen Dateien zusammengeführt werden soll. Standardmäßig für Autoloader aktiviert, wenn das Schema abgeleitet wird. Standardwert: `false`
`mode` Typ: `String` Parsermodus für die Verarbeitung fehlerhaft formatierter Datensätze. Einer von `'PERMISSIVE'`, `'DROPMALFORMED'` und `'FAILFAST'`. Standardwert: `PERMISSIVE`
`multiLine` Typ: `Boolean` Gibt an, ob die CSV-Datensätze mehrere Zeilen umfassen. Standardwert: `false`
`nanValue` Typ: `String` Die Zeichenfolgendarstellung eines NaN-Werts, wenn `FloatType`- und `DoubleType`-Spalten verwendet werden. Standardwert: `"NaN"`
`negativeInf` Typ: `String` Die Zeichenfolgendarstellung von negativ Unendlich, wenn `FloatType`- und `DoubleType`-Spalten verwendet werden. Standardwert: `"-Inf"`
`nullValue` Typ: `String` Zeichenfolgendarstellung eines NULL-Werts. Standardwert: `""`
`parserCaseSensitive` (veraltet) Typ: `Boolean` Gibt beim Lesen von Dateien an, ob Spalten, die in der Kopfzeile deklariert sind, unter Berücksichtigung der Groß-/Kleinschreibung am Schema angepasst werden sollen. Diese Option ist für den Autoloader standardmäßig `true`. Spalten, deren Groß-/Kleinschreibung abweicht, werden in die `rescuedDataColumn`-Spalte gerettet (sofern aktiviert). Diese Option wurde durch `readerCaseSensitive` ersetzt und gilt als veraltet. Standardwert: `false`
`positiveInf` Typ: `String` Die Zeichenfolgendarstellung von positiv Unendlich, wenn `FloatType`- und `DoubleType`-Spalten verwendet werden. Standardwert: `"Inf"`
`preferDate` Typ: `Boolean` Versucht, Zeichenfolgen nach Möglichkeit als Datumsangaben abzuleiten, nicht als Zeitstempel. Sie müssen auch den Schemarückschluss verwenden, indem Sie entweder `inferSchema` aktivieren oder `cloudFiles.inferColumnTypes` mit dem Autoladeprogramm verwenden. Standardwert: `true`
`quote` Typ: `Char` Das Zeichen, das als Escapezeichen für Werte verwendet wird, bei denen das Feldtrennzeichen Bestandteil des Werts ist. Standardwert: `"`
`readerCaseSensitive` Typ: `Boolean` Diese Option gibt das Verhalten bei Groß- und Kleinschreibung an, wenn `rescuedDataColumn` aktiviert ist. Bei „True“ werden die Datenspalten wiederhergestellt, deren Namen in Bezug auf Groß- und Kleinschreibung vom Schema abweichen. Andernfalls werden die Daten ohne Beachtung der Groß- und Kleinschreibung gelesen. Standardwert: `true`
`rescuedDataColumn` Typ: `String` Gibt an, ob alle Daten, die aufgrund eines Datentypkonflikts oder eines Schemakonflikts (einschließlich der Schreibweise von Spaltennamen) nicht geparst werden können, in einer separaten Spalte gesammelt werden sollen. Diese Spalte ist bei Verwendung des Autoloaders standardmäßig enthalten. Weitere Informationen finden Sie unter "Was ist die Spalte mit den geretteten Daten?". `COPY INTO` (Legacy) unterstützt die gerettete Datenspalte nicht, da Sie das Schema nicht manuell mit `COPY INTO`festlegen können. Databricks empfiehlt die Verwendung des automatischen Ladens für die meisten Aufnahmeszenarien. Standardwert: None
`sep` oder `delimiter` Typ: `String` Die Trennzeichenfolge zwischen Spalten. Standardwert: `","`
`skipRows` Typ: `Int` Die Anzahl der Zeilen vom Anfang der CSV-Datei, die ignoriert werden sollen (einschließlich auskommentierter und leerer Zeilen). Wenn `header` „True“ ist, ist die Kopfzeile die erste nicht übersprungene und nicht auskommentierte Zeile. Standardwert: `0`
`timestampFormat` Typ: `String` Das Format zum Analysieren von Zeitstempelzeichenfolgen. Standardwert: `yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]`
`timeZone` Typ: `String` Die `java.time.ZoneId`, die beim Analysieren von Zeitstempeln und Datumsangaben verwendet werden soll. Standardwert: None
`unescapedQuoteHandling` Typ: `String` Die Strategie für die Behandlung von Anführungszeichen ohne Escapezeichen. Zulässige Optionen: `STOP_AT_CLOSING_QUOTE`: Wenn in der Eingabe Anführungszeichen ohne Escapezeichen erkannt werden, wird das Anführungszeichen akkumuliert und der Wert als Wert in Anführungszeichen analysiert, bis ein schließendes Anführungszeichen erkannt wird. `BACK_TO_DELIMITER`: Wenn in der Eingabe Anführungszeichen ohne Escapezeichen erkannt werden, wird der Wert als Wert ohne Anführungszeichen betrachtet. Der Parser akkumuliert dann alle Zeichen des aktuellen analysierten Werts, bis das von `sep` definierte Trennzeichen gefunden wird. Wenn im Wert kein Trennzeichen gefunden wird, akkumuliert der Parser weiter Zeichen aus der Eingabe, bis ein Trennzeichen oder Zeilenende gefunden wird. `STOP_AT_DELIMITER`: Wenn in der Eingabe Anführungszeichen ohne Escapezeichen erkannt werden, wird der Wert als Wert ohne Anführungszeichen betrachtet. Dadurch wird der Parser veranlasst, alle Zeichen zu akkumulieren, bis das durch `sep` definierte Trennzeichen oder ein Zeilenende in der Eingabe gefunden wird. `SKIP_VALUE`: Wenn in der Eingabe Anführungszeichen ohne Escapezeichen gefunden werden, wird der Inhalt, der für den angegebenen Wert geparst wurde, übersprungen (bis das nächste Trennzeichen gefunden wird) und stattdessen wird der in `nullValue` angegebene Wert erzeugt. `RAISE_ERROR`: Wenn in der Eingabe Anführungszeichen ohne Escapezeichen erkannt werden, wird eine `TextParsingException` geworfen. Standardwert: `STOP_AT_DELIMITER`

`XML`-Optionen

Auswahlmöglichkeit	BESCHREIBUNG	Bereich
`rowTag`	Das Reihen-Tag der XML-Dateien, die als Reihe behandelt werden sollen. Im XML-Beispiel `<books> <book><book>...<books>` ist der entsprechende Wert `book`. Diese Option muss angegeben werden.	Lesen
`samplingRatio`	Hiermit wird ein Bruchteil von Zeilen definiert, die für den Schemarückschluss verwendet werden. Diese Option wird von integrierten XML-Funktionen ignoriert. Standardwert: `1.0`.	Lesen
`excludeAttribute`	Gibt an, ob Attribute in Elementen ausgeschlossen werden sollen. Standardwert: `false`.	Lesen
`mode`	Modus für den Umgang mit beschädigten Datensätzen beim Parsen. `PERMISSIVE`: Fügt bei beschädigten Datensätzen die nicht wohlgeformte Zeichenfolge in ein durch `columnNameOfCorruptRecord` konfiguriertes Feld ein und legt nicht wohlgeformte Felder auf `null` fest. Um beschädigte Datensätze beizubehalten, können Sie in einem benutzerdefinierten Schema ein Feld des Typs `string` mit dem Namen `columnNameOfCorruptRecord` festlegen. Wenn ein Schema nicht über das Feld verfügt, werden beschädigte Datensätze beim Parsen gelöscht. Beim Ableiten eines Schemas fügt der Parser in einem Ausgabeschema ein `columnNameOfCorruptRecord`-Feld implizit hinzu. `DROPMALFORMED`: Ignoriert beschädigte Datensätze. Dieser Modus wird für integrierte XML-Funktionen nicht unterstützt. `FAILFAST`: Eine Ausnahme wird ausgelöst, wenn der Parser beschädigte Datensätze erkennt.	Lesen
`inferSchema`	Versucht bei `true`, einen geeigneten Typ für jede resultierende DataFrame-Spalte abzuleiten. Bei `false` weisen alle resultierenden Spalten den Typ `string` auf. Standardwert: `true`. Diese Option wird von integrierten XML-Funktionen ignoriert.	Lesen
`columnNameOfCorruptRecord`	Diese Option ermöglicht das Umbenennen des neuen Felds, das eine nicht wohlgeformte Zeichenfolge enthält, die vom `PERMISSIVE`-Modus erstellt wurde. Standardwert: `spark.sql.columnNameOfCorruptRecord`.	Lesen
`attributePrefix`	Das Präfix für Attribute, um Attribute von Elementen zu unterscheiden. Dies wird das Präfix für Feldnamen sein. Der Standardwert ist `_`. Kann zum Lesen von XML-Code leer sein, jedoch nicht zum Schreiben.	Lesen und Schreiben
`valueTag`	Dies ist das Tag, das für die Zeichendaten in Elementen verwendet wird, die ebenfalls Attribute oder untergeordnete Elemente enthalten. Der Benutzer kann das `valueTag`-Feld im Schema angeben oder es wird während des Schemaabgleichs automatisch hinzugefügt, wenn Zeichendaten in Elementen mit anderen Elementen oder Attributen vorkommen. Standard: `_VALUE`	Lesen und Schreiben
`encoding`	Zum Lesen werden die XML-Dateien durch den angegebenen Codierungstyp decodiert. Gibt zum Schreiben die Codierung (Zeichensatz) gespeicherter XML-Dateien an. Diese Option wird von integrierten XML-Funktionen ignoriert. Standardwert: `UTF-8`.	Lesen und Schreiben
`ignoreSurroundingSpaces`	Hiermit wird definiert, ob umgebende Leerzeichen von zu lesenden Werten übersprungen werden sollen. Standardwert: `true`. Zeichendaten, die ausschließlich aus Leerzeichen bestehen, werden ignoriert.	Lesen
`rowValidationXSDPath`	Pfad zu einer optionalen XSD-Datei, die verwendet wird, um den XML-Code für jede Zeile einzeln zu überprüfen. Zeilen, die nicht validiert werden können, werden wie oben beschrieben als Parse-Fehler behandelt. Die XSD wirkt sich nicht anderweitig auf das bereitgestellte oder abgeleitete Schema aus.	Lesen
`ignoreNamespace`	Wenn `true` aktiv ist, werden die Präfixe von Namespaces für XML-Elemente und -Attribute ignoriert. Die Tags `<abc:author>` und `<def:author>` werden beispielsweise so behandelt werden, als wären beide lediglich `<author>`. Namespaces können für das `rowTag`-Element nicht ignoriert werden. Das ist lediglich für seine untergeordneten Elemente möglich, die gelesen werden sollen. Das XML-Parsing ist selbst bei `false` nicht namespacefähig. Standardwert: `false`.	Lesen
`timestampFormat`	Benutzerdefinierte Zeitstempelformatzeichenfolge, die dem Datetime-Musterformat folgt. Dies gilt für Typ `timestamp`. Standardwert: `yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]`.	Lesen und Schreiben
`timestampNTZFormat`	Benutzerdefinierte Zeichenfolge für das Zeitstempelformat ohne Zeitzone, die dem Format des Datetime-Musters folgt. Dies gilt für den TimestampNTZType-Typ. Standardwert: `yyyy-MM-dd'T'HH:mm:ss[.SSS]`	Lesen und Schreiben
`dateFormat`	Benutzerdefinierte Datumsformatzeichenfolge, die dem Datetime-Musterformat folgt. Dies gilt für den Datumstyp. Standardwert: `yyyy-MM-dd`.	Lesen und Schreiben
`locale`	Hiermit wird ein Gebietsschema als Sprachtag im IETF BCP 47-Format festgelegt. Beispiel: `locale` wird beim Parsen von Daten und Zeitstempeln verwendet. Standardwert: `en-US`.	Lesen
`rootTag`	Stammtag der XML-Dateien. Beispiel: Der entsprechende Wert in `<books> <book><book>...</books>` lautet `books`. Sie können grundlegende Attribute durch das Angeben eines Werts wie `books foo="bar"` einschließen. Standardwert: `ROWS`.	Schreiben
`declaration`	Inhalt der XML-Deklaration, die am Anfang jeder XML-Ausgabedatei vor `rootTag` geschrieben werden soll. Beispiel: Durch den Wert `foo` wird `<?xml foo?>` geschrieben. Legen Sie diesen Wert auf eine leere Zeichenfolge fest, um diesen Vorgang zu unterdrücken. Standard: `version="1.0"` `encoding="UTF-8" standalone="yes"`.	Schreiben
`arrayElementName`	Name des XML-Elements, das beim Schreiben jedes Element einer Spalte, die Arraywerte enthält, umschließt. Standardwert: `item`.	Schreiben
`nullValue`	Legt die Darstellung der Zeichenfolge eines NULL-Werts fest. Standard: Zeichenfolge `null`. Wenn dies der Fall ist `null`, schreibt der Parser keine Attribute und Elemente für Felder.	Lesen und Schreiben
`compression`	Komprimierungscode, der beim Speichern als Datei verwendet werden soll. Das kann einer der bekannten, unabhängig von Groß-/Kleinschreibung verkürzten Namen sein (`none`, `bzip2`, `gzip`, `lz4`, `snappy` und `deflate`). Diese Option wird von integrierten XML-Funktionen ignoriert. Standardwert: `none`.	Schreiben
`validateName`	Bei „true“ wird ein Fehler bei der Validierung von XML-Elementnamen ausgelöst. Beispiel: Namen von SQL-Feldern können Leerzeichen enthalten, XML-Elementnamen jedoch nicht. Standardwert: `true`.	Schreiben
`readerCaseSensitive`	Gibt das Verhalten bei der Berücksichtigung der Groß-/Kleinschreibung an, wenn rescuedDataColumn aktiviert ist. Bei „True“ werden die Datenspalten wiederhergestellt, deren Namen in Bezug auf Groß- und Kleinschreibung vom Schema abweichen. Andernfalls werden die Daten ohne Beachtung der Groß- und Kleinschreibung gelesen. Standardwert: `true`.	Lesen
`rescuedDataColumn`	Gibt an, ob alle Daten, die aufgrund eines Datentypkonflikts oder eines Schemakonflikts (einschließlich der Groß-/Kleinschreibung von Spaltennamen) nicht analysiert werden können, in eine separate Spalte erfasst werden sollen. Diese Spalte ist bei Verwendung des Autoloaders standardmäßig enthalten. Weitere Informationen finden Sie in der Spalte "Gerettete Daten". `COPY INTO` (Legacy) unterstützt die gerettete Datenspalte nicht, da Sie das Schema nicht manuell mit `COPY INTO`festlegen können. Databricks empfiehlt die Verwendung des automatischen Ladens für die meisten Aufnahmeszenarien. Standardwert: None.	Lesen
`singleVariantColumn`	Gibt den Namen der einzelnen Variantenspalte an. Wenn diese Option zum Lesen angegeben ist, analysieren Sie den gesamten XML-Eintrag in eine einzelne Variant-Spalte mit dem angegebenen Optionszeichenfolgenwert als Namen der Spalte. Wenn diese Option zum Schreiben bereitgestellt wird, schreiben Sie den Wert der einzelnen Variant-Spalte in XML-Dateien. Standardwert: `none`.	Lesen und Schreiben

`PARQUET`-Optionen

Auswahlmöglichkeit
`datetimeRebaseMode` Typ: `String` Steuert, ob DATE- und TIMESTAMP-Werte auf dem gregorianischen Kalender und dem proleptischen gregorianischen Kalender basieren sollen. Zulässige Werte: `EXCEPTION`, `LEGACY` und `CORRECTED`. Standardwert: `LEGACY`
`int96RebaseMode` Typ: `String` Steuert, ob INT96-Zeitstempelwerte auf dem gregorianischen Kalender und dem proleptischen gregorianischen Kalender basieren sollen. Zulässige Werte: `EXCEPTION`, `LEGACY` und `CORRECTED`. Standardwert: `LEGACY`
`mergeSchema` Typ: `Boolean` Gibt an, ob das Schema über mehrere Dateien hinweg abgeleitet und das Schema der einzelnen Dateien zusammengeführt werden soll. Standardwert: `false`
`readerCaseSensitive` Typ: `Boolean` Diese Option gibt das Verhalten bei Groß- und Kleinschreibung an, wenn `rescuedDataColumn` aktiviert ist. Bei „True“ werden die Datenspalten wiederhergestellt, deren Namen in Bezug auf Groß- und Kleinschreibung vom Schema abweichen. Andernfalls werden die Daten ohne Beachtung der Groß- und Kleinschreibung gelesen. Standardwert: `true`
`rescuedDataColumn` Typ: `String` Gibt an, ob alle Daten, die aufgrund eines Datentypkonflikts oder eines Schemakonflikts (einschließlich der Schreibweise von Spaltennamen) nicht geparst werden können, in einer separaten Spalte gesammelt werden sollen. Diese Spalte ist bei Verwendung des Autoloaders standardmäßig enthalten. Weitere Informationen finden Sie unter "Was ist die Spalte mit den geretteten Daten?". `COPY INTO` (Legacy) unterstützt die gerettete Datenspalte nicht, da Sie das Schema nicht manuell mit `COPY INTO`festlegen können. Databricks empfiehlt die Verwendung des automatischen Ladens für die meisten Aufnahmeszenarien. Standardwert: None

`AVRO`-Optionen

Auswahlmöglichkeit
`avroSchema` Typ: `String` Optionales Schema, das von einem Benutzer im Avro-Format bereitgestellt wird. Beim Lesen von Avro kann diese Option auf ein weiterentwickeltes Schema festgelegt werden, das kompatibel mit dem tatsächlichen Avro-Schema ist, aber nicht damit übereinstimmt. Das Deserialisierungsschema ist mit dem weiterentwickelten Schema konsistent. Wenn Sie beispielsweise ein weiterentwickeltes Schema festlegen, das eine zusätzliche Spalte mit einem Standardwert enthält, enthält das Leseergebnis ebenfalls die neue Spalte. Standardwert: None
`datetimeRebaseMode` Typ: `String` Steuert, ob DATE- und TIMESTAMP-Werte auf dem gregorianischen Kalender und dem proleptischen gregorianischen Kalender basieren sollen. Zulässige Werte: `EXCEPTION`, `LEGACY` und `CORRECTED`. Standardwert: `LEGACY`
`mergeSchema` Typ: `Boolean` Gibt an, ob das Schema über mehrere Dateien hinweg abgeleitet und das Schema der einzelnen Dateien zusammengeführt werden soll. `mergeSchema` für Avro bewirkt keine Lockerung von Datentypen. Standardwert: `false`
`readerCaseSensitive` Typ: `Boolean` Diese Option gibt das Verhalten bei Groß- und Kleinschreibung an, wenn `rescuedDataColumn` aktiviert ist. Bei „True“ werden die Datenspalten wiederhergestellt, deren Namen in Bezug auf Groß- und Kleinschreibung vom Schema abweichen. Andernfalls werden die Daten ohne Beachtung der Groß- und Kleinschreibung gelesen. Standardwert: `true`
`rescuedDataColumn` Typ: `String` Gibt an, ob alle Daten, die aufgrund eines Datentypkonflikts oder eines Schemakonflikts (einschließlich der Schreibweise von Spaltennamen) nicht geparst werden können, in einer separaten Spalte gesammelt werden sollen. Diese Spalte ist bei Verwendung des Autoloaders standardmäßig enthalten. `COPY INTO` (Legacy) unterstützt die gerettete Datenspalte nicht, da Sie das Schema nicht manuell mit `COPY INTO`festlegen können. Databricks empfiehlt die Verwendung des automatischen Ladens für die meisten Aufnahmeszenarien. Weitere Informationen finden Sie unter "Was ist die Spalte mit den geretteten Daten?". Standardwert: None

`BINARYFILE`-Optionen

Für Binärdateien gibt es keine zusätzlichen Konfigurationsoptionen.

`TEXT`-Optionen

Auswahlmöglichkeit
`encoding` Typ: `String` Der Name der Codierung des TEXT-Dateizeilentrennzeichens. Eine Liste der Optionen finden Sie unter `java.nio.charset.Charset`. Der Inhalt der Datei ist von dieser Option nicht betroffen und wird as-isgelesen. Standardwert: `UTF-8`
`lineSep` Typ: `String` Eine Zeichenfolge zwischen zwei aufeinander folgenden TEXT-Datensätzen. Standardwert: ohne (deckt `\r`, `\r\n` und `\n` ab)
`wholeText` Typ: `Boolean` Gibt an, ob eine Datei als einzelner Datensatz gelesen werden soll. Standardwert: `false`

`ORC`-Optionen

Auswahlmöglichkeit
`mergeSchema` Typ: `Boolean` Gibt an, ob das Schema über mehrere Dateien hinweg abgeleitet und das Schema der einzelnen Dateien zusammengeführt werden soll. Standardwert: `false`

Cloudspezifische Optionen

Autoloader bietet eine Reihe von Optionen zum Konfigurieren der Cloudinfrastruktur.

AWS-spezifische Optionen
Azure-spezifische Optionen
Google-spezifische Optionen

AWS-spezifische Optionen

Geben Sie die folgende Option nur an, wenn Sie cloudFiles.useNotifications = true festlegen und möchten, dass der Autoloader die Benachrichtigungsdienste für Sie einrichtet:

Auswahlmöglichkeit
`cloudFiles.region` Typ: `String` Die Region, in der sich der S3-Quellbucket befindet und in der die AWS SNS- und SQS-Dienste erstellt werden. Standard: Die Region der EC2-Instanz.

Geben Sie die folgende Option nur an, wenn Sie cloudFiles.useNotifications = true auswählen und möchten, dass der Autoloader eine Warteschlange verwendet, die Sie bereits eingerichtet haben:

Auswahlmöglichkeit
`cloudFiles.queueUrl` Typ: `String` Die URL der SQS-Warteschlange. Wenn dies angegeben ist, bezieht das Autoladeprogramm Ereignisse direkt aus dieser Warteschlange, anstatt eigene AWS SNS- und SQS-Dienste einzurichten. Standard: Keine

AWS-Authentifizierungsoptionen

Geben Sie die folgende Authentifizierungsoption für die Verwendung von Databricks-Dienstanmeldeinformationen an:

Auswahlmöglichkeit
`databricks.serviceCredential` Typ: `String` Der Name Ihrer Databricks-Dienstanmeldeinformationen. Verfügbar in Databricks Runtime 16.1 und höher. Standard: Keine

Wenn Databricks-Dienstanmeldeinformationen oder IAM-Rollen nicht verfügbar sind, können Sie stattdessen die folgenden Authentifizierungsoptionen bereitstellen:

Optionen
`cloudFiles.awsAccessKey` Typ: `String` Die ID des AWS-Zugriffsschlüssels für den Benutzer. Muss mit `cloudFiles.awsSecretKey` bereitgestellt werden. Standard: Keine
`cloudFiles.awsSecretKey` Typ: `String` Der geheime AWS-Zugriffsschlüssel für den Benutzer. Muss mit `cloudFiles.awsAccessKey` bereitgestellt werden. Standard: Keine
`cloudFiles.roleArn` Typ: `String` ARN einer IAM-Rolle anzunehmen nach Bedarf. Die Rolle kann entweder aus dem Instanzprofil Ihres Clusters übernommen werden oder indem Anmeldeinformationen mit `cloudFiles.awsAccessKey` und `cloudFiles.awsSecretKey` bereitgestellt werden. Standard: Keine
`cloudFiles.roleExternalId` Typ: `String` Ein Bezeichner, der beim Annehmen einer Rolle mit `cloudFiles.roleArn` angegeben werden muss. Standard: Keine
`cloudFiles.roleSessionName` Typ: `String` Ein optionaler Sitzungsname zur Verwendung beim Annehmen einer Rolle mit `cloudFiles.roleArn`. Standard: Keine
`cloudFiles.stsEndpoint` Typ: `String` Ein optionaler Endpunkt, der für den Zugriff auf AWS STS angegeben wird, wenn mit `cloudFiles.roleArn` eine Rolle angenommen wird. Standard: Keine

Azure-spezifische Optionen

Sie müssen Werte für alle folgenden Optionen angeben, wenn Sie cloudFiles.useNotifications = true festlegen und möchten, dass der Autoloader die Benachrichtigungsdienste für Sie einrichtet:

Optionen
`cloudFiles.resourceGroup` Typ: `String` Die Azure-Ressourcengruppe, unter der das Speicherkonto erstellt wird. Standard: Keine
`cloudFiles.subscriptionId` Typ: `String` Die Azure-Abonnement-ID, unter der die Ressourcengruppe erstellt wird. Standard: Keine
`databricks.serviceCredential` Typ: `String` Der Name Ihrer Databricks-Dienstanmeldeinformationen. Verfügbar in Databricks Runtime 16.1 und höher. Standard: Keine

Wenn keine Databricks-Dienstanmeldeinformationen verfügbar sind, können Sie stattdessen die folgenden Authentifizierungsoptionen bereitstellen:

Optionen
`cloudFiles.clientId` Typ: `String` Die Client-ID oder Anwendungs-ID des Dienstprinzipals. Standard: Keine
`cloudFiles.clientSecret` Typ: `String` Das Kundengeheimnis des Dienstherrn. Standard: Keine
`cloudFiles.connectionString` Typ: `String` Die Verbindungszeichenfolge für das Speicherkonto, basierend entweder auf dem Kontozugriffsschlüssel oder der gemeinsamen Zugriffssignatur (SAS). Standard: Keine
`cloudFiles.tenantId` Typ: `String` Die Azure-Mandanten-ID, unter der der Dienstprinzipal erstellt wird. Standard: Keine

Wichtig

Die automatisierte Einrichtung von Benachrichtigungen ist in den Azure China und Government-Regionen mit Databricks Runtime 9.1 und höher verfügbar. Sie müssen einen queueName angeben, um den Autoloader mit Dateibenachrichtigungen in diesen Regionen für ältere DBR-Versionen zu verwenden.

Geben Sie die folgende Option nur an, wenn Sie cloudFiles.useNotifications = true auswählen und möchten, dass der Autoloader eine Warteschlange verwendet, die Sie bereits eingerichtet haben:

Auswahlmöglichkeit
`cloudFiles.queueName` Typ: `String` Der Name der Azure-Warteschlange. Wenn dieser angegeben ist, bezieht die Clouddateiquelle Ereignisse direkt aus dieser Warteschlange, anstatt eigene Azure Event Grid- und Queue Storage-Dienste einzurichten. In diesem Fall benötigen `databricks.serviceCredential` und `cloudFiles.connectionString` nur Leseberechtigungen für die Warteschlange. Standard: Keine

Google-spezifische Optionen

Auto Loader kann Benachrichtigungsdienste automatisch für Sie einrichten, indem Sie Databricks-Dienstanmeldeinformationen nutzen. Das mit den Databricks-Dienstanmeldeinformationen erstellte Dienstkonto erfordert die Berechtigungen, die im Konfigurationsmodus für Auto Loader Streams im Dateibenachrichtigungsmodus angegeben sind.

Optionen
`cloudFiles.projectId` Typ: `String` Die ID des Projekts, in dem sich der GCS-Bucket befindet. Das Google Cloud Pub/Sub-Abonnement wird ebenfalls in diesem Projekt erstellt. Standard: Keine
`databricks.serviceCredential` Typ: `String` Der Name Ihrer Databricks-Dienstanmeldeinformationen. Verfügbar in Databricks Runtime 16.1 und höher. Standard: Keine

Wenn keine Databricks-Dienstanmeldeinformationen verfügbar sind, können Sie Google Service-Konten direkt verwenden. Sie können Entweder Ihren Cluster so konfigurieren, dass ein Dienstkonto angenommen wird, indem Sie die Einrichtung des Google-Diensts ausführen oder die folgenden Authentifizierungsoptionen direkt bereitstellen:

Optionen
`cloudFiles.client` Typ: `String` Die Client-ID des Google-Dienstkontos. Standard: Keine
`cloudFiles.clientEmail` Typ: `String` Die E-Mail-Adresse des Google-Dienstkontos. Standard: Keine
`cloudFiles.privateKey` Typ: `String` Der private Schlüssel, der für das Google Service-Konto generiert wird. Standard: Keine
`cloudFiles.privateKeyId` Typ: `String` Die ID des privaten Schlüssels, der für das Google Service-Konto generiert wird. Standard: Keine

Geben Sie die folgende Option nur an, wenn Sie cloudFiles.useNotifications = true auswählen und möchten, dass der Autoloader eine Warteschlange verwendet, die Sie bereits eingerichtet haben:

Auswahlmöglichkeit
`cloudFiles.subscription` Typ: `String` Der Name des Google Cloud Pub/Sub-Abonnements. Falls angegeben, nutzt die Clouddateiquelle Ereignisse aus dieser Warteschlange, anstatt eigene GCS-Benachrichtigungs- und Google Cloud Pub/Sub-Dienste einzurichten. Standard: Keine

Freigeben über

Optionen für den Autoloader

Allgemeine Optionen für den Autoloader

Optionen für die Verzeichnisauflistung

Dateibenachrichtigungsoptionen

Dateiformatoptionen

Generische Optionen

JSON-Optionen

CSV-Optionen

XML-Optionen

PARQUET-Optionen

AVRO-Optionen

BINARYFILE-Optionen

TEXT-Optionen

ORC-Optionen

Cloudspezifische Optionen

AWS-spezifische Optionen

AWS-Authentifizierungsoptionen

Azure-spezifische Optionen

Google-spezifische Optionen

Feedback

Zusätzliche Ressourcen

`JSON`-Optionen

`CSV`-Optionen

`XML`-Optionen

`PARQUET`-Optionen

`AVRO`-Optionen

`BINARYFILE`-Optionen

`TEXT`-Optionen

`ORC`-Optionen