Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Spezifischen Konfigurationsoptionen für die cloudFiles
-Quelle wird das Präfix cloudFiles
vorangestellt, sodass sie sich in einem separaten, von anderen Quellenoptionen für strukturiertes Streaming getrennten Namespace befinden.
- Allgemeine Optionen für das automatische Laden
- Optionen für Verzeichnisauflistung
- Dateibenachrichtigungsoptionen
- Dateiformatoptionen
- Cloudspezifische Optionen
Allgemeine Optionen für den Autoloader
Sie können die folgenden Optionen für Auto Loader-Datenströme konfigurieren.
Optionen |
---|
cloudFiles.allowOverwrites Typ: Boolean Gibt an, ob Änderungen der Eingabeverzeichnisdatei zum Überschreiben vorhandener Daten zulässig sind. Informationen zu Konfigurationseinschränkungen finden Sie unter Verarbeitet das automatische Laden die Datei erneut, wenn die Datei angefügt oder überschrieben wird?. Standard: false |
cloudFiles.backfillInterval Typ: Interval String Auto Loader kann asynchrone Rückfüllungen in einem bestimmten Intervall auslösen. Beispiel 1 day : tägliches Ausfüllen oder 1 week wöchentliches Zurückfüllen. Weitere Informationen finden Sie unter Regelmäßige Rückfüllungen mit cloudFiles.backfillInterval auslösen.Nicht verwenden, wenn cloudFiles.useManagedFileEvents auf true eingestellt ist.Standard: Keine |
cloudFiles.cleanSource Typ: String Gibt an, ob verarbeitete Dateien automatisch aus dem Eingabeverzeichnis gelöscht werden sollen. Bei Festlegung auf OFF (Standard) werden keine Dateien gelöscht.Wenn diese Einstellung auf DELETE "Auto Loader" festgelegt ist, werden Dateien automatisch 30 Tage nach der Verarbeitung gelöscht. Dazu muss das automatische Laden über Schreibberechtigungen für das Quellverzeichnis verfügen.Wenn dieser Wert auf "Auto Loader" festgelegt ist MOVE , werden Dateien nach der Verarbeitung in cloudFiles.cleanSource.moveDestination 30 Tagen automatisch an den angegebenen Speicherort verschoben. Autoloader muss über Schreibberechtigungen für das Quellverzeichnis sowie den Verschiebungsort verfügen.Eine Datei wird als verarbeitet betrachtet, wenn sie einen Wert ungleich NULL in commit_time im Ergebnis der cloud_files_state Tabellenwertfunktion zurückgibt. Siehe cloud_files_state Tabellenwertfunktion. Die 30-tägige zusätzliche Wartezeit nach der Bearbeitung kann mit cloudFiles.cleanSource.retentionDuration konfiguriert werden.Hinweis: Databricks empfiehlt die Verwendung dieser Option nicht, wenn mehrere Datenströme Daten vom Quellspeicherort konsumieren, da der schnellste Konsument die Dateien löscht und diese in den langsameren Quellen nicht aufgenommen werden. Hinweis: Das Aktivieren dieses Features erfordert, dass Autoloader zusätzlichen Zustand in seinem Prüfpunkt beibehält, was zwar zu Leistungseinbußen führt, aber eine verbesserte Beobachtbarkeit über die cloud_files_state Tabellenwertfunktion ermöglicht. Siehe cloud_files_state Tabellenwertfunktion.Hinweis: cleanSource verwendet die aktuelle Einstellung, um zu entscheiden, ob eine Datei MOVE oder DELETE wird. Angenommen, die Einstellung war MOVE , als die Datei ursprünglich verarbeitet wurde, wurde aber in DELETE geändert, als die Datei 30 Tage später zum Kandidaten für die Bereinigung wurde. In diesem Fall löscht cleanSource die Datei.Verfügbar in Databricks Runtime 16.4 und höher. Voreinstellung: AUS |
cloudFiles.cleanSource.retentionDuration Typ: Interval String Die Anzahl der Zeit, die gewartet werden muss, bevor verarbeitete Dateien zu Archivierungskandidaten mit cleanSource werden. Für DELETE muss es größer als 7 Tage sein. Keine Mindesteinschränkung für MOVE .Verfügbar in Databricks Runtime 16.4 und höher. Standardwert: 30 Tage |
cloudFiles.cleanSource.moveDestination Typ: String Pfad zum Archivieren verarbeiteter Dateien, wenn cloudFiles.cleanSource auf MOVE gesetzt wird.Der Zielort der Verschiebung ist auf folgende Weise eingeschränkt:
Auto Loader muss Schreibberechtigungen für dieses Verzeichnis besitzen. Verfügbar in Databricks Runtime 16.4 und höher. Standardwert: None |
cloudFiles.format Typ: String Das Datendateiformat im Quellpfad. Zulässige Werte sind:
Standard: Keine (erforderliche Option) |
cloudFiles.includeExistingFiles Typ: Boolean Gibt an, ob vorhandene Dateien in den Eingabepfad für die Streamverarbeitung einbezogen werden, oder ob nur neue Dateien verarbeitet werden sollen, die nach der Ersteinrichtung eingehen. Diese Option wird nur ausgewertet, wenn Sie einen Stream zum ersten Mal starten. Das Ändern dieser Option nach dem Neustart des Streams hat keine Auswirkungen. Standard: true |
cloudFiles.inferColumnTypes Typ: Boolean Gibt an, ob exakte Spaltentypen abgeleitet werden sollen, wenn der Schemarückschluss verwendet wird. Standardmäßig werden Spalten als Zeichenfolgen abgeleitet, wenn JSON- und CSV-Datasets abgeleitet werden. Weitere Informationen finden Sie unter schemainference . Standard: false |
cloudFiles.maxBytesPerTrigger Typ: Byte String Die maximale Anzahl neuer Bytes, die in jedem Trigger verarbeitet werden sollen. Sie können eine Bytezeichenfolge wie z. B. 10g angeben, um jeden Microbatch auf 10 GB Daten zu beschränken. Dies ist ein weicher Maximalwert. Wenn Sie über Dateien mit jeweils 3 GB verfügen, verarbeitet Azure Databricks 12 GB in einem Microbatch. Bei Verwendung in Kombination mit cloudFiles.maxFilesPerTrigger steigt der Verbrauch von Azure Databricks bis zur Untergrenze von cloudFiles.maxFilesPerTrigger oder cloudFiles.maxBytesPerTrigger , je nachdem, welcher Wert zuerst erreicht wird. Diese Option hat keine Auswirkung, wenn sie mit Trigger.Once() verwendet wird (Trigger.Once() ist veraltet).Standard: Keine |
cloudFiles.maxFileAge Typ: Interval String Gibt an, wie lange ein Dateiereignis zu Deduplizierungszwecken nachverfolgt wird. Databricks empfiehlt, diesen Parameter nur dann anzupassen, wenn Sie Daten in einer Größenordnung von mehreren Millionen Dateien pro Stunde erfassen. Weitere Informationen finden Sie im Abschnitt zur Dateiereignisverfolgung . Eine zu aggressive Optimierung von cloudFiles.maxFileAge kann zu Problemen mit der Datenqualität führen, z. B. zu doppelter Erfassung oder fehlenden Dateien. Daher empfiehlt Databricks eine konservative Einstellung für cloudFiles.maxFileAge , z. B. 90 Tage. Dies entspricht ungefähr der Empfehlung vergleichbarer Datenerfassungslösungen.Standard: Keine |
cloudFiles.maxFilesPerTrigger Typ: Integer Die maximale Anzahl neuer Dateien, die in jedem Trigger verarbeitet werden sollen. Bei Verwendung in Kombination mit cloudFiles.maxBytesPerTrigger steigt der Verbrauch von Azure Databricks bis zur Untergrenze von cloudFiles.maxFilesPerTrigger oder cloudFiles.maxBytesPerTrigger , je nachdem, welcher Wert zuerst erreicht wird. Diese Option hat keine Auswirkung, wenn sie mit Trigger.Once() (veraltet) verwendet wird.Standardwert: 1000 |
cloudFiles.partitionColumns Typ: String Eine durch Komma getrennte Liste von Partitionsspalten im Hive-Stil, die aus der Verzeichnisstruktur der Dateien abgeleitet werden sollen. Partitionsspalten im Hive-Stil sind Schlüssel-Wert-Paare, die durch ein Gleichheitszeichen wie <base-path>/a=x/b=1/c=y/file.format kombiniert werden. In diesem Beispiel sind die Partitionsspalten a , b und c . Standardmäßig werden diese Spalten automatisch zu Ihrem Schema hinzugefügt, wenn Sie Schemaerkennung verwenden und das <base-path> zum Laden von Daten bereitstellen. Wenn Sie ein Schema bereitstellen, erwartet Autoloader, dass diese Spalten im Schema enthalten sind. Wenn Sie diese Spalten nicht als Teil des Schemas verwenden möchten, können Sie angeben, dass "" diese Spalten ignoriert. Darüber hinaus können Sie diese Option verwenden, wenn Spalten aus dem Dateipfad in komplexen Verzeichnisstrukturen wie im untenstehenden Beispiel abgeleitet werden sollen.<base-path>/year=2022/week=1/file1.csv <base-path>/year=2022/month=2/day=3/file2.csv <base-path>/year=2022/month=2/day=4/file3.csv Die Spezifizierung von cloudFiles.partitionColumns als year,month,day gibt year=2022 für file1.csv zurück, aber die Spalten month und day sind null .month und day werden richtig analysiert für file2.csv und file3.csv .Standard: Keine |
cloudFiles.schemaEvolutionMode Typ: String Der Modus zum Weiterentwickeln des Schemas, wenn neue Spalten in den Daten ermittelt werden. Standardmäßig werden Spalten als Zeichenfolgen abgeleitet, wenn JSON-Datasets abgeleitet werden. Weitere Informationen finden Sie in der Schemaentwicklung . Standard: addNewColumns wenn kein Schema bereitgestellt wird, none andernfalls |
cloudFiles.schemaHints Typ: String Schemainformationen, die Sie dem Autoloader während der Schema-Inferenz bereitstellen. Weitere Informationen finden Sie unter Schemahinweise . Standard: Keine |
cloudFiles.schemaLocation Typ: String Der Speicherort, an dem das abgeleitete Schema und nachfolgende Änderungen gespeichert werden. Weitere Informationen finden Sie unter schemainference . Standard: Keine (erforderlich, um das Schema abzuleiten) |
cloudFiles.useStrictGlobber Typ: Boolean Gibt an, ob ein strenger Globber verwendet werden soll, der dem Standard-Globbingverhalten anderer Dateiquellen in Apache Spark entspricht. Weitere Informationen finden Sie unter "Allgemeine Datenlademuster ". Verfügbar in Databricks Runtime 12.2 LTS und höher. Standard: false |
cloudFiles.validateOptions Typ: Boolean Gibt an, ob die Autoloader-Optionen überprüft werden und ob bei unbekannten oder inkonsistenten Optionen ein Fehler ausgegeben werden soll. Standard: true |
Optionen für die Verzeichnisauflistung
Die folgenden Optionen sind für den Verzeichnisauflistungsmodus relevant.
Optionen |
---|
cloudFiles.useIncrementalListing (veraltet)Typ: String Diese Funktion wurde eingestellt. Databricks empfiehlt die Verwendung des Dateibenachrichtigungsmodus mit Dateiereignissen anstelle von cloudFiles.useIncrementalListing .Gibt an, ob im Verzeichnisauflistungsmodus anstelle der vollständigen Auflistung die inkrementelle Auflistung verwendet werden soll. Standardmäßig versucht der Autoloader, automatisch zu ermitteln, ob ein bestimmtes Verzeichnis für die inkrementelle Auflistung geeignet ist. Sie können explizit die inkrementelle Auflistung oder die vollständige Verzeichnisauflistung verwenden, indem Sie den Wert true bzw. false festlegen.Eine nicht ordnungsgemäße Aktivierung der inkrementellen Auflistung in einem nicht lexikalisch sortierten Verzeichnis verhindert, dass der Autoloader neue Dateien erkennt. Arbeitet mit Azure Data Lake Storage ( abfss:// ), S3 (s3:// ) und GCS (gs:// ).Verfügbar in Databricks Runtime 9.1 LTS und höher. Standard: auto auf Databricks Runtime 16.4 LTS und darunter, false auf Databricks Runtime 17.0 und darüberVerfügbare Werte: auto , true , false |
Dateibenachrichtigungsoptionen
Die folgenden Optionen sind für den Dateibenachrichtigungsmodus relevant.
Optionen |
---|
cloudFiles.fetchParallelism Typ: Integer Anzahl der Threads, die beim Abrufen von Nachrichten aus dem Warteschlangendienst verwendet werden. Nicht verwenden, wenn cloudFiles.useManagedFileEvents auf true eingestellt ist.Standardwert: 1 |
cloudFiles.pathRewrites Typ: Eine JSON-Zeichenfolge Wird nur benötigt, wenn Sie ein queueUrl angeben, das Dateibenachrichtigungen von mehreren S3-Buckets empfängt und Sie Einhängepunkte nutzen möchten, die für den Zugriff auf Daten in diesen Containern konfiguriert sind. Verwenden Sie diese Option, um das Präfix des bucket/key -Pfads mit dem Bereitstellungspunkt umzuschreiben. Nur Präfixe können umgeschrieben werden. Zum Beispiel wird bei der Konfiguration {"<databricks-mounted-bucket>/path": "dbfs:/mnt/data-warehouse"} der Pfad s3://<databricks-mounted-bucket>/path/2017/08/fileA.json in dbfs:/mnt/data-warehouse/2017/08/fileA.json umgeschrieben.Nicht verwenden, wenn cloudFiles.useManagedFileEvents auf true eingestellt ist.Standard: Keine |
cloudFiles.resourceTag Typ: Map(String, String) Eine Reihe von Schlüssel-Wert-Tagpaaren zum Zuordnen und Identifizieren verwandter Ressourcen. Beispiel: cloudFiles.option("cloudFiles.resourceTag.myFirstKey", "myFirstValue") .option("cloudFiles.resourceTag.mySecondKey", "mySecondValue") Weitere Informationen zu AWS finden Sie unter Amazon SQS Kostenzuordnungstags und Konfigurieren von Tags für ein Amazon SNS-Thema. (1) Weitere Informationen zu Azure finden Sie unter Benennen von Warteschlangen und Metadaten und die Berichterstattung über properties.labels in Ereignisabonnements. Der Autoloader speichert diese Schlüssel-Wert-Tagpaare in JSON als Bezeichnungen.
(1)Weitere Informationen zu GCP finden Sie unter Nutzung mit Labels melden. (1) Nicht verwenden, wenn cloudFiles.useManagedFileEvents auf true eingestellt ist. Legen Sie stattdessen Ressourcentags mithilfe der Cloudanbieterkonsole fest.Standard: Keine |
cloudFiles.useManagedFileEvents Vorschau: Die Unterstützung des automatischen Ladeprogramms für Dateiereignisse befindet sich in der öffentlichen Vorschau. Es ist nur für Databricks Runtime 14.3 LTS und höher verfügbar. Wenden Sie sich an Ihr Azure Databricks-Kontoteam, um sich bei der Vorschau anzumelden. Wenn true festgelegt ist, verwendet Auto Loader den Dateiereignisdienst, um Dateien an Ihrem externen Standort zu entdecken. Sie können diese Option nur verwenden, wenn sich der Ladepfad an einem externen Speicherort mit aktivierten Dateivorgängen befindet. Siehe Verwenden des Dateibenachrichtigungsmodus mit Dateiereignissen.Dateiereignisse bieten eine Performance auf Benachrichtigungsebene bei der Dateierkennung, da Auto Loader neue Dateien seit dem letzten Durchlauf feststellen kann. Im Gegensatz zur Verzeichnisauflistung muss dieser Prozess nicht alle Dateien im Verzeichnis auflisten. Es gibt einige Situationen, in denen der Auto Loader die Verzeichnisauflistung verwendet, obwohl die Option "Dateiereignisse" aktiviert ist.
|
cloudFiles.useNotifications Typ: Boolean Gibt an, ob mithilfe des Dateibenachrichtigungsmodus bestimmt werden soll, ob neue Dateien verfügbar sind. Bei einer Festlegung auf false wird der Verzeichnisauflistungsmodus verwendet. Siehe "Vergleichen Sie die Modi zur Dateierkennung beim automatischen Laden".Nicht verwenden, wenn cloudFiles.useManagedFileEvents auf true eingestellt ist.Standard: false |
(1) Der Autoloader fügt standardmäßig die folgenden Schlüssel-Wert-Tagpaare nach bestem Bemühen hinzu:
-
vendor
:Databricks
-
path
: Der Speicherort, von dem aus die Daten geladen werden. In GCP aufgrund von Bezeichnungseinschränkungen nicht verfügbar. -
checkpointLocation
: Die Position des Stream-Checkpoints. In GCP aufgrund von Bezeichnungseinschränkungen nicht verfügbar. -
streamId
: Ein global eindeutiger Bezeichner für den Stream.
Diese Schlüsselnamen sind reserviert, und Sie können ihre Werte nicht überschreiben.
Dateiformatoptionen
Mit dem Autoloader können Sie JSON
-, CSV
-, PARQUET
-, AVRO
-, TEXT
-, BINARYFILE
- und ORC
-Dateien erfassen.
- Generische Optionen
-
JSON
Optionen -
CSV
Optionen -
XML
Optionen -
PARQUET
Optionen -
AVRO
Optionen -
BINARYFILE
Optionen -
TEXT
Optionen -
ORC
Optionen
Generische Optionen
Die folgenden Optionen gelten für alle Dateiformate.
Auswahlmöglichkeit |
---|
ignoreCorruptFiles Typ: Boolean Gibt an, ob beschädigte Dateien ignoriert werden sollen. Bei TRUE werden die Spark-Aufträge weiterhin ausgeführt, wenn beschädigte Dateien festgestellt werden, und gelesene Inhalte werden weiterhin zurückgegeben. Beobachtbar wie numSkippedCorruptFiles in deroperationMetrics -Spalte des Delta Lake-Verlaufs. Verfügbar in Databricks Runtime 11.3 LTS und höher.Standardwert: false |
ignoreMissingFiles Typ: Boolean Gibt an, ob fehlende Dateien ignoriert werden sollen. Bei TRUE werden die Spark-Aufträge weiterhin ausgeführt, wenn fehlende Dateien festgestellt werden, und gelesene Inhalte werden weiterhin zurückgegeben. Verfügbar in Databricks Runtime 11.3 LTS und höher. Standardwert: false für das automatische Laden true für COPY INTO (Legacy) |
modifiedAfter Typ: Timestamp String , z. B. 2021-01-01 00:00:00.000000 UTC+0 Optionaler Zeitstempel als Filter, um nur Dateien aufzunehmen, die nach dem angegebenen Zeitstempel einen Änderungszeitstempel aufweisen. Standardwert: None |
modifiedBefore Typ: Timestamp String , z. B. 2021-01-01 00:00:00.000000 UTC+0 Ein optionaler Zeitstempel als Filter, um nur Dateien aufzunehmen, die einen Änderungszeitstempel vor dem bereitgestellten Zeitstempel aufweisen. Standardwert: None |
pathGlobFilter oder fileNamePattern Typ: String Ein mögliches Globmuster für die Auswahl von Dateien. Entspricht PATTERN in COPY INTO (Legacy).
fileNamePattern kann in read_files verwendet werden.Standardwert: None |
recursiveFileLookup Typ: Boolean Diese Option durchsucht geschachtelte Verzeichnisse, auch wenn ihre Namen keinem Partitionsbenennungsschema folgen, z. B. date=2019-07-01. Standardwert: false |
JSON
-Optionen
Auswahlmöglichkeit |
---|
allowBackslashEscapingAnyCharacter Typ: Boolean Gibt an, ob umgekehrte Schrägstriche als Escapezeichen für das folgende Zeichen zugelassen werden sollen. Wenn diese Option nicht aktiviert ist, können nur Zeichen mit Escapezeichen versehen werden, die explizit in der JSON-Spezifikation aufgeführt werden. Standardwert: false |
allowComments Typ: Boolean Gibt an, ob die Verwendung von Java-, C- und C++-Kommentaren ( '/' , '*' bzw. '//' ) in analysierten Inhalten zugelassen werden soll oder nicht.Standardwert: false |
allowNonNumericNumbers Typ: Boolean Gibt an, ob die Menge der NaN -Token (Not-a-Number) als zulässige Gleitkommazahlenwerte zugelassen werden soll.Standardwert: true |
allowNumericLeadingZeros Typ: Boolean Gibt an, ob ganze Zahlen mit zusätzlichen (zu ignorierenden) Nullen beginnen sollen (z. B. 000001 ).Standardwert: false |
allowSingleQuotes Typ: Boolean Gibt an, ob die Verwendung von einfachen Anführungszeichen (Apostroph, Zeichen '\' ) für das Zitieren von Zeichenfolgen, einschließlich Namen und Werte, zugelassen werden soll.Standardwert: true |
allowUnquotedControlChars Typ: Boolean Gibt an, ob JSON-Zeichenfolgen Steuerzeichen ohne Escapezeichen (ASCII-Zeichen mit einem Wert kleiner als 32, z. B. Tabstopp- und Zeilenvorschubzeichen) enthalten dürfen. Standardwert: false |
allowUnquotedFieldNames Typ: Boolean Gibt an, ob die Verwendung von Feldnamen ohne Anführungszeichen zugelassen werden soll (die von JavaScript, aber nicht von der JSON-Spezifikation zugelassen werden). Standardwert: false |
badRecordsPath Typ: String Der Pfad zum Speichern von Dateien zur Aufzeichnung von Informationen über fehlerhafte JSON-Datensätze. Die Verwendung der badRecordsPath Option in einer dateibasierten Datenquelle hat die folgenden Einschränkungen:
Standardwert: None |
columnNameOfCorruptRecord Typ: String Die Spalte zum Speichern von Datensätzen, die fehlerhaft formatiert sind und nicht analysiert werden können. Wenn mode für die Analyse auf DROPMALFORMED festgelegt ist, ist diese Spalte leer.Standardwert: _corrupt_record |
dateFormat Typ: String Das Format für die Analyse von Datumszeichenfolgen. Standardwert: yyyy-MM-dd |
dropFieldIfAllNull Typ: Boolean Ob Spalten während der Schemaerkennung ignoriert werden sollen, die nur NULL-Werte oder leere Arrays und Strukturen enthalten. Standardwert: false |
encoding oder charset Typ: String Der Name der Codierung der JSON-Dateien. Eine Liste der Optionen finden Sie unter java.nio.charset.Charset . Sie können UTF-16 und UTF-32 nicht verwenden, wenn multiline true ist.Standardwert: UTF-8 |
inferTimestamp Typ: Boolean Gibt an, ob versucht werden soll, Zeitstempelzeichenfolgen als TimestampType abzuleiten. Wenn festgelegt auftrue , die Schemaableitung könnte merklich länger dauern. Für die Verwendung mit dem Autoloader müssen Sie cloudFiles.inferColumnTypes aktivieren.Standardwert: false |
lineSep Typ: String Eine Zeichenfolge zwischen zwei aufeinander folgenden JSON-Datensätzen. Standardwert: ohne (deckt \r , \r\n und \n ab) |
locale Typ: String Ein java.util.Locale -Bezeichner. Beeinflusst die standardmäßige Analyse von Datumsangaben, Zeitstempeln und Dezimalzahlen im JSON-Code.Standardwert: US |
mode Typ: String Parsermodus für die Verarbeitung fehlerhaft formatierter Datensätze. Einer der folgenden Werte: PERMISSIVE , DROPMALFORMED oder FAILFAST .Standardwert: PERMISSIVE |
multiLine Typ: Boolean Gibt an, ob die JSON-Datensätze mehrere Zeilen umfassen. Standardwert: false |
prefersDecimal Typ: Boolean Versucht, Zeichenfolgen nach Möglichkeit als DecimalType abzuleiten, nicht als float- oder double-Typ. Sie müssen auch den Schemarückschluss verwenden, indem Sie entwederinferSchema oder cloudFiles.inferColumnTypes in Verbindung mit dem Auto Loader verwenden.Standardwert: false |
primitivesAsString Typ: Boolean Gibt an, ob primitive Typen wie Zahlen und boolesche Werte als StringType abgeleitet werden sollen.Standardwert: false |
readerCaseSensitive Typ: Boolean Diese Option gibt das Verhalten bei Groß- und Kleinschreibung an, wenn rescuedDataColumn aktiviert ist. Bei „True“ werden die Datenspalten wiederhergestellt, deren Namen in Bezug auf Groß- und Kleinschreibung vom Schema abweichen. Andernfalls werden die Daten ohne Beachtung der Groß- und Kleinschreibung gelesen. Verfügbar in Databricks Runtime13.3 und höher. Standardwert: true |
rescuedDataColumn Typ: String Gibt an, ob alle Daten, die aufgrund eines Datentypkonflikts oder Schemakonflikts (einschließlich Spaltenschreibweise) nicht analysiert werden können, in einer separaten Spalte erfasst werden sollen. Diese Spalte ist bei Verwendung des Autoloaders standardmäßig enthalten. Weitere Informationen finden Sie unter "Was ist die Spalte für gerettete Daten?". COPY INTO (Legacy) unterstützt die gerettete Datenspalte nicht, da Sie das Schema nicht manuell mit COPY INTO festlegen können. Databricks empfiehlt die Verwendung des automatischen Ladens für die meisten Aufnahmeszenarien.Standardwert: None |
singleVariantColumn Typ: String Gibt an, ob das gesamte JSON-Dokument in einer einzelnen Spalte „Variante“ geparst mit der angegebenen Zeichenfolge als Spaltenname erfasst werden soll. Wenn dies deaktiviert ist, werden die JSON-Felder in ihren eigenen Spalten erfasst. Standardwert: None |
timestampFormat Typ: String Das Format zum Analysieren von Zeitstempelzeichenfolgen. Standardwert: yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX] |
timeZone Typ: String Die java.time.ZoneId , die beim Analysieren von Zeitstempeln und Datumsangaben verwendet werden soll.Standardwert: None |
CSV
-Optionen
Auswahlmöglichkeit |
---|
badRecordsPath Typ: String Der Speicherpfad für Dateien, die Informationen über fehlerhafte CSV-Datensätze aufzeichnen. Standardwert: None |
charToEscapeQuoteEscaping Typ: Char Das Zeichen, das als Escapezeichen für das Zeichen verwendet wird, das als Escapezeichen für Anführungszeichen verwendet wird. z. B. für den Datensatz [ " a\\", b ] :
Standardwert: '\0' |
columnNameOfCorruptRecord Unterstützt für Autoloader. Wird für COPY INTO (Legacy) nicht unterstützt.Typ: String Die Spalte zum Speichern von Datensätzen, die fehlerhaft formatiert sind und nicht analysiert werden können. Wenn mode für die Analyse auf DROPMALFORMED festgelegt ist, ist diese Spalte leer.Standardwert: _corrupt_record |
comment Typ: Char Definiert das Zeichen, das einen Zeilenkommentar darstellt, wenn es am Anfang einer Textzeile steht. Verwenden Sie '\0' , um das Überspringen von Kommentaren zu deaktivieren.Standardwert: '\u0000' |
dateFormat Typ: String Das Format für die Analyse von Datumszeichenfolgen. Standardwert: yyyy-MM-dd |
emptyValue Typ: String Zeichenfolgendarstellung eines leeren Werts. Standardwert: "" |
encoding oder charset Typ: String Der Name der Codierung der CSV-Dateien. Eine Liste der Optionen finden Sie unter java.nio.charset.Charset .
UTF-16 und UTF-32 können nicht verwendet werden, wenn multiline ist true .Standardwert: UTF-8 |
enforceSchema Typ: Boolean Gibt an, ob das angegebene oder abgeleitete Schema zwangsweise auf die CSV-Dateien angewendet werden soll. Wenn die Option aktiviert ist, werden Kopfzeilen von CSV-Dateien ignoriert. Diese Option wird standardmäßig ignoriert, wenn der Autoloader verwendet wird, um Daten zu retten und die Schemaentwicklung zu ermöglichen. Standardwert: true |
escape Typ: Char Das Escapezeichen, das beim Analysieren der Daten verwendet werden soll. Standardwert: '\' |
header Typ: Boolean Gibt an, ob die CSV-Dateien ein Kopfzeile enthalten. Der Autoloader geht bei der Schemaableitung davon aus, dass Dateien Kopfzeilen enthalten. Standardwert: false |
ignoreLeadingWhiteSpace Typ: Boolean Gibt an, ob führende Leerzeichen für einzelne analysierte Werte ignoriert werden sollen. Standardwert: false |
ignoreTrailingWhiteSpace Typ: Boolean Gibt an, ob nachstehende Leerzeichen für einzelne analysierte Werte ignoriert werden sollen. Standardwert: false |
inferSchema Typ: Boolean Gibt an, ob die Datentypen der analysierten CSV-Datensätze abgeleitet werden sollen oder angenommen werden soll, dass alle Spalten den Typ StringType aufweisen. Bei Festlegung auf true ist eine zusätzliche Übergabe der Daten erforderlich. Verwenden Sie für den Autoloader stattdessen cloudFiles.inferColumnTypes .Standardwert: false |
lineSep Typ: String Eine Zeichenfolge zwischen zwei aufeinander folgenden CSV-Datensätzen. Standardwert: ohne (deckt \r , \r\n und \n ab) |
locale Typ: String Ein java.util.Locale -Bezeichner. Beeinflusst die standardmäßige Analyse von Datumsangaben, Zeitstempeln und Dezimalzahlen in der CSV-Datei.Standardwert: US |
maxCharsPerColumn Typ: Int Maximale Anzahl von Zeichen, die von einem zu analysierenden Wert erwartet werden. Kann verwendet werden, um Speicherfehler zu vermeiden. Der Standardwert ist -1 , d. h. unbegrenzt.Standardwert: -1 |
maxColumns Typ: Int Der absolute Höchstwert für die Anzahl der Spalten, die ein Datensatz enthalten kann. Standardwert: 20480 |
mergeSchema Typ: Boolean Gibt an, ob das Schema über mehrere Dateien hinweg abgeleitet und das Schema der einzelnen Dateien zusammengeführt werden soll. Standardmäßig für Autoloader aktiviert, wenn das Schema abgeleitet wird. Standardwert: false |
mode Typ: String Parsermodus für die Verarbeitung fehlerhaft formatierter Datensätze. Einer von 'PERMISSIVE' ,'DROPMALFORMED' und 'FAILFAST' .Standardwert: PERMISSIVE |
multiLine Typ: Boolean Gibt an, ob die CSV-Datensätze mehrere Zeilen umfassen. Standardwert: false |
nanValue Typ: String Die Zeichenfolgendarstellung eines NaN-Werts, wenn FloatType - und DoubleType -Spalten verwendet werden.Standardwert: "NaN" |
negativeInf Typ: String Die Zeichenfolgendarstellung von negativ Unendlich, wenn FloatType - und DoubleType -Spalten verwendet werden.Standardwert: "-Inf" |
nullValue Typ: String Zeichenfolgendarstellung eines NULL-Werts. Standardwert: "" |
parserCaseSensitive (veraltet)Typ: Boolean Gibt beim Lesen von Dateien an, ob Spalten, die in der Kopfzeile deklariert sind, unter Berücksichtigung der Groß-/Kleinschreibung am Schema angepasst werden sollen. Diese Option ist für den Autoloader standardmäßig true . Spalten, deren Groß-/Kleinschreibung abweicht, werden in die rescuedDataColumn -Spalte gerettet (sofern aktiviert). Diese Option wurde durch readerCaseSensitive ersetzt und gilt als veraltet.Standardwert: false |
positiveInf Typ: String Die Zeichenfolgendarstellung von positiv Unendlich, wenn FloatType - und DoubleType -Spalten verwendet werden.Standardwert: "Inf" |
preferDate Typ: Boolean Versucht, Zeichenfolgen nach Möglichkeit als Datumsangaben abzuleiten, nicht als Zeitstempel. Sie müssen auch den Schemarückschluss verwenden, indem Sie entweder inferSchema aktivieren odercloudFiles.inferColumnTypes mit dem Autoladeprogramm verwenden.Standardwert: true |
quote Typ: Char Das Zeichen, das als Escapezeichen für Werte verwendet wird, bei denen das Feldtrennzeichen Bestandteil des Werts ist. Standardwert: " |
readerCaseSensitive Typ: Boolean Diese Option gibt das Verhalten bei Groß- und Kleinschreibung an, wenn rescuedDataColumn aktiviert ist. Bei „True“ werden die Datenspalten wiederhergestellt, deren Namen in Bezug auf Groß- und Kleinschreibung vom Schema abweichen. Andernfalls werden die Daten ohne Beachtung der Groß- und Kleinschreibung gelesen.Standardwert: true |
rescuedDataColumn Typ: String Gibt an, ob alle Daten, die aufgrund eines Datentypkonflikts oder eines Schemakonflikts (einschließlich der Schreibweise von Spaltennamen) nicht geparst werden können, in einer separaten Spalte gesammelt werden sollen. Diese Spalte ist bei Verwendung des Autoloaders standardmäßig enthalten. Weitere Informationen finden Sie unter "Was ist die Spalte mit den geretteten Daten?". COPY INTO (Legacy) unterstützt die gerettete Datenspalte nicht, da Sie das Schema nicht manuell mit COPY INTO festlegen können. Databricks empfiehlt die Verwendung des automatischen Ladens für die meisten Aufnahmeszenarien.Standardwert: None |
sep oder delimiter Typ: String Die Trennzeichenfolge zwischen Spalten. Standardwert: "," |
skipRows Typ: Int Die Anzahl der Zeilen vom Anfang der CSV-Datei, die ignoriert werden sollen (einschließlich auskommentierter und leerer Zeilen). Wenn header „True“ ist, ist die Kopfzeile die erste nicht übersprungene und nicht auskommentierte Zeile.Standardwert: 0 |
timestampFormat Typ: String Das Format zum Analysieren von Zeitstempelzeichenfolgen. Standardwert: yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX] |
timeZone Typ: String Die java.time.ZoneId , die beim Analysieren von Zeitstempeln und Datumsangaben verwendet werden soll.Standardwert: None |
unescapedQuoteHandling Typ: String Die Strategie für die Behandlung von Anführungszeichen ohne Escapezeichen. Zulässige Optionen:
Standardwert: STOP_AT_DELIMITER |
XML
-Optionen
Auswahlmöglichkeit | BESCHREIBUNG | Bereich |
---|---|---|
rowTag |
Das Reihen-Tag der XML-Dateien, die als Reihe behandelt werden sollen. Im XML-Beispiel <books> <book><book>...<books> ist der entsprechende Wert book . Diese Option muss angegeben werden. |
Lesen |
samplingRatio |
Hiermit wird ein Bruchteil von Zeilen definiert, die für den Schemarückschluss verwendet werden. Diese Option wird von integrierten XML-Funktionen ignoriert. Standardwert: 1.0 . |
Lesen |
excludeAttribute |
Gibt an, ob Attribute in Elementen ausgeschlossen werden sollen. Standardwert: false . |
Lesen |
mode |
Modus für den Umgang mit beschädigten Datensätzen beim Parsen.PERMISSIVE : Fügt bei beschädigten Datensätzen die nicht wohlgeformte Zeichenfolge in ein durch columnNameOfCorruptRecord konfiguriertes Feld ein und legt nicht wohlgeformte Felder auf null fest. Um beschädigte Datensätze beizubehalten, können Sie in einem benutzerdefinierten Schema ein Feld des Typs string mit dem Namen columnNameOfCorruptRecord festlegen. Wenn ein Schema nicht über das Feld verfügt, werden beschädigte Datensätze beim Parsen gelöscht. Beim Ableiten eines Schemas fügt der Parser in einem Ausgabeschema ein columnNameOfCorruptRecord -Feld implizit hinzu.DROPMALFORMED : Ignoriert beschädigte Datensätze. Dieser Modus wird für integrierte XML-Funktionen nicht unterstützt.FAILFAST : Eine Ausnahme wird ausgelöst, wenn der Parser beschädigte Datensätze erkennt. |
Lesen |
inferSchema |
Versucht bei true , einen geeigneten Typ für jede resultierende DataFrame-Spalte abzuleiten. Bei false weisen alle resultierenden Spalten den Typ string auf. Standardwert:true . Diese Option wird von integrierten XML-Funktionen ignoriert. |
Lesen |
columnNameOfCorruptRecord |
Diese Option ermöglicht das Umbenennen des neuen Felds, das eine nicht wohlgeformte Zeichenfolge enthält, die vom PERMISSIVE -Modus erstellt wurde. Standardwert: spark.sql.columnNameOfCorruptRecord . |
Lesen |
attributePrefix |
Das Präfix für Attribute, um Attribute von Elementen zu unterscheiden. Dies wird das Präfix für Feldnamen sein. Der Standardwert ist _ . Kann zum Lesen von XML-Code leer sein, jedoch nicht zum Schreiben. |
Lesen und Schreiben |
valueTag |
Dies ist das Tag, das für die Zeichendaten in Elementen verwendet wird, die ebenfalls Attribute oder untergeordnete Elemente enthalten. Der Benutzer kann das valueTag -Feld im Schema angeben oder es wird während des Schemaabgleichs automatisch hinzugefügt, wenn Zeichendaten in Elementen mit anderen Elementen oder Attributen vorkommen. Standard: _VALUE |
Lesen und Schreiben |
encoding |
Zum Lesen werden die XML-Dateien durch den angegebenen Codierungstyp decodiert. Gibt zum Schreiben die Codierung (Zeichensatz) gespeicherter XML-Dateien an. Diese Option wird von integrierten XML-Funktionen ignoriert. Standardwert: UTF-8 . |
Lesen und Schreiben |
ignoreSurroundingSpaces |
Hiermit wird definiert, ob umgebende Leerzeichen von zu lesenden Werten übersprungen werden sollen. Standardwert: true . Zeichendaten, die ausschließlich aus Leerzeichen bestehen, werden ignoriert. |
Lesen |
rowValidationXSDPath |
Pfad zu einer optionalen XSD-Datei, die verwendet wird, um den XML-Code für jede Zeile einzeln zu überprüfen. Zeilen, die nicht validiert werden können, werden wie oben beschrieben als Parse-Fehler behandelt. Die XSD wirkt sich nicht anderweitig auf das bereitgestellte oder abgeleitete Schema aus. | Lesen |
ignoreNamespace |
Wenn true aktiv ist, werden die Präfixe von Namespaces für XML-Elemente und -Attribute ignoriert. Die Tags <abc:author> und <def:author> werden beispielsweise so behandelt werden, als wären beide lediglich <author> . Namespaces können für das rowTag -Element nicht ignoriert werden. Das ist lediglich für seine untergeordneten Elemente möglich, die gelesen werden sollen. Das XML-Parsing ist selbst bei false nicht namespacefähig. Standardwert: false . |
Lesen |
timestampFormat |
Benutzerdefinierte Zeitstempelformatzeichenfolge, die dem Datetime-Musterformat folgt. Dies gilt für Typ timestamp . Standardwert: yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX] . |
Lesen und Schreiben |
timestampNTZFormat |
Benutzerdefinierte Zeichenfolge für das Zeitstempelformat ohne Zeitzone, die dem Format des Datetime-Musters folgt. Dies gilt für den TimestampNTZType-Typ. Standardwert:yyyy-MM-dd'T'HH:mm:ss[.SSS] |
Lesen und Schreiben |
dateFormat |
Benutzerdefinierte Datumsformatzeichenfolge, die dem Datetime-Musterformat folgt. Dies gilt für den Datumstyp. Standardwert: yyyy-MM-dd . |
Lesen und Schreiben |
locale |
Hiermit wird ein Gebietsschema als Sprachtag im IETF BCP 47-Format festgelegt. Beispiel: locale wird beim Parsen von Daten und Zeitstempeln verwendet. Standardwert: en-US . |
Lesen |
rootTag |
Stammtag der XML-Dateien. Beispiel: Der entsprechende Wert in <books> <book><book>...</books> lautet books . Sie können grundlegende Attribute durch das Angeben eines Werts wie books foo="bar" einschließen. Standardwert: ROWS . |
Schreiben |
declaration |
Inhalt der XML-Deklaration, die am Anfang jeder XML-Ausgabedatei vor rootTag geschrieben werden soll. Beispiel: Durch den Wert foo wird <?xml foo?> geschrieben. Legen Sie diesen Wert auf eine leere Zeichenfolge fest, um diesen Vorgang zu unterdrücken. Standard: version="1.0" encoding="UTF-8" standalone="yes" . |
Schreiben |
arrayElementName |
Name des XML-Elements, das beim Schreiben jedes Element einer Spalte, die Arraywerte enthält, umschließt. Standardwert: item . |
Schreiben |
nullValue |
Legt die Darstellung der Zeichenfolge eines NULL-Werts fest. Standard: Zeichenfolge null . Wenn dies der Fall ist null , schreibt der Parser keine Attribute und Elemente für Felder. |
Lesen und Schreiben |
compression |
Komprimierungscode, der beim Speichern als Datei verwendet werden soll. Das kann einer der bekannten, unabhängig von Groß-/Kleinschreibung verkürzten Namen sein (none , bzip2 , gzip , lz4 , snappy unddeflate ). Diese Option wird von integrierten XML-Funktionen ignoriert. Standardwert: none . |
Schreiben |
validateName |
Bei „true“ wird ein Fehler bei der Validierung von XML-Elementnamen ausgelöst. Beispiel: Namen von SQL-Feldern können Leerzeichen enthalten, XML-Elementnamen jedoch nicht. Standardwert:true . |
Schreiben |
readerCaseSensitive |
Gibt das Verhalten bei der Berücksichtigung der Groß-/Kleinschreibung an, wenn rescuedDataColumn aktiviert ist. Bei „True“ werden die Datenspalten wiederhergestellt, deren Namen in Bezug auf Groß- und Kleinschreibung vom Schema abweichen. Andernfalls werden die Daten ohne Beachtung der Groß- und Kleinschreibung gelesen. Standardwert: true . |
Lesen |
rescuedDataColumn |
Gibt an, ob alle Daten, die aufgrund eines Datentypkonflikts oder eines Schemakonflikts (einschließlich der Groß-/Kleinschreibung von Spaltennamen) nicht analysiert werden können, in eine separate Spalte erfasst werden sollen. Diese Spalte ist bei Verwendung des Autoloaders standardmäßig enthalten. Weitere Informationen finden Sie in der Spalte "Gerettete Daten".COPY INTO (Legacy) unterstützt die gerettete Datenspalte nicht, da Sie das Schema nicht manuell mit COPY INTO festlegen können. Databricks empfiehlt die Verwendung des automatischen Ladens für die meisten Aufnahmeszenarien.Standardwert: None. |
Lesen |
singleVariantColumn |
Gibt den Namen der einzelnen Variantenspalte an. Wenn diese Option zum Lesen angegeben ist, analysieren Sie den gesamten XML-Eintrag in eine einzelne Variant-Spalte mit dem angegebenen Optionszeichenfolgenwert als Namen der Spalte. Wenn diese Option zum Schreiben bereitgestellt wird, schreiben Sie den Wert der einzelnen Variant-Spalte in XML-Dateien. Standardwert: none . |
Lesen und Schreiben |
PARQUET
-Optionen
Auswahlmöglichkeit |
---|
datetimeRebaseMode Typ: String Steuert, ob DATE- und TIMESTAMP-Werte auf dem gregorianischen Kalender und dem proleptischen gregorianischen Kalender basieren sollen. Zulässige Werte: EXCEPTION , LEGACY undCORRECTED .Standardwert: LEGACY |
int96RebaseMode Typ: String Steuert, ob INT96-Zeitstempelwerte auf dem gregorianischen Kalender und dem proleptischen gregorianischen Kalender basieren sollen. Zulässige Werte: EXCEPTION , LEGACY undCORRECTED .Standardwert: LEGACY |
mergeSchema Typ: Boolean Gibt an, ob das Schema über mehrere Dateien hinweg abgeleitet und das Schema der einzelnen Dateien zusammengeführt werden soll. Standardwert: false |
readerCaseSensitive Typ: Boolean Diese Option gibt das Verhalten bei Groß- und Kleinschreibung an, wenn rescuedDataColumn aktiviert ist. Bei „True“ werden die Datenspalten wiederhergestellt, deren Namen in Bezug auf Groß- und Kleinschreibung vom Schema abweichen. Andernfalls werden die Daten ohne Beachtung der Groß- und Kleinschreibung gelesen.Standardwert: true |
rescuedDataColumn Typ: String Gibt an, ob alle Daten, die aufgrund eines Datentypkonflikts oder eines Schemakonflikts (einschließlich der Schreibweise von Spaltennamen) nicht geparst werden können, in einer separaten Spalte gesammelt werden sollen. Diese Spalte ist bei Verwendung des Autoloaders standardmäßig enthalten. Weitere Informationen finden Sie unter "Was ist die Spalte mit den geretteten Daten?". COPY INTO (Legacy) unterstützt die gerettete Datenspalte nicht, da Sie das Schema nicht manuell mit COPY INTO festlegen können. Databricks empfiehlt die Verwendung des automatischen Ladens für die meisten Aufnahmeszenarien.Standardwert: None |
AVRO
-Optionen
Auswahlmöglichkeit |
---|
avroSchema Typ: String Optionales Schema, das von einem Benutzer im Avro-Format bereitgestellt wird. Beim Lesen von Avro kann diese Option auf ein weiterentwickeltes Schema festgelegt werden, das kompatibel mit dem tatsächlichen Avro-Schema ist, aber nicht damit übereinstimmt. Das Deserialisierungsschema ist mit dem weiterentwickelten Schema konsistent. Wenn Sie beispielsweise ein weiterentwickeltes Schema festlegen, das eine zusätzliche Spalte mit einem Standardwert enthält, enthält das Leseergebnis ebenfalls die neue Spalte. Standardwert: None |
datetimeRebaseMode Typ: String Steuert, ob DATE- und TIMESTAMP-Werte auf dem gregorianischen Kalender und dem proleptischen gregorianischen Kalender basieren sollen. Zulässige Werte: EXCEPTION , LEGACY undCORRECTED .Standardwert: LEGACY |
mergeSchema Typ: Boolean Gibt an, ob das Schema über mehrere Dateien hinweg abgeleitet und das Schema der einzelnen Dateien zusammengeführt werden soll. mergeSchema für Avro bewirkt keine Lockerung von Datentypen.Standardwert: false |
readerCaseSensitive Typ: Boolean Diese Option gibt das Verhalten bei Groß- und Kleinschreibung an, wenn rescuedDataColumn aktiviert ist. Bei „True“ werden die Datenspalten wiederhergestellt, deren Namen in Bezug auf Groß- und Kleinschreibung vom Schema abweichen. Andernfalls werden die Daten ohne Beachtung der Groß- und Kleinschreibung gelesen.Standardwert: true |
rescuedDataColumn Typ: String Gibt an, ob alle Daten, die aufgrund eines Datentypkonflikts oder eines Schemakonflikts (einschließlich der Schreibweise von Spaltennamen) nicht geparst werden können, in einer separaten Spalte gesammelt werden sollen. Diese Spalte ist bei Verwendung des Autoloaders standardmäßig enthalten. COPY INTO (Legacy) unterstützt die gerettete Datenspalte nicht, da Sie das Schema nicht manuell mit COPY INTO festlegen können. Databricks empfiehlt die Verwendung des automatischen Ladens für die meisten Aufnahmeszenarien.Weitere Informationen finden Sie unter "Was ist die Spalte mit den geretteten Daten?". Standardwert: None |
BINARYFILE
-Optionen
Für Binärdateien gibt es keine zusätzlichen Konfigurationsoptionen.
TEXT
-Optionen
Auswahlmöglichkeit |
---|
encoding Typ: String Der Name der Codierung des TEXT-Dateizeilentrennzeichens. Eine Liste der Optionen finden Sie unter java.nio.charset.Charset .Der Inhalt der Datei ist von dieser Option nicht betroffen und wird as-isgelesen. Standardwert: UTF-8 |
lineSep Typ: String Eine Zeichenfolge zwischen zwei aufeinander folgenden TEXT-Datensätzen. Standardwert: ohne (deckt \r , \r\n und \n ab) |
wholeText Typ: Boolean Gibt an, ob eine Datei als einzelner Datensatz gelesen werden soll. Standardwert: false |
ORC
-Optionen
Auswahlmöglichkeit |
---|
mergeSchema Typ: Boolean Gibt an, ob das Schema über mehrere Dateien hinweg abgeleitet und das Schema der einzelnen Dateien zusammengeführt werden soll. Standardwert: false |
Cloudspezifische Optionen
Autoloader bietet eine Reihe von Optionen zum Konfigurieren der Cloudinfrastruktur.
AWS-spezifische Optionen
Geben Sie die folgende Option nur an, wenn Sie cloudFiles.useNotifications
= true
festlegen und möchten, dass der Autoloader die Benachrichtigungsdienste für Sie einrichtet:
Auswahlmöglichkeit |
---|
cloudFiles.region Typ: String Die Region, in der sich der S3-Quellbucket befindet und in der die AWS SNS- und SQS-Dienste erstellt werden. Standard: Die Region der EC2-Instanz. |
Geben Sie die folgende Option nur an, wenn Sie cloudFiles.useNotifications
= true
auswählen und möchten, dass der Autoloader eine Warteschlange verwendet, die Sie bereits eingerichtet haben:
Auswahlmöglichkeit |
---|
cloudFiles.queueUrl Typ: String Die URL der SQS-Warteschlange. Wenn dies angegeben ist, bezieht das Autoladeprogramm Ereignisse direkt aus dieser Warteschlange, anstatt eigene AWS SNS- und SQS-Dienste einzurichten. Standard: Keine |
AWS-Authentifizierungsoptionen
Geben Sie die folgende Authentifizierungsoption für die Verwendung von Databricks-Dienstanmeldeinformationen an:
Auswahlmöglichkeit |
---|
databricks.serviceCredential Typ: String Der Name Ihrer Databricks-Dienstanmeldeinformationen. Verfügbar in Databricks Runtime 16.1 und höher. Standard: Keine |
Wenn Databricks-Dienstanmeldeinformationen oder IAM-Rollen nicht verfügbar sind, können Sie stattdessen die folgenden Authentifizierungsoptionen bereitstellen:
Optionen |
---|
cloudFiles.awsAccessKey Typ: String Die ID des AWS-Zugriffsschlüssels für den Benutzer. Muss mit cloudFiles.awsSecretKey bereitgestellt werden.Standard: Keine |
cloudFiles.awsSecretKey Typ: String Der geheime AWS-Zugriffsschlüssel für den Benutzer. Muss mit cloudFiles.awsAccessKey bereitgestellt werden.Standard: Keine |
cloudFiles.roleArn Typ: String ARN einer IAM-Rolle anzunehmen nach Bedarf. Die Rolle kann entweder aus dem Instanzprofil Ihres Clusters übernommen werden oder indem Anmeldeinformationen mit cloudFiles.awsAccessKey und cloudFiles.awsSecretKey bereitgestellt werden.Standard: Keine |
cloudFiles.roleExternalId Typ: String Ein Bezeichner, der beim Annehmen einer Rolle mit cloudFiles.roleArn angegeben werden muss.Standard: Keine |
cloudFiles.roleSessionName Typ: String Ein optionaler Sitzungsname zur Verwendung beim Annehmen einer Rolle mit cloudFiles.roleArn .Standard: Keine |
cloudFiles.stsEndpoint Typ: String Ein optionaler Endpunkt, der für den Zugriff auf AWS STS angegeben wird, wenn mit cloudFiles.roleArn eine Rolle angenommen wird.Standard: Keine |
Azure-spezifische Optionen
Sie müssen Werte für alle folgenden Optionen angeben, wenn Sie cloudFiles.useNotifications
= true
festlegen und möchten, dass der Autoloader die Benachrichtigungsdienste für Sie einrichtet:
Optionen |
---|
cloudFiles.resourceGroup Typ: String Die Azure-Ressourcengruppe, unter der das Speicherkonto erstellt wird. Standard: Keine |
cloudFiles.subscriptionId Typ: String Die Azure-Abonnement-ID, unter der die Ressourcengruppe erstellt wird. Standard: Keine |
databricks.serviceCredential Typ: String Der Name Ihrer Databricks-Dienstanmeldeinformationen. Verfügbar in Databricks Runtime 16.1 und höher. Standard: Keine |
Wenn keine Databricks-Dienstanmeldeinformationen verfügbar sind, können Sie stattdessen die folgenden Authentifizierungsoptionen bereitstellen:
Optionen |
---|
cloudFiles.clientId Typ: String Die Client-ID oder Anwendungs-ID des Dienstprinzipals. Standard: Keine |
cloudFiles.clientSecret Typ: String Das Kundengeheimnis des Dienstherrn. Standard: Keine |
cloudFiles.connectionString Typ: String Die Verbindungszeichenfolge für das Speicherkonto, basierend entweder auf dem Kontozugriffsschlüssel oder der gemeinsamen Zugriffssignatur (SAS). Standard: Keine |
cloudFiles.tenantId Typ: String Die Azure-Mandanten-ID, unter der der Dienstprinzipal erstellt wird. Standard: Keine |
Wichtig
Die automatisierte Einrichtung von Benachrichtigungen ist in den Azure China und Government-Regionen mit Databricks Runtime 9.1 und höher verfügbar. Sie müssen einen queueName
angeben, um den Autoloader mit Dateibenachrichtigungen in diesen Regionen für ältere DBR-Versionen zu verwenden.
Geben Sie die folgende Option nur an, wenn Sie cloudFiles.useNotifications
= true
auswählen und möchten, dass der Autoloader eine Warteschlange verwendet, die Sie bereits eingerichtet haben:
Auswahlmöglichkeit |
---|
cloudFiles.queueName Typ: String Der Name der Azure-Warteschlange. Wenn dieser angegeben ist, bezieht die Clouddateiquelle Ereignisse direkt aus dieser Warteschlange, anstatt eigene Azure Event Grid- und Queue Storage-Dienste einzurichten. In diesem Fall benötigen databricks.serviceCredential und cloudFiles.connectionString nur Leseberechtigungen für die Warteschlange.Standard: Keine |
Google-spezifische Optionen
Auto Loader kann Benachrichtigungsdienste automatisch für Sie einrichten, indem Sie Databricks-Dienstanmeldeinformationen nutzen. Das mit den Databricks-Dienstanmeldeinformationen erstellte Dienstkonto erfordert die Berechtigungen, die im Konfigurationsmodus für Auto Loader Streams im Dateibenachrichtigungsmodus angegeben sind.
Optionen |
---|
cloudFiles.projectId Typ: String Die ID des Projekts, in dem sich der GCS-Bucket befindet. Das Google Cloud Pub/Sub-Abonnement wird ebenfalls in diesem Projekt erstellt. Standard: Keine |
databricks.serviceCredential Typ: String Der Name Ihrer Databricks-Dienstanmeldeinformationen. Verfügbar in Databricks Runtime 16.1 und höher. Standard: Keine |
Wenn keine Databricks-Dienstanmeldeinformationen verfügbar sind, können Sie Google Service-Konten direkt verwenden. Sie können Entweder Ihren Cluster so konfigurieren, dass ein Dienstkonto angenommen wird, indem Sie die Einrichtung des Google-Diensts ausführen oder die folgenden Authentifizierungsoptionen direkt bereitstellen:
Optionen |
---|
cloudFiles.client Typ: String Die Client-ID des Google-Dienstkontos. Standard: Keine |
cloudFiles.clientEmail Typ: String Die E-Mail-Adresse des Google-Dienstkontos. Standard: Keine |
cloudFiles.privateKey Typ: String Der private Schlüssel, der für das Google Service-Konto generiert wird. Standard: Keine |
cloudFiles.privateKeyId Typ: String Die ID des privaten Schlüssels, der für das Google Service-Konto generiert wird. Standard: Keine |
Geben Sie die folgende Option nur an, wenn Sie cloudFiles.useNotifications
= true
auswählen und möchten, dass der Autoloader eine Warteschlange verwendet, die Sie bereits eingerichtet haben:
Auswahlmöglichkeit |
---|
cloudFiles.subscription Typ: String Der Name des Google Cloud Pub/Sub-Abonnements. Falls angegeben, nutzt die Clouddateiquelle Ereignisse aus dieser Warteschlange, anstatt eigene GCS-Benachrichtigungs- und Google Cloud Pub/Sub-Dienste einzurichten. Standard: Keine |