option (DataFrameWriterV2)

Fügt eine Schreiboption für die zugrunde liegende Datenquelle hinzu. Einige verfügbare Optionen finden Sie unter "Optionen".

Syntax

option(key, value)

Parameter

Parameter Typ Beschreibung
key str Der Optionsschlüssel.
value str, int, float oder bool Der Optionswert.

Options

Die folgende Tabelle enthält einige Writer-Optionen:

Schlüssel Formate Beschreibung
arrayElementName XML Der Elementname für Arrayelemente ohne expliziten Namen. Standardwert: item. Gilt für XML (DataFrameWriter).
attributePrefix XML Das Präfix, das Feldnamen vorangestellt ist, die XML-Attributen entsprechen. Standardwert: _. Gilt für XML (DataFrameWriter).
avroSchema Avro Das vollständige Avro-Schema als JSON-Zeichenfolge. Verwenden Sie diese Option, um Spark SQL-Typen in bestimmte Avro-Typen zu konvertieren. Gilt für Avro-Datei.
charToEscapeQuoteEscaping CSV-Datei Das Zeichen, das zum Escapezeichen verwendet wird, wenn es sich von dem Anführungszeichen unterscheidet. Standard: \0 (nicht aktiviert). Gilt für CSV (DataFrameWriter).
clusterByAuto Delta Lake Gibt an, ob die automatische Flüssigclusterung aktiviert werden soll, wobei Azure Databricks gruppierte Spalten basierend auf Abfragemustern auswählt. Nur gültig mit mode("overwrite"). Kann nicht im append Modus verwendet werden. Standardwert: false. Verfügbar in Databricks Runtime 16.4 und höher. Gilt für die Verwendung von Flüssigclustering für Tabellen.
compression CSV, JSON, ORC, Parkett, Text, XML Beim Schreiben zu verwendenden Komprimierungscodecs. Gültige Werte variieren je nach Format. Gilt für csv (DataFrameWriter), json (DataFrameWriter), Orc (DataFrameWriter), Parkett (DataFrameWriter), Text (DataFrameWriter), XML (DataFrameWriter).
dateFormat CSV, JSON, XML Formatzeichenfolge für Datumsspaltenwerte. Standardwert: yyyy-MM-dd. Gilt für csv (DataFrameWriter), json (DataFrameWriter), xml (DataFrameWriter).
declaration XML Die XML-Deklarationszeichenfolge, die oben in jeder Ausgabedatei geschrieben wurde. Legen Sie diesen Wert auf eine leere Zeichenfolge fest, um die Deklaration zu unterdrücken. Standardwert: version="1.0" encoding="UTF-8" standalone="yes". Gilt für XML (DataFrameWriter).
emptyValue CSV-Datei Die Zeichenfolge, die für leere Werte (nicht null) geschrieben wurde. Standardwert: "". Gilt für CSV (DataFrameWriter).
encoding CSV, JSON, XML Die Zeichencodierung für die Ausgabedateien. Standardwert: UTF-8. Gilt für csv (DataFrameWriter), json (DataFrameWriter), xml (DataFrameWriter).
escape CSV-Datei Das Zeichen, das verwendet wird, um an zitierte Werte zu escapen. Standardwert: \. Gilt für CSV (DataFrameWriter).
escapeQuotes CSV-Datei Gibt an, ob Anführungszeichen in Anführungszeichen in Anführungszeichen gesetzt werden sollen. Standardwert: true. Gilt für CSV (DataFrameWriter).
header CSV-Datei Gibt an, ob Spaltennamen als erste Zeile der Ausgabe geschrieben werden sollen. Standardwert: false. Gilt für CSV (DataFrameWriter).
ignoreLeadingWhiteSpace CSV-Datei Gibt an, ob führende Leerzeichen beim Schreiben von Werten gekürzt werden sollen. Standardwert: false. Gilt für CSV (DataFrameWriter).
ignoreNullFields JSON Gibt an, ob Felder mit NULL-Werten aus der JSON-Ausgabe weggelassen werden sollen. Standardwert: Wert von spark.sql.jsonGenerator.ignoreNullFields. Gilt für json (DataFrameWriter).
ignoreTrailingWhiteSpace CSV-Datei Gibt an, ob nachgestellte Leerzeichen beim Schreiben von Werten gekürzt werden sollen. Standardwert: false. Gilt für CSV (DataFrameWriter).
lineSep CSV, JSON, Text Die zeilentrennzeichenzeichenfolge, die zwischen Datensätzen verwendet wird. Standardwert: \n. Gilt für CSV (DataFrameWriter),json (DataFrameWriter), Text (DataFrameWriter).
mergeSchema Delta Lake Gibt an, ob die Schemaentwicklung für den Schreibvorgang aktiviert werden soll. Dem Zieltabellenschema werden neue Spalten im Quelldatenframe hinzugefügt. Gilt für Anfüge- und Batch-Streaming.Applies to batch and streaming appends. Gilt für das Update-Tabellenschema.
nullValue CSV-Datei Zeichenfolge, die für Nullwerte geschrieben wurde. Standardwert: "". Gilt für CSV (DataFrameWriter).
nullValue XML Die Zeichenfolge, die für Nullwerte geschrieben wurde. Standardwert: null. Bei Festlegung auf null, Attribute und untergeordnete Elemente für NULL-Felder werden weggelassen. Gilt für XML (DataFrameWriter).
overwriteSchema Delta Lake Gibt an, ob das Tabellenschema und die Partitionierung beim Überschreiben ersetzt werden sollen. Erfordert mode("overwrite") ohne replaceWhere. Kann nicht mit partitionOverwriteMode verwendet werden. Gilt für das Update-Tabellenschema.
partitionOverwriteMode Delta Lake Der Partitionsüberschreibmodus. Legen Sie diese Einstellung fest, dynamic um nur Partitionen zu überschreiben, die neue Daten enthalten, sodass alle anderen Partitionen unverändert bleiben. Legacymodus; wird für serverlose Compute- oder Databricks-SQL-Daten nicht unterstützt. Gilt für selektives Überschreiben von Daten mit Delta Lake.
quote CSV-Datei Das Zeichen, das zum Anführungszeichen von Feldwerten verwendet wird, die das Trennzeichen enthalten. Standardwert: ". Gilt für CSV (DataFrameWriter).
quoteAll CSV-Datei Gibt an, ob alle Feldwerte unabhängig vom Inhalt in Anführungszeichen eingeschlossen werden sollen. Standardwert: false. Gilt für CSV (DataFrameWriter).
recordName Avro Der Name des Datensatzes der obersten Ebene im Avro-Ausgabeschema. Standardwert: topLevelRecord. Gilt für Avro-Datei.
recordNamespace Avro Der Namespace für den Datensatz der obersten Ebene im Ausgabe-Avro-Schema. Standardwert: "". Gilt für Avro-Datei.
replaceWhere Delta Lake Ein Prädikatausdruck. Atomar überschreibt nur die Datensätze, die dem Prädikat entsprechen. Gilt für selektives Überschreiben von Daten mit Delta Lake.
rootTag XML Das Stammelementtag, das alle Zeilenelemente in der Ausgabe umschließt. Standardwert: ROWS. Gilt für XML (DataFrameWriter).
rowTag XML Das Elementtag, das eine Zeile in der Ausgabe darstellt. Standardwert: ROW. Gilt für XML (DataFrameWriter).
sep CSV-Datei Das Feldtrennzeichen. Standardwert: ,. Gilt für CSV (DataFrameWriter).
timestampFormat CSV, JSON, XML Die Formatzeichenfolge für Zeitstempelspaltenwerte. Standardwert: yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]. Gilt für csv (DataFrameWriter), json (DataFrameWriter), xml (DataFrameWriter).
txnAppId Delta Lake Eine eindeutige Zeichenfolge, die die Anwendung für idempotent-Schreibvorgänge in foreachBatch Vorgänge identifiziert. Verwenden Sie diese Verwendung zusammen, txnVersion um sicherzustellen, dass in mehrere Delta Lake-Tabellen genau einmal geschrieben wird. Gilt für foreachBatch Schreibvorgänge der idempotenten Tabelle.
txnVersion Delta Lake Eine monoton steigende Zahl, die als Transaktionsversion für idempotente Schreibvorgänge in foreachBatch Vorgängen verwendet wird. Verwenden Sie diese Verwendung zusammen, txnAppId um sicherzustellen, dass in mehrere Delta Lake-Tabellen genau einmal geschrieben wird. Gilt für foreachBatch Schreibvorgänge der idempotenten Tabelle.
userMetadata Delta Lake, Apache Iceberg Eine benutzerdefinierte Zeichenfolge, die an die Commitmetadaten für den Schreibvorgang angefügt wurde. Sichtbar in der Ausgabe von DESCRIBE HISTORY. Gilt für Anreichern von Tabellen mit benutzerdefinierten Metadaten.
validateName XML Gibt an, ob eine Ausnahme ausgelöst werden soll, wenn ein Spaltenname kein gültiger XML-Elementbezeichner ist. Standardwert: true. Gilt für XML (DataFrameWriter).
valueTag XML Der Feldname, der für Zeichendaten in XML-Elementen verwendet wird, die ebenfalls Attribute oder untergeordnete Elemente aufweisen. Standardwert: _VALUE. Gilt für XML (DataFrameWriter).

Rückkehr

DataFrameWriterV2