Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Fügt eine Schreiboption für die zugrunde liegende Datenquelle hinzu. Einige verfügbare Optionen finden Sie unter "Optionen".
Syntax
option(key, value)
Parameter
| Parameter | Typ | Beschreibung |
|---|---|---|
key |
str | Der Optionsschlüssel. |
value |
str, int, float oder bool | Der Optionswert. |
Options
Die folgende Tabelle enthält einige Writer-Optionen:
| Schlüssel | Formate | Beschreibung |
|---|---|---|
arrayElementName |
XML | Der Elementname für Arrayelemente ohne expliziten Namen. Standardwert: item. Gilt für XML (DataFrameWriter). |
attributePrefix |
XML | Das Präfix, das Feldnamen vorangestellt ist, die XML-Attributen entsprechen. Standardwert: _. Gilt für XML (DataFrameWriter). |
avroSchema |
Avro | Das vollständige Avro-Schema als JSON-Zeichenfolge. Verwenden Sie diese Option, um Spark SQL-Typen in bestimmte Avro-Typen zu konvertieren. Gilt für Avro-Datei. |
charToEscapeQuoteEscaping |
CSV-Datei | Das Zeichen, das zum Escapezeichen verwendet wird, wenn es sich von dem Anführungszeichen unterscheidet. Standard: \0 (nicht aktiviert). Gilt für CSV (DataFrameWriter). |
clusterByAuto |
Delta Lake | Gibt an, ob die automatische Flüssigclusterung aktiviert werden soll, wobei Azure Databricks gruppierte Spalten basierend auf Abfragemustern auswählt. Nur gültig mit mode("overwrite"). Kann nicht im append Modus verwendet werden. Standardwert: false. Verfügbar in Databricks Runtime 16.4 und höher. Gilt für die Verwendung von Flüssigclustering für Tabellen. |
compression |
CSV, JSON, ORC, Parkett, Text, XML | Beim Schreiben zu verwendenden Komprimierungscodecs. Gültige Werte variieren je nach Format. Gilt für csv (DataFrameWriter), json (DataFrameWriter), Orc (DataFrameWriter), Parkett (DataFrameWriter), Text (DataFrameWriter), XML (DataFrameWriter). |
dateFormat |
CSV, JSON, XML | Formatzeichenfolge für Datumsspaltenwerte. Standardwert: yyyy-MM-dd. Gilt für csv (DataFrameWriter), json (DataFrameWriter), xml (DataFrameWriter). |
declaration |
XML | Die XML-Deklarationszeichenfolge, die oben in jeder Ausgabedatei geschrieben wurde. Legen Sie diesen Wert auf eine leere Zeichenfolge fest, um die Deklaration zu unterdrücken. Standardwert: version="1.0" encoding="UTF-8" standalone="yes". Gilt für XML (DataFrameWriter). |
emptyValue |
CSV-Datei | Die Zeichenfolge, die für leere Werte (nicht null) geschrieben wurde. Standardwert: "". Gilt für CSV (DataFrameWriter). |
encoding |
CSV, JSON, XML | Die Zeichencodierung für die Ausgabedateien. Standardwert: UTF-8. Gilt für csv (DataFrameWriter), json (DataFrameWriter), xml (DataFrameWriter). |
escape |
CSV-Datei | Das Zeichen, das verwendet wird, um an zitierte Werte zu escapen. Standardwert: \. Gilt für CSV (DataFrameWriter). |
escapeQuotes |
CSV-Datei | Gibt an, ob Anführungszeichen in Anführungszeichen in Anführungszeichen gesetzt werden sollen. Standardwert: true. Gilt für CSV (DataFrameWriter). |
header |
CSV-Datei | Gibt an, ob Spaltennamen als erste Zeile der Ausgabe geschrieben werden sollen. Standardwert: false. Gilt für CSV (DataFrameWriter). |
ignoreLeadingWhiteSpace |
CSV-Datei | Gibt an, ob führende Leerzeichen beim Schreiben von Werten gekürzt werden sollen. Standardwert: false. Gilt für CSV (DataFrameWriter). |
ignoreNullFields |
JSON | Gibt an, ob Felder mit NULL-Werten aus der JSON-Ausgabe weggelassen werden sollen. Standardwert: Wert von spark.sql.jsonGenerator.ignoreNullFields. Gilt für json (DataFrameWriter). |
ignoreTrailingWhiteSpace |
CSV-Datei | Gibt an, ob nachgestellte Leerzeichen beim Schreiben von Werten gekürzt werden sollen. Standardwert: false. Gilt für CSV (DataFrameWriter). |
lineSep |
CSV, JSON, Text | Die zeilentrennzeichenzeichenfolge, die zwischen Datensätzen verwendet wird. Standardwert: \n. Gilt für CSV (DataFrameWriter),json (DataFrameWriter), Text (DataFrameWriter). |
mergeSchema |
Delta Lake | Gibt an, ob die Schemaentwicklung für den Schreibvorgang aktiviert werden soll. Dem Zieltabellenschema werden neue Spalten im Quelldatenframe hinzugefügt. Gilt für Anfüge- und Batch-Streaming.Applies to batch and streaming appends. Gilt für das Update-Tabellenschema. |
nullValue |
CSV-Datei | Zeichenfolge, die für Nullwerte geschrieben wurde. Standardwert: "". Gilt für CSV (DataFrameWriter). |
nullValue |
XML | Die Zeichenfolge, die für Nullwerte geschrieben wurde. Standardwert: null. Bei Festlegung auf null, Attribute und untergeordnete Elemente für NULL-Felder werden weggelassen. Gilt für XML (DataFrameWriter). |
overwriteSchema |
Delta Lake | Gibt an, ob das Tabellenschema und die Partitionierung beim Überschreiben ersetzt werden sollen. Erfordert mode("overwrite") ohne replaceWhere. Kann nicht mit partitionOverwriteMode verwendet werden. Gilt für das Update-Tabellenschema. |
partitionOverwriteMode |
Delta Lake | Der Partitionsüberschreibmodus. Legen Sie diese Einstellung fest, dynamic um nur Partitionen zu überschreiben, die neue Daten enthalten, sodass alle anderen Partitionen unverändert bleiben. Legacymodus; wird für serverlose Compute- oder Databricks-SQL-Daten nicht unterstützt. Gilt für selektives Überschreiben von Daten mit Delta Lake. |
quote |
CSV-Datei | Das Zeichen, das zum Anführungszeichen von Feldwerten verwendet wird, die das Trennzeichen enthalten. Standardwert: ". Gilt für CSV (DataFrameWriter). |
quoteAll |
CSV-Datei | Gibt an, ob alle Feldwerte unabhängig vom Inhalt in Anführungszeichen eingeschlossen werden sollen. Standardwert: false. Gilt für CSV (DataFrameWriter). |
recordName |
Avro | Der Name des Datensatzes der obersten Ebene im Avro-Ausgabeschema. Standardwert: topLevelRecord. Gilt für Avro-Datei. |
recordNamespace |
Avro | Der Namespace für den Datensatz der obersten Ebene im Ausgabe-Avro-Schema. Standardwert: "". Gilt für Avro-Datei. |
replaceWhere |
Delta Lake | Ein Prädikatausdruck. Atomar überschreibt nur die Datensätze, die dem Prädikat entsprechen. Gilt für selektives Überschreiben von Daten mit Delta Lake. |
rootTag |
XML | Das Stammelementtag, das alle Zeilenelemente in der Ausgabe umschließt. Standardwert: ROWS. Gilt für XML (DataFrameWriter). |
rowTag |
XML | Das Elementtag, das eine Zeile in der Ausgabe darstellt. Standardwert: ROW. Gilt für XML (DataFrameWriter). |
sep |
CSV-Datei | Das Feldtrennzeichen. Standardwert: ,. Gilt für CSV (DataFrameWriter). |
timestampFormat |
CSV, JSON, XML | Die Formatzeichenfolge für Zeitstempelspaltenwerte. Standardwert: yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]. Gilt für csv (DataFrameWriter), json (DataFrameWriter), xml (DataFrameWriter). |
txnAppId |
Delta Lake | Eine eindeutige Zeichenfolge, die die Anwendung für idempotent-Schreibvorgänge in foreachBatch Vorgänge identifiziert. Verwenden Sie diese Verwendung zusammen, txnVersion um sicherzustellen, dass in mehrere Delta Lake-Tabellen genau einmal geschrieben wird. Gilt für foreachBatch Schreibvorgänge der idempotenten Tabelle. |
txnVersion |
Delta Lake | Eine monoton steigende Zahl, die als Transaktionsversion für idempotente Schreibvorgänge in foreachBatch Vorgängen verwendet wird. Verwenden Sie diese Verwendung zusammen, txnAppId um sicherzustellen, dass in mehrere Delta Lake-Tabellen genau einmal geschrieben wird. Gilt für foreachBatch Schreibvorgänge der idempotenten Tabelle. |
userMetadata |
Delta Lake, Apache Iceberg | Eine benutzerdefinierte Zeichenfolge, die an die Commitmetadaten für den Schreibvorgang angefügt wurde. Sichtbar in der Ausgabe von DESCRIBE HISTORY. Gilt für Anreichern von Tabellen mit benutzerdefinierten Metadaten. |
validateName |
XML | Gibt an, ob eine Ausnahme ausgelöst werden soll, wenn ein Spaltenname kein gültiger XML-Elementbezeichner ist. Standardwert: true. Gilt für XML (DataFrameWriter). |
valueTag |
XML | Der Feldname, der für Zeichendaten in XML-Elementen verwendet wird, die ebenfalls Attribute oder untergeordnete Elemente aufweisen. Standardwert: _VALUE. Gilt für XML (DataFrameWriter). |
Rückkehr
DataFrameWriterV2