Freigeben über


Wartungsupdates für Databricks Runtime

In diesem Artikel werden Wartungsupdates für unterstützte Databricks Runtime-Versionen aufgeführt. Um ein Wartungsupdate zu einem bestehenden Cluster hinzuzufügen, starten Sie den Cluster neu. Informationen zu den Wartungsupdates für nicht unterstützte Databricks Runtime-Versionen finden Sie unter Wartungsupdates für Databricks Runtime (archiviert).

Hinweis

Releases werden gestaffelt. Ihr Azure Databricks-Konto wird möglicherweise erst einige Tage nach dem ursprünglichen Veröffentlichungsdatum aktualisiert.

Databricks Runtime-Releases

Wartungsupdates nach Release:

Databricks Runtime 15.4

Weitere Informationen finden Sie unter Databricks Runtime 15.4 LTS.

  • 24. Juli 2024
    • Die Ausgabe aus einer SHOW CREATE TABLE Anweisung enthält jetzt alle Zeilenfilter oder Spaltenmasken, die in einer materialisierten Sicht oder Streamingtabelle definiert sind. Siehe SHOW CREATE TABLE. Weitere Informationen zur Verwendung von Zeilenfiltern und Spaltenmasken finden Sie unter Filtern vertraulicher Tabellendaten mit Zeilenfiltern und Spaltenmasken.
    • Auf Rechnern, die mit dem gemeinsamen Zugriffsmodus konfiguriert sind, gelten für Kafka-Batch-Lese- und -Schreibvorgänge nun die gleichen Einschränkungen wie für Structured Streaming. Weitere Informationen finden Sie unter Streamingeinschränkungen für den gemeinsamen Zugriff auf Unity Catalog.
    • [SPARK-48941][SPARK-48970] Backport ML writer / Korrekturen der Sprachausgabe
    • [SPARK-49074][SQL] Variante korrigieren mit df.cache()
    • [SPARK-49263][CONNECT] Spark Connect-Python-Client: Konsistente Behandlung von boole’schen Dataframe-Leseoptionen
    • [SPARK-48955][SQL] ArrayCompact-Änderungen in 15.4 einschließen
    • [SPARK-48937] [SQL] Hinzufügen der Sortierungsunterstützung für StringToMap-Zeichenfolgenausdrücke
    • [SPARK-48929] Beheben des internen Fehlers der Ansicht und Aufräume des Parserausnahmekontexts
    • [SPARK-49125][SQL] Duplizierte Spaltennamen in CSV-Schreibvorgängen zulassen
    • [SPARK-48934][SS] Python-Datetime-Typen wurden für die Einstellung der Zeitüberschreitung in applyInPandasWithState falsch konvertiert
    • [SPARK-48843] Verhindern von Endlosschleifen mit BindParameters
    • [SPARK-48981] Fix simpleString-Methode von StringType in pyspark für Sortierungen
    • [SPARK-49065][SQL] Rebasing in Legacy-Formatierern/Parsern muss Zeitzonen unterstützen, die nicht dem JVM-Standard entsprechen
    • [SPARK-48896] [SPARK-48909] [SPARK-48883] Korrekturen für Backport Spark ML Writer
    • [SPARK-48725][SQL] Integrieren von CollationAwareUTF8String.lowerCaseCodePoints in Zeichenfolgenausdrücke
    • [SPARK-48978][SQL] Implementierung des schnellen ASCII-Pfads in der Sortierunterstützung für UTF8_LCASE
    • [SPARK-49047][PYTHON] [CONNECT] Abschneiden der Nachricht für die Protokollierung
    • [SPARK-49146][SS] Verschieben von Assertion-Fehlern im Zusammenhang mit fehlenden Wasserzeichen in Streaming-Abfragen im Append-Modus in den Fehlerrahmen
    • [SPARK-48977][SQL] Optimieren der Zeichenkettensuche unter UTF8_LCASE Sortierung
    • [SPARK-48889][SS] testStream zum Entladen von Zustandsspeichern vor Abschluss
    • [SPARK-48463] Erstellen von StringIndexer zur Unterstützung geschachtelter Eingabespalten
    • [SPARK-48954] try_mod() ersetzt try_remainder()
    • Updates der Betriebssystemsicherheit.

Databricks Runtime 15.3.

Weitere Informationen finden Sie unter Databricks Runtime 15.3.

  • 10. September 2024
    • [SPARK-49263][CONNECT] Spark Connect-Python-Client: Konsistente Behandlung von boole’schen Dataframe-Leseoptionen
    • [SPARK-49056][SQL] ErrorClassesJsonReader kann null nicht ordnungsgemäß verarbeiten
    • [SPARK-48862][PYTHON][CONNECT] _proto_to_string Anrufe vermeiden, wenn die INFO-Ebene nicht aktiviert ist
    • [SPARK-49146][SS] Verschieben von Assertion-Fehlern im Zusammenhang mit fehlenden Wasserzeichen in Streaming-Abfragen im Append-Modus in den Fehlerrahmen
  • 20. August 2024
    • [SPARK-48941][SPARK-48970] Backport ML writer / Korrekturen der Sprachausgabe
    • [SPARK-48706][PYTHON] Python UDF in höheren Reihenfolge Funktionen sollten keinen internen Fehler auslösen
    • [SPARK-48954] try_mod() ersetzt try_remainder()
    • [SPARK-48597][SQL] Einführung einer Markierung für isStreaming-Eigenschaft in der Textdarstellung eines logischen Plans
    • [SPARK-49065][SQL] Rebasing in Legacy-Formatierern/Parsern muss Zeitzonen unterstützen, die nicht dem JVM-Standard entsprechen
    • [SPARK-49047][PYTHON] [CONNECT] Abschneiden der Nachricht für die Protokollierung
    • [SPARK-48740][SQL] Fehler bei fehlender Fensterspezifikation frühzeitig erfassen
  • 7. August 2024
    • [Breaking change] In Databricks Runtime 15.3 und höher löst das Aufrufen einer benutzerdefinierten Funktion (UDF), einer benutzerdefinierten Aggregatfunktion (UDAF) oder einer benutzerdefinierten Tabellenfunktion (UDTF) in Python mit dem Typ VARIANT als Argument oder Rückgabewert eine Ausnahme aus. Mit dieser Änderung sollen Probleme verhindert werden, die aufgrund eines ungültigen Werts auftreten können, der von einer dieser Funktionen zurückgegeben wird. Weitere Informationen zum Typ VARIANT finden Sie unter Verwendung von VARIANTEN zum Speichern halbstrukturierter Daten.
    • Für serverloses Computing für Notebooks und Aufträge ist der ANSI SQL-Modus standardmäßig aktiviert. Weitere Informationen finden Sie unter Unterstützte Spark-Konfigurationsparameter.
    • Auf Rechnern, die mit dem gemeinsamen Zugriffsmodus konfiguriert sind, gelten für Kafka-Batch-Lese- und -Schreibvorgänge nun die gleichen Einschränkungen wie für Structured Streaming. Weitere Informationen finden Sie unter Streamingeinschränkungen für den gemeinsamen Zugriff auf Unity Catalog.
    • Die Ausgabe aus einer SHOW CREATE TABLE Anweisung enthält jetzt alle Zeilenfilter oder Spaltenmasken, die in einer materialisierten Sicht oder Streamingtabelle definiert sind. Siehe SHOW CREATE TABLE. Weitere Informationen zur Verwendung von Zeilenfiltern und Spaltenmasken finden Sie unter Filtern vertraulicher Tabellendaten mit Zeilenfiltern und Spaltenmasken.
    • [SPARK-46957] [CORE] Außerbetriebnahme migrierter Shuffle-Dateien sollte in der Lage sein, vom Executor zu bereinigen
    • [SPARK-48648][PYTHON][CONNECT] SparkConnectClient.tags ordnungsgemäß threadlocal machen
    • [SPARK-48896] [SPARK-48909] [SPARK-48883] Korrekturen für Backport Spark ML Writer
    • [SPARK-48713][SQL] Indexbereichsüberprüfung für "UnsafeRow.pointTo" hinzufügen, wenn baseObject -Bytearray ist
    • [SPARK-48834] [SQL] Deaktivieren der Variant-Eingabe/Ausgabe für Python Skalar UDFs, UDTFs, UDAFs während der Abfragekompilierung
    • [SPARK-48934][SS] Python-Datetime-Typen wurden für die Einstellung der Zeitüberschreitung in applyInPandasWithState falsch konvertiert
    • [SPARK-48705][PYTHON] Verwenden Sie worker_main explizit, wenn sie mit pyspark beginnt
    • [SPARK-48544][SQL] Reduzieren des Speicherdrucks leerer TreeNode-BitSets
    • [SPARK-48889][SS] testStream zum Entladen von Zustandsspeichern vor Abschluss
    • [SPARK-49054] [SQL] Spaltenstandardwert sollte current_*-Funktionen unterstützen
    • [SPARK-48653][PYTHON] Beheben ungültiger Python-Datenquellenfehlerklassenverweise
    • [SPARK-48463] Erstellen von StringIndexer zur Unterstützung geschachtelter Eingabespalten
    • [SPARK-48810][CONNECT] Die Session Stop()-API sollte idempotent sein und nicht fehlschlagen, wenn die Sitzung bereits vom Server geschlossen wurde
    • [SPARK-48873][SQL] Verwenden Sie "UnsafeRow" im JSON-Parser.
    • Updates der Betriebssystemsicherheit.
  • 11. Juli 2024
    • (Verhaltensänderung) DataFrames, die gegen Delta-Tabellenquellen zwischengespeichert werden, werden nun ungültig, wenn die Quelltabelle überschrieben wird. Diese Änderung bedeutet, dass alle Zustandsänderungen an Deltatabellen nun die zwischengespeicherten Ergebnisse ungültig machen. Verwenden Sie .checkpoint(), um den Zustand einer Tabelle während der gesamten Lebensdauer eines DataFrame beizubehalten.
    • Der JDBC-Treiber von Snowflake wird auf Version 3.16.1 aktualisiert.
    • Diese Version enthält einen Fix für ein Problem, das verhindert hat, dass die Registerkarte für die Spark-Benutzeroberflächenumgebung ordnungsgemäß angezeigt wird, wenn sie in Databricks-Containerdiensten ausgeführt wird.
    • Um ungültige Partitionen beim Lesen von Daten, dateibasierten Datenquellen, z. B. Parkett, ORC, CSV oder JSON, zu ignorieren, kann die Datenquellenoption ignoreInvalidPartitionPaths auf „true“ festgelegt werden. Beispiel: spark.read.format(“parquet”).option(“ignoreInvalidPartitionPaths”, “true”).load(…)`. Sie können auch die SQL-Konfiguration spark.sql.files.ignoreInvalidPartitionPaths verwenden. Die Datenquellenoption hat jedoch Vorrang vor der SQL-Konfiguration. Diese Einstellung ist standardmäßig „false“.
    • [SPARK-48100][SQL] Beheben von Problemen beim Überspringen von geschachtelten Strukturfeldern, die nicht im Schema ausgewählt sind
    • [SPARK-47463] [SQL] Verwenden von V2Predicate zum Umbrechen eines Ausdrucks mit Rückgabetyp vom Typ boolean
    • [SPARK-48292][CORE] Rückgängigmachen von [SPARK-39195][SQL] OutputCommitCoordinator von Spark sollte die Stage abbrechen, wenn die committete Datei nicht mit dem Vorgangsstatus konsistent ist
    • [SPARK-48475][PYTHON] Optimieren Sie _get_jvm_function in PySpark.
    • [SPARK-48286] Beheben der Analyse der Spalte mit vorhandenem Standardausdruck – Hinzufügen eines benutzerbezogenen Fehlers
    • [SPARK-48481][SQL][SS] OptimizeOneRowPlan nicht auf Streaming-Dataset anwenden
    • Rückgängigmachen von „[SPARK-47406][SQL] Behandlung von TIMESTAMP und DATETIME in MYSQLDialect“
    • [SPARK-48383][SS] Ausgeben eines besseren Fehlers für nicht übereinstimmende Partitionen in der startOffset-Option in Kafka
    • [SPARK-48503][14.3-15.3][SQL] Behebt ungültige skalare Unterabfragen mit Group-by auf nicht-äquivalenten Spalten, die fälschlicherweise erlaubt waren
    • [SPARK-48445][SC-167191] [SQL] Keine Inline-UDFs mit teuren untergeordneten Elementen
    • [SPARK-48252][SQL] Aktualisieren von CommonExpressionRef bei Bedarf
    • [SPARK-48273][master][SQL] Behebung des verspäteten Umschreibens von PlanWithUnresolvedIdentifier
    • [SPARK-48566][PYTHON] Fix für einen Fehler, bei dem Partitionsindizes falsch sind, wenn UDTF analyze() sowohl select als auch partitionColumns verwendet
    • [SPARK-48556][SQL] Falsche Fehlermeldung beheben, die auf UNSUPPORTED_GROUPING_EXPRESSION verweist
    • Updates der Betriebssystemsicherheit.

Databricks Runtime 15.2

Siehe Databricks Runtime 15.2.

  • 10. September 2024
    • [SPARK-49056][SQL] ErrorClassesJsonReader kann null nicht ordnungsgemäß verarbeiten
    • [SPARK-48597][SQL] Einführung einer Markierung für isStreaming-Eigenschaft in der Textdarstellung eines logischen Plans
    • [SPARK-48862][PYTHON][CONNECT] _proto_to_string Anrufe vermeiden, wenn die INFO-Ebene nicht aktiviert ist
    • [SPARK-49263][CONNECT] Spark Connect-Python-Client: Konsistente Behandlung von boole’schen Dataframe-Leseoptionen
    • [SPARK-49146][SS] Verschieben von Assertion-Fehlern im Zusammenhang mit fehlenden Wasserzeichen in Streaming-Abfragen im Append-Modus in den Fehlerrahmen
  • 20. August 2024
    • [SPARK-48941][SPARK-48970] Backport ML writer / Korrekturen der Sprachausgabe
    • [SPARK-48050][SS] Logischen Plan beim Starten der Abfrage protokollieren
    • [SPARK-48706][PYTHON] Python UDF in höheren Reihenfolge Funktionen sollten keinen internen Fehler auslösen
    • [SPARK-48740][SQL] Fehler bei fehlender Fensterspezifikation frühzeitig erfassen
    • [SPARK-49065][SQL] Rebasing in Legacy-Formatierern/Parsern muss Zeitzonen unterstützen, die nicht dem JVM-Standard entsprechen
    • [SPARK-49047][PYTHON] [CONNECT] Abschneiden der Nachricht für die Protokollierung
  • 7. August 2024
    • Für serverloses Computing für Notebooks und Aufträge ist der ANSI SQL-Modus standardmäßig aktiviert. Weitere Informationen finden Sie unter Unterstützte Spark-Konfigurationsparameter.
    • Auf Rechnern, die mit dem gemeinsamen Zugriffsmodus konfiguriert sind, gelten für Kafka-Batch-Lese- und -Schreibvorgänge nun die gleichen Einschränkungen wie für Structured Streaming. Weitere Informationen finden Sie unter Streamingeinschränkungen für den gemeinsamen Zugriff auf Unity Catalog.
    • Die Ausgabe aus einer SHOW CREATE TABLE Anweisung enthält jetzt alle Zeilenfilter oder Spaltenmasken, die in einer materialisierten Sicht oder Streamingtabelle definiert sind. Siehe SHOW CREATE TABLE. Weitere Informationen zur Verwendung von Zeilenfiltern und Spaltenmasken finden Sie unter Filtern vertraulicher Tabellendaten mit Zeilenfiltern und Spaltenmasken.
    • [SPARK-48705][PYTHON] Verwenden Sie worker_main explizit, wenn sie mit pyspark beginnt
    • [SPARK-48047][SQL] Reduzieren des Speicherdrucks leerer TreeNode-Tags
    • [SPARK-48810][CONNECT] Die Session Stop()-API sollte idempotent sein und nicht fehlschlagen, wenn die Sitzung bereits vom Server geschlossen wurde
    • [SPARK-48873][SQL] Verwenden Sie "UnsafeRow" im JSON-Parser.
    • [SPARK-46957] [CORE] Außerbetriebnahme migrierter Shuffle-Dateien sollte in der Lage sein, vom Executor zu bereinigen
    • [SPARK-48889][SS] testStream zum Entladen von Zustandsspeichern vor Abschluss
    • [SPARK-48713][SQL] Indexbereichsüberprüfung für "UnsafeRow.pointTo" hinzufügen, wenn baseObject -Bytearray ist
    • [SPARK-48896] [SPARK-48909] [SPARK-48883] Korrekturen für Backport Spark ML Writer
    • [SPARK-48544][SQL] Reduzieren des Speicherdrucks leerer TreeNode-BitSets
    • [SPARK-48934][SS] Python-Datetime-Typen wurden für die Einstellung der Zeitüberschreitung in applyInPandasWithState falsch konvertiert
    • [SPARK-48463] Erstellen von StringIndexer zur Unterstützung geschachtelter Eingabespalten
    • Updates der Betriebssystemsicherheit.
  • 11. Juli 2024
    • (Verhaltensänderung) DataFrames, die gegen Delta-Tabellenquellen zwischengespeichert werden, werden nun ungültig, wenn die Quelltabelle überschrieben wird. Diese Änderung bedeutet, dass alle Zustandsänderungen an Deltatabellen nun die zwischengespeicherten Ergebnisse ungültig machen. Verwenden Sie .checkpoint(), um den Zustand einer Tabelle während der gesamten Lebensdauer eines DataFrame beizubehalten.
    • Der JDBC-Treiber von Snowflake wird auf Version 3.16.1 aktualisiert.
    • Diese Version enthält einen Fix für ein Problem, das verhindert hat, dass die Registerkarte für die Spark-Benutzeroberflächenumgebung ordnungsgemäß angezeigt wird, wenn sie in Databricks-Containerdiensten ausgeführt wird.
    • In serverlosen Notebooks und Aufträgen wird der ANSI SQL-Modus standardmäßig aktiviert und unterstützt Kurznamen.
    • Um ungültige Partitionen beim Lesen von Daten, dateibasierten Datenquellen, z. B. Parkett, ORC, CSV oder JSON, zu ignorieren, kann die Datenquellenoption ignoreInvalidPartitionPaths auf „true“ festgelegt werden. Beispiel: spark.read.format(“parquet”).option(“ignoreInvalidPartitionPaths”, “true”).load(…)`. Sie können auch die SQL-Konfiguration spark.sql.files.ignoreInvalidPartitionPaths verwenden. Die Datenquellenoption hat jedoch Vorrang vor der SQL-Konfiguration. Diese Einstellung ist standardmäßig „false“.
    • [SPARK-48273][SQL] Behebung des verspäteten Umschreibens von PlanWithUnresolvedIdentifier
    • [SPARK-48292][CORE] Rückgängigmachen von [SPARK-39195][SQL] OutputCommitCoordinator von Spark sollte die Stage abbrechen, wenn die committete Datei nicht mit dem Vorgangsstatus konsistent ist
    • [SPARK-48100][SQL] Beheben von Problemen beim Überspringen von geschachtelten Strukturfeldern, die nicht im Schema ausgewählt sind
    • [SPARK-48286] Beheben der Analyse der Spalte mit vorhandenem Standardausdruck – Hinzufügen eines benutzerbezogenen Fehlers
    • [SPARK-48294][SQL] Behandeln von Kleinbuchstaben in nestedTypeMissingElementTypeError
    • [SPARK-48556][SQL] Falsche Fehlermeldung beheben, die auf UNSUPPORTED_GROUPING_EXPRESSION verweist
    • [SPARK-48648][PYTHON][CONNECT] SparkConnectClient.tags ordnungsgemäß threadlocal machen
    • [SPARK-48503][SQL] Beheben ungültiger skalarer Unterabfragen mit "Gruppieren nach" für nicht gleichwertige Spalten, die falsch zulässig waren
    • [SPARK-48252][SQL] Aktualisieren von CommonExpressionRef bei Bedarf
    • [SPARK-48475][PYTHON] Optimieren Sie _get_jvm_function in PySpark.
    • [SPARK-48566][PYTHON] Fix für einen Fehler, bei dem Partitionsindizes falsch sind, wenn UDTF analyze() sowohl select als auch partitionColumns verwendet
    • [SPARK-48481][SQL][SS] OptimizeOneRowPlan nicht auf Streaming-Dataset anwenden
    • [SPARK-47463] [SQL] Verwenden von V2Predicate zum Umbrechen eines Ausdrucks mit Rückgabetyp vom Typ boolean
    • [SPARK-48383][SS] Ausgeben eines besseren Fehlers für nicht übereinstimmende Partitionen in der startOffset-Option in Kafka
    • [SPARK-48445][SC-167191] [SQL] Keine Inline-UDFs mit teuren untergeordneten Elementen
    • Updates der Betriebssystemsicherheit.
  • 17. Juni 2024
    • applyInPandasWithState() ist für freigegebene Cluster verfügbar.
    • Es wird ein Fehler behoben, bei dem die Optimierung des Bewertungsfensters mithilfe den von Photon TopK fälschlicherweise verarbeiteten Partitionen mit Strukturen verarbeitet wurde.
    • Ein Fehler in der Funktion try_divide() wurde behoben, bei dem Eingaben mit Dezimalstellen zu unerwarteten Ausnahmen geführt haben.
    • [SPARK-48197][SQL] Vermeiden eines Assert-Fehlers für ungültige Lambda-Funktion
    • [SPARK-48276][PYTHON][CONNECT] Hinzufügen der fehlenden __repr__-Methode für SQLExpression
    • [SPARK-48014][SQL] Ändern des makeFromJava-Fehlers in EvaluatePython in einen benutzerbezogenen Fehler
    • [SPARK-48016][SQL] Beheben eines Fehlers in eine try_divide-Funktion bei Dezimalstellen
    • [SPARK-47986][CONNECT] [PYTHON] Eine neue Sitzung kann nicht erstellt werden, wenn die Standardsitzung vom Server geschlossen wird.
    • [SPARK-48173][SQL] Gesamter Abfrageplan sollte für CheckAnalysis zur Verfügung stehen
    • [SPARK-48056][CONNECT][PYTHON] Plan erneut ausführen, wenn ein SESSION_NOT_FOUND-Fehler ausgelöst wird und keine Teilantwort empfangen wurde
    • [SPARK-48172][SQL] Beheben von Escape-Problemen in JDBCDialects-Backport auf 15.2
    • [SPARK-48105][SS] Beheben der Racebedingung zwischen Entladung des Zustandsspeichers und Momentaufnahmen
    • [SPARK-48288] Hinzufügen des Quelldatentyps für den Connector-Umwandlungsausdruck
    • [SPARK-48310][PYTHON][CONNECT] Zwischengespeicherte Eigenschaften müssen Kopien zurückgeben.
    • [SPARK-48277] Verbessern von Fehlermeldung für ErrorClassesJsonReader.getErrorMessage
    • [SPARK-47986][CONNECT] [PYTHON] Eine neue Sitzung kann nicht erstellt werden, wenn die Standardsitzung vom Server geschlossen wird.
    • Rückgängigmachen von „[SPARK-47406][SQL] Behandlung von TIMESTAMP und DATETIME in MYSQLDialect“
    • [SPARK-47994][SQL] Beheben eines Fehlers mit CASE WHEN-Spaltenfilter-Pushdown in SQLServer
    • [SPARK-47764][CORE][SQL] Bereinigen von ShuffleCleanupMode-Abhängigkeiten
    • [SPARK-47921][CONNECT] Beheben der ExecuteJobTag-Erstellung in ExecuteHolder
    • [SPARK-48010][SQL] Vermeiden wiederholter Aufrufe von conf.resolver in resolveExpression
    • [SPARK-48146][SQL] Beheben der Aggregatfunktion in der untergeordneten Assertion des Ausdrucks
    • [SPARK-48180][SQL] Verbessern des Fehlers, wenn UDTF-Aufruf mit TABLE arg Klammern um mehrere PARTITION/ORDER BY-Auslöser vergisst
    • Updates der Betriebssystemsicherheit.

Databricks Runtime 15.1

Siehe Databricks Runtime 15.1.

  • 10. September 2024
    • [SPARK-49263][CONNECT] Spark Connect-Python-Client: Konsistente Behandlung von boole’schen Dataframe-Leseoptionen
    • [SPARK-49056][SQL] ErrorClassesJsonReader kann null nicht ordnungsgemäß verarbeiten
    • [SPARK-48862][PYTHON][CONNECT] _proto_to_string Anrufe vermeiden, wenn die INFO-Ebene nicht aktiviert ist
    • [SPARK-49146][SS] Verschieben von Assertion-Fehlern im Zusammenhang mit fehlenden Wasserzeichen in Streaming-Abfragen im Append-Modus in den Fehlerrahmen
  • 20. August 2024
    • [SPARK-48941][SPARK-48970] Backport ML writer / Korrekturen der Sprachausgabe
    • [SPARK-48050][SS] Logischen Plan beim Starten der Abfrage protokollieren
    • [SPARK-48706][PYTHON] Python UDF in höheren Reihenfolge Funktionen sollten keinen internen Fehler auslösen
    • [SPARK-48597][SQL] Einführung einer Markierung für isStreaming-Eigenschaft in der Textdarstellung eines logischen Plans
    • [SPARK-49065][SQL] Rebasing in Legacy-Formatierern/Parsern muss Zeitzonen unterstützen, die nicht dem JVM-Standard entsprechen
    • [SPARK-49047][PYTHON] [CONNECT] Abschneiden der Nachricht für die Protokollierung
    • [SPARK-48740][SQL] Fehler bei fehlender Fensterspezifikation frühzeitig erfassen
  • 7. August 2024
    • Für serverloses Computing für Notebooks und Aufträge ist der ANSI SQL-Modus standardmäßig aktiviert. Weitere Informationen finden Sie unter Unterstützte Spark-Konfigurationsparameter.
    • Auf Rechnern, die mit dem gemeinsamen Zugriffsmodus konfiguriert sind, gelten für Kafka-Batch-Lese- und -Schreibvorgänge nun die gleichen Einschränkungen wie für Structured Streaming. Weitere Informationen finden Sie unter Streamingeinschränkungen für den gemeinsamen Zugriff auf Unity Catalog.
    • Die Ausgabe aus einer SHOW CREATE TABLE Anweisung enthält jetzt alle Zeilenfilter oder Spaltenmasken, die in einer materialisierten Sicht oder Streamingtabelle definiert sind. Siehe SHOW CREATE TABLE. Weitere Informationen zur Verwendung von Zeilenfiltern und Spaltenmasken finden Sie unter Filtern vertraulicher Tabellendaten mit Zeilenfiltern und Spaltenmasken.
    • [SPARK-48544][SQL] Reduzieren des Speicherdrucks leerer TreeNode-BitSets
    • [SPARK-46957] [CORE] Außerbetriebnahme migrierter Shuffle-Dateien sollte in der Lage sein, vom Executor zu bereinigen
    • [SPARK-47202][PYTHON] Korrektur von Tippfehlern bei Datumsangaben mit tzinfo
    • [SPARK-48713][SQL] Indexbereichsüberprüfung für "UnsafeRow.pointTo" hinzufügen, wenn baseObject -Bytearray ist
    • [SPARK-48896] [SPARK-48909] [SPARK-48883] Korrekturen für Backport Spark ML Writer
    • [SPARK-48810][CONNECT] Die Session Stop()-API sollte idempotent sein und nicht fehlschlagen, wenn die Sitzung bereits vom Server geschlossen wurde
    • [SPARK-48873][SQL] Verwenden Sie "UnsafeRow" im JSON-Parser.
    • [SPARK-48934][SS] Python-Datetime-Typen wurden für die Einstellung der Zeitüberschreitung in applyInPandasWithState falsch konvertiert
    • [SPARK-48705][PYTHON] Verwenden Sie worker_main explizit, wenn sie mit pyspark beginnt
    • [SPARK-48889][SS] testStream zum Entladen von Zustandsspeichern vor Abschluss
    • [SPARK-48047][SQL] Reduzieren des Speicherdrucks leerer TreeNode-Tags
    • [SPARK-48463] Erstellen von StringIndexer zur Unterstützung geschachtelter Eingabespalten
    • Updates der Betriebssystemsicherheit.
  • 11. Juli 2024
    • (Verhaltensänderung) DataFrames, die gegen Delta-Tabellenquellen zwischengespeichert werden, werden nun ungültig, wenn die Quelltabelle überschrieben wird. Diese Änderung bedeutet, dass alle Zustandsänderungen an Deltatabellen nun die zwischengespeicherten Ergebnisse ungültig machen. Verwenden Sie .checkpoint(), um den Zustand einer Tabelle während der gesamten Lebensdauer eines DataFrame beizubehalten.
    • Der JDBC-Treiber von Snowflake wird auf Version 3.16.1 aktualisiert.
    • Diese Version enthält einen Fix für ein Problem, das verhindert hat, dass die Registerkarte für die Spark-Benutzeroberflächenumgebung ordnungsgemäß angezeigt wird, wenn sie in Databricks-Containerdiensten ausgeführt wird.
    • Für serverloses Computing für Notebooks und Aufträge ist der ANSI SQL-Modus standardmäßig aktiviert. Weitere Informationen finden Sie unter Unterstützte Spark-Konfigurationsparameter.
    • Um ungültige Partitionen beim Lesen von Daten, dateibasierten Datenquellen, z. B. Parkett, ORC, CSV oder JSON, zu ignorieren, kann die Datenquellenoption ignoreInvalidPartitionPaths auf „true“ festgelegt werden. Beispiel: spark.read.format(“parquet”).option(“ignoreInvalidPartitionPaths”, “true”).load(…)`. Sie können auch die SQL-Konfiguration spark.sql.files.ignoreInvalidPartitionPaths verwenden. Die Datenquellenoption hat jedoch Vorrang vor der SQL-Konfiguration. Diese Einstellung ist standardmäßig „false“.
    • [SPARK-48383][SS] Ausgeben eines besseren Fehlers für nicht übereinstimmende Partitionen in der startOffset-Option in Kafka
    • [SPARK-48481][SQL][SS] OptimizeOneRowPlan nicht auf Streaming-Dataset anwenden
    • [SPARK-48100][SQL] Beheben von Problemen beim Überspringen von geschachtelten Strukturfeldern, die nicht im Schema ausgewählt sind
    • [SPARK-47463] [SQL] Verwenden von V2Predicate zum Umbrechen eines Ausdrucks mit Rückgabetyp vom Typ boolean
    • [SPARK-48445][SC-167191] [SQL] Keine Inline-UDFs mit teuren untergeordneten Elementen
    • [SPARK-48292][CORE] Rückgängigmachen von [SPARK-39195][SQL] OutputCommitCoordinator von Spark sollte die Stage abbrechen, wenn die committete Datei nicht mit dem Vorgangsstatus konsistent ist
    • [SPARK-48566][PYTHON] Fix für einen Fehler, bei dem Partitionsindizes falsch sind, wenn UDTF analyze() sowohl select als auch partitionColumns verwendet
    • [SPARK-48648][PYTHON][CONNECT] SparkConnectClient.tags ordnungsgemäß threadlocal machen
    • [SPARK-48503][SQL] Beheben ungültiger skalarer Unterabfragen mit "Gruppieren nach" für nicht gleichwertige Spalten, die falsch zulässig waren
    • [SPARK-48252][SQL] Aktualisieren von CommonExpressionRef bei Bedarf
    • [SPARK-48475][PYTHON] Optimieren Sie _get_jvm_function in PySpark.
    • [SPARK-48294][SQL] Behandeln von Kleinbuchstaben in nestedTypeMissingElementTypeError
    • [SPARK-48286] Beheben der Analyse der Spalte mit vorhandenem Standardausdruck – Hinzufügen eines benutzerbezogenen Fehlers
    • [SPARK-47309][SQL] XML: Hinzufügen von Schemarückschlusstests für Wert-Tags
    • [SPARK-47309][SQL][XML] Hinzufügen von Komponententests für Schemarückschlüsse
    • [SPARK-48273][SQL] Behebung des verspäteten Umschreibens von PlanWithUnresolvedIdentifier
    • Updates der Betriebssystemsicherheit.
  • 17. Juni 2024
    • applyInPandasWithState() ist für freigegebene Cluster verfügbar.
    • Es wird ein Fehler behoben, bei dem die Optimierung des Bewertungsfensters mithilfe den von Photon TopK fälschlicherweise verarbeiteten Partitionen mit Strukturen verarbeitet wurde.
    • [SPARK-48310][PYTHON][CONNECT] Zwischengespeicherte Eigenschaften müssen Kopien zurückgeben.
    • [SPARK-48276][PYTHON][CONNECT] Hinzufügen der fehlenden __repr__-Methode für SQLExpression
    • [SPARK-48277] Verbessern von Fehlermeldung für ErrorClassesJsonReader.getErrorMessage
    • [SPARK-47764][CORE][SQL] Bereinigen von ShuffleCleanupMode-Abhängigkeiten
    • Updates der Betriebssystemsicherheit.
  • 21. Mai 2024
    • Ein Fehler in der Funktion try_divide() wurde behoben, bei dem Eingaben mit Dezimalstellen zu unerwarteten Ausnahmen geführt haben.
    • [SPARK-48173][SQL] Gesamter Abfrageplan sollte für CheckAnalysis zur Verfügung stehen
    • [SPARK-48016][SQL] Beheben eines Fehlers in eine try_divide-Funktion bei Dezimalstellen
    • [SPARK-48105][SS] Beheben der Racebedingung zwischen Entladung des Zustandsspeichers und Momentaufnahmen
    • [SPARK-48197][SQL] Vermeiden eines Assert-Fehlers für ungültige Lambda-Funktion
    • [SPARK-48180][SQL] Verbessern des Fehlers, wenn UDTF-Aufruf mit TABLE arg Klammern um mehrere PARTITION/ORDER BY-Auslöser vergisst
    • [SPARK-48014][SQL] Ändern des makeFromJava-Fehlers in EvaluatePython in einen benutzerbezogenen Fehler
    • [SPARK-48056][CONNECT][PYTHON] Plan erneut ausführen, wenn ein SESSION_NOT_FOUND-Fehler ausgelöst wird und keine Teilantwort empfangen wurde
    • [SPARK-48146][SQL] Beheben der Aggregatfunktion in der untergeordneten Assertion des Ausdrucks
    • [SPARK-47994][SQL] Beheben eines Fehlers mit CASE WHEN-Spaltenfilter-Pushdown in SQLServer
    • Updates der Betriebssystemsicherheit.
  • 9. Mai 2024
    • [SPARK-47543][CONNECT][PYTHON] Ableiten von dict als MapType von Pandas DataFrame zum Zulassen der DataFrame-Erstellung
    • [SPARK-47739][SQL] Registrieren des logischen avro-Typs
    • [SPARK-48044][PYTHON][CONNECT] Cache DataFrame.isStreaming
    • [SPARK-47855][CONNECT] Hinzufügen von spark.sql.execution.arrow.pyspark.fallback.enabled in der Liste der nicht unterstützten Werte
    • [SPARK-48010][SQL] Vermeiden wiederholter Aufrufe von conf.resolver in resolveExpression
    • [SPARK-47941][SS] [Connect] Weitergabe von ForeachBatch Worker-Initialisierungsfehlern an Benutzer für PySpark
    • [SPARK-47819][CONNECT][Cherry-pick-15.0] Asynchronen Rückruf für die Bereinigung der Ausführung verwenden
    • [SPARK-47956][SQL] Plausibilitätsprüfung für nicht aufgelöste LCA-Referenz
    • [SPARK-47839][SQL] Behebung des Aggregat-Fehlers in RewriteWithExpression
    • [SPARK-48018][SS] Behebung von groupId „NULL“, die einen Fehler für fehlenden Parameter auslöst, wenn KafkaException.couldNotReadOffsetRange ausgelöst wird
    • [SPARK-47371] [SQL] XML: Zeilentags in CDATA ignorieren
    • [SPARK-47907][SQL] Bang wurde unter einer Konfiguration abgelegt
    • [SPARK-47895][SQL] „group by all“ sollte idempotent sein
    • [SPARK-47973][CORE] Protokollaufrufwebsite in SparkContext.stop() und später in SparkContext.assertNotStopped()
    • [SPARK-47986][CONNECT] [PYTHON] Eine neue Sitzung kann nicht erstellt werden, wenn die Standardsitzung vom Server geschlossen wird.
    • Updates der Betriebssystemsicherheit.

Databricks Runtime 14.3

Weitere Informationen unter Databricks Runtime 14.3 LTS.

  • 10. September 2024
    • [SPARK-49146][SS] Verschieben von Assertion-Fehlern im Zusammenhang mit fehlenden Wasserzeichen in Streaming-Abfragen im Append-Modus in den Fehlerrahmen
    • [SPARK-48862][PYTHON][CONNECT] _proto_to_string Anrufe vermeiden, wenn die INFO-Ebene nicht aktiviert ist
    • [SPARK-49263][CONNECT] Spark Connect-Python-Client: Konsistente Behandlung von boole’schen Dataframe-Leseoptionen
  • 20. August 2024
    • [SPARK-48941][SPARK-48970] Backport ML writer / Korrekturen der Sprachausgabe
    • [SPARK-48706][PYTHON] Python UDF in höheren Reihenfolge Funktionen sollten keinen internen Fehler auslösen
    • [SPARK-49056][SQL] ErrorClassesJsonReader kann null nicht ordnungsgemäß verarbeiten
    • [SPARK-48597][SQL] Einführung einer Markierung für isStreaming-Eigenschaft in der Textdarstellung eines logischen Plans
    • [SPARK-49065][SQL] Rebasing in Legacy-Formatierern/Parsern muss Zeitzonen unterstützen, die nicht dem JVM-Standard entsprechen
    • [SPARK-48934][SS] Python-Datetime-Typen wurden für die Einstellung der Zeitüberschreitung in applyInPandasWithState falsch konvertiert
  • 7. August 2024
    • Diese Version enthält einen Fehlerkorrektur für die Klassen ColumnVector und ColumnarArray in der Spark-Java-Schnittstelle. Vor dieser Korrektur konnte ein ArrayIndexOutOfBoundsException ausgelöst oder falsche Daten zurückgegeben werden, wenn eine Instanz einer dieser Klassen null-Werte enthielt.
    • Für serverloses Computing für Notebooks und Aufträge ist der ANSI SQL-Modus standardmäßig aktiviert. Weitere Informationen finden Sie unter Unterstützte Spark-Konfigurationsparameter.
    • Auf Rechnern, die mit dem gemeinsamen Zugriffsmodus konfiguriert sind, gelten für Kafka-Batch-Lese- und -Schreibvorgänge nun die gleichen Einschränkungen wie für Structured Streaming. Weitere Informationen finden Sie unter Streamingeinschränkungen für den gemeinsamen Zugriff auf Unity Catalog.
    • Die Ausgabe aus einer SHOW CREATE TABLE Anweisung enthält jetzt alle Zeilenfilter oder Spaltenmasken, die in einer materialisierten Sicht oder Streamingtabelle definiert sind. Siehe SHOW CREATE TABLE. Weitere Informationen zur Verwendung von Zeilenfiltern und Spaltenmasken finden Sie unter Filtern vertraulicher Tabellendaten mit Zeilenfiltern und Spaltenmasken.
    • [SPARK-48896] [SPARK-48909] [SPARK-48883] Korrekturen für Backport Spark ML Writer
    • [SPARK-48889][SS] testStream zum Entladen von Zustandsspeichern vor Abschluss
    • [SPARK-48705][PYTHON] Verwenden Sie worker_main explizit, wenn sie mit pyspark beginnt
    • [SPARK-48047][SQL] Reduzieren des Speicherdrucks leerer TreeNode-Tags
    • [SPARK-48544][SQL] Reduzieren des Speicherdrucks leerer TreeNode-BitSets
    • [SPARK-46957] [CORE] Außerbetriebnahme migrierter Shuffle-Dateien sollte in der Lage sein, vom Executor zu bereinigen
    • [SPARK-48463] Erstellen von StringIndexer zur Unterstützung geschachtelter Eingabespalten
    • [SPARK-47202][PYTHON] Korrektur von Tippfehlern bei Datumsangaben mit tzinfo
    • [SPARK-47713][SQL] [CONNECT] Beheben eines Selbstverknüpfungsfehlers
    • Updates der Betriebssystemsicherheit.
  • 11. Juli 2024
    • (Verhaltensänderung) DataFrames, die gegen Delta-Tabellenquellen zwischengespeichert werden, werden nun ungültig, wenn die Quelltabelle überschrieben wird. Diese Änderung bedeutet, dass alle Zustandsänderungen an Deltatabellen nun die zwischengespeicherten Ergebnisse ungültig machen. Verwenden Sie .checkpoint(), um den Zustand einer Tabelle während der gesamten Lebensdauer eines DataFrame beizubehalten.
    • Der JDBC-Treiber von Snowflake wird auf Version 3.16.1 aktualisiert.
    • Diese Version enthält einen Fix für ein Problem, das verhindert hat, dass die Registerkarte für die Spark-Benutzeroberflächenumgebung ordnungsgemäß angezeigt wird, wenn sie in Databricks-Containerdiensten ausgeführt wird.
    • Für serverloses Computing für Notebooks und Aufträge ist der ANSI SQL-Modus standardmäßig aktiviert. Weitere Informationen finden Sie unter Unterstützte Spark-Konfigurationsparameter.
    • Um ungültige Partitionen beim Lesen von Daten, dateibasierten Datenquellen, z. B. Parkett, ORC, CSV oder JSON, zu ignorieren, kann die Datenquellenoption ignoreInvalidPartitionPaths auf „true“ festgelegt werden. Beispiel: spark.read.format(“parquet”).option(“ignoreInvalidPartitionPaths”, “true”).load(…). Sie können auch die SQL-Konfiguration spark.sql.files.ignoreInvalidPartitionPaths verwenden. Die Datenquellenoption hat jedoch Vorrang vor der SQL-Konfiguration. Diese Einstellung ist standardmäßig „false“.
    • [SPARK-48648][PYTHON][CONNECT] SparkConnectClient.tags ordnungsgemäß threadlocal machen
    • [SPARK-48445][SC-167191] [SQL] Keine Inline-UDFs mit teuren untergeordneten Elementen
    • [SPARK-48481][SQL][SS] OptimizeOneRowPlan nicht auf Streaming-Dataset anwenden
    • [SPARK-48383][SS] Ausgeben eines besseren Fehlers für nicht übereinstimmende Partitionen in der startOffset-Option in Kafka
    • [SPARK-48503][SQL] Beheben ungültiger skalarer Unterabfragen mit "Gruppieren nach" für nicht gleichwertige Spalten, die falsch zulässig waren
    • [SPARK-48100][SQL] Beheben von Problemen beim Überspringen von geschachtelten Strukturfeldern, die nicht im Schema ausgewählt sind
    • [SPARK-48273][SQL] Behebung des verspäteten Umschreibens von PlanWithUnresolvedIdentifier
    • [SPARK-48252][SQL] Aktualisieren von CommonExpressionRef bei Bedarf
    • [SPARK-48475][PYTHON] Optimieren Sie _get_jvm_function in PySpark.
    • [SPARK-48292][CORE] Rückgängigmachen von [SPARK-39195][SQL] OutputCommitCoordinator von Spark sollte die Stage abbrechen, wenn die committete Datei nicht mit dem Vorgangsstatus konsistent ist
    • Updates der Betriebssystemsicherheit.
  • 17. Juni 2024
    • applyInPandasWithState() ist für freigegebene Cluster verfügbar.
    • Es wird ein Fehler behoben, bei dem die Optimierung des Bewertungsfensters mithilfe den von Photon TopK fälschlicherweise verarbeiteten Partitionen mit Strukturen verarbeitet wurde.
    • [SPARK-48310][PYTHON][CONNECT] Zwischengespeicherte Eigenschaften müssen Kopien zurückgeben.
    • [SPARK-48276][PYTHON][CONNECT] Hinzufügen der fehlenden __repr__-Methode für SQLExpression
    • [SPARK-48294][SQL] Behandeln von Kleinbuchstaben in nestedTypeMissingElementTypeError
    • Updates der Betriebssystemsicherheit.
  • 21. Mai 2024
    • (Verhaltensänderung) dbutils.widgets.getAll() wird jetzt unterstützt, um alle Widgetwerte in einem Notizbuch abzurufen.
    • Ein Fehler in der Funktion try_divide() wurde behoben, bei dem Eingaben mit Dezimalstellen zu unerwarteten Ausnahmen geführt haben.
    • [SPARK-48056][CONNECT][PYTHON] Plan erneut ausführen, wenn ein SESSION_NOT_FOUND-Fehler ausgelöst wird und keine Teilantwort empfangen wurde
    • [SPARK-48146][SQL] Beheben der Aggregatfunktion in der untergeordneten Assertion des Ausdrucks
    • [SPARK-47986][CONNECT] [PYTHON] Eine neue Sitzung kann nicht erstellt werden, wenn die Standardsitzung vom Server geschlossen wird.
    • [SPARK-48180][SQL] Verbessern des Fehlers, wenn UDTF-Aufruf mit TABLE arg Klammern um mehrere PARTITION/ORDER BY-Auslöser vergisst
    • [SPARK-48016][SQL] Beheben eines Fehlers in eine try_divide-Funktion bei Dezimalstellen
    • [SPARK-48197][SQL] Vermeiden eines Assert-Fehlers für ungültige Lambda-Funktion
    • [SPARK-47994][SQL] Beheben eines Fehlers mit CASE WHEN-Spaltenfilter-Pushdown in SQLServer
    • [SPARK-48173][SQL] Gesamter Abfrageplan sollte für CheckAnalysis zur Verfügung stehen
    • [SPARK-48105][SS] Beheben der Racebedingung zwischen Entladung des Zustandsspeichers und Momentaufnahmen
    • Updates der Betriebssystemsicherheit.
  • 9. Mai 2024
    • (Verhaltensänderung) Die UDF-Typen applyInPandas und mapInPandas werden jetzt für den Compute-Zugriffsmodus Freigegeben unterstützt, der die Databricks Runtime 14.3 und höher ausführt.
    • [SPARK-47739][SQL] Registrieren des logischen avro-Typs
    • [SPARK-47941][SS] [Connect] Weitergabe von ForeachBatch Worker-Initialisierungsfehlern an Benutzer für PySpark
    • [SPARK-48010][SQL] Vermeiden wiederholter Aufrufe von conf.resolver in resolveExpression
    • [SPARK-48044][PYTHON][CONNECT] Cache DataFrame.isStreaming
    • [SPARK-47956][SQL] Plausibilitätsprüfung für nicht aufgelöste LCA-Referenz
    • [SPARK-47543][CONNECT][PYTHON] Ableiten von dict als Mapype von Pandas DataFrame zum Zulassen der DataFrame-Erstellung
    • [SPARK-47819][CONNECT][Cherry-pick-14.3] Asynchronen Rückruf für die Bereinigung der Ausführung verwenden
    • [SPARK-47764][CORE][SQL] Bereinigen von ShuffleCleanupMode-Abhängigkeiten
    • [SPARK-48018][SS] Behebung von groupId „NULL“, die einen Fehler für fehlenden Parameter auslöst, wenn KafkaException.couldNotReadOffsetRange ausgelöst wird
    • [SPARK-47839][SQL] Behebung des Aggregat-Fehlers in RewriteWithExpression
    • [SPARK-47371] [SQL] XML: Zeilentags in CDATA ignorieren
    • [SPARK-47895][SQL] „group by all“ sollte idempotent sein
    • [SPARK-47973][CORE] Protokollaufrufwebsite in SparkContext.stop() und später in SparkContext.assertNotStopped()
    • Updates der Betriebssystemsicherheit.
  • 25. April 2024
    • [SPARK-47543][CONNECT][PYTHON] Ableiten von dict als MapType von Pandas DataFrame zum Zulassen der DataFrame-Erstellung
    • [SPARK-47694][CONNECT] Maximale Nachrichtengröße auf der Clientseite konfigurierbar machen
    • [SPARK-47664][PYTHON][CONNECT][Cherry-pick-14.3] Überprüfen des Spaltennamens mit zwischengespeichertem Schema
    • [SPARK-47862][PYTHON][CONNECT] Beheben der Generierung von proto-Dateien
    • Wiederherstellen von „[SPARK-47543][CONNECT][PYTHON] Ableiten von dict als MapType von Pandas DataFrame zum Zulassen der DataFrame-Erstellung“
    • [SPARK-47704][SQL] Die JSON-Analyse schlägt mit „java.lang.ClassCastException“ fehl, wenn spark.sql.json.enablePartialResults aktiviert ist
    • [SPARK-47812][CONNECT] Unterstützung der Serialisierung von SparkSession für ForEachBatch-Worker
    • [SPARK-47818][CONNECT][Cherry-pick-14.3] Einführung von Plancache in SparkConnectPlanner zur Verbesserung der Leistung von Analyseanforderungen
    • [SPARK-47828][CONNECT][PYTHON] DataFrameWriterV2.overwrite schlägt mit ungültigem Plan fehl
    • Updates der Betriebssystemsicherheit.
  • 11. April 2024
    • (Verhaltensänderung) Um ein einheitliches Verhalten zwischen Computetypen sicherzustellen, weisen PySpark-UDFs in freigegebenen Clustern nun das gleiche Verhalten auf wie UDFs in nicht isolierten und zugewiesenen Clustern. Dieses Update enthält folgende Änderungen, die ggf. dazu führen, dass bereits vorhandener Code nicht mehr funktioniert:
      • Von UDFs mit dem Rückgabetyp string werden nicht mehr implizit string-fremde Werte in string-Werte konvertiert. Zuvor wurde der Rückgabewert von UDFs mit dem Rückgabetyp str unabhängig vom tatsächlichen Datentyp des zurückgegebenen Werts in eine str()-Funktion eingeschlossen.
      • Von UDFs mit Rückgaben vom Typ timestamp wird nicht mehr implizit eine Konvertierung in timestamp mit timezone angewendet.
      • Die Spark-Clusterkonfigurationen spark.databricks.sql.externalUDF.* gelten nicht mehr für PySpark-UDFs in freigegebenen Clustern.
      • Die Spark-Clusterkonfiguration spark.databricks.safespark.externalUDF.plan.limit hat keine Auswirkungen mehr auf PySpark-UDFs. Dadurch wird die Public Preview-Einschränkung von fünf UDFs pro Abfrage für PySpark UDFs entfernt.
      • Die Spark-Clusterkonfiguration spark.databricks.safespark.sandbox.size.default.mib gilt nicht mehr für PySpark-UDFs in freigegebenen Clustern. Stattdessen wird verfügbarer Arbeitsspeicher des Systems verwendet. Verwenden Sie spark.databricks.pyspark.udf.isolation.memoryLimit mit dem Mindestwert 100m, um den Arbeitsspeicher von PySpark-UDFs einzuschränken.
    • Der TimestampNTZ-Datentyp wird jetzt als Clusterspalte mit Liquid Clustering unterstützt. Weitere Informationen finden Sie unter Verwenden von Liquid Clustering für Delta-Tabellen.
    • [SPARK-47511][SQL] Kanonisieren mit Ausdrücken durch erneutes Zuweisen von IDs
    • [SPARK-47509][SQL] Blockieren von Unterabfrageausdrücken in Lambda-Funktionen sowie in Funktionen höherer Ordnung
    • [SPARK-46990][SQL] Korrigieren des Ladens leerer Avro-Dateien, die von Event Hubs ausgegeben werden
    • [SPARK-47638][PS][CONNECT] Überspringen der Spaltennamenüberprüfung in PS
    • Updates der Betriebssystemsicherheit.
  • 14. März 2024
    • [SPARK-47135][SS] Implementieren von Fehlerklassen für Kafka-Datenverlustausnahmen
    • [SPARK-47176][SQL] Verwenden einer ResolveAllExpressionsUpWithPruning-Hilfsfunktion
    • [SPARK-47145][SQL] Übergeben Sie den Tabellenbezeichner an den Zeilendatenquellenscan-Exec für die V2-Strategie.
    • [SPARK-47044][SQL] Hinzufügen von ausgeführten Abfragen für externe JDBC-Datenquellen zur Erläuterung der Ausgabe
    • [SPARK-47167][SQL] Hinzufügen einer konkreten Klasse für anonyme JDBC-Relation von Daten
    • [SPARK-47070] Beheben ungültiger Aggregation nach dem Neuschreiben von Unterabfragen
    • [SPARK-47121][CORE] Vermeiden von RejectedExecutionExceptions während des Herunterfahrens von StandaloneSchedulerBackend
    • Zurücksetzen von „[SPARK-46861][CORE] Deadlock in DAGScheduler vermeiden“
    • [SPARK-47125][SQL] Zurückgeben von NULL, wenn Univocity niemals die Analyse auslöst
    • [SPARK-46999][SQL] ExpressionWithUnresolvedIdentifier sollte andere Ausdrücke in der Ausdrucksstruktur enthalten
    • [SPARK-47129][CONNECT] [SQL] Erstellen eines ordnungsgemäßen ResolveRelations-Cacheverbindungsplans
    • [SPARK-47241][SQL] Beheben von Regelreihenfolgeproblemen für „ExtractGenerator“
    • [SPARK-47035][SS][CONNECT] Protokoll für clientseitigen Listener
    • Updates der Betriebssystemsicherheit.
  • 29. Februar 2024
    • Es wurde ein Problem behoben, bei dem die Verwendung einer lokalen Sammlung als Quelle in einem MERGE-Befehl dazu führen konnte, dass die Vorgangsmetrik numSourceRows die korrekte Anzahl von Zeilen verdoppelt.
    • Zum Erstellen eines Schemas mit einem definierten Speicherort muss der Benutzer jetzt über SELECT- und MODIFY-Berechtigungen für ALLE DATEIEN verfügen.
    • [SPARK-47071][SQL] Inline mit Ausdruck, wenn spezieller Ausdruck enthalten ist
    • [SPARK-47059][SQL] Fehlerkontext für ALTER COLUMN v1-Befehl anfügen
    • [SPARK-46993][SQL] Fix zur Konstantenentfaltung für Sitzungsvariablen
    • Updates der Betriebssystemsicherheit.
  • 3. Januar 2024
    • [SPARK-46933] Fügen Sie die Abfrageausführungszeitmetrik zu Connectors hinzu, die JDBCRDD verwenden.
    • [SPARK-46763] Beheben des Assertionsfehlers in ReplaceDeduplicateWithAggregate für doppelte Attribute.
    • [SPARK-46954] XML: Wrap InputStreamReader mit BufferedReader.
    • [SPARK-46655] Abfangen des Abfragekontext in DataFrame-Methoden überspringen.
    • [SPARK-44815] Cache df.schema, um zusätzliche RPC zu vermeiden.
    • [SPARK-46952] XML: Begrenzen der Größe eines beschädigten Datensatzes.
    • [SPARK-46794] Entfernen Sie Unterabfragen aus LogicalRDD-Einschränkungen.
    • [SPARK-46736] leeres Nachrichtenfeld im Protobuf-Connector beibehalten.
    • [SPARK-45182] Ignorieren Sie den Abschluss der Aufgabe aus der alten Phase, nachdem Sie die übergeordnete Phase erneut versucht haben, die durch Prüfsumme bestimmt wird.
    • [SPARK-46414] Verwenden Sie prependBaseUri, um Javascript-Importe zu rendern.
    • [SPARK-46383] Reduzieren Sie die Heap-Auslastung des Treibers, indem Sie die Lebensdauer von TaskInfo.accumulables() reduzieren.
    • [SPARK-46861] Vermeiden Sie Deadlock in DAGScheduler.
    • [SPARK-46954] XML: Optimieren der Schemaindex-Lookup.
    • [SPARK-46676] dropDuplicatesWithinWatermark sollte bei der Kanonisierung des Plans nicht fehlschlagen.
    • [SPARK-46644] Ändern Sie das Hinzufügen und Zusammenführen in SQLMetric, um isZero zu verwenden.
    • [SPARK-46731] Verwalten der Instanz des Statusspeicheranbieters nach Statusdatenquelle – Reader.
    • [SPARK-46677] Behebung der dataframe["*"]-Auflösung.
    • [SPARK-46610] Create-Tabelle sollte eine Ausnahme auslösen, wenn kein Wert für einen Schlüssel in den Optionen angegeben wird.
    • [SPARK-46941] Der Knoten „Fenstergruppengrenzwert“ kann nicht für die Berechnung der obersten k-Ebene eingefügt werden, wenn sizeBasedWindowFunction enthalten ist.
    • [SPARK-45433] Beheben des CSV/JSON-Schemarückschlusses, wenn die Zeitstempel nicht mit dem angegebenen timestampFormat übereinstimmen.
    • [SPARK-46930] Fügen Sie Unterstützung für ein benutzerdefiniertes Präfix für Union-Typfelder in Avro hinzu.
    • [SPARK-46227] Backport nach 14.3.
    • [SPARK-46822] Respektieren Sie spark.sql.legacy.charVarcharAsString, wenn Sie den Katalysatortyp in Schriftart umwandeln.
    • Updates der Betriebssystemsicherheit.

Databricks Runtime 14.2

Siehe Databricks Runtime 14.2.

  • 10. September 2024
    • [SPARK-49263][CONNECT] Spark Connect-Python-Client: Konsistente Behandlung von boole’schen Dataframe-Leseoptionen
    • [SPARK-49146][SS] Verschieben von Assertion-Fehlern im Zusammenhang mit fehlenden Wasserzeichen in Streaming-Abfragen im Append-Modus in den Fehlerrahmen
    • [SPARK-49056][SQL] ErrorClassesJsonReader kann null nicht ordnungsgemäß verarbeiten
  • 20. August 2024
    • [SPARK-48050][SS] Logischen Plan beim Starten der Abfrage protokollieren
    • [SPARK-48597][SQL] Einführung einer Markierung für isStreaming-Eigenschaft in der Textdarstellung eines logischen Plans
    • [SPARK-49065][SQL] Rebasing in Legacy-Formatierern/Parsern muss Zeitzonen unterstützen, die nicht dem JVM-Standard entsprechen
    • [SPARK-48706][PYTHON] Python UDF in höheren Reihenfolge Funktionen sollten keinen internen Fehler auslösen
  • 7. August 2024
    • Diese Version enthält einen Fehlerkorrektur für die Klassen ColumnVector und ColumnarArray in der Spark-Java-Schnittstelle. Vor dieser Korrektur konnte ein ArrayIndexOutOfBoundsException ausgelöst oder falsche Daten zurückgegeben werden, wenn eine Instanz einer dieser Klassen null-Werte enthielt.
    • Die Ausgabe aus einer SHOW CREATE TABLE Anweisung enthält jetzt alle Zeilenfilter oder Spaltenmasken, die in einer materialisierten Sicht oder Streamingtabelle definiert sind. Siehe SHOW CREATE TABLE. Weitere Informationen zur Verwendung von Zeilenfiltern und Spaltenmasken finden Sie unter Filtern vertraulicher Tabellendaten mit Zeilenfiltern und Spaltenmasken.
    • [SPARK-47202][PYTHON] Korrektur von Tippfehlern bei Datumsangaben mit tzinfo
    • [SPARK-48705][PYTHON] Verwenden Sie worker_main explizit, wenn sie mit pyspark beginnt
    • Updates der Betriebssystemsicherheit.
  • 11. Juli 2024
    • (Verhaltensänderung) DataFrames, die gegen Delta-Tabellenquellen zwischengespeichert werden, werden nun ungültig, wenn die Quelltabelle überschrieben wird. Diese Änderung bedeutet, dass alle Zustandsänderungen an Deltatabellen nun die zwischengespeicherten Ergebnisse ungültig machen. Verwenden Sie .checkpoint(), um den Zustand einer Tabelle während der gesamten Lebensdauer eines DataFrame beizubehalten.
    • Der JDBC-Treiber von Snowflake wird auf Version 3.16.1 aktualisiert.
    • Diese Version enthält einen Fix für ein Problem, das verhindert hat, dass die Registerkarte für die Spark-Benutzeroberflächenumgebung ordnungsgemäß angezeigt wird, wenn sie in Databricks-Containerdiensten ausgeführt wird.
    • [SPARK-48292][CORE] Rückgängigmachen von [SPARK-39195][SQL] OutputCommitCoordinator von Spark sollte die Stage abbrechen, wenn die committete Datei nicht mit dem Vorgangsstatus konsistent ist
    • [SPARK-48273][SQL] Behebung des verspäteten Umschreibens von PlanWithUnresolvedIdentifier
    • [SPARK-48503][SQL] Beheben ungültiger skalarer Unterabfragen mit "Gruppieren nach" für nicht gleichwertige Spalten, die falsch zulässig waren
    • [SPARK-48481][SQL][SS] OptimizeOneRowPlan nicht auf Streaming-Dataset anwenden
    • [SPARK-48475][PYTHON] Optimieren Sie _get_jvm_function in PySpark.
    • [SPARK-48100][SQL] Beheben von Problemen beim Überspringen von geschachtelten Strukturfeldern, die nicht im Schema ausgewählt sind
    • [SPARK-48445][SC-167191] [SQL] Keine Inline-UDFs mit teuren untergeordneten Elementen
    • [SPARK-48383][SS] Ausgeben eines besseren Fehlers für nicht übereinstimmende Partitionen in der startOffset-Option in Kafka
    • Updates der Betriebssystemsicherheit.
  • 17. Juni 2024
    • Es wird ein Fehler behoben, bei dem die Optimierung des Bewertungsfensters mithilfe den von Photon TopK fälschlicherweise verarbeiteten Partitionen mit Strukturen verarbeitet wurde.
    • [SPARK-48276][PYTHON][CONNECT] Hinzufügen der fehlenden __repr__-Methode für SQLExpression
    • [SPARK-48277] Verbessern von Fehlermeldung für ErrorClassesJsonReader.getErrorMessage
    • Updates der Betriebssystemsicherheit.
  • 21. Mai 2024
    • (Verhaltensänderung) dbutils.widgets.getAll() wird jetzt unterstützt, um alle Widgetwerte in einem Notizbuch abzurufen.
    • [SPARK-48173][SQL] Gesamter Abfrageplan sollte für CheckAnalysis zur Verfügung stehen
    • [SPARK-48197][SQL] Vermeiden eines Assert-Fehlers für ungültige Lambda-Funktion
    • [SPARK-47994][SQL] Beheben eines Fehlers mit CASE WHEN-Spaltenfilter-Pushdown in SQLServer
    • [SPARK-48105][SS] Beheben der Racebedingung zwischen Entladung des Zustandsspeichers und Momentaufnahmen
    • Updates der Betriebssystemsicherheit.
  • 9. Mai 2024
    • [SPARK-48044][PYTHON][CONNECT] Cache DataFrame.isStreaming
    • [SPARK-47956][SQL] Plausibilitätsprüfung für nicht aufgelöste LCA-Referenz
    • [SPARK-47371] [SQL] XML: Zeilentags in CDATA ignorieren
    • [SPARK-47812][CONNECT] Unterstützung der Serialisierung von SparkSession für ForEachBatch-Worker
    • [SPARK-47895][SQL] „group by all“ sollte idempotent sein
    • [SPARK-47973][CORE] Protokollaufrufwebsite in SparkContext.stop() und später in SparkContext.assertNotStopped()
    • Updates der Betriebssystemsicherheit.
  • 25. April 2024
    • [SPARK-47704][SQL] Die JSON-Analyse schlägt mit „java.lang.ClassCastException“ fehl, wenn spark.sql.json.enablePartialResults aktiviert ist
    • [SPARK-47828][CONNECT][PYTHON] DataFrameWriterV2.overwrite schlägt mit ungültigem Plan fehl
    • Updates der Betriebssystemsicherheit.
  • 11. April 2024
    • [SPARK-47309][SQL][XML] Hinzufügen von Komponententests für Schemarückschlüsse
    • [SPARK-46990][SQL] Korrigieren des Ladens leerer Avro-Dateien, die von Event Hubs ausgegeben werden
    • [SPARK-47638][PS][CONNECT] Überspringen der Spaltennamenüberprüfung in PS
    • [SPARK-47509][SQL] Blockieren von Unterabfrageausdrücken in Lambda-Funktionen sowie in Funktionen höherer Ordnung
    • [SPARK-38708][SQL] Upgraden des Hive-Metastoreclients auf 3.1.3 für Hive 3.1
    • Updates der Betriebssystemsicherheit.
  • 1. April 2024
    • [SPARK-47322][PYTHON][CONNECT] Erreichen einer konsistenten Behandlung der Duplizierung von withColumnsRenamed-Spaltennamen mit withColumnRenamed
    • [SPARK-47385] Korrigieren von Tupel-Encodern mit Optionseingaben
    • [SPARK-47070] Beheben ungültiger Aggregation nach dem Neuschreiben von Unterabfragen
    • [SPARK-47218][SQL] XML: „SchemaOfXml“ wurde geändert, sodass im DROPMALFORMED-Modus ein Fehler auftritt
    • [SPARK-47305][SQL] Korrigieren von „PruneFilters“, um das isStreaming-Flag von „LocalRelation“ korrekt zu kennzeichnen, wenn der Plan sowohl über Batch als auch über Streaming verfügt
    • [SPARK-47218][SQL] XML: Ignorieren kommentierter Zeilentags im XML-Tokenizer
    • Zurücksetzen von „[SPARK-46861][CORE] Deadlock in DAGScheduler vermeiden“
    • [SPARK-47300][SQL] quoteIfNeeded soll Bezeichner zitieren, die mit Ziffern beginnen
    • [SPARK-47368][SQL] Entfernen der Überprüfung der inferTimestampNTZ-Konfiguration in „ParquetRowConverter“
    • Updates der Betriebssystemsicherheit.
  • 14. März 2024
    • [SPARK-47035][SS][CONNECT] Protokoll für clientseitigen Listener
    • [SPARK-47121][CORE] Vermeiden von RejectedExecutionExceptions während des Herunterfahrens von StandaloneSchedulerBackend
    • [SPARK-47145][SQL] Übergeben Sie den Tabellenbezeichner an den Zeilendatenquellenscan-Exec für die V2-Strategie.
    • [SPARK-47176][SQL] Verwenden einer ResolveAllExpressionsUpWithPruning-Hilfsfunktion
    • [SPARK-47167][SQL] Hinzufügen einer konkreten Klasse für anonyme JDBC-Relation von Daten
    • [SPARK-47129][CONNECT] [SQL] Erstellen eines ordnungsgemäßen ResolveRelations-Cacheverbindungsplans
    • [SPARK-47044][SQL] Hinzufügen von ausgeführten Abfragen für externe JDBC-Datenquellen zur Erläuterung der Ausgabe
    • Updates der Betriebssystemsicherheit.
  • 29. Februar 2024
    • Es wurde ein Problem behoben, bei dem die Verwendung einer lokalen Sammlung als Quelle in einem MERGE-Befehl dazu führen konnte, dass die Vorgangsmetrik numSourceRows die korrekte Anzahl von Zeilen verdoppelt.
    • Zum Erstellen eines Schemas mit einem definierten Speicherort muss der Benutzer jetzt über SELECT- und MODIFY-Berechtigungen für ALLE DATEIEN verfügen.
    • Sie können jetzt XML-Dateien mit Autochanger, read_files, COPY INTO, DLT und DBSQL erfassen. Die XML-Dateiunterstützung kann Schemas automatisch ableiten und weiterentwickeln, Daten mit Typenkonflikten retten, XML mithilfe von XSD überprüfen und SQL-Ausdrücke wie from_xml, schema_of_xml und to_xml unterstützen. Weitere Informationen finden Sie unter XML-Dateiunterstützung. Wenn Sie zuvor das externe Spark-XML-Paket verwendet haben, finden Sie hier Anleitungen zur Migration.
    • [SPARK-46954][SQL] XML: Wrap InputStreamReader mit BufferedReader
    • [SPARK-46630][SQL] XML: Überprüfung des XML-Elementnamens beim Schreiben
    • [SPARK-46248][SQL] XML: Unterstützung für die Optionen ignoreCorruptFiles und ignoreMissingFiles
    • [SPARK-46954][SQL] XML: Optimieren der Schemaindex-Suche.
    • [SPARK-47059][SQL] Fehlerkontext für ALTER COLUMN v1-Befehl anfügen
    • [SPARK-46993][SQL] Fix zur Konstantenentfaltung für Sitzungsvariablen
  • 8. Februar 2024
    • CDF-Abfragen (Change Data Feed; Änderungsdatenfeed) für materialisierte Unity Catalog-Sichten werden nicht unterstützt, und der Versuch, eine CDF-Abfrage mit einer materialisierten Unity Catalog-Sicht auszuführen, hat einen Fehler zur Folge. Unity Catalog-Streamingtabellen unterstützen CDF-Abfragen für APPLY CHANGES-fremde Tabellen ab Databricks Runtime 14.1. Mit Unity Catalog-Streamingtabellen in Databricks Runtime 14.0 und älteren Versionen werden CDF-Abfragen nicht unterstützt.
    • [SPARK-46930] Fügen Sie Unterstützung für ein benutzerdefiniertes Präfix für Union-Typfelder in Avro hinzu.
    • [SPARK-46822] Respektieren Sie spark.sql.legacy.charVarcharAsString, wenn Sie den Katalysatortyp in Schriftart umwandeln.
    • [SPARK-46952] XML: Begrenzen der Größe eines beschädigten Datensatzes.
    • [SPARK-46644] Ändern Sie das Hinzufügen und Zusammenführen in SQLMetric, um isZero zu verwenden.
    • [SPARK-46861] Vermeiden Sie Deadlock in DAGScheduler.
    • [SPARK-46794] Entfernen Sie Unterabfragen aus LogicalRDD-Einschränkungen.
    • [SPARK-46941] Der Knoten „Fenstergruppengrenzwert“ kann nicht für die Berechnung der obersten k-Ebene eingefügt werden, wenn sizeBasedWindowFunction enthalten ist.
    • [SPARK-46933] Fügen Sie die Abfrageausführungszeitmetrik zu Connectors hinzu, die JDBCRDD verwenden.
    • Updates der Betriebssystemsicherheit.
  • 31. Januar 2024
    • [SPARK-46382] XML: Dokument aktualisieren für ignoreSurroundingSpaces.
    • [SPARK-46382] XML: Erfassung von Werten, die an verschiedenen Stellen zwischen Elementen eingefügt werden.
    • [SPARK-46763] Beheben des Assertionsfehlers in ReplaceDeduplicateWithAggregate für doppelte Attribute.
    • Wiederherstellen [SPARK-46769] Verfeinern Sie den Zeitstempel im Zusammenhang mit der Schemainferenz.
    • [SPARK-46677] Behebung der dataframe["*"]-Auflösung.
    • [SPARK-46382] XML: Festlegung des Standardwerts von ignoreSurroundingSpaces auf „true“.
    • [SPARK-46633] Korrigieren Sie den Avro-Reader, um Blöcke der Länge Null zu verarbeiten.
    • [SPARK-45964] Entfernung des privaten SQL-Accessors in XML- und JSON-Paketen unter dem Catalyst-Paket.
    • [SPARK-46581] Aktualisierung des Kommentars zu isZero in AccumulatorV2.
    • [SPARK-45912] Erweiterung der XSDToSchema-API: Wechsel zur HDFS-API zum Sicherstellen der Zugänglichkeit des Cloudspeichers.
    • [SPARK-45182] Ignorieren Sie den Abschluss der Aufgabe aus der alten Phase, nachdem Sie die übergeordnete Phase erneut versucht haben, die durch Prüfsumme bestimmt wird.
    • [SPARK-46660] Aktualisierung des Aktivitätsstatus von SessionHolder durch ReattachExecute-Anforderungen.
    • [SPARK-46610] Create-Tabelle sollte eine Ausnahme auslösen, wenn kein Wert für einen Schlüssel in den Optionen angegeben wird.
    • [SPARK-46383] Reduzieren Sie die Heap-Auslastung des Treibers, indem Sie die Lebensdauer von TaskInfo.accumulables() reduzieren.
    • [SPARK-46769] Verfeinern Sie den Zeitstempel im Zusammenhang mit der Schemainferenz.
    • [SPARK-46684] Korrigieren Sie CoGroup.applyInPandas/Arrow, um Argumente ordnungsgemäß zu übergeben.
    • [SPARK-46676] dropDuplicatesWithinWatermark sollte bei der Kanonisierung des Plans nicht fehlschlagen.
    • [SPARK-45962] Entfernen Sie treatEmptyValuesAsNulls und verwenden Sie stattdessen die nullValue-Option in XML.
    • [SPARK-46541] Korrigieren Sie den mehrdeutigen Spaltenverweis in der Selbstverknüpfung.
    • [SPARK-46599] XML: Verwendung von TypeCoercion.findTightestCommonType für die Kompatibilitätsüberprüfung.
    • Updates der Betriebssystemsicherheit.
  • 17. Januar 2024
    • Der shuffle-Knoten des Erklärungsplans, der von einer Photon-Abfrage zurückgegeben wird, wird aktualisiert, um das causedBroadcastJoinBuildOOM=true-Flag hinzuzufügen, wenn ein Out-of-Memory-Fehler während eines Shuffle auftritt, der Teil einer Übertragungsverknüpfung ist.
    • Um eine erhöhte Wartezeit bei der Kommunikation über TLSv1.3 zu vermeiden, enthält dieser Wartungsrelease einen Patch für die JDK 8-Installation, um den JDK-Fehler JDK-8293562 zu beheben.
    • [SPARK-46261] DataFrame.withColumnsRenamed sollte die Reihenfolge für Verzeichnis/Zuordnung beibehalten.
    • [SPARK-46538] Beheben des Problems mit mehrdeutigen Spaltenverweisen in ALSModel.transform.
    • [SPARK-46145] spark.catalog.listTables löst keine Ausnahme aus, wenn die Tabelle oder Ansicht nicht gefunden wird.
    • [SPARK-46484] Sorgt dafür, dass resolveOperators-Hilfsfunktionen die Plan-ID beibehalten.
    • [SPARK-46394] Beheben von Problemen mit spark.catalog.listDatabases() bei Schemas mit Sonderzeichen, wenn spark.sql.legacy.keepCommandOutputSchema auf WAHR festgelegt ist.
    • [SPARK-46609] Vermeidung einer exponentiellen Zunahme (Explosion) in PartitioningPreservingUnaryExecNode.
    • [SPARK-46446] Deaktivieren von Unterabfragen mit korreliertem OFFSET, um Fehler mit der Korrektheit zu beheben.
    • [SPARK-46152] XML: Hinzufügung der DecimalType-Unterstützung im XML-Schemarückschluss.
    • [SPARK-46602] Propagieren von allowExisting beim Erstellen der Ansicht, wenn die Ansicht/Tabelle nicht vorhanden ist.
    • [SPARK-45814] close()-Aufruf durch ArrowConverters.createEmptyArrowBatch, um Arbeitsspeicherverlust zu vermeiden.
    • [SPARK-46058] Hinzufügen eines separaten Flags für privateKeyPassword.
    • [SPARK-46132] Unterstützung für Schlüsselkennwort für JKS-Schlüssel für RPC-SSL.
    • [SPARK-46600] Verschieben von freigegebenem Code zwischen SqlConf und SqlApiConf zu SqlApiConfHelper.
    • [SPARK-46478] Wiederherstellen von SPARK-43049, um Oracle varchar(255) für Zeichenfolgen zu verwenden.
    • [SPARK-46417] Keinen Fehler zurückgeben beim Aufrufen von hive.getTable und throwException ist FALSCH.
    • [SPARK-46153] XML: Hinzufügen von Support für TimestampNTZType.
    • [SPARK-46056][BACKPORT] Behebt vektorisiertes Lesen von NPE in Parquet mit dem Standardwert byteArrayDecimalType.
    • [SPARK-46466] Vektorisierter Parquet-Leser sollte niemals ein Rebase für Zeitstempel ntz ausführen.
    • [SPARK-46260] DataFrame.withColumnsRenamed sollte die Reihenfolge der Verzeichnisse beachten.
    • [SPARK-46036] [SC-149356][SQL] Entfernung von „error-class“ aus der Funktion „raise_error“.
    • [SPARK-46294] Bereinigung der Semantik des Initialisierungswerts im Vergleich zum Nullwert.
    • [SPARK-46173] Überspringen des trimAll-Aufrufs während der Datumsanalyse.
    • [SPARK-46250] Deflagieren von test_parity_listener.
    • [SPARK-46587] XML: Beheben der XSD-Konvertierung einer großen Ganzzahl.
    • [SPARK-46396] Der Zeitstempelrückschluss sollte keine Ausnahme auslösen.
    • [SPARK-46241] Beheben der Fehlerbehandlungsroutine, damit sie nicht in eine unendliche Rekursion fällt.
    • [SPARK-46355] XML: Schließen von InputStreamReader nach Abschluss des Lesevorgangs.
    • [SPARK-46370] Beheben eines Fehlers beim Abfragen aus der Tabelle nach dem Ändern der Spaltenstandardwerte.
    • [SPARK-46265] Assertionen in AddArtifact RPC machen den Connect-Client inkompatibel mit älteren Clustern.
    • [SPARK-46308] Rekursive Fehlerbehandlung verbieten.
    • [SPARK-46337] CTESubstitution soll die PLAN_ID_TAG beibehalten.
  • 14. Dezember 2023
    • [SPARK-46141] Änderung des Standardwerts für spark.sql.legacy.ctePrecedencePolicy in CORRECTED.
    • [SPARK-45730] ReloadingX509TrustManagerSuite weniger fehleranfällig machen.
    • [SPARK-45852] Ordentlicher Umgang mit Rekursionsfehlern während der Protokollierung.
    • [SPARK-45808] Bessere Fehlerbehandlung für SQL-Ausnahmen.
    • [SPARK-45920] Gruppieren nach Ordnungszahl sollte idempotent sein.
    • Wiederherstellen von „[SPARK-45649] Vereinheitlichen des Vorbereitungsframeworks für OffsetWindowFunctionFrame“.
    • [SPARK-45733] Unterstützen mehrerer RETRY-Richtlinien.
    • [SPARK-45509] Beheben des Verweisverhaltens der df-Spalte für Spark Connect.
    • [SPARK-45655] Zulassen von nicht deterministischen Ausdrücken innerhalb von AggregateFunctions in CollectMetrics.
    • [SPARK-45905] Der kleinste gemeinsame Typ zwischen Dezimaltypen sollte zuerst ganzzahlige Ziffern beibehalten.
    • [SPARK-45136] Verbessern von ClosureCleaner mit Ammonit-Support.
    • [SPARK-46255] Unterstützen des komplexen Typs –> Zeichenfolgenkonvertierung.
    • [SPARK-45859] UDF-Objekte in ml.functions träge machen.
    • [SPARK-46028] Column.__getitem__ sollte Eingabespalten akzeptieren.
    • [SPARK-45798] Bestätigen der serverseitigen Sitzungs-ID.
    • [SPARK-45892] Überprüfung des Optimierungsplans umgestaltet, um validateSchemaOutput und validateExprIdUniqueness zu entkoppeln.
    • [SPARK-45844] Implementieren der Nichtunterscheidung nach Groß-/Kleinschreibung für XML.
    • [SPARK-45770] Einführung des Plans DataFrameDropColumns für Dataframe.drop.
    • [SPARK-44790] XML: to_xml-Implementierung und Bindungen für Python, Connect und SQL.
    • [SPARK-45851] Unterstützen mehrerer Richtlinien im Scala-Client.
    • Updates der Betriebssystemsicherheit.
  • 29. November 2023
    • Installiert ein neues Paket pyarrow-hotfix, um eine PyArrow RCE-Sicherheitsanfälligkeit zu beheben.
    • Ein Problem wurde behoben, das dazu führte, dass mit Escapezeichen versehene Unterstriche in getColumns-Vorgängen, die von JDBC- oder ODBC-Clients stammen, fälschlicherweise als Platzhalter interpretiert wurden.
    • [SPARK-45730] Zeiteinschränkungen für ReloadingX509TrustManagerSuite verbessert.
    • [SPARK-45852] Der Python-Client für Spark Connect erfasst jetzt Rekursionsfehler während der Textkonvertierung.
    • [SPARK-45808] Verbesserte Fehlerbehandlung für SQL-Ausnahmen.
    • [SPARK-45920] Die Ordnungszahl GROUP BY ersetzt nicht die Ordnungszahl.
    • Rückgängig gemacht: [SPARK-45649].
    • [SPARK-45733] Unterstützung für mehrere Wiederholungsrichtlinien hinzugefügt.
    • [SPARK-45509] Verweisverhalten der df-Spalte für Spark Connect korrigiert.
    • [SPARK-45655] Zulassen von nicht deterministischen Ausdrücken innerhalb von AggregateFunctions in CollectMetrics.
    • [SPARK-45905] Der kleinste gemeinsame Typ zwischen Dezimaltypen behält jetzt zuerst ganzzahlige Ziffern bei.
    • [SPARK-45136] ClosureCleaner wurde mit Ammonite-Unterstützung optimiert.
    • [SPARK-45859] UDF-Objekte in ml.functions wurden als verzögert festgelegt.
    • [SPARK-46028] Column.__getitem__ akzeptiert Eingabespalten.
    • [SPARK-45798] Bestätigen der serverseitigen Sitzungs-ID.
    • [SPARK-45892] Überprüfung des Optimierungsplans umgestaltet, um validateSchemaOutput und validateExprIdUniqueness zu entkoppeln.
    • [SPARK-45844] Implementieren der Nichtunterscheidung nach Groß-/Kleinschreibung für XML.
    • [SPARK-45770] Spaltenauflösung mit DataFrameDropColumns für Dataframe.drop korrigiert.
    • [SPARK-44790] to_xml-Implementierung und Bindungen für Python, Spark Connect und SQL hinzugefügt.
    • [SPARK-45851] Unterstützung für mehrere Richtlinien im Scala-Client hinzugefügt.
    • Updates der Betriebssystemsicherheit.

Databricks Runtime 14.1

Siehe Databricks Runtime 14.1.

  • 10. September 2024
    • [SPARK-49263][CONNECT] Spark Connect-Python-Client: Konsistente Behandlung von boole’schen Dataframe-Leseoptionen
    • [SPARK-49056][SQL] ErrorClassesJsonReader kann null nicht ordnungsgemäß verarbeiten
  • 20. August 2024
    • [SPARK-48706][PYTHON] Python UDF in höheren Reihenfolge Funktionen sollten keinen internen Fehler auslösen
    • [SPARK-48597][SQL] Einführung einer Markierung für isStreaming-Eigenschaft in der Textdarstellung eines logischen Plans
    • [SPARK-49065][SQL] Rebasing in Legacy-Formatierern/Parsern muss Zeitzonen unterstützen, die nicht dem JVM-Standard entsprechen
    • [SPARK-48050][SS] Logischen Plan beim Starten der Abfrage protokollieren
  • 7. August 2024
    • Diese Version enthält einen Fehlerkorrektur für die Klassen ColumnVector und ColumnarArray in der Spark-Java-Schnittstelle. Vor dieser Korrektur konnte ein ArrayIndexOutOfBoundsException ausgelöst oder falsche Daten zurückgegeben werden, wenn eine Instanz einer dieser Klassen null-Werte enthielt.
    • Die Ausgabe aus einer SHOW CREATE TABLE Anweisung enthält jetzt alle Zeilenfilter oder Spaltenmasken, die in einer materialisierten Sicht oder Streamingtabelle definiert sind. Siehe SHOW CREATE TABLE. Weitere Informationen zur Verwendung von Zeilenfiltern und Spaltenmasken finden Sie unter Filtern vertraulicher Tabellendaten mit Zeilenfiltern und Spaltenmasken.
    • [SPARK-48705][PYTHON] Verwenden Sie worker_main explizit, wenn sie mit pyspark beginnt
    • [SPARK-47202][PYTHON] Korrektur von Tippfehlern bei Datumsangaben mit tzinfo
    • Updates der Betriebssystemsicherheit.
  • 11. Juli 2024
    • (Verhaltensänderung) DataFrames, die gegen Delta-Tabellenquellen zwischengespeichert werden, werden nun ungültig, wenn die Quelltabelle überschrieben wird. Diese Änderung bedeutet, dass alle Zustandsänderungen an Deltatabellen nun die zwischengespeicherten Ergebnisse ungültig machen. Verwenden Sie .checkpoint(), um den Zustand einer Tabelle während der gesamten Lebensdauer eines DataFrame beizubehalten.
    • Diese Version enthält einen Fix für ein Problem, das verhindert hat, dass die Registerkarte für die Spark-Benutzeroberflächenumgebung ordnungsgemäß angezeigt wird, wenn sie in Databricks-Containerdiensten ausgeführt wird.
    • [SPARK-48475][PYTHON] Optimieren Sie _get_jvm_function in PySpark.
    • [SPARK-48445][SC-167191] [SQL] Keine Inline-UDFs mit teuren untergeordneten Elementen
    • [SPARK-48481][SQL][SS] OptimizeOneRowPlan nicht auf Streaming-Dataset anwenden
    • [SPARK-48292][CORE] Rückgängigmachen von [SPARK-39195][SQL] OutputCommitCoordinator von Spark sollte die Stage abbrechen, wenn die committete Datei nicht mit dem Vorgangsstatus konsistent ist
    • [SPARK-48503][SQL] Beheben ungültiger skalarer Unterabfragen mit "Gruppieren nach" für nicht gleichwertige Spalten, die falsch zulässig waren
    • [SPARK-48273][SQL] Behebung des verspäteten Umschreibens von PlanWithUnresolvedIdentifier
    • [SPARK-48100][SQL] Beheben von Problemen beim Überspringen von geschachtelten Strukturfeldern, die nicht im Schema ausgewählt sind
    • [SPARK-48383][SS] Ausgeben eines besseren Fehlers für nicht übereinstimmende Partitionen in der startOffset-Option in Kafka
    • Updates der Betriebssystemsicherheit.
  • 17. Juni 2024
    • Es wird ein Fehler behoben, bei dem die Optimierung des Bewertungsfensters mithilfe den von Photon TopK fälschlicherweise verarbeiteten Partitionen mit Strukturen verarbeitet wurde.
    • [SPARK-48276][PYTHON][CONNECT] Hinzufügen der fehlenden __repr__-Methode für SQLExpression
    • [SPARK-48277] Verbessern von Fehlermeldung für ErrorClassesJsonReader.getErrorMessage
    • Updates der Betriebssystemsicherheit.
  • 21. Mai 2024
    • (Verhaltensänderung) dbutils.widgets.getAll() wird jetzt unterstützt, um alle Widgetwerte in einem Notizbuch abzurufen.
    • [SPARK-47994][SQL] Beheben eines Fehlers mit CASE WHEN-Spaltenfilter-Pushdown in SQLServer
    • [SPARK-48105][SS] Beheben der Racebedingung zwischen Entladung des Zustandsspeichers und Momentaufnahmen
    • [SPARK-48173][SQL] Gesamter Abfrageplan sollte für CheckAnalysis zur Verfügung stehen
    • Updates der Betriebssystemsicherheit.
  • 9. Mai 2024
    • [SPARK-47371] [SQL] XML: Zeilentags in CDATA ignorieren
    • [SPARK-47895][SQL] „group by all“ sollte idempotent sein
    • [SPARK-47956][SQL] Plausibilitätsprüfung für nicht aufgelöste LCA-Referenz
    • [SPARK-48044][PYTHON][CONNECT] Cache DataFrame.isStreaming
    • [SPARK-47973][CORE] Protokollaufrufwebsite in SparkContext.stop() und später in SparkContext.assertNotStopped()
    • Updates der Betriebssystemsicherheit.
  • 25. April 2024
    • [SPARK-47704][SQL] Die JSON-Analyse schlägt mit „java.lang.ClassCastException“ fehl, wenn spark.sql.json.enablePartialResults aktiviert ist
    • [SPARK-47828][CONNECT][PYTHON] DataFrameWriterV2.overwrite schlägt mit ungültigem Plan fehl
    • Updates der Betriebssystemsicherheit.
  • 11. April 2024
    • [SPARK-47638][PS][CONNECT] Überspringen der Spaltennamenüberprüfung in PS
    • [SPARK-38708][SQL] Upgraden des Hive-Metastoreclients auf 3.1.3 für Hive 3.1
    • [SPARK-47309][SQL][XML] Hinzufügen von Komponententests für Schemarückschlüsse
    • [SPARK-47509][SQL] Blockieren von Unterabfrageausdrücken in Lambda-Funktionen sowie in Funktionen höherer Ordnung
    • [SPARK-46990][SQL] Korrigieren des Ladens leerer Avro-Dateien, die von Event Hubs ausgegeben werden
    • Updates der Betriebssystemsicherheit.
  • 1. April 2024
    • [SPARK-47305][SQL] Korrigieren von „PruneFilters“, um das isStreaming-Flag von „LocalRelation“ korrekt zu kennzeichnen, wenn der Plan sowohl über Batch als auch über Streaming verfügt
    • [SPARK-47218][SQL] XML: Ignorieren kommentierter Zeilentags im XML-Tokenizer
    • [SPARK-47300][SQL] quoteIfNeeded soll Bezeichner zitieren, die mit Ziffern beginnen
    • [SPARK-47368][SQL] Entfernen der Überprüfung der inferTimestampNTZ-Konfiguration in „ParquetRowConverter“
    • [SPARK-47070] Beheben ungültiger Aggregation nach dem Neuschreiben von Unterabfragen
    • [SPARK-47322][PYTHON][CONNECT] Erreichen einer konsistenten Behandlung der Duplizierung von withColumnsRenamed-Spaltennamen mit withColumnRenamed
    • [SPARK-47300] Fix für DecomposerSuite
    • [SPARK-47218][SQL] XML: „SchemaOfXml“ wurde geändert, sodass im DROPMALFORMED-Modus ein Fehler auftritt
    • [SPARK-47385] Korrigieren von Tupel-Encodern mit Optionseingaben
    • Updates der Betriebssystemsicherheit.
  • 14. März 2024
    • [SPARK-47176][SQL] Verwenden einer ResolveAllExpressionsUpWithPruning-Hilfsfunktion
    • [SPARK-47145][SQL] Übergeben Sie den Tabellenbezeichner an den Zeilendatenquellenscan-Exec für die V2-Strategie.
    • [SPARK-47167][SQL] Hinzufügen einer konkreten Klasse für anonyme JDBC-Relation von Daten
    • [SPARK-47129][CONNECT] [SQL] Erstellen eines ordnungsgemäßen ResolveRelations-Cacheverbindungsplans
    • Zurücksetzen von „[SPARK-46861][CORE] Deadlock in DAGScheduler vermeiden“
    • [SPARK-47044][SQL] Hinzufügen von ausgeführten Abfragen für externe JDBC-Datenquellen zur Erläuterung der Ausgabe
    • Updates der Betriebssystemsicherheit.
  • 29. Februar 2024
    • Es wurde ein Problem behoben, bei dem die Verwendung einer lokalen Sammlung als Quelle in einem MERGE-Befehl dazu führen konnte, dass die Vorgangsmetrik numSourceRows die korrekte Anzahl von Zeilen verdoppelt.
    • Zum Erstellen eines Schemas mit einem definierten Speicherort muss der Benutzer jetzt über SELECT- und MODIFY-Berechtigungen für ALLE DATEIEN verfügen.
    • Sie können jetzt XML-Dateien mit Autochanger, read_files, COPY INTO, DLT und DBSQL erfassen. Die XML-Dateiunterstützung kann Schemas automatisch ableiten und weiterentwickeln, Daten mit Typenkonflikten retten, XML mithilfe von XSD überprüfen und SQL-Ausdrücke wie from_xml, schema_of_xml und to_xml unterstützen. Weitere Informationen finden Sie unter XML-Dateiunterstützung. Wenn Sie zuvor das externe Spark-XML-Paket verwendet haben, finden Sie hier Anleitungen zur Migration.
    • [SPARK-46248][SQL] XML: Unterstützung für die Optionen ignoreCorruptFiles und ignoreMissingFiles
    • [SPARK-47059][SQL] Fehlerkontext für ALTER COLUMN v1-Befehl anfügen
    • [SPARK-46954][SQL] XML: Wrap InputStreamReader mit BufferedReader
    • [SPARK-46954][SQL] XML: Optimieren der Schemaindex-Suche.
    • [SPARK-46630][SQL] XML: Überprüfung des XML-Elementnamens beim Schreiben
    • Updates der Betriebssystemsicherheit.
  • 8. Februar 2024
    • CDF-Abfragen (Change Data Feed; Änderungsdatenfeed) für materialisierte Unity Catalog-Sichten werden nicht unterstützt, und der Versuch, eine CDF-Abfrage mit einer materialisierten Unity Catalog-Sicht auszuführen, hat einen Fehler zur Folge. Unity Catalog-Streamingtabellen unterstützen CDF-Abfragen für APPLY CHANGES-fremde Tabellen ab Databricks Runtime 14.1. Mit Unity Catalog-Streamingtabellen in Databricks Runtime 14.0 und älteren Versionen werden CDF-Abfragen nicht unterstützt.
    • [SPARK-46952] XML: Begrenzen der Größe eines beschädigten Datensatzes.
    • [SPARK-45182] Ignorieren Sie den Abschluss der Aufgabe aus der alten Phase, nachdem Sie die übergeordnete Phase erneut versucht haben, die durch Prüfsumme bestimmt wird.
    • [SPARK-46794] Entfernen Sie Unterabfragen aus LogicalRDD-Einschränkungen.
    • [SPARK-46933] Fügen Sie die Abfrageausführungszeitmetrik zu Connectors hinzu, die JDBCRDD verwenden.
    • [SPARK-46861] Vermeiden Sie Deadlock in DAGScheduler.
    • [SPARK-45582] Stellen Sie sicher, dass die Speicherinstanz nach dem Aufrufen des Commits innerhalb der Streamingaggregation im Ausgabemodus nicht verwendet wird.
    • [SPARK-46930] Fügen Sie Unterstützung für ein benutzerdefiniertes Präfix für Union-Typfelder in Avro hinzu.
    • [SPARK-46941] Der Knoten „Fenstergruppengrenzwert“ kann nicht für die Berechnung der obersten k-Ebene eingefügt werden, wenn sizeBasedWindowFunction enthalten ist.
    • [SPARK-46396] Der Zeitstempelrückschluss sollte keine Ausnahme auslösen.
    • [SPARK-46822] Respektieren Sie spark.sql.legacy.charVarcharAsString, wenn Sie den Katalysatortyp in Schriftart umwandeln.
    • [SPARK-45957] Vermeiden Sie das Generieren des Ausführungsplans für nicht ausführbare Befehle.
    • Updates der Betriebssystemsicherheit.
  • 31. Januar 2024
    • [SPARK-46684] Korrigieren Sie CoGroup.applyInPandas/Arrow, um Argumente ordnungsgemäß zu übergeben.
    • [SPARK-46763] Beheben des Assertionsfehlers in ReplaceDeduplicateWithAggregate für doppelte Attribute.
    • [SPARK-45498] Followup: Ignorieren des Aufgabenabschlusses aus alten Phasenversuchen.
    • [SPARK-46382] XML: Dokument aktualisieren für ignoreSurroundingSpaces.
    • [SPARK-46383] Reduzieren Sie die Heap-Auslastung des Treibers, indem Sie die Lebensdauer von TaskInfo.accumulables() reduzieren.
    • [SPARK-46382] XML: Festlegung des Standardwerts von ignoreSurroundingSpaces auf „true“.
    • [SPARK-46677] Behebung der dataframe["*"]-Auflösung.
    • [SPARK-46676] dropDuplicatesWithinWatermark sollte bei der Kanonisierung des Plans nicht fehlschlagen.
    • [SPARK-46633] Korrigieren Sie den Avro-Reader, um Blöcke der Länge Null zu verarbeiten.
    • [SPARK-45912] Erweiterung der XSDToSchema-API: Wechsel zur HDFS-API zum Sicherstellen der Zugänglichkeit des Cloudspeichers.
    • [SPARK-46599] XML: Verwendung von TypeCoercion.findTightestCommonType für die Kompatibilitätsüberprüfung.
    • [SPARK-46382] XML: Erfassung von Werten, die an verschiedenen Stellen zwischen Elementen eingefügt werden.
    • [SPARK-46769] Verfeinern Sie den Zeitstempel im Zusammenhang mit der Schemainferenz.
    • [SPARK-46610] Create-Tabelle sollte eine Ausnahme auslösen, wenn kein Wert für einen Schlüssel in den Optionen angegeben wird.
    • [SPARK-45964] Entfernung des privaten SQL-Accessors in XML- und JSON-Paketen unter dem Catalyst-Paket.
    • Wiederherstellen [SPARK-46769] Verfeinern Sie den Zeitstempel im Zusammenhang mit der Schemainferenz.
    • [SPARK-45962] Entfernen Sie treatEmptyValuesAsNulls und verwenden Sie stattdessen die nullValue-Option in XML.
    • [SPARK-46541] Korrigieren Sie den mehrdeutigen Spaltenverweis in der Selbstverknüpfung.
    • Updates der Betriebssystemsicherheit.
  • 17. Januar 2024
    • Der shuffle-Knoten des Erklärungsplans, der von einer Photon-Abfrage zurückgegeben wird, wird aktualisiert, um das causedBroadcastJoinBuildOOM=true-Flag hinzuzufügen, wenn ein Out-of-Memory-Fehler während eines Shuffle auftritt, der Teil einer Übertragungsverknüpfung ist.
    • Um eine erhöhte Wartezeit bei der Kommunikation über TLSv1.3 zu vermeiden, enthält dieser Wartungsrelease einen Patch für die JDK 8-Installation, um den JDK-Fehler JDK-8293562 zu beheben.
    • [SPARK-46538] Beheben des Problems mit mehrdeutigen Spaltenverweisen in ALSModel.transform.
    • [SPARK-46417] Keinen Fehler zurückgeben beim Aufrufen von hive.getTable und throwException ist FALSCH.
    • [SPARK-46484] Sorgt dafür, dass resolveOperators-Hilfsfunktionen die Plan-ID beibehalten.
    • [SPARK-46153] XML: Hinzufügen von Support für TimestampNTZType.
    • [SPARK-46152] XML: Hinzufügung der DecimalType-Unterstützung im XML-Schemarückschluss.
    • [SPARK-46145] spark.catalog.listTables löst keine Ausnahme aus, wenn die Tabelle oder Ansicht nicht gefunden wird.
    • [SPARK-46478] Wiederherstellen von SPARK-43049, um Oracle varchar(255) für Zeichenfolgen zu verwenden.
    • [SPARK-46394] Beheben von Problemen mit spark.catalog.listDatabases() bei Schemas mit Sonderzeichen, wenn spark.sql.legacy.keepCommandOutputSchema auf WAHR festgelegt ist.
    • [SPARK-46337] CTESubstitution soll die PLAN_ID_TAG beibehalten.
    • [SPARK-46466] Vektorisierter Parquet-Leser sollte niemals ein Rebase für Zeitstempel ntz ausführen.
    • [SPARK-46587] XML: Beheben der XSD-Konvertierung einer großen Ganzzahl.
    • [SPARK-45814] close()-Aufruf durch ArrowConverters.createEmptyArrowBatch, um Arbeitsspeicherverlust zu vermeiden.
    • [SPARK-46132] Unterstützung für Schlüsselkennwort für JKS-Schlüssel für RPC-SSL.
    • [SPARK-46602] Propagieren von allowExisting beim Erstellen der Ansicht, wenn die Ansicht/Tabelle nicht vorhanden ist.
    • [SPARK-46173] Überspringen des trimAll-Aufrufs während der Datumsanalyse.
    • [SPARK-46355] XML: Schließen von InputStreamReader nach Abschluss des Lesevorgangs.
    • [SPARK-46600] Verschieben von freigegebenem Code zwischen SqlConf und SqlApiConf zu SqlApiConfHelper.
    • [SPARK-46261] DataFrame.withColumnsRenamed sollte die Reihenfolge für Verzeichnis/Zuordnung beibehalten.
    • [SPARK-46056] Beheben des vektorisierten Lesens von NPE in Parquet mit dem Standardwert byteArrayDecimalType.
    • [SPARK-46260] DataFrame.withColumnsRenamed sollte die Reihenfolge der Verzeichnisse beachten.
    • [SPARK-46250] Deflagieren von test_parity_listener.
    • [SPARK-46370] Beheben eines Fehlers beim Abfragen aus der Tabelle nach dem Ändern der Spaltenstandardwerte.
    • [SPARK-46609] Vermeidung einer exponentiellen Zunahme (Explosion) in PartitioningPreservingUnaryExecNode.
    • [SPARK-46058] Hinzufügen eines separaten Flags für privateKeyPassword.
  • 14. Dezember 2023
    • Es wurde ein Problem behoben, bei dem mit Escapezeichen versehene Unterstriche in getColumns-Vorgängen, die von JDBC- oder ODBC-Clients stammen, falsch behandelt und als Platzhalterzeichen interpretiert wurden.
    • [SPARK-45509] Beheben des Verweisverhaltens der df-Spalte für Spark Connect.
    • [SPARK-45844] Implementieren der Nichtunterscheidung nach Groß-/Kleinschreibung für XML.
    • [SPARK-46141] Änderung des Standardwerts für spark.sql.legacy.ctePrecedencePolicy in CORRECTED.
    • [SPARK-46028] Column.__getitem__ sollte Eingabespalten akzeptieren.
    • [SPARK-46255] Unterstützen des komplexen Typs –> Zeichenfolgenkonvertierung.
    • [SPARK-45655] Zulassen von nicht deterministischen Ausdrücken innerhalb von AggregateFunctions in CollectMetrics.
    • [SPARK-45433] Beheben des CSV/JSON-Schemarückschlusses, wenn die Zeitstempel nicht mit dem angegebenen timestampFormat übereinstimmen.
    • [SPARK-45316] Hinzufügen der neuen Parameter ignoreCorruptFiles/ignoreMissingFiles zu HadoopRDD und NewHadoopRDD
    • [SPARK-45852] Ordentlicher Umgang mit Rekursionsfehlern während der Protokollierung.
    • [SPARK-45920] Gruppieren nach Ordnungszahl sollte idempotent sein.
    • Updates der Betriebssystemsicherheit.
  • 29. November 2023
    • Installiert ein neues Paket pyarrow-hotfix, um eine PyArrow RCE-Sicherheitsanfälligkeit zu beheben.
    • Ein Problem wurde behoben, das dazu führte, dass mit Escapezeichen versehene Unterstriche in getColumns-Vorgängen, die von JDBC- oder ODBC-Clients stammen, fälschlicherweise als Platzhalter interpretiert wurden.
    • Beim Erfassen von CSV-Daten mit dem Autoloader oder Streamingtabellen sind große CSV-Dateien jetzt teilbar und können während Schemarückschlüssen und Datenverarbeitung parallel verarbeitet werden.
    • [SPARK-45892] Überprüfung des Optimierungsplans umgestaltet, um validateSchemaOutput und validateExprIdUniqueness zu entkoppeln.
    • [SPARK-45620] APIs im Zusammenhang mit Python-UDF verwenden jetzt camelCase.
    • [SPARK-44790] to_xml-Implementierung und Bindungen für Python, Spark Connect und SQL hinzugefügt.
    • [SPARK-45770] Spaltenauflösung mit DataFrameDropColumns für Dataframe.drop korrigiert.
    • [SPARK-45859] UDF-Objekte in ml.functions wurden als verzögert festgelegt.
    • [SPARK-45730] Zeiteinschränkungen für ReloadingX509TrustManagerSuite verbessert.
    • [SPARK-44784] SBT-Tests wurden als hermetisch festgelegt.
    • Updates der Betriebssystemsicherheit.
  • 10. November 2023
    • [SPARK-45545] SparkTransportConf erbt SSLOptions bei der Erstellung.
    • [SPARK-45250] Unterstützung für das Aufgabenressourcenprofil auf Stagingebene für yarn-Cluster hinzugefügt, wenn die dynamische Zuordnung deaktiviert ist.
    • [SPARK-44753] XML DataFrame-Lese- und -Schreibmodule für PySpark SQL hinzugefügt.
    • [SPARK-45396] Dokumentationseintrag für das PySpark.ml.connect-Modul hinzugefügt.
    • [SPARK-45584] Fehler beim Ausführen von Unterabfragen mit TakeOrderedAndProjectExec behoben.
    • [SPARK-45541] SSLFactory hinzugefügt.
    • [SPARK-45577] UserDefinedPythonTableFunctionAnalyzeRunner korrigiert, um gefaltete Werte aus benannten Argumenten zu übergeben.
    • [SPARK-45562] „rowTag“ als erforderliche Option festgelegt.
    • [SPARK-45427] RPC-SSL-Einstellungen zu SSLOptions und SparkTransportConf hinzugefügt.
    • [SPARK-43380] Verlangsamung bei Avro-Lesevorgängen behoben.
    • [SPARK-45430] FramelessOffsetWindowFunction löst bei IGNORE NULLS und offset > rowCount keinen Fehler mehr aus.
    • [SPARK-45429] Hilfsklassen für die SSL-RPC-Kommunikation hinzugefügt.
    • [SPARK-45386] Problem behoben, durch das StorageLevel.NONE fälschlicherweise „0“ (null) zurückgegeben hat.
    • [SPARK-44219] Überprüfungen pro Regel für Optimierungsumschreibungen hinzugefügt.
    • [SPARK-45543] Problem behoben, durch das InferWindowGroupLimit einen Fehler verursachte, wenn die anderen Fensterfunktionen nicht über denselben Fensterrahmen wie Funktionen mit demselben Rang verfügten.
    • Updates der Betriebssystemsicherheit.
  • 27. September 2023
    • [SPARK-44823] black auf 23.9.1 aktualisiert und fehlerhafte Überprüfung korrigiert.
    • [SPARK-45339] PySpark protokolliert jetzt Fehler, die wiederholt werden.
    • Rückgängig gemacht: [SPARK-42946] Vertrauliche Daten, die unter Variablenersetzungen geschachtelt werden, unkenntlich gemacht.
    • [SPARK-44551] Kommentare, die mit OSS synchronisiert werden sollen, bearbeitet.
    • [SPARK-45360] Spark-Sitzungsgenerator unterstützt die Initialisierung von SPARK_REMOTE.
    • [SPARK-45279] plan_id an alle logischen Pläne angefügt.
    • [SPARK-45425] TINYINT wurde ShortType für MsSqlServerDialect zugeordnet.
    • [SPARK-45419] Eintrag für Dateiversionszuordnung für größere Versionen entfernt, um die erneute Wiederverwendung von rocksdb-SST-Datei-IDs zu vermeiden.
    • [SPARK-45488] Unterstützung für Wert in rowTag-Element hinzugefügt.
    • [SPARK-42205] Protokollierung von Accumulables in Task/Stage-Startereignissen in JsonProtocol-Ereignisprotokollen entfernt.
    • [SPARK-45426] Unterstützung für ReloadingX509TrustManager hinzugefügt.
    • [SPARK-45256] DurationWriter schlägt fehl, wenn mehr Werte als die Anfangskapazität geschrieben werden.
    • [SPARK-43380] Konvertierungsprobleme mit Avro-Datentyp behoben ohne eine Leistungsregression zu verursachen.
    • [SPARK-45182] Unterstützung für Rollbacks der Kartenmischphase hinzugefügt, sodass alle Stagingaufgaben erneut ausgeführt werden können, wenn die Stagingausgabe unbestimmt ist.
    • [SPARK-45399] XML-Optionen bei Verwenden von newOption hinzugefügt.
    • Updates der Betriebssystemsicherheit.

Databricks Runtime 13.3 LTS

Siehe Databricks Runtime 13.3 LTS.

  • 10. September 2024
  • 20. August 2024
    • [SPARK-49056][SQL] ErrorClassesJsonReader kann null nicht ordnungsgemäß verarbeiten
    • [SPARK-49065][SQL] Rebasing in Legacy-Formatierern/Parsern muss Zeitzonen unterstützen, die nicht dem JVM-Standard entsprechen
    • [SPARK-48597][SQL] Einführung einer Markierung für isStreaming-Eigenschaft in der Textdarstellung eines logischen Plans
  • 7. August 2024
    • Diese Version enthält einen Fehlerkorrektur für die Klassen ColumnVector und ColumnarArray in der Spark-Java-Schnittstelle. Vor dieser Korrektur konnte ein ArrayIndexOutOfBoundsException ausgelöst oder falsche Daten zurückgegeben werden, wenn eine Instanz einer dieser Klassen null-Werte enthielt.
    • [SPARK-47202][PYTHON] Korrektur von Tippfehlern bei Datumsangaben mit tzinfo
    • [SPARK-48896] [SPARK-48909] [SPARK-48883] Korrekturen für Backport Spark ML Writer
    • [SPARK-48463] Erstellen von StringIndexer zur Unterstützung geschachtelter Eingabespalten
    • Updates der Betriebssystemsicherheit.
  • 11. Juli 2024
    • (Verhaltensänderung) DataFrames, die gegen Delta-Tabellenquellen zwischengespeichert werden, werden nun ungültig, wenn die Quelltabelle überschrieben wird. Diese Änderung bedeutet, dass alle Zustandsänderungen an Deltatabellen nun die zwischengespeicherten Ergebnisse ungültig machen. Verwenden Sie .checkpoint(), um den Zustand einer Tabelle während der gesamten Lebensdauer eines DataFrame beizubehalten.
    • Diese Version enthält einen Fix für ein Problem, das verhindert hat, dass die Registerkarte für die Spark-Benutzeroberflächenumgebung ordnungsgemäß angezeigt wird, wenn sie in Databricks-Containerdiensten ausgeführt wird.
    • [SPARK-48383][SS] Ausgeben eines besseren Fehlers für nicht übereinstimmende Partitionen in der startOffset-Option in Kafka
    • [SPARK-48292][CORE] Rückgängigmachen von [SPARK-39195][SQL] OutputCommitCoordinator von Spark sollte die Stage abbrechen, wenn die committete Datei nicht mit dem Vorgangsstatus konsistent ist
    • [SPARK-48503][SQL] Beheben ungültiger skalarer Unterabfragen mit "Gruppieren nach" für nicht gleichwertige Spalten, die falsch zulässig waren
    • [SPARK-48481][SQL][SS] OptimizeOneRowPlan nicht auf Streaming-Dataset anwenden
    • [SPARK-48475][PYTHON] Optimieren Sie _get_jvm_function in PySpark.
    • [SPARK-48273][SQL] Behebung des verspäteten Umschreibens von PlanWithUnresolvedIdentifier
    • [SPARK-48445][SC-167191] [SQL] Keine Inline-UDFs mit teuren untergeordneten Elementen
    • Updates der Betriebssystemsicherheit.
  • 17. Juni 2024
    • [SPARK-48277] Verbessern von Fehlermeldung für ErrorClassesJsonReader.getErrorMessage
    • Updates der Betriebssystemsicherheit.
  • 21. Mai 2024
  • 9. Mai 2024
    • [SPARK-47956][SQL] Plausibilitätsprüfung für nicht aufgelöste LCA-Referenz
    • [SPARK-46822][SQL] Respektieren von spark.sql.legacy.charVarcharAsString beim Umwandeln des JDBC-Typs in den Katalysatortyp in JDBC
    • [SPARK-47895][SQL] „group by all“ sollte idempotent sein
    • [SPARK-48018][SS] Behebung von groupId „NULL“, die einen Fehler für fehlenden Parameter auslöst, wenn KafkaException.couldNotReadOffsetRange ausgelöst wird
    • [SPARK-47973][CORE] Protokollaufrufwebsite in SparkContext.stop() und später in SparkContext.assertNotStopped()
    • Updates der Betriebssystemsicherheit.
  • 25. April 2024
    • [SPARK-44653][SC-138901][SQL] Nicht triviale DataFrame-Vereinigungen sollten das Zwischenspeichern nicht unterbrechen
    • Verschiedene Fehlerbehebungen
  • 11. April 2024
    • [SPARK-47509][SQL] Blockieren von Unterabfrageausdrücken in Lambda-Funktionen sowie in Funktionen höherer Ordnung
    • Updates der Betriebssystemsicherheit.
  • 1. April 2024
    • [SPARK-47385] Korrigieren von Tupel-Encodern mit Optionseingaben
    • [SPARK-38708][SQL] Upgraden des Hive-Metastoreclients auf 3.1.3 für Hive 3.1
    • [SPARK-47200][SS] Fehlerklasse für ForEachBatchSink-Benutzerfunktionsfehler
    • [SPARK-47368][SQL] Entfernen der Überprüfung der inferTimestampNTZ-Konfiguration in „ParquetRowConverter“
    • [SPARK-44252][SS] Definieren einer neuen Fehlerklasse, und verwenden für den Fall, in dem der Ladezustand von DFS fehlschlägt
    • [SPARK-47135][SS] Implementieren von Fehlerklassen für Kafka-Datenverlustausnahmen
    • [SPARK-47300][SQL] quoteIfNeeded soll Bezeichner zitieren, die mit Ziffern beginnen
    • [SPARK-47305][SQL] Korrigieren von „PruneFilters“, um das isStreaming-Flag von „LocalRelation“ korrekt zu kennzeichnen, wenn der Plan sowohl über Batch als auch über Streaming verfügt
    • [SPARK-47070] Beheben ungültiger Aggregation nach dem Neuschreiben von Unterabfragen
    • Updates der Betriebssystemsicherheit.
  • 14. März 2024
    • [SPARK-47145][SQL] Übergeben Sie den Tabellenbezeichner an den Zeilendatenquellenscan-Exec für die V2-Strategie.
    • [SPARK-47167][SQL] Hinzufügen einer konkreten Klasse für anonyme JDBC-Relation von Daten
    • [SPARK-47176][SQL] Verwenden einer ResolveAllExpressionsUpWithPruning-Hilfsfunktion
    • [SPARK-47044][SQL] Hinzufügen von ausgeführten Abfragen für externe JDBC-Datenquellen zur Erläuterung der Ausgabe
    • [SPARK-47125][SQL] Zurückgeben von NULL, wenn Univocity niemals die Analyse auslöst
    • Updates der Betriebssystemsicherheit.
  • 29. Februar 2024
    • Es wurde ein Problem behoben, bei dem die Verwendung einer lokalen Sammlung als Quelle in einem MERGE-Befehl dazu führen konnte, dass die Vorgangsmetrik numSourceRows die korrekte Anzahl von Zeilen verdoppelt.
    • Zum Erstellen eines Schemas mit einem definierten Speicherort muss der Benutzer jetzt über SELECT- und MODIFY-Berechtigungen für ALLE DATEIEN verfügen.
    • Updates der Betriebssystemsicherheit.
  • 8. Februar 2024
    • CDF-Abfragen (Change Data Feed; Änderungsdatenfeed) für materialisierte Unity Catalog-Sichten werden nicht unterstützt, und der Versuch, eine CDF-Abfrage mit einer materialisierten Unity Catalog-Sicht auszuführen, hat einen Fehler zur Folge. Unity Catalog-Streamingtabellen unterstützen CDF-Abfragen für APPLY CHANGES-fremde Tabellen ab Databricks Runtime 14.1. Mit Unity Catalog-Streamingtabellen in Databricks Runtime 14.0 und älteren Versionen werden CDF-Abfragen nicht unterstützt.
    • [SPARK-46794] Entfernen Sie Unterabfragen aus LogicalRDD-Einschränkungen.
    • [SPARK-46933] Fügen Sie die Abfrageausführungszeitmetrik zu Connectors hinzu, die JDBCRDD verwenden.
    • [SPARK-45582] Stellen Sie sicher, dass die Speicherinstanz nach dem Aufrufen des Commits innerhalb der Streamingaggregation im Ausgabemodus nicht verwendet wird.
    • [SPARK-46396] Der Zeitstempelrückschluss sollte keine Ausnahme auslösen.
    • [SPARK-46861] Vermeiden Sie Deadlock in DAGScheduler.
    • [SPARK-46941] Der Knoten „Fenstergruppengrenzwert“ kann nicht für die Berechnung der obersten k-Ebene eingefügt werden, wenn sizeBasedWindowFunction enthalten ist.
    • Updates der Betriebssystemsicherheit.
  • 31. Januar 2024
    • [SPARK-46610] Create-Tabelle sollte eine Ausnahme auslösen, wenn kein Wert für einen Schlüssel in den Optionen angegeben wird.
    • [SPARK-46383] Reduzieren Sie die Treiber Heap-Nutzung, indem Sie die Lebensdauer von TaskInfo.accumulables() reduzieren.
    • [SPARK-46600] Verschieben von freigegebenem Code zwischen SqlConf und SqlApiConf zu SqlApiConfHelper.
    • [SPARK-46676] dropDuplicatesWithinWatermark sollte bei der Kanonisierung des Plans nicht fehlschlagen.
    • [SPARK-46763] Beheben des Assertionsfehlers in ReplaceDeduplicateWithAggregate für doppelte Attribute.
    • Updates der Betriebssystemsicherheit.
  • 17. Januar 2024
    • Der shuffle-Knoten des Erklärungsplans, der von einer Photon-Abfrage zurückgegeben wird, wird aktualisiert, um das causedBroadcastJoinBuildOOM=true-Flag hinzuzufügen, wenn ein Out-of-Memory-Fehler während eines Shuffle auftritt, der Teil einer Übertragungsverknüpfung ist.
    • Um eine erhöhte Wartezeit bei der Kommunikation über TLSv1.3 zu vermeiden, enthält dieser Wartungsrelease einen Patch für die JDK 8-Installation, um den JDK-Fehler JDK-8293562 zu beheben.
    • [SPARK-46058] Hinzufügen eines separaten Flags für privateKeyPassword.
    • [SPARK-46173] Überspringen des trimAll-Aufrufs während der Datumsanalyse.
    • [SPARK-46370] Beheben eines Fehlers beim Abfragen aus der Tabelle nach dem Ändern der Spaltenstandardwerte.
    • [SPARK-46370] Beheben eines Fehlers beim Abfragen aus der Tabelle nach dem Ändern der Spaltenstandardwerte.
    • [SPARK-46370] Beheben eines Fehlers beim Abfragen aus der Tabelle nach dem Ändern der Spaltenstandardwerte.
    • [SPARK-46609] Vermeidung einer exponentiellen Zunahme (Explosion) in PartitioningPreservingUnaryExecNode.
    • [SPARK-46132] Unterstützung für Schlüsselkennwort für JKS-Schlüssel für RPC-SSL.
    • [SPARK-46602] Propagieren von allowExisting beim Erstellen der Ansicht, wenn die Ansicht/Tabelle nicht vorhanden ist.
    • [SPARK-46249] Anforderung einer Instanzsperre für den Abruf von RocksDB-Metriken, um Rennen mit Hintergrundvorgängen zu verhindern.
    • [SPARK-46417] Keinen Fehler zurückgeben beim Aufrufen von hive.getTable und throwException ist FALSCH.
    • [SPARK-46538] Beheben des Problems mit mehrdeutigen Spaltenverweisen in ALSModel.transform.
    • [SPARK-46478] Wiederherstellen von SPARK-43049, um Oracle varchar(255) für Zeichenfolgen zu verwenden.
    • [SPARK-46250] Deflagieren von test_parity_listener.
    • [SPARK-46394] Beheben von Problemen mit spark.catalog.listDatabases() bei Schemas mit Sonderzeichen, wenn spark.sql.legacy.keepCommandOutputSchema auf WAHR festgelegt ist.
    • [SPARK-46056] Beheben des vektorisierten Lesens von NPE in Parquet mit dem Standardwert byteArrayDecimalType.
    • [SPARK-46145] spark.catalog.listTables löst keine Ausnahme aus, wenn die Tabelle oder Ansicht nicht gefunden wird.
    • [SPARK-46466] Vektorisierter Parquet-Leser sollte niemals ein Rebase für Zeitstempel ntz ausführen.
  • 14. Dezember 2023
    • Es wurde ein Problem behoben, bei dem mit Escapezeichen versehene Unterstriche in getColumns-Vorgängen, die von JDBC- oder ODBC-Clients stammen, falsch behandelt und als Platzhalterzeichen interpretiert wurden.
    • [SPARK-45920] Gruppieren nach Ordnungszahl sollte idempotent sein.
    • [SPARK-44582] Iterator auf SMJ überspringen, wenn er bereinigt wurde.
    • [SPARK-45433] Beheben des CSV/JSON-Schemarückschlusses, wenn die Zeitstempel nicht mit dem angegebenen timestampFormat übereinstimmen.
    • [SPARK-45655] Zulassen von nicht deterministischen Ausdrücken innerhalb von AggregateFunctions in CollectMetrics.
    • Updates der Betriebssystemsicherheit.
  • 29. November 2023
    • Installiert ein neues Paket pyarrow-hotfix, um eine PyArrow RCE-Sicherheitsanfälligkeit zu beheben.
    • Der Spark-snowflake-Connector wird auf 2.12.0 aktualisiert.
    • [SPARK-44846] Komplexe Gruppierungsausdrücke nach RemoveRedundantAggregates entfernt.
    • [SPARK-45544] SSL-Unterstützung in TransportContext integriert.
    • [SPARK-45892] Überprüfung des Optimierungsplans umgestaltet, um validateSchemaOutput und validateExprIdUniqueness zu entkoppeln.
    • [SPARK-45730] Zeiteinschränkungen für ReloadingX509TrustManagerSuite verbessert.
    • [SPARK-45859] UDF-Objekte in ml.functions wurden als verzögert festgelegt.
    • Updates der Betriebssystemsicherheit.
  • 10. November 2023
    • Partitionsfilter für Delta Lake-Streamingabfragen werden unter die Ratenbegrenzung vermindert, um eine bessere Auslastung zu erzielen.
    • Datenfeedabfragen in Unity Catalog-Streamingtabellen und materialisierten Sichten geändert, um Fehlermeldungen anzuzeigen.
    • [SPARK-45545] SparkTransportConf erbt SSLOptions bei der Erstellung.
    • [SPARK-45584] Fehler beim Ausführen von Unterabfragen mit TakeOrderedAndProjectExec behoben.
    • [SPARK-45427] RPC-SSL-Einstellungen zu SSLOptions und SparkTransportConf hinzugefügt.
    • [SPARK-45541] SSLFactory hinzugefügt.
    • [SPARK-45430] FramelessOffsetWindowFunction löst bei IGNORE NULLS und offset > rowCount keinen Fehler mehr aus.
    • [SPARK-45429] Hilfsklassen für die SSL-RPC-Kommunikation hinzugefügt.
    • [SPARK-44219] Zusätzliche Überprüfungen pro Regel für Optimierungsumschreibungen hinzugefügt.
    • [SPARK-45543] Problem behoben, durch das InferWindowGroupLimit einen Fehler verursachte, wenn die anderen Fensterfunktionen nicht über denselben Fensterrahmen wie Funktionen mit demselben Rang verfügten.
    • Updates der Betriebssystemsicherheit.
  • 23. Oktober 2023
    • [SPARK-45256] Ein Problem wurde behoben, das dazu führte, dass DurationWriter fehlschlug, wenn mehr Werte als die Anfangskapazität geschrieben wurden.
    • [SPARK-45419] Vermeiden Sie, rocksdb sst-Dateien in einer anderen rocksdb-Instanz wiederzuverwenden, indem Sie den Dateiversionszuordnungseintrag größerer Versionen entfernen.
    • [SPARK-45426] Unterstützung für ReloadingX509TrustManager hinzugefügt.
    • Verschiedene Korrekturen
  • 13. Oktober 2023
    • Die Abhängigkeit von snowflake-jdbc wurde von Version 3.13.29 auf Version 3.13.33 aktualisiert.
    • Die Funktion array_insert basiert für positive und Indizes auf 1, während sie für negative Indizes zuvor auf 0 basierte. Es fügt nun ein neues Element am Ende des Eingabe-Arrays für den Index -1 ein. Um das vorherige Verhalten wiederherzustellen, legen Sie spark.sql.legacy.negativeIndexInArrayInsert auf true fest.
    • Ein Fehler wurde behoben, aufgrund dessen beschädigte Dateien nicht ignoriert wurden, wenn ignoreCorruptFiles während des CSV-Schemarückschlusses mit Autoloader aktiviert wurde.
    • Rückgängig gemacht: [SPARK-42946].
    • [SPARK-42205] Das JSON-Protokoll aktualisiert, um die Protokollierung von Accumulables in Startereignissen von Aufgaben oder Stages zu entfernen.
    • [SPARK-45178] Fallback zum Ausführen eines einzelnen Batches für Trigger.AvailableNow mit nicht unterstützte Quellen anstelle von Wrappern
    • [SPARK-45316] Neue Parameter ignoreCorruptFiles und ignoreMissingFiles zu HadoopRDD und NewHadoopRDD hinzugefügt.
    • [SPARK-44740] Metadatenwerte für Artefakte korrigiert.
    • [SPARK-45360] Konfiguration des Spark-Sitzungsgenerators von SPARK_REMOTE initialisiert.
    • [SPARK-44551] Kommentare, die mit OSS synchronisiert werden sollen, bearbeitet.
    • [SPARK-45346] Beim Parquet-Schemarückschluss wird jetzt die Groß-/Kleinschreibung von Flags während der Zusammenführung des Schemas beachtet.
    • [SPARK-44658] ShuffleStatus.getMapStatus gibt jetzt None anstelle von Some(null) zurück.
    • [SPARK-44840] Es wurde festgelegt, dass array_insert() für negative Indizes auf 1 basiert.
  • 14. September 2023
    • [SPARK-44873] Unterstützung für alter view mit geschachtelten Spalten im Hive-Client hinzugefügt.
    • [SPARK-44878] Strenger Grenzwert für RocksDB-Schreib-Manager deaktiviert, um die Einfügeausnahme bei vollem Cache zu vermeiden.
  • 30. August 2023
    • Der Befehl dbutils cp (dbutils.fs.cp) ist jetzt für schnelleres Kopieren optimiert. Mit dieser Verbesserung können Kopiervorgänge je nach Dateigröße bis zu 100-mal weniger Zeit in Anspruch nehmen. Das Feature ist für alle Clouds und Dateisysteme verfügbar, auf die in Databricks zugegriffen werden kann, einschließlich für Unity-Katalogvolumes und DBFS-Bereitstellungen.
    • [SPARK-44455] Anführungszeichen mit Apostroph im SHOW CREATE TABLE-Ergebnis
    • [SPARK-44763] Ein Problem wurde behoben, bei dem eine Zeichenfolge als Double in binärer Arithmetik mit Intervall angezeigt wurde.
    • [SPARK-44871] percentile_disc-Verhalten wurde korrigiert.
    • [SPARK-44714] Erleichterte Einschränkung der LCA-Auflösung in Bezug auf Abfragen.
    • [SPARK-44818] Race für ausstehende Aufgabenunterbrechung behoben, der ausgegeben wird, bevor taskThread initialisiert wird.
    • [SPARK-44505] Außerkraftsetzung für spaltenbasierte Unterstützung in Überprüfung auf DSv2 hinzugefügt.
    • [SPARK-44479] Korrektur der protobuf-Konvertierung von einem leeren struct-Typ.
    • [SPARK-44718] Konfigurations-Standardeinstellung für ColumnVector an OffHeapMemoryMode-Konfigurationswert angepasst.
    • [SPARK-42941] Unterstützung für StreamingQueryListener in Python hinzugefügt.
    • [SPARK-44558] Exportieren der Spark Connect-Protokollstufe von PySpark.
    • [SPARK-44464] Korrektur von applyInPandasWithStatePythonRunner, sodass Zeilen mit Null als erstem Spaltenwert ausgegeben werden.
    • [SPARK-44643] Korrektur von Row.__repr__, wenn das Feld eine leere Zeile ist.
    • Updates der Betriebssystemsicherheit.

Databricks Runtime 12.2 LTS

Siehe Databricks Runtime 12.2 LTS.

  • 10. September 2024
    • Verschiedene Fehlerbehebungen
  • 20. August 2024
    • [SPARK-48941][SPARK-48970] Backport ML writer / Korrekturen der Sprachausgabe
    • [SPARK-49065][SQL] Rebasing in Legacy-Formatierern/Parsern muss Zeitzonen unterstützen, die nicht dem JVM-Standard entsprechen
    • [SPARK-49056][SQL] ErrorClassesJsonReader kann null nicht ordnungsgemäß verarbeiten
    • [SPARK-48597][SQL] Einführung einer Markierung für isStreaming-Eigenschaft in der Textdarstellung eines logischen Plans
    • [SPARK-48463][ML] Erstellen von StringIndexer zur Unterstützung geschachtelter Eingabespalten
    • Updates der Betriebssystemsicherheit.
  • 7. August 2024
  • 1. August 2024
    • Um erforderliche Sicherheitspatches anzuwenden, wird die Python-Version in Databricks Runtime 12.2 LTS von 3.9.5 auf 3.9.19 aktualisiert.
  • 11. Juli 2024
    • (Verhaltensänderung) DataFrames, die gegen Delta-Tabellenquellen zwischengespeichert werden, werden nun ungültig, wenn die Quelltabelle überschrieben wird. Diese Änderung bedeutet, dass alle Zustandsänderungen an Deltatabellen nun die zwischengespeicherten Ergebnisse ungültig machen. Verwenden Sie .checkpoint(), um den Zustand einer Tabelle während der gesamten Lebensdauer eines DataFrame beizubehalten.
    • [SPARK-48481][SQL][SS] OptimizeOneRowPlan nicht auf Streaming-Dataset anwenden
    • [SPARK-47070] Beheben ungültiger Aggregation nach dem Neuschreiben von Unterabfragen
    • [SPARK-42741][SQL] Kein Aufheben der Umschließung von Umwandlungen im binären Vergleich, wenn Literal NULL ist
    • [SPARK-48445][SC-167191] [SQL] Keine Inline-UDFs mit teuren untergeordneten Elementen
    • [SPARK-48503][SQL] Beheben ungültiger skalarer Unterabfragen mit "Gruppieren nach" für nicht gleichwertige Spalten, die falsch zulässig waren
    • [SPARK-48383][SS] Ausgeben eines besseren Fehlers für nicht übereinstimmende Partitionen in der startOffset-Option in Kafka
    • Updates der Betriebssystemsicherheit.
  • 17. Juni 2024
    • [SPARK-48277] Verbessern von Fehlermeldung für ErrorClassesJsonReader.getErrorMessage
    • Verschiedene Fehlerbehebungen
  • 21. Mai 2024
    • [SPARK-48105][SS] Beheben der Racebedingung zwischen Entladung des Zustandsspeichers und Momentaufnahmen
    • Updates der Betriebssystemsicherheit.
  • 9. Mai 2024
    • [SPARK-44251][SQL] Korrektes Festlegen von „Nullwerte zulassend“ bei zusammengeführtem Joinschlüssel in vollständigem äußerem USING-Join
    • [SPARK-47973][CORE] Protokollaufrufwebsite in SparkContext.stop() und später in SparkContext.assertNotStopped()
    • [SPARK-47956][SQL] Plausibilitätsprüfung für nicht aufgelöste LCA-Referenz
    • [SPARK-48018][SS] Behebung von groupId „NULL“, die einen Fehler für fehlenden Parameter auslöst, wenn KafkaException.couldNotReadOffsetRange ausgelöst wird
    • Updates der Betriebssystemsicherheit.
  • 25. April 2024
    • Updates der Betriebssystemsicherheit.
  • 11. April 2024
    • Updates der Betriebssystemsicherheit.
  • 1. April 2024
    • [SPARK-47305][SQL] Korrigieren von „PruneFilters“, um das isStreaming-Flag von „LocalRelation“ korrekt zu kennzeichnen, wenn der Plan sowohl über Batch als auch über Streaming verfügt
    • [SPARK-44252][SS] Definieren einer neuen Fehlerklasse, und verwenden für den Fall, in dem der Ladezustand von DFS fehlschlägt
    • [SPARK-47135][SS] Implementieren von Fehlerklassen für Kafka-Datenverlustausnahmen
    • [SPARK-47200][SS] Fehlerklasse für ForEachBatchSink-Benutzerfunktionsfehler
    • Updates der Betriebssystemsicherheit.
  • 14. März 2024
    • [SPARK-47176][SQL] Verwenden einer ResolveAllExpressionsUpWithPruning-Hilfsfunktion
    • Zurücksetzen von „[SPARK-46861][CORE] Deadlock in DAGScheduler vermeiden“
    • [SPARK-47125][SQL] Zurückgeben von NULL, wenn Univocity niemals die Analyse auslöst
    • [SPARK-47167][SQL] Hinzufügen einer konkreten Klasse für anonyme JDBC-Relation von Daten
    • Updates der Betriebssystemsicherheit.
  • 29. Februar 2024
    • Es wurde ein Problem behoben, bei dem die Verwendung einer lokalen Sammlung als Quelle in einem MERGE-Befehl dazu führen konnte, dass die Vorgangsmetrik numSourceRows die korrekte Anzahl von Zeilen verdoppelt.
    • Zum Erstellen eines Schemas mit einem definierten Speicherort muss der Benutzer jetzt über SELECT- und MODIFY-Berechtigungen für ALLE DATEIEN verfügen.
    • [SPARK-45582][SS] Sicherstellen, dass die Speicherinstanz nach dem Aufrufen des Commits innerhalb der Streamingaggregation im Ausgabemodus nicht verwendet wird
    • Updates der Betriebssystemsicherheit.
  • 13. Februar 2024
    • [SPARK-46861] Vermeiden Sie Deadlock in DAGScheduler.
    • [SPARK-46794] Entfernen Sie Unterabfragen aus LogicalRDD-Einschränkungen.
    • Updates der Betriebssystemsicherheit.
  • 31. Januar 2024
    • [SPARK-46763] Beheben des Assertionsfehlers in ReplaceDeduplicateWithAggregate für doppelte Attribute.
    • Updates der Betriebssystemsicherheit.
  • 25. Dezember 2023
    • Um eine erhöhte Wartezeit bei der Kommunikation über TLSv1.3 zu vermeiden, enthält dieser Wartungsrelease einen Patch für die JDK 8-Installation, um den JDK-Fehler JDK-8293562 zu beheben.
    • [SPARK-39440] Hinzufügen einer Konfiguration, um die Ereigniszeitachse zu deaktivieren.
    • [SPARK-46132] Unterstützung für Schlüsselkennwort für JKS-Schlüssel für RPC-SSL.
    • [SPARK-46394] Beheben von Problemen mit spark.catalog.listDatabases() bei Schemas mit Sonderzeichen, wenn spark.sql.legacy.keepCommandOutputSchema auf WAHR festgelegt ist.
    • [SPARK-46417] Keinen Fehler zurückgeben beim Aufrufen von hive.getTable und throwException ist FALSCH.
    • [SPARK-43067] Korrigieren des Speicherorts der Fehlerklassen-Ressourcendatei im Kafka-Connector.
    • [SPARK-46249] Anforderung einer Instanzsperre für den Abruf von RocksDB-Metriken, um Rennen mit Hintergrundvorgängen zu verhindern.
    • [SPARK-46602] Propagieren von allowExisting beim Erstellen der Ansicht, wenn die Ansicht/Tabelle nicht vorhanden ist.
    • [SPARK-46058] Hinzufügen eines separaten Flags für privateKeyPassword.
    • [SPARK-46145] spark.catalog.listTables löst keine Ausnahme aus, wenn die Tabelle oder Ansicht nicht gefunden wird.
    • [SPARK-46538] Beheben des Problems mit mehrdeutigen Spaltenverweisen in ALSModel.transform.
    • [SPARK-42852] Wiederherstellen von NamedLambdaVariable-Änderungen aus EquivalentExpressions.
  • 14. Dezember 2023
    • Es wurde ein Problem behoben, bei dem mit Escapezeichen versehene Unterstriche in getColumns-Vorgängen, die von JDBC- oder ODBC-Clients stammen, falsch behandelt und als Platzhalterzeichen interpretiert wurden.
    • [SPARK-44582] Iterator auf SMJ überspringen, wenn er bereinigt wurde.
    • [SPARK-45920] Gruppieren nach Ordnungszahl sollte idempotent sein.
    • [SPARK-45655] Zulassen von nicht deterministischen Ausdrücken innerhalb von AggregateFunctions in CollectMetrics.
    • Updates der Betriebssystemsicherheit.
  • 29. November 2023
    • Installiert ein neues Paket pyarrow-hotfix, um eine PyArrow RCE-Sicherheitsanfälligkeit zu beheben.
    • Ein Problem wurde behoben, das dazu führte, dass mit Escapezeichen versehene Unterstriche in getColumns-Vorgängen, die von JDBC- oder ODBC-Clients stammen, fälschlicherweise als Platzhalter interpretiert wurden.
    • [SPARK-42205] Protokollierung von Accumulables in Startereignissen vom Typ Stage und Task entfernt.
    • [SPARK-44846] Komplexe Gruppierungsausdrücke nach RemoveRedundantAggregates entfernt.
    • [SPARK-43718] NULL-Zulässigkeit für Schlüssel in USING-Verknüpfungen korrigiert.
    • [SPARK-45544] SSL-Unterstützung in TransportContext integriert.
    • [SPARK-43973] Strukturierte Streaming-UI zeigt jetzt fehlerhafte Abfragen ordnungsgemäß an.
    • [SPARK-45730] Zeiteinschränkungen für ReloadingX509TrustManagerSuite verbessert.
    • [SPARK-45859] UDF-Objekte in ml.functions wurden als verzögert festgelegt.
    • Updates der Betriebssystemsicherheit.
  • 14. November 2023
    • Partitionsfilter für Delta Lake-Streamingabfragen werden unter die Ratenbegrenzung vermindert, um eine bessere Auslastung zu erzielen.
    • [SPARK-45545] SparkTransportConf erbt SSLOptions bei der Erstellung.
    • [SPARK-45427] RPC-SSL-Einstellungen zu SSLOptions und SparkTransportConf hinzugefügt.
    • [SPARK-45584] Fehler beim Ausführen von Unterabfragen mit TakeOrderedAndProjectExec behoben.
    • [SPARK-45541] SSLFactory hinzugefügt.
    • [SPARK-45430] FramelessOffsetWindowFunction löst bei IGNORE NULLS und offset > rowCount keinen Fehler mehr aus.
    • [SPARK-45429] Hilfsklassen für die SSL-RPC-Kommunikation hinzugefügt.
    • Updates der Betriebssystemsicherheit.
  • 24. Oktober 2023
    • [SPARK-45426] Unterstützung für ReloadingX509TrustManager hinzugefügt.
    • Verschiedene Korrekturen
  • 13. Oktober 2023
    • Die Abhängigkeit von snowflake-jdbc wurde von Version 3.13.29 auf Version 3.13.33 aktualisiert.
    • [SPARK-42553] Sicherstellen von mindestens einer Zeiteinheit nach einem Intervall
    • [SPARK-45346] Beim Parquet-Schemarückschluss wird die Groß-/Kleinschreibung von Flags während der Zusammenführung des Schemas beachtet.
    • [SPARK-45178] Fallback zum Ausführen eines einzelnen Batches für Trigger.AvailableNow mit nicht unterstützte Quellen anstelle von Wrappern
    • [SPARK-45084] StateOperatorProgress für die Verwendung einer korrekten, angemessenen Shuffle-Partitionsnummer
  • 12. September 2023
    • [SPARK-44873] Unterstützung für alter view mit geschachtelten Spalten im Hive-Client hinzugefügt.
    • [SPARK-44718] Konfigurations-Standardeinstellung für ColumnVector an OffHeapMemoryMode-Konfigurationswert angepasst.
    • [SPARK-43799] Binäre Deskriptoroption zur PySpark-Protobuf-API hinzugefügt.
    • Verschiedene Korrekturen
  • 30. August 2023
    • [SPARK-44485] Optimierung von TreeNode.generateTreeString.
    • [SPARK-44818] Race für ausstehende Aufgabenunterbrechung behoben, der ausgegeben wird, bevor taskThread initialisiert wird.
    • [SPARK-44871][11.3-13.0] percentile_disc-Verhalten wurde korrigiert.
    • [SPARK-44714] Erleichterte Einschränkung der LCA-Auflösung in Bezug auf Abfragen.
    • Updates der Betriebssystemsicherheit.
  • 15. August 2023
    • [SPARK-44504] Wartungsaufgabe bereinigt geladene Anbieter bei Stoppfehler.
    • [SPARK-44464] Korrektur von applyInPandasWithStatePythonRunner, sodass Zeilen mit Null als erstem Spaltenwert ausgegeben werden.
    • Updates der Betriebssystemsicherheit.
  • 29. Juli 2023
    • Problem behoben, das dazu führte, dass INVALID_PARAMETER_VALUE.LOCATION_OVERLAP von dbutils.fs.ls() beim Aufruf für einen Speicherortpfad zurückgegeben wurde, der mit einem anderen externen oder verwalteten Speicherort in Konflikt stand.
    • [SPARK-44199] CacheManager aktualisiert fileIndex nicht mehr unnötig.
    • Updates der Betriebssystemsicherheit.
  • 24. Juli 2023
    • [SPARK-44337] Problem behoben, aufgrund dessen ein beliebiges auf Any.getDefaultInstance festgelegtes Feld Analysefehler verursachte
    • [SPARK-44136] Problem behoben, das dazu führte, dass StateManager in einem Executor und nicht in einem Treiber in FlatMapGroupsWithStateExec materialisiert wurde
    • Updates der Betriebssystemsicherheit.
  • 23. Juni 2023
    • Updates der Betriebssystemsicherheit.
  • 15. Juni 2023
    • Photonisiertes approx_count_distinct.
    • Für die Snowflake-JDBC-Bibliothek wird ein Upgrade auf 3.13.29 durchgeführt, um ein Sicherheitsproblem zu beheben.
    • [SPARK-43779] ParseToDate lädt jetzt EvalMode in den Hauptthread.
    • [SPARK-43156][SPARK-43098] Skalare Unterabfrage zum Testen der Fehleranzahl mit Deaktivierung von decorrelateInnerQuery erweitert.
    • Updates der Betriebssystemsicherheit.
  • 2. Juni 2023
    • Der JSON-Parser im failOnUnknownFields-Modus löscht einen Datensatz im DROPMALFORMED-Modus und schlägt direkt im FAILFAST-Modus fehl.
    • Verbesserung der Leistung inkrementeller Updates mit SHALLOW CLONE Iceberg und Parquet.
    • Es wurde ein Problem im Autoloader behoben, bei dem verschiedene Quelldateiformate inkonsistent waren, wenn das bereitgestellte Schema keine abgeleiteten Partitionen enthielt. Dieses Problem kann beim Lesen von Dateien mit fehlenden Spalten im abgeleiteten Partitionsschema zu unerwarteten Fehlern führen.
    • [SPARK-43404] Überspringen der Wiederverwendung der SST-Datei für dieselbe Version des RocksDB-Zustandsspeichers, um den ID-Übereinstimmungsfehler zu vermeiden
    • [SPARK-43413][11.3-13.0] ListQuery-NULL-Zulässigkeit der IN-Unterabfrage korrigiert.
    • [SPARK-43522] Erstellung des Strukturspaltennamens mit dem Index des Arrays korrigiert.
    • [SPARK-43541] Verteilen aller Project-Tags beim Auflösen von Ausdrücken und fehlenden Spalten.
    • [SPARK-43527] catalog.listCatalogs in PySpark korrigiert.
    • [SPARK-43123] Interne Feldmetadaten werden nicht mehr an Kataloge weitergegeben.
    • [SPARK-43340] Fehlendes Stapelablaufverfolgungsfeld in Ereignisprotokollen korrigiert.
    • [SPARK-42444] DataFrame.drop verarbeitet doppelte Spalten jetzt ordnungsgemäß.
    • [SPARK-42937] PlanSubqueries legt jetzt InSubqueryExec#shouldBroadcast auf „true“ fest.
    • [SPARK-43286] CBC-Modus aes_encrypt aktualisiert, um zufällige IVs zu generieren.
    • [SPARK-43378] Streamobjekte in deserializeFromChunkedBuffer ordnungsgemäß schließen.
  • 17. Mai 2023
    • Parquet-Scans sind jetzt stabil gegen OOMs beim Scannen außergewöhnlich strukturierter Dateien durch dynamische Anpassung der Batchgröße. Dateimetadaten werden analysiert, um die Batchgröße präventiv zu verringern und bei Vorgangsversuchen als endgültiges Sicherheitsnetz erneut zu verringern.
    • Wenn eine Avro-Datei nur mit der failOnUnknownFields-Option oder mit Autoloader im failOnNewColumns-Schemaentwicklungsmodus gelesen wurde, wurden Spalten mit unterschiedlichen Datentypen als null gelesen, anstatt einen Fehler auszulösen, der besagt, dass die Datei nicht gelesen werden kann. Diese Lesevorgänge schlagen jetzt fehl und empfehlen Benutzern, die rescuedDataColumn-Option zu verwenden.
    • Autoloader macht jetzt Folgendes:
      • Liest jetzt korrekt Integer-, Short und Byte-Typen, sodass keine Wiederherstellung erforderlich ist, wenn einer dieser Datentypen bereitgestellt wird, die AVRO-Datei aber einen der anderen beiden Typen vorschlägt.
      • Verhindert das Lesen von Intervalltypen als Datums- oder Zeitstempeltypen, um fehlerhafte Datumsangaben zu vermeiden.
      • Verhindert das Lesen von Decimal-Typen mit geringerer Genauigkeit.
    • [SPARK-43172] Macht den Host und das Token vom Spark Connect-Client verfügbar.
    • [SPARK-43293] __qualified_access_only wird in normalen Spalten ignoriert.
    • [SPARK-43098] COUNT-Korrektheitsfehler behoben, bei dem skalare Unterabfragen nach Klausel gruppiert wurden.
    • [SPARK-43085] Unterstützung der DEFAULT-Spaltenzuweisung für mehrteilige Tabellennamen.
    • [SPARK-43190] ListQuery.childOutput ist jetzt mit der sekundären Ausgabe konsistent.
    • [SPARK-43192] Zeichensatzüberprüfung des Benutzer-Agents entfernt.
    • Updates der Betriebssystemsicherheit.
  • 25. April 2023
    • Wenn eine Parquet-Datei nur mit der failOnUnknownFields-Option oder mit Autoloader im failOnNewColumns-Schemaentwicklungsmodus gelesen wurde, wurden Spalten mit unterschiedlichen Datentypen als null gelesen, anstatt einen Fehler auszulösen, der besagt, dass die Datei nicht gelesen werden kann. Diese Lesevorgänge schlagen jetzt fehl und empfehlen Benutzern, die rescuedDataColumn-Option zu verwenden.
    • Autoloader liest jetzt korrekt Integer-, Short- und Byte-Typen, sodass keine Wiederherstellung erforderlich ist, wenn einer dieser Datentypen bereitgestellt wird. Die Parquet-Datei schlägt einen der beiden anderen Typen vor. Wenn die Spalte für wiederhergestellte Daten zuvor aktiviert wurde, führte der Datentypkonflikt dazu, dass Spalten wiederhergestellt wurden, obwohl sie lesbar waren.
    • [SPARK-43009] sql() wurde mit Any-Konstanten parametrisiert.
    • [SPARK-42406] Beenden der rekursiven Protobuf-Felder durch Löschen des Felds
    • [SPARK-43038] Unterstützung für GCM-Modus durch aes_encrypt()/aes_decrypt()
    • [SPARK-42971] workdir ausgeben, wenn appDirs beim Workerhandleereignis „WorkDirCleanup“ NULL ist
    • [SPARK-43018] Fehler für INSERT-Befehle mit Zeitstempelliteralen behoben
    • Updates der Betriebssystemsicherheit.
  • 11. April 2023
    • Unterstützung von Legacy-Datenquellenformaten im SYNC-Befehl.
    • Ein Problem beim %autoreload-Verhalten in Notebooks außerhalb eines Repositorys behoben.
    • Es wurde ein Problem behoben, bei dem die Autoloader-Schemaentwicklung zu einer endlosen Fehlerschleife führen kann, wenn eine neue Spalte im Schema eines geschachtelten JSON-Objekts erkannt wird.
    • [SPARK-42928] Sychronisiert resolvePersistentFunction.
    • [SPARK-42936] Behebt einen LCA-Fehler, wenn die Klausel direkt durch ihr untergeordnetes Aggregat aufgelöst werden kann.
    • [SPARK-42967] Behebt SparkListenerTaskStart.stageAttemptId, wenn eine Aufgabe gestartet wird, nachdem die Phase abgebrochen wurde.
    • Updates der Betriebssystemsicherheit.
  • 29. März 2023
    • Databricks SQL unterstützt jetzt das Angeben von Standardwerten für Spalten von Delta Lake-Tabellen, entweder zur Erstellungszeit der Tabelle oder danach. Anschließende INSERT-, UPDATE-, DELETE- und MERGE-Befehle können mithilfe des expliziten DEFAULT-Schlüsselworts auf den Standardwert einer Spalte verweisen. Wenn zusätzlich eine INSERT-Zuweisung eine explizite Liste mit weniger Spalten als die Zieltabelle aufweist, werden die entsprechenden Spaltenstandardwerte durch die übrigen Spalten ersetzt (oder NULL, wenn kein Standardwert angegeben ist).

      Beispiel:

      CREATE TABLE t (first INT, second DATE DEFAULT CURRENT_DATE());
      INSERT INTO t VALUES (0, DEFAULT);
      INSERT INTO t VALUES (1, DEFAULT);
      SELECT first, second FROM t;
      > 0, 2023-03-28
      1, 2023-03-28z
      
    • Autoloader initiiert jetzt mindestens eine synchrone RocksDB-Protokollbereinigung für Trigger.AvailableNow-Streams, um zu überprüfen, ob der Prüfpunkt regelmäßig für schnell ausgeführte Autoloader-Streams bereinigt werden kann. Dadurch können einige Streams mehr Zeit in Anspruch nehmen, bevor sie heruntergefahren werden, aber Sie sparen Speicherkosten und verbessern die Autoloader-Nutzung in zukünftigen Ausführungen.

    • Sie können jetzt eine Delta-Tabelle ändern, um die Unterstützung für Tabellenfeatures hinzuzufügen, indem Sie verwenden DeltaTable.addFeatureSupport(feature_name).

    • [SPARK-42794] Erhöhen von lockAcquireTimeoutMs auf 2 Minuten, um den RocksDB-Zustandsspeicher im strukturierten Streaming abzurufen

    • [SPARK-42521] NULL-Werte für INSERT-Befehle mit benutzerseitig angegebenen Listen mit weniger Spalten als die Zieltabelle hinzufügen

    • [SPARK-42702][SPARK-42623] Unterstützung parametrisierter Abfragen in Unterabfragen und CTE

    • [SPARK-42668] Ausnahmeerfassung beim Versuch, den komprimierten Datenstrom in HDFSStateStoreProvider-Beendigung zu schließen

    • [SPARK-42403] JsonProtocol sollte JSON-Zeichenfolgen mit NULL verarbeiten.

  • 8. März 2023
    • Die Fehlermeldung „Fehler beim Initialisieren der Konfiguration“ wurde verbessert, um mehr Kontext für den Kunden bereitzustellen.
    • Es gibt eine Terminologieänderung für das Hinzufügen von Funktionen zu einer Delta-Tabelle mithilfe der table-Eigenschaft. Die bevorzugte Syntax ist jetzt 'delta.feature.featureName'='supported' anstelle von 'delta.feature.featureName'='enabled'. Aus Gründen der Abwärtskompatibilität funktioniert 'delta.feature.featureName'='enabled' weiterhin, und das wird auch so bleiben.
    • Ab dieser Version ist es möglich, eine Tabelle durch die zusätzliche Tabelleneigenschaft „delta.ignoreProtocolDefaults“ zu erstellen/zu ersetzen, um protokollbezogene Spark-Konfigurationen zu ignorieren, die standardmäßige Reader- und Writerversionen sowie standardmäßig unterstützte Tabellenfunktionen enthalten.
    • [SPARK-42070] Ändern des Standardwerts des Arguments der Mask-Funktion von -1 in NULL
    • [SPARK-41793] Falsches Ergebnis für Fensterrahmen, die durch eine Bereichsklausel für signifikante Dezimalstellen definiert sind
    • [SPARK-42484] Bessere UnsafeRowUtils-Fehlermeldung
    • [SPARK-42516] Beim Erstellen von Ansichten immer die Sitzungszeitzonenkonfiguration erfassen
    • [SPARK-42635] Korrigieren des TimestampAdd-Ausdrucks
    • [SPARK-42622] Ersetzung in Werten deaktiviert
    • [SPARK-42534] Korrigieren der Db2Dialect Limit-Klausel
    • [SPARK-42121] Integrierte Tabellenwertfunktionen wie posexplode, posexplode_outer, json_tuple und stack hinzufügen
    • [SPARK-42045] ANSI SQL-Modus: Round/Bround sollte einen Fehler beim Integerüberlauf von tiny/small/significant zurückgeben.
    • Updates der Betriebssystemsicherheit.

Databricks Runtime 11.3 LTS

Weitere Informationen finden Sie unter Databricks Runtime 11.3 LTS.

  • 10. September 2024
  • 20. August 2024
    • [SPARK-48941][SPARK-48970] Backport ML writer / Korrekturen der Sprachausgabe
    • [SPARK-49065][SQL] Rebasing in Legacy-Formatierern/Parsern muss Zeitzonen unterstützen, die nicht dem JVM-Standard entsprechen
    • [SPARK-48597][SQL] Einführung einer Markierung für isStreaming-Eigenschaft in der Textdarstellung eines logischen Plans
    • [SPARK-48463][ML] Erstellen von StringIndexer zur Unterstützung geschachtelter Eingabespalten
    • Updates der Betriebssystemsicherheit.
  • 7. August 2024
  • 1. August 2024
    • Um erforderliche Sicherheitspatches anzuwenden, wird die Python-Version in Databricks Runtime 11.3 LTS von 3.9.5 auf 3.9.19 aktualisiert.
  • 11. Juli 2024
    • [SPARK-48383][SS] Ausgeben eines besseren Fehlers für nicht übereinstimmende Partitionen in der startOffset-Option in Kafka
    • [SPARK-47070] Beheben ungültiger Aggregation nach dem Neuschreiben von Unterabfragen
    • Updates der Betriebssystemsicherheit.
  • 17. Juni 2024
    • Updates der Betriebssystemsicherheit.
  • 21. Mai 2024
    • [SPARK-48105][SS] Beheben der Racebedingung zwischen Entladung des Zustandsspeichers und Momentaufnahmen
    • Updates der Betriebssystemsicherheit.
  • 9. Mai 2024
    • [SPARK-48018][SS] Behebung von groupId „NULL“, die einen Fehler für fehlenden Parameter auslöst, wenn KafkaException.couldNotReadOffsetRange ausgelöst wird
    • [SPARK-47973][CORE] Protokollaufrufwebsite in SparkContext.stop() und später in SparkContext.assertNotStopped()
    • [SPARK-44251][SQL] Korrektes Festlegen von „Nullwerte zulassend“ bei zusammengeführtem Joinschlüssel in vollständigem äußerem USING-Join
    • Updates der Betriebssystemsicherheit.
  • 25. April 2024
    • Updates der Betriebssystemsicherheit.
  • 11. April 2024
    • Updates der Betriebssystemsicherheit.
  • 1. April 2024
    • [SPARK-44252][SS] Definieren einer neuen Fehlerklasse, und verwenden für den Fall, in dem der Ladezustand von DFS fehlschlägt
    • [SPARK-47135][SS] Implementieren von Fehlerklassen für Kafka-Datenverlustausnahmen
    • Zurücksetzen von „[SPARK-46861][CORE] Deadlock in DAGScheduler vermeiden“
    • [SPARK-47200][SS] Fehlerklasse für ForEachBatchSink-Benutzerfunktionsfehler
    • Updates der Betriebssystemsicherheit.
  • 14. März 2024
    • [SPARK-47167][SQL] Hinzufügen einer konkreten Klasse für anonyme JDBC-Relation von Daten
    • [SPARK-47125][SQL] Zurückgeben von NULL, wenn Univocity niemals die Analyse auslöst
    • Updates der Betriebssystemsicherheit.
  • 29. Februar 2024
    • Es wurde ein Problem behoben, bei dem die Verwendung einer lokalen Sammlung als Quelle in einem MERGE-Befehl dazu führen konnte, dass die Vorgangsmetrik numSourceRows die korrekte Anzahl von Zeilen verdoppelt.
    • [SPARK-45582][SS] Sicherstellen, dass die Speicherinstanz nach dem Aufrufen des Commits innerhalb der Streamingaggregation im Ausgabemodus nicht verwendet wird
  • 13. Februar 2024
    • [SPARK-46794] Entfernen Sie Unterabfragen aus LogicalRDD-Einschränkungen.
    • [SPARK-46861] Vermeiden Sie Deadlock in DAGScheduler.
    • Updates der Betriebssystemsicherheit.
  • 31. Januar 2024
    • Updates der Betriebssystemsicherheit.
  • 25. Dezember 2023
    • Um eine erhöhte Wartezeit bei der Kommunikation über TLSv1.3 zu vermeiden, enthält dieser Wartungsrelease einen Patch für die JDK 8-Installation, um den JDK-Fehler JDK-8293562 zu beheben.
    • [SPARK-46058] Hinzufügen eines separaten Flags für privateKeyPassword.
    • [SPARK-46602] Propagieren von allowExisting beim Erstellen der Ansicht, wenn die Ansicht/Tabelle nicht vorhanden ist.
    • [SPARK-46394] Beheben von Problemen mit spark.catalog.listDatabases() bei Schemas mit Sonderzeichen, wenn spark.sql.legacy.keepCommandOutputSchema auf WAHR festgelegt ist.
    • [SPARK-46538] Beheben des Problems mit mehrdeutigen Spaltenverweisen in ALSModel.transform.
    • [SPARK-39440] Hinzufügen einer Konfiguration, um die Ereigniszeitachse zu deaktivieren.
    • [SPARK-46249] Anforderung einer Instanzsperre für den Abruf von RocksDB-Metriken, um Rennen mit Hintergrundvorgängen zu verhindern.
    • [SPARK-46132] Unterstützung für Schlüsselkennwort für JKS-Schlüssel für RPC-SSL.
  • 14. Dezember 2023
    • Es wurde ein Problem behoben, bei dem mit Escapezeichen versehene Unterstriche in getColumns-Vorgängen, die von JDBC- oder ODBC-Clients stammen, falsch behandelt und als Platzhalterzeichen interpretiert wurden.
    • Updates der Betriebssystemsicherheit.
  • 29. November 2023
    • Installiert ein neues Paket pyarrow-hotfix, um eine PyArrow RCE-Sicherheitsanfälligkeit zu beheben.
    • Ein Problem wurde behoben, das dazu führte, dass mit Escapezeichen versehene Unterstriche in getColumns-Vorgängen, die von JDBC- oder ODBC-Clients stammen, fälschlicherweise als Platzhalter interpretiert wurden.
    • [SPARK-43973] Strukturierte Streaming-UI zeigt jetzt fehlerhafte Abfragen ordnungsgemäß an.
    • [SPARK-45730] Zeiteinschränkungen für ReloadingX509TrustManagerSuite verbessert.
    • [SPARK-45544] SSL-Unterstützung in TransportContext integriert.
    • [SPARK-45859] UDF-Objekte in ml.functions wurden als verzögert festgelegt.
    • [SPARK-43718] NULL-Zulässigkeit für Schlüssel in USING-Verknüpfungen korrigiert.
    • [SPARK-44846] Komplexe Gruppierungsausdrücke nach RemoveRedundantAggregates entfernt.
    • Updates der Betriebssystemsicherheit.
  • 14. November 2023
    • Partitionsfilter für Delta Lake-Streamingabfragen werden unter die Ratenbegrenzung vermindert, um eine bessere Auslastung zu erzielen.
    • [SPARK-42205] Protokollierung von Accumulables in Startereignissen vom Typ „Stage“ und „Task“ entfernt.
    • [SPARK-45545] SparkTransportConf erbt SSLOptions bei der Erstellung.
    • Rückgängig gemacht: [SPARK-33861].
    • [SPARK-45541] SSLFactory hinzugefügt.
    • [SPARK-45429] Hilfsklassen für die SSL-RPC-Kommunikation hinzugefügt.
    • [SPARK-45584] Fehler beim Ausführen von Unterabfragen mit TakeOrderedAndProjectExec behoben.
    • [SPARK-45430] FramelessOffsetWindowFunction löst bei IGNORE NULLS und offset > rowCount keinen Fehler mehr aus.
    • [SPARK-45427] RPC-SSL-Einstellungen zu SSLOptions und SparkTransportConf hinzugefügt.
    • Updates der Betriebssystemsicherheit.
  • 24. Oktober 2023
    • [SPARK-45426] Unterstützung für ReloadingX509TrustManager hinzugefügt.
    • Verschiedene Korrekturen
  • 13. Oktober 2023
    • Die Abhängigkeit von snowflake-jdbc wurde von Version 3.13.29 auf Version 3.13.33 aktualisiert.
    • [SPARK-45178] Fallback zum Ausführen eines einzelnen Batches für Trigger.AvailableNow mit nicht unterstützte Quellen anstelle von Wrappern
    • [SPARK-45084] StateOperatorProgress für die Verwendung einer korrekten, angemessenen Shuffle-Partitionsnummer
    • [SPARK-45346] Beim Parquet-Schemarückschluss wird jetzt die Groß-/Kleinschreibung von Flags während der Zusammenführung des Schemas beachtet.
    • Updates der Betriebssystemsicherheit.
  • 10. September 2023
    • Verschiedene Korrekturen
  • 30. August 2023
    • [SPARK-44818] Race für ausstehende Aufgabenunterbrechung behoben, der ausgegeben wird, bevor taskThread initialisiert wird.
    • [SPARK-44871][11.3-13.0] percentile_disc-Verhalten wurde korrigiert.
    • Updates der Betriebssystemsicherheit.
  • 15. August 2023
    • [SPARK-44485] Optimierung von TreeNode.generateTreeString.
    • [SPARK-44504] Wartungsaufgabe bereinigt geladene Anbieter bei Stoppfehler.
    • [SPARK-44464] Korrektur von applyInPandasWithStatePythonRunner, sodass Zeilen mit Null als erstem Spaltenwert ausgegeben werden.
    • Updates der Betriebssystemsicherheit.
  • 27. Juli 2023
    • Problem behoben, das dazu führte, dass INVALID_PARAMETER_VALUE.LOCATION_OVERLAP von dbutils.fs.ls() beim Aufruf für einen Speicherortpfad zurückgegeben wurde, der mit einem anderen externen oder verwalteten Speicherort in Konflikt stand.
    • [SPARK-44199] CacheManager aktualisiert fileIndex nicht mehr unnötig.
    • Updates der Betriebssystemsicherheit.
  • 24. Juli 2023
    • [SPARK-44136] Ein Problem wurde behoben, das dazu führte, dass StateManager im Executor statt im Treiber in FlatMapGroupsWithStateExec materialisiert werden kann.
    • Updates der Betriebssystemsicherheit.
  • 23. Juni 2023
    • Updates der Betriebssystemsicherheit.
  • 15. Juni 2023
    • Photonisiertes approx_count_distinct.
    • Für die Snowflake-JDBC-Bibliothek wird ein Upgrade auf 3.13.29 durchgeführt, um ein Sicherheitsproblem zu beheben.
    • [SPARK-43779] ParseToDate lädt jetzt EvalMode in den Hauptthread.
    • [SPARK-40862] Unterstützung nicht aggregierter Unterabfragen in RewriteCorrelatedScalarSubquery
    • [SPARK-43156][SPARK-43098] Skalare Unterabfrage zum Testen der Fehleranzahl mit Deaktivierung von decorrelateInnerQuery erweitert.
    • [SPARK-43098] Korrektur der Richtigkeit von „COUNT bug“, wenn die skalare Unterabfrage eine group by-Klausel aufweist
    • Updates der Betriebssystemsicherheit.
  • 2. Juni 2023
    • Der JSON-Parser im failOnUnknownFields-Modus löscht einen Datensatz im DROPMALFORMED-Modus und schlägt direkt im FAILFAST-Modus fehl.
    • Verbesserung der Leistung inkrementeller Updates mit SHALLOW CLONE Iceberg und Parquet.
    • Es wurde ein Problem im Autoloader behoben, bei dem verschiedene Quelldateiformate inkonsistent waren, wenn das bereitgestellte Schema keine abgeleiteten Partitionen enthielt. Dieses Problem kann beim Lesen von Dateien mit fehlenden Spalten im abgeleiteten Partitionsschema zu unerwarteten Fehlern führen.
    • [SPARK-43404] Überspringen der Wiederverwendung der SST-Datei für dieselbe Version des RocksDB-Zustandsspeichers, um den ID-Übereinstimmungsfehler zu vermeiden
    • [SPARK-43527] catalog.listCatalogs in PySpark korrigiert.
    • [SPARK-43413][11.3-13.0] ListQuery-NULL-Zulässigkeit der IN-Unterabfrage korrigiert.
    • [SPARK-43340] Fehlendes Stapelablaufverfolgungsfeld in Ereignisprotokollen korrigiert.

Databricks Runtime 10.4 LTS

Weitere Informationen finden Sie unter Databricks Runtime 10.4 LTS.

  • 10. September 2024
    • [SPARK-49065][SQL] Rebasing in Legacy-Formatierern/Parsern muss Zeitzonen unterstützen, die nicht dem JVM-Standard entsprechen
  • 20. August 2024
    • [SPARK-48597][SQL] Einführung einer Markierung für isStreaming-Eigenschaft in der Textdarstellung eines logischen Plans
    • [SPARK-48941][SPARK-48970] Backport ML writer / Korrekturen der Sprachausgabe
    • [SPARK-48463][ML] Erstellen von StringIndexer zur Unterstützung geschachtelter Eingabespalten
  • 7. August 2024
  • 11. Juli 2024
    • [SPARK-48383][SS] Ausgeben eines besseren Fehlers für nicht übereinstimmende Partitionen in der startOffset-Option in Kafka
    • Updates der Betriebssystemsicherheit.
  • 17. Juni 2024
    • Updates der Betriebssystemsicherheit.
  • 21. Mai 2024
    • [SPARK-48105][SS] Beheben der Racebedingung zwischen Entladung des Zustandsspeichers und Momentaufnahmen
    • Updates der Betriebssystemsicherheit.
  • 9. Mai 2024
    • [SPARK-48018][SS] Behebung von groupId „NULL“, die einen Fehler für fehlenden Parameter auslöst, wenn KafkaException.couldNotReadOffsetRange ausgelöst wird
    • [SPARK-47973][CORE] Protokollaufrufwebsite in SparkContext.stop() und später in SparkContext.assertNotStopped()
    • [SPARK-44251][SQL] Korrektes Festlegen von „Nullwerte zulassend“ bei zusammengeführtem Joinschlüssel in vollständigem äußerem USING-Join
    • Updates der Betriebssystemsicherheit.
  • 25. April 2024
    • Updates der Betriebssystemsicherheit.
  • 11. April 2024
    • Updates der Betriebssystemsicherheit.
  • 1. April 2024
    • [SPARK-47135][SS] Implementieren von Fehlerklassen für Kafka-Datenverlustausnahmen
    • [SPARK-44252][SS] Definieren einer neuen Fehlerklasse, und verwenden für den Fall, in dem der Ladezustand von DFS fehlschlägt
    • [SPARK-47200][SS] Fehlerklasse für ForEachBatchSink-Benutzerfunktionsfehler
    • Zurücksetzen von „[SPARK-46861][CORE] Deadlock in DAGScheduler vermeiden“
    • Updates der Betriebssystemsicherheit.
  • 14. März 2024
    • [SPARK-47125][SQL] Zurückgeben von NULL, wenn Univocity niemals die Analyse auslöst
    • Updates der Betriebssystemsicherheit.
  • 29. Februar 2024
    • Es wurde ein Problem behoben, bei dem die Verwendung einer lokalen Sammlung als Quelle in einem MERGE-Befehl dazu führen konnte, dass die Vorgangsmetrik numSourceRows die korrekte Anzahl von Zeilen verdoppelt.
    • [SPARK-45582][SS] Sicherstellen, dass die Speicherinstanz nach dem Aufrufen des Commits innerhalb der Streamingaggregation im Ausgabemodus nicht verwendet wird
    • Updates der Betriebssystemsicherheit.
  • 13. Februar 2024
    • [SPARK-46861] Vermeiden Sie Deadlock in DAGScheduler.
    • Updates der Betriebssystemsicherheit.
  • 31. Januar 2024
    • Updates der Betriebssystemsicherheit.
  • 25. Dezember 2023
    • Um eine erhöhte Wartezeit bei der Kommunikation über TLSv1.3 zu vermeiden, enthält dieser Wartungsrelease einen Patch für die JDK 8-Installation, um den JDK-Fehler JDK-8293562 zu beheben.
    • [SPARK-46058] Hinzufügen eines separaten Flags für privateKeyPassword.
    • [SPARK-46538] Beheben des Problems mit mehrdeutigen Spaltenverweisen in ALSModel.transform.
    • [SPARK-39440] Hinzufügen einer Konfiguration, um die Ereigniszeitachse zu deaktivieren.
    • [SPARK-46132] Unterstützung für Schlüsselkennwort für JKS-Schlüssel für RPC-SSL.
  • 14. Dezember 2023
    • Updates der Betriebssystemsicherheit.
  • 29. November 2023
    • Installiert ein neues Paket pyarrow-hotfix, um eine PyArrow RCE-Sicherheitsanfälligkeit zu beheben.
    • [SPARK-45544] SSL-Unterstützung in TransportContext integriert.
    • [SPARK-45859] UDF-Objekte in ml.functions wurden als verzögert festgelegt.
    • [SPARK-43718] NULL-Zulässigkeit für Schlüssel in USING-Verknüpfungen korrigiert.
    • [SPARK-45730] Zeiteinschränkungen für ReloadingX509TrustManagerSuite verbessert.
    • [SPARK-42205] Protokollierung von Accumulables in Startereignissen vom Typ „Stage“ und „Task“ entfernt.
    • [SPARK-44846] Komplexe Gruppierungsausdrücke nach RemoveRedundantAggregates entfernt.
    • Updates der Betriebssystemsicherheit.
  • 14. November 2023
    • [SPARK-45541] SSLFactory hinzugefügt.
    • [SPARK-45545] SparkTransportConf erbt SSLOptions bei der Erstellung.
    • [SPARK-45427] RPC-SSL-Einstellungen zu SSLOptions und SparkTransportConf hinzugefügt.
    • [SPARK-45429] Hilfsklassen für die SSL-RPC-Kommunikation hinzugefügt.
    • [SPARK-45584] Fehler beim Ausführen von Unterabfragen mit TakeOrderedAndProjectExec behoben.
    • Rückgängig gemacht: [SPARK-33861].
    • Updates der Betriebssystemsicherheit.
  • 24. Oktober 2023
    • [SPARK-45426] Unterstützung für ReloadingX509TrustManager hinzugefügt.
    • Updates der Betriebssystemsicherheit.
  • 13. Oktober 2023
    • [SPARK-45084] StateOperatorProgress für die Verwendung einer korrekten, angemessenen Shuffle-Partitionsnummer
    • [SPARK-45178] Fallback zum Ausführen eines einzelnen Batches für Trigger.AvailableNow mit nicht unterstützte Quellen anstelle von Wrappern
    • Updates der Betriebssystemsicherheit.
  • 10. September 2023
    • Verschiedene Korrekturen
  • 30. August 2023
    • [SPARK-44818] Race für ausstehende Aufgabenunterbrechung behoben, der ausgegeben wird, bevor taskThread initialisiert wird.
    • Updates der Betriebssystemsicherheit.
  • 15. August 2023
    • [SPARK-44504] Wartungsaufgabe bereinigt geladene Anbieter bei Stoppfehler.
    • [SPARK-43973] Die Benutzeroberfläche für strukturiertes Streaming zeigt jetzt fehlerhafte Abfragen ordnungsgemäß an.
    • Updates der Betriebssystemsicherheit.
  • 23. Juni 2023
    • Updates der Betriebssystemsicherheit.
  • 15. Juni 2023
    • Für die Snowflake-JDBC-Bibliothek wird ein Upgrade auf 3.13.29 durchgeführt, um ein Sicherheitsproblem zu beheben.
    • [SPARK-43098] Korrektur der Richtigkeit von „COUNT bug“, wenn die skalare Unterabfrage eine group by-Klausel aufweist
    • [SPARK-40862] Unterstützung nicht aggregierter Unterabfragen in RewriteCorrelatedScalarSubquery
    • [SPARK-43156][SPARK-43098] Skalare Unterabfrage zum Testen der Fehleranzahl mit Deaktivierung von decorrelateInnerQuery erweitert.
    • Updates der Betriebssystemsicherheit.
  • 2. Juni 2023
    • Der JSON-Parser im failOnUnknownFields-Modus löscht einen Datensatz im DROPMALFORMED-Modus und schlägt direkt im FAILFAST-Modus fehl.
    • Es wurde ein Problem bei der JSON-Analyse von Daten behoben, um UnknownFieldException zu verhindern.
    • Es wurde ein Problem im Autoloader behoben, bei dem verschiedene Quelldateiformate inkonsistent waren, wenn das bereitgestellte Schema keine abgeleiteten Partitionen enthielt. Dieses Problem kann beim Lesen von Dateien mit fehlenden Spalten im abgeleiteten Partitionsschema zu unerwarteten Fehlern führen.
    • [SPARK-43404] Überspringen der Wiederverwendung der SST-Datei für dieselbe Version des RocksDB-Zustandsspeichers, um den ID-Übereinstimmungsfehler zu vermeiden
    • [SPARK-43413] ListQuery-NULL-Zulässigkeit der IN-Unterabfrage korrigiert.
    • Updates der Betriebssystemsicherheit.
  • 17. Mai 2023
    • Parquet-Scans sind jetzt stabil gegen OOMs beim Scannen außergewöhnlich strukturierter Dateien durch dynamische Anpassung der Batchgröße. Dateimetadaten werden analysiert, um die Batchgröße präventiv zu verringern und bei Vorgangsversuchen als endgültiges Sicherheitsnetz erneut zu verringern.
    • [SPARK-41520] Aufteilen des AND_OR-Strukturmusters, um AND und OR zu trennen.
    • [SPARK-43190] ListQuery.childOutput ist jetzt mit der sekundären Ausgabe konsistent.
    • Updates der Betriebssystemsicherheit.
  • 25. April 2023
    • [SPARK-42928] resolvePersistentFunction sychronisieren.
    • Updates der Betriebssystemsicherheit.
  • 11. April 2023
    • Es wurde ein Problem behoben, bei dem die Autoloader-Schemaentwicklung zu einer endlosen Fehlerschleife führen kann, wenn eine neue Spalte im Schema eines geschachtelten JSON-Objekts erkannt wird.
    • [SPARK-42937] PlanSubqueries legt jetzt InSubqueryExec#shouldBroadcast auf „true“ fest.
    • [SPARK-42967] Korrigieren von SparkListenerTaskStart.stageAttemptId, wenn eine Aufgabe gestartet wird, nachdem die Phase abgebrochen wurde.
  • 29. März 2023
    • [SPARK-42668] Ausnahmeerfassung beim Versuch, den komprimierten Datenstrom in HDFSStateStoreProvider-Beendigung zu schließen
    • [SPARK-42635] Fehlerbehebung für...
    • Updates der Betriebssystemsicherheit.
  • 14. März 2023
    • [SPARK-41162] Korrigieren von Antiverknüpfung und halbe Verknüpfung für Selbstverknüpfung mit Aggregationen
    • [SPARK-33206] Berechnung der Gewichtung bei gemischten Indexcaches für kleine Indexdateien korrigieren
    • [SPARK-42484] Fehlermeldung für UnsafeRowUtils verbessert
    • Verschiedene Korrekturen
  • 28. Februar 2023
    • Unterstützung generierter Spalte für das date_format „yyyy-MM-dd“. Durch diese Änderung wird die Partitionsbereinigung für „yyyy-MM-dd“ als date_format in generierten Spalten unterstützt.
    • Benutzer*innen können jetzt mithilfe von Databricks Runtime 9.1 LTS oder höher bestimmte Delta-Tabellen lesen und schreiben, die Readerversion 3 und Writerversion 7 erfordern. Um erfolgreich zu sein, müssen Tabellenfunktionen, die im Tabellenprotokoll aufgeführt sind, von der aktuellen Version von Databricks Runtime unterstützt werden.
    • Unterstützung generierter Spalte für das date_format „yyyy-MM-dd“. Durch diese Änderung wird die Partitionsbereinigung für „yyyy-MM-dd“ als date_format in generierten Spalten unterstützt.
    • Updates der Betriebssystemsicherheit.
  • 16. Februar 2023
    • [SPARK-30220] Aktivieren der Verwendung von Exists/In-Unterabfragen außerhalb des Knotenfilters
    • Updates der Betriebssystemsicherheit.
  • 31. Januar 2023
    • Tabellentypen von JDBC-Tabellen sind jetzt standardmäßig EXTERNAL.
  • 18. Januar 2023
    • Azure Synapse-Connector gibt jetzt eine aussagekräftigere Fehlermeldung zurück, wenn ein Spaltenname ungültige Zeichen wie Leerzeichen oder Semikolons enthält. In solchen Fällen wird die folgende Meldung zurückgegeben: Azure Synapse Analytics failed to run the JDBC query produced by the connector. Check column names do not include not valid characters such as ';' or white space.
    • [SPARK-38277] Löschen des Schreibbatches nach dem Commit des RocksDB-Zustandsspeichers
    • [SPARK-41199] Beheben des Metrikproblems, wenn DSv1- und DSv2-Streamingquelle gemeinsam verwendet werden
    • [SPARK-41198] Korrektur von Metriken in Streamingabfragen mit CTE- und DSv1-Streamingquelle.
    • [SPARK-41339] Schließen und Neuerstellen des RocksDB-Schreibbatches (anstatt nur Löschen).
    • [SPARK-41732] Anwenden der baumstrukturbasierten Bereinigung für die Regel „SessionWindowing“.
    • Updates der Betriebssystemsicherheit.
  • 29. November 29 2022
    • Benutzer können das Verhalten führender und nachgestellter Leerzeichen beim Schreiben von Daten mithilfe des Redshift-Connectors konfigurieren. Die folgenden Optionen wurden hinzugefügt, um die Verarbeitung von Leerzeichen zu steuern:
      • Wenn csvignoreleadingwhitespace auf true festgelegt ist, entfernt dies führende Leerzeichen von Werten während Schreibvorgängen, wenn tempformat auf CSV oder CSV GZIP festgelegt ist. Leerzeichen werden beibehalten, wenn die Konfiguration auf false festgelegt ist. Standardmäßig lautet der Wert true.
      • Wenn csvignoretrailingwhitespace auf true festgelegt ist, entfernt dies nachgestellte Leerzeichen von Werten während Schreibvorgängen, wenn tempformat auf CSV oder CSV GZIP festgelegt ist. Leerzeichen werden beibehalten, wenn die Konfiguration auf false festgelegt ist. Standardmäßig lautet der Wert true.
    • Ein Problem bei der JSON-Analyse im Autoloader wurde behoben, wenn alle Spalten als Zeichenfolgen belassen wurden (cloudFiles.inferColumnTypes nicht festgelegt oder auf false festgelegt) und der JSON-Code geschachtelte Objekte enthielt.
    • Updates der Betriebssystemsicherheit.
  • 15. November 2022
    • Apache commons-text wurde auf 1.10.0 aktualisiert.
    • [SPARK-40646] Probleme bei der JSON-Analyse für Strukturen, Zuordnungen und Arrays wurden behoben. Wenn also ein Teil eines Datensatzes nicht mit dem Schema übereinstimmt, kann der Rest des Datensatzes weiterhin ordnungsgemäß geparst werden, anstatt dass NULL-Werte zurückgeben werden. Um das verbesserte Verhalten zu nutzen, legen Sie spark.sql.json.enablePartialResults auf true fest. Das Flag ist standardmäßig deaktiviert, um das ursprüngliche Verhalten beizubehalten.
    • [SPARK-40292] Korrigieren von Spaltennamen in der arrays_zip-Funktion, wenn aus geschachtelten Strukturen auf Arrays verwiesen wird
    • Updates der Betriebssystemsicherheit.
  • 1. November 2022
    • Ein Problem wurde behoben, das zu Folgendem führte: Wenn eine Delta-Tabelle eine benutzerdefinierte Spalte mit dem Namen _change_type enthielt, aber Datenfeed ändern für diese Tabelle deaktiviert war, wurden die Daten in dieser Spalte bei Ausführung von MERGE fälschlicherweise mit NULL-Werten gefüllt.
    • Es wurde ein Problem mit dem Autoloader behoben, bei dem eine Datei in demselben Mikrobatch dupliziert werden konnte, wenn allowOverwrites aktiviert war
    • [SPARK-40697] Ein schreibseitiger Zeichenabstand zum Abdecken externer Datendateien wurde hinzugefügt.
    • [SPARK-40596] Füllt ExecutorDecommission mit Nachrichten in ExecutorDecommissionInfo auf.
    • Updates der Betriebssystemsicherheit.
  • 18. Oktober 2022
    • Updates der Betriebssystemsicherheit.
  • 5. Oktober 2022
    • [SPARK-40468] Beheben der Spaltenbereinigung in CSV, wenn _corrupt_record ausgewählt ist.
    • Updates der Betriebssystemsicherheit.
  • 22. September 2022
    • Benutzer*innen können „spark.conf.set(spark.databricks.io.listKeysWithPrefix.azure.enabled, true)“ festlegen, um die integrierte Auflistung für Autoloader in ADLS Gen2 erneut zu aktivieren. Die integrierte Auflistung wurde zuvor aufgrund von Leistungsproblemen deaktiviert, kann aber zu höheren Speicherkosten für Kunden geführt haben.
    • [SPARK-40315] Hinzufügen von hashCode() für Literal von ArrayBasedMapData
    • [SPARK-40213] Unterstützung der ASCII-Wertkonvertierung für Latin-1-Zeichen
    • [SPARK-40380] Korrektur der Konstantenfaltung von InvokeLike, um in den Plan eingebettete nicht serialisierbare Literale zu vermeiden
    • [SPARK-38404] Verbessern der CTE-Auflösung, wenn ein geschachtelter CTE auf einen äußeren CTE verweist
    • [SPARK-40089] Korrektur der Sortierung für einige Dezimaltypen
    • [SPARK-39887] RemoveRedundantAliases sollte Aliase beibehalten, die die Ausgabe von Projektionsknoten eindeutig machen
  • 6. September 2022
    • [SPARK-40235] Verwenden einer unterbrechbaren Sperre anstelle einer synchronisierten in Executor.updateDependencies().
    • [SPARK-40218] GROUPING SETS muss die Gruppierungsspalten beibehalten.
    • [SPARK-39976] ArrayIntersect muss NULL-Werte im linken Ausdruck ordnungsgemäß behandeln.
    • [SPARK-40053] Hinzufügen von assume für Fälle mit dynamischem Abbruch, welche die Python-Runtimeumgebung benötigen.
    • [SPARK-35542] Korrektur: Bucketizer, der für mehrere Spalten mit den Parametern „splitsArray“, „inputCols“ und „outputCols“ erstellt wurde, kann nach dem Speichern nicht geladen werden.
    • [SPARK-40079] Imputer-inputCols-Validierung für leeren Eingabefall hinzugefügt.
  • 24. August 2022
    • [SPARK-39983] Keine Zwischenspeicherung von nicht serialisierten Übertragungsbeziehungen auf dem Treiber.
    • [SPARK-39775] Deaktivieren validierter Standardwerte beim Analysieren von Avro-Schemas.
    • [SPARK-39962] Projektion anwenden, wenn Gruppenattribute leer sind
    • [SPARK-37643] Wenn charVarcharAsString WAHR ist, sollte die Abfrage für das Datentypprädikat char die rpadding-Regel überspringen.
    • Updates der Betriebssystemsicherheit.
  • 9. August 2022
    • [SPARK-39847] Beheben einer Racebedingung in RocksDBLoader.loadLibrary(), wenn der Thread des Aufrufers unterbrochen wird
    • [SPARK-39731] Beheben eines Problems in CSV- und JSON-Datenquellen beim Analysieren von Daten im Format „jjjjMMtt“ mit der CORRECTED-Zeitparserrichtlinie
    • Updates der Betriebssystemsicherheit.
  • 27. Juli 2022
    • [SPARK-39625] Hinzufügen von Dataset.as(StructType).
    • [SPARK-39689] Unterstützung von 2-Zeichen-lineSep in CSV-Datenquelle.
    • [SPARK-39104] InMemoryRelation#isCachedColumnBuffersLoaded sollte threadsicher sein.
    • [SPARK-39570] Inline-Tabelle sollte Ausdrücke mit Alias zulassen.
    • [SPARK-39702] Verringern des Arbeitsspeicheroverheads von TransportCipher$EncryptedMessage mithilfe eines freigegebenen byteRawChannel.
    • [SPARK-39575] Hinzufügen von ByteBuffer#rewind nach ByteBuffer#get in AvroDeserializer.
    • [SPARK-39476] Deaktivieren der Aufhebung des Umbruchs der Umwandlungsoptimierung beim Umwandeln von Long zu Float/Double oder von Integer zu Float.
    • [SPARK-38868] Ausnahmen von Filterprädikaten beim Optimieren äußerer Verknüpfungen nicht propagieren.
    • Updates der Betriebssystemsicherheit.
  • 20. Juli 2022
    • Machen Sie die Ergebnisse von Deltazusammenführungsvorgängen (MERGE) konsistent, wenn die Quelle nicht deterministisch ist.
    • [SPARK-39355] Einzelne Spalte verwendet Anführungszeichen zum Konstruieren von UnresolvedAttribute.
    • [SPARK-39548] Beim CreateView-Befehl mit einer Fensterklauselabfrage führt zu einem falschen Problem „Fensterdefinition nicht gefunden“.
    • [SPARK-39419] Beheben von ArraySort, um eine Ausnahme auszulösen, wenn der Vergleichsoperator NULL zurückgibt.
    • Die Verwendung integrierter Cloud-APIs durch Autoloader für die Verzeichnisauflistung in Azure wurde deaktiviert.
    • Updates der Betriebssystemsicherheit.
  • 5. Juli 2022
    • [SPARK-39376] Ausblenden doppelter Spalten in der Sternerweiterung des Unterabfragealias von NATURAL/USING JOIN
    • Updates der Betriebssystemsicherheit.
  • 15. Juni 2022
    • [SPARK-39283] Beheben des Deadlock zwischen TaskMemoryManager und UnsafeExternalSorter.SpillableIterator.
    • [SPARK-39285] Spark sollte beim Lesen von Dateien keine Feldnamen überprüfen.
    • [SPARK-34096] Leistungsverbesserung für Fenster „nth_value: IGNORE NULLS über OFFSET“.
    • [SPARK-36718] Beheben der isExtractOnly-Überprüfung in CollapseProject.
  • 2. Juni 2022
    • [SPARK-39093] Codegen-Kompilierungsfehler beim Aufteilen von Jahr-Monat- oder Tag-Uhrzeit-Intervallen durch ein Integral vermeiden.
    • [SPARK-38990] NullPointerException beim Auswerten des date_trunc/trunc-Formats als gebundener Verweis vermeiden.
    • Updates der Betriebssystemsicherheit.
  • 18. Mai 2022
    • Behebt einen potenziellen Arbeitsspeicherverlust im Autoloader.
    • [SPARK-38918] Bei der Bereinigung geschachtelter Spalten sollten Attribute herausgefiltert werden, die nicht zur aktuellen Beziehung gehören.
    • [SPARK-37593] Standardseitengröße um LONG_ARRAY_OFFSET reduzieren, wenn G1GC und ON_HEAP verwendet werden.
    • [SPARK-39084] Beheben von df.rdd.isEmpty() mithilfe von TaskContext zum Beenden des Iterators beim Abschluss der Aufgabe.
    • [SPARK-32268] Hinzufügen von ColumnPruning in injectBloomFilter.
    • [SPARK-38974] Filtern registrierter Funktionen mit einem bestimmten Datenbanknamen in LIST-Funktionen.
    • [SPARK-38931] Erstellen eines Stamm-DFS-Verzeichnisses für RocksDBFileManager mit einer unbekannten Anzahl von Schlüsseln am 1. Prüfpunkt.
    • Updates der Betriebssystemsicherheit.
  • 19. April 2022
    • Java AWS SDK von Version 1.11.655 auf 1.12.1899 aktualisiert.
    • Es wurde ein Problem mit Notebookbibliotheken behoben, die in Batchstreamingaufträgen nicht funktionierten.
    • [SPARK-38616] SQL-Abfragetext in Catalyst TreeNode nachverfolgen
    • Updates der Betriebssystemsicherheit.
  • 6. April 2022
    • Die folgenden Spark SQL-Funktionen sind in diesem Release verfügbar:
      • timestampadd() und dateadd(): Zeitdauer in einer angegebenen Einheit zu einem Zeitstempelausdruck hinzufügen
      • timestampdiff() und datediff(): Zeitunterschied zwischen zwei Zeitstempelausdrücken in einer angegebenen Einheit berechnen
    • Parquet-MR auf 1.12.2 aktualisiert
    • Unterstützung für umfassende Schemas in Parquet-Dateien verbessert
    • [SPARK-38631] Verwendet Java-basierte Implementierung zum Entpacken bei Utils.unpack.
    • [SPARK-38509][SPARK-38481] Cherrypicking für drei timestmapadd/diff-Änderungen
    • [SPARK-38523] Beheben des Verweises auf beschädigte Datensatzspalte in CSV.
    • [SPARK-38237] ClusteredDistribution erlauben, vollständige Clusteringschlüssel zu erfordern.
    • [SPARK-38437] Milde Serialisierung von datetime-Werten aus der Datenquelle.
    • [SPARK-38180] Zulassen sicherer Umwandlungsausdrücke in korrelierten Gleichheitsprädikaten.
    • [SPARK-38155] Verbieten eindeutiger Aggregate in lateralen Unterabfragen mit nicht unterstützten Prädikaten.
    • Updates der Betriebssystemsicherheit.

Databricks Runtime 9.1 LTS

Siehe Databricks Runtime 9.1 LTS.

  • 10. September 2024
    • [SPARK-49065][SQL] Rebasing in Legacy-Formatierern/Parsern muss Zeitzonen unterstützen, die nicht dem JVM-Standard entsprechen
  • 20. August 2024
  • 7. August 2024
    • Updates der Betriebssystemsicherheit.
  • 11. Juli 2024
    • Updates der Betriebssystemsicherheit.
  • 17. Juni 2024
    • Updates der Betriebssystemsicherheit.
  • 21. Mai 2024
    • [SPARK-48105][SS] Beheben der Racebedingung zwischen Entladung des Zustandsspeichers und Momentaufnahmen
    • Updates der Betriebssystemsicherheit.
  • 9. Mai 2024
    • [SPARK-47973][CORE] Protokollaufrufwebsite in SparkContext.stop() und später in SparkContext.assertNotStopped()
    • [SPARK-44251][SQL] Korrektes Festlegen von „Nullwerte zulassend“ bei zusammengeführtem Joinschlüssel in vollständigem äußerem USING-Join
    • Updates der Betriebssystemsicherheit.
  • 25. April 2024
    • Verschiedene Fehlerbehebungen
  • 11. April 2024
    • Updates der Betriebssystemsicherheit.
  • 1. April 2024
    • Zurücksetzen von „[SPARK-46861][CORE] Deadlock in DAGScheduler vermeiden“
    • Updates der Betriebssystemsicherheit.
  • 14. März 2024
    • Updates der Betriebssystemsicherheit.
  • 29. Februar 2024
    • Es wurde ein Problem behoben, bei dem die Verwendung einer lokalen Sammlung als Quelle in einem MERGE-Befehl dazu führen konnte, dass die Vorgangsmetrik numSourceRows die korrekte Anzahl von Zeilen verdoppelt.
    • Updates der Betriebssystemsicherheit.
  • 13. Februar 2024
    • [SPARK-46861] Vermeiden Sie Deadlock in DAGScheduler.
    • Updates der Betriebssystemsicherheit.
  • 31. Januar 2024
    • Updates der Betriebssystemsicherheit.
  • 25. Dezember 2023
    • Um eine erhöhte Wartezeit bei der Kommunikation über TLSv1.3 zu vermeiden, enthält dieser Wartungsrelease einen Patch für die JDK 8-Installation, um den JDK-Fehler JDK-8293562 zu beheben.
    • [SPARK-46058] Hinzufügen eines separaten Flags für privateKeyPassword.
    • [SPARK-39440] Hinzufügen einer Konfiguration, um die Ereigniszeitachse zu deaktivieren.
    • [SPARK-46132] Unterstützung für Schlüsselkennwort für JKS-Schlüssel für RPC-SSL.
  • 14. Dezember 2023
    • Updates der Betriebssystemsicherheit.
  • 29. November 2023
    • Installiert ein neues Paket pyarrow-hotfix, um eine PyArrow RCE-Sicherheitsanfälligkeit zu beheben.
    • [SPARK-45859] UDF-Objekte in ml.functions wurden als verzögert festgelegt.
    • [SPARK-45544] SSL-Unterstützung in TransportContext integriert.
    • [SPARK-45730] Zeiteinschränkungen für ReloadingX509TrustManagerSuite verbessert.
    • Updates der Betriebssystemsicherheit.
  • 14. November 2023
    • [SPARK-45545] SparkTransportConf erbt SSLOptions bei der Erstellung.
    • [SPARK-45429] Hilfsklassen für die SSL-RPC-Kommunikation hinzugefügt.
    • [SPARK-45427] RPC-SSL-Einstellungen zu SSLOptions und SparkTransportConf hinzugefügt.
    • [SPARK-45584] Fehler beim Ausführen von Unterabfragen mit TakeOrderedAndProjectExec behoben.
    • [SPARK-45541] SSLFactory hinzugefügt.
    • [SPARK-42205] Protokollierung von Accumulables in Startereignissen vom Typ „Stage“ und „Task“ entfernt.
    • Updates der Betriebssystemsicherheit.
  • 24. Oktober 2023
    • [SPARK-45426] Unterstützung für ReloadingX509TrustManager hinzugefügt.
    • Updates der Betriebssystemsicherheit.
  • 13. Oktober 2023
    • Updates der Betriebssystemsicherheit.
  • 10. September 2023
    • Verschiedene Korrekturen
  • 30. August 2023
    • Updates der Betriebssystemsicherheit.
  • 15. August 2023
    • Updates der Betriebssystemsicherheit.
  • 23. Juni 2023
    • Für die Snowflake-JDBC-Bibliothek wird ein Upgrade auf 3.13.29 durchgeführt, um ein Sicherheitsproblem zu beheben.
    • Updates der Betriebssystemsicherheit.
  • 15. Juni 2023
    • [SPARK-43098] Beheben der Richtigkeit des COUNT-Fehlers, wenn die skalare Unterabfrage eine „gruppieren nach“-Klausel aufweist.
    • [SPARK-43156][SPARK-43098] Skalare Unterabfrage zum Testen der Fehleranzahl mit Deaktivierung von decorrelateInnerQuery erweitern
    • [SPARK-40862] Unterstützung nicht aggregierter Unterabfragen in RewriteCorrelatedScalarSubquery.
    • Updates der Betriebssystemsicherheit.
  • 2. Juni 2023
    • Der JSON-Parser im failOnUnknownFields-Modus löscht einen Datensatz im DROPMALFORMED-Modus und schlägt direkt im FAILFAST-Modus fehl.
    • Es wurde ein Problem bei der JSON-Analyse von Daten behoben, um UnknownFieldException zu verhindern.
    • Es wurde ein Problem im Autoloader behoben, bei dem verschiedene Quelldateiformate inkonsistent waren, wenn das bereitgestellte Schema keine abgeleiteten Partitionen enthielt. Dieses Problem kann beim Lesen von Dateien mit fehlenden Spalten im abgeleiteten Partitionsschema zu unerwarteten Fehlern führen.
    • [SPARK-37520] Hinzufügen der Zeichenfolgenfunktionen startswith() und endswith()
    • [SPARK-43413] ListQuery-NULL-Zulässigkeit der IN-Unterabfrage korrigiert.
    • Updates der Betriebssystemsicherheit.
  • 17. Mai 2023
    • Updates der Betriebssystemsicherheit.
  • 25. April 2023
    • Updates der Betriebssystemsicherheit.
  • 11. April 2023
    • Es wurde ein Problem behoben, bei dem die Autoloader-Schemaentwicklung zu einer endlosen Fehlerschleife führen kann, wenn eine neue Spalte im Schema eines geschachtelten JSON-Objekts erkannt wird.
    • [SPARK-42967] Korrigieren von SparkListenerTaskStart.stageAttemptId, wenn eine Aufgabe gestartet wird, nachdem die Phase abgebrochen wurde.
  • 29. März 2023
    • Updates der Betriebssystemsicherheit.
  • 14. März 2023
    • [SPARK-42484] Fehlermeldung für UnsafeRowUtils verbessert
    • Verschiedene Korrekturen
  • 28. Februar 2023
    • Benutzer*innen können jetzt mithilfe von Databricks Runtime 9.1 LTS oder höher bestimmte Delta-Tabellen lesen und schreiben, die Readerversion 3 und Writerversion 7 erfordern. Um erfolgreich zu sein, müssen Tabellenfunktionen, die im Tabellenprotokoll aufgeführt sind, von der aktuellen Version von Databricks Runtime unterstützt werden.
    • Updates der Betriebssystemsicherheit.
  • 16. Februar 2023
    • Updates der Betriebssystemsicherheit.
  • 31. Januar 2023
    • Tabellentypen von JDBC-Tabellen sind jetzt standardmäßig EXTERNAL.
  • 18. Januar 2023
    • Updates der Betriebssystemsicherheit.
  • 29. November 29 2022
    • Ein Problem bei der JSON-Analyse im Autoloader wurde behoben, wenn alle Spalten als Zeichenfolgen belassen wurden (cloudFiles.inferColumnTypes nicht festgelegt oder auf false festgelegt) und der JSON-Code geschachtelte Objekte enthielt.
    • Updates der Betriebssystemsicherheit.
  • 15. November 2022
    • Apache commons-text wurde auf 1.10.0 aktualisiert.
    • Updates der Betriebssystemsicherheit.
    • Verschiedene Korrekturen
  • 1. November 2022
    • Ein Problem wurde behoben, das zu Folgendem führte: Wenn eine Delta-Tabelle eine benutzerdefinierte Spalte mit dem Namen _change_type enthielt, aber Datenfeed ändern für diese Tabelle deaktiviert war, wurden die Daten in dieser Spalte bei Ausführung von MERGE fälschlicherweise mit NULL-Werten gefüllt.
    • Es wurde ein Problem mit dem Autoloader behoben, bei dem eine Datei in demselben Mikrobatch dupliziert werden konnte, wenn allowOverwrites aktiviert war
    • [SPARK-40596] Füllt ExecutorDecommission mit Nachrichten in ExecutorDecommissionInfo auf.
    • Updates der Betriebssystemsicherheit.
  • 18. Oktober 2022
    • Updates der Betriebssystemsicherheit.
  • 5. Oktober 2022
    • Verschiedene Korrekturen
    • Updates der Betriebssystemsicherheit.
  • 22. September 2022
    • Benutzer*innen können „spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true")“ festlegen, um die integrierte Auflistung Listing für Autoloader in ADLS Gen2 erneut zu aktivieren. Die integrierte Auflistung wurde zuvor aufgrund von Leistungsproblemen deaktiviert, kann aber zu höheren Speicherkosten für Kunden geführt haben.
    • [SPARK-40315] Hinzufügen von hashCode() für Literal von ArrayBasedMapData
    • [SPARK-40089] Korrektur der Sortierung für einige Dezimaltypen
    • [SPARK-39887] RemoveRedundantAliases sollte Aliase beibehalten, die die Ausgabe von Projektionsknoten eindeutig machen
  • 6. September 2022
    • [SPARK-40235] Verwenden einer unterbrechbaren Sperre anstelle einer synchronisierten in Executor.updateDependencies()
    • [SPARK-35542] Korrektur: Bucketizer, der für mehrere Spalten mit den Parametern „splitsArray“, „inputCols“ und „outputCols“ erstellt wurde, kann nach dem Speichern nicht geladen werden.
    • [SPARK-40079] Imputer-inputCols-Überprüfung für leeren Eingabefall hinzugefügt
  • 24. August 2022
    • [SPARK-39666] Verwenden Sie UnsafeProjection.create, um spark.sql.codegen.factoryMode in ExpressionEncoder zu berücksichtigen
    • [SPARK-39962] Projektion anwenden, wenn Gruppenattribute leer sind
    • Updates der Betriebssystemsicherheit.
  • 9. August 2022
    • Updates der Betriebssystemsicherheit.
  • 27. Juli 2022
    • Machen Sie die Ergebnisse von Deltazusammenführungsvorgängen (MERGE) konsistent, wenn die Quelle nicht deterministisch ist.
    • [SPARK-39689] Unterstützung für lineSep mit zwei Zeichen in CSV-Datenquelle
    • [SPARK-39575] ByteBuffer#rewind nach ByteBuffer#get in AvroDeserializer hinzugefügt.
    • [SPARK-37392] Der Leistungsfehler für Catalyst-Optimierer wurde behoben.
    • Updates der Betriebssystemsicherheit.
  • 13. Juli 2022
    • [SPARK-39419] ArraySort löst nun eine Ausnahme aus, wenn der Vergleichsoperator NULL zurückgibt.
    • Die Verwendung integrierter Cloud-APIs durch Autoloader für die Verzeichnisauflistung in Azure wurde deaktiviert.
    • Updates der Betriebssystemsicherheit.
  • 5. Juli 2022
    • Updates der Betriebssystemsicherheit.
    • Verschiedene Korrekturen
  • 15. Juni 2022
    • [SPARK-39283] Beheben eines Deadlocks zwischen TaskMemoryManager und UnsafeExternalSorter.SpillableIterator
  • 2. Juni 2022
    • [SPARK-34554] Implementieren der copy()-Methode in ColumnarMap.
    • Updates der Betriebssystemsicherheit.
  • 18. Mai 2022
    • Potenzieller Arbeitsspeicherverlust im Autoloader korrigiert.
    • Upgrade der AWS SDK-Version von 1.11.655 auf 1.11.678.
    • [SPARK-38918] Bei der Bereinigung geschachtelter Spalten sollten Attribute herausgefiltert werden, die nicht zur aktuellen Beziehung gehören.
    • [SPARK-39084] df.rdd.isEmpty() mithilfe von TaskContext zum Beenden des Iterators für den Vorgangsabschluss korrigiert
    • Updates der Betriebssystemsicherheit.
  • 19. April 2022
    • Updates der Betriebssystemsicherheit.
    • Verschiedene Korrekturen
  • 6. April 2022
    • [SPARK-38631] Verwendet Java-basierte Implementierung zum Entpacken bei Utils.unpack.
    • Updates der Betriebssystemsicherheit.
  • 22. März 2022
    • Auf Clustern mit hoher Parallelität, bei denen entweder die Zugriffssteuerung für Tabellen oder der Passthrough für Anmeldeinformationen aktiviert ist, entspricht das aktuelle Arbeitsverzeichnis der Notebooks jetzt dem Basisverzeichnis der Benutzer*innen. Zuvor war das aktive Verzeichnis /databricks/driver.
    • [SPARK-38437] Vorsichtige Serialisierung von datetime-Werten in der Datenquelle
    • [SPARK-38180] Sichere Umwandlungsausdrücke in korrelierten Gleichheitsprädikaten zulassen
    • [SPARK-38155] Verschiedene Aggregate in lateralen Unterabfragen mit nicht unterstützten Prädikaten verbieten
    • [SPARK-27442] Prüffeld beim Lesen oder Schreiben von Daten in einer Parquet-Datei entfernt.
  • 14. März 2022
    • [SPARK-38236] Absolute Dateipfade, die in „Tabelle erstellen/ändern“ angegeben sind, werden als relativ behandelt.
    • [SPARK-34069] Auftragsthread unterbrechen, wenn die lokale Eigenschaft SPARK_JOB_INTERRUPT_ON_CANCEL auf „true“ festgelegt ist.
  • 23. Februar 2022
    • [SPARK-37859] SQL-Tabellen, die mit JDBC mit Spark 3.1 erstellt wurden, können nicht mit 3.2 gelesen werden.
  • 8. Februar 2022
    • [SPARK-27442] Prüffeld beim Lesen oder Schreiben von Daten in einer Parquet-Datei entfernt.
    • Updates der Betriebssystemsicherheit.
  • 1. Februar 2022
    • Updates der Betriebssystemsicherheit.
  • 26. Januar 2022
    • Ein Problem wurde behoben, bei dem gleichzeitige Transaktionen für Delta-Tabellen unter bestimmten seltenen Bedingungen in einer nicht serialisierbaren Reihenfolge committet werden konnten.
    • Ein Problem wurde behoben, bei dem der OPTIMIZE-Befehl u. U. fehlschlug, wenn der ANSI-SQL-Dialekt aktiviert war.
  • 19. Januar 2022
    • Kleinere Fehlerbehebungen und Sicherheitsverbesserungen.
    • Updates der Betriebssystemsicherheit.
  • 4. November 2021
    • Ein Problem wurde behoben, das dazu führen konnte, dass Structured Streaming-Streams mit ArrayIndexOutOfBoundsException fehlschlagen.
    • Es wurde eine Race-Condition behoben, die zu einem Abfragefehler mit einer IOException wie java.io.IOException: No FileSystem for scheme oder die führen konnte, oder die dazu führen konnte, dass Änderungen in sparkContext.hadoopConfiguration in Abfragen nicht wirksam wurden.
    • Der Apache Spark Connector für die Deltafreigabe wurde auf 0.2.0 aktualisiert.
  • 20. Oktober 2021
    • BigQuery-Connector von 0.18.1 auf 0.22.2 aktualisiert. Dadurch wird Unterstützung für den BigNumeric-Typ hinzugefügt.