Databricks Runtime 14.0 (nicht unterstützt)

Die folgenden Versionshinweise enthalten Informationen zu Databricks Runtime 14.0, unterstützt von Apache Spark 3.5.0.

Databricks hat diese Images im September 2023 veröffentlicht.

Neue Features und Verbesserungen

Predictive I/O für Updates ist allgemein verfügbar (GA).

Predictive I/O für Updates ist jetzt allgemein verfügbar. Siehe Was ist Predictive I/O?.

Löschvektoren sind allgemein verfügbar (GA).

Löschvektoren sind jetzt allgemein verfügbar. Weitere Informationen finden Sie unter Was sind Löschvektoren?.

Spark 3.5.0 ist GA

Apache Spark 3.5.0 ist jetzt allgemein verfügbar. Weitere Informationen finden Sie unterSpark Release 3.5.0.

Öffentliche Vorschau für benutzerdefinierte Tabellenfunktionen für Python

Mit benutzerdefinierten Tabellenfunktionen (User-Defined Table Functions, UDTFs) können Sie Funktionen registrieren, die Tabellen anstelle von Skalarwerten zurückgeben. Siehe Was sind benutzerdefinierte Python-Tabellenfunktionen?.

Öffentliche Vorschau für Parallelität auf Zeilenebene

Parallelität auf Zeilenebene reduziert Konflikte zwischen gleichzeitigen Schreibvorgängen, indem Änderungen auf Zeilenebene erkannt und konkurrierende Änderungen in gleichzeitigen Schreibvorgängen automatisch aufgelöst werden, die unterschiedliche Zeilen in derselben Datendatei aktualisieren oder löschen. Weitere Informationen finden Sie unter Schreibkonflikte mit Parallelität auf Zeilenebene.

Das aktuelle Standardarbeitsverzeichnis hat sich geändert

Das aktuelle Standardarbeitsverzeichnis (Current Working Directory, CWD) für lokal ausgeführten Code ist jetzt das Verzeichnis, das das ausgeführte Notebook oder Skript enthält. Dies umfasst Code wie %sh und Python- oder R-Code, der Spark nicht verwendet. Weitere Informationen finden Sie unter Was ist das aktuelle Standardarbeitsverzeichnis?.

Bekanntes Problem mit sparklyr

Die installierte Version des sparklyr-Pakets (Version 1.8.1) ist nicht kompatibel mit Databricks Runtime 14.0. Um sparklyr zu verwenden, installieren Sie Version 1.8.3 oder höher.

Einführung von Spark Connect in der freigegebenen Clusterarchitektur

Mit Databricks Runtime 14.0 und höher verwenden freigegebene Cluster jetzt standardmäßig Spark Connect mit dem Spark-Treiber aus der Python-REPL. Auf interne Spark-APIs kann nicht mehr über Benutzercode zugegriffen werden.

Spark Connect interagiert jetzt mit dem Spark-Treiber aus der REPL statt mit der älteren REPL-Integration.

Auflisten verfügbarer Spark-Versionen API-Update

Aktivieren Sie Photon durch Festlegen von runtime_engine = PHOTON, und aktivieren Sie aarch64, indem Sie einen Graviton-Instanztyp auswählen. Azure Databricks legt die richtige Databricks-Runtime-Version fest. Zuvor gab die Spark-Versions-API implementierungsspezifische Runtimes für jede Version zurück. Siehe GET /api/2.0/clusters/spark-versions im REST-API-Verweis.

Aktuelle Änderungen

In Databricks Runtime 14.0 und höher verwenden Cluster mit freigegebenem Zugriffsmodus Spark Connect für die Client-Server-Kommunikation. Dies umfasst folgende Änderungen.

Weitere Informationen zu Einschränkungen im Modus für den gemeinsam genutzten Zugriff finden Sie unter Einschränkungen des Computezugriffsmodus für Unity-Katalog.

Python in Clustern mit freigegebenem Zugriffsmodus

  • sqlContext ist nicht verfügbar. Azure Databricks empfiehlt die Verwendung der spark-Variablen für die SparkSession-Instanz.
  • Spark Context (sc) ist in Notebooks oder bei Verwendung von Databricks Connect auf einem Cluster mit freigegebenem Zugriffsmodus nicht mehr verfügbar. Die folgenden sc-Funktionen sind nicht mehr verfügbar:
    • emptyRDD, range, init_batched_serializer, parallelize, pickleFile, textFile, wholeTextFiles, binaryFiles, binaryRecords, sequenceFile, newAPIHadoopFile, newAPIHadoopRDD, hadoopFile, hadoopRDD, union, runJob, setSystemProperty, uiWebUrl, stop, setJobGroup, setLocalProperty, getConf
  • Das Feature „Datasetinformationen“ wird nicht mehr unterstützt.
  • Für das Abfragen von Apache Spark besteht keine Abhängigkeit mehr von JVMs. Daher werden interne APIs im Zusammenhang mit JVMs wie _jsc, _jconf, _jvm, _jsparkSession, _jreader, _jc, _jseq, _jdf, _jmap und _jcols nicht mehr unterstützt.
  • Beim Zugriff auf Konfigurationswerte mithilfe der spark.conf-Datei sind lediglich dynamische Laufzeitkonfigurationswerte verfügbar.
  • Analysebefehle von Delta Live Tables werden für freigegebene Cluster noch nicht unterstützt.

Delta in Clustern mit freigegebenem Zugriffsmodus

  • In Python gibt es beim Abfragen von Apache Spark keine Abhängigkeit mehr von JVM. Interne APIs im Zusammenhang mit JVMs wie DeltaTable._jdt, DeltaTableBuilder._jbuilder, DeltaMergeBuilder._jbuilder und DeltaOptimizeBuilder._jbuilder werden nicht mehr unterstützt.

SQL in Clustern mit freigegebenem Zugriffsmodus

  • DBCACHE- und DBUNCACHE-Befehle werden nicht mehr unterstützt.
  • Seltene Anwendungsfälle wie cache table db as show databases werden nicht mehr unterstützt.

Bibliotheksupgrades

  • Aktualisierte Python-Bibliotheken:
    • asttokens von 2.2.1 auf 2.0.5
    • attrs von 21.4.0 auf 22.1.0
    • botocore von 1.27.28 auf 1.27.96
    • certifi von 2022.9.14 auf 2022.12.7
    • cryptography von 37.0.1 auf 39.0.1
    • debugpy von 1.6.0 auf 1.6.7
    • docstring-to-markdown von 0.12 auf 0.11
    • executing von 1.2.0 auf 0.8.3
    • facets-overview von 1.0.3 auf 1.1.1
    • googleapis-common-protos von 1.56.4 auf 1.60.0
    • grpcio von 1.48.1 auf 1.48.2
    • idna von 3.3 auf 3.4
    • ipykernel von 6.17.1 auf 6.25.0
    • ipython von 8.10.0 auf 8.14.0
    • Jinja2 von 2.11.3 auf 3.1.2
    • jsonschema von 4.16.0 auf 4.17.3
    • jupyter-core von 4.11.2 auf 5.2.0
    • kiwisolver von 1.4.2 auf 1.4.4
    • MarkupSafe von 2.0.1 auf 2.1.1
    • matplotlib von 3.5.2 auf 3.7.0
    • nbconvert von 6.4.4 auf 6.5.4
    • nbformat von 5.5.0 auf 5.7.0
    • nest-asyncio von 1.5.5 auf 1.5.6
    • notebook von 6.4.12 auf 6.5.2
    • numpy von 1.21.5 auf 1.23.5
    • packaging von 21.3 auf 22.0
    • pandas von 1.4.4 auf 1.5.3
    • pathspec von 0.9.0 auf 0.10.3
    • patsy von 0.5.2 auf 0.5.3
    • Pillow von 9.2.0 auf 9.4.0
    • pip von 22.2.2 auf 22.3.1
    • protobuf von 3.19.4 auf 4.24.0
    • pytoolconfig von 1.2.2 auf 1.2.5
    • pytz von 2022.1 auf 2022.7
    • s3transfer von 0.6.0 auf 0.6.1
    • seaborn von 0.11.2 auf 0.12.2
    • setuptools von 63.4.1 auf 65.6.3
    • soupsieve von 2.3.1 auf 2.3.2.post1
    • stack-data von 0.6.2 auf 0.2.0
    • statsmodels von 0.13.2 auf 0.13.5
    • terminado von 0.13.1 auf 0.17.1
    • traitlets von 5.1.1 auf 5.7.1
    • typing_extensions von 4.3.0 auf 4.4.0
    • urllib3 von 1.26.11 auf 1.26.14
    • virtualenv von 20.16.3 auf 20.16.7
    • wheel von 0.37.1 auf 0.38.4
  • Aktualisierte R-Bibliotheken:
    • arrow von 10.0.1 auf 12.0.1
    • base von 4.2.2 auf 4.3.1
    • blob von 1.2.3 auf 1.2.4
    • broom von 1.0.3 bis 1.0.5
    • bslib von 0.4.2 auf 0.5.0
    • cachem von 1.0.6 auf 1.0.8
    • caret von 6.0-93 auf 6.0-94
    • chron von 2.3-59 auf 2.3-61
    • class von 7.3-21 auf 7.3-22
    • cli von 3.6.0 auf 3.6.1
    • clock von 0.6.1 auf 0.7.0
    • commonmark von 1.8.1 auf 1.9.0
    • compiler von 4.2.2 auf 4.3.1
    • cpp11 von 0.4.3 auf 0.4.4
    • curl von 5.0.0 auf 5.0.1
    • data.table von 1.14.6 auf 1.14.8
    • datasets von 4.2.2 auf 4.3.1
    • dbplyr von 2.3.0 auf 2.3.3
    • digest von 0.6.31 auf 0.6.33
    • downlit von 0.4.2 auf 0.4.3
    • dplyr von 1.1.0 auf 1.1.2
    • dtplyr von 1.2.2 auf 1.3.1
    • evaluate von 0.20 auf 0.21
    • fastmap von 1.1.0 auf 1.1.1
    • fontawesome von 0.5.0 auf 0.5.1
    • fs von 1.6.1 auf 1.6.2
    • future von 1.31.0 auf 1.33.0
    • future.apply von 1.10.0 auf 1.11.0
    • gargle von 1.3.0 auf 1.5.1
    • ggplot2 von 3.4.0 auf 3.4.2
    • gh von 1.3.1 auf 1.4.0
    • glmnet von 4.1-6 auf 4.1-7
    • googledrive von 2.0.0 auf 2.1.1
    • googlesheets4 von 1.0.1 auf 1.1.1
    • graphics von 4.2.2 auf 4.3.1
    • grDevices von 4.2.2 auf 4.3.1
    • grid von 4.2.2 auf 4.3.1
    • gtable von 0.3.1 auf 0.3.3
    • hardhat von 1.2.0 auf 1.3.0
    • haven von 2.5.1 auf 2.5.3
    • hms von 1.1.2 auf 1.1.3
    • htmltools von 0.5.4 auf 0.5.5
    • htmlwidgets von 1.6.1 auf 1.6.2
    • httpuv von 1.6.8 auf 1.6.11
    • httr von 1.4.4 auf 1.4.6
    • ipred von 0.9-13 auf 0.9-14
    • jsonlite von 1.8.4 auf 1.8.7
    • KernSmooth von 2.23-20 auf 2.23-21
    • knitr von 1.42 auf 1.43
    • later von 1.3.0 auf 1.3.1
    • lattice von 0.20-45 auf 0.21-8
    • lava von 1.7.1 auf 1.7.2.1
    • lubridate von 1.9.1 auf 1.9.2
    • markdown von 1.5 auf 1.7
    • MASS von 7.3-58.2 auf 7.3-60
    • Matrix von 1.5-1 auf 1.5-4.1
    • methods von 4.2.2 auf 4.3.1
    • mgcv von 1.8-41 auf 1.8-42
    • modelr von 0.1.10 auf 0.1.11
    • nnet von 7.3-18 auf 7.3-19
    • openssl von 2.0.5 auf 2.0.6
    • parallel von 4.2.2 auf 4.3.1
    • parallelly von 1.34.0 auf 1.36.0
    • pillar von 1.8.1 auf 1.9.0
    • pkgbuild von 1.4.0 auf 1.4.2
    • pkgload von 1.3.2 auf 1.3.2.1
    • pROC von 1.18.0 auf 1.18.4
    • processx von 3.8.0 auf 3.8.2
    • prodlim von 2019.11.13 auf 2023.03.31
    • profvis von 0.3.7 auf 0.3.8
    • ps von 1.7.2 auf 1.7.5
    • Rcpp von 1.0.10 auf 1.0.11
    • readr von 2.1.3 auf 2.1.4
    • readxl von 1.4.2 auf 1.4.3
    • recipes von 1.0.4 auf 1.0.6
    • rlang von 1.0.6 auf 1.1.1
    • rmarkdown von 2.20 auf 2.23
    • Rserve von 1.8-12 auf 1.8-11
    • RSQLite von 2.2.20 auf 2.3.1
    • rstudioapi von 0.14 auf 0.15.0
    • sass von 0.4.5 auf 0.4.6
    • shiny von 1.7.4 auf 1.7.4.1
    • sparklyr von 1.7.9 auf 1.8.1
    • SparkR von 3.4.1 auf 3.5.0
    • splines von 4.2.2 auf 4.3.1
    • stats von 4.2.2 auf 4.3.1
    • stats4 von 4.2.2 auf 4.3.1
    • survival von 3.5-3 auf 3.5-5
    • sys von 3.4.1 auf 3.4.2
    • tcltk von 4.2.2 auf 4.3.1
    • testthat von 3.1.6 auf 3.1.10
    • tibble von 3.1.8 auf 3.2.1
    • tidyverse von 1.3.2 auf 2.0.0
    • tinytex von 0.44 auf 0.45
    • tools von 4.2.2 auf 4.3.1
    • tzdb von 0.3.0 auf 0.4.0
    • usethis von 2.1.6 auf 2.2.2
    • utils von 4.2.2 auf 4.3.1
    • vctrs von 0.5.2 auf 0.6.3
    • viridisLite von 0.4.1 auf 0.4.2
    • vroom von 1.6.1 auf 1.6.3
    • waldo von 0.4.0 auf 0.5.1
    • xfun von 0.37 auf 0.39
    • xml2 von 1.3.3 auf 1.3.5
    • zip von 2.2.2 auf 2.3.0
  • Aktualisierte Java-Bibliotheken:
    • com.fasterxml.jackson.core.jackson-annotations von 2.14.2 auf 2.15.2
    • com.fasterxml.jackson.core.jackson-core von 2.14.2 auf 2.15.2
    • com.fasterxml.jackson.core.jackson-databind von 2.14.2 auf 2.15.2
    • com.fasterxml.jackson.dataformat.jackson-dataformat-cbor von 2.14.2 auf 2.15.2
    • com.fasterxml.jackson.datatype.jackson-datatype-joda von 2.14.2 auf 2.15.2
    • com.fasterxml.jackson.datatype.jackson-datatype-jsr310 von 2.13.4 auf 2.15.1
    • com.fasterxml.jackson.module.jackson-module-paranamer von 2.14.2 auf 2.15.2
    • com.fasterxml.jackson.module.jackson-module-scala_2.12 von 2.14.2 auf 2.15.2
    • com.github.luben.zstd-jni von 1.5.2-5 auf 1.5.5-4
    • com.google.code.gson.gson von 2.8.9 auf 2.10.1
    • com.google.crypto.tink.tink von 1.7.0 auf 1.9.0
    • commons-codec.commons-codec von 1.15 auf 1.16.0
    • commons-io.commons-io von 2.11.0 auf 2.13.0
    • io.airlift.aircompressor von 0.21 auf 0.24
    • io.dropwizard.metrics.metrics-core von 4.2.10 auf 4.2.19
    • io.dropwizard.metrics.metrics-graphite von 4.2.10 auf 4.2.19
    • io.dropwizard.metrics.metrics-healthchecks von 4.2.10 auf 4.2.19
    • io.dropwizard.metrics.metrics-jetty9 von 4.2.10 auf 4.2.19
    • io.dropwizard.metrics.metrics-jmx von 4.2.10 auf 4.2.19
    • io.dropwizard.metrics.metrics-json von 4.2.10 auf 4.2.19
    • io.dropwizard.metrics.metrics-jvm von 4.2.10 auf 4.2.19
    • io.dropwizard.metrics.metrics-servlets von 4.2.10 auf 4.2.19
    • io.netty.netty-all von 4.1.87.Final auf 4.1.93.Final
    • io.netty.netty-buffer von 4.1.87.Final auf 4.1.93.Final
    • io.netty.netty-codec von 4.1.87.Final auf 4.1.93.Final
    • io.netty.netty-codec-http von 4.1.87.Final auf 4.1.93.Final
    • io.netty.netty-codec-http2 von 4.1.87.Final auf 4.1.93.Final
    • io.netty.netty-codec-socks von 4.1.87.Final auf 4.1.93.Final
    • io.netty.netty-common von 4.1.87.Final auf 4.1.93.Final
    • io.netty.netty-handler von 4.1.87.Final auf 4.1.93.Final
    • io.netty.netty-handler-proxy von 4.1.87.Final auf 4.1.93.Final
    • io.netty.netty-resolver von 4.1.87.Final auf 4.1.93.Final
    • io.netty.netty-transport von 4.1.87.Final auf 4.1.93.Final
    • io.netty.netty-transport-classes-epoll von 4.1.87.Final auf 4.1.93.Final
    • io.netty.netty-transport-classes-kqueue von 4.1.87.Final auf 4.1.93.Final
    • io.netty.netty-transport-native-epoll von 4.1.87.Final-linux-x86_64 auf 4.1.93.Final-linux-x86_64
    • io.netty.netty-transport-native-kqueue von 4.1.87.Final-osx-x86_64 auf 4.1.93.Final-osx-x86_64
    • io.netty.netty-transport-native-unix-common von 4.1.87.Final auf 4.1.93.Final
    • org.apache.arrow.arrow-format von 11.0.0 auf 12.0.1
    • org.apache.arrow.arrow-memory-core von 11.0.0 auf 12.0.1
    • org.apache.arrow.arrow-memory-netty von 11.0.0 auf 12.0.1
    • org.apache.arrow.arrow-vector von 11.0.0 auf 12.0.1
    • org.apache.avro.avro von 1.11.1 auf 1.11.2
    • org.apache.avro.avro-ipc von 1.11.1 auf 1.11.2
    • org.apache.avro.avro-mapred von 1.11.1 auf 1.11.2
    • org.apache.commons.commons-compress von 1.21 auf 1.23.0
    • org.apache.hadoop.hadoop-client-runtime von 3.3.4 auf 3.3.6
    • org.apache.logging.log4j.log4j-1.2-api von 2.19.0 auf 2.20.0
    • org.apache.logging.log4j.log4j-api von 2.19.0 auf 2.20.0
    • org.apache.logging.log4j.log4j-core von 2.19.0 auf 2.20.0
    • org.apache.logging.log4j.log4j-slf4j2-impl von 2.19.0 auf 2.20.0
    • org.apache.orc.orc-core von 1.8.4-shaded-protobuf auf 1.9.0-shaded-protobuf
    • org.apache.orc.orc-mapreduce von 1.8.4-shaded-protobuf auf 1.9.0-shaded-protobuf
    • org.apache.orc.orc-shims von 1.8.4 auf 1.9.0
    • org.apache.xbean.xbean-asm9-shaded von 4.22 auf 4.23
    • org.checkerframework.checker-qual von 3.19.0 auf 3.31.0
    • org.glassfish.jersey.containers.jersey-container-servlet von 2.36 auf 2.40
    • org.glassfish.jersey.containers.jersey-container-servlet-core von 2.36 auf 2.40
    • org.glassfish.jersey.core.jersey-client von 2.36 auf 2.40
    • org.glassfish.jersey.core.jersey-common von 2.36 auf 2.40
    • org.glassfish.jersey.core.jersey-server von 2.36 auf 2.40
    • org.glassfish.jersey.inject.jersey-hk2 von 2.36 auf 2.40
    • org.javassist.javassist von 3.25.0-GA auf 3.29.2-GA
    • org.mariadb.jdbc.mariadb-java-client von 2.7.4 auf 2.7.9
    • org.postgresql.postgresql von 42.3.8 auf 42.6.0
    • org.roaringbitmap.RoaringBitmap von 0.9.39 auf 0.9.45
    • org.roaringbitmap.shims von 0.9.39 auf 0.9.45
    • org.rocksdb.rocksdbjni von 7.8.3 auf 8.3.2
    • org.scala-lang.modules.scala-collection-compat_2.12 von 2.4.3 auf 2.9.0
    • org.slf4j.jcl-over-slf4j von 2.0.6 auf 2.0.7
    • org.slf4j.jul-to-slf4j von 2.0.6 auf 2.0.7
    • org.slf4j.slf4j-api von 2.0.6 auf 2.0.7
    • org.xerial.snappy.snappy-java von 1.1.10.1 auf 1.1.10.3
    • org.yaml.snakeyaml von 1.33 auf 2.0

Apache Spark

Databricks Runtime 14.0. Diese Version enthält alle Spark-Fehlerbehebungen und -Verbesserungen, die in Databricks Runtime 13.3 LTS enthalten sind, sowie die folgenden zusätzlichen Fehlerbehebungen und Verbesserungen, die an Spark vorgenommen wurden:

  • Sie können jetzt die Clusterumgebungsvariable SNOWFLAKE_SPARK_CONNECTOR_VERSION=2.12 festlegen, um Spark-snowflake-Connector v2.12.0 zu verwenden.
  • [SPARK-44877] [DBRRM-482][SC-140437][CONNECT][PYTHON] Unterstützen von Python-Protobuf-Funktionen für Spark Connect
  • [SPARK-44882] [DBRRM-463][SC-140430][PYTHON][CONNECT] Entfernen der Funktion uuid/random/chr aus PySpark
  • [SPARK-44740] [DBRRM-462][SC-140320][CONNECT][FOLLOW] Korrigieren von Metadatenwerten für Artefakte
  • [SPARK-44822] [DBRRM-464][PYTHON][SQL] Festlegen von Python-UDTFs als standardmäßig nicht deterministisch
  • [SPARK-44836] [DBRRM-468][SC-140228][PYTHON] Umgestalten von Arrow-Python-UDTF
  • [SPARK-44738] [DBRRM-462][SC-139347][PYTHON][CONNECT] Hinzufügen fehlender Clientmetadaten zu Aufrufen
  • [SPARK-44722] [DBRRM-462][SC-139306][CONNECT] ExecutePlanResponseReattachableIterator._call_iter: AttributeError: NoneType-Objekt weist kein message-Attribut auf
  • [SPARK-44625] [DBRRM-396][SC-139535][CONNECT] SparkConnectExecutionManager zum Nachverfolgen aller Ausführungen
  • [SPARK-44663] [SC-139020][DBRRM-420][PYTHON] Standardmäßiges Deaktivieren der Arrow-Optimierung für Python-UDTFs
  • [SPARK-44709] [DBRRM-396][SC-139250][CONNECT] Ausführen von ExecuteGrpcResponseSender in erneut anfügbarer Ausführung in neuem Thread zum Korrigieren der Flusssteuerung
  • [SPARK-44656] [DBRRM-396][SC-138924][CONNECT] Festlegen aller Iteratoren als CloseableIterators
  • [SPARK-44671] [DBRRM-396][SC-138929][PYTHON][CONNECT] Wiederholen von ExecutePlan, falls Server im Python-Client mit der ersten Anforderung nicht erreicht wurde
  • [SPARK-44624] [DBRRM-396][SC-138919][CONNECT] Wiederholen von ExecutePlan, falls Server mit der ersten Anforderung nicht erreicht wurde
  • [SPARK-44574] [DBRRM-396][SC-138288][SQL][CONNECT] In sq/api verschobene Fehler müssen auch AnalysisException verwenden
  • [SPARK-44613] [DBRRM-396][SC-138473][CONNECT] Hinzufügen von Encoders-Objekt
  • [SPARK-44626] [DBRRM-396][SC-138828][SS][CONNECT] Nachverfolgung zur Beendigung von Streamingabfrage bei Clientsitzungstimeout für Spark Connect
  • [SPARK-44642] [DBRRM-396][SC-138882][CONNECT] ReleaseExecute in ExecutePlanResponseReattachableIterator nach Fehler von Server
  • [SPARK-41400] [DBRRM-396][SC-138287][CONNECT] Entfernen von Catalyst-Abhängigkeit von Connect-Client
  • [SPARK-44664] [DBRRM-396][PYTHON][CONNECT] Freigeben der Ausführung beim Schließen des Iterators im Python-Client
  • [SPARK-44631] [DBRRM-396][SC-138823][CONNECT][CORE][14.0.0] Entfernen des sitzungsbasierten Verzeichnisses bei Entfernung des isolierten Sitzungscache
  • [SPARK-42941] [DBRRM-396][SC-138389][SS][CONNECT] Python StreamingQueryListener
  • [SPARK-44636] [DBRRM-396][SC-138570][CONNECT] Vermeiden verwaister Iteratoren
  • [SPARK-44424] [DBRRM-396][CONNECT][PYTHON][14.0.0] Python-Client zum erneuten Anfügen an eine vorhandene Ausführung in Spark Connect
  • [SPARK-44637] [SC-138571] Synchronisieren von Zugriffen auf ExecuteResponseObserver
  • [SPARK-44538] [SC-138178][CONNECT][SQL] Reaktivieren von Row.jsonValue und friends
  • [SPARK-44421] [SC-138434][SPARK-44423][CONNECT] Wieder anfügbare Ausführung in Spark Connect
  • [SPARK-44418] [SC-136807][PYTHON][CONNECT] Upgrade von Protobuf von 3.19.5 auf 3.20.3
  • [SPARK-44587] [SC-138315][SQL][CONNECT] Erhöhen des Rekursionslimits für Protobuf-Marshaller
  • [SPARK-44591] [SC-138292][CONNECT][SQL] Hinzufügen von jobTags zu SparkListenerSQLExecutionStart
  • [SPARK-44610] [SC-138368][SQL] DeduplicateRelations sollten beim Erstellen einer neuen Instanz Alias-Metadaten beibehalten
  • [SPARK-44542] [SC-138323][CORE] Eager Loading von SparkExitCode-Klasse im Ausnahmehandler
  • [SPARK-44264] [SC-138143][PYTHON]E2E-Tests für Deepspeed
  • [SPARK-43997] [SC-138347][CONNECT] Hinzufügen von Unterstützung für Java-UDFs
  • [SPARK-44507] [SQL][CONNECT][14.x][14.0] Verschieben von AnalysisException zu sql/api
  • [SPARK-44453] [SC-137013][PYTHON] Verwenden von difflib zum Anzeigen von Fehlern in assertDataFrameEqual
  • [SPARK-44394] [SC-138291][CONNECT][WEBUI][14.0] Hinzufügen einer Spark-Benutzeroberflächenseite für Spark Connect
  • [SPARK-44611] [SC-138415][CONNECT] Kein Ausschließen von scala-xml
  • [SPARK-44531] [SC-138044][CONNECT][SQL][14.x][14.0] Verschieben von Encoderrückschluss zu sql/api
  • [SPARK-43744] [SC-138289][CONNECT][14.x][14.0] Korrigieren von Problem beim Laden von Klassen...
  • [SPARK-44590] [SC-138296][SQL][CONNECT] Entfernen des Limits für Arrow-Batcheinträge für SqlCommandResult
  • [SPARK-43968] [SC-138115][PYTHON] Verbessern von Fehlermeldungen für Python-UDTFs mit falscher Anzahl von Ausgaben
  • [SPARK-44432] [SC-138293][SS][CONNECT] Beenden von Streamingabfragen bei einem Sitzungstimeout in Spark Connect
  • [SPARK-44584] [SC-138295][CONNECT] Festlegen von client_type-Informationen für AddArtifactsRequest und ArtifactStatusesRequest im Scala-Client
  • [SPARK-44552] [14.0][SC-138176][SQL] Entfernen der private object ParseState-Definition aus IntervalUtils
  • [SPARK-43660] [SC-136183][CONNECT][PS] Aktivieren von resample mit Spark Connect
  • [SPARK-44287] [SC-136223][SQL] Verwenden der PartitionEvaluator-API in den SQL-Operatoren RowToColumnarExec und ColumnarToRowExec
  • [SPARK-39634] [SC-137566][SQL] Zulassen der Dateiaufteilung in Kombination mit der Zeilenindexgenerierung
  • [SPARK-44533] [SC-138058][PYTHON] Hinzufügen von Unterstützung für Akkumulator-, Broadcast- und Spark-Dateien in Python-UDTF-Analyse
  • [SPARK-44479] [SC-138146][PYTHON] Korrigieren von ArrowStreamPandasUDFSerializer, sodass Pandas-DataFrame ohne Spalten akzeptiert wird
  • [SPARK-44425] [SC-138177][CONNECT] Überprüfen, ob die von Benutzer*innen bereitgestellte sessionId eine UUID ist
  • [SPARK-44535] [SC-138038][CONNECT][SQL] Verschieben der erforderlichen Streaming-API zu sql/api
  • [SPARK-44264] [SC-136523][ML][PYTHON] Schreiben einer Deepspeed-Klasse DeepspeedTorchDistributor für verteiltes Lernen
  • [SPARK-42098] [SC-138164][SQL] Korrigieren des Problems, dass ResolveInlineTables den RuntimeReplaceable-Ausdruck nicht verarbeiten kann
  • [SPARK-44060] [SC-135693][SQL] Codegenerierung für buildseitigen äußeren gemischten Hashjoin
  • [SPARK-44496] [SC-137682][SQL][CONNECT] Verschieben der von SCSC benötigten Schnittstellen zu sql/api
  • [SPARK-44532] [SC-137893][CONNECT][SQL] Verschieben von ArrowUtils zu sql/api
  • [SPARK-44413] [SC-137019][PYTHON] Klären des Fehlers für nicht unterstützten Argumentdatentyp in assertDataFrameEqual
  • [SPARK-44530] [SC-138036][CORE][CONNECT] Verschieben von SparkBuildInfo zu common/util
  • [SPARK-36612] [SC-133071][SQL] Unterstützen des linken äußeren Joinbuilds links oder der rechten äußeren Joinbuilds rechts im gemischten Hashjoin
  • [SPARK-44519] [SC-137728][CONNECT] SparkConnectServerUtils hat falsche Parameter für JAR-Dateien generiert
  • [SPARK-44449] [SC-137818][CONNECT] Umwandeln in eine Basisklasse für direkte Arrow-Deserialisierung
  • [SPARK-44131] [SC-136346][SQL] Hinzufügen von call_function und Einstufen von call_udf als veraltet für Scala-API
  • [SPARK-44541] [SQL] Entfernen der nutzlosen Funktion hasRangeExprAgainstEventTimeCol aus UnsupportedOperationChecker
  • [SPARK-44523] [SC-137859][SQL] maxRows/maxRowsPerPartition des Filters ist 0, wenn Bedingung FalseLiteral ist
  • [SPARK-44540] [SC-137873][UI] Entfernen nicht verwendeter Stylesheet- und Javascript-Dateien von jsonFormatter
  • [SPARK-44466] [SC-137856][SQL] Ausschließen von Konfigurationen aus modifiedConfigs, die mit SPARK_DRIVER_PREFIX und SPARK_EXECUTOR_PREFIX beginnen
  • [SPARK-44477] [SC-137508][SQL] Behandeln von TYPE_CHECK_FAILURE_WITH_HINT als Fehlerunterklasse
  • [SPARK-44509] [SC-137855][PYTHON][CONNECT] Hinzufügen einer Reihe von Auftragsabbruch-APIs im Spark Connect-Python-Client
  • [SPARK-44059] [SC-137023] Hinzufügen der Analysetoolunterstützung benannter Argumente für integrierte Funktionen
  • [SPARK-38476] [SC-136448][CORE] Verwenden der Fehlerklasse in org.apache.spark.storage
  • [SPARK-44486] [SC-137817][PYTHON][CONNECT] Implementieren des PyArrow-Features self_destruct für toPandas
  • [SPARK-44361] [SC-137200][SQL] Verwenden der PartitionEvaluator-API in MapInBatchExec
  • [SPARK-44510] [SC-137652][UI] Aktualisieren von dataTables auf 1.13.5 und Entfernen einiger nicht erreichbarer PNG-Dateien
  • [SPARK-44503] [SC-137808][SQL] Hinzufügen von SQL-Grammatik für PARTITION BY- und ORDER BY-Klausel nach TABLE-Argumenten für TVF-Aufrufe
  • [SPARK-38477] [SC-136319][CORE] Verwenden der Fehlerklasse in org.apache.spark.shuffle
  • [SPARK-44299] [SC-136088][SQL] Zuweisen von Namen zur Fehlerklasse _LEGACY_ERROR_TEMP_227[4-6,8]
  • [SPARK-44422] [SC-137567][CONNECT] Differenzierter Spark Connect-Interrupt
  • [SPARK-44380] [SC-137415][SQL][PYTHON] Unterstützung für Python-UDTF zum Analysieren in Python
  • [SPARK-43923] [SC-137020][CONNECT] Posten von listenerBus-Ereignissen während…
  • [SPARK-44303] [SC-136108][SQL] Zuweisen von Namen zur Fehlerklasse LEGACY_ERROR_TEMP[2320-2324]
  • [SPARK-44294] [SC-135885][UI] Korrigieren der unerwarteten Anzeige der HeapHistogram-Spalte mit select-all-box
  • [SPARK-44409] [SC-136975][SQL] Behandeln von char/varchar in Dataset zum Gewährleisten von Konsistenz
  • [SPARK-44334] [SC-136576][SQL][UI] Der Status in der REST-API-Antwort sollte für eine fehlgeschlagene DDL/DML ohne Aufträge FAILED und nicht COMPLETED lauten
  • [SPARK-42309] [SC-136703][SQL] Einführen von INCOMPATIBLE_DATA_TO_TABLE und Unterklassen
  • [SPARK-44367] [SC-137418][SQL][UI] Anzeigen einer Fehlermeldung für jede fehlgeschlagene Abfrage auf der Benutzeroberfläche
  • [SPARK-44474] [SC-137195][CONNECT] Erneutes Aktivieren von „Test observe response“ in SparkConnectServiceSuite
  • [SPARK-44320] [SC-136446][SQL] Zuweisen von Namen zur Fehlerklasse LEGACY_ERROR_TEMP[1067,1150,1220,1265,1277]
  • [SPARK-44310] [SC-136055][CONNECT] Das Connect Server-Startprotokoll sollte den Hostnamen und Port anzeigen
  • [SPARK-44309] [SC-136193][UI] Anzeigen der Zeit für Hinzufügen/Entfernen von Executors auf der Registerkarte „Executors“
  • [SPARK-42898] [SC-137556][SQL] Kennzeichnen, dass Zeichenfolgen-/Datumsumwandlungen keine Zeitzonen-ID benötigen
  • [SPARK-44475] [SC-137422][SQL][CONNECT] Verschieben von DataType und Parser zu sql/api
  • [SPARK-44484] [SC-137562][SS]Hinzufügen von batchDuration zur StreamingQueryProgress-JSON-Methode
  • [SPARK-43966] [SC-137559][SQL][PYTHON] Unterstützen nicht deterministischer Tabellenwertfunktionen
  • [SPARK-44439] [SC-136973][CONNECT][SS] Korrigieren von listListeners, sodass nur IDs an den Client zurückgesendet werden
  • [SPARK-44341] [SC-137054][SQL][PYTHON] Definieren der Computinglogik über die PartitionEvaluator-API und Verwenden in WindowExec und WindowInPandasExec
  • [SPARK-43839] [SC-132680][SQL] Konvertieren von _LEGACY_ERROR_TEMP_1337 in UNSUPPORTED_FEATURE.TIME_TRAVEL
  • [SPARK-44244] [SC-135703][SQL] Zuweisen von Namen zur Fehlerklasse LEGACY_ERROR_TEMP[2305-2309]
  • [SPARK-44201] [SC-136778][CONNECT][SS] Hinzufügen der Unterstützung für Streaminglistener in Scala für Spark Connect
  • [SPARK-44260] [SC-135618][SQL] Zuweisen von Namen zur Fehlerklasse LEGACY_ERROR_TEMP[1215-1245-2329] und Verwenden von checkError() zum Überprüfen der Ausnahme in _CharVarchar_Suite
  • [SPARK-42454] [SC-136913][SQL] SPJ: Kapseln aller SPJ-bezogenen Parameter in BatchScanExec
  • [SPARK-44292] [SC-135844][SQL] Zuweisen von Namen zur Fehlerklasse LEGACY_ERROR_TEMP[2315-2319]
  • [SPARK-44396] [SC-137221][Connect] Direkte Arrow-Deserialisierung
  • [SPARK-44324] [SC-137172][SQL][CONNECT] Verschieben von CaseInsensitiveMap zu sql/api
  • [SPARK-44395] [SC-136744][SQL] Hinzufügen von Test zurück zu StreamingTableSuite
  • [SPARK-44481] [SC-137401][CONNECT][PYTHON] Festlegen von pyspark.sql.is_remote als API
  • [SPARK-44278] [SC-137400][CONNECT] Implementieren eines GRPC-Serverinterceptors zum Bereinigen lokaler Threadeigenschaften
  • [SPARK-44264] [SC-137211][ML][PYTHON] Unterstützen des verteilten Trainings von Funktionen mithilfe von Deepspeed
  • [SPARK-44430] [SC-136970][SQL] Hinzufügen einer Ursache zu AnalysisException, wenn die Option ungültig ist
  • [SPARK-44264] [SC-137167][ML][PYTHON] Integrieren von FunctionPickler in TorchDistributor
  • [SPARK-44216] [SC-137046] [PYTHON] Festlegen der AssertSchemaEqual-API als öffentlich
  • [SPARK-44398] [SC-136720][CONNECT] Scala-foreachBatch-API
  • [SPARK-43203] [SC-134528][SQL] Verschieben aller Drop Table-Fälle zu DataSource V2
  • [SPARK-43755] [SC-137171][CONNECT][MINOR] Öffnen von AdaptiveSparkPlanHelper.allChildren statt Verwenden einer Kopie in MetricGenerator
  • [SPARK-44264] [SC-137187][ML][PYTHON] Umgestalten von TorchDistributor zum Gestatten eines benutzerdefinierten Funktionszeigers „run_training_on_file“
  • [SPARK-43755] [SC-136838][CONNECT] Verschieben der Ausführung aus SparkExecutePlanStreamHandler in einen anderen Thread
  • [SPARK-44411] [SC-137198][SQL] Verwenden der PartitionEvaluator-API in ArrowEvalPythonExec und BatchEvalPythonExec
  • [SPARK-44375] [SC-137197][SQL] Verwenden der PartitionEvaluator-API in DebugExec
  • [SPARK-43967] [SC-137057][PYTHON] Unterstützen regulärer Python-UDTFs mit leeren Rückgabewerten
  • [SPARK-43915] [SC-134766][SQL] Zuweisen von Namen zur Fehlerklasse LEGACY_ERROR_TEMP[2438-2445]
  • [SPARK-43965] [SC-136929][PYTHON][CONNECT] Unterstützen von Python-UDTF in Spark Connect
  • [SPARK-44154] [SC-137050][SQL] Hinzufügen weiterer Komponententests zu BitmapExpressionUtilsSuite und Vornehmen kleinerer Verbesserungen an Bitmapaggregatausdrücken
  • [SPARK-44169] [SC-135497][SQL] Zuweisen von Namen zur Fehlerklasse LEGACY_ERROR_TEMP[2300-2304]
  • [SPARK-44353] [SC-136578][CONNECT][SQL] Entfernen von StructType.toAttributes
  • [SPARK-43964] [SC-136676][SQL][PYTHON] Unterstützen von für Arrow optimierten Python-UDTFs
  • [SPARK-44321] [SC-136308][CONNECT] Entkoppeln von ParseException von AnalysisException
  • [SPARK-44348] [SAS-1910][SC-136644][CORE][CONNECT][PYTHON] Erneutes Aktivieren von test_artifact mit relevanten Änderungen
  • [SPARK-44145] [SC-136698][SQL] Rückruf, wenn für Ausführung bereit
  • [SPARK-43983] [SC-136404][PYTHON][ML][CONNECT] Aktivieren eines Validierungssteuerelement-übergreifenden Schätzertests
  • [SPARK-44399] [SC-136669][PYHTON][CONNECT] Importieren von SparkSession in Python-UDF nur dann, wenn useArrow „None“ lautet
  • [SPARK-43631] [SC-135300][CONNECT][PS] Aktivieren von Series.interpolate mit Spark Connect
  • [SPARK-44374] [SC-136544][PYTHON][ML] Hinzufügen von Beispielcode für verteiltes ML für Spark Connect
  • [SPARK-44282] [SC-135948][CONNECT] Vorbereiten des Parsens von DataType für die Verwendung im Spark Connect-Scala-Client
  • [SPARK-44052] [SC-134469][CONNECT][PS] Hinzufügen von util, um die richtige Column- oder DataFrame-Klasse für Spark Connect abzurufen.
  • [SPARK-43983] [SC-136404][PYTHON][ML][CONNECT] Implementieren eines Validierungssteuerelement-übergreifenden Schätzers
  • [SPARK-44290] [SC-136300][CONNECT] Sitzungsbasierte Dateien und Archive in Spark Connect
  • [SPARK-43710] [SC-134860][PS][CONNECT] Unterstützen von functions.date_part für Spark Connect
  • [SPARK-44036] [SC-134036][CONNECT][PS] Bereinigen und Konsolidieren von Tickets zum Vereinfachen der Tasks
  • [SPARK-44150] [SC-135790][PYTHON][CONNECT] Explizite Arrow-Umwandlung für nicht übereinstimmende Rückgabetypen in Arrow-Python-UDF
  • [SPARK-43903] [SC-134754][PYTHON][CONNECT] Verbessern der ArrayType-Eingabeunterstützung in Arrow-Python-UDF
  • [SPARK-44250] [SC-135819][ML][PYTHON][CONNECT] Implementieren der Klassifizierungsauswertung
  • [SPARK-44255] [SC-135704][SQL] Verschieben von StorageLevel nach common/utils
  • [SPARK-42169] [SC-135735] [SQL] Implementieren der Codegenerierung für to_csv-Funktion (StructsToCsv)
  • [SPARK-44249] [SC-135719][SQL][PYTHON] Umgestalten von PythonUDTFRunner, um den Rückgabetyp separat zu senden
  • [SPARK-43353] [SC-132734][PYTHON] Migrieren verbleibender Sitzungsfehler in die Fehlerklasse
  • [SPARK-44133] [SC-134795][PYTHON] Upgrade von MyPy von 0.920 auf 0.982
  • [SPARK-42941] [SC-134707][SS][CONNECT][1/2] StreamingQueryListener – Ereignis-SerDe im JSON-Format
  • [SPARK-43353] Zurücksetzen von „[SC-132734][ES-729763][PYTHON] Migrieren verbleibender Sitzungsfehler zur Fehlerklasse“
  • [SPARK-44100] [SC-134576][ML][CONNECT][PYTHON] Verschieben von Namespace aus pyspark.mlv2 in pyspark.ml.connect
  • [SPARK-44220] [SC-135484][SQL] Verschieben von StringConcat zu sql/api
  • [SPARK-43992] [SC-133645][SQL][PYTHON][CONNECT] Hinzufügen des optionalen Musters für Catalog.listFunctions
  • [SPARK-43982] [SC-134529][ML][PYTHON][CONNECT] Implementieren eines Pipelineschätzers für ML in Spark Connect
  • [SPARK-43888] [SC-132893][CORE] Verschieben der Protokollierung zu commons/utils
  • [SPARK-42941] Zurücksetzen von „[SC-134707][SS][CONNECT][1/2] StreamingQueryListener – Ereignis-SerDe im JSON-Format“
  • [SPARK-43624] [SC-134557][PS][CONNECT] Hinzufügen von EWM zu SparkConnectPlanner
  • [SPARK-43981] [SC-134137][PYTHON][ML] Grundlegende Implementierung zum Speichern/Laden von ML in Spark Connect
  • [SPARK-43205] [SC-133371][SQL] Korrigieren von SQLQueryTestSuite
  • [SPARK-43376] Zurücksetzen von „[SC-130433][SQL] Verbessern der Wiederverwendung von Unterabfragen mit Tabellencache“
  • [SPARK-44040] [SC-134366][SQL] Korrigieren von Computestatistiken, wenn AggregateExec-Knoten über QueryStageExec liegt
  • [SPARK-43919] [SC-133374][SQL] Extrahieren von JSON-Funktionen aus Zeile
  • [SPARK-42618] [SC-134433][PYTHON][PS] Warnung für die Verhaltensänderungen im Zusammenhang mit Pandas im nächsten Hauptrelease
  • [SPARK-43893] [SC-133381][PYTHON][CONNECT] Unterstützung nicht atomarer Datentypen in Arrow-optimierter Python-UDF
  • [SPARK-43627] [SC-134290][SPARK-43626][PS][CONNECT] Aktivieren von pyspark.pandas.spark.functions.{kurt, skew} in Spark Connect
  • [SPARK-43798] [SC-133990][SQL][PYTHON] Unterstützen benutzerdefinierter Tabellenfunktionen in Python
  • [SPARK-43616] [SC-133849][PS][CONNECT] Aktivieren von pyspark.pandas.spark.functions.mode in Spark Connect
  • [SPARK-43133] [SC-133728] DataStreamWriter-Foreach-Unterstützung in Scala-Client
  • [SPARK-43684] [SC-134107][SPARK-43685][SPARK-43686][SPARK-43691][CONNECT][PS] Korrigieren von (NullOps|NumOps).(eq|ne) für Spark Connect
  • [SPARK-43645] [SC-134151][SPARK-43622][PS][CONNECT] Aktivieren von pyspark.pandas.spark.functions.{var, stddev} in Spark Connect
  • [SPARK-43617] [SC-133893][PS][CONNECT] Aktivieren von pyspark.pandas.spark.functions.product in Spark Connect
  • [SPARK-43610] [SC-133832][CONNECT][PS] Aktivieren von InternalFrame.attach_distributed_column in Spark Connect
  • [SPARK-43621] [SC-133852][PS][CONNECT] Aktivieren von pyspark.pandas.spark.functions.repeat in Spark Connect
  • [SPARK-43921] [SC-133461][PROTOBUF] Generieren von Protobuf-Deskriptordateien zur Buildzeit
  • [SPARK-43613] [SC-133727][PS][CONNECT] Aktivieren von pyspark.pandas.spark.functions.covar in Spark Connect
  • [SPARK-43376] [SC-130433][SQL] Verbessern der Wiederverwendung von Unterabfragen mit Tabellencache
  • [SPARK-43612] [SC-132011][CONNECT][PYTHON] Implementieren von SparkSession.addArtifact(s) im Python-Client
  • [SPARK-43920] [SC-133611][SQL][CONNECT] Erstellen von sql/api-Modul
  • [SPARK-43097] [SC-133372][ML] Neuer pyspark-ML-Schätzer für logistische Regression oberhalb des Verteilers implementiert
  • [SPARK-43783] [SC-133240][SPARK-43784][SPARK-43788][ML] MLv2-Unterstützung (ML in Spark Connect) für Pandas >= 2.0
  • [SPARK-43024] [SC-132716][PYTHON] Upgrade von Pandas auf 2.0.0
  • [SPARK-43881] [SC-133140][SQL][PYTHON][CONNECT] Hinzufügen des optionalen Musters für Catalog.listDatabases
  • [SPARK-39281] [SC-131422][SQL] Beschleunigen des Zeitstempel-Typrückschlusses mit älterem Format in JSON-/CSV-Datenquelle
  • [SPARK-43792] [SC-132887][SQL][PYTHON][CONNECT] Hinzufügen des optionalen Musters für Catalog.listCatalogs
  • [SPARK-43132] [SC-131623] [SS] [CONNECT] DataStreamWriter-foreach()-API in Python-Client
  • [SPARK-43545] [SC-132378][SQL][PYTHON] Unterstützen des geschachtelten Zeitstempeltyps
  • [SPARK-43353] [SC-132734][PYTHON] Migrieren verbleibender Sitzungsfehler in die Fehlerklasse
  • [SPARK-43304] [SC-129969][CONNECT][PYTHON] Migrieren von NotImplementedError zu PySparkNotImplementedError
  • [SPARK-43516] [SC-132202][ML][PYTHON][CONNECT] Basisschnittstellen von sparkML für spark3.5: estimator/transformer/model/evaluator
  • [SPARK-43128] Zurücksetzen von „[SC-131628][CONNECT][SS] Festlegen einer mit der nativen Scala-API konsistenten Rückgabe von StreamingQueryProgress für recentProgress und lastProgress
  • [SPARK-43543] [SC-131839][PYTHON] Korrigieren des Verhaltens von geschachteltem MapType in Pandas-UDF
  • [SPARK-38469] [SC-131425][CORE] Verwenden der Fehlerklasse in org.apache.spark.network
  • [SPARK-43309] [SC-129746][SPARK-38461][CORE] Erweitern von INTERNAL_ERROR durch Kategorien und Hinzufügen der Fehlerklasse INTERNAL_ERROR_BROADCAST
  • [SPARK-43265] [SC-129653] Verschieben des Fehlerframeworks in ein allgemeines utils-Modul
  • [SPARK-43440] [SC-131229][PYTHON][CONNECT] Unterstützen der Registrierung einer Arrow-optimierten Python-UDF
  • [SPARK-43528] [SC-131531][SQL][PYTHON] Unterstützen duplizierter Feldnamen in createDataFrame mit Pandas-DataFrame
  • [SPARK-43412] [SC-130990][PYTHON][CONNECT] Einführen von SQL_ARROW_BATCHED_UDF-EvalType für Arrow-optimierte Python-UDFs
  • [SPARK-40912] [SC-130986][CORE]Mehraufwand für Ausnahmen in KryoDeserializationStream
  • [SPARK-39280] [SC-131206][SQL] Beschleunigen des Zeitstempel-Typrückschlusses mit benutzerdefiniertem Format in JSON-/CSV-Datenquelle
  • [SPARK-43473] [SC-131372][PYTHON] Unterstützen des Strukturtyps in createDataFrame aus Pandas-DataFrame
  • [SPARK-43443] [SC-131024][SQL] Hinzufügen von Benchmark für Zeitstempel-Typrückschluss bei Verwendung eines ungültigen Werts
  • [SPARK-41532] [SC-130523][CONNECT][CLIENT] Hinzufügen einer Überprüfung für Vorgänge, die mehrere DataFrames umfassen
  • [SPARK-43296] [SC-130627][CONNECT][PYTHON] Migrieren von Spark Connect-Sitzungsfehlern zur Fehlerklasse
  • [SPARK-43324] [SC-130455][SQL] Behandeln von UPDATE-Befehlen für deltabasierte Quellen
  • [SPARK-43347] [SC-130148][PYTHON] Entfernen der Python 3.7-Unterstützung
  • [SPARK-43292] [SC-130525][CORE][CONNECT] Verschieben von ExecutorClassLoader zum core-Modul und Vereinfachen von Executor#addReplClassLoaderIfNeeded
  • [SPARK-43081] [SC-129900] [ML] [CONNECT] Hinzufügen des TorchDistributor-Datenladeprogramms, das Daten aus Spark-Partitionsdaten lädt
  • [SPARK-43331] [SC-130061][CONNECT] Hinzufügen von SparkSession.interruptAll in Spark Connect
  • [SPARK-43306] [SC-130320][PYTHON] Migrieren von ValueError aus Spark SQL-Typen zur Fehlerklasse
  • [SPARK-43261] [SC-129674][PYTHON] Migrieren von TypeError aus Spark SQL-Typen zur Fehlerklasse
  • [SPARK-42992] [SC-129465][PYTHON] Einführen von PySparkRuntimeError
  • [SPARK-16484] [SC-129975][SQL] Hinzufügen von Unterstützung für Datasketches HllSketch
  • [SPARK-43165] [SC-128823][SQL] Verschieben von canWrite zu DataTypeUtils
  • [SPARK-43082] [SC-129112][CONNECT][PYTHON] Arrow-optimierte Python-UDFs in Spark Connect
  • [SPARK-43084] [SC-128654] [SS] Hinzufügen von ApplyInPandasWithState-Unterstützung für Spark Connect
  • [SPARK-42657] [SC-128621][CONNECT] Unterstützung für das Suchen und Übertragen clientseitiger REPL-Klassendateien auf den Server als Artefakte
  • [SPARK-43098] [SC-77059][SQL] Korrigieren der Richtigkeit von „COUNT bug“, wenn die skalare Unterabfrage eine „group by“-Klausel aufweist
  • [SPARK-42884] [SC-126662][CONNECT] Hinzufügen der Ammonite-REPL-Integration
  • [SPARK-42994] [SC-128333][ML][CONNECT] Unterstützung von PyTorch-Verteiler für lokalen Modus
  • [SPARK-41498] [SC-125343]Zurücksetzen von „Weitergeben von Metadaten über Union“
  • [SPARK-42993] [SC-127829][ML][CONNECT] Herstellen von Kompatibilität des PyTorch-Verteilers mit Spark Connect
  • [SPARK-42683] [LC-75] Automatisches Umbenennen in Konflikt stehender Metadatenspalten
  • [SPARK-42874] [SC-126442][SQL] Aktivieren eines neuen goldenen Dateitestframeworks für die Analyse aller Eingabedateien
  • [SPARK-42779] [SC-126042][SQL] Zulassen von V2-Schreibvorgängen, um Größenempfehlung für Shufflepartitionen anzugeben
  • [SPARK-42891] [SC-126458][CONNECT][PYTHON] Implementieren der CoGrouped Map-API
  • [SPARK-42791] [SC-126134][SQL] Erstellen eines neuen goldenen Dateitestframeworks für die Analyse
  • [SPARK-42615] [SC-124237][CONNECT][PYTHON] Umgestalten des AnalyzePlan-RPC und Hinzufügen von session.version
  • [SPARK-41302] Zurücksetzen von „[ALL TESTS][SC-122423][SQL] Zuweisen eines Namens zu _LEGACY_ERROR_TEMP_1185“
  • [SPARK-40770] [SC-122652][PYTHON] Verbesserte Fehlermeldungen für applyInPandas für Schemakonflikt
  • [SPARK-40770] Zurücksetzen von „[ALL TESTS][SC-122652][PYTHON] Verbesserte Fehlermeldungen für applyInPandas für Schemakonflikt“
  • [SPARK-42398] [SC-123500][SQL] Optimieren der DS v2-Schnittstelle für Standardspaltenwert
  • [SPARK-40770] [ALL TESTS][SC-122652][PYTHON] Verbesserte Fehlermeldungen für applyInPandas für Schemakonflikt
  • [SPARK-40770] Zurücksetzen von „[SC-122652][PYTHON] Verbesserte Fehlermeldungen für applyInPandas für Schemakonflikt“
  • [SPARK-40770] [SC-122652][PYTHON] Verbesserte Fehlermeldungen für applyInPandas für Schemakonflikt
  • [SPARK-42038] [ALL TESTS] Zurücksetzen von „[SC-122533][SQL] SPJ: Unterstützen teilweise gruppierter Verteilung“
  • [SPARK-42038] Zurücksetzen von „[SC-122533][SQL] SPJ: Unterstützen teilweise gruppierter Verteilung“
  • [SPARK-42038] [SC-122533][SQL] SPJ: Unterstützen teilweise gruppierter Verteilung
  • [SPARK-40550] [SC-120989][SQL] DataSource V2: Behandeln von DELETE-Befehlen für deltabasierte Quellen
  • [SPARK-40770] Zurücksetzen von „[SC-122652][PYTHON] Verbesserte Fehlermeldungen für applyInPandas für Schemakonflikt“
  • [SPARK-40770] [SC-122652][PYTHON] Verbesserte Fehlermeldungen für applyInPandas für Schemakonflikt
  • [SPARK-41302] Zurücksetzen von „[SC-122423][SQL] Zuweisen eines Namens zu LEGACY_ERROR_TEMP_1185“
  • [SPARK-40550] Zurücksetzen von „[SC-120989][SQL] DataSource V2: Behandeln von DELETE-Befehlen für deltabasierte Quellen“
  • [SPARK-42123] Zurücksetzen von „[SC-121453][SQL] Einschließen von Spaltenstandardwerten in DESCRIBE- und SHOW CREATE TABLE-Ausgabe“
  • [SPARK-42146] [SC-121172][CORE] Umgestalten von Utils#setStringField zum erfolgreichen Verarbeiten von Maven-Build bei Verwendung dieser Methode durch SQL-Modul
  • [SPARK-42119] Zurücksetzen von „[SC-121342][SQL] Hinzufügen der integrierten Tabellenwertfunktionen inline und inline_outer“

Highlights

  • Korrigieren der Funktionen aes_decryp und ln in Connect SPARK-45109
  • Korrigieren geerbter benannter Tupel für die Arbeit in createDataFrame SPARK-44980
  • CodeGenerator Cache ist jetzt Classloader-spezifisch[SPARK-44795].
  • SparkListenerConnectOperationStarted.planRequest[SPARK-44861] wurde hinzugefügt.
  • Erstellen von Streamingabfragen zum Arbeiten mit der Artefaktverwaltung von Connect [SPARK-44794]
  • ArrowDeserializer funktioniert mit REPL-generierten Klassen [SPARK-44791]
  • Arrow-optimierte Python-UDF für Spark Connect [SPARK-44876] wurde korrigiert.
  • Scala- und Go-Clientunterstützung in Spark Connect SPARK-42554SPARK-43351
  • PyTorch-basierte verteilte ML-Unterstützung für Spark Connect SPARK-42471
  • Unterstützung für strukturiertes Streaming für Spark Connect in Python und Scala SPARK-42938
  • Pandas-API-Unterstützung für den Python Spark Connect Client SPARK-42497
  • Einführung von Arrow Python UDFs SPARK-40307
  • Unterstützen von benutzerdefinierten Python-Tabellenfunktionen SPARK-43798
  • Migrieren von PySpark-Fehlern auf Fehlerklassen SPARK-42986
  • PySpark-Test-Framework SPARK-44042
  • Unterstützung für Datasketches HllSketch hinzufügen SPARK-16484
  • Integrierte SQL-Funktionsverbesserung SPARK-41231
  • IDENTIFIER-Klausel SPARK-43205
  • Hinzufügen von SQL-Funktionen zu Scala, Python und R-API SPARK-43907
  • Hinzufügen der Unterstützung von benannten Argumenten für SQL-Funktionen SPARK-43922
  • Vermeiden Sie unnötige erneute Aufgabenausführungen auf außer Betrieb gesetztem Executor, der verloren geht, wenn Shuffle-Daten migriert werden SPARK-41469
  • Verteiltes ML <> Spark Connect SPARK-42471
  • DeepSpeed-Verteiler SPARK-44264
  • Implementieren des Änderungsprotokollprüfpunkts für den RocksDB-Zustandsspeicher SPARK-43421
  • Einführung der Wasserzeichenweitergabe zwischen Betreibern SPARK-42376
  • Einführung von dropDuplicatesWithinWatermark SPARK-42931
  • Verbesserungen des RocksDB-Zustandsspeicheranbieters für die Speicherverwaltung SPARK-43311

Spark Connect

  • Refactoring des SQL-Moduls in sql und sql-api, um eine minimale Menge von Abhängigkeiten zu erzeugen, die zwischen dem Scala Spark Connect-Client und Spark gemeinsam genutzt werden können, und verhindert das Abrufen aller transitiven Spark-Abhängigkeiten. SPARK-44273
  • Einführung des Scala-Clients für Spark Connect SPARK-42554
  • Pandas-API-Unterstützung für den Python Spark Connect Client SPARK-42497
  • PyTorch-basierte verteilte ML-Unterstützung für Spark Connect SPARK-42471
  • Unterstützung für strukturiertes Streaming für Spark Connect in Python und Scala SPARK-42938
  • Erste Version des Go-Clients SPARK-43351
  • Viele Kompatibilitätsverbesserungen zwischen Spark-nativen und Spark Connect-Clients in Python und Scala
  • Verbesserte Debugbarkeit und Anforderungsverarbeitung für Clientanwendungen (asynchrone Verarbeitung, Wiederholungen, langlebige Abfragen)

Spark SQL

Funktionen

  • Start und Länge der Metadatenspaltendatei hinzufügen SPARK-42423
  • Unterstützung von Positionsparametern in Scala/Java sql() SPARK-44066
  • Hinzufügen der Unterstützung benannter Parameter im Parser für Funktionsaufrufe SPARK-43922
  • Unterstützen von SELECT DEFAULT mit ORDER BY, LIMIT, OFFSET für INSERT-Quellbeziehung SPARK-43071
  • Hinzufügen von SQL-Grammatik für PARTITION BY- und ORDER BY-Klausel nach TABLE-Argumenten für TVF-Aufrufe SPARK-44503
  • Einschließen von Spaltenstandardwerten in DESCRIBE- und SHOW CREATE TABLE-Ausgabe SPARK-42123
  • Optionales Muster für Catalog.listCatalogs hinzufügen SPARK-43792
  • Optionales Muster für Catalog.listDatabases hinzufügen SPARK-43881
  • Rückruf, wenn für Ausführung bereit SPARK-44145
  • Unterstützen der Insert By Name-Anweisung SPARK-42750
  • Hinzufügen von call_function für Scala-API SPARK-44131
  • Stabile abgeleitete Spaltenaliase SPARK-40822
  • Unterstützen allgemeiner Konstantenausdrücke als CREATE/REPLACE TABLE OPTIONS-Werte SPARK-43529
  • Unterstützung von Unterabfragen mit Korrelation über INTERSECT/EXCEPT SPARK-36124
  • IDENTIFIER-Klausel SPARK-43205
  • ANSI MODE: Conv sollte einen Fehler zurückgeben, wenn die interne Konvertierung überläuft SPARK-42427

Funktionen

  • Unterstützung für Datasketches HllSketch hinzufügen SPARK-16484
  • Unterstützung des CBC-Modus durch aes_encrypt()/aes_decrypt() SPARK-43038
  • Unterstützen der TABLE-Argumentparserregel für TableValuedFunction SPARK-44200
  • Implementieren von Bitmapfunktionen SPARK-44154
  • Hinzufügen der Funktion try_aes_decrypt() SPARK-42701
  • array_insert sollte mit 0 Index fehlschlagen SPARK-43011
  • Hinzufügen von to_varchar Alias für to_char SPARK-43815
  • Funktion hoher Ordnung: array_compact-Implementierung SPARK-41235
  • Hinzufügen der Analysetoolunterstützung benannter Argumente für integrierte Funktionen SPARK-44059
  • NULL für INSERT-Befehle mit vom Benutzer angegebenen Listen mit weniger Spalten als die Zieltabelle hinzufügen SPARK-42521
  • Hinzufügen der Unterstützung für aes_encrypt-IVs und AAD SPARK-43290
  • DECODE-Funktion gibt falsche Ergebnisse zurück, wenn NULL übergeben wurde SPARK-41668
  • Unterstützung von udf ‘luhn_check’ SPARK-42191
  • Unterstützung der impliziten Auflösung des Alias von lateralen Spalten für Aggregat SPARK-41631
  • Unterstützung impliziter lateraler Spaltenalias in Abfragen mit Window SPARK-42217
  • Hinzufügen von 3-args-Funktionsaliasen DATE_ADD und DATE_DIFF SPARK-43492

Data Sources (Datenquellen)

  • Char/Varchar-Unterstützung für JDBC-Katalog SPARK-42904
  • Unterstützen des dynamischen Abrufs von SQL-Schlüsselwörtern über JDBC-API und TVF SPARK-43119
  • DataSource V2: Behandeln von MERGE-Befehlen für deltabasierte Quellen SPARK-43885
  • DataSource V2: Behandeln von MERGE-Befehlen für gruppenbasierte Quellen SPARK-43963
  • DataSource V2: Behandeln von UPDATE-Befehlen für gruppenbasierte Quellen SPARK-43975
  • DataSource V2: Zulassen der Darstellung von Updates als Lösch- und Einfügevorgänge SPARK-43775
  • Ermöglichen des Überschreibens der Abfrage zum Erstellen einer Tabelle für JDBC-Dialekte SPARK-41516
  • SPJ: Unterstützen teilweise gruppierter Verteilung SPARK-42038
  • DSv2 ermöglicht CTAS/RTAS das Beibehalten von Schema-NULL-Zulässigkeit SPARK-43390
  • Hinzufügen von spark.sql.files.maxPartitionNum SPARK-44021
  • Behandeln von UPDATE-Befehlen für deltabasierte Quellen SPARK-43324
  • Zulassen von V2-Schreibvorgängen, um Größenempfehlung für Shufflepartitionen anzugeben SPARK-42779
  • Unterstützung des lz4raw-Kompressionscodec für Parquet SPARK-43273
  • Avro: Schreiben komplexer Unions SPARK-25050
  • Beschleunigen des Zeitstempel-Typrückschlusses mit benutzerdefiniertem Format in JSON-/CSV-Datenquelle SPARK-39280
  • Avro-Unterstützung für benutzerdefinierte Dezimaltypen, gestützt von Long SPARK-43901
  • Vermeiden von Mischvorgängen im speicherpartitionierten Join, wenn die Partitionsschlüssel nicht übereinstimmen, die Join-Ausdrücke aber kompatibel sind SPARK-41413
  • Ändern der Binärdatei in nicht unterstützten dataType im CSV-Format SPARK-42237
  • Gestatten der Konvertierung des Union-Typs in SQL für Avro, wobei der Feldname mit dem Typ stabil bleibt SPARK-43333
  • Beschleunigen des Zeitstempel-Typrückschlusses mit älterem Format in JSON-/CSV-Datenquelle SPARK-39281

Abfrageoptimierung

  • Unterstützen der Beseitigung von Unterausdruck bei Verknüpfungsausdruck SPARK-42815
  • Verbessern der Bewertung von Joinstatistiken, wenn eine Seite die Eindeutigkeit beibehalten kann SPARK-39851
  • Einführen des Fenster-Gruppengrenzwerts für rangbasierte Filter zur Optimierung der Top-K-Berechnung SPARK-37099
  • Beheben des Verhaltens von null IN (leere Liste) in Optimierungsregeln SPARK-44431
  • Rückschließen und Herabsetzen des Fensterlimits, wenn partitionSpec leer ist SPARK-41171
  • Entfernen des äußeren Joins, wenn es sich um verschiedene Aggregatfunktionen handelt SPARK-42583
  • Reduzieren von zwei benachbarten Fenstern mit derselben Partition/Reihenfolge in Unterabfragen SPARK-42525
  • Pushdownlimit über Python-UDFs SPARK-42115
  • Optimierung der Reihenfolge der Filter-Prädikate SPARK-40045

Codegenerierung und Abfrageausführung

  • Der Runtime-Filter sollte eine Mehrebenen-Shuffle-Join-Seite als Filtererstellungsseite unterstützen SPARK-41674
  • Codegen-Unterstützung für HiveSimpleUDF SPARK-42052
  • Codegen-Unterstützung für HiveGenericUDF SPARK-42051
  • Codegenerierungs-Unterstützung für buildseitigen äußeren gemischten Hashjoin SPARK-44060
  • Implementieren der Codegenerierung für to_csv-Funktion (StructsToCsv) SPARK-42169
  • Ermöglichen der Unterstützung von AQE für inMemoryTableScanExec SPARK-42101
  • Unterstützen des linken äußeren Joinbuilds links oder der rechten äußeren Joinbuilds rechts im gemischten Hashjoin SPARK-36612
  • [SPARK-43088] [SC-128403][SQL] Beachten von RequiresDistributionAndOrdering in CTAS/RTAS
  • Zusammenfügen von Buckets in Join, die auf der Broadcastjoin-Streamseite angewendet wurden SPARK-43107
  • Korrektes Festlegen von „Nullwerte zulassend“ bei zusammengeführtem Joinschlüssel in vollständigem äußerem USING-Join SPARK-44251
  • Beheben der NULL-Zulässigkeit der IN-Unterabfrage ListQuery SPARK-43413

Andere wichtige Änderungen

  • Korrektes Festlegen von Nullwerte zulassenden Elementen für Schlüssel in USING-Joins SPARK-43718
  • Beheben des Fehlers COUNT(*) ist null in korrelierten skalaren Unterabfragen SPARK-43156
  • Der äußere Join von Dataframe.joinWith sollte einen NULL-Wert für nicht übereinstimmende Zeilen zurückgeben SPARK-37829
  • Automatisches Umbenennen in Konflikt stehender Metadatenspalten SPARK-42683
  • Dokumentieren der Spark-SQL-Fehlerklassen in der benutzerdefinierten Dokumentation SPARK-42706

PySpark

Funktionen

  • Unterstützung von Positionsparametern in Python sql() SPARK-44140
  • Unterstützung von parametrisierter SQL durch sql() SPARK-41666
  • Unterstützen von benutzerdefinierten Python-Tabellenfunktionen SPARK-43797
  • Unterstützung für das Festlegen einer ausführbaren Python-Datei für UDF- und Pandas-Funktions-APIs in Workern während der Laufzeit SPARK-43574
  • Hinzufügen von DataFrame.offset zu PySpark SPARK-43213
  • Implementieren von dir() in pyspark.sql.dataframe.DataFrame, um Spalten einzubeziehen SPARK-43270
  • Hinzufügen einer Option zum Verwenden von Vektoren mit großer variabler Breite für Arrow-UDF-Vorgänge SPARK-39979
  • Ermöglichen der Unterstützung von mapInPandas / mapInArrow für die Ausführung des Barrieremodus SPARK-42896
  • Hinzufügen von JobTag-APIs zu PySpark SparkContext SPARK-44194
  • Unterstützung für Python-UDTF zum Analysieren in Python SPARK-44380
  • Verfügbarmachen von TimestampNTZType in pyspark.sql.types SPARK-43759
  • Unterstützung des geschachtelten Zeitstempeltyps SPARK-43545
  • Unterstützen von UserDefinedType in createDataFrame aus Pandas DataFrame und toPandas [SPARK-43817][SPARK-43702]https://issues.apache.org/jira/browse/SPARK-43702)
  • Hinzufügen binärer Deskriptoroption zur Pyspark Protobuf-API SPARK-43799
  • Akzeptieren von Generics-Tupel als Eingabehinweise für Pandas-UDF SPARK-43886
  • Hinzufügen der array_prepend-Funktion SPARK-41233
  • Hinzufügen der AssertDataFrameEqual util-Funktion SPARK-44061
  • Unterstützen von für Arrow optimierten Python-UDTFs SPARK-43964
  • Zulassen der benutzerdefinierten Genauigkeit für fp approx-Gleichheit SPARK-44217
  • Festlegen der AssertSchemaEqual-API als öffentlich SPARK-44216
  • Unterstützung von fill_value für ps.Series SPARK-42094
  • Unterstützen des Strukturtyps in createDataFrame aus Pandas-DataFrame SPARK-43473

Andere wichtige Änderungen

  • Hinzufügen von AutoVervollständigen-Unterstützung für df[|] in pyspark.sql.dataframe.DataFrame [SPARK-43892]
  • Einstellen und Entfernen der APIs, die in Pandas 2.0 entfernt werden [SPARK-42593]
  • Python zur ersten Registerkarte für Codebeispiele machen – Spark SQL, DataFrames und Datasets Guide SPARK-42493
  • Aktualisieren der verbleibenden Codebeispiele in der Spark-Dokumentation zum standardmäßigen Anzeigen von Python SPARK-42642
  • Verwenden von deduplizierten Feldnamen beim Erstellen von Arrow RecordBatch [SPARK-41971]
  • Unterstützen duplizierter Feldnamen in createDataFrame mit Pandas-DataFrame [SPARK-43528]
  • columns-Parameter beim Erstellen von DataFrame mit Series zulassen [SPARK-42194]

Kernspeicher

  • Planen von MergeFinalize, wenn Pushen der Zusammenführung von shuffleMapStage neu versucht wird, aber keine ausgeführten Tasks vorhanden sind SPARK-40082
  • Einführen von PartitionEvaluator für die Ausführung des SQL-Operators SPARK-43061
  • Ermöglichen der Deklaration der zuverlässigen Speicherung von Shuffledaten für ShuffleDriverComponent SPARK-42689
  • Hinzufügen eines Grenzwerts für die maximale Anzahl von Versuchen für Stages, um potenziell endlose Wiederholungen zu vermeiden SPARK-42577
  • Unterstützen der Konfiguration auf Protokollebene mit statischer Spark-Konfiguration SPARK-43782
  • Optimieren von PercentileHeap SPARK-42528
  • Argument „reason“ zu TaskScheduler.cancelTasks hinzufügen SPARK-42602
  • Vermeiden Sie unnötige erneute Aufgabenausführungen auf außer Betrieb gesetztem Executor, der verloren geht, wenn Shuffle-Daten migriert werden SPARK-41469
  • Korrigieren der zu gering erfassten Akkumulatoranzahl im Fall der Wiederholungsaufgabe mit RDD-Cache SPARK-41497
  • Standardmäßiges Verwenden von RocksDB für spark.history.store.hybridStore.diskBackend SPARK-42277
  • NonFateSharingCache-Wrapper für Guava Cache SPARK-43300
  • Verbessern der Leistung von MapOutputTracker.updateMapOutput SPARK-43043
  • Zulassen, dass Apps steuern können, ob ihre Metadaten vom externen Shuffledienst in der Datenbank gespeichert werden SPARK-43179
  • Hinzufügen von SPARK_DRIVER_POD_IP env-Variable zu Executor-Pods SPARK-42769
  • Bindet die hadoop-ConfigMap auf dem Executor-Pod ein SPARK-43504

Strukturiertes Streaming

  • Hinzufügen von Unterstützung für die Nachverfolgung der Speicherauslastung angehefteter Blöcke für den RocksDB-Zustandsspeicher SPARK-43120
  • Hinzufügen von Verbesserungen des RocksDB-Zustandsspeicheranbieters für die Speicherverwaltung SPARK-43311
  • Einführung von dropDuplicatesWithinWatermark SPARK-42931
  • Einführen eines neuen Rückrufs „onQueryIdle“ für StreamingQueryListener SPARK-43183
  • Hinzufügen der Option zum Überspringen des Commitkoordinators als Teil der StreamingWrite-API für DSv2-Quellen/-Senken SPARK-42968
  • Einführen eines neuen Rückrufs „onQueryIdle“ für StreamingQueryListener SPARK-43183
  • Implementieren von Änderungsprotokoll-basierten Prüfpunkten für Anbieter des RocksDB-Zustandsspeichers SPARK-43421
  • Hinzufügen von Unterstützung für WRITE_FLUSH_BYTES für beim Streaming zustandsbehafteter Operatoren verwendete RocksDB SPARK-42792
  • Hinzufügen von Unterstützung für das Festlegen von max_write_buffer_number und write_buffer_size für beim Streaming verwendete RocksDB SPARK-42819
  • RocksDB StateStore-Lock-Erfassung sollte erfolgen, nachdem der Eingabe-Iterator von inputRDD abgerufen wurde SPARK-42566
  • Einführung der Wasserzeichenweitergabe zwischen Betreibern SPARK-42376
  • Bereinigen von verwaisten Dateien und Protokolldateien im RocksDB-Prüfpunktverzeichnis SPARK-42353
  • Erweitern von QueryTerminatedEvent um eine Fehlerklasse, wenn sie in der Ausnahme vorhanden ist SPARK-43482

ML

  • Unterstützen des verteilten Trainings von Funktionen mithilfe von Deepspeed SPARK-44264
  • Basisschnittstellen von sparkML für spark3.5: estimator/transformer/model/evaluator SPARK-43516
  • MLv2-Unterstützung (ML in Spark Connect) für Pandas >= 2.0 SPARK-43783
  • Aktualisieren von MLv2-Transformatorschnittstellen SPARK-43516
  • Neuer pyspark-ML-Schätzer für logistische Regression oberhalb des Verteilers implementiert SPARK-43097
  • Erneutes Hinzufügen von Classifier.getNumClasses SPARK-42526
  • Schreiben einer Deepspeed-Klasse DeepspeedTorchDistributor für verteiltes Lernen SPARK-44264
  • Grundlegende Implementierung zum Speichern/Laden von ML in Spark Connect SPARK-43981
  • Verbessern des Speicherns des logistischen Regressionsmodells SPARK-43097
  • Implementieren eines Pipelineschätzers für ML in Spark Connect SPARK-43982
  • Implementieren eines Validierungssteuerelement-übergreifenden Schätzers SPARK-43983
  • Implementieren der Klassifizierungsauswertung SPARK-44250
  • Herstellen von Kompatibilität des PyTorch-Verteilers mit Spark Connect SPARK-42993

Benutzeroberfläche

  • Hinzufügen einer Spark UI-Seite für Spark Connect SPARK-44394
  • Unterstützung der Heap-Histogrammspalte auf der Registerkarte „Executors“ SPARK-44153
  • Anzeigen einer Fehlermeldung für jede fehlgeschlagene Abfrage auf der Benutzeroberfläche SPARK-44367
  • Anzeigen der Zeit für Hinzufügen/Entfernen von Executors auf der Registerkarte „Executors“ SPARK-44309

Build und andere

Entfernungen, Verhaltensänderungen und Einstellungen

Bevorstehende Entfernung

Die folgenden Features werden in der nächsten Spark-Hauptversion entfernt

  • Unterstützung für Java 8 und Java 11, und die minimale unterstützte Java-Version wird Java 17 sein
  • Unterstützung für Scala 2.12, und die minimale unterstützte Scala-Version wird 2.13 sein

Migrationshandbücher

Databricks ODBC/JDBC-Treiberunterstützung

Databricks unterstützt ODBC-/JDBC-Treiber, die in den letzten 2 Jahren veröffentlicht wurden. Laden Sie die kürzlich veröffentlichten Treiber herunter, und führen Sie ein Upgrade durch (ODBC herunterladen, JDBC herunterladen).

Systemumgebung

  • Betriebssystem: Ubuntu 22.04.3 LTS
  • Java: Zulu 8.70.0.23-CA-linux64
  • Scala: 2.12.15
  • Python: 3.10.12
  • R: 4.3.1
  • Delta Lake: 2.4.0

Installierte Python-Bibliotheken

Bibliothek Version Bibliothek Version Bibliothek Version
anyio 3.5.0 argon2-cffi 21.3.0 argon2-cffi-bindings 21.2.0
asttokens 2.0.5 attrs 22.1.0 backcall 0.2.0
beautifulsoup4 4.11.1 black 22.6.0 bleach 4.1.0
blinker 1.4 boto3 1.24.28 botocore 1.27.96
certifi 2022.12.7 cffi 1.15.1 chardet 4.0.0
charset-normalizer 2.0.4 Klicken 8.0.4 comm 0.1.2
contourpy 1.0.5 cryptography 39.0.1 cycler 0.11.0
Cython 0.29.32 databricks-sdk 0.1.6 dbus-python 1.2.18
debugpy 1.6.7 decorator 5.1.1 defusedxml 0.7.1
distlib 0.3.7 docstring-to-markdown 0,11 entrypoints 0,4
executing 0.8.3 facets-overview 1.1.1 fastjsonschema 2.18.0
filelock 3.12.2 fonttools 4.25.0 GCC-Laufzeitbibliothek 1.10.0
googleapis-common-protos 1.60.0 grpcio 1.48.2 grpcio-status 1.48.1
httplib2 0.20.2 idna 3.4 importlib-metadata 4.6.4
ipykernel 6.25.0 ipython 8.14.0 ipython-genutils 0.2.0
ipywidgets 7.7.2 jedi 0.18.1 jeepney 0.7.1
Jinja2 3.1.2 jmespath 0.10.0 joblib 1.2.0
jsonschema 4.17.3 jupyter-client 7.3.4 jupyter-server 1.23.4
jupyter_core 5.2.0 jupyterlab-pygments 0.1.2 jupyterlab-widgets 1.0.0
keyring 23.5.0 kiwisolver 1.4.4 launchpadlib 1.10.16
lazr.restfulclient 0.14.4 lazr.uri 1.0.6 lxml 4.9.1
MarkupSafe 2.1.1 matplotlib 3.7.0 matplotlib-inline 0.1.6
mccabe 0.7.0 mistune 0.8.4 more-itertools 8.10.0
mypy-extensions 0.4.3 nbclassic 0.5.2 nbclient 0.5.13
nbconvert 6.5.4 nbformat 5.7.0 nest-asyncio 1.5.6
nodeenv 1.8.0 Notebook 6.5.2 notebook_shim 0.2.2
numpy 1.23.5 oauthlib 3.2.0 Packen 22.0
Pandas 1.5.3 pandocfilters 1.5.0 parso 0.8.3
pathspec 0.10.3 patsy 0.5.3 pexpect 4.8.0
pickleshare 0.7.5 Pillow 9.4.0 pip 22.3.1
platformdirs 2.5.2 plotly 5.9.0 pluggy 1.0.0
prometheus-client 0.14.1 prompt-toolkit 3.0.36 protobuf 4.24.0
psutil 5.9.0 psycopg2 2.9.3 ptyprocess 0.7.0
pure-eval 0.2.2 pyarrow 8.0.0 pycparser 2.21
pydantic 1.10.6 pyflakes 3.0.1 Pygments 2.11.2
PyGObject 3.42.1 PyJWT 2.3.0 pyodbc 4.0.32
pyparsing 3.0.9 pyright 1.1.294 pyrsistent 0.18.0
Python-dateutil 2.8.2 python-lsp-jsonrpc 1.0.0 python-lsp-server 1.7.1
pytoolconfig 1.2.5 pytz 2022.7 pyzmq 23.2.0
requests 2.28.1 rope 1.7.0 s3transfer 0.6.1
scikit-learn 1.1.1 seaborn 0.12.2 SecretStorage 3.3.1
Send2Trash 1.8.0 setuptools 65.6.3 sechs 1.16.0
sniffio 1.2.0 soupsieve 2.3.2.post1 ssh-import-id 5.11
stack-data 0.2.0 statsmodels 0.13.5 tenacity 8.1.0
terminado 0.17.1 threadpoolctl 2.2.0 tinycss2 1.2.1
tokenize-rt 4.2.1 tomli 2.0.1 tornado 6.1
traitlets 5.7.1 typing_extensions 4.4.0 ujson 5.4.0
unattended-upgrades 0,1 urllib3 1.26.14 virtualenv 20.16.7
wadllib 1.3.6 wcwidth 0.2.5 webencodings 0.5.1
websocket-client 0.58.0 whatthepatch 1.0.2 wheel 0.38.4
widgetsnbextension 3.6.1 yapf 0.31.0 zipp 1.0.0

Installierte R-Bibliotheken

R-Bibliotheken werden aus der Posit Package Manager CRAN-Momentaufnahme am 2023-07-13installiert.

Bibliothek Version Bibliothek Version Bibliothek Version
Pfeil 12.0.1 askpass 1.1 assertthat 0.2.1
backports 1.4.1 base 4.3.1 base64enc 0.1-3
bit 4.0.5 bit64 4.0.5 Blob 1.2.4
boot 1.3-28 brew 1,0 - 8 brio 1.1.3
broom 1.0.5 bslib 0.5.0 cachem 1.0.8
callr 3.7.3 caret 6.0-94 cellranger 1.1.0
chron 2.3-61 class 7.3-22 cli 3.6.1
clipr 0.8.0 clock 0.7.0 cluster 2.1.4
codetools 0.2-19 colorspace 2.1-0 commonmark 1.9.0
compiler 4.3.1 config 0.3.1 conflicted 1.2.0
cpp11 0.4.4 crayon 1.5.2 Anmeldeinformationen 1.3.2
curl 5.0.1 data.table 1.14.8 datasets 4.3.1
DBI 1.1.3 dbplyr 2.3.3 desc 1.4.2
devtools 2.4.5 Diagramm 1.6.5 diffobj 0.3.5
digest 0.6.33 downlit 0.4.3 dplyr 1.1.2
dtplyr 1.3.1 e1071 1.7-13 ellipsis 0.3.2
Evaluieren 0,21 fansi 1.0.4 farver 2.1.1
fastmap 1.1.1 fontawesome 0.5.1 forcats 1.0.0
foreach 1.5.2 foreign 0.8-82 forge 0.2.0
fs 1.6.2 future 1.33.0 future.apply 1.11.0
gargle 1.5.1 generics 0.1.3 gert 1.9.2
ggplot2 3.4.2 gh 1.4.0 gitcreds 0.1.2
glmnet 4.1-7 globals 0.16.2 glue 1.6.2
googledrive 2.1.1 googlesheets4 1.1.1 gower 1.0.1
Grafiken 4.3.1 grDevices 4.3.1 grid 4.3.1
gridExtra 2.3 gsubfn 0.7 gtable 0.3.3
hardhat 1.3.0 haven 2.5.3 highr 0,10
hms 1.1.3 htmltools 0.5.5 htmlwidgets 1.6.2
httpuv 1.6.11 httr 1.4.6 httr2 0.2.3
ids 1.0.1 ini 0.3.1 ipred 0.9-14
isoband 0.2.7 iterators 1.0.14 jquerylib 0.1.4
jsonlite 1.8.7 KernSmooth 2.23-21 knitr 1,43
labeling 0.4.2 later 1.3.1 lattice 0.21-8
lava 1.7.2.1 Lebenszyklus 1.0.3 listenv 0.9.0
lubridate 1.9.2 magrittr 2.0.3 markdown 1.7
MASS 7.3-60 Matrix 1.5-4.1 memoise 2.0.1
Methoden 4.3.1 mgcv 1.8-42 mime 0,12
miniUI 0.1.1.1 ModelMetrics 1.2.2.2 modelr 0.1.11
munsell 0.5.0 nlme 3.1-162 nnet 7.3-19
numDeriv 2016.8-1.1 openssl 2.0.6 parallel 4.3.1
parallelly 1.36.0 pillar 1.9.0 pkgbuild 1.4.2
pkgconfig 2.0.3 pkgdown 2.0.7 pkgload 1.3.2.1
plogr 0.2.0 plyr 1.8.8 praise 1.0.0
prettyunits 1.1.1 pROC 1.18.4 processx 3.8.2
prodlim 2023.03.31 profvis 0.3.8 Fortschritt 1.2.2
progressr 0.13.0 promises 1.2.0.1 proto 1.0.0
proxy 0.4-27 ps 1.7.5 purrr 1.0.1
r2d3 0.2.6 R6 2.5.1 ragg 1.2.5
randomForest 4.7-1.1 rappdirs 0.3.3 rcmdcheck 1.4.0
RColorBrewer 1.1-3 Rcpp 1.0.11 RcppEigen 0.3.3.9.3
readr 2.1.4 readxl 1.4.3 recipes 1.0.6
rematch 1.0.1 rematch2 2.1.2 remotes 2.4.2
reprex 2.0.2 reshape2 1.4.4 rlang 1.1.1
rmarkdown 2.23 RODBC 1.3-20 roxygen2 7.2.3
rpart 4.1.19 rprojroot 2.0.3 Rserve 1.8-11
RSQLite 2.3.1 rstudioapi 0.15.0 rversions 2.1.2
rvest 1.0.3 sass 0.4.6 scales 1.2.1
selectr 0.4-2 sessioninfo 1.2.2 shape 1.4.6
shiny 1.7.4.1 sourcetools 0.1.7-1 sparklyr 1.8.1
SparkR 3.5.0 spatial 7.3-15 splines 4.3.1
sqldf 0.4-11 SQUAREM 2021.1 stats 4.3.1
stats4 4.3.1 stringi 1.7.12 stringr 1.5.0
survival 3.5-5 sys 3.4.2 systemfonts 1.0.4
tcltk 4.3.1 testthat 3.1.10 textshaping 0.3.6
tibble 3.2.1 tidyr 1.3.0 tidyselect 1.2.0
tidyverse 2.0.0 timechange 0.2.0 timeDate 4022.108
tinytex 0.45 Tools 4.3.1 tzdb 0.4.0
urlchecker 1.0.1 usethis 2.2.2 utf8 1.2.3
utils 4.3.1 uuid 1.1-0 vctrs 0.6.3
viridisLite 0.4.2 vroom 1.6.3 waldo 0.5.1
whisker 0.4.1 withr 2.5.0 xfun 0.39
xml2 1.3.5 xopen 1.0.0 xtable 1.8-4
yaml 2.3.7 zip 2.3.0

Installierte Java- und Scala-Bibliotheken (Scala 2.12-Clusterversion)

Gruppen-ID Artefakt-ID Version
antlr antlr 2.7.7
com.amazonaws amazon-kinesis-client 1.12.0
com.amazonaws aws-java-sdk-autoscaling 1.12.390
com.amazonaws aws-java-sdk-cloudformation 1.12.390
com.amazonaws aws-java-sdk-cloudfront 1.12.390
com.amazonaws aws-java-sdk-cloudhsm 1.12.390
com.amazonaws aws-java-sdk-cloudsearch 1.12.390
com.amazonaws aws-java-sdk-cloudtrail 1.12.390
com.amazonaws aws-java-sdk-cloudwatch 1.12.390
com.amazonaws aws-java-sdk-cloudwatchmetrics 1.12.390
com.amazonaws aws-java-sdk-codedeploy 1.12.390
com.amazonaws aws-java-sdk-cognitoidentity 1.12.390
com.amazonaws aws-java-sdk-cognitosync 1.12.390
com.amazonaws aws-java-sdk-config 1.12.390
com.amazonaws aws-java-sdk-core 1.12.390
com.amazonaws aws-java-sdk-datapipeline 1.12.390
com.amazonaws aws-java-sdk-directconnect 1.12.390
com.amazonaws aws-java-sdk-directory 1.12.390
com.amazonaws aws-java-sdk-dynamodb 1.12.390
com.amazonaws aws-java-sdk-ec2 1.12.390
com.amazonaws aws-java-sdk-ecs 1.12.390
com.amazonaws aws-java-sdk-efs 1.12.390
com.amazonaws aws-java-sdk-elasticache 1.12.390
com.amazonaws aws-java-sdk-elasticbeanstalk 1.12.390
com.amazonaws aws-java-sdk-elasticloadbalancing 1.12.390
com.amazonaws aws-java-sdk-elastictranscoder 1.12.390
com.amazonaws aws-java-sdk-emr 1.12.390
com.amazonaws aws-java-sdk-glacier 1.12.390
com.amazonaws aws-java-sdk-glue 1.12.390
com.amazonaws aws-java-sdk-iam 1.12.390
com.amazonaws aws-java-sdk-importexport 1.12.390
com.amazonaws aws-java-sdk-kinesis 1.12.390
com.amazonaws aws-java-sdk-kms 1.12.390
com.amazonaws aws-java-sdk-lambda 1.12.390
com.amazonaws aws-java-sdk-logs 1.12.390
com.amazonaws aws-java-sdk-machinelearning 1.12.390
com.amazonaws aws-java-sdk-opsworks 1.12.390
com.amazonaws aws-java-sdk-rds 1.12.390
com.amazonaws aws-java-sdk-redshift 1.12.390
com.amazonaws aws-java-sdk-route53 1.12.390
com.amazonaws aws-java-sdk-s3 1.12.390
com.amazonaws aws-java-sdk-ses 1.12.390
com.amazonaws aws-java-sdk-simpledb 1.12.390
com.amazonaws aws-java-sdk-simpleworkflow 1.12.390
com.amazonaws aws-java-sdk-sns 1.12.390
com.amazonaws aws-java-sdk-sqs 1.12.390
com.amazonaws aws-java-sdk-ssm 1.12.390
com.amazonaws aws-java-sdk-storagegateway 1.12.390
com.amazonaws aws-java-sdk-sts 1.12.390
com.amazonaws aws-java-sdk-support 1.12.390
com.amazonaws aws-java-sdk-swf-libraries 1.11.22
com.amazonaws aws-java-sdk-workspaces 1.12.390
com.amazonaws jmespath-java 1.12.390
com.clearspring.analytics Datenstrom 2.9.6
com.databricks Rserve 1.8-3
com.databricks databricks-sdk-java 0.2.0
com.databricks jets3t 0.7.1-0
com.databricks.scalapb compilerplugin_2.12 0.4.15-10
com.databricks.scalapb scalapb-runtime_2.12 0.4.15-10
com.esotericsoftware kryo-shaded 4.0.2
com.esotericsoftware minlog 1.3.0
com.fasterxml classmate 1.3.4
com.fasterxml.jackson.core jackson-annotations 2.15.2
com.fasterxml.jackson.core jackson-core 2.15.2
com.fasterxml.jackson.core jackson-databind 2.15.2
com.fasterxml.jackson.dataformat jackson-dataformat-cbor 2.15.2
com.fasterxml.jackson.datatype jackson-datatype-joda 2.15.2
com.fasterxml.jackson.datatype jackson-datatype-jsr310 2.15.1
com.fasterxml.jackson.module jackson-module-paranamer 2.15.2
com.fasterxml.jackson.module jackson-module-scala_2.12 2.15.2
com.github.ben-manes.caffeine caffeine 2.9.3
com.github.fommil jniloader 1.1
com.github.fommil.netlib native_ref-java 1.1
com.github.fommil.netlib native_ref-java 1.1-natives
com.github.fommil.netlib native_system-java 1.1
com.github.fommil.netlib native_system-java 1.1-natives
com.github.fommil.netlib netlib-native_ref-linux-x86_64 1.1-natives
com.github.fommil.netlib netlib-native_system-linux-x86_64 1.1-natives
com.github.luben zstd-jni 1.5.5-4
com.github.wendykierp JTransforms 3.1
com.google.code.findbugs jsr305 3.0.0
com.google.code.gson gson 2.10.1
com.google.crypto.tink tink 1.9.0
com.google.errorprone error_prone_annotations 2.10.0
com.google.flatbuffers flatbuffers-java 1.12.0
com.google.guava guava 15.0
com.google.protobuf protobuf-java 2.6.1
com.helger profiler 1.1.1
com.jcraft jsch 0.1.55
com.jolbox bonecp 0.8.0.RELEASE
com.lihaoyi sourcecode_2.12 0.1.9
com.microsoft.azure azure-data-lake-store-sdk 2.3.9
com.microsoft.sqlserver mssql-jdbc 11.2.2.jre8
com.ning compress-lzf 1.1.2
com.sun.mail javax.mail 1.5.2
com.sun.xml.bind jaxb-core 2.2.11
com.sun.xml.bind jaxb-impl 2.2.11
com.tdunning json 1.8
com.thoughtworks.paranamer paranamer 2.8
com.trueaccord.lenses lenses_2.12 0.4.12
com.twitter chill-java 0.10.0
com.twitter chill_2.12 0.10.0
com.twitter util-app_2.12 7.1.0
com.twitter util-core_2.12 7.1.0
com.twitter util-function_2.12 7.1.0
com.twitter util-jvm_2.12 7.1.0
com.twitter util-lint_2.12 7.1.0
com.twitter util-registry_2.12 7.1.0
com.twitter util-stats_2.12 7.1.0
com.typesafe config 1.2.1
com.typesafe.scala-logging scala-logging_2.12 3.7.2
com.uber h3 3.7.0
com.univocity univocity-parsers 2.9.1
com.zaxxer HikariCP 4.0.3
commons-cli commons-cli 1.5.0
commons-codec commons-codec 1.16.0
commons-collections commons-collections 3.2.2
commons-dbcp commons-dbcp 1.4
commons-fileupload commons-fileupload 1.5
commons-httpclient commons-httpclient 3.1
commons-io commons-io 2.13.0
commons-lang commons-lang 2.6
commons-logging commons-logging 1.1.3
commons-pool commons-pool 1.5.4
dev.ludovic.netlib arpack 3.0.3
dev.ludovic.netlib blas 3.0.3
dev.ludovic.netlib lapack 3.0.3
info.ganglia.gmetric4j gmetric4j 1.0.10
io.airlift aircompressor 0.24
io.delta delta-sharing-spark_2.12 0.7.1
io.dropwizard.metrics metrics-annotation 4.2.19
io.dropwizard.metrics metrics-core 4.2.19
io.dropwizard.metrics metrics-graphite 4.2.19
io.dropwizard.metrics metrics-healthchecks 4.2.19
io.dropwizard.metrics metrics-jetty9 4.2.19
io.dropwizard.metrics metrics-jmx 4.2.19
io.dropwizard.metrics metrics-json 4.2.19
io.dropwizard.metrics metrics-jvm 4.2.19
io.dropwizard.metrics metrics-servlets 4.2.19
io.netty netty-all 4.1.93.Final
io.netty netty-buffer 4.1.93.Final
io.netty netty-codec 4.1.93.Final
io.netty netty-codec-http 4.1.93.Final
io.netty netty-codec-http2 4.1.93.Final
io.netty netty-codec-socks 4.1.93.Final
io.netty netty-common 4.1.93.Final
io.netty netty-handler 4.1.93.Final
io.netty netty-handler-proxy 4.1.93.Final
io.netty netty-resolver 4.1.93.Final
io.netty netty-transport 4.1.93.Final
io.netty netty-transport-classes-epoll 4.1.93.Final
io.netty netty-transport-classes-kqueue 4.1.93.Final
io.netty netty-transport-native-epoll 4.1.93.Final
io.netty netty-transport-native-epoll 4.1.93.Final-linux-aarch_64
io.netty netty-transport-native-epoll 4.1.93.Final-linux-x86_64
io.netty netty-transport-native-kqueue 4.1.93.Final-osx-aarch_64
io.netty netty-transport-native-kqueue 4.1.93.Final-osx-x86_64
io.netty netty-transport-native-unix-common 4.1.93.Final
io.prometheus simpleclient 0.7.0
io.prometheus simpleclient_common 0.7.0
io.prometheus simpleclient_dropwizard 0.7.0
io.prometheus simpleclient_pushgateway 0.7.0
io.prometheus simpleclient_servlet 0.7.0
io.prometheus.jmx Sammlung 0.12.0
jakarta.annotation jakarta.annotation-api 1.3.5
jakarta.servlet jakarta.servlet-api 4.0.3
jakarta.validation jakarta.validation-api 2.0.2
jakarta.ws.rs jakarta.ws.rs-api 2.1.6
javax.activation activation 1.1.1
javax.el javax.el-api 2.2.4
javax.jdo jdo-api 3.0.1
javax.transaction jta 1.1
javax.transaction transaction-api 1.1
javax.xml.bind jaxb-api 2.2.11
javolution javolution 5.5.1
jline jline 2.14.6
joda-time joda-time 2.12.1
net.java.dev.jna jna 5.8.0
net.razorvine pickle 1.3
net.sf.jpam jpam 1.1
net.sf.opencsv opencsv 2.3
net.sf.supercsv super-csv 2.2.0
net.snowflake snowflake-ingest-sdk 0.9.6
net.snowflake snowflake-jdbc 3.13.33
net.sourceforge.f2j arpack_combined_all 0,1
org.acplt.remotetea remotetea-oncrpc 1.1.2
org.antlr ST4 4.0.4
org.antlr antlr-runtime 3.5.2
org.antlr antlr4-runtime 4.9.3
org.antlr stringtemplate 3.2.1
org.apache.ant ant 1.9.16
org.apache.ant ant-jsch 1.9.16
org.apache.ant ant-launcher 1.9.16
org.apache.arrow arrow-format 12.0.1
org.apache.arrow arrow-memory-core 12.0.1
org.apache.arrow arrow-memory-netty 12.0.1
org.apache.arrow arrow-vector 12.0.1
org.apache.avro avro 1.11.2
org.apache.avro avro-ipc 1.11.2
org.apache.avro avro-mapred 1.11.2
org.apache.commons commons-collections4 4.4
org.apache.commons commons-compress 1.23.0
org.apache.commons commons-crypto 1.1.0
org.apache.commons commons-lang3 3.12.0
org.apache.commons commons-math3 3.6.1
org.apache.commons commons-text 1.10.0
org.apache.curator curator-client 2.13.0
org.apache.curator curator-framework 2.13.0
org.apache.curator curator-recipes 2.13.0
org.apache.datasketches datasketches-java 3.1.0
org.apache.datasketches datasketches-memory 2.0.0
org.apache.derby derby 10.14.2.0
org.apache.hadoop hadoop-client-runtime 3.3.6
org.apache.hive hive-beeline 2.3.9
org.apache.hive hive-cli 2.3.9
org.apache.hive hive-jdbc 2.3.9
org.apache.hive hive-llap-client 2.3.9
org.apache.hive hive-llap-common 2.3.9
org.apache.hive hive-serde 2.3.9
org.apache.hive hive-shims 2.3.9
org.apache.hive hive-storage-api 2.8.1
org.apache.hive.shims hive-shims-0.23 2.3.9
org.apache.hive.shims hive-shims-common 2.3.9
org.apache.hive.shims hive-shims-scheduler 2.3.9
org.apache.httpcomponents httpclient 4.5.14
org.apache.httpcomponents httpcore 4.4.16
org.apache.ivy ivy 2.5.1
org.apache.logging.log4j log4j-1.2-api 2.20.0
org.apache.logging.log4j log4j-api 2.20.0
org.apache.logging.log4j log4j-core 2.20.0
org.apache.logging.log4j log4j-slf4j2-impl 2.20.0
org.apache.mesos mesos 1.11.0-shaded-protobuf
org.apache.orc orc-core 1.9.0-shaded-protobuf
org.apache.orc orc-mapreduce 1.9.0-shaded-protobuf
org.apache.orc orc-shims 1.9.0
org.apache.thrift libfb303 0.9.3
org.apache.thrift libthrift 0.12.0
org.apache.xbean xbean-asm9-shaded 4.23
org.apache.yetus audience-annotations 0.13.0
org.apache.zookeeper zookeeper 3.6.3
org.apache.zookeeper zookeeper-jute 3.6.3
org.checkerframework checker-qual 3.31.0
org.codehaus.jackson jackson-core-asl 1.9.13
org.codehaus.jackson jackson-mapper-asl 1.9.13
org.codehaus.janino commons-compiler 3.0.16
org.codehaus.janino janino 3.0.16
org.datanucleus datanucleus-api-jdo 4.2.4
org.datanucleus datanucleus-core 4.1.17
org.datanucleus datanucleus-rdbms 4.1.19
org.datanucleus javax.jdo 3.2.0-m3
org.eclipse.jetty jetty-client 9.4.51.v20230217
org.eclipse.jetty jetty-continuation 9.4.51.v20230217
org.eclipse.jetty jetty-http 9.4.51.v20230217
org.eclipse.jetty jetty-io 9.4.51.v20230217
org.eclipse.jetty jetty-jndi 9.4.51.v20230217
org.eclipse.jetty jetty-plus 9.4.51.v20230217
org.eclipse.jetty jetty-proxy 9.4.51.v20230217
org.eclipse.jetty jetty-security 9.4.51.v20230217
org.eclipse.jetty jetty-server 9.4.51.v20230217
org.eclipse.jetty jetty-servlet 9.4.51.v20230217
org.eclipse.jetty jetty-servlets 9.4.51.v20230217
org.eclipse.jetty jetty-util 9.4.51.v20230217
org.eclipse.jetty jetty-util-ajax 9.4.51.v20230217
org.eclipse.jetty jetty-webapp 9.4.51.v20230217
org.eclipse.jetty jetty-xml 9.4.51.v20230217
org.eclipse.jetty.websocket websocket-api 9.4.51.v20230217
org.eclipse.jetty.websocket websocket-client 9.4.51.v20230217
org.eclipse.jetty.websocket websocket-common 9.4.51.v20230217
org.eclipse.jetty.websocket websocket-server 9.4.51.v20230217
org.eclipse.jetty.websocket websocket-servlet 9.4.51.v20230217
org.fusesource.leveldbjni leveldbjni-all 1.8
org.glassfish.hk2 hk2-api 2.6.1
org.glassfish.hk2 hk2-locator 2.6.1
org.glassfish.hk2 hk2-utils 2.6.1
org.glassfish.hk2 osgi-resource-locator 1.0.3
org.glassfish.hk2.external aopalliance-repackaged 2.6.1
org.glassfish.hk2.external jakarta.inject 2.6.1
org.glassfish.jersey.containers jersey-container-servlet 2.40
org.glassfish.jersey.containers jersey-container-servlet-core 2.40
org.glassfish.jersey.core jersey-client 2.40
org.glassfish.jersey.core jersey-common 2.40
org.glassfish.jersey.core jersey-server 2.40
org.glassfish.jersey.inject jersey-hk2 2.40
org.hibernate.validator hibernate-validator 6.1.7.Final
org.ini4j ini4j 0.5.4
org.javassist javassist 3.29.2-GA
org.jboss.logging jboss-logging 3.3.2.Final
org.jdbi jdbi 2.63.1
org.jetbrains annotations 17.0.0
org.joda joda-convert 1.7
org.jodd jodd-core 3.5.2
org.json4s json4s-ast_2.12 3.7.0-M11
org.json4s json4s-core_2.12 3.7.0-M11
org.json4s json4s-jackson_2.12 3.7.0-M11
org.json4s json4s-scalap_2.12 3.7.0-M11
org.lz4 lz4-java 1.8.0
org.mariadb.jdbc mariadb-java-client 2.7.9
org.mlflow mlflow-spark 2.2.0
org.objenesis objenesis 2.5.1
org.postgresql postgresql 42.6.0
org.roaringbitmap RoaringBitmap 0.9.45
org.roaringbitmap shims 0.9.45
org.rocksdb rocksdbjni 8.3.2
org.rosuda.REngine REngine 2.1.0
org.scala-lang scala-compiler_2.12 2.12.15
org.scala-lang scala-library_2.12 2.12.15
org.scala-lang scala-reflect_2.12 2.12.15
org.scala-lang.modules scala-collection-compat_2.12 2.9.0
org.scala-lang.modules scala-parser-combinators_2.12 1.1.2
org.scala-lang.modules scala-xml_2.12 1.2.0
org.scala-sbt test-interface 1.0
org.scalacheck scalacheck_2.12 1.14.2
org.scalactic scalactic_2.12 3.2.15
org.scalanlp breeze-macros_2.12 2.1.0
org.scalanlp breeze_2.12 2.1.0
org.scalatest scalatest-compatible 3.2.15
org.scalatest scalatest-core_2.12 3.2.15
org.scalatest scalatest-diagrams_2.12 3.2.15
org.scalatest scalatest-featurespec_2.12 3.2.15
org.scalatest scalatest-flatspec_2.12 3.2.15
org.scalatest scalatest-freespec_2.12 3.2.15
org.scalatest scalatest-funspec_2.12 3.2.15
org.scalatest scalatest-funsuite_2.12 3.2.15
org.scalatest scalatest-matchers-core_2.12 3.2.15
org.scalatest scalatest-mustmatchers_2.12 3.2.15
org.scalatest scalatest-propspec_2.12 3.2.15
org.scalatest scalatest-refspec_2.12 3.2.15
org.scalatest scalatest-shouldmatchers_2.12 3.2.15
org.scalatest scalatest-wordspec_2.12 3.2.15
org.scalatest scalatest_2.12 3.2.15
org.slf4j jcl-over-slf4j 2.0.7
org.slf4j jul-to-slf4j 2.0.7
org.slf4j slf4j-api 2.0.7
org.threeten threeten-extra 1.7.1
org.tukaani xz 1.9
org.typelevel algebra_2.12 2.0.1
org.typelevel cats-kernel_2.12 2.1.1
org.typelevel spire-macros_2.12 0.17.0
org.typelevel spire-platform_2.12 0.17.0
org.typelevel spire-util_2.12 0.17.0
org.typelevel spire_2.12 0.17.0
org.wildfly.openssl wildfly-openssl 1.1.3.Final
org.xerial sqlite-jdbc 3.42.0.0
org.xerial.snappy snappy-java 1.1.10.3
org.yaml snakeyaml 2.0
oro oro 2.0.8
pl.edu.icm JLargeArrays 1.5
software.amazon.cryptools AmazonCorrettoCryptoProvider 1.6.1-linux-x86_64
software.amazon.ion ion-java 1.0.2
stax stax-api 1.0.1