Databricks Runtime 7.0 (EoS)

Artikel
09/03/2024

Kommentar

Stödet för den här Databricks Runtime-versionen har upphört. Information om slutdatumet för support finns i Historik över supportens slut. Alla Databricks Runtime-versioner som stöds finns i Databricks Runtime-versionsanteckningar och kompatibilitet.

Databricks släppte den här versionen i juni 2020.

Följande viktig information innehåller information om Databricks Runtime 7.0, som drivs av Apache Spark 3.0.

Nya funktioner

Databricks Runtime 7.0 innehåller följande nya funktioner:

Scala 2.12

Databricks Runtime 7.0 uppgraderar Scala från 2.11.12 till 2.12.10. Ändringslistan mellan Scala 2.12 och 2.11 finns i viktig information om Scala 2.12.0.
Automatisk inläsning (offentlig förhandsversion), som släpptes i Databricks Runtime 6.4, har förbättrats i Databricks Runtime 7.0

Automatisk inläsning ger dig ett effektivare sätt att bearbeta nya datafiler stegvis när de kommer till ett molnbloblager under ETL. Detta är en förbättring jämfört med filbaserad strukturerad direktuppspelning, som identifierar nya filer genom att upprepade gånger lista molnkatalogen och spåra de filer som har setts och kan vara mycket ineffektiv när katalogen växer. Automatisk inläsning är också mer praktiskt och effektivt än filmeddelandebaserad strukturerad direktuppspelning, vilket kräver att du manuellt konfigurerar filmeddelandetjänster i molnet och inte låter dig fylla på befintliga filer igen. Mer information finns i Vad är automatisk inläsning?.

På Databricks Runtime 7.0 behöver du inte längre begära en anpassad Databricks Runtime-avbildning för att kunna använda automatisk inläsning.
COPY INTO (Offentlig förhandsversion), som gör att du kan läsa in data i Delta Lake med idempotenta återförsök, har förbättrats i Databricks Runtime 7.0

Sql-kommandot släpptes som en offentlig förhandsversion i Databricks Runtime 6.4 och COPY INTO låter dig läsa in data i Delta Lake med idempotenta återförsök. Om du vill läsa in data i Delta Lake idag måste du använda Apache Spark DataFrame-API:er. Om det uppstår fel vid belastningar måste du hantera dem effektivt. Det nya COPY INTO kommandot tillhandahåller ett välbekant deklarativt gränssnitt för att läsa in data i SQL. Kommandot håller reda på tidigare inlästa filer och du kör dem på ett säkert sätt vid fel. Mer information finns i KOPIERA TILL.

Förbättringar

Azure Synapse-anslutningsprogrammet (tidigare SQL Data Warehouse) stöder -instruktionen COPY .

Den största fördelen COPY med är att användare med lägre privilegier kan skriva data till Azure Synapse utan att behöva strikta CONTROL behörigheter för Azure Synapse.
Det %matplotlib inline magiska kommandot krävs inte längre för att visa Matplolib-objekt infogade i notebook-celler. De visas alltid infogade som standard.
Matplolib-siffror återges nu med transparent=False, så att användardefinierade bakgrunder inte går förlorade. Det här beteendet kan åsidosättas genom att ange Spark-konfiguration .spark.databricks.workspace.matplotlib.transparent true
När du kör produktionsjobb för strukturerad direktuppspelning i kluster med hög samtidighet misslyckas ibland omstarter av ett jobb, eftersom det jobb som tidigare kördes inte avslutades korrekt. Databricks Runtime 6.3 introducerade möjligheten att ange SQL-konfigurationen spark.sql.streaming.stopActiveRunOnRestart true i klustret för att säkerställa att den föregående körningen stoppas. Den här konfigurationen anges som standard i Databricks Runtime 7.0.

Större biblioteksändringar

Python-paket

Större Python-paket har uppgraderats:

boto3 1.9.162 -> 1.12.0
matplotlib 3.0.3 -> 3.1.3
numpy 1.16.2 -> 1.18.1
pandas 0.24.2 -> 1.0.1
pip 19.0.3 -> 20.0.2
pyarrow 0.13.0 -> 0.15.1
psycopg2 2.7.6 -> 2.8.4
scikit-learn 0.20.3 -> 0.22.1
scipy 1.2.1 -> 1.4.1
seaborn 0.9.0 -> 0.10.0

Python-paket har tagits bort:

boto (använd boto3)
pycurl

Kommentar

Python-miljön i Databricks Runtime 7.0 använder Python 3.7, som skiljer sig från det installerade Ubuntu-systemet Python: /usr/bin/python och /usr/bin/python2 är länkade till Python 2.7 och /usr/bin/python3 är länkade till Python 3.6.

R-paket

R-paket har lagts till:

kvast
highr
isoband
stickning
Markdown
modelr
reprex
rmarkdown
rvest
väljare
tidyverse
tinytex
xfun

R-paket har tagits bort:

abind
bitops
car
carData
doMC
Gbm
h2o
Littler
lme4
mapproj
Kartor
maptools
MatrixModels
minqa
mvtnorm
nloptr
openxlsx
pbkrtest
pkgKitten
quantreg
R.methodsS3
R.oo
R.utils
RcppEigen
RCurl
Rio
Sp
SparseM
statmod
Zip

Java- och Scala-bibliotek

Apache Hive-version som används för hantering av Användardefinierade Hive-funktioner och Hive SerDes uppgraderas till 2.3.
Tidigare paketerades Azure Storage- och Key Vault-jars som en del av Databricks Runtime, vilket skulle hindra dig från att använda olika versioner av de bibliotek som är kopplade till kluster. Klasser under com.microsoft.azure.storage och com.microsoft.azure.keyvault finns inte längre på klasssökvägen i Databricks Runtime. Om du är beroende av någon av dessa klasssökvägar måste du nu koppla Azure Storage SDK eller Azure Key Vault SDK till dina kluster.

Funktionalitetsförändringar

I det här avsnittet visas beteendeändringar från Databricks Runtime 6.6 till Databricks Runtime 7.0. Du bör känna till dessa när du migrerar arbetsbelastningar från lägre Databricks Runtime-versioner till Databricks Runtime 7.0 och senare.

Ändringar i Spark-beteende

Eftersom Databricks Runtime 7.0 är den första Databricks Runtime som bygger på Spark 3.0 finns det många ändringar som du bör känna till när du migrerar arbetsbelastningar från Databricks Runtime 5.5 LTS eller 6.x, som bygger på Spark 2.4. Dessa ändringar visas i avsnittet "Beteendeändringar" i varje funktionsområde i avsnittet Apache Spark i den här artikeln om viktig information:

Beteendeändringar för Spark Core, Spark SQL och Structured Streaming
Beteendeändringar för MLlib
Beteendeändringar för SparkR

Andra beteendeändringar

Uppgraderingen till Scala 2.12 omfattar följande ändringar:
- Paketcells serialisering hanteras på olika sätt. I följande exempel visas beteendeförändringen och hur du hanterar den.
  
  Om du kör foo.bar.MyObjectInPackageCell.run() enligt definitionen i följande paketcell utlöses felet java.lang.NoClassDefFoundError: Could not initialize class foo.bar.MyObjectInPackageCell$
```
package foo.bar

case class MyIntStruct(int: Int)

import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions._
import org.apache.spark.sql.Column

object MyObjectInPackageCell extends Serializable {

  // Because SparkSession cannot be created in Spark executors,
  // the following line triggers the error
  // Could not initialize class foo.bar.MyObjectInPackageCell$
  val spark = SparkSession.builder.getOrCreate()

  def foo: Int => Option[MyIntStruct] = (x: Int) => Some(MyIntStruct(100))

  val theUDF = udf(foo)

  val df = {
    val myUDFInstance = theUDF(col("id"))
    spark.range(0, 1, 1, 1).withColumn("u", myUDFInstance)
  }

  def run(): Unit = {
    df.collect().foreach(println)
  }
}
```
  Om du vill undvika det här felet kan du omsluta MyObjectInPackageCell i en serialiserbar klass.
- Vissa fall som använder DataStreamWriter.foreachBatch kräver en källkodsuppdatering. Den här ändringen beror på att Scala 2.12 har automatisk konvertering från lambda-uttryck till SAM-typer och kan orsaka tvetydighet.
  
  Följande Scala-kod kan till exempel inte kompileras:
```
streams
  .writeStream
  .foreachBatch { (df, id) => myFunc(df, id) }
```
  Åtgärda kompileringsfelet genom att ändra foreachBatch { (df, id) => myFunc(df, id) } till foreachBatch(myFunc _) eller använda Java-API:et explicit: foreachBatch(new VoidFunction2 ...).
Eftersom Apache Hive-versionen som används för att hantera Användardefinierade Hive-funktioner och Hive SerDes uppgraderas till 2.3 krävs två ändringar:
- Hive-gränssnittet ersätts SerDe av en abstrakt klass AbstractSerDe. För alla anpassade Hive-implementeringar SerDe krävs migrering till AbstractSerDe .
- builtin Inställningen spark.sql.hive.metastore.jars innebär att Hive 2.3-metaarkivklienten används för att komma åt metaarkiv för Databricks Runtime 7.0. Om du behöver komma åt Hive 1.2-baserade externa metaarkiv anger du spark.sql.hive.metastore.jars till mappen som innehåller Hive 1.2-jars.

Utfasningar och borttagningar

Datahoppningsindex inaktuella i Databricks Runtime 4.3 och togs bort i Databricks Runtime 7.0. Vi rekommenderar att du använder Delta-tabeller i stället, vilket ger förbättrade funktioner för datahopp.
I Databricks Runtime 7.0 använder den underliggande versionen av Apache Spark Scala 2.12. Eftersom bibliotek som kompilerats mot Scala 2.11 kan inaktivera Databricks Runtime 7.0-kluster på oväntade sätt, installerar kluster som kör Databricks Runtime 7.0 och senare inte bibliotek som har konfigurerats för att installeras på alla kluster. Fliken Klusterbibliotek visar status Skipped och ett utfasningsmeddelande som förklarar ändringarna i bibliotekshanteringen. Men om du har ett kluster som skapades på en tidigare version av Databricks Runtime innan Azure Databricks-plattformen version 3.20 släpptes till din arbetsyta och du nu redigerar klustret för att använda Databricks Runtime 7.0, installeras alla bibliotek som har konfigurerats för att installeras på alla kluster i klustret. I det här fallet kan eventuella inkompatibla JAR:er i de installerade biblioteken göra att klustret inaktiveras. Lösningen är antingen att klona klustret eller skapa ett nytt kluster.

Apache Spark

Databricks Runtime 7.0 innehåller Apache Spark 3.0.

Core, Spark SQL, Structured Streaming

Höjdpunkter

(Projektvätgas) Acceleratormedveten Scheduler (SPARK-24615)
Adaptiv frågekörning (SPARK-31412)
Dynamisk partitionsrensning (SPARK-11150)
Omdesignat Pandas UDF-API med typtips (SPARK-28264)
UI för strukturerad direktuppspelning (SPARK-29543)
API för katalog-plugin -program (SPARK-31121)
Bättre ANSI SQL-kompatibilitet

Prestandaförbättringar

Adaptiv frågekörning (SPARK-31412)
- Grundläggande ramverk (SPARK-23128)
- Justering av partitionsnummer efter shuffle (SPARK-28177)
- Dynamisk återanvändning av underfrågor (SPARK-28753)
- Lokal shuffle-läsare (SPARK-28560)
- Skev kopplingsoptimering (SPARK-29544)
- Optimera läsning av sammanhängande shuffle-block (SPARK-9853)
Dynamisk partitionsrensning (SPARK-11150)
Andra regler för optimerare
- Rule ReuseSubquery (SPARK-27279)
- Regel PushDownLeftSemiAntiJoin (SPARK-19712)
- Regel PushLeftSemiLeftAntiThroughJoin (SPARK-19712)
- Regel replaceNullWithFalse (SPARK-25860)
- Regel Eliminera sortering utan gräns i underfrågan i Join/Aggregation (SPARK-29343)
- Regel PruneHiveTablePartitions (SPARK-15616)
- Rensa onödiga kapslade fält från Generera (SPARK-27707)
- RegelomskrivningNonCorrelatedExists (SPARK-29800)
Minimera kostnaderna för synkronisering av tabellcachen (SPARK-26917), (SPARK-26617) (SPARK-26548)
Dela upp aggregeringskod i små funktioner (SPARK-21870)
Lägg till batchbearbetning i kommandot INSERT och ALTER TABLE ADD PARTITION (SPARK-29938)

Förbättringar av utökningsbarhet

API för katalog-plugin -program (SPARK-31121)
Refaktorisering av V2 API för datakälla (SPARK-25390)
Stöd för Hive 3.0 och 3.1-metaarkiv (SPARK-27970),(SPARK-24360)
Utöka Spark-plugin-gränssnittet till drivrutinen (SPARK-29396)
Utöka Spark-måttsystemet med användardefinierade mått med hjälp av plugin-program för exekutorer (SPARK-28091)
Utvecklar-API:er för utökad stöd för columnar-bearbetning (SPARK-27396)
Inbyggd källmigrering med DSV2: parquet, ORC, CSV, JSON, Kafka, Text, Avro (SPARK-27589)
Tillåt FunctionInjection i SparkExtensions (SPARK-25560)
Tillåter att Aggregator registreras som UDAF (SPARK-27296)

Förbättringar av anslutningsappen

Kolumnrensning genom nondeterministiska uttryck (SPARK-29768)
Stöd spark.sql.statistics.fallBackToHdfs i datakällatabeller (SPARK-25474)
Tillåt partitionsrensning med underfrågor på filkällan (SPARK-26893)
Undvik pushdown av underfrågor i datakällfilter (SPARK-25482)
Rekursiv datainläsning från filkällor (SPARK-27990)
Parquet/ORC
- Pushdown av disjunctive predikat (SPARK-27699)
- Generalisera kapslad kolumnrensning (SPARK-25603) och aktiverad som standard (SPARK-29805)
- Endast parquet
  - Parquet predikat-pushdown för kapslade fält (SPARK-17636)
- Endast ORC
  - Stöd för sammanslagningsschema för ORC (SPARK-11412)
  - Kapslad schemarensning för ORC (SPARK-27034)
  - Predicate conversion complexity reduction for ORC (SPARK-27105, SPARK-28108)
  - Uppgradera Apache ORC till 1.5.9 (SPARK-30695)
CSV
- Stödfilter för pushdown i CSV-datakälla (SPARK-30323)
Hive SerDe
- Ingen schemainferens vid läsning av Hive-serdetabell med intern datakälla (SPARK-27119)
- Hive CTAS-kommandon bör använda datakällan om den är konvertibel (SPARK-25271)
- Använda intern datakälla för att optimera infogning av partitionerad Hive-tabell (SPARK-28573)
Apache Kafka
- Lägg till stöd för Kafka-huvuden (SPARK-23539)
- Lägg till stöd för Kafka-delegeringstoken (SPARK-25501)
- Introducera nytt alternativ för Kafka-källa: förskjutning efter tidsstämpel (start/slut) (SPARK-26848)
- Stöd för minPartitions alternativet i Kafka batch source and streaming source v1 (SPARK-30656)
- Uppgradera Kafka till 2.4.1 (SPARK-31126)
Nya inbyggda datakällor
- Nya inbyggda binära fildatakällor (SPARK-25348)
- Nya no-op-batchdatakällor (SPARK-26550) och no-op streaming sink (SPARK-26649)

Funktionsförbättringar

[Väte] Acceleratormedveten Scheduler (SPARK-24615)
Introducera en fullständig uppsättning kopplingstips (SPARK-27225)
Lägg till PARTITION BY tips för SQL-frågor (SPARK-28746)
Metadatahantering i Thrift Server (SPARK-28426)
Lägga till högre ordningsfunktioner i scala API (SPARK-27297)
Stöd för enkel insamling i barriäraktivitetskontext (SPARK-30667)
Hive UDF:er stöder UDT-typen (SPARK-28158)
Stöd för DELETE/UPDATE/MERGE-operatorer i Catalyst (SPARK-28351, SPARK-28892, SPARK-28893)
Implementera DataFrame.tail (SPARK-30185)
Nya inbyggda funktioner
- sinh, cosh, tanh, asinh, acosh, atanh (SPARK-28133)
- alla, alla, vissa (SPARK-19851)
- bit_and, bit_or (SPARK-27879)
- bit_count (SPARK-29491)
- bit_xor (SPARK-29545)
- bool_and, bool_or (SPARK-30184)
- count_if (SPARK-27425)
- date_part (SPARK-28690)
- extrahering (SPARK-23903)
- forall (SPARK-27905)
- from_csv (SPARK-25393)
- make_date (SPARK-28432)
- make_interval (SPARK-29393)
- make_timestamp (SPARK-28459)
- map_entries (SPARK-23935)
- map_filter (SPARK-23937)
- map_zip_with (SPARK-23938)
- max_by, min_by (SPARK-27653)
- schema_of_csv (SPARK-25672)
- to_csv (SPARK-25638)
- transform_keys (SPARK-23939)
- transform_values (SPARK-23940)
- typeof (SPARK-29961)
- version (SPARK-29554)
- xxhash64 (SPARK-27099)
Förbättringar av befintliga inbyggda funktioner
- Inbyggda funktioner/driftförbättringar för datum och tid (SPARK-31415)
- Supportläge FAILFAST för from_json (SPARK-25243)
- array_sort lägger till en ny jämförelseparameter (SPARK-29020)
- Filtret kan nu ta indexet som indata samt elementet (SPARK-28962)

Förbättringar av SQL-kompatibilitet

Växla till proleptisk gregoriansk kalender (SPARK-26651)
Skapa Sparks egen datetime-mönsterdefinition (SPARK-31408)
Introducera ANSI-lagringstilldelningsprincip för tabellinfogning (SPARK-28495)
Följ ANSI-lagringstilldelningsregeln i tabellinfogning som standard (SPARK-28885)
Lägg till en SQLConf spark.sql.ansi.enabled (SPARK-28989)
Stöd för ANSI SQL-filtersats för aggregeringsuttryck (SPARK-27986)
Stöd för FUNKTIONEN ANSI SQL OVERLAY (SPARK-28077)
Stöd för ANSI-kapslade kommentarer (SPARK-28880)
Utlöser undantag vid spill för heltal (SPARK-26218)
Spillkontroll för intervallaritmetiska åtgärder (SPARK-30341)
Generera undantag när ogiltig sträng är gjuten till numerisk typ (SPARK-30292)
Gör intervall multiplicera och dividera överflödets beteende i enlighet med andra åtgärder (SPARK-30919)
Lägg till alias av ANSI-typ för tecken och decimaltecken (SPARK-29941)
SQL Parser definierar reserverade nyckelord som är ANSI-kompatibla (SPARK-26215)
Förbjud reserverade nyckelord som identifierare när ANSI-läget är aktiverat (SPARK-26976)
Stöd för ANSI SQL-syntax LIKE ... ESCAPE (SPARK-28083)
Stöd för ANSI SQL Boolean-Predicate syntax (SPARK-27924)
Bättre stöd för korrelerad underfrågor (SPARK-18455)

Förbättringar av övervakning och felsökning

Nytt gränssnitt för strukturerad direktuppspelning (SPARK-29543)
SHS: Tillåt att händelseloggar för att köra strömmande appar rullas över (SPARK-28594)
Lägg till ett API som gör att en användare kan definiera och observera godtyckliga mått på batch- och strömningsfrågor (SPARK-29345)
Instrumentation för att spåra planeringstid per fråga (SPARK-26129)
Placera de grundläggande shuffle-måtten i SQL Exchange-operatorn (SPARK-26139)
SQL-instruktionen visas på FLIKEN SQL i stället för anropsplatsen (SPARK-27045)
Lägg till knappbeskrivning i SparkUI (SPARK-29449)
Förbättra historikserverns samtidiga prestanda (SPARK-29043)
EXPLAIN FORMATTED kommando (SPARK-27395)
Stöd för dumpning av trunkerade planer och genererad kod till en fil (SPARK-26023)
Förbättra beskriv ramverket för att beskriva utdata från en fråga (SPARK-26982)
Lägg till SHOW VIEWS kommando (SPARK-31113)
Förbättra felmeddelandena för SQL-parser (SPARK-27901)
Stöd för Prometheus-övervakning internt (SPARK-29429)

PySpark-förbättringar

Omdesignade Pandas UDF:er med typtips (SPARK-28264)
Pandas UDF-pipeline (SPARK-26412)
Stöd för StructType som argument och returtyper för Scalar Pandas UDF (SPARK-27240 )
Stöd för Dataframe Cogroup via Pandas UDF:er (SPARK-27463)
Lägg till mapInPandas för att tillåta en iterator av DataFrames (SPARK-28198)
Vissa SQL-funktioner bör även ta kolumnnamn (SPARK-26979)
Gör PySpark SQL-undantag mer pythoniska (SPARK-31849)

Förbättringar av dokumentation och testtäckning

Skapa en SQL-referens (SPARK-28588)
Skapa en användarhandbok för WebUI (SPARK-28372)
Skapa en sida för SQL-konfigurationsdokumentation (SPARK-30510)
Lägg till versionsinformation för Spark-konfiguration (SPARK-30839)
Portregressionstester från PostgreSQL (SPARK-27763)
Thrift-server-testtäckning (SPARK-28608)
Testtäckning av UDF:er (python UDF, Pandas UDF, scala UDF) (SPARK-27921)

Andra viktiga ändringar

Inbyggd Hive-körningsuppgradering från 1.2.1 till 2.3.6 (SPARK-23710, SPARK-28723, SPARK-31381)
Använd Apache Hive 2.3-beroende som standard (SPARK-30034)
GA Scala 2.12 och ta bort 2.11 (SPARK-26132)
Förbättra logiken för tidsbestämning av körbara filer i dynamisk allokering (SPARK-20286)
Diskbeständiga RDD-block som hanteras av shuffle-tjänsten och ignoreras för dynamisk allokering (SPARK-27677)
Skaffa nya utförare för att undvika hängning på grund av blocklistning (SPARK-22148)
Tillåt delning av Nettys allokerare för minnespooler (SPARK-24920)
Åtgärda dödläge mellan TaskMemoryManager och UnsafeExternalSorter$SpillableIterator (SPARK-27338)
Introducera AdmissionControl API:er för StructuredStreaming (SPARK-30669)
Prestandaförbättring för Spark-historik för huvudsidan (SPARK-25973)
Snabba upp och banta måttaggregering i SQL-lyssnaren (SPARK-29562)
Undvik nätverket när shuffle-block hämtas från samma värd (SPARK-27651)
Förbättra fillistan för DistributedFileSystem (SPARK-27801)

Beteendeändringar för Spark Core, Spark SQL och Structured Streaming

Följande migreringsguider visar beteendeändringar mellan Apache Spark 2.4 och 3.0. Dessa ändringar kan kräva uppdateringar av jobb som du har kört på lägre Databricks Runtime-versioner:

Följande beteendeändringar beskrivs inte i dessa migreringsguider:

I Spark 3.0 har den inaktuella klassen org.apache.spark.sql.streaming.ProcessingTime tagits bort. Använd org.apache.spark.sql.streaming.Trigger.ProcessingTime i stället. org.apache.spark.sql.execution.streaming.continuous.ContinuousTrigger På samma sätt har tagits bort till förmån för Trigger.Continuous, och org.apache.spark.sql.execution.streaming.OneTimeTrigger har dolts till förmån för Trigger.Once. (SPARK-28199)
När du läser en Hive SerDe-tabell i Databricks Runtime 7.0 tillåter Spark som standard inte läsning av filer under en underkatalog som inte är en tabellpartition. Om du vill aktivera den anger du konfigurationen spark.databricks.io.hive.scanNonpartitionedDirectory.enabled som true. Detta påverkar inte spark-inbyggda tabellläsare och filläsare.

MLlib

Höjdpunkter

Stöd för flera kolumner lades till i Binarizer (SPARK-23578), StringIndexer (SPARK-11215), StopWordsRemover (SPARK-29808) och PySpark QuantileDiscretizer (SPARK-22796)
Stöd för trädbaserad funktionstransformering (SPARK-13677)
Två nya utvärderare MultilabelClassificationEvaluator (SPARK-16692) och RankingEvaluator (SPARK-28045) har lagts till
Stöd för exempelvikter lades till i DecisionTreeClassifier/Regressor (SPARK-19591), RandomForestClassifier/Regressor (SPARK-9478), GBTClassifier/Regressor (SPARK-9612), RegressionEvaluator (SPARK-9612)24102), BinaryClassificationEvaluator (SPARK-24103), BisectingKMeans (SPARK-30351), KMeans (SPARK-29967) och GaussianMixture (SPARK-30102)
R API för PowerIterationClustering lades till (SPARK-19827)
Spark ML-lyssnaren har lagts till för att spåra ML-pipelinestatus (SPARK-23674)
Anpassa med valideringsuppsättningen lades till i Gradient Boosted Trees i Python (SPARK-24333)
RobustScaler-transformatorn har lagts till (SPARK-28399)
Factorization Machines-klassificeraren och regressorn har lagts till (SPARK-29224)
Gaussian Naive Bayes (SPARK-16872) och Complement Naive Bayes (SPARK-29942) lades till
ML-funktionsparitet mellan Scala och Python (SPARK-28958)
predictRaw offentliggörs i alla klassificeringsmodeller. predictProbability offentliggörs i alla klassificeringsmodeller utom LinearSVCModel (SPARK-30358)

Beteendeändringar för MLlib

I följande migreringsguide visas beteendeändringar mellan Apache Spark 2.4 och 3.0. Dessa ändringar kan kräva uppdateringar av jobb som du har kört på lägre Databricks Runtime-versioner:

Migreringsguide: MLlib (Mašinsko učenje)

Följande beteendeändringar beskrivs inte i migreringsguiden:

I Spark 3.0 returnerar LogisticRegressionSummaryen logistisk regression med flera klasser i Pyspark nu (korrekt) , inte underklassen BinaryLogisticRegressionSummary. De ytterligare metoder som exponeras av BinaryLogisticRegressionSummary fungerar inte i det här fallet ändå. (SPARK-31681)
I Spark 3.0 pyspark.ml.param.shared.Has* tillhandahåller mixins inte längre några set*(self, value) settermetoder, använd respektive self.set(self.*, value) i stället. Mer information finns i SPARK-29093. (SPARK-29093)

SparkR

Piloptimering i SparkR:s samverkan (SPARK-26759)
Prestandaförbättring via vektoriserad R gapply(), dapply(), createDataFrame, collect()
"Ivrig körning" för R Shell, IDE (SPARK-24572)
R API för Power Iteration Clustering (SPARK-19827)

Beteendeändringar för SparkR

I följande migreringsguide visas beteendeändringar mellan Apache Spark 2.4 och 3.0. Dessa ändringar kan kräva uppdateringar av jobb som du har kört på lägre Databricks Runtime-versioner:

Migreringsguide: SparkR (R på Spark)

Utfasningar

Inaktuellt Python 2-stöd (SPARK-27884)
Inaktuellt R < 3.4-stöd (SPARK-26014)

Kända problem

Parsningsdag på året med mönsterbokstaven "D" returnerar fel resultat om fältet year saknas. Detta kan inträffa i SQL-funktioner som to_timestamp parsar datetime-sträng till datetime-värden med hjälp av en mönstersträng. (SPARK-31939)
Koppling/fönster/aggregering i underfrågor kan leda till fel resultat om nycklarna har värdena -0.0 och 0.0. (SPARK-31958)
En fönsterfråga kan misslyckas med tvetydiga självkopplingsfel oväntat. (SPARK-31956)
Strömningsfrågor med dropDuplicates operatorn kanske inte kan startas om med kontrollpunkten som skrivits av Spark 2.x. (SPARK-31990)

Underhållsuppdateringar

Se Underhållsuppdateringar för Databricks Runtime 7.0.

Systemmiljö

Operativsystem: Ubuntu 18.04.4 LTS
Java: 1.8.0_252
Scala: 2.12.10
Python: 3.7.5
R: R version 3.6.3 (2020-02-29)
Delta Lake 0.7.0

Installerade Python-bibliotek

Bibliotek	Version	Bibliotek	Version	Bibliotek	Version
asn1crypto	1.3.0	backcall	0.1.0	boto3	1.12.0
botocore	1.15.0	certifi	2020.4.5	cffi	1.14.0
chardet	3.0.4	kryptografi	2.8	cyklist	0.10.0
Cython	0.29.15	dekoratör	4.4.1	docutils	0.15.2
entrypoints	0,3	idna	2.8	ipykernel	5.1.4
ipython	7.12.0	ipython-genutils	0.2.0	jedi	0.14.1
jmespath	0.9.4	joblib	0.14.1	jupyter-client	5.3.4
jupyter-core	4.6.1	kiwisolver	1.1.0	matplotlib	3.1.3
numpy	1.18.1	Pandas	1.0.1	parso	0.5.2
Patsy	0.5.1	pexpect	4.8.0	pickleshare	0.7.5
pip	20.0.2	prompt-toolkit	3.0.3	psycopg2	2.8.4
ptyprocess	0.6.0	pyarrow	0.15.1	pycparser	2,19
Pygments	2.5.2	PyGObject	3.26.1	pyOpenSSL	19.1.0
pyparsing	2.4.6	PySocks	1.7.1	python-apt	1.6.5+ubuntu0.3
python-dateutil	2.8.1	pytz	2019.3	pyzmq	18.1.1
begäranden	2.22.0	s3transfer	0.3.3	scikit-learn	0.22.1
scipy	1.4.1	seaborn	0.10.0	setuptools	45.2.0
sex	1.14.0	ssh-import-id	5.7	statsmodels	0.11.0
tromb	6.0.3	traitlets	4.3.3	obevakade uppgraderingar	0,1
urllib3	1.25.8	virtualenv	16.7.10	wcwidth	0.1.8
hjul	0.34.2

Installerade R-bibliotek

R-bibliotek installeras från Microsoft CRAN-ögonblicksbilden 2020-04-22.

Bibliotek	Version	Bibliotek	Version	Bibliotek	Version
askpass	1,1	assertthat	0.2.1	backportar	1.1.6
bas	3.6.3	base64enc	0.1-3	BH	1.72.0-3
bit	1.1-15.2	bit64	0.9-7	blob	1.2.1
start	1.3-25	brygga	1.0-6	kvast	0.5.6
anropare	3.4.3	textmarkör	6.0-86	cellranger	1.1.0
Chron	2.3-55	klass	7.3-17	cli	2.0.2
clipr	0.7.0	cluster	2.1.0	codetools	0.2-16
färgområde	1.4-1	commonmark	1,7	kompilator	3.6.3
config	0,3	covr	3.5.0	krita	1.3.4
Överhörning	1.1.0.1	hårlock	4.3	data.table	1.12.8
datauppsättningar	3.6.3	DBI	1.1.0	dbplyr	1.4.3
Desc	1.2.0	devtools	2.3.0	smälta	0.6.25
dplyr	0.8.5	DT	0,13	ellips	0.3.0
evaluate (utvärdera)	0,14	fansi	0.4.1	farver	2.0.3
fastmap	1.0.1	forcats	0.5.0	foreach	1.5.0
främmande	0.8-76	smida	0.2.0	Fs	1.4.1
Generika	0.0.2	ggplot2	3.3.0	Gh	1.1.0
git2r	0.26.1	glmnet	3.0-2	globals	0.12.5
lim	1.4.0	Gower	0.2.1	grafik	3.6.3
grDevices	3.6.3	gitter	3.6.3	gridExtra	2.3
gsubfn	0,7	gtable	0.3.0	hamn	2.2.0
highr	0,8	Hms	0.5.3	htmltools	0.4.0
htmlwidgets	1.5.1	httpuv	1.5.2	httr	1.4.1
hwriter	1.3.2	hwriterPlus	1.0-3	ini	0.3.1
ipred	0.9-9	isoband	0.2.1	Iteratorer	1.0.12
jsonlite	1.6.1	KernSmooth	2.23-17	stickning	1.28
Märkning	0,3	senare	1.0.0	Galler	0.20-41
lava	1.6.7	lazyeval	0.2.2	livscykel	0.2.0
lubridate	1.7.8	magrittr	1.5	Markdown	1,1
MASSA	7.3-51.6	Matris	1.2-18	pmise	1.1.0
metoder	3.6.3	mgcv	1.8-31	MIME	0,9
ModelMetrics	1.2.2.2	modelr	0.1.6	munsell	0.5.0
nlme	3.1-147	nnet	7.3-14	numDeriv	2016.8-1.1
openssl	1.4.1	parallel	3.6.3	pelare	1.4.3
pkgbuild	1.0.6	pkgconfig	2.0.3	pkgload	1.0.2
plogr	0.2.0	plyr	1.8.6	berömma	1.0.0
prettyunits	1.1.1	Proc	1.16.2	processx	3.4.2
prodlim	2019.11.13	Förlopp	1.2.2	Löften	1.1.0
Proto	1.0.0	PS	1.3.2	purrr	0.3.4
r2d3	0.2.3	R6	2.4.1	randomForest	4.6-14
rappdirs	0.3.1	rcmdcheck	1.3.3	RColorBrewer	1.1-2
Rcpp	1.0.4.6	readr	1.3.1	readxl	1.3.1
recept	0.1.10	Returmatch	1.0.1	rematch2	2.1.1
Fjärrkontroller	2.1.1	reprex	0.3.0	omforma2	1.4.4
Rex	1.2.0	rjson	0.2.20	rlang	0.4.5
rmarkdown	2.1	RODBC	1.3-16	roxygen2	7.1.0
rpart	4.1-15	rprojroot	1.3-2	Rserve	1.8-6
RSQLite	2.2.0	rstudioapi	0,11	rversioner	2.0.1
rvest	0.3.5	våg	1.1.0	väljare	0.4-2
sessioninfo	1.1.1	form	1.4.4	skinande	1.4.0.2
sourcetools	0.1.7	sparklyr	1.2.0	SparkR	3.0.0
rumslig	7.3-11	Splines	3.6.3	sqldf	0.4-11
SQUAREM	2020.2	statistik	3.6.3	stats4	3.6.3
stringi	1.4.6	stringr	1.4.0	överlevnad	3.1-12
sys	3.3	tcltk	3.6.3	TeachingDemos	2.10
testthat	2.3.2	tibble	3.0.1	tidyr	1.0.2
avmarkera	1.0.0	tidyverse	1.3.0	timeDate	3043.102
tinytex	0,22	verktyg	3.6.3	usethis	1.6.0
utf8	1.1.4	verktyg	3.6.3	vctrs	0.2.4
viridisLite	0.3.0	morrhår	0,4	withr	2.2.0
xfun	0,13	xml2	1.3.1	xopen	1.0.0
xtable	1.8-4	yaml	2.2.1

Installerade Java- och Scala-bibliotek (Scala 2.12-klusterversion)

Grupp-ID	Artefakt-ID	Version
antlr	antlr	2.7.7
com.amazonaws	amazon-kinesis-client	1.12.0
com.amazonaws	aws-java-sdk-autoscaling	1.11.655
com.amazonaws	aws-java-sdk-cloudformation	1.11.655
com.amazonaws	aws-java-sdk-cloudfront	1.11.655
com.amazonaws	aws-java-sdk-cloudhsm	1.11.655
com.amazonaws	aws-java-sdk-cloudsearch	1.11.655
com.amazonaws	aws-java-sdk-cloudtrail	1.11.655
com.amazonaws	aws-java-sdk-cloudwatch	1.11.655
com.amazonaws	aws-java-sdk-cloudwatchmetrics	1.11.655
com.amazonaws	aws-java-sdk-codedeploy	1.11.655
com.amazonaws	aws-java-sdk-cognitoidentity	1.11.655
com.amazonaws	aws-java-sdk-cognitosync	1.11.655
com.amazonaws	aws-java-sdk-config	1.11.655
com.amazonaws	aws-java-sdk-core	1.11.655
com.amazonaws	aws-java-sdk-datapipeline	1.11.655
com.amazonaws	aws-java-sdk-directconnect	1.11.655
com.amazonaws	aws-java-sdk-directory	1.11.655
com.amazonaws	aws-java-sdk-dynamodb	1.11.655
com.amazonaws	aws-java-sdk-ec2	1.11.655
com.amazonaws	aws-java-sdk-ecs	1.11.655
com.amazonaws	aws-java-sdk-efs	1.11.655
com.amazonaws	aws-java-sdk-elasticache	1.11.655
com.amazonaws	aws-java-sdk-elasticbeanstalk	1.11.655
com.amazonaws	aws-java-sdk-elasticloadbalancing	1.11.655
com.amazonaws	aws-java-sdk-elastictranscoder	1.11.655
com.amazonaws	aws-java-sdk-emr	1.11.655
com.amazonaws	aws-java-sdk-glacier	1.11.655
com.amazonaws	aws-java-sdk-iam	1.11.655
com.amazonaws	aws-java-sdk-importexport	1.11.655
com.amazonaws	aws-java-sdk-kinesis	1.11.655
com.amazonaws	aws-java-sdk-kms	1.11.655
com.amazonaws	aws-java-sdk-lambda	1.11.655
com.amazonaws	aws-java-sdk-logs	1.11.655
com.amazonaws	aws-java-sdk-machinelearning	1.11.655
com.amazonaws	aws-java-sdk-opsworks	1.11.655
com.amazonaws	aws-java-sdk-rds	1.11.655
com.amazonaws	aws-java-sdk-redshift	1.11.655
com.amazonaws	aws-java-sdk-route53	1.11.655
com.amazonaws	aws-java-sdk-s3	1.11.655
com.amazonaws	aws-java-sdk-ses	1.11.655
com.amazonaws	aws-java-sdk-simpledb	1.11.655
com.amazonaws	aws-java-sdk-simpleworkflow	1.11.655
com.amazonaws	aws-java-sdk-sns	1.11.655
com.amazonaws	aws-java-sdk-sqs	1.11.655
com.amazonaws	aws-java-sdk-ssm	1.11.655
com.amazonaws	aws-java-sdk-storagegateway	1.11.655
com.amazonaws	aws-java-sdk-sts	1.11.655
com.amazonaws	aws-java-sdk-support	1.11.655
com.amazonaws	aws-java-sdk-swf-libraries	1.11.22
com.amazonaws	aws-java-sdk-workspaces	1.11.655
com.amazonaws	jmespath-java	1.11.655
com.chuusai	shapeless_2.12	2.3.3
com.clearspring.analytics	ström	2.9.6
com.databricks	Rserve	1.8-3
com.databricks	jets3t	0.7.1-0
com.databricks.scalapb	compilerplugin_2.12	0.4.15-10
com.databricks.scalapb	scalapb-runtime_2.12	0.4.15-10
com.esotericsoftware	kryo-skuggad	4.0.2
com.esotericsoftware	minlog	1.3.0
com.fasterxml	klasskamrat	1.3.4
com.fasterxml.jackson.core	jackson-anteckningar	2.10.0
com.fasterxml.jackson.core	jackson-core	2.10.0
com.fasterxml.jackson.core	jackson-databind	2.10.0
com.fasterxml.jackson.dataformat	jackson-dataformat-cbor	2.10.0
com.fasterxml.jackson.datatype	jackson-datatype-joda	2.10.0
com.fasterxml.jackson.module	jackson-module-paranamer	2.10.0
com.fasterxml.jackson.module	jackson-module-scala_2.12	2.10.0
com.github.ben-manes.koffein	koffein	2.3.4
com.github.fommil	jniloader	1,1
com.github.fommil.netlib	kärna	1.1.2
com.github.fommil.netlib	native_ref-java	1,1
com.github.fommil.netlib	native_ref-java-natives	1,1
com.github.fommil.netlib	native_system-java	1,1
com.github.fommil.netlib	native_system-java-natives	1,1
com.github.fommil.netlib	netlib-native_ref-linux-x86_64-natives	1,1
com.github.fommil.netlib	netlib-native_system-linux-x86_64-natives	1,1
com.github.joshelser	dropwizard-metrics-hadoop-metrics2-reporter	0.1.2
com.github.luben	zstd-jni	1.4.4-3
com.github.wendykierp	JTransforms	3.1
com.google.code.findbugs	jsr305	3.0.0
com.google.code.gson	gson	2.2.4
com.google.flatbuffers	flatbuffers-java	1.9.0
com.google.guava	guava	15.0
com.google.protobuf	protobuf-java	2.6.1
com.h2database	h2	1.4.195
com.helger	profilerare	1.1.1
com.jcraft	jsch	0.1.50
com.jolbox	bonecp	0.8.0.RELEASE
com.microsoft.azure	azure-data-lake-store-sdk	2.2.8
com.microsoft.sqlserver	mssql-jdbc	8.2.1.jre8
com.ning	compress-lzf	1.0.3
com.sun.mail	javax.mail	1.5.2
com.tdunning	json	1.8
com.thoughtworks.paranamer	paranamer	2.8
com.trueaccord.lenses	lenses_2.12	0.4.12
com.twitter	chill-java	0.9.5
com.twitter	chill_2.12	0.9.5
com.twitter	util-app_2.12	7.1.0
com.twitter	util-core_2.12	7.1.0
com.twitter	util-function_2.12	7.1.0
com.twitter	util-jvm_2.12	7.1.0
com.twitter	util-lint_2.12	7.1.0
com.twitter	util-registry_2.12	7.1.0
com.twitter	util-stats_2.12	7.1.0
com.typesafe	config	1.2.1
com.typesafe.scala-logging	scala-logging_2.12	3.7.2
com.univocity	univocity-parsers	2.8.3
com.zaxxer	HikariCP	3.1.0
commons-beanutils	commons-beanutils	1.9.4
commons-cli	commons-cli	1.2
commons-codec	commons-codec	1.10
commons-collections	commons-collections	3.2.2
commons-configuration	commons-configuration	1.6
commons-dbcp	commons-dbcp	1.4
commons-digester	commons-digester	1.8
commons-fileupload	commons-fileupload	1.3.3
commons-httpclient	commons-httpclient	3.1
commons-io	commons-io	2.4
commons-lang	commons-lang	2,6
commons-logging	commons-logging	1.1.3
commons-net	commons-net	3.1
commons-pool	commons-pool	1.5.4
info.ganglia.gmetric4j	gmetric4j	1.0.10
io.airlift	aircompressor	0.10
io.dropwizard.metrics	metrics-core	4.1.1
io.dropwizard.metrics	metrics-graphite	4.1.1
io.dropwizard.metrics	metrics-healthchecks	4.1.1
io.dropwizard.metrics	metrics-jetty9	4.1.1
io.dropwizard.metrics	metrics-jmx	4.1.1
io.dropwizard.metrics	metrics-json	4.1.1
io.dropwizard.metrics	metrics-jvm	4.1.1
io.dropwizard.metrics	metrics-servlets	4.1.1
io.netty	netty-all	4.1.47.Final
jakarta.annotation	jakarta.annotation-api	1.3.5
jakarta.validation	jakarta.validation-api	2.0.2
jakarta.ws.rs	jakarta.ws.rs-api	2.1.6
javax.activation	aktivering	1.1.1
javax.el	javax.el-api	2.2.4
javax.jdo	jdo-api	3.0.1
javax.servlet	javax.servlet-api	3.1.0
javax.servlet.jsp	jsp-api	2.1
javax.transaction	jta	1,1
javax.transaction	transaction-api	1,1
javax.xml.bind	jaxb-api	2.2.2
javax.xml.stream	stax-api	1.0-2
javolution	javolution	5.5.1
jline	jline	2.14.6
joda-time	joda-time	2.10.5
log4j	apache-log4j-extras	1.2.17
log4j	log4j	1.2.17
net.razorvine	pyrolit	4.30
net.sf.jpam	jpam	1,1
net.sf.opencsv	opencsv	2.3
net.sf.supercsv	super-csv	2.2.0
net.snowflake	snowflake-ingest-sdk	0.9.6
net.snowflake	snowflake-jdbc	3.12.0
net.snowflake	spark-snowflake_2.12	2.5.9-spark_2.4
net.sourceforge.f2j	arpack_combined_all	0,1
org.acplt.remotetea	remotetea-oncrpc	1.1.2
org.antlr	ST4	4.0.4
org.antlr	antlr-runtime	3.5.2
org.antlr	antlr4-runtime	4.7.1
org.antlr	stringtemplate	3.2.1
org.apache.ant	Ant	1.9.2
org.apache.ant	ant-jsch	1.9.2
org.apache.ant	ant-launcher	1.9.2
org.apache.arrow	pilformat	0.15.1
org.apache.arrow	pilminne	0.15.1
org.apache.arrow	pilvektor	0.15.1
org.apache.avro	avro	1.8.2
org.apache.avro	avro-ipc	1.8.2
org.apache.avro	avro-mapred-hadoop2	1.8.2
org.apache.commons	commons-compress	1.8.1
org.apache.commons	commons-crypto	1.0.0
org.apache.commons	commons-lang3	3.9
org.apache.commons	commons-math3	3.4.1
org.apache.commons	commons-text	1.6
org.apache.curator	curator-client	2.7.1
org.apache.curator	curator-framework	2.7.1
org.apache.curator	curator-recept	2.7.1
org.apache.derby	Derby	10.12.1.1
org.apache.directory.api	api-asn1-api	1.0.0-M20
org.apache.directory.api	api-util	1.0.0-M20
org.apache.directory.server	apacheds-i18n	2.0.0-M15
org.apache.directory.server	apacheds-kerberos-codec	2.0.0-M15
org.apache.hadoop	hadoop-anteckningar	2.7.4
org.apache.hadoop	hadoop-auth	2.7.4
org.apache.hadoop	hadoop-client	2.7.4
org.apache.hadoop	hadoop-common	2.7.4
org.apache.hadoop	hadoop-hdfs	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-app	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-common	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-core	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-jobclient	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-shuffle	2.7.4
org.apache.hadoop	hadoop-yarn-api	2.7.4
org.apache.hadoop	hadoop-yarn-client	2.7.4
org.apache.hadoop	hadoop-yarn-common	2.7.4
org.apache.hadoop	hadoop-yarn-server-common	2.7.4
org.apache.hive	hive-beeline	2.3.7
org.apache.hive	hive-cli	2.3.7
org.apache.hive	hive-common	2.3.7
org.apache.hive	hive-exec-core	2.3.7
org.apache.hive	hive-jdbc	2.3.7
org.apache.hive	hive-llap-client	2.3.7
org.apache.hive	hive-llap-common	2.3.7
org.apache.hive	hive-metaarkiv	2.3.7
org.apache.hive	hive-serde	2.3.7
org.apache.hive	hive-shims	2.3.7
org.apache.hive	hive-storage-api	2.7.1
org.apache.hive	hive-vector-code-gen	2.3.7
org.apache.hive.shims	hive-shims-0.23	2.3.7
org.apache.hive.shims	hive-shims-common	2.3.7
org.apache.hive.shims	hive-shims-scheduler	2.3.7
org.apache.htrace	htrace-core	3.1.0-inkubering
org.apache.httpcomponents	httpclient	4.5.6
org.apache.httpcomponents	httpcore	4.4.12
org.apache.ivy	murgröna	2.4.0
org.apache.orc	orc-core	1.5.10
org.apache.orc	orc-mapreduce	1.5.10
org.apache.orc	orc-shims	1.5.10
org.apache.parquet	parquet-column	1.10.1.2-databricks4
org.apache.parquet	parquet-common	1.10.1.2-databricks4
org.apache.parquet	parquet-kodning	1.10.1.2-databricks4
org.apache.parquet	parquet-format	2.4.0
org.apache.parquet	parquet-hadoop	1.10.1.2-databricks4
org.apache.parquet	parquet-jackson	1.10.1.2-databricks4
org.apache.thrift	libfb303	0.9.3
org.apache.thrift	libthrift	0.12.0
org.apache.velocity	hastighet	1.5
org.apache.xbean	xbean-asm7-shaded	4.15
org.apache.yetus	åhörarkommentarer	0.5.0
org.apache.zookeeper	zookeeper	3.4.14
org.codehaus.jackson	jackson-core-asl	1.9.13
org.codehaus.jackson	jackson-jaxrs	1.9.13
org.codehaus.jackson	jackson-mapper-asl	1.9.13
org.codehaus.jackson	jackson-xc	1.9.13
org.codehaus.janino	commons-compiler	3.0.16
org.codehaus.janino	janino	3.0.16
org.datanucleus	datanucleus-api-jdo	4.2.4
org.datanucleus	datanucleus-core	4.1.17
org.datanucleus	datanucleus-rdbms	4.1.19
org.datanucleus	javax.jdo	3.2.0-m3
org.eclipse.jetty	jetty-client	9.4.18.v20190429
org.eclipse.jetty	jetty-fortsättning	9.4.18.v20190429
org.eclipse.jetty	jetty-http	9.4.18.v20190429
org.eclipse.jetty	brygga-io	9.4.18.v20190429
org.eclipse.jetty	jetty-jndi	9.4.18.v20190429
org.eclipse.jetty	brygga plus	9.4.18.v20190429
org.eclipse.jetty	jetty-proxy	9.4.18.v20190429
org.eclipse.jetty	jetty-security	9.4.18.v20190429
org.eclipse.jetty	brygga-server	9.4.18.v20190429
org.eclipse.jetty	brygga-servlet	9.4.18.v20190429
org.eclipse.jetty	jetty-servlets	9.4.18.v20190429
org.eclipse.jetty	brygga-util	9.4.18.v20190429
org.eclipse.jetty	jetty-webapp	9.4.18.v20190429
org.eclipse.jetty	jetty-xml	9.4.18.v20190429
org.fusesource.leveldbjni	leveldbjni-all	1.8
org.glassfish.hk2	hk2-api	2.6.1
org.glassfish.hk2	hk2-locator	2.6.1
org.glassfish.hk2	hk2-utils	2.6.1
org.glassfish.hk2	osgi-resource-locator	1.0.3
org.glassfish.hk2.external	aopalliance-repackaged	2.6.1
org.glassfish.hk2.external	jakarta.inject	2.6.1
org.glassfish.jersey.containers	jersey-container-servlet	2.30
org.glassfish.jersey.containers	jersey-container-servlet-core	2.30
org.glassfish.jersey.core	jersey-client	2.30
org.glassfish.jersey.core	jersey-common	2.30
org.glassfish.jersey.core	jersey-server	2.30
org.glassfish.jersey.inject	jersey-hk2	2.30
org.glassfish.jersey.media	jersey-media-jaxb	2.30
org.hibernate.validator	vilolägesverifierare	6.1.0.Final
org.javassist	javassist	3.25.0-GA
org.jboss.logging	jboss-logging	3.3.2.Final
org.jdbi	jdbi	2.63.1
org.joda	joda-convert	1,7
org.jodd	jodd-core	3.5.2
org.json4s	json4s-ast_2.12	3.6.6
org.json4s	json4s-core_2.12	3.6.6
org.json4s	json4s-jackson_2.12	3.6.6
org.json4s	json4s-scalap_2.12	3.6.6
org.lz4	lz4-java	1.7.1
org.mariadb.jdbc	mariadb-java-client	2.1.2
org.objenesis	objenesis	2.5.1
org.postgresql	postgresql	42.1.4
org.roaringbitmap	RoaringBitmap	0.7.45
org.roaringbitmap	Shims	0.7.45
org.rocksdb	rocksdbjni	6.2.2
org.rosuda.REngine	REngine	2.1.0
org.scala-lang	scala-compiler_2.12	2.12.10
org.scala-lang	scala-library_2.12	2.12.10
org.scala-lang	scala-reflect_2.12	2.12.10
org.scala-lang.modules	scala-collection-compat_2.12	2.1.1
org.scala-lang.modules	scala-parser-combinators_2.12	1.1.2
org.scala-lang.modules	scala-xml_2.12	1.2.0
org.scala-sbt	test-interface	1.0
org.scalacheck	scalacheck_2.12	1.14.2
org.scalactic	scalactic_2.12	3.0.8
org.scalanlp	breeze-macros_2.12	1.0
org.scalanlp	breeze_2.12	1.0
org.scalatest	scalatest_2.12	3.0.8
org.slf4j	jcl-over-slf4j	1.7.30
org.slf4j	jul-to-slf4j	1.7.30
org.slf4j	slf4j-api	1.7.30
org.slf4j	slf4j-log4j12	1.7.30
org.spark-project.spark	oanvänd	1.0.0
org.springframework	spring-core	4.1.4.RELEASE
org.springframework	spring-test	4.1.4.RELEASE
org.threeten	threeten-extra	1.5.0
org.tukaani	xz	1.5
org.typelevel	algebra_2.12	2.0.0-M2
org.typelevel	cats-kernel_2.12	2.0.0-M4
org.typelevel	machinist_2.12	0.6.8
org.typelevel	macro-compat_2.12	1.1.1
org.typelevel	spire-macros_2.12	0.17.0-M1
org.typelevel	spire-platform_2.12	0.17.0-M1
org.typelevel	spire-util_2.12	0.17.0-M1
org.typelevel	spire_2.12	0.17.0-M1
org.xerial	sqlite-jdbc	3.8.11.2
org.xerial.snappy	snappy-java	1.1.7.5
org.yaml	snakeyaml	1,24
oro	oro	2.0.8
pl.edu.icm	JLargeArrays	1.5
software.amazon.ion	ion-java	1.0.2
stax	stax-api	1.0.1
xmlenc	xmlenc	0,52

Dela via

Databricks Runtime 7.0 (EoS)

Nya funktioner

Förbättringar

Större biblioteksändringar

Python-paket

R-paket

Java- och Scala-bibliotek

Funktionalitetsförändringar

Ändringar i Spark-beteende

Andra beteendeändringar

Utfasningar och borttagningar

Apache Spark

I detta avsnitt:

Core, Spark SQL, Structured Streaming

Höjdpunkter

Prestandaförbättringar

Förbättringar av utökningsbarhet

Förbättringar av anslutningsappen

Funktionsförbättringar

Förbättringar av SQL-kompatibilitet

Förbättringar av övervakning och felsökning

PySpark-förbättringar

Förbättringar av dokumentation och testtäckning

Andra viktiga ändringar

Beteendeändringar för Spark Core, Spark SQL och Structured Streaming

MLlib

Höjdpunkter

Beteendeändringar för MLlib

SparkR

Beteendeändringar för SparkR

Utfasningar

Kända problem

Underhållsuppdateringar

Systemmiljö

Installerade Python-bibliotek

Installerade R-bibliotek

Installerade Java- och Scala-bibliotek (Scala 2.12-klusterversion)

Feedback

Ytterligare resurser