Databricks Runtime 7.0 (EoL)

Notitie

Deze Databricks Runtime-versie heeft het einde van de levensduur bereikt en is niet meer beschikbaar. Zie End-of-Support en end-of-life history voor einddatums. Zie de ondersteuningslevenscycli van Databricks Runtime voor informatie over het ondersteuningsbeleid en de planning van Databricks.

Databricks heeft deze versie uitgebracht in juni 2020.

De volgende releaseopmerkingen bevatten informatie over Databricks Runtime 7.0, mogelijk gemaakt door Apache Spark 3.0.

Nieuwe functies

Databricks Runtime 7.0 bevat de volgende nieuwe functies:

Scala 2.12

Databricks Runtime 7.0 voert een upgrade uit van Scala van 2.11.12 naar 2.12.10. De wijzigingslijst tussen Scala 2.12 en 2.11 staat in de releaseopmerkingen van Scala 2.12.0.
Auto Loader (openbare preview), uitgebracht in Databricks Runtime 6.4, is verbeterd in Databricks Runtime 7.0

Auto Loader biedt u een efficiëntere manier om nieuwe gegevensbestanden incrementeel te verwerken wanneer ze binnenkomen in een cloud-blobarchief tijdens ETL. Dit is een verbetering ten opzichte van gestructureerd streamen op basis van bestanden, waarmee nieuwe bestanden worden geïdentificeerd door herhaaldelijk de cloudmap weer te geven en de bestanden bij te houden die zijn gezien en die zeer inefficiënt kunnen zijn naarmate de map groeit. Automatisch laden is ook handiger en effectiever dan gestructureerd streamen op basis van bestandsmeldingen. Hiervoor moet u handmatig bestandsmeldingsservices configureren in de cloud en kunt u bestaande bestanden niet opnieuw doorvoeren. Zie Wat is Automatisch laadprogramma? voor meer informatie.

In Databricks Runtime 7.0 hoeft u geen aangepaste Databricks Runtime-afbeelding meer aan te vragen om Auto Loader te gebruiken.
COPY INTO (Openbare preview), waarmee u gegevens in Delta Lake kunt laden met nieuwe idempotente pogingen, is verbeterd in Databricks Runtime 7.0

Uitgebracht als openbare preview in Databricks Runtime 6.4, kunt u met het COPY INTO SQL-commando gegevens in Delta Lake laden met idempotente herhalingen. Als u gegevens vandaag wilt laden in Delta Lake, moet u Apache Spark DataFrame-API's gebruiken. Als er fouten optreden tijdens het laden, moet u ze effectief afhandelen. De nieuwe COPY INTO opdracht biedt een vertrouwde declaratieve interface voor het laden van gegevens in SQL. Met de opdracht worden eerder geladen bestanden bijgehouden en kunt u deze veilig opnieuw uitvoeren in geval van fouten. Zie COPY INTOvoor meer informatie.

Verbeteringen

De Azure Synapse-connector (voorheen SQL Data Warehouse) ondersteunt de COPY instructie.

Het belangrijkste voordeel hiervan COPY is dat gebruikers met lagere bevoegdheden gegevens kunnen schrijven naar Azure Synapse zonder strikte CONTROL machtigingen voor Azure Synapse.
De %matplotlib inline magic-opdracht is niet langer vereist om Matplotlib-objecten inline weer te geven in notebookcellen. Ze worden standaard altijd inline weergegeven.
Matplolib-afbeeldingen worden nu weergegeven met transparent=False, zodat door de gebruiker opgegeven achtergronden niet verloren gaan. Dit gedrag kan worden overschreven door de Spark-configuratie spark.databricks.workspace.matplotlib.transparent truein te stellen.
Bij het uitvoeren van gestructureerde streaming-productietaken op clusters met hoge gelijktijdigheidsmodus mislukt het opnieuw opstarten van een taak af en toe, omdat de eerder uitgevoerde taak niet correct is beëindigd. Databricks Runtime 6.3 heeft de mogelijkheid geïntroduceerd om de SQL-configuratie spark.sql.streaming.stopActiveRunOnRestart true op uw cluster in te stellen om ervoor te zorgen dat de vorige uitvoering stopt. Deze configuratie is standaard ingesteld in Databricks Runtime 7.0.

Belangrijke wijzigingen in de bibliotheek

Python-pakketten

Belangrijke Python-pakketten zijn bijgewerkt:

boto3 1.9.162 -> 1.12.0
matplotlib 3.0.3 -> 3.1.3
numpy 1.16.2 -> 1.18.1
pandas 0.24.2 -> 1.0.1
pip 19.0.3 -> 20.0.2
pyarrow 0.13.0 -> 0.15.1
psycopg2 2.7.6 -> 2.8.4
scikit-learn 0.20.3 -> 0.22.1
scipy 1.2.1 -> 1.4.1
seaborn 0.9.0 -> 0.10.0

Python-pakketten verwijderd:

boto (boto3 gebruiken)
pycurl

Notitie

De Python-omgeving in Databricks Runtime 7.0 maakt gebruik van Python 3.7, wat verschilt van het geïnstalleerde Ubuntu-systeem Python: /usr/bin/python en /usr/bin/python2 zijn gekoppeld aan Python 2.7 en /usr/bin/python3 is gekoppeld aan Python 3.6.

R-pakketten

R-pakketten toegevoegd:

bezem
hoger
isoband
knitr
Markdown
modelr
reprex (reproduceerbaar voorbeeld)
rmarkdown
rvest (een softwarepakket voor webscraping)
Selectr
tidyverse
tinytex
xfun

R-pakketten verwijderd:

Combine
bitops
auto
autoGegevens
doMC
gbm
H2O
Littler
lme4
mapproj
Kaarten
maptools
MatrixModels
minqa
mvtnorm
nloptr
openxlsx
pbkrtest
pkgKitten
quantreg
R.methodsS3
R.oo
R.utils (een pakket in de R programmeertaal)
RcppEigen
RCurl
Rio
Sp
SparseM
statmod
zip-bestand

Java- en Scala-bibliotheken

Apache Hive-versie die wordt gebruikt voor het verwerken van door de gebruiker gedefinieerde Hive-functies en Hive SerDes bijgewerkt naar 2.3.
Voorheen werden Azure Storage- en Key Vault-JAR's verpakt als onderdeel van Databricks Runtime, waardoor u geen verschillende versies van deze bibliotheken kunt gebruiken die zijn gekoppeld aan clusters. Klassen onder com.microsoft.azure.storage en com.microsoft.azure.keyvault bevinden zich niet meer op het klassepad in Databricks Runtime. Als u afhankelijk bent van een van deze klassepaden, moet u nu Azure Storage SDK of Azure Key Vault SDK aan uw clusters koppelen.

Gedragswijzigingen

Deze sectie bevat gedragswijzigingen van Databricks Runtime 6.6 naar Databricks Runtime 7.0. Houd er rekening mee wanneer u workloads migreert van lagere Databricks Runtime-releases naar Databricks Runtime 7.0 en hoger.

Spark-gedragswijzigingen

Omdat Databricks Runtime 7.0 de eerste Databricks Runtime is die is gebouwd op Spark 3.0, zijn er veel wijzigingen waar u rekening mee moet houden wanneer u workloads migreert van Databricks Runtime 5.5 LTS of 6.x, die zijn gebouwd op Spark 2.4. Deze wijzigingen worden vermeld in de sectie "Gedragswijzigingen" van de verschillende functionele gebieden in de Apache Spark-sectie van dit artikel over de release-opmerkingen.

Gedragswijzigingen voor Spark-kern, Spark SQL en Gestructureerd streamen
Gedragswijzigingen voor MLlib
Gedragswijzigingen voor SparkR

Andere gedragswijzigingen

De upgrade naar Scala 2.12 omvat de volgende wijzigingen:
- De serialisatie van pakketcellen wordt anders afgehandeld. In het volgende voorbeeld ziet u de gedragswijziging en hoe u dit kunt afhandelen.
  
  Het uitvoeren van foo.bar.MyObjectInPackageCell.run() in de volgende pakketcel zal de fout java.lang.NoClassDefFoundError: Could not initialize class foo.bar.MyObjectInPackageCell$ veroorzaken.
```
package foo.bar

case class MyIntStruct(int: Int)

import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions._
import org.apache.spark.sql.Column

object MyObjectInPackageCell extends Serializable {

  // Because SparkSession cannot be created in Spark executors,
  // the following line triggers the error
  // Could not initialize class foo.bar.MyObjectInPackageCell$
  val spark = SparkSession.builder.getOrCreate()

  def foo: Int => Option[MyIntStruct] = (x: Int) => Some(MyIntStruct(100))

  val theUDF = udf(foo)

  val df = {
    val myUDFInstance = theUDF(col("id"))
    spark.range(0, 1, 1, 1).withColumn("u", myUDFInstance)
  }

  def run(): Unit = {
    df.collect().foreach(println)
  }
}
```
  Als u deze fout wilt omzeilen, kunt u in een serialiseerbare klasse verpakken MyObjectInPackageCell .
- In bepaalde gevallen waarin DataStreamWriter.foreachBatch wordt gebruikt, is een broncode-update vereist. Deze wijziging is het gevolg van het feit dat Scala 2.12 automatische conversie van lambda-expressies naar SAM-typen heeft en dubbelzinnigheid kan veroorzaken.
  
  De volgende Scala-code kan bijvoorbeeld niet worden gecompileerd:
```
streams
  .writeStream
  .foreachBatch { (df, id) => myFunc(df, id) }
```
  Als u de compilatiefout wilt oplossen, moet u de Java-API expliciet wijzigen foreachBatch { (df, id) => myFunc(df, id) }foreachBatch(myFunc _) of gebruiken: foreachBatch(new VoidFunction2 ...)

Omdat de Apache Hive-versie die wordt gebruikt voor het verwerken van door de gebruiker gedefinieerde Hive-functies en Hive SerDes wordt bijgewerkt naar 2.3, zijn er twee wijzigingen vereist:
- De interface van SerDe Hive wordt vervangen door een abstracte klasse AbstractSerDe. Voor elke aangepaste Hive-implementatie SerDe is migratie naar AbstractSerDe vereist.
- Door spark.sql.hive.metastore.jars in te stellen op builtin wordt de Hive 2.3-metastore-client gebruikt om toegang te krijgen tot metastores voor Databricks Runtime 7.0. Als u toegang wilt krijgen tot externe metastores op basis van Hive 1.2, configureert u spark.sql.hive.metastore.jars als de map die de Hive 1.2 JARs bevat.

Uitfaseringen en verwijderingen

De index voor het overslaan van gegevens is afgeschaft in Databricks Runtime 4.3 en verwijderd in Databricks Runtime 7.0. U wordt aangeraden in plaats daarvan Delta-tabellen te gebruiken, die verbeterde mogelijkheden voor het overslaan van gegevens bieden.
In Databricks Runtime 7.0 gebruikt de onderliggende versie van Apache Spark Scala 2.12. Omdat bibliotheken die zijn gecompileerd op Scala 2.11 Databricks Runtime 7.0-clusters op onverwachte manieren kunnen uitschakelen, installeren clusters met Databricks Runtime 7.0 en hoger geen bibliotheken die zijn geconfigureerd voor installatie op alle clusters. Het cluster Bibliotheken-tabblad toont een statusSkipped en een afschaffingsbericht dat de wijzigingen in de verwerking van bibliotheken uitlegt. Als u echter een cluster hebt dat is gemaakt op een eerdere versie van Databricks Runtime voordat Azure Databricks-platform versie 3.20 is uitgebracht in uw werkruimte en u nu dat cluster bewerkt om Databricks Runtime 7.0 te gebruiken, worden alle bibliotheken die zijn geconfigureerd om te worden geïnstalleerd op alle clusters geïnstalleerd op dat cluster. In dit geval kunnen incompatibele JAR's in de geïnstalleerde bibliotheken ertoe leiden dat het cluster wordt uitgeschakeld. De tijdelijke oplossing is om het cluster te klonen of om een nieuw cluster te maken.

Apache Spark

Databricks Runtime 7.0 bevat Apache Spark 3.0.

Core, Spark SQL, Structured Streaming

Hoogtepunten

(Project Waterstof) Accelerator-bewuste Scheduler (SPARK-24615)
Uitvoering van adaptieve query's (SPARK-31412)
Dynamische partitie filteren (SPARK-11150)
Opnieuw ontworpen pandas UDF-API met typehints (SPARK-28264)
Structured Streaming UI (SPARK-29543)
API voor catalogusinvoegtoepassingen (SPARK-31121)
Betere ANSI SQL-compatibiliteit

Prestatieverbeteringen

Uitvoering van adaptieve query's (SPARK-31412)
- Basisframework (SPARK-23128)
- Aanpassing van partitienummer bij herverdeling (SPARK-28177)
- Dynamisch hergebruik van subquery (SPARK-28753)
- Lokale shuffle-lezer (SPARK-28560)
- Optimalisatie van skew join (SPARK-29544)
- Het lezen van aaneengesloten shuffle-blokken optimaliseren (SPARK-9853)
Dynamische partitie snoeien (SPARK-11150)
Andere optimizer-regels
- Regel ReuseSubquery (SPARK-27279)
- Regel PushDownLeftSemiAntiJoin (SPARK-19712)
- Regel PushLeftSemiLeftAntiThroughJoin (SPARK-19712)
- Rule ReplaceNullWithFalse (SPARK-25860)
- Regel elimineert sorteringen zonder limiet in de subquery van Join/Aggregation (SPARK-29343)
- Regel PruneHiveTablePartitions (SPARK-15616)
- Overbodige geneste velden verwijderen uit Genereren (SPARK-27707)
- Rule RewriteNonCorrelatedExists (SPARK-29800)
Minimaliseer de synchronisatiekosten van de tabelcache (SPARK-26917), (SPARK-26617), (SPARK-26548)
Aggregatiecode splitsen in kleine functies (SPARK-21870)
Voeg batchverwerking toe in de INSERT- en ALTER TABLE-opdracht ADD PARTITION (SPARK-29938)

Uitbreidingen van uitbreidbaarheid

API voor catalogusinvoegtoepassingen (SPARK-31121)
Herstructureren van gegevensbron V2-API (SPARK-25390)
Ondersteuning voor Hive 3.0 en 3.1 -metastore (SPARK-27970),(SPARK-24360)
Spark-invoegtoepassingsinterface uitbreiden naar stuurprogramma (SPARK-29396)
Het metrische Spark-systeem uitbreiden met door de gebruiker gedefinieerde metrische gegevens met behulp van uitvoerprogramma-invoegtoepassingen (SPARK-28091)
Ontwikkelaars-API's voor uitgebreide ondersteuning voor Columnar Processing (SPARK-27396)
Ingebouwde bronmigratie met behulp van DSV2: parquet, ORC, CSV, JSON, Kafka, Text, Avro (SPARK-27589)
FunctionInjection toestaan in SparkExtensions (SPARK-25560)
Hiermee kan Aggregator worden geregistreerd als een UDAF (SPARK-27296)

Connectorverbeteringen

Kolomsnoeien door niet-deterministische expressies (SPARK-29768)
Ondersteuning spark.sql.statistics.fallBackToHdfs in gegevensbrontabellen (SPARK-25474)
Toestaan van partitiepruning met subqueryfilters op file source (SPARK-26893)
Voorkom het pushdown van subquery's in gegevensbronfilters (SPARK-25482)
Recursieve gegevens laden uit bestandsbronnen (SPARK-27990)
Parquet/ORC
- Doorvoer van disjunctieve predicaten (SPARK-27699)
- Geneste kolomsnoeien (SPARK-25603) generaliseren en standaard ingeschakeld (SPARK-29805)
- Alleen Parquet
  - Parquet predicaat pushdown voor geneste velden (SPARK-17636)
- ALLEEN ORC
  - Ondersteuning voor samenvoegingsschema voor ORC (SPARK-11412)
  - Geneste schema's verwijderen voor ORC (SPARK-27034)
  - Complexiteitsvermindering van predicaatconversie voor ORC (SPARK-27105, SPARK-28108)
  - Apache ORC upgraden naar 1.5.9 (SPARK-30695)
CSV
- Ondersteuning voor pushdownfilters in CSV-gegevensbron (SPARK-30323)
Hive SerDe
- Geen schemadeductie bij het lezen van hive-serde-tabel met systeemeigen gegevensbron (SPARK-27119)
- Hive CTAS-opdrachten moeten gegevensbron gebruiken als deze converteerbaar is (SPARK-25271)
- Systeemeigen gegevensbron gebruiken om het invoegen van een gepartitioneerde Hive-tabel (SPARK-28573) te optimaliseren
Apache Kafka
- Ondersteuning toevoegen voor Kafka-headers (SPARK-23539)
- Ondersteuning voor Kafka-delegatietoken toevoegen (SPARK-25501)
- Nieuwe optie voor Kafka-bron introduceren: offset per tijdstempel (starten/eindigen) (SPARK-26848)
- Ondersteuning voor de minPartitions optie in Kafka-batchbron en streamingbron v1 (SPARK-30656)
- Kafka upgraden naar 2.4.1 (SPARK-31126)
Nieuwe ingebouwde gegevensbronnen
- Nieuwe ingebouwde binaire bestandsgegevensbronnen (SPARK-25348)
- Nieuwe no-op batch-gegevensbronnen (SPARK-26550) en no-op streaming sink (SPARK-26649)

Functieverbeteringen

[Waterstof] Accelerator-aware Scheduler (SPARK-24615)
Een volledige set joinhints introduceren (SPARK-27225)
Hint toevoegen PARTITION BY voor SQL-query's (SPARK-28746)
Verwerking van metagegevens in Thrift Server (SPARK-28426)
Functies in hogere volgorde toevoegen aan scala-API (SPARK-27297)
Ondersteuning voor eenvoudig verzamelen in context van barrièretaken (SPARK-30667)
Hive UDF's ondersteunt het UDT-type (SPARK-28158)
Ondersteuning voor DELETE/UPDATE/MERGE Operators in Catalyst (SPARK-28351, SPARK-28892, SPARK-28893)
DataFrame.tail implementeren (SPARK-30185)
Nieuwe ingebouwde functies
- sinh, cosh, tanh, asinh, acosh, atanh (SPARK-28133)
- elk, iedere, enige (SPARK-19851)
- bit_and, bit_or (SPARK-27879)
- bit_count (SPARK-29491)
- bit_xor (SPARK-29545)
- bool_and, bool_or (SPARK-30184)
- count_if (SPARK-27425)
- date_part (SPARK-28690)
- extract (SPARK-23903)
- forall (SPARK-27905)
- from_csv (SPARK-25393)
- make_date (SPARK-28432)
- make_interval (SPARK-29393)
- make_timestamp (SPARK-28459)
- kaart_invoer (SPARK-23935)
- map_filter (SPARK-23937)
- map_zip_with (SPARK-23938)
- max_by, min_by (SPARK-27653)
- schema_of_csv (SPARK-25672)
- to_csv (SPARK-25638)
- transform_keys (SPARK-23939)
- transform_values (SPARK-23940)
- typeof (SPARK-29961)
- versie (SPARK-29554)
- xxhash64 (SPARK-27099)
Verbeteringen aan bestaande ingebouwde functies
- Ingebouwde datum/tijd-functies/bewerkingen verbeteren (SPARK-31415)
- Ondersteuningsmodus FAILFAST voor from_json (SPARK-25243)
- array_sort voegt een nieuwe comparatorparameter toe (SPARK-29020)
- Filter kan nu de index als invoer en het element (SPARK-28962) overnemen

Verbeteringen in SQL-compatibiliteit

Overschakelen naar Proleptische Gregoriaanse kalender (SPARK-26651)
De eigen datum/tijd-patroondefinitie van Spark bouwen (SPARK-31408)
AnSI-archieftoewijzingsbeleid introduceren voor tabelinvoeging (SPARK-28495)
Volg standaard de ANSI-toewijzingsregel bij het invoegen van tabellen (SPARK-28885)
Een SQLConf spark.sql.ansi.enabled (SPARK-28989) toevoegen
ANSI SQL-filtercomponent voor statistische expressie (SPARK-27986) ondersteunen
Ansi SQL-functie OVERLAY ondersteunen (SPARK-28077)
Ondersteuning voor ANSI geneste opmerkingen tussen haakjes (SPARK-28880)
Een uitzondering op overloop genereren voor gehele getallen (SPARK-26218)
Overloopcontrole bij intervalrekenkundige bewerkingen (SPARK-30341)
Een uitzondering genereren wanneer een ongeldige tekenreeks wordt gecast naar een numeriek type (SPARK-30292)
Het overloopgedrag van vermenigvuldigen en delen consistent maken met andere bewerkingen (SPARK-30919)
ANSI-typealiassen toevoegen voor teken en decimaal (SPARK-29941)
SQL Parser definieert gereserveerde ANSI-compatibele trefwoorden (SPARK-26215)
Gereserveerde trefwoorden als id's verbieden wanneer de ANSI-modus is ingeschakeld (SPARK-26976)
ANSI SQL-syntaxis LIKE ... ESCAPE ondersteunen (SPARK-28083)
Ondersteuning voor ANSI SQL Boolean-Prediccate syntaxis (SPARK-27924)
Betere ondersteuning voor gecorreleerde subqueryverwerking (SPARK-18455)

Verbeteringen in monitoring en foutopsporing

Nieuwe gebruikersinterface voor gestructureerd streamen (SPARK-29543)
SHS: Toestaan dat gebeurtenislogboeken voor het uitvoeren van streaming-apps kunnen worden doorgerold (SPARK-28594)
Een API toevoegen waarmee een gebruiker willekeurige metrische gegevens kan definiëren en observeren voor batch- en streamingquery's (SPARK-29345)
Instrumentatie voor het bijhouden van planningstijd per query (SPARK-26129)
Plaats de metrische basisgegevens voor willekeurige volgorde in de SQL Exchange-operator (SPARK-26139)
SQL-instructie wordt getoond op het SQL-tabblad in plaats van callsite (SPARK-27045)
Knopinfo toevoegen aan SparkUI (SPARK-29449)
De gelijktijdige prestaties van History Server verbeteren (SPARK-29043)
EXPLAIN FORMATTED opdracht (SPARK-27395)
Ondersteuning bij het dumpen van afgekorte plannen en gegenereerde code naar een bestand (SPARK-26023)
Verbeter beschrijvingsframework om de uitvoer van een query te verduidelijken (SPARK-26982)
Opdracht toevoegen SHOW VIEWS (SPARK-31113)
De foutberichten van SQL-parser verbeteren (SPARK-27901)
Ondersteuning voor Prometheus-bewaking (SPARK-29429)

Verbeteringen in PySpark

Opnieuw ontworpen pandas UDF's met type-aanduidingen (SPARK-28264)
Pandas UDF-pijplijn (SPARK-26412)
Ondersteuning voor StructType als argumenten en retourtypen voor Scalar Pandas UDF (SPARK-27240 )
Ondersteuning voor Dataframe Cogroup via Pandas UDF's (SPARK-27463)
Toevoegen mapInPandas om een iterator van DataFrames toe te staan (SPARK-28198)
Bepaalde SQL-functies moeten ook kolomnamen nemen (SPARK-26979)
PySpark SQL-uitzonderingen meer Pythonic maken (SPARK-31849)

Verbeteringen in documentatie en testdekking

Een SQL-referentie bouwen (SPARK-28588)
Een gebruikershandleiding bouwen voor WebUI (SPARK-28372)
Een pagina maken voor SQL-configuratiedocumentatie (SPARK-30510)
Versie-informatie toevoegen voor Spark-configuratie (SPARK-30839)
Poortregressietests van PostgreSQL (SPARK-27763)
Thrift-server test dekking (SPARK-28608)
Test dekking van UDF's (python UDF, pandas UDF, scala UDF) (SPARK-27921)

Andere belangrijke wijzigingen

Upgrade van ingebouwde Hive-uitvoering van 1.2.1 naar 2.3.6 (SPARK-23710, SPARK-28723, SPARK-31381)
Apache Hive 2.3-afhankelijkheid standaard gebruiken (SPARK-30034)
GA Scala 2.12 en verwijder 2.11 (SPARK-26132)
Logica verbeteren voor time-out van uitvoerders in dynamische toewijzing (SPARK-20286)
Op schijf gepersisteerde RDD-blokken, geleverd door de shuffle-service en genegeerd voor dynamische toewijzing (SPARK-27677)
Verkrijg nieuwe uitvoerders om vastlopen vanwege bloklijsting te voorkomen (SPARK-22148)
Delen van de geheugengroeptoewijzingen van Netty toestaan (SPARK-24920)
Impasse tussen TaskMemoryManager en UnsafeExternalSorter$SpillableIterator (SPARK-27338) oplossen
API's AdmissionControl introduceren voor StructuredStreaming (SPARK-30669)
Prestatieverbetering van De hoofdpagina van Spark-geschiedenis (SPARK-25973)
Aggregatie van metrische gegevens versnellen en verkleinen in SQL-listener (SPARK-29562)
Vermijd het netwerk wanneer shuffle blokken worden opgehaald van dezelfde host (SPARK-27651)
Lijst met bestanden verbeteren voor DistributedFileSystem (SPARK-27801)

Gedragswijzigingen voor Spark-kern, Spark SQL en Gestructureerd streamen

In de volgende migratiehandleidingen worden gedragswijzigingen tussen Apache Spark 2.4 en 3.0 vermeld. Voor deze wijzigingen zijn mogelijk updates vereist voor taken die u hebt uitgevoerd op lagere Versies van Databricks Runtime:

De volgende gedragswijzigingen worden niet behandeld in deze migratiehandleidingen:

In Spark 3.0 is de afgeschafte klasse org.apache.spark.sql.streaming.ProcessingTime verwijderd. Gebruik in plaats daarvan org.apache.spark.sql.streaming.Trigger.ProcessingTime. Evenzo is org.apache.spark.sql.execution.streaming.continuous.ContinuousTrigger verwijderd ten gunste van Trigger.Continuous, en org.apache.spark.sql.execution.streaming.OneTimeTrigger is verborgen ten gunste van Trigger.Once. (SPARK-28199)
In Databricks Runtime 7.0 verbiedt Spark standaard het lezen van bestanden onder een submap die geen tabelpartitie is bij het lezen van een Hive SerDe-tabel. Als u deze wilt inschakelen, stelt u de configuratie spark.databricks.io.hive.scanNonpartitionedDirectory.enabled in als true. Dit heeft geen invloed op systeemeigen Spark-tabellezers en bestandslezers.

MLlib

Hoogtepunten

Ondersteuning voor meerdere kolommen is toegevoegd aan Binarizer (SPARK-23578), StringIndexer (SPARK-11215), StopWordsRemover (SPARK-29808) en PySpark QuantileDiscretizer (SPARK-22796)
Ondersteuning voor op structuur gebaseerde functietransformatie (SPARK-13677)
Er zijn twee nieuwe evaluators MultilabelClassificationEvaluator (SPARK-16692) en RankingEvaluator (SPARK-28045) toegevoegd
Ondersteuning voor voorbeeldgewichten is toegevoegd in DecisionTreeClassifier/Regressor (SPARK-19591), RandomForestClassifier/Regressor (SPARK-9478), GBTClassifier/Regressor (SPARK-9612), RegressionEvaluator (SPARK-24102), BinaryClassificationEvaluator (SPARK-24103), BisectingKMeans (SPARK-30351), KMeans (SPARK-29967) en GaussianMixture (SPARK-30102)
R API voor PowerIterationClustering is toegevoegd (SPARK-19827)
Spark ML-listener toegevoegd voor het bijhouden van de ML-pijplijnstatus (SPARK-23674)
Aanpassing aan de validatieset is toegevoegd aan gegradueerde boostbomen in Python (SPARK-24333)
RobustScaler-transformator is toegevoegd (SPARK-28399)
Classificatie van factorisatiemachines en regressor zijn toegevoegd (SPARK-29224)
Gaussiische Naive Bayes (SPARK-16872) en Complement Naive Bayes (SPARK-29942) zijn toegevoegd
ML-functiepariteit tussen Scala en Python (SPARK-28958)
predictRaw wordt openbaar gemaakt in alle classificatiemodellen. predictProbability wordt openbaar gemaakt in alle classificatiemodellen behalve LinearSVCModel (SPARK-30358)

Gedragswijzigingen voor MLlib

De volgende migratiehandleiding bevat gedragswijzigingen tussen Apache Spark 2.4 en 3.0. Voor deze wijzigingen zijn mogelijk updates vereist voor taken die u hebt uitgevoerd op lagere Versies van Databricks Runtime:

Migratiehandleiding: MLlib (Machine Learning)

De volgende gedragswijzigingen worden niet behandeld in de migratiehandleiding:

In Spark 3.0 retourneert een logistieke regressie met meerdere klassen in Pyspark nu correct (zoals het hoort) LogisticRegressionSummary en niet de subklasse BinaryLogisticRegressionSummary. De aanvullende methoden die worden weergegeven door BinaryLogisticRegressionSummary , werken in dit geval toch niet. (SPARK-31681)
In Spark 3.0 ondersteunen pyspark.ml.param.shared.Has* mixins geen set*(self, value)-settermethoden meer, gebruik in plaats daarvan de respectieve methoden van self.set(self.*, value). Zie SPARK-29093 voor meer informatie. (SPARK-29093)

SparkR

Pijloptimalisatie in de interoperabiliteit van SparkR (SPARK-26759)
Prestatieverbetering via de gevectoriseerde functies R gapply(), dapply(), createDataFrame, collect()
'Snelle uitvoering' voor R-shell, IDE (SPARK-24572)
R-API voor Power Iteration Clustering (SPARK-19827)

Gedragswijzigingen voor SparkR

Migratiehandleiding: SparkR (R in Spark)

Afgeschafte onderdelen

Ondersteuning voor Python 2 uitfaseren (SPARK-27884)
Ondersteuning voor R < 3.4 wordt afgeschaft (SPARK-26014)

Bekende problemen

De dag van het jaar parsen met de patroonletter 'D' geeft het verkeerde resultaat als het jaarveld ontbreekt. Dit kan gebeuren in SQL-functies, zoals to_timestamp die datum/tijd-tekenreeks parseert tot datum/tijd-waarden met behulp van een patroontekenreeks. (SPARK-31939)
Join/Window/Aggregate binnen subquery's kan leiden tot verkeerde resultaten als de sleutels waarden -0.0 en 0.0 hebben. (SPARK-31958)
Een vensterquery kan onverwacht mislukken met een dubbelzinnige self-join-fout. (SPARK-31956)
Streamingquery's met dropDuplicates operator kunnen mogelijk niet opnieuw worden opgestart met het controlepunt dat is geschreven door Spark 2.x. (SPARK-31990)

Onderhoudsupdates

Zie onderhoudsupdates voor Databricks Runtime 7.0.

Systeemomgeving

Besturingssysteem: Ubuntu 18.04.4 LTS
Java: 1.8.0_252
Scala: 2.12.10
Python: 3.7.5
R: R versie 3.6.3 (2020-02-29)
Delta Lake 0.7.0

Geïnstalleerde Python-bibliotheken

Bibliotheek	Versie	Bibliotheek	Versie	Bibliotheek	Versie
asn1crypto	1.3.0	terugroepactie	0.1.0	boto3	1.12.0
botocore	1.15.0	certificaat	2020.4.5	cffi	1.14.0
chardet	3.0.4	cryptografie	2.8	wielrijder	0.10.0
Cython	0.29.15	decorateur	4.4.1	docutils	0.15.2
invoerpunten	0,3	IDNA	2.8	ipykernel	5.1.4
ipython	7.12.0	ipython-genutils	0.2.0	Jedi	0.14.1
jmespath	0.9.4	joblib	0.14.1	jupyter-client (softwarepakket voor Jupyter-notebooks)	5.3.4
jupyter-core	4.6.1	kiwisolver	1.1.0	matplotlib	3.1.3
numpy	1.18.1	Pandas	1.0.1	parso	0.5.2
Patsy	0.5.1	pexpect	4.8.0	pickleshare	0.7.5
pip	20.0.2	prompt-hulpmiddelenpakket	3.0.3	psycopg2	2.8.4
ptyprocess	0.6.0	pyarrow	0.15.1	pycparser	2.19
Pygments	2.5.2	PyGObject	3.26.1	pyOpenSSL	19.1.0
pyparsing	2.4.6	PySocks	1.7.1	python-apt	1.6.5+ubuntu0.3
python-dateutil (een bibliotheek voor datum- en tijdgebaseerde functionaliteit in Python)	2.8.1	pytz	2019.3	pyzmq	18.1.1
Verzoeken	2.22.0	s3transfer	0.3.3	scikit-learn	0.22.1
Scipy (een wetenschappelijke bibliotheek voor Python)	1.4.1	geboren op zee	0.10.0	setuptools (een Python-pakket voor het beheren van installatie en distributie van pakketten)	45.2.0
Zes	1.14.0	ssh-import-id	5.7	statsmodels	0.11.0
tornado	6.0.3	Traitlets (Python library voor het configureren van Python-objecten)	4.3.3	upgrades zonder toezicht	0,1
urllib3	1.25.8	virtualenv	16.7.10	wcwidth	0.1.8
wiel	0.34.2

Geïnstalleerde R-bibliotheken

R-bibliotheken worden geïnstalleerd vanuit Microsoft CRAN-momentopname op 2020-04-22.

Bibliotheek	Versie	Bibliotheek	Versie	Bibliotheek	Versie
wachtwoord vragen	1.1	verzeker dat	0.2.1	terugimporten	1.1.6
basis	3.6.3	base64enc	0.1-3	BH	1.72.0-3
beetje	1.1-15.2	64-bitsysteem	0.9-7	Druppel	1.2.1
opstarten	1.3-25	brouwsel	1.0-6	bezem	0.5.6
beller	3.4.3	Caret	6.0-86	cellranger (softwaretool voor genetische analyse)	1.1.0
Chron	2.3-55	klasse	7.3-17	CLI	2.0.2
Clipr	0.7.0	groep	2.1.0	codetools	0.2-16
kleurenruimte	1.4-1	commonmark	1,7	programmacompileerder	3.6.3
configuratie	0,3	covr	3.5.0	kleurpotlood	1.3.4
Overspraak	1.1.0.1	curl	4.3	gegevenstabel	1.12.8
gegevenssets	3.6.3	DBI	1.1.0	dbplyr	1.4.3
Beschrijving	1.2.0	devtools	2.3.0	verwerken	0.6.25
dplyr (een R-pakket voor gegevensmanipulatie)	0.8.5	DT	0,13	beletselteken	0.3.0
beoordelen	0,14	fans	0.4.1	kleuren	2.0.3
snelle kaart	1.0.1	dwangarbeiders	0.5.0	foreach	1.5.0
buitenlands	0.8-76	smeden	0.2.0	fs	1.4.1
Generics	0.0.2	ggplot2	3.3.0	Gh	1.1.0
git2r	0.26.1	glmnet	3.0-2	globale variabelen	0.12.5
lijm	1.4.0	Gower	0.2.1	afbeeldingen	3.6.3
grDevices	3.6.3	netwerk	3.6.3	gridExtra	2.3
gsubfn	0,7	gtable	0.3.0	toevluchtsoord/schuilplaats	2.2.0
hoger	0,8	hms	0.5.3	htmltools	0.4.0
htmlwidgets	1.5.1	httpuv	1.5.2	httr	1.4.1
hwriter	1.3.2	hwriterPlus	1.0-3	ini	0.3.1
IPRED	0.9-9	isoband	0.2.1	Iterators	1.0.12
jsonlite	1.6.1	KernSmooth	2.23-17	knitr	1.28
etikettering	0,3	daarna	1.0.0	latwerk	0.20-41
lava	1.6.7	lazyeval	0.2.2	levenscyclus	0.2.0
lubridate	1.7.8	magrittr	1.5	Markdown	1.1
MASSA	7.3-51.6	Matrix	1.2-18	memoriseer	1.1.0
methoden	3.6.3	mgcv	1.8-31	Mime	0,9
ModelMetrics	1.2.2.2	modelr	0.1.6	munsell	0.5.0
nlme	3.1-147	nnet	7.3-14	numDeriv	2016.8 tot 1.1
OpenSSL-software	1.4.1	evenwijdig	3.6.3	pilaar	1.4.3
pkgbuild	1.0.6	pkgconfig	2.0.3	pkgload	1.0.2
plogr	0.2.0	plyr	1.8.6	prijzen	1.0.0
prettyunits	1.1.1	pROC	1.16.2	Processx	3.4.2
prodlim	2019.11.13	Voortgang	1.2.2	Beloften	1.1.0
Proto	1.0.0	P.S.	1.3.2	purrr	0.3.4
r2d3	0.2.3	R6	2.4.1	randomForest	4.6-14
rappdirs	0.3.1	rcmdcheck	1.3.3	RColorBrewer	1.1-2
Rcpp	1.0.4.6	readr	1.3.1	readxl (een programma voor het lezen van Excel-bestanden)	1.3.1
recepten	0.1.10	Rematch	1.0.1	opnieuw overeenkomen2	2.1.1
Afstandsbedieningen	2.1.1	reprex (reproduceerbaar voorbeeld)	0.3.0	reshape2	1.4.4
Rex	1.2.0	rjson	0.2.20	rlang	0.4.5
rmarkdown	2.1	RODBC	1.3-16	roxygen2	7.1.0
rpart (een R-pakket voor beslissingsboommodellering)	4.1-15	rprojroot	1.3-2	Rserve	1.8-6
RSQLite	2.2.0	rstudioapi	0,11	rversions	2.0.1
rvest (een softwarepakket voor webscraping)	0.3.5	weegschaal	1.1.0	Selectr	0,4-2
sessiegegevens	1.1.1	vorm	1.4.4	glanzend en nieuw	1.4.0.2
sourcetools	0.1.7	sparklyr	1.2.0	SparkR	3.0.0
ruimtelijk	7.3-11	Splines	3.6.3	sqldf	0.4-11
SQUAREM	2020.2	Statistieken	3.6.3	statistieken4	3.6.3
strings	1.4.6	stringr	1.4.0	survival	3.1-12
sys	3.3	tcltk	3.6.3	OnderwijsDemo's	2.10
testthat	2.3.2	tibble	3.0.1	tidyr	1.0.2
tidyselect	1.0.0	tidyverse	1.3.0	tijd en datum	3043.102
tinytex	0,22	gereedschappen	3.6.3	gebruik dit	1.6.0
utf8	1.1.4	hulpmiddelen	3.6.3	vctrs	0.2.4
viridisLite	0.3.0	snor	0,4	verwelken	2.2.0
xfun	0,13	xml2	1.3.1	xopen	1.0.0
xtable	1.8-4	YAML	2.2.1

Geïnstalleerde Java- en Scala-bibliotheken (Scala 2.12-clusterversie)

Groeps-id	Artefact-ID	Versie
antlr	antlr	2.7.7
com.amazonaws	Amazon Kinesis-client	1.12.0
com.amazonaws	aws-java-sdk-autoscaling (Amazon Web Services Java Software Development Kit voor automatisch schalen)	1.11.655
com.amazonaws	aws-java-sdk-cloudformation	1.11.655
com.amazonaws	aws-java-sdk-cloudfront	1.11.655
com.amazonaws	aws-java-sdk-cloudhsm	1.11.655
com.amazonaws	aws-java-sdk-cloudsearch	1.11.655
com.amazonaws	aws-java-sdk-cloudtrail	1.11.655
com.amazonaws	aws-java-sdk-cloudwatch	1.11.655
com.amazonaws	aws-java-sdk-cloudwatchmetrics	1.11.655
com.amazonaws	aws-java-sdk-codedeploy	1.11.655
com.amazonaws	aws-java-sdk-cognitoidentity	1.11.655
com.amazonaws	aws-java-sdk-cognitosync	1.11.655
com.amazonaws	aws-java-sdk-config (configuratie)	1.11.655
com.amazonaws	aws-java-sdk-core	1.11.655
com.amazonaws	AWS Java SDK Datapipeline	1.11.655
com.amazonaws	aws-java-sdk-directconnect	1.11.655
com.amazonaws	aws-java-sdk-directory	1.11.655
com.amazonaws	aws-java-sdk-dynamodb	1.11.655
com.amazonaws	aws-java-sdk-ec2	1.11.655
com.amazonaws	aws-java-sdk-ecs	1.11.655
com.amazonaws	aws-java-sdk-efs	1.11.655
com.amazonaws	aws-java-sdk-elasticache	1.11.655
com.amazonaws	aws-java-sdk-elasticbeanstalk	1.11.655
com.amazonaws	AWS Java SDK - Elastic Load Balancing	1.11.655
com.amazonaws	aws-java-sdk-elastictranscoder	1.11.655
com.amazonaws	aws-java-sdk-emr	1.11.655
com.amazonaws	aws-java-sdk-glacier (AWS Java SDK Glacier)	1.11.655
com.amazonaws	aws-java-sdk-iam	1.11.655
com.amazonaws	AWS Java SDK Import/Export	1.11.655
com.amazonaws	aws-java-sdk-kinesis	1.11.655
com.amazonaws	aws-java-sdk-kms	1.11.655
com.amazonaws	aws-java-sdk-lambda	1.11.655
com.amazonaws	aws-java-sdk-logbestanden	1.11.655
com.amazonaws	AWS-Java-SDK-MachineLearning	1.11.655
com.amazonaws	aws-java-sdk-opsworks	1.11.655
com.amazonaws	aws-java-sdk-rds	1.11.655
com.amazonaws	aws-java-sdk-redshift	1.11.655
com.amazonaws	aws-java-sdk-route53	1.11.655
com.amazonaws	aws-java-sdk-s3	1.11.655
com.amazonaws	aws-java-sdk-ses	1.11.655
com.amazonaws	aws-java-sdk-simpledb	1.11.655
com.amazonaws	aws-java-sdk-simpleworkflow	1.11.655
com.amazonaws	aws-java-sdk-sns	1.11.655
com.amazonaws	aws-java-sdk-sqs	1.11.655
com.amazonaws	aws-java-sdk-ssm	1.11.655
com.amazonaws	aws-java-sdk-storagegateway (een Java software development kit voor het beheren van opslaggateways in AWS)	1.11.655
com.amazonaws	aws-java-sdk-sts	1.11.655
com.amazonaws	aws-java-sdk-ondersteuning	1.11.655
com.amazonaws	aws-java-sdk-swf-bibliotheken	1.11.22
com.amazonaws	aws-java-sdk-workspaces	1.11.655
com.amazonaws	jmespath-java	1.11.655
com.chuusai	shapeless_2.12	2.3.3
com.clearspring.analytics	stroom	2.9.6
com.databricks	Rserve	1.8-3
com.databricks	jets3t	0.7.1-0
com.databricks.scalapb	compilerplugin_2.12	0.4.15-10
com.databricks.scalapb	scalapb-runtime_2.12	0.4.15-10
com.esotericsoftware	kryo-gearceerd	4.0.2
com.esotericsoftware	minlog	1.3.0
com.fasterxml	klasgenoot	1.3.4
com.fasterxml.jackson.core	Jackson-annotaties	2.10.0
com.fasterxml.jackson.core	jackson-core	2.10.0
com.fasterxml.jackson.core	jackson-databind	2.10.0
com.fasterxml.jackson.dataformat	jackson-dataformat-cbor	2.10.0
com.fasterxml.jackson.datatype	jackson-datatype-joda	2.10.0
com.fasterxml.jackson.module	jackson-module-paranamer	2.10.0
com.fasterxml.jackson.module	jackson-module-scala_2.12	2.10.0
com.github.ben-manes.caffeine	cafeïne	2.3.4
com.github.fommil	jniloader	1.1
com.github.fommil.netlib	kern	1.1.2
com.github.fommil.netlib	native_ref-java	1.1
com.github.fommil.netlib	native_ref-java-natives	1.1
com.github.fommil.netlib	native_system-java	1.1
com.github.fommil.netlib	native_systeem-java-natives	1.1
com.github.fommil.netlib	netlib-native_ref-linux-x86_64-natives	1.1
com.github.fommil.netlib	netlib-native systeem voor Linux x86_64, inclusief natives	1.1
com.github.joshelser	dropwizard-metrics-hadoop-metrics2-reporter	0.1.2
com.github.luben	zstd-jni	1.4.4-3
com.github.wendykierp	JTransforms	3.1
com.google.code.findbugs	jsr305	3.0.0
com.google.code.gson	gson (een Java-bibliotheek voor het converteren van Java-objecten naar JSON en vice versa)	2.2.4
com.google.flatbuffers	flatbuffers-java	1.9.0
com.google.guava	guave	15,0
com.google.protobuf	protobuf-java	2.6.1
com.h2database	h2	1.4.195
com.helger	profielmaker	1.1.1
com.jcraft	jsch	0.1.50
com.jolbox	bonecp	0.8.0.UITGAVE
com.microsoft.azure	Azure-Data-Lake-Store-SDK	2.2.8
com.microsoft.sqlserver	mssql-jdbc	8.2.1.jre8
com.ning	compress-lzf (een compressie-algoritme)	1.0.3
com.sun.mail	javax.mail	1.5.2
com.tdunning	json	1.8
com.thoughtworks.paranamer	paranamer	2.8
com.trueaccord.lenses	lenses_2.12	0.4.12
com.twitter	chill-java	0.9.5
com.twitter	chill_2.12	0.9.5
com.twitter	util-app_2.12	7.1.0
com.twitter	util-core_2.12	7.1.0
com.twitter	util-functie_2.12	7.1.0
com.twitter	util-jvm_2.12	7.1.0
com.twitter	util-lint_2.12	7.1.0
com.twitter	util-registry_2.12	7.1.0
com.twitter	util-stats_2.12	7.1.0
com.typesafe	configuratie	1.2.1
com.typesafe.scala-logging	scala-logging_2.12	3.7.2
com.univocity	univocity-parsers	2.8.3
com.zaxxer	HikariCP	3.1.0
commons-beanutils	commons-beanutils	1.9.4
commons-cli	commons-cli	1.2
commons-codec	commons-codec	1,10
gemeenschappelijke collecties	gemeenschappelijke collecties	3.2.2
commons-configuratie	commons-configuratie	1.6
commons-dbcp	commons-dbcp	1.4
commons-digester	commons-digester	1.8
bestandsupload van commons	bestandsupload van commons	1.3.3
commons-httpclient	commons-httpclient	3.1
commons-io	commons-io	2,4
commons-lang	commons-lang	2.6
gemeenschappelijke-logboekvoorziening	gemeenschappelijke-logboekvoorziening	1.1.3
commons-net	commons-net	3.1
commons-pool (gemeenschappelijke pool)	commons-pool (gemeenschappelijke pool)	1.5.4
info.ganglia.gmetric4j	gmetric4j	1.0.10
io.airlift	luchtdrukmachine	0.10
io.dropwizard.metrics	metrische gegevenskern	4.1.1
io.dropwizard.metrics	graphite-metriek	4.1.1
io.dropwizard.metrics	metrische gezondheidscontroles	4.1.1
io.dropwizard.metrics	metrics-jetty9 (een Jetty-implementatie voor het meten van prestatie-indicatoren)	4.1.1
io.dropwizard.metrics	metrics-jmx	4.1.1
io.dropwizard.metrics	metrics-json (metrische gegevens in JSON-formaat)	4.1.1
io.dropwizard.metrics	metriekgegevens voor JVM	4.1.1
io.dropwizard.metrics	metrieke gegevens-servlets	4.1.1
io.netty	netty-all	4.1.47.Final
jakarta.annotatie	jakarta.annotation-api	1.3.5
jakarta.validation	jakarta.validation-api	2.0.2
jakarta.ws.rs	jakarta.ws.rs-api	2.1.6
javax.activation	activering	1.1.1
javax.el	javax.el-api	2.2.4
javax.jdo	jdo-api	3.0.1
javax.servlet	javax.servlet-api	3.1.0
javax.servlet.jsp	jsp-api	2.1
javax.transaction	jta	1.1
javax.transaction	transactie-API	1.1
javax.xml.bind	jaxb-api	2.2.2
javax.xml.stream	stax-api	1.0-2
Javolution	Javolution	5.5.1
jline	jline	2.14.6
joda-time	joda-time	2.10.5
log4j	apache-log4j-extras	1.2.17
log4j	log4j	1.2.17
net.razorvine	Pyroliet	4.30
net.sf.jpam	jpam	1.1
net.sf.opencsv	opencsv	2.3
net.sf.supercsv	super-CSV	2.2.0
net.sneeuwvlok	snowflake-ingest-sdk	0.9.6
net.sneeuwvlok	snowflake-jdbc	3.12.0
net.sneeuwvlok	spark-snowflake_2.12	2.5.9-spark_2.4
net.sourceforge.f2j	arpack_combined_all	0,1
org.acplt.remotetea	remotetea-oncrpc	1.1.2
org.antlr	ST4	4.0.4
org.antlr	antlr-runtime	3.5.2
org.antlr	antlr4-runtime	4.7.1
org.antlr	tekenreekstemplate	3.2.1
org.apache.ant	mier	1.9.2
org.apache.ant	ant-jsch	1.9.2
org.apache.ant	ant-launcher (startprogramma voor Ant)	1.9.2
org.apache.arrow	pijlnotatie	0.15.1
org.apache.arrow	pijlgeheugen	0.15.1
org.apache.arrow	pijlvector	0.15.1
org.apache.avro	AVRO	1.8.2
org.apache.avro	avro-ipc	1.8.2
org.apache.avro	avro-mapred-hadoop2	1.8.2
org.apache.commons	commons-compress - een bibliotheek voor compressie	1.8.1
org.apache.commons	commons-crypto	1.0.0
org.apache.commons	commons-lang3	3.9
org.apache.commons	commons-math3	3.4.1
org.apache.commons	commons-tekst	1.6
org.apache.curator	beheerder-cliënt	2.7.1
org.apache.curator	curatorraamwerk	2.7.1
org.apache.curator	curator-recepten	2.7.1
org.apache.derby	Derby	10.12.1.1
org.apache.directory.api	api-asn1-api	1.0.0-M20
org.apache.directory.api	api-util	1.0.0-M20
org.apache.directory.server	apacheds-i18n	2.0.0-M15
org.apache.directory.server	apacheds-kerberos-codec	2.0.0-M15
org.apache.hadoop	hadoop-aantekeningen	2.7.4
org.apache.hadoop	hadoop-authenticatie	2.7.4
org.apache.hadoop	hadoop-client	2.7.4
org.apache.hadoop	hadoop-common	2.7.4
org.apache.hadoop	Hadoop-HDFS (Hadoop Distributed File System)	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-app	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-common (gebruikelijk in softwareterminologie)	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-core (kernmodule van hadoop-mapreduce-client)	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-jobclient	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-shuffle	2.7.4
org.apache.hadoop	hadoop-yarn-api	2.7.4
org.apache.hadoop	hadoop-yarn-client	2.7.4
org.apache.hadoop	hadoop-yarn-common	2.7.4
org.apache.hadoop	hadoop-yarn-server-common (hadoop-yarn-server-algemeen)	2.7.4
org.apache.hive	hive-beeline	2.3.7
org.apache.hive	hive-cli	2.3.7
org.apache.hive	hive-common	2.3.7
org.apache.hive	hive-exec-core	2.3.7
org.apache.hive	hive-jdbc	2.3.7
org.apache.hive	hive-llap-client	2.3.7
org.apache.hive	hive-llap-common	2.3.7
org.apache.hive	hive-metastore (metadata opslag voor Hive)	2.3.7
org.apache.hive	hive-serde	2.3.7
org.apache.hive	hive-shims	2.3.7
org.apache.hive	hive-opslag-API	2.7.1
org.apache.hive	hive-vector-code-gen	2.3.7
org.apache.hive.shims	hive-shims-0.23	2.3.7
org.apache.hive.shims	hive-shims-common (if no translation is needed for understanding, the original can be kept as is)	2.3.7
org.apache.hive.shims	hive-shims-scheduler	2.3.7
org.apache.htrace	htrace-core	3.1.0-incubatie
org.apache.httpcomponents	httpclient	4.5.6
org.apache.httpcomponents	httpcore	4.4.12
org.apache.ivy	klimop	2.4.0
org.apache.orc	orc-core	1.5.10
org.apache.orc	orc-mapreduce	1.5.10
org.apache.orc	orc-shims	1.5.10
org.apache.parquet	parquet-kolom	1.10.1.2-databricks4
org.apache.parquet	parquet-common	1.10.1.2-databricks4
org.apache.parquet	parquet-codering	1.10.1.2-databricks4
org.apache.parquet	parquet-indeling	2.4.0
org.apache.parquet	parquet-hadoop	1.10.1.2-databricks4
org.apache.parquet	parquet-jackson	1.10.1.2-databricks4
org.apache.thrift	libfb303	0.9.3
org.apache.thrift	libthrift	0.12.0
org.apache.velocity	snelheid	1.5
org.apache.xbean	xbean-asm7-shaded	4.15
org.apache.yetus	annotaties voor specifieke doelgroepen	0.5.0
org.apache.zookeeper	dierentuinverzorger	3.4.14
org.codehaus.jackson	jackson-core-asl	1.9.13
org.codehaus.jackson	jackson-jaxrs	1.9.13
org.codehaus.jackson	jackson-mapper-ASL	1.9.13
org.codehaus.jackson	jackson-xc	1.9.13
org.codehaus.janino	algemene compiler	3.0.16
org.codehaus.janino	janino	3.0.16
org.datanucleus	datanucleus-api-jdo	4.2.4
org.datanucleus	datanucleus-core	4.1.17
org.datanucleus	datanucleus-rdbms	4.1.19
org.datanucleus	javax.jdo	3.2.0-m3
org.eclipse.jetty	jetty-client	9.4.18.v20190429
org.eclipse.jetty	jetty-vervolg	9.4.18.v20190429
org.eclipse.jetty	jetty-http	9.4.18.v20190429
org.eclipse.jetty	jetty-io	9.4.18.v20190429
org.eclipse.jetty	jetty-jndi	9.4.18.v20190429
org.eclipse.jetty	Jetty-plus	9.4.18.v20190429
org.eclipse.jetty	jetty-proxy (een omgekeerde proxy server gebaseerd op Jetty)	9.4.18.v20190429
org.eclipse.jetty	Jetty-beveiliging	9.4.18.v20190429
org.eclipse.jetty	Jetty Server	9.4.18.v20190429
org.eclipse.jetty	jetty-servlet	9.4.18.v20190429
org.eclipse.jetty	jetty-servlets	9.4.18.v20190429
org.eclipse.jetty	jetty-util	9.4.18.v20190429
org.eclipse.jetty	jetty-webapp	9.4.18.v20190429
org.eclipse.jetty	jetty-xml	9.4.18.v20190429
org.fusesource.leveldbjni	leveldbjni-all	1.8
org.glassfish.hk2	hk2-api	2.6.1
org.glassfish.hk2	hk2-lokalisator	2.6.1
org.glassfish.hk2	hk2-utils	2.6.1
org.glassfish.hk2	osgi-hulpbronnenzoeker	1.0.3
org.glassfish.hk2.external	aopalliance opnieuw verpakt	2.6.1
org.glassfish.hk2.external	jakarta.inject	2.6.1
org.glassfish.jersey.containers	jersey-container-servlet	2.30
org.glassfish.jersey.containers	jersey-container-servlet-core	2.30
org.glassfish.jersey.core	jersey-client	2.30
org.glassfish.jersey.core	Algemene Jersey	2.30
org.glassfish.jersey.core	Jersey-Server	2.30
org.glassfish.jersey.inject	jersey-hk2	2.30
org.glassfish.jersey.media	jersey-media-jaxb	2.30
org.hibernate.validator	hibernate-validator	6.1.0.Final
org.javassist	javassist	3.25.0-GA
org.jboss.logging	jboss-logging	3.3.2.Final
org.jdbi	jdbi	2.63.1
org.joda	joda-convert	1,7
org.jodd	jodd-core	3.5.2
org.json4s	json4s-ast_2.12	3.6.6
org.json4s	json4s-core_2.12	3.6.6
org.json4s	json4s-jackson_2.12	3.6.6
org.json4s	json4s-scalap_2.12	3.6.6
org.lz4	lz4-java	1.7.1
org.mariadb.jdbc	mariadb-java-client	2.1.2
org.objenesis	objenesis	2.5.1
org.postgresql	postgresql	42.1.4
org.roaringbitmap	RoaringBitmap	0.7.45
org.roaringbitmap	vulplaatjes	0.7.45
org.rocksdb	rocksdbjni	6.2.2
org.rosuda.REngine	REngine	2.1.0
org.scala-lang	scala-compiler_2.12	2.12.10
org.scala-lang	scala-library_2.12	2.12.10
org.scala-lang	scala-reflect_2.12	2.12.10
org.scala-lang.modules	scala-collection-compat_2.12	2.1.1
org.scala-lang.modules	scala-parser-combinators_2.12	1.1.2
org.scala-lang.modules	scala-xml_2.12	1.2.0
org.scala-sbt	test-interface	1.0
org.scalacheck	scalacheck_2.12	1.14.2
org.scalactic	scalactic_2.12	3.0.8
org.scalanlp	breeze-macros_2.12	1.0
org.scalanlp	breeze_2.12	1.0
org.scalatest	scalatest_2.12	3.0.8
org.slf4j	jcl-over-slf4j	1.7.30
org.slf4j	jul-to-slf4j	1.7.30
org.slf4j	slf4j-api	1.7.30
org.slf4j	slf4j-log4j12	1.7.30
org.spark-project.spark	ongebruikt	1.0.0
org.springframework	kern van Spring	4.1.4.RELEASE
org.springframework	lente-test	4.1.4.RELEASE
org.threeten	threeten-extra	1.5.0
org.tukaani	xz	1.5
org.typelevel	algebra_2.12	2.0.0-M2
org.typelevel	katten-kernel_2.12	2.0.0-M4
org.typelevel	machinist_2.12	0.6.8
org.typelevel	macro-compat_2.12	1.1.1
org.typelevel	spire-macros_2.12	0.17.0-M1
org.typelevel	spire-platform_2.12	0.17.0-M1
org.typelevel	spire-util_2.12	0.17.0-M1
org.typelevel	spire_2.12	0.17.0-M1
org.xerial	sqlite-jdbc	3.8.11.2
org.xerial.snappy	snappy-java	1.1.7.5
org.yaml	snakeyaml	1,24
oro	oro	2.0.8
pl.edu.icm	JLargeArrays	1.5
software.amazon.ion	ion-java	1.0.2
stax	stax-api	1.0.1
xmlenc	xmlenc	0,52

Feedback

Is deze pagina nuttig?

Last updated on 2026-02-25

Share via

Databricks Runtime 7.0 (EoL)

Nieuwe functies

Verbeteringen

Belangrijke wijzigingen in de bibliotheek

Python-pakketten

R-pakketten

Java- en Scala-bibliotheken

Gedragswijzigingen

Spark-gedragswijzigingen

Andere gedragswijzigingen

Uitfaseringen en verwijderingen

Apache Spark

In deze sectie:

Core, Spark SQL, Structured Streaming

Hoogtepunten

Prestatieverbeteringen

Uitbreidingen van uitbreidbaarheid

Connectorverbeteringen

Functieverbeteringen

Verbeteringen in SQL-compatibiliteit

Verbeteringen in monitoring en foutopsporing

Verbeteringen in PySpark

Verbeteringen in documentatie en testdekking

Andere belangrijke wijzigingen

Gedragswijzigingen voor Spark-kern, Spark SQL en Gestructureerd streamen

MLlib

Hoogtepunten

Gedragswijzigingen voor MLlib

SparkR

Gedragswijzigingen voor SparkR

Afgeschafte onderdelen

Bekende problemen

Onderhoudsupdates

Systeemomgeving

Geïnstalleerde Python-bibliotheken

Geïnstalleerde R-bibliotheken

Geïnstalleerde Java- en Scala-bibliotheken (Scala 2.12-clusterversie)

Feedback

Aanvullende resources