Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of mappen te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen om mappen te wijzigen.
Notitie
Deze Databricks Runtime-versie heeft het einde van de levensduur bereikt en is niet meer beschikbaar. Zie End-of-Support en end-of-life history voor einddatums. Zie de ondersteuningslevenscycli van Databricks Runtime voor informatie over het ondersteuningsbeleid en de planning van Databricks.
Databricks heeft deze versie uitgebracht in juni 2020.
De volgende releaseopmerkingen bevatten informatie over Databricks Runtime 7.0, mogelijk gemaakt door Apache Spark 3.0.
Nieuwe functies
Databricks Runtime 7.0 bevat de volgende nieuwe functies:
Scala 2.12
Databricks Runtime 7.0 voert een upgrade uit van Scala van 2.11.12 naar 2.12.10. De wijzigingslijst tussen Scala 2.12 en 2.11 staat in de releaseopmerkingen van Scala 2.12.0.
Auto Loader (openbare preview), uitgebracht in Databricks Runtime 6.4, is verbeterd in Databricks Runtime 7.0
Auto Loader biedt u een efficiëntere manier om nieuwe gegevensbestanden incrementeel te verwerken wanneer ze binnenkomen in een cloud-blobarchief tijdens ETL. Dit is een verbetering ten opzichte van gestructureerd streamen op basis van bestanden, waarmee nieuwe bestanden worden geïdentificeerd door herhaaldelijk de cloudmap weer te geven en de bestanden bij te houden die zijn gezien en die zeer inefficiënt kunnen zijn naarmate de map groeit. Automatisch laden is ook handiger en effectiever dan gestructureerd streamen op basis van bestandsmeldingen. Hiervoor moet u handmatig bestandsmeldingsservices configureren in de cloud en kunt u bestaande bestanden niet opnieuw doorvoeren. Zie Wat is Automatisch laadprogramma? voor meer informatie.
In Databricks Runtime 7.0 hoeft u geen aangepaste Databricks Runtime-afbeelding meer aan te vragen om Auto Loader te gebruiken.
COPY INTO(Openbare preview), waarmee u gegevens in Delta Lake kunt laden met nieuwe idempotente pogingen, is verbeterd in Databricks Runtime 7.0Uitgebracht als openbare preview in Databricks Runtime 6.4, kunt u met het
COPY INTOSQL-commando gegevens in Delta Lake laden met idempotente herhalingen. Als u gegevens vandaag wilt laden in Delta Lake, moet u Apache Spark DataFrame-API's gebruiken. Als er fouten optreden tijdens het laden, moet u ze effectief afhandelen. De nieuweCOPY INTOopdracht biedt een vertrouwde declaratieve interface voor het laden van gegevens in SQL. Met de opdracht worden eerder geladen bestanden bijgehouden en kunt u deze veilig opnieuw uitvoeren in geval van fouten. ZieCOPY INTOvoor meer informatie.
Verbeteringen
De Azure Synapse-connector (voorheen SQL Data Warehouse) ondersteunt de
COPYinstructie.Het belangrijkste voordeel hiervan
COPYis dat gebruikers met lagere bevoegdheden gegevens kunnen schrijven naar Azure Synapse zonder strikteCONTROLmachtigingen voor Azure Synapse.De
%matplotlib inlinemagic-opdracht is niet langer vereist om Matplotlib-objecten inline weer te geven in notebookcellen. Ze worden standaard altijd inline weergegeven.Matplolib-afbeeldingen worden nu weergegeven met
transparent=False, zodat door de gebruiker opgegeven achtergronden niet verloren gaan. Dit gedrag kan worden overschreven door de Spark-configuratiespark.databricks.workspace.matplotlib.transparent truein te stellen.Bij het uitvoeren van gestructureerde streaming-productietaken op clusters met hoge gelijktijdigheidsmodus mislukt het opnieuw opstarten van een taak af en toe, omdat de eerder uitgevoerde taak niet correct is beëindigd. Databricks Runtime 6.3 heeft de mogelijkheid geïntroduceerd om de SQL-configuratie
spark.sql.streaming.stopActiveRunOnRestart trueop uw cluster in te stellen om ervoor te zorgen dat de vorige uitvoering stopt. Deze configuratie is standaard ingesteld in Databricks Runtime 7.0.
Belangrijke wijzigingen in de bibliotheek
Python-pakketten
Belangrijke Python-pakketten zijn bijgewerkt:
- boto3 1.9.162 -> 1.12.0
- matplotlib 3.0.3 -> 3.1.3
- numpy 1.16.2 -> 1.18.1
- pandas 0.24.2 -> 1.0.1
- pip 19.0.3 -> 20.0.2
- pyarrow 0.13.0 -> 0.15.1
- psycopg2 2.7.6 -> 2.8.4
- scikit-learn 0.20.3 -> 0.22.1
- scipy 1.2.1 -> 1.4.1
- seaborn 0.9.0 -> 0.10.0
Python-pakketten verwijderd:
- boto (boto3 gebruiken)
- pycurl
Notitie
De Python-omgeving in Databricks Runtime 7.0 maakt gebruik van Python 3.7, wat verschilt van het geïnstalleerde Ubuntu-systeem Python: /usr/bin/python en /usr/bin/python2 zijn gekoppeld aan Python 2.7 en /usr/bin/python3 is gekoppeld aan Python 3.6.
R-pakketten
R-pakketten toegevoegd:
- bezem
- hoger
- isoband
- knitr
- Markdown
- modelr
- reprex (reproduceerbaar voorbeeld)
- rmarkdown
- rvest (een softwarepakket voor webscraping)
- Selectr
- tidyverse
- tinytex
- xfun
R-pakketten verwijderd:
- Combine
- bitops
- auto
- autoGegevens
- doMC
- gbm
- H2O
- Littler
- lme4
- mapproj
- Kaarten
- maptools
- MatrixModels
- minqa
- mvtnorm
- nloptr
- openxlsx
- pbkrtest
- pkgKitten
- quantreg
- R.methodsS3
- R.oo
- R.utils (een pakket in de R programmeertaal)
- RcppEigen
- RCurl
- Rio
- Sp
- SparseM
- statmod
- zip-bestand
Java- en Scala-bibliotheken
- Apache Hive-versie die wordt gebruikt voor het verwerken van door de gebruiker gedefinieerde Hive-functies en Hive SerDes bijgewerkt naar 2.3.
- Voorheen werden Azure Storage- en Key Vault-JAR's verpakt als onderdeel van Databricks Runtime, waardoor u geen verschillende versies van deze bibliotheken kunt gebruiken die zijn gekoppeld aan clusters. Klassen onder
com.microsoft.azure.storageencom.microsoft.azure.keyvaultbevinden zich niet meer op het klassepad in Databricks Runtime. Als u afhankelijk bent van een van deze klassepaden, moet u nu Azure Storage SDK of Azure Key Vault SDK aan uw clusters koppelen.
Gedragswijzigingen
Deze sectie bevat gedragswijzigingen van Databricks Runtime 6.6 naar Databricks Runtime 7.0. Houd er rekening mee wanneer u workloads migreert van lagere Databricks Runtime-releases naar Databricks Runtime 7.0 en hoger.
Spark-gedragswijzigingen
Omdat Databricks Runtime 7.0 de eerste Databricks Runtime is die is gebouwd op Spark 3.0, zijn er veel wijzigingen waar u rekening mee moet houden wanneer u workloads migreert van Databricks Runtime 5.5 LTS of 6.x, die zijn gebouwd op Spark 2.4. Deze wijzigingen worden vermeld in de sectie "Gedragswijzigingen" van de verschillende functionele gebieden in de Apache Spark-sectie van dit artikel over de release-opmerkingen.
- Gedragswijzigingen voor Spark-kern, Spark SQL en Gestructureerd streamen
- Gedragswijzigingen voor MLlib
- Gedragswijzigingen voor SparkR
Andere gedragswijzigingen
- De upgrade naar Scala 2.12 omvat de volgende wijzigingen:
De serialisatie van pakketcellen wordt anders afgehandeld. In het volgende voorbeeld ziet u de gedragswijziging en hoe u dit kunt afhandelen.
Het uitvoeren van
foo.bar.MyObjectInPackageCell.run()in de volgende pakketcel zal de foutjava.lang.NoClassDefFoundError: Could not initialize class foo.bar.MyObjectInPackageCell$veroorzaken.package foo.bar case class MyIntStruct(int: Int) import org.apache.spark.sql.SparkSession import org.apache.spark.sql.functions._ import org.apache.spark.sql.Column object MyObjectInPackageCell extends Serializable { // Because SparkSession cannot be created in Spark executors, // the following line triggers the error // Could not initialize class foo.bar.MyObjectInPackageCell$ val spark = SparkSession.builder.getOrCreate() def foo: Int => Option[MyIntStruct] = (x: Int) => Some(MyIntStruct(100)) val theUDF = udf(foo) val df = { val myUDFInstance = theUDF(col("id")) spark.range(0, 1, 1, 1).withColumn("u", myUDFInstance) } def run(): Unit = { df.collect().foreach(println) } }Als u deze fout wilt omzeilen, kunt u in een serialiseerbare klasse verpakken
MyObjectInPackageCell.In bepaalde gevallen waarin
DataStreamWriter.foreachBatchwordt gebruikt, is een broncode-update vereist. Deze wijziging is het gevolg van het feit dat Scala 2.12 automatische conversie van lambda-expressies naar SAM-typen heeft en dubbelzinnigheid kan veroorzaken.De volgende Scala-code kan bijvoorbeeld niet worden gecompileerd:
streams .writeStream .foreachBatch { (df, id) => myFunc(df, id) }Als u de compilatiefout wilt oplossen, moet u de Java-API expliciet wijzigen
foreachBatch { (df, id) => myFunc(df, id) }foreachBatch(myFunc _)of gebruiken:foreachBatch(new VoidFunction2 ...)
- Omdat de Apache Hive-versie die wordt gebruikt voor het verwerken van door de gebruiker gedefinieerde Hive-functies en Hive SerDes wordt bijgewerkt naar 2.3, zijn er twee wijzigingen vereist:
- De interface van
SerDeHive wordt vervangen door een abstracte klasseAbstractSerDe. Voor elke aangepaste Hive-implementatieSerDeis migratie naarAbstractSerDevereist. - Door
spark.sql.hive.metastore.jarsin te stellen opbuiltinwordt de Hive 2.3-metastore-client gebruikt om toegang te krijgen tot metastores voor Databricks Runtime 7.0. Als u toegang wilt krijgen tot externe metastores op basis van Hive 1.2, configureert uspark.sql.hive.metastore.jarsals de map die de Hive 1.2 JARs bevat.
- De interface van
Uitfaseringen en verwijderingen
- De index voor het overslaan van gegevens is afgeschaft in Databricks Runtime 4.3 en verwijderd in Databricks Runtime 7.0. U wordt aangeraden in plaats daarvan Delta-tabellen te gebruiken, die verbeterde mogelijkheden voor het overslaan van gegevens bieden.
- In Databricks Runtime 7.0 gebruikt de onderliggende versie van Apache Spark Scala 2.12. Omdat bibliotheken die zijn gecompileerd op Scala 2.11 Databricks Runtime 7.0-clusters op onverwachte manieren kunnen uitschakelen, installeren clusters met Databricks Runtime 7.0 en hoger geen bibliotheken die zijn geconfigureerd voor installatie op alle clusters. Het cluster Bibliotheken-tabblad toont een status
Skippeden een afschaffingsbericht dat de wijzigingen in de verwerking van bibliotheken uitlegt. Als u echter een cluster hebt dat is gemaakt op een eerdere versie van Databricks Runtime voordat Azure Databricks-platform versie 3.20 is uitgebracht in uw werkruimte en u nu dat cluster bewerkt om Databricks Runtime 7.0 te gebruiken, worden alle bibliotheken die zijn geconfigureerd om te worden geïnstalleerd op alle clusters geïnstalleerd op dat cluster. In dit geval kunnen incompatibele JAR's in de geïnstalleerde bibliotheken ertoe leiden dat het cluster wordt uitgeschakeld. De tijdelijke oplossing is om het cluster te klonen of om een nieuw cluster te maken.
Apache Spark
Databricks Runtime 7.0 bevat Apache Spark 3.0.
In deze sectie:
Core, Spark SQL, Structured Streaming
Hoogtepunten
- (Project Waterstof) Accelerator-bewuste Scheduler (SPARK-24615)
- Uitvoering van adaptieve query's (SPARK-31412)
- Dynamische partitie filteren (SPARK-11150)
- Opnieuw ontworpen pandas UDF-API met typehints (SPARK-28264)
- Structured Streaming UI (SPARK-29543)
- API voor catalogusinvoegtoepassingen (SPARK-31121)
- Betere ANSI SQL-compatibiliteit
Prestatieverbeteringen
- Uitvoering van adaptieve query's (SPARK-31412)
- Basisframework (SPARK-23128)
- Aanpassing van partitienummer bij herverdeling (SPARK-28177)
- Dynamisch hergebruik van subquery (SPARK-28753)
- Lokale shuffle-lezer (SPARK-28560)
- Optimalisatie van skew join (SPARK-29544)
- Het lezen van aaneengesloten shuffle-blokken optimaliseren (SPARK-9853)
- Dynamische partitie snoeien (SPARK-11150)
- Andere optimizer-regels
- Regel ReuseSubquery (SPARK-27279)
- Regel PushDownLeftSemiAntiJoin (SPARK-19712)
- Regel PushLeftSemiLeftAntiThroughJoin (SPARK-19712)
- Rule ReplaceNullWithFalse (SPARK-25860)
- Regel elimineert sorteringen zonder limiet in de subquery van Join/Aggregation (SPARK-29343)
- Regel PruneHiveTablePartitions (SPARK-15616)
- Overbodige geneste velden verwijderen uit Genereren (SPARK-27707)
- Rule RewriteNonCorrelatedExists (SPARK-29800)
- Minimaliseer de synchronisatiekosten van de tabelcache (SPARK-26917), (SPARK-26617), (SPARK-26548)
- Aggregatiecode splitsen in kleine functies (SPARK-21870)
- Voeg batchverwerking toe in de INSERT- en ALTER TABLE-opdracht ADD PARTITION (SPARK-29938)
Uitbreidingen van uitbreidbaarheid
- API voor catalogusinvoegtoepassingen (SPARK-31121)
- Herstructureren van gegevensbron V2-API (SPARK-25390)
- Ondersteuning voor Hive 3.0 en 3.1 -metastore (SPARK-27970),(SPARK-24360)
- Spark-invoegtoepassingsinterface uitbreiden naar stuurprogramma (SPARK-29396)
- Het metrische Spark-systeem uitbreiden met door de gebruiker gedefinieerde metrische gegevens met behulp van uitvoerprogramma-invoegtoepassingen (SPARK-28091)
- Ontwikkelaars-API's voor uitgebreide ondersteuning voor Columnar Processing (SPARK-27396)
- Ingebouwde bronmigratie met behulp van DSV2: parquet, ORC, CSV, JSON, Kafka, Text, Avro (SPARK-27589)
- FunctionInjection toestaan in SparkExtensions (SPARK-25560)
- Hiermee kan Aggregator worden geregistreerd als een UDAF (SPARK-27296)
Connectorverbeteringen
- Kolomsnoeien door niet-deterministische expressies (SPARK-29768)
- Ondersteuning
spark.sql.statistics.fallBackToHdfsin gegevensbrontabellen (SPARK-25474) - Toestaan van partitiepruning met subqueryfilters op file source (SPARK-26893)
- Voorkom het pushdown van subquery's in gegevensbronfilters (SPARK-25482)
- Recursieve gegevens laden uit bestandsbronnen (SPARK-27990)
- Parquet/ORC
- Doorvoer van disjunctieve predicaten (SPARK-27699)
- Geneste kolomsnoeien (SPARK-25603) generaliseren en standaard ingeschakeld (SPARK-29805)
- Alleen Parquet
- Parquet predicaat pushdown voor geneste velden (SPARK-17636)
- ALLEEN ORC
- Ondersteuning voor samenvoegingsschema voor ORC (SPARK-11412)
- Geneste schema's verwijderen voor ORC (SPARK-27034)
- Complexiteitsvermindering van predicaatconversie voor ORC (SPARK-27105, SPARK-28108)
- Apache ORC upgraden naar 1.5.9 (SPARK-30695)
- CSV
- Ondersteuning voor pushdownfilters in CSV-gegevensbron (SPARK-30323)
- Hive SerDe
- Geen schemadeductie bij het lezen van hive-serde-tabel met systeemeigen gegevensbron (SPARK-27119)
- Hive CTAS-opdrachten moeten gegevensbron gebruiken als deze converteerbaar is (SPARK-25271)
- Systeemeigen gegevensbron gebruiken om het invoegen van een gepartitioneerde Hive-tabel (SPARK-28573) te optimaliseren
- Apache Kafka
- Ondersteuning toevoegen voor Kafka-headers (SPARK-23539)
- Ondersteuning voor Kafka-delegatietoken toevoegen (SPARK-25501)
- Nieuwe optie voor Kafka-bron introduceren: offset per tijdstempel (starten/eindigen) (SPARK-26848)
- Ondersteuning voor de
minPartitionsoptie in Kafka-batchbron en streamingbron v1 (SPARK-30656) - Kafka upgraden naar 2.4.1 (SPARK-31126)
- Nieuwe ingebouwde gegevensbronnen
- Nieuwe ingebouwde binaire bestandsgegevensbronnen (SPARK-25348)
- Nieuwe no-op batch-gegevensbronnen (SPARK-26550) en no-op streaming sink (SPARK-26649)
Functieverbeteringen
- [Waterstof] Accelerator-aware Scheduler (SPARK-24615)
- Een volledige set joinhints introduceren (SPARK-27225)
- Hint toevoegen
PARTITION BYvoor SQL-query's (SPARK-28746) - Verwerking van metagegevens in Thrift Server (SPARK-28426)
- Functies in hogere volgorde toevoegen aan scala-API (SPARK-27297)
- Ondersteuning voor eenvoudig verzamelen in context van barrièretaken (SPARK-30667)
- Hive UDF's ondersteunt het UDT-type (SPARK-28158)
- Ondersteuning voor DELETE/UPDATE/MERGE Operators in Catalyst (SPARK-28351, SPARK-28892, SPARK-28893)
- DataFrame.tail implementeren (SPARK-30185)
- Nieuwe ingebouwde functies
- sinh, cosh, tanh, asinh, acosh, atanh (SPARK-28133)
- elk, iedere, enige (SPARK-19851)
- bit_and, bit_or (SPARK-27879)
- bit_count (SPARK-29491)
- bit_xor (SPARK-29545)
- bool_and, bool_or (SPARK-30184)
- count_if (SPARK-27425)
- date_part (SPARK-28690)
- extract (SPARK-23903)
- forall (SPARK-27905)
- from_csv (SPARK-25393)
- make_date (SPARK-28432)
- make_interval (SPARK-29393)
- make_timestamp (SPARK-28459)
- kaart_invoer (SPARK-23935)
- map_filter (SPARK-23937)
- map_zip_with (SPARK-23938)
- max_by, min_by (SPARK-27653)
- schema_of_csv (SPARK-25672)
- to_csv (SPARK-25638)
- transform_keys (SPARK-23939)
- transform_values (SPARK-23940)
- typeof (SPARK-29961)
- versie (SPARK-29554)
- xxhash64 (SPARK-27099)
- Verbeteringen aan bestaande ingebouwde functies
- Ingebouwde datum/tijd-functies/bewerkingen verbeteren (SPARK-31415)
- Ondersteuningsmodus
FAILFASTvoorfrom_json(SPARK-25243) -
array_sortvoegt een nieuwe comparatorparameter toe (SPARK-29020) - Filter kan nu de index als invoer en het element (SPARK-28962) overnemen
Verbeteringen in SQL-compatibiliteit
- Overschakelen naar Proleptische Gregoriaanse kalender (SPARK-26651)
- De eigen datum/tijd-patroondefinitie van Spark bouwen (SPARK-31408)
- AnSI-archieftoewijzingsbeleid introduceren voor tabelinvoeging (SPARK-28495)
- Volg standaard de ANSI-toewijzingsregel bij het invoegen van tabellen (SPARK-28885)
- Een SQLConf
spark.sql.ansi.enabled(SPARK-28989) toevoegen - ANSI SQL-filtercomponent voor statistische expressie (SPARK-27986) ondersteunen
- Ansi SQL-functie
OVERLAYondersteunen (SPARK-28077) - Ondersteuning voor ANSI geneste opmerkingen tussen haakjes (SPARK-28880)
- Een uitzondering op overloop genereren voor gehele getallen (SPARK-26218)
- Overloopcontrole bij intervalrekenkundige bewerkingen (SPARK-30341)
- Een uitzondering genereren wanneer een ongeldige tekenreeks wordt gecast naar een numeriek type (SPARK-30292)
- Het overloopgedrag van vermenigvuldigen en delen consistent maken met andere bewerkingen (SPARK-30919)
- ANSI-typealiassen toevoegen voor teken en decimaal (SPARK-29941)
- SQL Parser definieert gereserveerde ANSI-compatibele trefwoorden (SPARK-26215)
- Gereserveerde trefwoorden als id's verbieden wanneer de ANSI-modus is ingeschakeld (SPARK-26976)
- ANSI SQL-syntaxis
LIKE ... ESCAPEondersteunen (SPARK-28083) - Ondersteuning voor ANSI SQL Boolean-Prediccate syntaxis (SPARK-27924)
- Betere ondersteuning voor gecorreleerde subqueryverwerking (SPARK-18455)
Verbeteringen in monitoring en foutopsporing
- Nieuwe gebruikersinterface voor gestructureerd streamen (SPARK-29543)
- SHS: Toestaan dat gebeurtenislogboeken voor het uitvoeren van streaming-apps kunnen worden doorgerold (SPARK-28594)
- Een API toevoegen waarmee een gebruiker willekeurige metrische gegevens kan definiëren en observeren voor batch- en streamingquery's (SPARK-29345)
- Instrumentatie voor het bijhouden van planningstijd per query (SPARK-26129)
- Plaats de metrische basisgegevens voor willekeurige volgorde in de SQL Exchange-operator (SPARK-26139)
- SQL-instructie wordt getoond op het SQL-tabblad in plaats van callsite (SPARK-27045)
- Knopinfo toevoegen aan SparkUI (SPARK-29449)
- De gelijktijdige prestaties van History Server verbeteren (SPARK-29043)
-
EXPLAIN FORMATTEDopdracht (SPARK-27395) - Ondersteuning bij het dumpen van afgekorte plannen en gegenereerde code naar een bestand (SPARK-26023)
- Verbeter beschrijvingsframework om de uitvoer van een query te verduidelijken (SPARK-26982)
- Opdracht toevoegen
SHOW VIEWS(SPARK-31113) - De foutberichten van SQL-parser verbeteren (SPARK-27901)
- Ondersteuning voor Prometheus-bewaking (SPARK-29429)
Verbeteringen in PySpark
- Opnieuw ontworpen pandas UDF's met type-aanduidingen (SPARK-28264)
- Pandas UDF-pijplijn (SPARK-26412)
- Ondersteuning voor StructType als argumenten en retourtypen voor Scalar Pandas UDF (SPARK-27240 )
- Ondersteuning voor Dataframe Cogroup via Pandas UDF's (SPARK-27463)
- Toevoegen
mapInPandasom een iterator van DataFrames toe te staan (SPARK-28198) - Bepaalde SQL-functies moeten ook kolomnamen nemen (SPARK-26979)
- PySpark SQL-uitzonderingen meer Pythonic maken (SPARK-31849)
Verbeteringen in documentatie en testdekking
- Een SQL-referentie bouwen (SPARK-28588)
- Een gebruikershandleiding bouwen voor WebUI (SPARK-28372)
- Een pagina maken voor SQL-configuratiedocumentatie (SPARK-30510)
- Versie-informatie toevoegen voor Spark-configuratie (SPARK-30839)
- Poortregressietests van PostgreSQL (SPARK-27763)
- Thrift-server test dekking (SPARK-28608)
- Test dekking van UDF's (python UDF, pandas UDF, scala UDF) (SPARK-27921)
Andere belangrijke wijzigingen
- Upgrade van ingebouwde Hive-uitvoering van 1.2.1 naar 2.3.6 (SPARK-23710, SPARK-28723, SPARK-31381)
- Apache Hive 2.3-afhankelijkheid standaard gebruiken (SPARK-30034)
- GA Scala 2.12 en verwijder 2.11 (SPARK-26132)
- Logica verbeteren voor time-out van uitvoerders in dynamische toewijzing (SPARK-20286)
- Op schijf gepersisteerde RDD-blokken, geleverd door de shuffle-service en genegeerd voor dynamische toewijzing (SPARK-27677)
- Verkrijg nieuwe uitvoerders om vastlopen vanwege bloklijsting te voorkomen (SPARK-22148)
- Delen van de geheugengroeptoewijzingen van Netty toestaan (SPARK-24920)
- Impasse tussen
TaskMemoryManagerenUnsafeExternalSorter$SpillableIterator(SPARK-27338) oplossen - API's
AdmissionControlintroduceren voor StructuredStreaming (SPARK-30669) - Prestatieverbetering van De hoofdpagina van Spark-geschiedenis (SPARK-25973)
- Aggregatie van metrische gegevens versnellen en verkleinen in SQL-listener (SPARK-29562)
- Vermijd het netwerk wanneer shuffle blokken worden opgehaald van dezelfde host (SPARK-27651)
- Lijst met bestanden verbeteren voor
DistributedFileSystem(SPARK-27801)
Gedragswijzigingen voor Spark-kern, Spark SQL en Gestructureerd streamen
In de volgende migratiehandleidingen worden gedragswijzigingen tussen Apache Spark 2.4 en 3.0 vermeld. Voor deze wijzigingen zijn mogelijk updates vereist voor taken die u hebt uitgevoerd op lagere Versies van Databricks Runtime:
- Migratiehandleiding: Spark Core
- Migratiehandleiding: SQL, Datasets en DataFrame
- Migratiehandleiding: Gestructureerd streamen
- Migratiehandleiding: PySpark (Python op Spark)
De volgende gedragswijzigingen worden niet behandeld in deze migratiehandleidingen:
- In Spark 3.0 is de afgeschafte klasse
org.apache.spark.sql.streaming.ProcessingTimeverwijderd. Gebruik in plaats daarvanorg.apache.spark.sql.streaming.Trigger.ProcessingTime. Evenzo isorg.apache.spark.sql.execution.streaming.continuous.ContinuousTriggerverwijderd ten gunste vanTrigger.Continuous, enorg.apache.spark.sql.execution.streaming.OneTimeTriggeris verborgen ten gunste vanTrigger.Once. (SPARK-28199) - In Databricks Runtime 7.0 verbiedt Spark standaard het lezen van bestanden onder een submap die geen tabelpartitie is bij het lezen van een Hive SerDe-tabel. Als u deze wilt inschakelen, stelt u de configuratie
spark.databricks.io.hive.scanNonpartitionedDirectory.enabledin alstrue. Dit heeft geen invloed op systeemeigen Spark-tabellezers en bestandslezers.
MLlib
Hoogtepunten
- Ondersteuning voor meerdere kolommen is toegevoegd aan Binarizer (SPARK-23578), StringIndexer (SPARK-11215), StopWordsRemover (SPARK-29808) en PySpark QuantileDiscretizer (SPARK-22796)
- Ondersteuning voor op structuur gebaseerde functietransformatie (SPARK-13677)
- Er zijn twee nieuwe evaluators MultilabelClassificationEvaluator (SPARK-16692) en RankingEvaluator (SPARK-28045) toegevoegd
- Ondersteuning voor voorbeeldgewichten is toegevoegd in DecisionTreeClassifier/Regressor (SPARK-19591), RandomForestClassifier/Regressor (SPARK-9478), GBTClassifier/Regressor (SPARK-9612), RegressionEvaluator (SPARK-24102), BinaryClassificationEvaluator (SPARK-24103), BisectingKMeans (SPARK-30351), KMeans (SPARK-29967) en GaussianMixture (SPARK-30102)
- R API voor PowerIterationClustering is toegevoegd (SPARK-19827)
- Spark ML-listener toegevoegd voor het bijhouden van de ML-pijplijnstatus (SPARK-23674)
- Aanpassing aan de validatieset is toegevoegd aan gegradueerde boostbomen in Python (SPARK-24333)
- RobustScaler-transformator is toegevoegd (SPARK-28399)
- Classificatie van factorisatiemachines en regressor zijn toegevoegd (SPARK-29224)
- Gaussiische Naive Bayes (SPARK-16872) en Complement Naive Bayes (SPARK-29942) zijn toegevoegd
- ML-functiepariteit tussen Scala en Python (SPARK-28958)
- predictRaw wordt openbaar gemaakt in alle classificatiemodellen. predictProbability wordt openbaar gemaakt in alle classificatiemodellen behalve LinearSVCModel (SPARK-30358)
Gedragswijzigingen voor MLlib
De volgende migratiehandleiding bevat gedragswijzigingen tussen Apache Spark 2.4 en 3.0. Voor deze wijzigingen zijn mogelijk updates vereist voor taken die u hebt uitgevoerd op lagere Versies van Databricks Runtime:
De volgende gedragswijzigingen worden niet behandeld in de migratiehandleiding:
- In Spark 3.0 retourneert een logistieke regressie met meerdere klassen in Pyspark nu correct (zoals het hoort)
LogisticRegressionSummaryen niet de subklasseBinaryLogisticRegressionSummary. De aanvullende methoden die worden weergegeven doorBinaryLogisticRegressionSummary, werken in dit geval toch niet. (SPARK-31681) - In Spark 3.0 ondersteunen
pyspark.ml.param.shared.Has*mixins geenset*(self, value)-settermethoden meer, gebruik in plaats daarvan de respectieve methoden vanself.set(self.*, value). Zie SPARK-29093 voor meer informatie. (SPARK-29093)
SparkR
- Pijloptimalisatie in de interoperabiliteit van SparkR (SPARK-26759)
- Prestatieverbetering via de gevectoriseerde functies R gapply(), dapply(), createDataFrame, collect()
- 'Snelle uitvoering' voor R-shell, IDE (SPARK-24572)
- R-API voor Power Iteration Clustering (SPARK-19827)
Gedragswijzigingen voor SparkR
De volgende migratiehandleiding bevat gedragswijzigingen tussen Apache Spark 2.4 en 3.0. Voor deze wijzigingen zijn mogelijk updates vereist voor taken die u hebt uitgevoerd op lagere Versies van Databricks Runtime:
Afgeschafte onderdelen
- Ondersteuning voor Python 2 uitfaseren (SPARK-27884)
- Ondersteuning voor R < 3.4 wordt afgeschaft (SPARK-26014)
Bekende problemen
- De dag van het jaar parsen met de patroonletter 'D' geeft het verkeerde resultaat als het jaarveld ontbreekt. Dit kan gebeuren in SQL-functies, zoals
to_timestampdie datum/tijd-tekenreeks parseert tot datum/tijd-waarden met behulp van een patroontekenreeks. (SPARK-31939) - Join/Window/Aggregate binnen subquery's kan leiden tot verkeerde resultaten als de sleutels waarden -0.0 en 0.0 hebben. (SPARK-31958)
- Een vensterquery kan onverwacht mislukken met een dubbelzinnige self-join-fout. (SPARK-31956)
- Streamingquery's met
dropDuplicatesoperator kunnen mogelijk niet opnieuw worden opgestart met het controlepunt dat is geschreven door Spark 2.x. (SPARK-31990)
Onderhoudsupdates
Zie onderhoudsupdates voor Databricks Runtime 7.0.
Systeemomgeving
- Besturingssysteem: Ubuntu 18.04.4 LTS
- Java: 1.8.0_252
- Scala: 2.12.10
- Python: 3.7.5
- R: R versie 3.6.3 (2020-02-29)
- Delta Lake 0.7.0
Geïnstalleerde Python-bibliotheken
| Bibliotheek | Versie | Bibliotheek | Versie | Bibliotheek | Versie |
|---|---|---|---|---|---|
| asn1crypto | 1.3.0 | terugroepactie | 0.1.0 | boto3 | 1.12.0 |
| botocore | 1.15.0 | certificaat | 2020.4.5 | cffi | 1.14.0 |
| chardet | 3.0.4 | cryptografie | 2.8 | wielrijder | 0.10.0 |
| Cython | 0.29.15 | decorateur | 4.4.1 | docutils | 0.15.2 |
| invoerpunten | 0,3 | IDNA | 2.8 | ipykernel | 5.1.4 |
| ipython | 7.12.0 | ipython-genutils | 0.2.0 | Jedi | 0.14.1 |
| jmespath | 0.9.4 | joblib | 0.14.1 | jupyter-client (softwarepakket voor Jupyter-notebooks) | 5.3.4 |
| jupyter-core | 4.6.1 | kiwisolver | 1.1.0 | matplotlib | 3.1.3 |
| numpy | 1.18.1 | Pandas | 1.0.1 | parso | 0.5.2 |
| Patsy | 0.5.1 | pexpect | 4.8.0 | pickleshare | 0.7.5 |
| pip | 20.0.2 | prompt-hulpmiddelenpakket | 3.0.3 | psycopg2 | 2.8.4 |
| ptyprocess | 0.6.0 | pyarrow | 0.15.1 | pycparser | 2.19 |
| Pygments | 2.5.2 | PyGObject | 3.26.1 | pyOpenSSL | 19.1.0 |
| pyparsing | 2.4.6 | PySocks | 1.7.1 | python-apt | 1.6.5+ubuntu0.3 |
| python-dateutil (een bibliotheek voor datum- en tijdgebaseerde functionaliteit in Python) | 2.8.1 | pytz | 2019.3 | pyzmq | 18.1.1 |
| Verzoeken | 2.22.0 | s3transfer | 0.3.3 | scikit-learn | 0.22.1 |
| Scipy (een wetenschappelijke bibliotheek voor Python) | 1.4.1 | geboren op zee | 0.10.0 | setuptools (een Python-pakket voor het beheren van installatie en distributie van pakketten) | 45.2.0 |
| Zes | 1.14.0 | ssh-import-id | 5.7 | statsmodels | 0.11.0 |
| tornado | 6.0.3 | Traitlets (Python library voor het configureren van Python-objecten) | 4.3.3 | upgrades zonder toezicht | 0,1 |
| urllib3 | 1.25.8 | virtualenv | 16.7.10 | wcwidth | 0.1.8 |
| wiel | 0.34.2 |
Geïnstalleerde R-bibliotheken
R-bibliotheken worden geïnstalleerd vanuit Microsoft CRAN-momentopname op 2020-04-22.
| Bibliotheek | Versie | Bibliotheek | Versie | Bibliotheek | Versie |
|---|---|---|---|---|---|
| wachtwoord vragen | 1.1 | verzeker dat | 0.2.1 | terugimporten | 1.1.6 |
| basis | 3.6.3 | base64enc | 0.1-3 | BH | 1.72.0-3 |
| beetje | 1.1-15.2 | 64-bitsysteem | 0.9-7 | Druppel | 1.2.1 |
| opstarten | 1.3-25 | brouwsel | 1.0-6 | bezem | 0.5.6 |
| beller | 3.4.3 | Caret | 6.0-86 | cellranger (softwaretool voor genetische analyse) | 1.1.0 |
| Chron | 2.3-55 | klasse | 7.3-17 | CLI | 2.0.2 |
| Clipr | 0.7.0 | groep | 2.1.0 | codetools | 0.2-16 |
| kleurenruimte | 1.4-1 | commonmark | 1,7 | programmacompileerder | 3.6.3 |
| configuratie | 0,3 | covr | 3.5.0 | kleurpotlood | 1.3.4 |
| Overspraak | 1.1.0.1 | curl | 4.3 | gegevenstabel | 1.12.8 |
| gegevenssets | 3.6.3 | DBI | 1.1.0 | dbplyr | 1.4.3 |
| Beschrijving | 1.2.0 | devtools | 2.3.0 | verwerken | 0.6.25 |
| dplyr (een R-pakket voor gegevensmanipulatie) | 0.8.5 | DT | 0,13 | beletselteken | 0.3.0 |
| beoordelen | 0,14 | fans | 0.4.1 | kleuren | 2.0.3 |
| snelle kaart | 1.0.1 | dwangarbeiders | 0.5.0 | foreach | 1.5.0 |
| buitenlands | 0.8-76 | smeden | 0.2.0 | fs | 1.4.1 |
| Generics | 0.0.2 | ggplot2 | 3.3.0 | Gh | 1.1.0 |
| git2r | 0.26.1 | glmnet | 3.0-2 | globale variabelen | 0.12.5 |
| lijm | 1.4.0 | Gower | 0.2.1 | afbeeldingen | 3.6.3 |
| grDevices | 3.6.3 | netwerk | 3.6.3 | gridExtra | 2.3 |
| gsubfn | 0,7 | gtable | 0.3.0 | toevluchtsoord/schuilplaats | 2.2.0 |
| hoger | 0,8 | hms | 0.5.3 | htmltools | 0.4.0 |
| htmlwidgets | 1.5.1 | httpuv | 1.5.2 | httr | 1.4.1 |
| hwriter | 1.3.2 | hwriterPlus | 1.0-3 | ini | 0.3.1 |
| IPRED | 0.9-9 | isoband | 0.2.1 | Iterators | 1.0.12 |
| jsonlite | 1.6.1 | KernSmooth | 2.23-17 | knitr | 1.28 |
| etikettering | 0,3 | daarna | 1.0.0 | latwerk | 0.20-41 |
| lava | 1.6.7 | lazyeval | 0.2.2 | levenscyclus | 0.2.0 |
| lubridate | 1.7.8 | magrittr | 1.5 | Markdown | 1.1 |
| MASSA | 7.3-51.6 | Matrix | 1.2-18 | memoriseer | 1.1.0 |
| methoden | 3.6.3 | mgcv | 1.8-31 | Mime | 0,9 |
| ModelMetrics | 1.2.2.2 | modelr | 0.1.6 | munsell | 0.5.0 |
| nlme | 3.1-147 | nnet | 7.3-14 | numDeriv | 2016.8 tot 1.1 |
| OpenSSL-software | 1.4.1 | evenwijdig | 3.6.3 | pilaar | 1.4.3 |
| pkgbuild | 1.0.6 | pkgconfig | 2.0.3 | pkgload | 1.0.2 |
| plogr | 0.2.0 | plyr | 1.8.6 | prijzen | 1.0.0 |
| prettyunits | 1.1.1 | pROC | 1.16.2 | Processx | 3.4.2 |
| prodlim | 2019.11.13 | Voortgang | 1.2.2 | Beloften | 1.1.0 |
| Proto | 1.0.0 | P.S. | 1.3.2 | purrr | 0.3.4 |
| r2d3 | 0.2.3 | R6 | 2.4.1 | randomForest | 4.6-14 |
| rappdirs | 0.3.1 | rcmdcheck | 1.3.3 | RColorBrewer | 1.1-2 |
| Rcpp | 1.0.4.6 | readr | 1.3.1 | readxl (een programma voor het lezen van Excel-bestanden) | 1.3.1 |
| recepten | 0.1.10 | Rematch | 1.0.1 | opnieuw overeenkomen2 | 2.1.1 |
| Afstandsbedieningen | 2.1.1 | reprex (reproduceerbaar voorbeeld) | 0.3.0 | reshape2 | 1.4.4 |
| Rex | 1.2.0 | rjson | 0.2.20 | rlang | 0.4.5 |
| rmarkdown | 2.1 | RODBC | 1.3-16 | roxygen2 | 7.1.0 |
| rpart (een R-pakket voor beslissingsboommodellering) | 4.1-15 | rprojroot | 1.3-2 | Rserve | 1.8-6 |
| RSQLite | 2.2.0 | rstudioapi | 0,11 | rversions | 2.0.1 |
| rvest (een softwarepakket voor webscraping) | 0.3.5 | weegschaal | 1.1.0 | Selectr | 0,4-2 |
| sessiegegevens | 1.1.1 | vorm | 1.4.4 | glanzend en nieuw | 1.4.0.2 |
| sourcetools | 0.1.7 | sparklyr | 1.2.0 | SparkR | 3.0.0 |
| ruimtelijk | 7.3-11 | Splines | 3.6.3 | sqldf | 0.4-11 |
| SQUAREM | 2020.2 | Statistieken | 3.6.3 | statistieken4 | 3.6.3 |
| strings | 1.4.6 | stringr | 1.4.0 | survival | 3.1-12 |
| sys | 3.3 | tcltk | 3.6.3 | OnderwijsDemo's | 2.10 |
| testthat | 2.3.2 | tibble | 3.0.1 | tidyr | 1.0.2 |
| tidyselect | 1.0.0 | tidyverse | 1.3.0 | tijd en datum | 3043.102 |
| tinytex | 0,22 | gereedschappen | 3.6.3 | gebruik dit | 1.6.0 |
| utf8 | 1.1.4 | hulpmiddelen | 3.6.3 | vctrs | 0.2.4 |
| viridisLite | 0.3.0 | snor | 0,4 | verwelken | 2.2.0 |
| xfun | 0,13 | xml2 | 1.3.1 | xopen | 1.0.0 |
| xtable | 1.8-4 | YAML | 2.2.1 |
Geïnstalleerde Java- en Scala-bibliotheken (Scala 2.12-clusterversie)
| Groeps-id | Artefact-ID | Versie |
|---|---|---|
| antlr | antlr | 2.7.7 |
| com.amazonaws | Amazon Kinesis-client | 1.12.0 |
| com.amazonaws | aws-java-sdk-autoscaling (Amazon Web Services Java Software Development Kit voor automatisch schalen) | 1.11.655 |
| com.amazonaws | aws-java-sdk-cloudformation | 1.11.655 |
| com.amazonaws | aws-java-sdk-cloudfront | 1.11.655 |
| com.amazonaws | aws-java-sdk-cloudhsm | 1.11.655 |
| com.amazonaws | aws-java-sdk-cloudsearch | 1.11.655 |
| com.amazonaws | aws-java-sdk-cloudtrail | 1.11.655 |
| com.amazonaws | aws-java-sdk-cloudwatch | 1.11.655 |
| com.amazonaws | aws-java-sdk-cloudwatchmetrics | 1.11.655 |
| com.amazonaws | aws-java-sdk-codedeploy | 1.11.655 |
| com.amazonaws | aws-java-sdk-cognitoidentity | 1.11.655 |
| com.amazonaws | aws-java-sdk-cognitosync | 1.11.655 |
| com.amazonaws | aws-java-sdk-config (configuratie) | 1.11.655 |
| com.amazonaws | aws-java-sdk-core | 1.11.655 |
| com.amazonaws | AWS Java SDK Datapipeline | 1.11.655 |
| com.amazonaws | aws-java-sdk-directconnect | 1.11.655 |
| com.amazonaws | aws-java-sdk-directory | 1.11.655 |
| com.amazonaws | aws-java-sdk-dynamodb | 1.11.655 |
| com.amazonaws | aws-java-sdk-ec2 | 1.11.655 |
| com.amazonaws | aws-java-sdk-ecs | 1.11.655 |
| com.amazonaws | aws-java-sdk-efs | 1.11.655 |
| com.amazonaws | aws-java-sdk-elasticache | 1.11.655 |
| com.amazonaws | aws-java-sdk-elasticbeanstalk | 1.11.655 |
| com.amazonaws | AWS Java SDK - Elastic Load Balancing | 1.11.655 |
| com.amazonaws | aws-java-sdk-elastictranscoder | 1.11.655 |
| com.amazonaws | aws-java-sdk-emr | 1.11.655 |
| com.amazonaws | aws-java-sdk-glacier (AWS Java SDK Glacier) | 1.11.655 |
| com.amazonaws | aws-java-sdk-iam | 1.11.655 |
| com.amazonaws | AWS Java SDK Import/Export | 1.11.655 |
| com.amazonaws | aws-java-sdk-kinesis | 1.11.655 |
| com.amazonaws | aws-java-sdk-kms | 1.11.655 |
| com.amazonaws | aws-java-sdk-lambda | 1.11.655 |
| com.amazonaws | aws-java-sdk-logbestanden | 1.11.655 |
| com.amazonaws | AWS-Java-SDK-MachineLearning | 1.11.655 |
| com.amazonaws | aws-java-sdk-opsworks | 1.11.655 |
| com.amazonaws | aws-java-sdk-rds | 1.11.655 |
| com.amazonaws | aws-java-sdk-redshift | 1.11.655 |
| com.amazonaws | aws-java-sdk-route53 | 1.11.655 |
| com.amazonaws | aws-java-sdk-s3 | 1.11.655 |
| com.amazonaws | aws-java-sdk-ses | 1.11.655 |
| com.amazonaws | aws-java-sdk-simpledb | 1.11.655 |
| com.amazonaws | aws-java-sdk-simpleworkflow | 1.11.655 |
| com.amazonaws | aws-java-sdk-sns | 1.11.655 |
| com.amazonaws | aws-java-sdk-sqs | 1.11.655 |
| com.amazonaws | aws-java-sdk-ssm | 1.11.655 |
| com.amazonaws | aws-java-sdk-storagegateway (een Java software development kit voor het beheren van opslaggateways in AWS) | 1.11.655 |
| com.amazonaws | aws-java-sdk-sts | 1.11.655 |
| com.amazonaws | aws-java-sdk-ondersteuning | 1.11.655 |
| com.amazonaws | aws-java-sdk-swf-bibliotheken | 1.11.22 |
| com.amazonaws | aws-java-sdk-workspaces | 1.11.655 |
| com.amazonaws | jmespath-java | 1.11.655 |
| com.chuusai | shapeless_2.12 | 2.3.3 |
| com.clearspring.analytics | stroom | 2.9.6 |
| com.databricks | Rserve | 1.8-3 |
| com.databricks | jets3t | 0.7.1-0 |
| com.databricks.scalapb | compilerplugin_2.12 | 0.4.15-10 |
| com.databricks.scalapb | scalapb-runtime_2.12 | 0.4.15-10 |
| com.esotericsoftware | kryo-gearceerd | 4.0.2 |
| com.esotericsoftware | minlog | 1.3.0 |
| com.fasterxml | klasgenoot | 1.3.4 |
| com.fasterxml.jackson.core | Jackson-annotaties | 2.10.0 |
| com.fasterxml.jackson.core | jackson-core | 2.10.0 |
| com.fasterxml.jackson.core | jackson-databind | 2.10.0 |
| com.fasterxml.jackson.dataformat | jackson-dataformat-cbor | 2.10.0 |
| com.fasterxml.jackson.datatype | jackson-datatype-joda | 2.10.0 |
| com.fasterxml.jackson.module | jackson-module-paranamer | 2.10.0 |
| com.fasterxml.jackson.module | jackson-module-scala_2.12 | 2.10.0 |
| com.github.ben-manes.caffeine | cafeïne | 2.3.4 |
| com.github.fommil | jniloader | 1.1 |
| com.github.fommil.netlib | kern | 1.1.2 |
| com.github.fommil.netlib | native_ref-java | 1.1 |
| com.github.fommil.netlib | native_ref-java-natives | 1.1 |
| com.github.fommil.netlib | native_system-java | 1.1 |
| com.github.fommil.netlib | native_systeem-java-natives | 1.1 |
| com.github.fommil.netlib | netlib-native_ref-linux-x86_64-natives | 1.1 |
| com.github.fommil.netlib | netlib-native systeem voor Linux x86_64, inclusief natives | 1.1 |
| com.github.joshelser | dropwizard-metrics-hadoop-metrics2-reporter | 0.1.2 |
| com.github.luben | zstd-jni | 1.4.4-3 |
| com.github.wendykierp | JTransforms | 3.1 |
| com.google.code.findbugs | jsr305 | 3.0.0 |
| com.google.code.gson | gson (een Java-bibliotheek voor het converteren van Java-objecten naar JSON en vice versa) | 2.2.4 |
| com.google.flatbuffers | flatbuffers-java | 1.9.0 |
| com.google.guava | guave | 15,0 |
| com.google.protobuf | protobuf-java | 2.6.1 |
| com.h2database | h2 | 1.4.195 |
| com.helger | profielmaker | 1.1.1 |
| com.jcraft | jsch | 0.1.50 |
| com.jolbox | bonecp | 0.8.0.UITGAVE |
| com.microsoft.azure | Azure-Data-Lake-Store-SDK | 2.2.8 |
| com.microsoft.sqlserver | mssql-jdbc | 8.2.1.jre8 |
| com.ning | compress-lzf (een compressie-algoritme) | 1.0.3 |
| com.sun.mail | javax.mail | 1.5.2 |
| com.tdunning | json | 1.8 |
| com.thoughtworks.paranamer | paranamer | 2.8 |
| com.trueaccord.lenses | lenses_2.12 | 0.4.12 |
| com.twitter | chill-java | 0.9.5 |
| com.twitter | chill_2.12 | 0.9.5 |
| com.twitter | util-app_2.12 | 7.1.0 |
| com.twitter | util-core_2.12 | 7.1.0 |
| com.twitter | util-functie_2.12 | 7.1.0 |
| com.twitter | util-jvm_2.12 | 7.1.0 |
| com.twitter | util-lint_2.12 | 7.1.0 |
| com.twitter | util-registry_2.12 | 7.1.0 |
| com.twitter | util-stats_2.12 | 7.1.0 |
| com.typesafe | configuratie | 1.2.1 |
| com.typesafe.scala-logging | scala-logging_2.12 | 3.7.2 |
| com.univocity | univocity-parsers | 2.8.3 |
| com.zaxxer | HikariCP | 3.1.0 |
| commons-beanutils | commons-beanutils | 1.9.4 |
| commons-cli | commons-cli | 1.2 |
| commons-codec | commons-codec | 1,10 |
| gemeenschappelijke collecties | gemeenschappelijke collecties | 3.2.2 |
| commons-configuratie | commons-configuratie | 1.6 |
| commons-dbcp | commons-dbcp | 1.4 |
| commons-digester | commons-digester | 1.8 |
| bestandsupload van commons | bestandsupload van commons | 1.3.3 |
| commons-httpclient | commons-httpclient | 3.1 |
| commons-io | commons-io | 2,4 |
| commons-lang | commons-lang | 2.6 |
| gemeenschappelijke-logboekvoorziening | gemeenschappelijke-logboekvoorziening | 1.1.3 |
| commons-net | commons-net | 3.1 |
| commons-pool (gemeenschappelijke pool) | commons-pool (gemeenschappelijke pool) | 1.5.4 |
| info.ganglia.gmetric4j | gmetric4j | 1.0.10 |
| io.airlift | luchtdrukmachine | 0.10 |
| io.dropwizard.metrics | metrische gegevenskern | 4.1.1 |
| io.dropwizard.metrics | graphite-metriek | 4.1.1 |
| io.dropwizard.metrics | metrische gezondheidscontroles | 4.1.1 |
| io.dropwizard.metrics | metrics-jetty9 (een Jetty-implementatie voor het meten van prestatie-indicatoren) | 4.1.1 |
| io.dropwizard.metrics | metrics-jmx | 4.1.1 |
| io.dropwizard.metrics | metrics-json (metrische gegevens in JSON-formaat) | 4.1.1 |
| io.dropwizard.metrics | metriekgegevens voor JVM | 4.1.1 |
| io.dropwizard.metrics | metrieke gegevens-servlets | 4.1.1 |
| io.netty | netty-all | 4.1.47.Final |
| jakarta.annotatie | jakarta.annotation-api | 1.3.5 |
| jakarta.validation | jakarta.validation-api | 2.0.2 |
| jakarta.ws.rs | jakarta.ws.rs-api | 2.1.6 |
| javax.activation | activering | 1.1.1 |
| javax.el | javax.el-api | 2.2.4 |
| javax.jdo | jdo-api | 3.0.1 |
| javax.servlet | javax.servlet-api | 3.1.0 |
| javax.servlet.jsp | jsp-api | 2.1 |
| javax.transaction | jta | 1.1 |
| javax.transaction | transactie-API | 1.1 |
| javax.xml.bind | jaxb-api | 2.2.2 |
| javax.xml.stream | stax-api | 1.0-2 |
| Javolution | Javolution | 5.5.1 |
| jline | jline | 2.14.6 |
| joda-time | joda-time | 2.10.5 |
| log4j | apache-log4j-extras | 1.2.17 |
| log4j | log4j | 1.2.17 |
| net.razorvine | Pyroliet | 4.30 |
| net.sf.jpam | jpam | 1.1 |
| net.sf.opencsv | opencsv | 2.3 |
| net.sf.supercsv | super-CSV | 2.2.0 |
| net.sneeuwvlok | snowflake-ingest-sdk | 0.9.6 |
| net.sneeuwvlok | snowflake-jdbc | 3.12.0 |
| net.sneeuwvlok | spark-snowflake_2.12 | 2.5.9-spark_2.4 |
| net.sourceforge.f2j | arpack_combined_all | 0,1 |
| org.acplt.remotetea | remotetea-oncrpc | 1.1.2 |
| org.antlr | ST4 | 4.0.4 |
| org.antlr | antlr-runtime | 3.5.2 |
| org.antlr | antlr4-runtime | 4.7.1 |
| org.antlr | tekenreekstemplate | 3.2.1 |
| org.apache.ant | mier | 1.9.2 |
| org.apache.ant | ant-jsch | 1.9.2 |
| org.apache.ant | ant-launcher (startprogramma voor Ant) | 1.9.2 |
| org.apache.arrow | pijlnotatie | 0.15.1 |
| org.apache.arrow | pijlgeheugen | 0.15.1 |
| org.apache.arrow | pijlvector | 0.15.1 |
| org.apache.avro | AVRO | 1.8.2 |
| org.apache.avro | avro-ipc | 1.8.2 |
| org.apache.avro | avro-mapred-hadoop2 | 1.8.2 |
| org.apache.commons | commons-compress - een bibliotheek voor compressie | 1.8.1 |
| org.apache.commons | commons-crypto | 1.0.0 |
| org.apache.commons | commons-lang3 | 3.9 |
| org.apache.commons | commons-math3 | 3.4.1 |
| org.apache.commons | commons-tekst | 1.6 |
| org.apache.curator | beheerder-cliënt | 2.7.1 |
| org.apache.curator | curatorraamwerk | 2.7.1 |
| org.apache.curator | curator-recepten | 2.7.1 |
| org.apache.derby | Derby | 10.12.1.1 |
| org.apache.directory.api | api-asn1-api | 1.0.0-M20 |
| org.apache.directory.api | api-util | 1.0.0-M20 |
| org.apache.directory.server | apacheds-i18n | 2.0.0-M15 |
| org.apache.directory.server | apacheds-kerberos-codec | 2.0.0-M15 |
| org.apache.hadoop | hadoop-aantekeningen | 2.7.4 |
| org.apache.hadoop | hadoop-authenticatie | 2.7.4 |
| org.apache.hadoop | hadoop-client | 2.7.4 |
| org.apache.hadoop | hadoop-common | 2.7.4 |
| org.apache.hadoop | Hadoop-HDFS (Hadoop Distributed File System) | 2.7.4 |
| org.apache.hadoop | hadoop-mapreduce-client-app | 2.7.4 |
| org.apache.hadoop | hadoop-mapreduce-client-common (gebruikelijk in softwareterminologie) | 2.7.4 |
| org.apache.hadoop | hadoop-mapreduce-client-core (kernmodule van hadoop-mapreduce-client) | 2.7.4 |
| org.apache.hadoop | hadoop-mapreduce-client-jobclient | 2.7.4 |
| org.apache.hadoop | hadoop-mapreduce-client-shuffle | 2.7.4 |
| org.apache.hadoop | hadoop-yarn-api | 2.7.4 |
| org.apache.hadoop | hadoop-yarn-client | 2.7.4 |
| org.apache.hadoop | hadoop-yarn-common | 2.7.4 |
| org.apache.hadoop | hadoop-yarn-server-common (hadoop-yarn-server-algemeen) | 2.7.4 |
| org.apache.hive | hive-beeline | 2.3.7 |
| org.apache.hive | hive-cli | 2.3.7 |
| org.apache.hive | hive-common | 2.3.7 |
| org.apache.hive | hive-exec-core | 2.3.7 |
| org.apache.hive | hive-jdbc | 2.3.7 |
| org.apache.hive | hive-llap-client | 2.3.7 |
| org.apache.hive | hive-llap-common | 2.3.7 |
| org.apache.hive | hive-metastore (metadata opslag voor Hive) | 2.3.7 |
| org.apache.hive | hive-serde | 2.3.7 |
| org.apache.hive | hive-shims | 2.3.7 |
| org.apache.hive | hive-opslag-API | 2.7.1 |
| org.apache.hive | hive-vector-code-gen | 2.3.7 |
| org.apache.hive.shims | hive-shims-0.23 | 2.3.7 |
| org.apache.hive.shims | hive-shims-common (if no translation is needed for understanding, the original can be kept as is) | 2.3.7 |
| org.apache.hive.shims | hive-shims-scheduler | 2.3.7 |
| org.apache.htrace | htrace-core | 3.1.0-incubatie |
| org.apache.httpcomponents | httpclient | 4.5.6 |
| org.apache.httpcomponents | httpcore | 4.4.12 |
| org.apache.ivy | klimop | 2.4.0 |
| org.apache.orc | orc-core | 1.5.10 |
| org.apache.orc | orc-mapreduce | 1.5.10 |
| org.apache.orc | orc-shims | 1.5.10 |
| org.apache.parquet | parquet-kolom | 1.10.1.2-databricks4 |
| org.apache.parquet | parquet-common | 1.10.1.2-databricks4 |
| org.apache.parquet | parquet-codering | 1.10.1.2-databricks4 |
| org.apache.parquet | parquet-indeling | 2.4.0 |
| org.apache.parquet | parquet-hadoop | 1.10.1.2-databricks4 |
| org.apache.parquet | parquet-jackson | 1.10.1.2-databricks4 |
| org.apache.thrift | libfb303 | 0.9.3 |
| org.apache.thrift | libthrift | 0.12.0 |
| org.apache.velocity | snelheid | 1.5 |
| org.apache.xbean | xbean-asm7-shaded | 4.15 |
| org.apache.yetus | annotaties voor specifieke doelgroepen | 0.5.0 |
| org.apache.zookeeper | dierentuinverzorger | 3.4.14 |
| org.codehaus.jackson | jackson-core-asl | 1.9.13 |
| org.codehaus.jackson | jackson-jaxrs | 1.9.13 |
| org.codehaus.jackson | jackson-mapper-ASL | 1.9.13 |
| org.codehaus.jackson | jackson-xc | 1.9.13 |
| org.codehaus.janino | algemene compiler | 3.0.16 |
| org.codehaus.janino | janino | 3.0.16 |
| org.datanucleus | datanucleus-api-jdo | 4.2.4 |
| org.datanucleus | datanucleus-core | 4.1.17 |
| org.datanucleus | datanucleus-rdbms | 4.1.19 |
| org.datanucleus | javax.jdo | 3.2.0-m3 |
| org.eclipse.jetty | jetty-client | 9.4.18.v20190429 |
| org.eclipse.jetty | jetty-vervolg | 9.4.18.v20190429 |
| org.eclipse.jetty | jetty-http | 9.4.18.v20190429 |
| org.eclipse.jetty | jetty-io | 9.4.18.v20190429 |
| org.eclipse.jetty | jetty-jndi | 9.4.18.v20190429 |
| org.eclipse.jetty | Jetty-plus | 9.4.18.v20190429 |
| org.eclipse.jetty | jetty-proxy (een omgekeerde proxy server gebaseerd op Jetty) | 9.4.18.v20190429 |
| org.eclipse.jetty | Jetty-beveiliging | 9.4.18.v20190429 |
| org.eclipse.jetty | Jetty Server | 9.4.18.v20190429 |
| org.eclipse.jetty | jetty-servlet | 9.4.18.v20190429 |
| org.eclipse.jetty | jetty-servlets | 9.4.18.v20190429 |
| org.eclipse.jetty | jetty-util | 9.4.18.v20190429 |
| org.eclipse.jetty | jetty-webapp | 9.4.18.v20190429 |
| org.eclipse.jetty | jetty-xml | 9.4.18.v20190429 |
| org.fusesource.leveldbjni | leveldbjni-all | 1.8 |
| org.glassfish.hk2 | hk2-api | 2.6.1 |
| org.glassfish.hk2 | hk2-lokalisator | 2.6.1 |
| org.glassfish.hk2 | hk2-utils | 2.6.1 |
| org.glassfish.hk2 | osgi-hulpbronnenzoeker | 1.0.3 |
| org.glassfish.hk2.external | aopalliance opnieuw verpakt | 2.6.1 |
| org.glassfish.hk2.external | jakarta.inject | 2.6.1 |
| org.glassfish.jersey.containers | jersey-container-servlet | 2.30 |
| org.glassfish.jersey.containers | jersey-container-servlet-core | 2.30 |
| org.glassfish.jersey.core | jersey-client | 2.30 |
| org.glassfish.jersey.core | Algemene Jersey | 2.30 |
| org.glassfish.jersey.core | Jersey-Server | 2.30 |
| org.glassfish.jersey.inject | jersey-hk2 | 2.30 |
| org.glassfish.jersey.media | jersey-media-jaxb | 2.30 |
| org.hibernate.validator | hibernate-validator | 6.1.0.Final |
| org.javassist | javassist | 3.25.0-GA |
| org.jboss.logging | jboss-logging | 3.3.2.Final |
| org.jdbi | jdbi | 2.63.1 |
| org.joda | joda-convert | 1,7 |
| org.jodd | jodd-core | 3.5.2 |
| org.json4s | json4s-ast_2.12 | 3.6.6 |
| org.json4s | json4s-core_2.12 | 3.6.6 |
| org.json4s | json4s-jackson_2.12 | 3.6.6 |
| org.json4s | json4s-scalap_2.12 | 3.6.6 |
| org.lz4 | lz4-java | 1.7.1 |
| org.mariadb.jdbc | mariadb-java-client | 2.1.2 |
| org.objenesis | objenesis | 2.5.1 |
| org.postgresql | postgresql | 42.1.4 |
| org.roaringbitmap | RoaringBitmap | 0.7.45 |
| org.roaringbitmap | vulplaatjes | 0.7.45 |
| org.rocksdb | rocksdbjni | 6.2.2 |
| org.rosuda.REngine | REngine | 2.1.0 |
| org.scala-lang | scala-compiler_2.12 | 2.12.10 |
| org.scala-lang | scala-library_2.12 | 2.12.10 |
| org.scala-lang | scala-reflect_2.12 | 2.12.10 |
| org.scala-lang.modules | scala-collection-compat_2.12 | 2.1.1 |
| org.scala-lang.modules | scala-parser-combinators_2.12 | 1.1.2 |
| org.scala-lang.modules | scala-xml_2.12 | 1.2.0 |
| org.scala-sbt | test-interface | 1.0 |
| org.scalacheck | scalacheck_2.12 | 1.14.2 |
| org.scalactic | scalactic_2.12 | 3.0.8 |
| org.scalanlp | breeze-macros_2.12 | 1.0 |
| org.scalanlp | breeze_2.12 | 1.0 |
| org.scalatest | scalatest_2.12 | 3.0.8 |
| org.slf4j | jcl-over-slf4j | 1.7.30 |
| org.slf4j | jul-to-slf4j | 1.7.30 |
| org.slf4j | slf4j-api | 1.7.30 |
| org.slf4j | slf4j-log4j12 | 1.7.30 |
| org.spark-project.spark | ongebruikt | 1.0.0 |
| org.springframework | kern van Spring | 4.1.4.RELEASE |
| org.springframework | lente-test | 4.1.4.RELEASE |
| org.threeten | threeten-extra | 1.5.0 |
| org.tukaani | xz | 1.5 |
| org.typelevel | algebra_2.12 | 2.0.0-M2 |
| org.typelevel | katten-kernel_2.12 | 2.0.0-M4 |
| org.typelevel | machinist_2.12 | 0.6.8 |
| org.typelevel | macro-compat_2.12 | 1.1.1 |
| org.typelevel | spire-macros_2.12 | 0.17.0-M1 |
| org.typelevel | spire-platform_2.12 | 0.17.0-M1 |
| org.typelevel | spire-util_2.12 | 0.17.0-M1 |
| org.typelevel | spire_2.12 | 0.17.0-M1 |
| org.xerial | sqlite-jdbc | 3.8.11.2 |
| org.xerial.snappy | snappy-java | 1.1.7.5 |
| org.yaml | snakeyaml | 1,24 |
| oro | oro | 2.0.8 |
| pl.edu.icm | JLargeArrays | 1.5 |
| software.amazon.ion | ion-java | 1.0.2 |
| stax | stax-api | 1.0.1 |
| xmlenc | xmlenc | 0,52 |