Databricks Runtime 10.0 (sin soporte)

Artículo
03/01/2024

Las siguientes notas de la versión proporcionan información sobre Databricks Runtime 10.0 y Databricks Runtime 10.0 Photon, con tecnología de Apache Spark 3.2.0. Databricks publicó estas imágenes en octubre de 2021. Photon se encuentra en versión preliminar pública.

Nuevas características y mejoras

Nueva versión de Apache Spark
La instrucción SELECT ahora admite la cláusula QUALIFY para filtrar los resultados de la función de ventana.
Compatibilidad del clúster con JDK 11 (versión preliminar pública).
Auto Loader ahora trata los esquemas como que admiten valores NULL.

Nueva versión de Apache Spark

Databricks Runtime 10.0 y Databricks Runtime 10.0 Photon incluyen Apache Spark 3.2.0. Para más información, consulte Apache Spark.

La instrucción SELECT ahora admite la cláusula QUALIFY para filtrar los resultados de la función de ventana.

La instrucción SELECT ahora admite la cláusula QUALIFY. QUALIFY se puede usar para filtrar los resultados de las funciones de ventana. Debe haber una o varias funciones de ventana en la lista SELECT o en la condición QUALIFY. Por ejemplo:

SELECT * FROM t QUALIFY SUM(c2) OVER (PARTITION BY c1) > 0;

Compatibilidad del clúster con JDK 11 (versión preliminar pública)

Databricks ahora proporciona compatibilidad en los clústeres para Java Development Kit (JDK) 11.

Al crear un clúster puede especificar que el clúster use JDK 11 (tanto para el controlador como para el ejecutor). Para ello, agregue la siguiente variable de entorno a Opciones avanzadas > Spark > Variables del entorno:

JNAME=zulu11-ca-amd64

Auto Loader ahora trata los esquemas como que admiten valores NULL.

Auto Loader ahora trata todos los esquemas deducidos y proporcionados por el usuario como que admiten valores NULL de forma predeterminada. Esto es para evitar daños en los datos en los casos en los que contengan campos NULL para columnas que no aceptan valores NULL. Se ha introducido una nueva configuración para realizar un seguimiento de este comportamiento, spark.databricks.cloudFiles.schema.forceNullable. De forma predeterminada, esta configuración contiene el valor de spark.sql.streaming.fileSource.schema.forceNullable, que usa fileStreamSource en Apache Spark y que se establece en true de forma predeterminada.

Últimos cambios

Cambios importantes para todos los usuarios de Spark SQL.

Nueva configuración de spark.databricks.behaviorChange.SC78546CorrelatedPredicate.enabled: cuando se establece en true, permite un subconjunto de predicados de igualdad correlacionados al agregarlo a una subconsulta. El valor predeterminado es true.
Nueva configuración de spark.databricks.behaviorChange.SC82201BlockAutoAlias.enabled: cuando se establece en true, bloquea la generación automática de alias cuando durante la creación de vistas. El valor predeterminado es true.
Nueva configuración de spark.databricks.behaviorChange.SC81078CTASWithLocation.enabled: cuando se establece en true, no permite CREATE TABLE AS SELECT con una ubicación que no esté vacía. El valor predeterminado es true. Tenga en cuenta que cuando spark.sql.legacy.allowNonEmptyLocationInCTAS también se establece en true, esta configuración no tiene efecto y CREATE TABLE AS SELECT siempre se permite con una ubicación que no esté vacía.

Cambios importantes para los usuarios de Spark SQL que habilitan el modo ANSI

Para obtener información sobre el modo ANSI, consulte Cumplimiento de ANSI en Databricks Runtime.

Nueva configuración de spark.databricks.behaviorChange.SC83587NextDayDOW.enabled: cuando se establece en true, un argumento dayOfWeek no válido para la función next_day produce un IllegalArgumentException en modo ANSI; de lo contrario, devuelve null. El valor predeterminado es true.
Nueva configuración de spark.databricks.behaviorChange.SC83796CanCast.enabled: cuando se establece en true, habilita nuevas reglas de sintaxis de conversión explícitas en modo ANSI. El valor predeterminado es true.
Nueva configuración de spark.databricks.behaviorChange.SC79099CastStringToBoolean.enabled: cuando se establece en true, se produce una excepción de error de análisis al convertir una cadena en un valor booleano; de lo contrario, devuelve null. El valor predeterminado es true.
Nueva configuración de spark.databricks.behaviorChange.SC79064AbsOutsideRange.enabled: cuando se establece en true, la función abs produce una excepción si la entrada está fuera del intervalo. El valor predeterminado es true.

Cambios importantes para todos los usuarios de Python

La API de Python delta.tables.DeltaTable.convertToDelta ahora devuelve el objeto de Python DeltaTable correcto que se puede usar para ejecutar comandos de Delta Lake. Anteriormente, devolvía un objeto interno al que no se podía llamar directamente.

Actualizaciones de bibliotecas

Apache Hadoop 3

Databricks Runtime 10.0 actualiza la dependencia de Hadoop de Hadoop 2.7.4 a Hadoop 3.3.1.

Cambios de comportamiento

Hadoop 3 usa las bibliotecas hadoop-client-api y hadoop-client-runtime en lugar de hadoop-common, que oculta determinadas dependencias de terceros que podrían usarse en extensiones o API públicas de Hadoop.
Las opciones de configuración de Hadoop 3 han cambiado desde Hadoop 2. Para ver las opciones de Hadoop 3.3.1, consulte core-default.xml.
Databricks ha actualizado algunas de las configuraciones predeterminadas para Hadoop 3 para que sean coherentes con Hadoop 2 u así garantizar que los conectores de almacenamiento tienen la misma configuración de autenticación predeterminada y niveles de rendimiento:
- fs.azure.authorization.caching.enable = false
- fs.s3a.attempts.maximum = 10
- fs.s3a.block.size = 67108864
- fs.s3a.connection.timeout = 50000
- fs.s3a.max.total.tasks = 1000
- fs.s3a.retry.limit = 20
- fs.s3a.retry.throttle.interval = 500ms
- fs.s3a.assumed.role.credentials.provider = com.amazonaws.auth.InstanceProfileCredentialsProvider
- fs.s3a.aws.credentials.provider = BasicAWSCredentialsProvider, DatabricksInstanceProfileCredentialsProvider, EnvironmentVariableCredentialsProvider, AnonymousAWSCredentialsProvider
El conector de Google Cloud Storage (GCS) se ha actualizado de la versión 2.1.6 a la 2.2.2.
El conector de Amazon Redshift usa ahora el esquema s3a://. El esquema s3n:// está en desuso.
Controla los nombres de clase del software de código abierto para MetadataStore API de Amazon S3 además de las clases ocultas. Esto permite procesar configuraciones del software de código abierto sin necesidad de los nombres de clase ocultos.
- Por ejemplo, puede especificar la clase org.apache.hadoop.fs.s3a.s3guard.NullMetadataStore en la configuración de Hadoop.
Hace que new Configuration() y sparkContext.hadoopConfiguration sean coherentes.
- Ahora, cada vez que se cree una nueva configuración de Hadoop, será coherente con la configuración predefinida de Hadoop en sparkContext.hadoopConfiguration en Databricks Runtime, incluidos los esquemas del sistema de archivos y su configuración predeterminada.
Aunque los conectores de almacenamiento de Hadoop incluidos en Databricks Runtime son totalmente compatibles con Hadoop 3.3.1, no se garantiza que estén sincronizados con los conectores de Hadoop 3.3.1 del software de código abierto y podrían tener un comportamiento diferente.
- El conector de Amazon S3 todavía permite (aunque con una advertencia) la autenticación usuario:secreto en las direcciones URL de S3, a diferencia de HADOOP-14833, que la quita.
globStatus ahora siempre devuelve resultados ordenados (HADOOP-10798).
Se ha agregado fs.s3a.endpoint si no se ha establecido y la región fs.s3a.endpoint es NULL (SPARK-35878).
- Es posible que la resolución automática de la región de Amazon S3 proporcionada por Databricks no se desencadene en algunos casos debido a la configuración del punto de conexión global. Esto no es un problema, ya que el SDK de AWS resolverá la región correctamente.
Agregue fs.s3a.downgrade.syncable.exceptions si no está establecido (SPARK-35868).
Los códecs LZ4 y Snappy no se basan en la biblioteca nativa de Hadoop (HADOOP-17125).

Problemas conocidos

SPARK-36681 El uso de SnappyCodec para escribir el archivo de secuencia producirá un error con UnsatisfiedLinkError por un problema conocido en Hadoop 3.3.1 (HADOOP-17891).

Apache Spark

Databricks Runtime 10.0 incluye Apache Spark 3.2.0.

Aspectos destacados

Compatibilidad con la capa de API de Pandas en PySpark (SPARK-34849)
Sesión basada en EventTime (ventana de sesión) (SPARK-10816)
Compatibilidad con los tipos ANSI SQL INTERVAL (SPARK-27790)
Disponibilidad general del modo ANSI (SPARK-35030)
Estandarización de mensajes de excepción en Spark (SPARK-33539)

Core y Spark SQL

Mejoras de compatibilidad de SQL en ANSI

Compatibilidad con los tipos ANSI SQL INTERVAL (SPARK-27790)
Nuevas reglas de sintaxis de coerción de tipos en modo ANSI (SPARK-34246)

Mejoras de rendimiento

Optimización de las consultas
- Eliminación de los agregados redundantes en el optimizador (SPARK-33122)
- Reducción del límite mediante proyectos con JOIN (SPARK-34622)
- Estimación de cardinalidad del operador union, sort y range (SPARK-33411)
- UnwrapCastInBinaryComparison admite el predicado In/InSet (SPARK-35316)
- Mantenimiento de las estadísticas necesarias después de la limpieza de particiones (SPARK-34119)
Ejecución de la consulta
- Habilitación del grupo de búferes Zstandard de forma predeterminada (SPARK-34340, SPARK-34390)
- Incorporación de code-gen para todos los tipos de combinación de sort, merge, join (SPARK-34705)
- Mejora de la combinación en bucle anidado de difusión (SPARK-34706)
- Compatibilidad con dos niveles de asignaciones hash para la agregación hash final (SPARK-35141)
- Permiso para que escritores simultáneos escriban particiones dinámicas y una tabla de cubos (SPARK-26164)
- Mejora del rendimiento del procesamiento FETCH_PRIOR en Thriftserver (SPARK-33655)

Mejoras del conector

Parquet
- Actualización de Parquet a la versión 1.12.1 (SPARK-36726)
- Lectura de tipos sin signo de Parquet almacenados como tipo físico int32 en Parquet (SPARK-34817)
- Lectura del tipo lógico Int64 sin signo de Parquet que se almacena como tipo físico int64 con signo en decimales (20, 0) (SPARK-34786)
- Mejora de la delegación de In filter en Parquet (SPARK-32792)
ORC
- Actualización de ORC a la versión 1.6.11 (SPARK-36482)
- Compatibilidad con la evolución posicional forzada de ORC (SPARK-32864)
- Compatibilidad con la columna anidada en el lector vectorizado de ORC (SPARK-34862)
- Compatibilidad con la compresión ZSTD y LZ4 en el origen de datos ORC (SPARK-33978, SPARK-35612)
Avro
- Actualización de Avro a la versión 1.10.2 (SPARK-34778)
- Compatibilidad con la evolución del esquema de Avro para las tablas de Hive con particiones con "avro.schema.literal" (SPARK-26836)
- Incorporación de nuevas opciones de origen de datos de Avro para controlar el rebase de fecha y hora en la lectura (SPARK-34404)
- Incorporación de compatibilidad con la dirección URL de esquema proporcionada por el usuario en Avro (SPARK-34416)
- Incorporación de compatibilidad para la coincidencia de esquemas posicionales Catalyst-to-Avro (SPARK-34365)
JSON
- Actualización de Jackson a la versión 2.12.3 (SPARK-35550)
- Permiso para que los orígenes de datos JSON escriban caracteres no ascii como puntos de código (SPARK-35047)
JDBC
- Cálculo de un avance de partición más preciso en JDBCRelation (SPARK-34843)
Filtro de compatibilidad de metastore de Hive por no incluidos (SPARK-34538)

Mejoras de las características

Subconsulta
- Mejora de las subconsultas correlacionadas (SPARK-35553)
Nuevas funciones integradas
- ilike (SPARK-36674, SPARK-36736)
- current_user(SPARK-21957)
- product (SPARK-33678)
- regexp_like,regexp (SPARK-33597, SPARK-34376)
- try_add (SPARK-35162)
- try_divide (SPARK-35162)
- bit_get (SPARK-33245)
Uso de Apache Hadoop 3.3.1 de forma predeterminada (SPARK-29250)
Incorporación de la suma de comprobación para los bloques aleatorios (SPARK-35275)
Habilitación de spark.storage.replication.proactive de forma predeterminada (SPARK-33870)
Compatibilidad con la limpieza del almacenamiento de reserva durante la detención de SparkContext (SPARK-34142)
Compatibilidad con las enumeraciones de Java desde Scala Dataset API (SPARK-23862)
ADD JAR con coordenadas ivy debe ser compatible con el comportamiento transitivo de Hive (SPARK-34506)
Compatibilidad con los comandos ADD ARCHIVE y LIST ARCHIVES (SPARK-34603)
Compatibilidad con varias rutas de acceso para los comandos ADD FILE/JAR/ARCHIVE (SPARK-35105)
Compatibilidad con los archivos de archivo como recursos para la sintaxis CREATE FUNCTION USING (SPARK-35236)
Carga de SparkSessionExtensions desde ServiceLoader (SPARK-35380)
Incorporación de la función sentences a functions.{scala,py} (SPARK-35418)
Aplicación de spark.sql.hive.metastorePartitionPruning para tablas que no son de Hive que usan el metastore de Hive para la administración de las particiones (SPARK-36128)
Propagación del motivo de la pérdida de ejecución a la interfaz de usuario web (SPARK-34764)
Se evita la inlineación de With-CTEs no determinista (SPARK-36447)
Compatibilidad con el análisis de todas las tablas de una base de datos específica (SPARK-33687)
Estandarización de mensajes de excepción en Spark (SPARK-33539)
Compatibilidad con (IGNORE | RESPECT) los valores NULL para LEAD/LAG/NTH_VALUE/FIRST_VALUE/LAST_VALUE (SPARK-30789)

Otros cambios importantes

Supervisión
- Nuevas métricas para ExternalShuffleService (SPARK-35258)
- Incorporación de nuevos parámetros y API REST de nivel de fase (SPARK-26399)
- Compatibilidad con las distribuciones de métricas de las tareas y los ejecutores en la API REST (SPARK-34488)
- Incorporación de métricas de reserva para agregado hash (SPARK-35529)
Incorporación de count_distinct como opción a Dataset#summary (SPARK-34165)
Implementación de ScriptTransform en sql/core (SPARK-31936)
Posibilidad de configurar el tiempo de espera de latido del controlador BlockManagerMaster (SPARK-34278)
Posibilidad de configurar el nombre del servicio aleatorio en el lado cliente y de permitir la invalidación de la configuración basada en rutas de clase en el lado servidor (SPARK-34828)
ExecutorMetricsPoller debe mantener la entrada de fase en stageTCMP hasta que se produzca un latido (SPARK-34779)
Se reemplaza if por la cláusula filter en RewriteDistinctAggregates(SPARK-34882)
Corrección del error al aplicar CostBasedJoinReorder en la autocombinación (SPARK-34354)
CREATE TABLE LIKE debe respetar las propiedades reservadas de la tabla (SPARK-34935)
Envío del archivo ivySettings al controlador en el modo de clúster de YARN (SPARK-34472)
Resolución de las columnas comunes duplicadas desde USING/NATURAL JOIN (SPARK-34527)
Ocultación de las propiedades de vista interna para el comando de descripción de la tabla (SPARK-35318)
Compatibilidad con la resolución de los atributos que faltan para distribute/cluster by/repartition hint (SPARK-35331)
Omisión del error al comprobar la ruta de acceso en FileStreamSink.hasMetadata (SPARK-34526)
Mejora de la compatibilidad del confirmador de s3a magic mediante la inferencia de las configuraciones que faltan (SPARK-35383)
Permiso para omitir : en la cadena de tipo STRUCT (SPARK-35706)
Incorporación de un nuevo operador para distinguir si AQE puede optimizarse de forma segura (SPARK-35786)
Anexado de nuevos campos de estructura anidados en lugar de ordenar para unionByName con relleno nulo (SPARK-35290)
ArraysZip debe conservar los nombres de campo para evitar que el analizador o el optimizador rescriban (SPARK-35876)
Uso de Void como nombre de tipo nullType (SPARK-36224)
Introducción de la nueva API en FileCommitProtocol para permitir los nombres de archivos flexibles (SPARK-33298)

Cambios de comportamiento

Consulte las guías de migración de cada componente: Spark Core.

Structured Streaming

Características principales

Sesión basada en EventTime (ventana de sesión) (SPARK-10816)
Actualización del cliente de Kafka a la versión 2.8.0 (SPARK-33913)
Trigger.AvailableNow para ejecutar consultas de streaming como Trigger.Once en varios lotes en Scala (SPARK-36533)

Otros cambios importantes

Introducción de una nueva opción en el origen de Kafka para especificar un mínimo de registros para leer por desencadenador (SPARK-35312)
Incorporación de los desplazamientos más recientes al progreso del origen (SPARK-33955)

PySpark

Project Zen

Pandas API en Spark (SPARK-34849)
- Habilitación de mypy para pandas-on-Spark (SPARK-34941)
- Implementación de la compatibilidad con CategoricalDtype (SPARK-35997, SPARK-36185)
- Completado de las operaciones básicas de series e índices (SPARK-36103, SPARK-36104, SPARK-36192)
- Coincidencia de comportamiento con la versión 1.3 de Pandas (SPARK-36367)
- Emparejar comportamientos en series con NaN en pandas (SPARK-36031, SPARK-36310)
- Implementación del operador unario "invert" de series e índices de enteros (SPARK-36003)
- Implementación de CategoricalIndex.map y DatetimeIndex.map (SPARK-36470)
- Implementación de Index.map (SPARK-36469)
Compatibilidad de faulthanlder para los nodos de trabajo de Python bloqueados (SPARK-36062)
Uso de la regla de nomenclatura Snake en las API de función (SPARK-34306)
Habilitación de spark.sql.execution.pyspark.udf.simplifiedTraceback.enabled de manera predeterminada (SPARK-35419)
Compatibilidad para deducir el dict anidado como estructura al crear un dataframe (SPARK-35929)

Otros cambios importantes

Habilitación del modo de subproceso anclado de forma predeterminada (SPARK-35303)
Incorporación de compatibilidad con NullType para las ejecuciones de Arrow (SPARK-33489)
Incorporación de compatibilidad de self_destruct de Arrow con Pandas (SPARK-32953)
Incorporación de la API de contenedor de destino de subprocesos para el modo de subproceso de anclaje de pyspark (SPARK-35498)

Cambios de comportamiento

Consulte las guías de migración.

MLlib

Mejoras en el rendimiento

Optimización de la transformación de BucketedRandomProjectionLSH (SPARK-34220)
Optimización de w2v findSynonyms (SPARK-34189)
Optimización de sparse GEMM mediante la omisión de la comprobación enlazada (SPARK-35707)
Mejora del rendimiento de recommendForAll de ML ALS de GEMV (SPARK-33518)

Mejoras en el entrenamiento de modelos

Agregador logístico de refactorización: compatibilidad con el centrado virtual (SPARK-34797)
Regresión logística binaria con centrado del soporte de interceptación (SPARK-34858, SPARK-34448)
Regresión logística multinómica con centrado del soporte de interceptación (SPARK-34860)

Mejoras de BLAS

Total reemplazo de com.github.fommil.netlib por dev.zos.netlib:2.0 (SPARK-35295)
Incorporación de una implementación de BLAS vectorizada (SPARK-33882)
Aceleración de la reserva de BLAS con dev.zos.netlib (SPARK-35150)

Otros cambios importantes

Solución de posibles conflictos de columna en la transformación de OVR (SPARK-34356)

Desusos y eliminaciones

Desaprobar spark.launcher.childConnectionTimeout(SPARK-33717)
Desuso de GROUP BY... GROUPING SETS (…) y promoción de GROUP BY GROUPING SETS (…)(SPARK-34932)
Desuso de ps.broadcast API (SPARK-35810)
Desuso del argumento num_files (SPARK-35807)
Desuso de DataFrame.to_spark_io (SPARK-35811)

Actualizaciones de mantenimiento

Consulte Actualizaciones de mantenimiento de Databricks Runtime 10.0

Entorno del sistema

Sistema operativo: Ubuntu 20.04.3 LTS
Java: Zulu 8.56.0.21-CA-linux64
Scala: 2.12.14
Python: 3.8.10
R: 4.1.1
Delta Lake: 1.0.0

Bibliotecas de Python instaladas

Biblioteca	Versión	Biblioteca	Versión	Biblioteca	Versión
Antergos Linux	2015.10 (ISO-Rolling)	appdirs	1.4.4	backcall	0.2.0
boto3	1.16.7	botocore	1.19.7	certifi	2020.12.5
chardet	4.0.0	cycler	0.10.0	Cython	0.29.23
dbus-python	1.2.16	decorator	5.0.6	distlib	0.3.3
distro-info	0.23ubuntu1	facets-overview	1.0.0	filelock	3.0.12
idna	2.10	ipykernel	5.3.4	ipython	7.22.0
ipython-genutils	0.2.0	jedi	0.17.2	jmespath	0.10.0
joblib	1.0.1	jupyter-client	6.1.12	jupyter-core	4.7.1
kiwisolver	1.3.1	koalas	1.8.1	matplotlib	3.4.2
numpy	1.19.2	pandas	1.2.4	parso	0.7.0
patsy	0.5.1	pexpect	4.8.0	pickleshare	0.7.5
Pillow	8.2.0	pip	21.0.1	plotly	5.1.0
prompt-toolkit	3.0.17	protobuf	3.17.2	psycopg2	2.8.5
ptyprocess	0.7.0	pyarrow	4.0.0	Pygments	2.8.1
PyGObject	3.36.0	pyparsing	2.4.7	python-apt	2.0.0+ubuntu0.20.4.6
Python-dateutil	2.8.1	pytz	2020.5	pyzmq	20.0.0
Solicitudes	2.25.1	requests-unixsocket	0.2.0	s3transfer	0.3.7
scikit-learn	0.24.1	scipy	1.6.2	seaborn	0.11.1
setuptools	52.0.0	six (seis)	1.15.0	ssh-import-id	5.10
statsmodels	0.12.2	tenacity	8.0.1	threadpoolctl	2.1.0
tornado	6.1	traitlets	5.0.5	unattended-upgrades	0,1
urllib3	1.25.11	virtualenv	20.4.1	wcwidth	0.2.5
wheel	0.36.2

Bibliotecas de R instaladas

Las bibliotecas de R se instalan desde la instantánea de Microsoft CRAN el 21-09-2021.

Biblioteca	Versión	Biblioteca	Versión	Biblioteca	Versión
askpass	1.1	assertthat	0.2.1	backports	1.2.1
base	4.1.1	base64enc	0.1-3	bit	4.0.4
bit64	4.0.5	blob	1.2.2	boot	1.3-28
brew	1.0-6	brio	1.1.2	broom	0.7.9
bslib	0.3.0	cachem	1.0.6	callr	3.7.0
caret	6.0-88	cellranger	1.1.0	chron	2.3-56
clase	7.3-19	cli	3.0.1	clipr	0.7.1
cluster	2.1.2	codetools	0.2-18	colorspace	2.0-2
commonmark	1.7	compiler	4.1.1	config	0.3.1
cpp11	0.3.1	crayon	1.4.1	credentials	1.3.1
curl	4.3.2	data.table	1.14.0	conjuntos de datos	4.1.1
DBI	1.1.1	dbplyr	2.1.1	desc	1.3.0
devtools	2.4.2	diffobj	0.3.4	digest	0.6.27
dplyr	1.0.7	dtplyr	1.1.0	ellipsis	0.3.2
evaluate	0.14	fansi	0.5.0	farver	2.1.0
fastmap	1.1.0	forcats	0.5.1	foreach	1.5.1
foreign	0.8-81	forge	0.2.0	fs	1.5.0
future	1.22.1	future.apply	1.8.1	gargle	1.2.0
generics	0.1.0	gert	1.4.1	ggplot2	3.3.5
gh	1.3.0	gitcreds	0.1.1	glmnet	4.1-2
globals	0.14.0	glue	1.4.2	googledrive	2.0.0
googlesheets4	1.0.0	gower	0.2.2	elementos gráficos	4.1.1
grDevices	4.1.1	grid	4.1.1	gridExtra	2.3
gsubfn	0.7	gtable	0.3.0	haven	2.4.3
highr	0.9	hms	1.1.0	htmltools	0.5.2
htmlwidgets	1.5.4	httpuv	1.6.3	httr	1.4.2
hwriter	1.3.2	hwriterPlus	1.0-3	ids	1.0.1
ini	0.3.1	ipred	0.9-12	isoband	0.2.5
iterators	1.0.13	jquerylib	0.1.4	jsonlite	1.7.2
KernSmooth	2.23-20	knitr	1.34	labeling	0.4.2
later	1.3.0	lattice	0.20-44	lava	1.6.10
ciclo de vida	1.0.0	listenv	0.8.0	lubridate	1.7.10
magrittr	2.0.1	markdown	1.1	MASS	7.3-54
Matriz	1.3-4	memoise	2.0.0	methods	4.1.1
mgcv	1.8-37	mime	0,11	ModelMetrics	1.2.2.2
modelr	0.1.8	munsell	0.5.0	nlme	3.1-152
nnet	7.3-16	numDeriv	2016.8-1.1	openssl	1.4.5
parallel	4.1.1	parallelly	1.28.1	pillar	1.6.2
pkgbuild	1.2.0	pkgconfig	2.0.3	pkgload	1.2.2
plogr	0.2.0	plyr	1.8.6	praise	1.0.0
prettyunits	1.1.1	pROC	1.18.0	processx	3.5.2
prodlim	2019.11.13	progreso	1.2.2	progressr	0.8.0
promises	1.2.0.1	proto	1.0.0	ps	1.6.0
purrr	0.3.4	r2d3	0.2.5	R6	2.5.1
randomForest	4.6-14	rappdirs	0.3.3	rcmdcheck	1.3.3
RColorBrewer	1.1-2	Rcpp	1.0.7	readr	2.0.1
readxl	1.3.1	recipes	0.1.16	rematch	1.0.1
rematch2	2.1.2	remotes	2.4.0	reprex	2.0.1
reshape2	1.4.4	rlang	0.4.11	rmarkdown	2,11
RODBC	1.3-19	roxygen2	7.1.2	rpart	4.1-15
rprojroot	2.0.2	Rserve	1.8-8	RSQLite	2.2.8
rstudioapi	0,13	rversions	2.1.1	rvest	1.0.1
sass	0.4.0	scales	1.1.1	selectr	0.4-2
sessioninfo	1.1.1	shape	1.4.6	shiny	1.6.0
sourcetools	0.1.7	sparklyr	1.7.2	SparkR	3.2.0
spatial	7.3-11	splines	4.1.1	sqldf	0.4-11
SQUAREM	2021.1	stats	4.1.1	stats4	4.1.1
stringi	1.7.4	stringr	1.4.0	survival	3.2-13
sys	3.4	tcltk	4.1.1	TeachingDemos	2,10
testthat	3.0.4	tibble	3.1.4	tidyr	1.1.3
tidyselect	1.1.1	tidyverse	1.3.1	timeDate	3043.102
tinytex	0,33	tools	4.1.1	tzdb	0.1.2
usethis	2.0.1	utf8	1.2.2	utils	4.1.1
uuid	0.1-4	vctrs	0.3.8	viridisLite	0.4.0
vroom	1.5.5	waldo	0.3.1	whisker	0,4
withr	2.4.2	xfun	0.26	xml2	1.3.2
xopen	1.0.0	xtable	1.8-4	yaml	2.2.1
zip	2.2.0

Bibliotecas de Java y Scala instaladas (versión de clúster de Scala 2.12)

Identificador de grupo	Identificador de artefacto	Versión
antlr	antlr	2.7.7
com.amazonaws	amazon-kinesis-client	1.12.0
com.amazonaws	aws-java-sdk-autoscaling	1.11.655
com.amazonaws	aws-java-sdk-cloudformation	1.11.655
com.amazonaws	aws-java-sdk-cloudfront	1.11.655
com.amazonaws	aws-java-sdk-cloudhsm	1.11.655
com.amazonaws	aws-java-sdk-cloudsearch	1.11.655
com.amazonaws	aws-java-sdk-cloudtrail	1.11.655
com.amazonaws	aws-java-sdk-cloudwatch	1.11.655
com.amazonaws	aws-java-sdk-cloudwatchmetrics	1.11.655
com.amazonaws	aws-java-sdk-codedeploy	1.11.655
com.amazonaws	aws-java-sdk-cognitoidentity	1.11.655
com.amazonaws	aws-java-sdk-cognitosync	1.11.655
com.amazonaws	aws-java-sdk-config	1.11.655
com.amazonaws	aws-java-sdk-core	1.11.655
com.amazonaws	aws-java-sdk-datapipeline	1.11.655
com.amazonaws	aws-java-sdk-directconnect	1.11.655
com.amazonaws	aws-java-sdk-directory	1.11.655
com.amazonaws	aws-java-sdk-dynamodb	1.11.655
com.amazonaws	aws-java-sdk-ec2	1.11.655
com.amazonaws	aws-java-sdk-ecs	1.11.655
com.amazonaws	aws-java-sdk-efs	1.11.655
com.amazonaws	aws-java-sdk-elasticache	1.11.655
com.amazonaws	aws-java-sdk-elasticbeanstalk	1.11.655
com.amazonaws	aws-java-sdk-elasticloadbalancing	1.11.655
com.amazonaws	aws-java-sdk-elastictranscoder	1.11.655
com.amazonaws	aws-java-sdk-emr	1.11.655
com.amazonaws	aws-java-sdk-glacier	1.11.655
com.amazonaws	aws-java-sdk-glue	1.11.655
com.amazonaws	aws-java-sdk-iam	1.11.655
com.amazonaws	aws-java-sdk-importexport	1.11.655
com.amazonaws	aws-java-sdk-kinesis	1.11.655
com.amazonaws	aws-java-sdk-kms	1.11.655
com.amazonaws	aws-java-sdk-lambda	1.11.655
com.amazonaws	aws-java-sdk-logs	1.11.655
com.amazonaws	aws-java-sdk-machinelearning	1.11.655
com.amazonaws	aws-java-sdk-opsworks	1.11.655
com.amazonaws	aws-java-sdk-rds	1.11.655
com.amazonaws	aws-java-sdk-redshift	1.11.655
com.amazonaws	aws-java-sdk-route53	1.11.655
com.amazonaws	aws-java-sdk-s3	1.11.655
com.amazonaws	aws-java-sdk-ses	1.11.655
com.amazonaws	aws-java-sdk-simpledb	1.11.655
com.amazonaws	aws-java-sdk-simpleworkflow	1.11.655
com.amazonaws	aws-java-sdk-sns	1.11.655
com.amazonaws	aws-java-sdk-sqs	1.11.655
com.amazonaws	aws-java-sdk-ssm	1.11.655
com.amazonaws	aws-java-sdk-storagegateway	1.11.655
com.amazonaws	aws-java-sdk-sts	1.11.655
com.amazonaws	aws-java-sdk-support	1.11.655
com.amazonaws	aws-java-sdk-swf-libraries	1.11.22
com.amazonaws	aws-java-sdk-workspaces	1.11.655
com.amazonaws	jmespath-java	1.11.655
com.chuusai	shapeless_2.12	2.3.3
com.clearspring.analytics	flujo	2.9.6
com.databricks	Rserve	1.8-3
com.databricks	jets3t	0.7.1-0
com.databricks.scalapb	compilerplugin_2.12	0.4.15-10
com.databricks.scalapb	scalapb-runtime_2.12	0.4.15-10
com.esotericsoftware	kryo-shaded	4.0.2
com.esotericsoftware	minlog	1.3.0
com.fasterxml	classmate	1.3.4
com.fasterxml.jackson.core	jackson-annotations	2.12.2
com.fasterxml.jackson.core	jackson-core	2.12.2
com.fasterxml.jackson.core	jackson-databind	2.12.2
com.fasterxml.jackson.dataformat	jackson-dataformat-cbor	2.12.2
com.fasterxml.jackson.datatype	jackson-datatype-joda	2.12.2
com.fasterxml.jackson.module	jackson-module-paranamer	2.12.2
com.fasterxml.jackson.module	jackson-module-scala_2.12	2.12.2
com.github.ben-manes.caffeine	caffeine	2.3.4
com.github.fommil	jniloader	1.1
com.github.fommil.netlib	core	1.1.2
com.github.fommil.netlib	native_ref-java	1.1
com.github.fommil.netlib	native_ref-java-natives	1.1
com.github.fommil.netlib	native_system-java	1.1
com.github.fommil.netlib	native_system-java-natives	1.1
com.github.fommil.netlib	netlib-native_ref-linux-x86_64-natives	1.1
com.github.fommil.netlib	netlib-native_system-linux-x86_64-natives	1.1
com.github.luben	zstd-jni	1.5.0-4
com.github.wendykierp	JTransforms	3.1
com.google.code.findbugs	jsr305	3.0.0
com.google.code.gson	gson	2.8.6
com.google.crypto.tink	tink	1.6.0
com.google.flatbuffers	flatbuffers-java	1.9.0
com.google.guava	guava	15.0
com.google.protobuf	protobuf-java	2.6.1
com.h2database	h2	1.4.195
com.helger	profiler	1.1.1
com.jcraft	jsch	0.1.50
com.jolbox	bonecp	0.8.0.RELEASE
com.lihaoyi	sourcecode_2.12	0.1.9
com.microsoft.sqlserver	mssql-jdbc	9.2.1.jre8
com.microsoft.azure	azure-data-lake-store-sdk	2.3.9
com.ning	compress-lzf	1.0.3
com.sun.istack	istack-commons-runtime	3.0.8
com.sun.mail	javax.mail	1.5.2
com.tdunning	json	1.8
com.thoughtworks.paranamer	paranamer	2.8
com.trueaccord.lenses	lenses_2.12	0.4.12
com.twitter	chill-java	0.10.0
com.twitter	chill_2.12	0.10.0
com.twitter	util-app_2.12	7.1.0
com.twitter	util-core_2.12	7.1.0
com.twitter	util-function_2.12	7.1.0
com.twitter	util-jvm_2.12	7.1.0
com.twitter	util-lint_2.12	7.1.0
com.twitter	util-registry_2.12	7.1.0
com.twitter	util-stats_2.12	7.1.0
com.typesafe	config	1.2.1
com.typesafe.scala-logging	scala-logging_2.12	3.7.2
com.univocity	univocity-parsers	2.9.1
com.zaxxer	HikariCP	3.1.0
commons-cli	commons-cli	1.2
commons-codec	commons-codec	1.15
commons-collections	commons-collections	3.2.2
commons-dbcp	commons-dbcp	1.4
commons-fileupload	commons-fileupload	1.3.3
commons-httpclient	commons-httpclient	3.1
commons-io	commons-io	2.8.0
commons-lang	commons-lang	2.6
commons-logging	commons-logging	1.1.3
commons-net	commons-net	3.1
commons-pool	commons-pool	1.5.4
dev.ludovic.netlib	arpack	1.3.2
dev.ludovic.netlib	blas	1.3.2
dev.ludovic.netlib	lapack	1.3.2
hive-2.3__hadoop-3.2	jets3t-0.7	liball_deps_2.12
info.ganglia.gmetric4j	gmetric4j	1.0.10
io.airlift	aircompressor	0,19
io.delta	delta-sharing-spark_2.12	0.1.0
io.dropwizard.metrics	metrics-core	4.1.1
io.dropwizard.metrics	metrics-graphite	4.1.1
io.dropwizard.metrics	metrics-healthchecks	4.1.1
io.dropwizard.metrics	metrics-jetty9	4.1.1
io.dropwizard.metrics	metrics-jmx	4.1.1
io.dropwizard.metrics	metrics-json	4.1.1
io.dropwizard.metrics	metrics-jvm	4.1.1
io.dropwizard.metrics	metrics-servlets	4.1.1
io.netty	netty-all	4.1.63.Final
io.prometheus	simpleclient	0.7.0
io.prometheus	simpleclient_common	0.7.0
io.prometheus	simpleclient_dropwizard	0.7.0
io.prometheus	simpleclient_pushgateway	0.7.0
io.prometheus	simpleclient_servlet	0.7.0
io.prometheus.jmx	recopilador	0.12.0
jakarta.annotation	jakarta.annotation-api	1.3.5
jakarta.servlet	jakarta.servlet-api	4.0.3
jakarta.validation	jakarta.validation-api	2.0.2
jakarta.ws.rs	jakarta.ws.rs-api	2.1.6
javax.activation	activation	1.1.1
javax.annotation	javax.annotation-api	1.3.2
javax.el	javax.el-api	2.2.4
javax.jdo	jdo-api	3.0.1
javax.transaction	jta	1.1
javax.transaction	transaction-api	1.1
javax.xml.bind	jaxb-api	2.2.2
javax.xml.stream	stax-api	1.0-2
javolution	javolution	5.5.1
jline	jline	2.14.6
joda-time	joda-time	2.10.5
log4j	apache-log4j-extras	1.2.17
log4j	log4j	1.2.17
maven-trees	hive-2.3__hadoop-3.2	liball_deps_2.12
net.java.dev.jna	jna	5.8.0
net.razorvine	pyrolite	4.30
net.sf.jpam	jpam	1.1
net.sf.opencsv	opencsv	2.3
net.sf.supercsv	super-csv	2.2.0
net.snowflake	snowflake-ingest-sdk	0.9.6
net.snowflake	snowflake-jdbc	3.13.3
net.snowflake	spark-snowflake_2.12	2.9.0-spark_3.1
net.sourceforge.f2j	arpack_combined_all	0,1
org.acplt.remotetea	remotetea-oncrpc	1.1.2
org.antlr	ST4	4.0.4
org.antlr	antlr-runtime	3.5.2
org.antlr	antlr4-runtime	4.8
org.antlr	stringtemplate	3.2.1
org.apache.ant	ant	1.9.2
org.apache.ant	ant-jsch	1.9.2
org.apache.ant	ant-launcher	1.9.2
org.apache.arrow	arrow-format	2.0.0
org.apache.arrow	arrow-memory-core	2.0.0
org.apache.arrow	arrow-memory-netty	2.0.0
org.apache.arrow	arrow-vector	2.0.0
org.apache.avro	avro	1.10.2
org.apache.avro	avro-ipc	1.10.2
org.apache.avro	avro-mapred	1.10.2
org.apache.commons	commons-compress	1.20
org.apache.commons	commons-crypto	1.1.0
org.apache.commons	commons-lang3	3.12.0
org.apache.commons	commons-math3	3.4.1
org.apache.commons	commons-text	1.6
org.apache.curator	curator-client	2.13.0
org.apache.curator	curator-framework	2.13.0
org.apache.curator	curator-recipes	2.13.0
org.apache.derby	derby	10.14.2.0
org.apache.hadoop	hadoop-client-runtime	3.3.1
org.apache.hive	hive-beeline	2.3.9
org.apache.hive	hive-cli	2.3.9
org.apache.hive	hive-jdbc	2.3.9
org.apache.hive	hive-llap-client	2.3.9
org.apache.hive	hive-llap-common	2.3.9
org.apache.hive	hive-serde	2.3.9
org.apache.hive	hive-shims	2.3.9
org.apache.hive	hive-storage-api	2.7.2
org.apache.hive.shims	hive-shims-0.23	2.3.9
org.apache.hive.shims	hive-shims-common	2.3.9
org.apache.hive.shims	hive-shims-scheduler	2.3.9
org.apache.htrace	htrace-core4	4.1.0-incubating
org.apache.httpcomponents	httpclient	4.5.13
org.apache.httpcomponents	httpcore	4.4.12
org.apache.ivy	ivy	2.5.0
org.apache.mesos	mesos-shaded-protobuf	1.4.0
org.apache.orc	orc-core	1.6.10
org.apache.orc	orc-mapreduce	1.6.10
org.apache.orc	orc-shims	1.6.10
org.apache.parquet	parquet-column	1.12.0-databricks-0003
org.apache.parquet	parquet-common	1.12.0-databricks-0003
org.apache.parquet	parquet-encoding	1.12.0-databricks-0003
org.apache.parquet	parquet-format-structures	1.12.0-databricks-0003
org.apache.parquet	parquet-hadoop	1.12.0-databricks-0003
org.apache.parquet	parquet-jackson	1.12.0-databricks-0003
org.apache.thrift	libfb303	0.9.3
org.apache.thrift	libthrift	0.12.0
org.apache.xbean	xbean-asm9-shaded	4.20
org.apache.yetus	audience-annotations	0.5.0
org.apache.zookeeper	zookeeper	3.6.2
org.apache.zookeeper	zookeeper-jute	3.6.2
org.checkerframework	checker-qual	3.5.0
org.codehaus.jackson	jackson-core-asl	1.9.13
org.codehaus.jackson	jackson-mapper-asl	1.9.13
org.codehaus.janino	commons-compiler	3.0.16
org.codehaus.janino	janino	3.0.16
org.datanucleus	datanucleus-api-jdo	4.2.4
org.datanucleus	datanucleus-core	4.1.17
org.datanucleus	datanucleus-rdbms	4.1.19
org.datanucleus	javax.jdo	3.2.0-m3
org.eclipse.jetty	jetty-client	9.4.40.v20210413
org.eclipse.jetty	jetty-continuation	9.4.40.v20210413
org.eclipse.jetty	jetty-http	9.4.40.v20210413
org.eclipse.jetty	jetty-io	9.4.40.v20210413
org.eclipse.jetty	jetty-jndi	9.4.40.v20210413
org.eclipse.jetty	jetty-plus	9.4.40.v20210413
org.eclipse.jetty	jetty-proxy	9.4.40.v20210413
org.eclipse.jetty	jetty-security	9.4.40.v20210413
org.eclipse.jetty	jetty-server	9.4.40.v20210413
org.eclipse.jetty	jetty-servlet	9.4.40.v20210413
org.eclipse.jetty	jetty-servlets	9.4.40.v20210413
org.eclipse.jetty	jetty-util	9.4.40.v20210413
org.eclipse.jetty	jetty-util-ajax	9.4.40.v20210413
org.eclipse.jetty	jetty-webapp	9.4.40.v20210413
org.eclipse.jetty	jetty-xml	9.4.40.v20210413
org.eclipse.jetty.websocket	websocket-api	9.4.40.v20210413
org.eclipse.jetty.websocket	websocket-client	9.4.40.v20210413
org.eclipse.jetty.websocket	websocket-common	9.4.40.v20210413
org.eclipse.jetty.websocket	websocket-server	9.4.40.v20210413
org.eclipse.jetty.websocket	websocket-servlet	9.4.40.v20210413
org.fusesource.leveldbjni	leveldbjni-all	1.8
org.glassfish.hk2	hk2-api	2.6.1
org.glassfish.hk2	hk2-locator	2.6.1
org.glassfish.hk2	hk2-utils	2.6.1
org.glassfish.hk2	osgi-resource-locator	1.0.3
org.glassfish.hk2.external	aopalliance-repackaged	2.6.1
org.glassfish.hk2.external	jakarta.inject	2.6.1
org.glassfish.jaxb	jaxb-runtime	2.3.2
org.glassfish.jersey.containers	jersey-container-servlet	2,34
org.glassfish.jersey.containers	jersey-container-servlet-core	2,34
org.glassfish.jersey.core	jersey-client	2,34
org.glassfish.jersey.core	jersey-common	2,34
org.glassfish.jersey.core	jersey-server	2,34
org.glassfish.jersey.inject	jersey-hk2	2,34
org.hibernate.validator	hibernate-validator	6.1.0.Final
org.javassist	javassist	3.25.0-GA
org.jboss.logging	jboss-logging	3.3.2.Final
org.jdbi	jdbi	2.63.1
org.jetbrains	annotations	17.0.0
org.joda	joda-convert	1.7
org.jodd	jodd-core	3.5.2
org.json4s	json4s-ast_2.12	3.7.0-M11
org.json4s	json4s-core_2.12	3.7.0-M11
org.json4s	json4s-jackson_2.12	3.7.0-M11
org.json4s	json4s-scalap_2.12	3.7.0-M11
org.lz4	lz4-java	1.7.1
org.mariadb.jdbc	mariadb-java-client	2.2.5
org.objenesis	objenesis	2.5.1
org.postgresql	postgresql	42.2.19
org.roaringbitmap	RoaringBitmap	0.9.14
org.roaringbitmap	shims	0.9.14
org.rocksdb	rocksdbjni	6.20.3
org.rosuda.REngine	REngine	2.1.0
org.scala-lang	scala-compiler_2.12	2.12.14
org.scala-lang	scala-library_2.12	2.12.14
org.scala-lang	scala-reflect_2.12	2.12.14
org.scala-lang.modules	scala-collection-compat_2.12	2.4.3
org.scala-lang.modules	scala-parser-combinators_2.12	1.1.2
org.scala-lang.modules	scala-xml_2.12	1.2.0
org.scala-sbt	test-interface	1,0
org.scalacheck	scalacheck_2.12	1.14.2
org.scalactic	scalactic_2.12	3.0.8
org.scalanlp	breeze-macros_2.12	1,0
org.scalanlp	breeze_2.12	1,0
org.scalatest	scalatest_2.12	3.0.8
org.slf4j	jcl-over-slf4j	1.7.30
org.slf4j	jul-to-slf4j	1.7.30
org.slf4j	slf4j-api	1.7.30
org.slf4j	slf4j-log4j12	1.7.30
org.spark-project.spark	unused	1.0.0
org.springframework	spring-core	4.1.4.RELEASE
org.springframework	spring-test	4.1.4.RELEASE
org.threeten	threeten-extra	1.5.0
org.tukaani	xz	1.8
org.typelevel	algebra_2.12	2.0.0-M2
org.typelevel	cats-kernel_2.12	2.0.0-M4
org.typelevel	machinist_2.12	0.6.8
org.typelevel	macro-compat_2.12	1.1.1
org.typelevel	spire-macros_2.12	0.17.0-M1
org.typelevel	spire-platform_2.12	0.17.0-M1
org.typelevel	spire-util_2.12	0.17.0-M1
org.typelevel	spire_2.12	0.17.0-M1
org.wildfly.openssl	wildfly-openssl	1.0.7.Final
org.xerial	sqlite-jdbc	3.8.11.2
org.xerial.snappy	snappy-java	1.1.8.4
org.yaml	snakeyaml	1.24
oro	oro	2.0.8
pl.edu.icm	JLargeArrays	1.5
software.amazon.ion	ion-java	1.0.2
stax	stax-api	1.0.1

Databricks Runtime 10.0 (sin soporte)

Nuevas características y mejoras

Nueva versión de Apache Spark

La instrucción SELECT ahora admite la cláusula QUALIFY para filtrar los resultados de la función de ventana.

Compatibilidad del clúster con JDK 11 (versión preliminar pública)

Auto Loader ahora trata los esquemas como que admiten valores NULL.

Últimos cambios

Cambios importantes para todos los usuarios de Spark SQL.

Cambios importantes para los usuarios de Spark SQL que habilitan el modo ANSI

Cambios importantes para todos los usuarios de Python

Actualizaciones de bibliotecas

Apache Hadoop 3

Cambios de comportamiento

Problemas conocidos

Apache Spark

En esta sección:

Aspectos destacados

Core y Spark SQL

Mejoras de compatibilidad de SQL en ANSI

Mejoras de rendimiento

Mejoras del conector

Mejoras de las características

Otros cambios importantes

Cambios de comportamiento

Structured Streaming

Características principales

Otros cambios importantes

PySpark

Project Zen

Otros cambios importantes

Cambios de comportamiento

MLlib

Mejoras en el rendimiento

Mejoras en el entrenamiento de modelos

Mejoras de BLAS

Otros cambios importantes

Desusos y eliminaciones

Actualizaciones de mantenimiento

Entorno del sistema

Bibliotecas de Python instaladas

Bibliotecas de R instaladas

Bibliotecas de Java y Scala instaladas (versión de clúster de Scala 2.12)

Recursos adicionales