Databricks Runtime 7.0 (EoS)

Artigo
09/03/2024

Observação

O suporte para esta versão do Databricks Runtime foi encerrado. Para obter a data de fim do suporte, consulte o Histórico de fim do suporte. Para todas as versões compatíveis do Databricks Runtime, consulte Versões e compatibilidade de notas sobre a versão do Databricks Runtime.

O Databricks lançou essa versão em junho de 2020.

As notas sobre a versão a seguir fornecem informações sobre o Databricks Runtime 7.0, da plataforma Apache Spark 3.0.

Novos recursos

O Databricks Runtime 7.0 inclui os seguintes novos recursos:

Scala 2.12

O Databricks Runtime 7.0 atualiza o Scala de 2.11.12 para 2.12.10. A lista de alterações entre Scala 2.12 e 2.11 está nas notas de versão do Scala 2.12.0.
O Carregador Automático (Visualização Pública), lançado no Databricks Runtime 6.4, foi aprimorado no Databricks Runtime 7.0

O Carregador Automático oferece uma forma mais eficiente de processar novos arquivos de dados de maneira incremental conforme eles chegam em um armazenamento de blobs de nuvem durante o ETL. Esse é um aprimoramento em relação ao streaming estruturado baseado em arquivo, que identifica novos arquivos listando repetidamente o diretório de nuvem e acompanhando os arquivos que foram vistos e que pode ser muito ineficiente à medida que o diretório cresce. O Carregador Automático também é mais conveniente e eficaz do que o streaming estruturado baseado em notificação de arquivo, o que exige que você configure manualmente os serviços de notificação de arquivo na nuvem e não permite que você faça o provisionamento dos arquivos existentes. Para ver detalhes, confira O que é o Carregador Automático?.

No Databricks Runtime 7.0, você não precisa mais solicitar uma imagem Databricks Runtime personalizada para usar o Carregador Automático.
COPY INTO (Visualização Pública), que permite carregar dados no Delta Lake com as recuperações idempotentes, foi melhorada com o Databricks Runtime 7.0

Lançado como uma visualização pública no Databricks Runtime 6.4, o comando SQL COPY INTO permite carregar dados no Delta Lake com as recuperações idempotentes. Para carregar dados no Delta Lake hoje, você precisa usar a API de DataFrame do Apache Spark. Se houver falhas durante as cargas, você precisará lidar com elas com eficiência. O novo comando COPY INTO fornece uma interface declarativa conhecida carregarem os dados no SQL. O comando mantém o controle dos arquivos já carregados, e você o executa com segurança em caso de falhas. Para obter detalhes, consulte COPY INTO.

Aprimoramentos

Azure Synapse (anteriormente SQL Data Warehouse) dá suporte à instrução COPY.

O principal benefício do COPY é que os usuários com privilégios inferiores podem gravar dados em Azure Synapse sem a necessidade de permissões CONTROL estritas no Azure Synapse.
O comando magic %matplotlib inline não é mais necessário para exibir display Matplolib em linha em células do notebook. Elas são sempre exibidas em linha por padrão.
As figuras matplolib agora são renderizadas com transparent=False, de modo que as origens especificadas pelo usuário não sejam perdidas. Esse comportamento pode ser substituído definindo a configuração do Spark spark.databricks.workspace.matplotlib.transparent true.
Ao executar trabalhos de produção de fluxo estruturado em clusters em modo de alta simultaneidade, as reinicializações de um trabalho ocasionalmente falharão, pois o trabalho anteriormente em execução não foi encerrado corretamente. O Databricks Runtime 6.3 introduziu a capacidade de definir a configuração de SQL spark.sql.streaming.stopActiveRunOnRestart true no cluster para garantir que a execução anterior seja interrompida. Essa configuração é definida por padrão Databricks Runtime 7.0.

Principais alterações na biblioteca

Pacotes do Python

Principais pacotes do Python atualizados:

boto3 1.9.162 -> 1.12.0
matplotlib 3.0.3 -> 3.1.3
numpy 1.16.2 -> 1.18.1
pandas 0.24.2 -> 1.0.1
pip 19.0.3 -> 20.0.2
pyarrow 0.13.0 -> 0.15.1
psycopg2 2.7.6 -> 2.8.4
scikit-learn 0.20.3 -> 0.22.1
scipy 1.2.1 -> 1.4.1
seaborn 0.9.0 -> 0.10.0

Pacotes do Python removidos:

boto (use boto3)
pycurl

Observação

O ambiente Python no Databricks Runtime 7.0 usa o Python 3.7, que é diferente do python do sistema Ubuntu instalado: /usr/bin/python e /usr/bin/python2 estão vinculados ao Python 2.7 e /usr/bin/python3 está vinculado ao Python 3.6.

Pacotes R

Pacotes R adicionados:

broom
highr
isoband
knitr
markdown
modelr
reprex
rmarkdown
rvest
selectr
tidyverse
tinytex
xfun

Pacotes R removidos:

abind
bitops
carro
carData
doMC
gbm
h2o
littler
lme4
mapproj
mapas
maptools
MatrixModels
minqa
mvtnorm
nloptr
openxlsx
pbkrtest
pkgKitten
quantreg
R.methodsS3
R.oo
R.utils
RcppEigen
RCurl
rio
sp
SparseM
statmod
zip

Bibliotecas do Java e do Scala

Apache Hive versão usada para lidar com funções definidas pelo usuário do Hive e Hive SerDes atualizados para a versão 2.3.
Anteriormente, jars de Armazenamento do Azure e Key Vault eram empacotados como parte do Databricks Runtime, o que impediria o uso de diferentes versões dessas bibliotecas anexadas a clusters. Classes em com.microsoft.azure.storage e com.microsoft.azure.keyvault não estão mais no caminho de classe em Databricks Runtime. Se você depender de qualquer um desses caminhos de classe, agora deverá anexar o SDK do Armazenamento do Microsoft Azure ou do Azure Key Vault aos seus clusters.

Alterações de comportamento

Esta seção lista as alterações de comportamento de Databricks Runtime 6.6 para Databricks Runtime 7.0. Você deve estar ciente deles ao migrar cargas de trabalho de versões inferiores Databricks Runtime para Databricks Runtime 7.0 e superior.

Outras alterações do Spark

Como Databricks Runtime 7.0 é o primeiro Databricks Runtime criado no Spark 3.0, há muitas alterações que você deve conhecer ao migrar cargas de trabalho de Databricks Runtime 5.5 LTS ou 6.x, que são criadas no Spark 2.4. Essas alterações são listadas na seção "alterações de comportamento" de cada área funcional na seção Apache Spark deste artigo de notas de versão:

Alterações de comportamento para Spark core, Spark SQL e Streaming Estruturado
Alterações de comportamento para MLlib
Alterações de comportamento para SparkR

Outras alterações de comportamento

A atualização para o Scala 2.12 envolve as seguintes alterações:
- A serialização de célula do pacote é tratada de forma diferente. O exemplo a seguir ilustra a alteração de comportamento e como tratá-la.
  
  A execução de foo.bar.MyObjectInPackageCell.run() conforme definido na célula do pacote a seguir disparará o erro java.lang.NoClassDefFoundError: Could not initialize class foo.bar.MyObjectInPackageCell$
```
package foo.bar

case class MyIntStruct(int: Int)

import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions._
import org.apache.spark.sql.Column

object MyObjectInPackageCell extends Serializable {

  // Because SparkSession cannot be created in Spark executors,
  // the following line triggers the error
  // Could not initialize class foo.bar.MyObjectInPackageCell$
  val spark = SparkSession.builder.getOrCreate()

  def foo: Int => Option[MyIntStruct] = (x: Int) => Some(MyIntStruct(100))

  val theUDF = udf(foo)

  val df = {
    val myUDFInstance = theUDF(col("id"))
    spark.range(0, 1, 1, 1).withColumn("u", myUDFInstance)
  }

  def run(): Unit = {
    df.collect().foreach(println)
  }
}
```
  Para contornar esse erro, você pode encapsular MyObjectInPackageCell dentro de uma classe serializável.
- Determinados casos que usam DataStreamWriter.foreachBatch exigirão uma atualização do código-fonte. Essa alteração ocorre devido ao fato de que o Scala 2.12 tem conversão automática de expressões lambda em tipos SAM e pode causar ambiguidade.
  
  Por exemplo, o seguinte código Scala não pode ser compilado:
```
streams
  .writeStream
  .foreachBatch { (df, id) => myFunc(df, id) }
```
  Para corrigir o erro de compilação, altere foreachBatch { (df, id) => myFunc(df, id) } para foreachBatch(myFunc _) ou use a API Java explicitamente: foreachBatch(new VoidFunction2 ...).
Como a versão do Apache Hive usada para lidar com funções definidas pelo usuário do Hive e SerDes do Hive é atualizada para 2.3, duas alterações são necessárias:
- A interface SerDe do Hive é substituída por uma classe abstrata AbstractSerDe. Para qualquer implementação SerDe personalizada do Hive, a migração para AbstractSerDe é obrigatória.
- A definição de spark.sql.hive.metastore.jars como builtin significa que o cliente de metastore do Hive 2.3 será usado para acessar metastores para o Databricks Runtime 7.0. Se você precisar acessar metastores externos baseados no Hive 1.2, defina spark.sql.hive.metastore.jars como a pasta que contém jars do Hive 1.2.

Desativações e remoções

O índice que ignora dados foi preterido no Databricks Runtime 4.3 e removido no Databricks Runtime 7.0. Recomendamos usar tabelas Delta no lugar, pois oferecem recursos aprimorados de omissão de dados.
No Databricks Runtime 7.0, a versão subjacente do Apache Spark usa o Scala 2.12. Como as bibliotecas compiladas no Scala 2.11 podem desabilitar os clusters do Databricks Runtime 7.0 de maneiras inesperadas, os clusters que executam o Databricks Runtime 7.0 e superior não instalam bibliotecas configuradas para serem instaladas em todos os clusters. A guia Bibliotecas do cluster mostra um status Skipped e uma mensagem de obsolescência que explica as alterações no tratamento da biblioteca. No entanto, se você tiver um cluster criado em uma versão anterior do Databricks Runtime antes da versão da plataforma do Azure Databricks 3.20 ser lançada em seu espaço de trabalho, e agora editar esse cluster para usar o Databricks Runtime 7.0, todas as bibliotecas que foram configuradas para serem instaladas em todos os clusters serão instaladas naquele cluster. Nesse caso, quaisquer JARs incompatíveis nas bibliotecas instaladas podem fazer com que o cluster seja desabilitado. A solução alternativa é clonar o cluster ou criar um novo cluster.

Apache Spark

O Databricks Runtime 7.0 inclui o Apache Spark 3.0.

Core, Spark SQL, Fluxo estruturado

Destaques

(Project Hydrogen) Agendador com reconhecimento de acelerador (SPARK-24615)
Execução de consulta adaptável (SPARK-31412)
Remoção de partição dinâmica (SPARK-11150)
API do UDF do pandas remodelada com dicas de tipo (Spark-28264)
Interface do usuário de fluxo estruturado (Spark-29543)
API de plug-in de catálogo (SPARK-31121)
Melhor compatibilidade com SQL ANSI

Aprimoramentos de desempenho

Execução de consulta adaptável (SPARK-31412)
- Estrutura básica (SPARK-23128)
- Pós-ajuste de número de partição em ordem aleatória (SPARK-28177)
- Reutilização de subconsulta dinâmica (SPARK-28753)
- Leitor de ordem aleatória local (SPARK-28560)
- Otimização de junção de distorção (SPARK-29544)
- Otimizar a leitura de blocos de ordem aleatória contígua (SPARK-9853)
Remoção de partição dinâmica (SPARK-11150)
Outras regras do otimizador
- Regra ReuseSubquery (SPARK-27279)
- Regra PushDownLeftSemiAntiJoin (SPARK-19712)
- Regra PushLeftSemiLeftAntiThroughJoin (SPARK-19712)
- Regra ReplaceNullWithFalse (SPARK-25860)
- A regra elimina as classificações sem limite na subconsulta de junção/agregação (SPARK-29343)
- Regra PruneHiveTablePartitions (SPARK-15616)
- Removendo campos aninhados desnecessários da geração (SPARK-27707)
- Regra RewriteNonCorrelatedExists (SPARK-29800)
Minimizar os custos de sincronização do cache de tabela (SPARK-26917), (SPARK-26617), (SPARK-26548)
Dividir o código de agregação em funções pequenas(SPARK-21870)
Adicionar envio em lote no comando INSERT e ALTER TABLE ADD PARTITION (SPARK-29938)

Aprimoramentos de extensibilidade

API de plug-in de catálogo (SPARK-31121)
Refatoração da API da fonte de dados V2 (Spark-25390)
Suporte ao metastore do Hive 3.0 e 3.1 (SPARK-27970),(SPARK-24360)
Estender a interface de plug-in do Spark para o driver (SPARK-29396)
Estender o sistema de métricas do Spark com métricas definidas pelo usuário usando plug-ins de executor (SPARK-28091)
APIs de desenvolvedor para Suporte de Processamento de Coluna estendida (SPARK-27396)
Migração de origem interna usando DSV2: parquet, ORC, CSV, JSON, Kafka, Text, Avro (SPARK-27589)
Permitir FunctionInjection no SparkExtensions (SPARK-25560)
Permite que o Agregador seja registrado como um UDAF (SPARK-27296)

Aprimoramentos do conector

Remoção de coluna por expressões não determinísticas (SPARK-29768)
Suporte spark.sql.statistics.fallBackToHdfs em tabelas de fontes de dados (SPARK-25474)
Permitir remoção de partição com filtros de subconsulta na origem do arquivo (SPARK-26893)
Evitar aplicação de subconsultas em filtros de fonte de dados (SPARK-25482)
Carregamento recursivo de dados de fontes de arquivo (SPARK-27990)
Parquet/ORC
- Aplicação de predicados disjuntivos (SPARK-27699)
- Generalizar a remoção de colunas aninhadas (SPARK-25603) e ativadas por padrão (SPARK-29805)
- Somente parquet
  - Pushdown de predicado parquet para campos aninhados (SPARK-17636)
- Somente ORC
  - Suporte ao esquema de mesclagem para ORC (SPARK-11412)
  - Remoção de esquema aninhado para ORC (SPARK-27034)
  - Redução da complexidade de conversão de predicado para ORC (SPARK-27105, SPARK-28108)
  - Atualização do Apache ORC para 1.5.9 (SPARK-30695)
CSV
- Suporte ao pushdown de filtros na fonte de dados CSV (SPARK-30323)
Hive SerDe
- Nenhuma inferência de esquema ao ler a tabela Hive serde com fonte de dados nativa (SPARK-27119)
- Os comandos CTAS do Hive devem usar a fonte de dados se ela for conversível (SPARK-25271)
- Uso de fonte de dados nativa para otimizar a inserção da tabela do Hive particionada (SPARK-28573)
Apache Kafka
- Adição de suporte para os cabeçalhos do Kafka (SPARK-23539)
- Adição de suporte a token de delegação do Kafka (SPARK-25501)
- Introdução da nova opção para a origem do Kafka: deslocamento por data/hora (iniciando/terminando) (SPARK-26848)
- Dar suporte à opção minPartitions na origem do lote do Kafka e na fonte de streaming v1 (SPARK-30656)
- Atualização do Kafka para 2.4.1 (SPARK-31126)
Novas origens de dados incorporadas
- Novas fontes de dados de arquivo binário (SPARK-25348)
- Novas fontes de dados em lote não operacionais (SPARK-26550) e o coletor de streaming não operacional (SPARK-26649)

Aprimoramentos de recursos

[Hydrogen] Agendador com reconhecimento de acelerador (SPARK-24615)
Introduzir um conjunto completo de dicas de junção (SPARK-27225)
Adicionar dica PARTITION BY para consultas SQL (SPARK-28746)
Tratamento de metadados no servidor Thrift (SPARK-28426)
Adicionar funções de ordem superior à API scala (SPARK-27297)
Dar suporte a coletas simples no contexto da tarefa de barreira (SPARK-30667)
As UDFs do Hive são compatíveis com o tipo UDT (SPARK-28158)
Suporte a Operadores DELETE/UPDATE/MERGE no Catalyst (SPARK-28351, SPARK-28892, SPARK-28893)
Implementar DataFrame.tail (SPARK-30185)
Novas funções internas
- sinh, cosh, tanh, asinh, acosh, atanh (SPARK-28133)
- any, every, some (SPARK-19851)
- bit_and, bit_or (SPARK-27879)
- bit_count (SPARK-29491)
- bit_xor (SPARK-29545)
- bool_and, bool_or (SPARK-30184)
- count_if (SPARK-27425)
- date_part (SPARK-28690)
- extract (SPARK-23903)
- forall (SPARK-27905)
- from_csv (SPARK-25393)
- make_date (SPARK-28432)
- make_interval (SPARK-29393)
- make_timestamp (SPARK-28459)
- map_entries (SPARK-23935)
- map_filter (SPARK-23937)
- map_zip_with (SPARK-23938)
- max_by, min_by (SPARK-27653)
- schema_of_csv (SPARK-25672)
- to_csv (SPARK-25638)
- transform_keys (SPARK-23939)
- transform_values (SPARK-23940)
- typeof (SPARK-29961)
- version (SPARK-29554)
- xxhash64 (SPARK-27099)
Melhorias em funções existentes
- Melhoria de funções/operações de data/hora (SPARK-31415)
- Modo FAILFAST de suporte para from_json (SPARK-25243)
- array_sort adiciona um novo parâmetro comparador(SPARK-29020)
- O filtro agora pode usar o índice como entrada, bem como o elemento (SPARK-28962)

Aprimoramentos na compatibilidade com o SQL

Alternar para calendário Gregoriano Proléptico (SPARK-26651)
Criar a própria definição de padrão de data e hora do Spark (SPARK-31408)
Introdução de política de atribuição de armazenamento ANSI para inserção de tabela (SPARK-28495)
Seguir a regra de atribuição de armazenamento ANSI na inserção de tabela por padrão (SPARK-28885)
Adicionar um SQLConf spark.sql.ansi.enabled (SPARK-28989)
Dar suporte à cláusula de filtro SQL ANSI para expressão de agregação (SPARK-27986)
Dar suporte à função SQL OVERLAY ANSI (SPARK-28077)
Suporte aos comentários em colchetes aninhados ANSI (SPARK-28880)
Lançar exceção no estouro para inteiros (SPARK-26218)
Verificação de estouro para operações aritméticas de intervalo (SPARK-30341)
Lançar Exceção quando a cadeia de caracteres inválida é lançada em tipo numérico (SPARK-30292)
Tornar o comportamento de estouro de intervalo multiplicado e dividido consistente com outras operações (SPARK-30919)
Adicionar aliases de tipo ANSI para caractere e decimal (SPARK-29941)
O Analisador SQL define palavras-chave reservadas em conformidade com ANSI (SPARK-26215)
Proibir palavras-chave reservadas como identificadores quando o modo ANSI estiver em (SPARK-26976)
Suporte à sintaxe LIKE ... ESCAPE SQL ANSI (SPARK-28083)
Suporte à sintaxe SQL de Booliano-Predicado ANSI (SPARK-27924)
Melhor suporte para processamento de subconsulta correlacionada (SPARK-18455)

Aprimoramentos de monitoramento e depuração

Nova Interface do Usuário de Fluxo Estruturado (SPARK-29543)
SHS: permite que os logs de eventos para aplicativos de streaming em execução sejam transferidos (SPARK-28594)
Adiciona uma API que permite que um usuário defina e observe métricas arbitrárias em consultas de lote e streaming (SPARK-29345)
Instrumentação para acompanhar o tempo de planejamento por consulta (SPARK-26129)
Coloca as métricas aleatórias básicas no operador de troca de dados SQL (SPARK-26139)
A instrução SQL é mostrada na guia SQL em vez do site de chamada (SPARK-27045)
Adicionar dica de ferramenta ao SparkUI (SPARK-29449)
Melhorar o desempenho simultâneo do Servidor de Histórico (SPARK-29043)
Comando EXPLAIN FORMATTED (SPARK-27395)
Suporte ao despejo de planos truncados e código gerado para um arquivo (SPARK-26023)
Aprimorar a estrutura de descrição para descrever a saída de uma consulta (SPARK-26982)
Adicionar comando SHOW VIEWS (SPARK-31113)
Melhorar as mensagens de erro do analisador SQL (SPARK-27901)
Suporte ao monitoramento do Prometheus de forma nativa (SPARK-29429)

Aprimoramentos do PySpark

UDFs do Pandas reformuladas com dicas de tipo (SPARK-28264)
Pipeline de UDF do Pandas (SPARK-26412)
Suporte a StructType como argumentos e tipos de retorno para a UDF do Pandas do Scalar (SPARK-27240 )
Suporte ao Dataframe Cogroup por meio de UDFs do Pandas (SPARK-27463)
Adicionar mapInPandas para permitir um iterador de DataFrames (SPARK-28198)
Determinadas SQL funções também devem ter nomes de coluna (SPARK-26979)
Tornar as exceções do SQL PySpark mais compatíveis com Python (SPARK-31849)

Aprimoramentos de cobertura de documentação e teste

Compilar uma Referência de SQL (SPARK-28588)
Compilar um guia do usuário para o WebUI (SPARK-28372)
Compilar uma página para a documentação de configuração do SQL (SPARK-30510)
Adicionar informações de versão para a configuração do Spark (Spark-30839)
Testes de regressão de porta do PostgreSQL (Spark-27763)
Cobertura de teste do servidor Thrift (SPARK-28608)
Cobertura de teste de UDFs (UDF do python, UDF de pandas, UDF de escala) (SPARK-27921)

Outras alterações importantes

Atualização de execução interna do Hive de 1.2.1 para 2.3.6 (SPARK-23710, SPARK-28723, SPARK-31381)
Usar a dependência Apache Hive 2.3 por padrão (SPARK-30034)
GA escala 2.12 e remover 2.11 (SPARK-26132)
Melhorar a lógica para executores de tempo limite em alocação dinâmica (SPARK-20286)
Blocos de RDD persistentes de disco servidos pelo serviço de ordem aleatória e ignorados para Alocação Dinâmica (SPARK-27677)
Adquirir novos executores para evitar a interrupção por causa do inclusão na lista de bloqueados (SPARK-22148)
Permitir o compartilhamento de alocadores de pool de memória do Netty (SPARK-24920)
Corrigir o deadlock entre TaskMemoryManager e UnsafeExternalSorter$SpillableIterator (SPARK-27338)
Introduzir AdmissionControl APIs para StructuredStreaming (SPARK-30669)
Aprimoramento de desempenho da página principal do histórico do Spark (SPARK-25973)
Acelerar e reduzir a agregação de métrica no ouvinte de SQL (SPARK-29562)
Evitar a rede quando blocos de ordem aleatória são buscados do mesmo host (SPARK-27651)
Melhorar a listagem de arquivos para DistributedFileSystem (SPARK-27801)

Alterações de comportamento para Spark core, Spark SQL e Streaming Estruturado

Os guias de migração a seguir listam as alterações de comportamento entre Apache Spark 2.4 e 3.0. Essas alterações podem exigir atualizações para os trabalhos que você está executando em versões mais baixas do Databricks Runtime:

As seguintes alterações de comportamento não são abordadas nesses guias de migração:

No Spark 3.0, a classe preterida org.apache.spark.sql.streaming.ProcessingTime foi removida. Use org.apache.spark.sql.streaming.Trigger.ProcessingTime em vez disso. Da mesma forma, org.apache.spark.sql.execution.streaming.continuous.ContinuousTrigger foi removido em favor de Trigger.Continuous e org.apache.spark.sql.execution.streaming.OneTimeTrigger foi ocultado em favor de Trigger.Once. (SPARK-28199)
No Databricks Runtime 7.0, ao ler uma tabela SerDe do Hive, por padrão, o Spark não permite a leitura de arquivos em um subdiretório que não seja uma partição de tabela. Para habilitá-lo, defina a configuração spark.databricks.io.hive.scanNonpartitionedDirectory.enabled como true. Isso não afeta os leitores da tabela nativa do Spark e os leitores de arquivo.

MLlib

Destaques

Suporte a várias colunas foi adicionado ao Binarizer (SPARK-23578), StringIndexer (SPARK-11215), StopWordsRemover (SPARK-29808) e PySpark QuantileDiscretizer (SPARK-22796)
Suporte à transformação de recursos baseada em árvore (SPARK-13677)
Dois novos avaliadores MultilabelClassificationEvaluator (SPARK-16692) e RankingEvaluator (SPARK-28045) foram adicionados
O suporte a pesos de exemplo foi adicionado em DecisionTreeClassifier/Regressor (SPARK-19591), RandomForestClassifier/Regressor (SPARK-9478), GBTClassifier/Regressor (SPARK-9612), RegressionEvaluator (SPARK-24102), BinaryClassificationEvaluator (SPARK-24103), BisectingKMeans (SPARK-30351), KMeans (SPARK-29967) e GaussianMixture (SPARK-30102)
A API do R para PowerIterationClustering foi adicionada (SPARK-19827)
Ouvinte do spark ML adicionado para acompanhar o status do pipeline de ML (SPARK-23674)
A opção de ajustar ao conjunto de validação foi adicionada às árvores aumentadas de gradiente no Python (SPARK-24333)
Adição do transformador RobustScaler (SPARK-28399)
Adição do classificador e do regressor das Máquinas de Fatoração (SPARK-29224)
O Naive Bayes Gaussiano (SPARK-16872) e o Complemento Naive Bayes (SPARK-29942) foram adicionados
A paridade de função de ML entre Scala e Python (SPARK-28958)
O predictRaw torna-se público em todos os modelos de Classificação. O predictProbability torna-se público em todos os modelos de classificação, exceto LinearSVCModel (Spark-30358)

Alterações de comportamento para MLlib

O guia de migração a seguir lista as alterações de comportamento entre Apache Spark 2.4 e 3.0. Essas alterações podem exigir atualizações para os trabalhos que você está executando em versões mais baixas do Databricks Runtime:

Guia de migração: MLlib (Machine Learning)

As seguintes alterações de comportamento não são abordadas no guia de migração:

No Spark 3.0, uma regressão logística de multiclasse no Pyspark agora retornará (corretamente) LogisticRegressionSummary, não a subclasse BinaryLogisticRegressionSummary. Os métodos adicionais expostos pelo BinaryLogisticRegressionSummary não funcionariam nesse caso, de qualquer forma. (SPARK-31681)
No Spark 3.0, pyspark.ml.param.shared.Has* os mixins não fornecem mais nenhum método setter set*(self, value); use o respectivo self.set(self.*, value). Confira o SPARK-29093 para obter detalhes. (SPARK-29093)

SparkR

Otimização de seta na interoperabilidade do SparkR (SPARK-26759)
Aprimoramento de desempenho por meio de R gapply(), dapply(), createDataFrame, collect() vetorizados
"Execução adiantada" para o R Shell, IDE (SPARK-24572)
R API para clustering de iteração de energia (SPARK-19827)

Alterações de comportamento para SparkR

Guia de migração: SparkR (R no Spark)

Desativações

Suporte ao Python 2 preterido (SPARK-27884)
Suporte ao R < 3.4 preterido (SPARK-26014)

Problemas conhecidos

A análise do dia do ano com o uso da letra do padrão “D” retorna o resultado errado quando o campo “ano” está ausente. Isso pode acontecer em funções SQL, como to_timestamp, que analisa a cadeia de caracteres datetime como valores datetime usando uma cadeia de caracteres de padrão. (SPARK-31939)
Junção/janela/agregação dentro de subconsultas pode levar a resultados incorretos se as chaves tiverem valores -0,0 e 0,0. (SPARK-31958)
Uma consulta de janela pode falhar com um erro de autojunção ambíguo inesperadamente. (SPARK-31956)
As consultas de streaming com operador dropDuplicates podem não conseguir reiniciar com o ponto de verificação gravado pelo Spark 2.x. (SPARK-31990)

Atualizações de manutenção

Confira Atualizações de manutenção do Databricks Runtime 7.0.

Ambiente do sistema

Sistema operacional: Ubuntu 18.04.4 LTS
Java: 1.8.0_252
Scala: 2.12.10
Python: 3.7.5
R: R versão 3.6.3 (29-02-2020)
Delta Lake 0.7.0

Bibliotecas Python instaladas

Biblioteca	Versão	Biblioteca	Versão	Biblioteca	Versão
asn1crypto	1.3.0	backcall	0.1.0	boto3	1.12.0
botocore	1.15.0	certifi	2020.4.5	cffi	1.14.0
chardet	3.0.4	criptografia	2.8	cycler	0.10.0
Cython	0.29.15	decorator	4.4.1	docutils	0.15.2
entrypoints	0.3	idna	2.8	ipykernel	5.1.4
ipython	7.12.0	ipython-genutils	0.2.0	jedi	0.14.1
jmespath	0.9.4	joblib	0.14.1	jupyter-client	5.3.4
jupyter-core	4.6.1	kiwisolver	1.1.0	matplotlib	3.1.3
numpy	1.18.1	pandas	1.0.1	parso	0.5.2
patsy	0.5.1	pexpect	4.8.0	pickleshare	0.7.5
pip	20.0.2	prompt-toolkit	3.0.3	psycopg2	2.8.4
ptyprocess	0.6.0	pyarrow	0.15.1	pycparser	2.19
Pygments	2.5.2	PyGObject	3.26.1	pyOpenSSL	19.1.0
pyparsing	2.4.6	PySocks	1.7.1	python-apt	1.6.5+ubuntu0.3
python-dateutil	2.8.1	pytz	2019.3	pyzmq	18.1.1
solicitações	2.22.0	s3transfer	0.3.3	scikit-learn	0.22.1
scipy	1.4.1	seaborn	0.10.0	setuptools	45.2.0
six	1.14.0	ssh-import-id	5.7	statsmodels	0.11.0
tornado	6.0.3	traitlets	4.3.3	unattended-upgrades	0,1
urllib3	1.25.8	virtualenv	16.7.10	wcwidth	0.1.8
wheel	0.34.2

Bibliotecas R instaladas

As bibliotecas do R foram instaladas por meio do instantâneo do Microsoft CRAN em 22/4/2020.

Biblioteca	Versão	Biblioteca	Versão	Biblioteca	Versão
askpass	1,1	assertthat	0.2.1	backports	1.1.6
base	3.6.3	base64enc	0.1-3	BH	1.72.0-3
bit	1.1-15.2	bit64	0.9-7	blob	1.2.1
boot	1.3-25	brew	1.0-6	broom	0.5.6
callr	3.4.3	sinal de interpolação	6.0-86	cellranger	1.1.0
chron	2.3-55	classe	7.3-17	cli	2.0.2
clipr	0.7.0	cluster	2.1.0	codetools	0.2-16
colorspace	1.4-1	commonmark	1,7	compiler	3.6.3
config	0.3	covr	3.5.0	crayon	1.3.4
crosstalk	1.1.0.1	curl	4.3	data.table	1.12.8
conjuntos de dados	3.6.3	DBI	1.1.0	dbplyr	1.4.3
desc	1.2.0	devtools	2.3.0	digest	0.6.25
dplyr	0.8.5	DT	0.13	ellipsis	0.3.0
evaluate	0,14	fansi	0.4.1	farver	2.0.3
fastmap	1.0.1	forcats	0.5.0	foreach	1.5.0
foreign	0.8-76	forge	0.2.0	fs	1.4.1
Genéricos	0.0.2	ggplot2	3.3.0	gh	1.1.0
git2r	0.26.1	glmnet	3.0-2	globals	0.12.5
glue	1.4.0	gower	0.2.1	elemento gráfico	3.6.3
grDevices	3.6.3	grade	3.6.3	gridExtra	2.3
gsubfn	0.7	gtable	0.3.0	haven	2.2.0
highr	0.8	hms	0.5.3	htmltools	0.4.0
htmlwidgets	1.5.1	httpuv	1.5.2	httr	1.4.1
hwriter	1.3.2	hwriterPlus	1.0-3	ini	0.3.1
ipred	0.9-9	isoband	0.2.1	iterators	1.0.12
jsonlite	1.6.1	KernSmooth	2.23-17	knitr	1.28
labeling	0.3	later	1.0.0	lattice	0.20-41
lava	1.6.7	lazyeval	0.2.2	ciclo de vida	0.2.0
lubridate	1.7.8	magrittr	1.5	markdown	1,1
MASS	7.3-51.6	Matriz	1.2-18	memoise	1.1.0
methods	3.6.3	mgcv	1.8-31	mime	0,9
ModelMetrics	1.2.2.2	modelr	0.1.6	munsell	0.5.0
nlme	3.1-147	nnet	7.3-14	numDeriv	2016.8-1.1
openssl	1.4.1	parallel	3.6.3	pillar	1.4.3
pkgbuild	1.0.6	pkgconfig	2.0.3	pkgload	1.0.2
plogr	0.2.0	plyr	1.8.6	praise	1.0.0
prettyunits	1.1.1	pROC	1.16.2	processx	3.4.2
prodlim	2019.11.13	progress	1.2.2	promises	1.1.0
proto	1.0.0	ps	1.3.2	purrr	0.3.4
r2d3	0.2.3	R6	2.4.1	randomForest	4.6-14
rappdirs	0.3.1	rcmdcheck	1.3.3	RColorBrewer	1.1-2
Rcpp	1.0.4.6	readr	1.3.1	readxl	1.3.1
recipes	0.1.10	rematch	1.0.1	rematch2	2.1.1
remotes	2.1.1	reprex	0.3.0	reshape2	1.4.4
rex	1.2.0	rjson	0.2.20	rlang	0.4.5
rmarkdown	2.1	RODBC	1.3-16	roxygen2	7.1.0
rpart	4.1-15	rprojroot	1.3-2	Rserve	1.8-6
RSQLite	2.2.0	rstudioapi	0,11	rversions	2.0.1
rvest	0.3.5	scales	1.1.0	selectr	0.4-2
sessioninfo	1.1.1	shape	1.4.4	shiny	1.4.0.2
sourcetools	0.1.7	sparklyr	1.2.0	SparkR	3.0.0
spatial	7.3-11	splines	3.6.3	sqldf	0.4-11
SQUAREM	2020.2	stats	3.6.3	stats4	3.6.3
stringi	1.4.6	stringr	1.4.0	survival	3.1-12
sys	3.3	tcltk	3.6.3	TeachingDemos	2,10
testthat	2.3.2	tibble	3.0.1	tidyr	1.0.2
tidyselect	1.0.0	tidyverse	1.3.0	timeDate	3043.102
tinytex	0,22	tools	3.6.3	usethis	1.6.0
utf8	1.1.4	utils	3.6.3	vctrs	0.2.4
viridisLite	0.3.0	whisker	0,4	withr	2.2.0
xfun	0.13	xml2	1.3.1	xopen	1.0.0
xtable	1.8-4	yaml	2.2.1

Bibliotecas do Java e do Scala instaladas (versão do cluster Scala 2.12)

ID do Grupo	Artifact ID	Versão
antlr	antlr	2.7.7
com.amazonaws	amazon-kinesis-client	1.12.0
com.amazonaws	aws-java-sdk-autoscaling	1.11.655
com.amazonaws	aws-java-sdk-cloudformation	1.11.655
com.amazonaws	aws-java-sdk-cloudfront	1.11.655
com.amazonaws	aws-java-sdk-cloudhsm	1.11.655
com.amazonaws	aws-java-sdk-cloudsearch	1.11.655
com.amazonaws	aws-java-sdk-cloudtrail	1.11.655
com.amazonaws	aws-java-sdk-cloudwatch	1.11.655
com.amazonaws	aws-java-sdk-cloudwatchmetrics	1.11.655
com.amazonaws	aws-java-sdk-codedeploy	1.11.655
com.amazonaws	aws-java-sdk-cognitoidentity	1.11.655
com.amazonaws	aws-java-sdk-cognitosync	1.11.655
com.amazonaws	aws-java-sdk-config	1.11.655
com.amazonaws	aws-java-sdk-core	1.11.655
com.amazonaws	aws-java-sdk-datapipeline	1.11.655
com.amazonaws	aws-java-sdk-directconnect	1.11.655
com.amazonaws	aws-java-sdk-directory	1.11.655
com.amazonaws	aws-java-sdk-dynamodb	1.11.655
com.amazonaws	aws-java-sdk-ec2	1.11.655
com.amazonaws	aws-java-sdk-ecs	1.11.655
com.amazonaws	aws-java-sdk-efs	1.11.655
com.amazonaws	aws-java-sdk-elasticache	1.11.655
com.amazonaws	aws-java-sdk-elasticbeanstalk	1.11.655
com.amazonaws	aws-java-sdk-elasticloadbalancing	1.11.655
com.amazonaws	aws-java-sdk-elastictranscoder	1.11.655
com.amazonaws	aws-java-sdk-emr	1.11.655
com.amazonaws	aws-java-sdk-glacier	1.11.655
com.amazonaws	aws-java-sdk-iam	1.11.655
com.amazonaws	aws-java-sdk-importexport	1.11.655
com.amazonaws	aws-java-sdk-kinesis	1.11.655
com.amazonaws	aws-java-sdk-kms	1.11.655
com.amazonaws	aws-java-sdk-lambda	1.11.655
com.amazonaws	aws-java-sdk-logs	1.11.655
com.amazonaws	aws-java-sdk-machinelearning	1.11.655
com.amazonaws	aws-java-sdk-opsworks	1.11.655
com.amazonaws	aws-java-sdk-rds	1.11.655
com.amazonaws	aws-java-sdk-redshift	1.11.655
com.amazonaws	aws-java-sdk-route53	1.11.655
com.amazonaws	aws-java-sdk-s3	1.11.655
com.amazonaws	aws-java-sdk-ses	1.11.655
com.amazonaws	aws-java-sdk-simpledb	1.11.655
com.amazonaws	aws-java-sdk-simpleworkflow	1.11.655
com.amazonaws	aws-java-sdk-sns	1.11.655
com.amazonaws	aws-java-sdk-sqs	1.11.655
com.amazonaws	aws-java-sdk-ssm	1.11.655
com.amazonaws	aws-java-sdk-storagegateway	1.11.655
com.amazonaws	aws-java-sdk-sts	1.11.655
com.amazonaws	aws-java-sdk-support	1.11.655
com.amazonaws	aws-java-sdk-swf-libraries	1.11.22
com.amazonaws	aws-java-sdk-workspaces	1.11.655
com.amazonaws	jmespath-java	1.11.655
com.chuusai	shapeless_2.12	2.3.3
com.clearspring.analytics	fluxo	2.9.6
com.databricks	Rserve	1.8-3
com.databricks	jets3t	0.7.1-0
com.databricks.scalapb	compilerplugin_2.12	0.4.15-10
com.databricks.scalapb	scalapb-runtime_2.12	0.4.15-10
com.esotericsoftware	kryo-shaded	4.0.2
com.esotericsoftware	minlog	1.3.0
com.fasterxml	classmate	1.3.4
com.fasterxml.jackson.core	jackson-annotations	2.10.0
com.fasterxml.jackson.core	jackson-core	2.10.0
com.fasterxml.jackson.core	jackson-databind	2.10.0
com.fasterxml.jackson.dataformat	jackson-dataformat-cbor	2.10.0
com.fasterxml.jackson.datatype	jackson-datatype-joda	2.10.0
com.fasterxml.jackson.module	jackson-module-paranamer	2.10.0
com.fasterxml.jackson.module	jackson-module-scala_2.12	2.10.0
com.github.ben-manes.caffeine	caffeine	2.3.4
com.github.fommil	jniloader	1,1
com.github.fommil.netlib	core	1.1.2
com.github.fommil.netlib	native_ref-java	1,1
com.github.fommil.netlib	native_ref-java-natives	1,1
com.github.fommil.netlib	native_system-java	1,1
com.github.fommil.netlib	native_system-java-natives	1,1
com.github.fommil.netlib	netlib-native_ref-linux-x86_64-natives	1,1
com.github.fommil.netlib	netlib-native_system-linux-x86_64-natives	1,1
com.github.joshelser	dropwizard-metrics-hadoop-metrics2-reporter	0.1.2
com.github.luben	zstd-jni	1.4.4-3
com.github.wendykierp	JTransforms	3.1
com.google.code.findbugs	jsr305	3.0.0
com.google.code.gson	gson	2.2.4
com.google.flatbuffers	flatbuffers-java	1.9.0
com.google.guava	guava	15.0
com.google.protobuf	protobuf-java	2.6.1
com.h2database	h2	1.4.195
com.helger	profiler	1.1.1
com.jcraft	jsch	0.1.50
com.jolbox	bonecp	0.8.0.RELEASE
com.microsoft.azure	azure-data-lake-store-sdk	2.2.8
com.microsoft.sqlserver	mssql-jdbc	8.2.1.jre8
com.ning	compress-lzf	1.0.3
com.sun.mail	javax.mail	1.5.2
com.tdunning	json	1.8
com.thoughtworks.paranamer	paranamer	2.8
com.trueaccord.lenses	lenses_2.12	0.4.12
com.twitter	chill-java	0.9.5
com.twitter	chill_2.12	0.9.5
com.twitter	util-app_2.12	7.1.0
com.twitter	util-core_2.12	7.1.0
com.twitter	util-function_2.12	7.1.0
com.twitter	util-jvm_2.12	7.1.0
com.twitter	util-lint_2.12	7.1.0
com.twitter	util-registry_2.12	7.1.0
com.twitter	util-stats_2.12	7.1.0
com.typesafe	config	1.2.1
com.typesafe.scala-logging	scala-logging_2.12	3.7.2
com.univocity	univocity-parsers	2.8.3
com.zaxxer	HikariCP	3.1.0
commons-beanutils	commons-beanutils	1.9.4
commons-cli	commons-cli	1,2
commons-codec	commons-codec	1,10
commons-collections	commons-collections	3.2.2
commons-configuration	commons-configuration	1.6
commons-dbcp	commons-dbcp	1.4
commons-digester	commons-digester	1.8
commons-fileupload	commons-fileupload	1.3.3
commons-httpclient	commons-httpclient	3.1
commons-io	commons-io	2.4
commons-lang	commons-lang	2.6
commons-logging	commons-logging	1.1.3
commons-net	commons-net	3.1
commons-pool	commons-pool	1.5.4
info.ganglia.gmetric4j	gmetric4j	1.0.10
io.airlift	aircompressor	0.10
io.dropwizard.metrics	metrics-core	4.1.1
io.dropwizard.metrics	metrics-graphite	4.1.1
io.dropwizard.metrics	metrics-healthchecks	4.1.1
io.dropwizard.metrics	metrics-jetty9	4.1.1
io.dropwizard.metrics	metrics-jmx	4.1.1
io.dropwizard.metrics	metrics-json	4.1.1
io.dropwizard.metrics	metrics-jvm	4.1.1
io.dropwizard.metrics	metrics-servlets	4.1.1
io.netty	netty-all	4.1.47.Final
jakarta.annotation	jakarta.annotation-api	1.3.5
jakarta.validation	jakarta.validation-api	2.0.2
jakarta.ws.rs	jakarta.ws.rs-api	2.1.6
javax.activation	activation	1.1.1
javax.el	javax.el-api	2.2.4
javax.jdo	jdo-api	3.0.1
javax.servlet	javax.servlet-api	3.1.0
javax.servlet.jsp	jsp-api	2.1
javax.transaction	jta	1,1
javax.transaction	transaction-api	1,1
javax.xml.bind	jaxb-api	2.2.2
javax.xml.stream	stax-api	1.0-2
javolution	javolution	5.5.1
jline	jline	2.14.6
joda-time	joda-time	2.10.5
log4j	apache-log4j-extras	1.2.17
log4j	log4j	1.2.17
net.razorvine	pyrolite	4.30
net.sf.jpam	jpam	1,1
net.sf.opencsv	opencsv	2.3
net.sf.supercsv	super-csv	2.2.0
net.snowflake	snowflake-ingest-sdk	0.9.6
net.snowflake	snowflake-jdbc	3.12.0
net.snowflake	spark-snowflake_2.12	2.5.9-spark_2.4
net.sourceforge.f2j	arpack_combined_all	0,1
org.acplt.remotetea	remotetea-oncrpc	1.1.2
org.antlr	ST4	4.0.4
org.antlr	antlr-runtime	3.5.2
org.antlr	antlr4-runtime	4.7.1
org.antlr	stringtemplate	3.2.1
org.apache.ant	ant	1.9.2
org.apache.ant	ant-jsch	1.9.2
org.apache.ant	ant-launcher	1.9.2
org.apache.arrow	arrow-format	0.15.1
org.apache.arrow	arrow-memory	0.15.1
org.apache.arrow	arrow-vector	0.15.1
org.apache.avro	avro	1.8.2
org.apache.avro	avro-ipc	1.8.2
org.apache.avro	avro-mapred-hadoop2	1.8.2
org.apache.commons	commons-compress	1.8.1
org.apache.commons	commons-crypto	1.0.0
org.apache.commons	commons-lang3	3.9
org.apache.commons	commons-math3	3.4.1
org.apache.commons	commons-text	1.6
org.apache.curator	curator-client	2.7.1
org.apache.curator	curator-framework	2.7.1
org.apache.curator	curator-recipes	2.7.1
org.apache.derby	derby	10.12.1.1
org.apache.directory.api	api-asn1-api	1.0.0-M20
org.apache.directory.api	api-util	1.0.0-M20
org.apache.directory.server	apacheds-i18n	2.0.0-M15
org.apache.directory.server	apacheds-kerberos-codec	2.0.0-M15
org.apache.hadoop	hadoop-annotations	2.7.4
org.apache.hadoop	hadoop-auth	2.7.4
org.apache.hadoop	hadoop-client	2.7.4
org.apache.hadoop	hadoop-common	2.7.4
org.apache.hadoop	hadoop-hdfs	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-app	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-common	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-core	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-jobclient	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-shuffle	2.7.4
org.apache.hadoop	hadoop-yarn-api	2.7.4
org.apache.hadoop	hadoop-yarn-client	2.7.4
org.apache.hadoop	hadoop-yarn-common	2.7.4
org.apache.hadoop	hadoop-yarn-server-common	2.7.4
org.apache.hive	hive-beeline	2.3.7
org.apache.hive	hive-cli	2.3.7
org.apache.hive	hive-common	2.3.7
org.apache.hive	hive-exec-core	2.3.7
org.apache.hive	hive-jdbc	2.3.7
org.apache.hive	hive-llap-client	2.3.7
org.apache.hive	hive-llap-common	2.3.7
org.apache.hive	hive-metastore	2.3.7
org.apache.hive	hive-serde	2.3.7
org.apache.hive	hive-shims	2.3.7
org.apache.hive	hive-storage-api	2.7.1
org.apache.hive	hive-vector-code-gen	2.3.7
org.apache.hive.shims	hive-shims-0.23	2.3.7
org.apache.hive.shims	hive-shims-common	2.3.7
org.apache.hive.shims	hive-shims-scheduler	2.3.7
org.apache.htrace	htrace-core	3.1.0-incubating
org.apache.httpcomponents	httpclient	4.5.6
org.apache.httpcomponents	httpcore	4.4.12
org.apache.ivy	ivy	2.4.0
org.apache.orc	orc-core	1.5.10
org.apache.orc	orc-mapreduce	1.5.10
org.apache.orc	orc-shims	1.5.10
org.apache.parquet	parquet-column	1.10.1.2-databricks4
org.apache.parquet	parquet-common	1.10.1.2-databricks4
org.apache.parquet	parquet-encoding	1.10.1.2-databricks4
org.apache.parquet	parquet-format	2.4.0
org.apache.parquet	parquet-hadoop	1.10.1.2-databricks4
org.apache.parquet	parquet-jackson	1.10.1.2-databricks4
org.apache.thrift	libfb303	0.9.3
org.apache.thrift	libthrift	0.12.0
org.apache.velocity	velocity	1.5
org.apache.xbean	xbean-asm7-shaded	4.15
org.apache.yetus	audience-annotations	0.5.0
org.apache.zookeeper	zookeeper	3.4.14
org.codehaus.jackson	jackson-core-asl	1.9.13
org.codehaus.jackson	jackson-jaxrs	1.9.13
org.codehaus.jackson	jackson-mapper-asl	1.9.13
org.codehaus.jackson	jackson-xc	1.9.13
org.codehaus.janino	commons-compiler	3.0.16
org.codehaus.janino	janino	3.0.16
org.datanucleus	datanucleus-api-jdo	4.2.4
org.datanucleus	datanucleus-core	4.1.17
org.datanucleus	datanucleus-rdbms	4.1.19
org.datanucleus	javax.jdo	3.2.0-m3
org.eclipse.jetty	jetty-client	9.4.18.v20190429
org.eclipse.jetty	jetty-continuation	9.4.18.v20190429
org.eclipse.jetty	jetty-http	9.4.18.v20190429
org.eclipse.jetty	jetty-io	9.4.18.v20190429
org.eclipse.jetty	jetty-jndi	9.4.18.v20190429
org.eclipse.jetty	jetty-plus	9.4.18.v20190429
org.eclipse.jetty	jetty-proxy	9.4.18.v20190429
org.eclipse.jetty	jetty-security	9.4.18.v20190429
org.eclipse.jetty	jetty-server	9.4.18.v20190429
org.eclipse.jetty	jetty-servlet	9.4.18.v20190429
org.eclipse.jetty	jetty-servlets	9.4.18.v20190429
org.eclipse.jetty	jetty-util	9.4.18.v20190429
org.eclipse.jetty	jetty-webapp	9.4.18.v20190429
org.eclipse.jetty	jetty-xml	9.4.18.v20190429
org.fusesource.leveldbjni	leveldbjni-all	1.8
org.glassfish.hk2	hk2-api	2.6.1
org.glassfish.hk2	hk2-locator	2.6.1
org.glassfish.hk2	hk2-utils	2.6.1
org.glassfish.hk2	osgi-resource-locator	1.0.3
org.glassfish.hk2.external	aopalliance-repackaged	2.6.1
org.glassfish.hk2.external	jakarta.inject	2.6.1
org.glassfish.jersey.containers	jersey-container-servlet	2.30
org.glassfish.jersey.containers	jersey-container-servlet-core	2.30
org.glassfish.jersey.core	jersey-client	2.30
org.glassfish.jersey.core	jersey-common	2.30
org.glassfish.jersey.core	jersey-server	2.30
org.glassfish.jersey.inject	jersey-hk2	2.30
org.glassfish.jersey.media	jersey-media-jaxb	2.30
org.hibernate.validator	hibernate-validator	6.1.0.Final
org.javassist	javassist	3.25.0-GA
org.jboss.logging	jboss-logging	3.3.2.Final
org.jdbi	jdbi	2.63.1
org.joda	joda-convert	1,7
org.jodd	jodd-core	3.5.2
org.json4s	json4s-ast_2.12	3.6.6
org.json4s	json4s-core_2.12	3.6.6
org.json4s	json4s-jackson_2.12	3.6.6
org.json4s	json4s-scalap_2.12	3.6.6
org.lz4	lz4-java	1.7.1
org.mariadb.jdbc	mariadb-java-client	2.1.2
org.objenesis	objenesis	2.5.1
org.postgresql	postgresql	42.1.4
org.roaringbitmap	RoaringBitmap	0.7.45
org.roaringbitmap	shims	0.7.45
org.rocksdb	rocksdbjni	6.2.2
org.rosuda.REngine	REngine	2.1.0
org.scala-lang	scala-compiler_2.12	2.12.10
org.scala-lang	scala-library_2.12	2.12.10
org.scala-lang	scala-reflect_2.12	2.12.10
org.scala-lang.modules	scala-collection-compat_2.12	2.1.1
org.scala-lang.modules	scala-parser-combinators_2.12	1.1.2
org.scala-lang.modules	scala-xml_2.12	1.2.0
org.scala-sbt	test-interface	1,0
org.scalacheck	scalacheck_2.12	1.14.2
org.scalactic	scalactic_2.12	3.0.8
org.scalanlp	breeze-macros_2.12	1,0
org.scalanlp	breeze_2.12	1,0
org.scalatest	scalatest_2.12	3.0.8
org.slf4j	jcl-over-slf4j	1.7.30
org.slf4j	jul-to-slf4j	1.7.30
org.slf4j	slf4j-api	1.7.30
org.slf4j	slf4j-log4j12	1.7.30
org.spark-project.spark	unused	1.0.0
org.springframework	spring-core	4.1.4.RELEASE
org.springframework	spring-test	4.1.4.RELEASE
org.threeten	threeten-extra	1.5.0
org.tukaani	xz	1.5
org.typelevel	algebra_2.12	2.0.0-M2
org.typelevel	cats-kernel_2.12	2.0.0-M4
org.typelevel	machinist_2.12	0.6.8
org.typelevel	macro-compat_2.12	1.1.1
org.typelevel	spire-macros_2.12	0.17.0-M1
org.typelevel	spire-platform_2.12	0.17.0-M1
org.typelevel	spire-util_2.12	0.17.0-M1
org.typelevel	spire_2.12	0.17.0-M1
org.xerial	sqlite-jdbc	3.8.11.2
org.xerial.snappy	snappy-java	1.1.7.5
org.yaml	snakeyaml	1,24
oro	oro	2.0.8
pl.edu.icm	JLargeArrays	1.5
software.amazon.ion	ion-java	1.0.2
stax	stax-api	1.0.1
xmlenc	xmlenc	0.52

Compartilhar via

Databricks Runtime 7.0 (EoS)

Novos recursos

Aprimoramentos

Principais alterações na biblioteca

Pacotes do Python

Pacotes R

Bibliotecas do Java e do Scala

Alterações de comportamento

Outras alterações do Spark

Outras alterações de comportamento

Desativações e remoções

Apache Spark

Nesta seção:

Core, Spark SQL, Fluxo estruturado

Destaques

Aprimoramentos de desempenho

Aprimoramentos de extensibilidade

Aprimoramentos do conector

Aprimoramentos de recursos

Aprimoramentos na compatibilidade com o SQL

Aprimoramentos de monitoramento e depuração

Aprimoramentos do PySpark

Aprimoramentos de cobertura de documentação e teste

Outras alterações importantes

Alterações de comportamento para Spark core, Spark SQL e Streaming Estruturado

MLlib

Destaques

Alterações de comportamento para MLlib

SparkR

Alterações de comportamento para SparkR

Desativações

Problemas conhecidos

Atualizações de manutenção

Ambiente do sistema

Bibliotecas Python instaladas

Bibliotecas R instaladas

Bibliotecas do Java e do Scala instaladas (versão do cluster Scala 2.12)

Comentários

Recursos adicionais