Databricks Runtime 7.0 (EoS)
Observação
O suporte para esta versão do Databricks Runtime foi encerrado. Para obter a data de fim do suporte, consulte o Histórico de fim do suporte. Para todas as versões compatíveis do Databricks Runtime, consulte Versões e compatibilidade de notas sobre a versão do Databricks Runtime.
O Databricks lançou essa versão em junho de 2020.
As notas sobre a versão a seguir fornecem informações sobre o Databricks Runtime 7.0, da plataforma Apache Spark 3.0.
Novos recursos
O Databricks Runtime 7.0 inclui os seguintes novos recursos:
Scala 2.12
O Databricks Runtime 7.0 atualiza o Scala de 2.11.12 para 2.12.10. A lista de alterações entre Scala 2.12 e 2.11 está nas notas de versão do Scala 2.12.0.
O Carregador Automático (Visualização Pública), lançado no Databricks Runtime 6.4, foi aprimorado no Databricks Runtime 7.0
O Carregador Automático oferece uma forma mais eficiente de processar novos arquivos de dados de maneira incremental conforme eles chegam em um armazenamento de blobs de nuvem durante o ETL. Esse é um aprimoramento em relação ao streaming estruturado baseado em arquivo, que identifica novos arquivos listando repetidamente o diretório de nuvem e acompanhando os arquivos que foram vistos e que pode ser muito ineficiente à medida que o diretório cresce. O Carregador Automático também é mais conveniente e eficaz do que o streaming estruturado baseado em notificação de arquivo, o que exige que você configure manualmente os serviços de notificação de arquivo na nuvem e não permite que você faça o provisionamento dos arquivos existentes. Para ver detalhes, confira O que é o Carregador Automático?.
No Databricks Runtime 7.0, você não precisa mais solicitar uma imagem Databricks Runtime personalizada para usar o Carregador Automático.
COPY INTO
(Visualização Pública), que permite carregar dados no Delta Lake com as recuperações idempotentes, foi melhorada com o Databricks Runtime 7.0Lançado como uma visualização pública no Databricks Runtime 6.4, o comando SQL
COPY INTO
permite carregar dados no Delta Lake com as recuperações idempotentes. Para carregar dados no Delta Lake hoje, você precisa usar a API de DataFrame do Apache Spark. Se houver falhas durante as cargas, você precisará lidar com elas com eficiência. O novo comandoCOPY INTO
fornece uma interface declarativa conhecida carregarem os dados no SQL. O comando mantém o controle dos arquivos já carregados, e você o executa com segurança em caso de falhas. Para obter detalhes, consulte COPY INTO.
Aprimoramentos
Azure Synapse (anteriormente SQL Data Warehouse) dá suporte à instrução
COPY
.O principal benefício do
COPY
é que os usuários com privilégios inferiores podem gravar dados em Azure Synapse sem a necessidade de permissõesCONTROL
estritas no Azure Synapse.O comando magic
%matplotlib inline
não é mais necessário para exibir display Matplolib em linha em células do notebook. Elas são sempre exibidas em linha por padrão.As figuras matplolib agora são renderizadas com
transparent=False
, de modo que as origens especificadas pelo usuário não sejam perdidas. Esse comportamento pode ser substituído definindo a configuração do Sparkspark.databricks.workspace.matplotlib.transparent true
.Ao executar trabalhos de produção de fluxo estruturado em clusters em modo de alta simultaneidade, as reinicializações de um trabalho ocasionalmente falharão, pois o trabalho anteriormente em execução não foi encerrado corretamente. O Databricks Runtime 6.3 introduziu a capacidade de definir a configuração de SQL
spark.sql.streaming.stopActiveRunOnRestart true
no cluster para garantir que a execução anterior seja interrompida. Essa configuração é definida por padrão Databricks Runtime 7.0.
Principais alterações na biblioteca
Pacotes do Python
Principais pacotes do Python atualizados:
- boto3 1.9.162 -> 1.12.0
- matplotlib 3.0.3 -> 3.1.3
- numpy 1.16.2 -> 1.18.1
- pandas 0.24.2 -> 1.0.1
- pip 19.0.3 -> 20.0.2
- pyarrow 0.13.0 -> 0.15.1
- psycopg2 2.7.6 -> 2.8.4
- scikit-learn 0.20.3 -> 0.22.1
- scipy 1.2.1 -> 1.4.1
- seaborn 0.9.0 -> 0.10.0
Pacotes do Python removidos:
- boto (use boto3)
- pycurl
Observação
O ambiente Python no Databricks Runtime 7.0 usa o Python 3.7, que é diferente do python do sistema Ubuntu instalado: /usr/bin/python
e /usr/bin/python2
estão vinculados ao Python 2.7 e /usr/bin/python3
está vinculado ao Python 3.6.
Pacotes R
Pacotes R adicionados:
- broom
- highr
- isoband
- knitr
- markdown
- modelr
- reprex
- rmarkdown
- rvest
- selectr
- tidyverse
- tinytex
- xfun
Pacotes R removidos:
- abind
- bitops
- carro
- carData
- doMC
- gbm
- h2o
- littler
- lme4
- mapproj
- mapas
- maptools
- MatrixModels
- minqa
- mvtnorm
- nloptr
- openxlsx
- pbkrtest
- pkgKitten
- quantreg
- R.methodsS3
- R.oo
- R.utils
- RcppEigen
- RCurl
- rio
- sp
- SparseM
- statmod
- zip
Bibliotecas do Java e do Scala
- Apache Hive versão usada para lidar com funções definidas pelo usuário do Hive e Hive SerDes atualizados para a versão 2.3.
- Anteriormente, jars de Armazenamento do Azure e Key Vault eram empacotados como parte do Databricks Runtime, o que impediria o uso de diferentes versões dessas bibliotecas anexadas a clusters. Classes em
com.microsoft.azure.storage
ecom.microsoft.azure.keyvault
não estão mais no caminho de classe em Databricks Runtime. Se você depender de qualquer um desses caminhos de classe, agora deverá anexar o SDK do Armazenamento do Microsoft Azure ou do Azure Key Vault aos seus clusters.
Alterações de comportamento
Esta seção lista as alterações de comportamento de Databricks Runtime 6.6 para Databricks Runtime 7.0. Você deve estar ciente deles ao migrar cargas de trabalho de versões inferiores Databricks Runtime para Databricks Runtime 7.0 e superior.
Outras alterações do Spark
Como Databricks Runtime 7.0 é o primeiro Databricks Runtime criado no Spark 3.0, há muitas alterações que você deve conhecer ao migrar cargas de trabalho de Databricks Runtime 5.5 LTS ou 6.x, que são criadas no Spark 2.4. Essas alterações são listadas na seção "alterações de comportamento" de cada área funcional na seção Apache Spark deste artigo de notas de versão:
- Alterações de comportamento para Spark core, Spark SQL e Streaming Estruturado
- Alterações de comportamento para MLlib
- Alterações de comportamento para SparkR
Outras alterações de comportamento
A atualização para o Scala 2.12 envolve as seguintes alterações:
A serialização de célula do pacote é tratada de forma diferente. O exemplo a seguir ilustra a alteração de comportamento e como tratá-la.
A execução de
foo.bar.MyObjectInPackageCell.run()
conforme definido na célula do pacote a seguir disparará o errojava.lang.NoClassDefFoundError: Could not initialize class foo.bar.MyObjectInPackageCell$
package foo.bar case class MyIntStruct(int: Int) import org.apache.spark.sql.SparkSession import org.apache.spark.sql.functions._ import org.apache.spark.sql.Column object MyObjectInPackageCell extends Serializable { // Because SparkSession cannot be created in Spark executors, // the following line triggers the error // Could not initialize class foo.bar.MyObjectInPackageCell$ val spark = SparkSession.builder.getOrCreate() def foo: Int => Option[MyIntStruct] = (x: Int) => Some(MyIntStruct(100)) val theUDF = udf(foo) val df = { val myUDFInstance = theUDF(col("id")) spark.range(0, 1, 1, 1).withColumn("u", myUDFInstance) } def run(): Unit = { df.collect().foreach(println) } }
Para contornar esse erro, você pode encapsular
MyObjectInPackageCell
dentro de uma classe serializável.Determinados casos que usam
DataStreamWriter.foreachBatch
exigirão uma atualização do código-fonte. Essa alteração ocorre devido ao fato de que o Scala 2.12 tem conversão automática de expressões lambda em tipos SAM e pode causar ambiguidade.Por exemplo, o seguinte código Scala não pode ser compilado:
streams .writeStream .foreachBatch { (df, id) => myFunc(df, id) }
Para corrigir o erro de compilação, altere
foreachBatch { (df, id) => myFunc(df, id) }
paraforeachBatch(myFunc _)
ou use a API Java explicitamente:foreachBatch(new VoidFunction2 ...)
.
Como a versão do Apache Hive usada para lidar com funções definidas pelo usuário do Hive e SerDes do Hive é atualizada para 2.3, duas alterações são necessárias:
- A interface
SerDe
do Hive é substituída por uma classe abstrataAbstractSerDe
. Para qualquer implementaçãoSerDe
personalizada do Hive, a migração paraAbstractSerDe
é obrigatória. - A definição de
spark.sql.hive.metastore.jars
comobuiltin
significa que o cliente de metastore do Hive 2.3 será usado para acessar metastores para o Databricks Runtime 7.0. Se você precisar acessar metastores externos baseados no Hive 1.2, definaspark.sql.hive.metastore.jars
como a pasta que contém jars do Hive 1.2.
- A interface
Desativações e remoções
- O índice que ignora dados foi preterido no Databricks Runtime 4.3 e removido no Databricks Runtime 7.0. Recomendamos usar tabelas Delta no lugar, pois oferecem recursos aprimorados de omissão de dados.
- No Databricks Runtime 7.0, a versão subjacente do Apache Spark usa o Scala 2.12. Como as bibliotecas compiladas no Scala 2.11 podem desabilitar os clusters do Databricks Runtime 7.0 de maneiras inesperadas, os clusters que executam o Databricks Runtime 7.0 e superior não instalam bibliotecas configuradas para serem instaladas em todos os clusters. A guia Bibliotecas do cluster mostra um status
Skipped
e uma mensagem de obsolescência que explica as alterações no tratamento da biblioteca. No entanto, se você tiver um cluster criado em uma versão anterior do Databricks Runtime antes da versão da plataforma do Azure Databricks 3.20 ser lançada em seu espaço de trabalho, e agora editar esse cluster para usar o Databricks Runtime 7.0, todas as bibliotecas que foram configuradas para serem instaladas em todos os clusters serão instaladas naquele cluster. Nesse caso, quaisquer JARs incompatíveis nas bibliotecas instaladas podem fazer com que o cluster seja desabilitado. A solução alternativa é clonar o cluster ou criar um novo cluster.
Apache Spark
O Databricks Runtime 7.0 inclui o Apache Spark 3.0.
Nesta seção:
Core, Spark SQL, Fluxo estruturado
Destaques
- (Project Hydrogen) Agendador com reconhecimento de acelerador (SPARK-24615)
- Execução de consulta adaptável (SPARK-31412)
- Remoção de partição dinâmica (SPARK-11150)
- API do UDF do pandas remodelada com dicas de tipo (Spark-28264)
- Interface do usuário de fluxo estruturado (Spark-29543)
- API de plug-in de catálogo (SPARK-31121)
- Melhor compatibilidade com SQL ANSI
Aprimoramentos de desempenho
- Execução de consulta adaptável (SPARK-31412)
- Estrutura básica (SPARK-23128)
- Pós-ajuste de número de partição em ordem aleatória (SPARK-28177)
- Reutilização de subconsulta dinâmica (SPARK-28753)
- Leitor de ordem aleatória local (SPARK-28560)
- Otimização de junção de distorção (SPARK-29544)
- Otimizar a leitura de blocos de ordem aleatória contígua (SPARK-9853)
- Remoção de partição dinâmica (SPARK-11150)
- Outras regras do otimizador
- Regra ReuseSubquery (SPARK-27279)
- Regra PushDownLeftSemiAntiJoin (SPARK-19712)
- Regra PushLeftSemiLeftAntiThroughJoin (SPARK-19712)
- Regra ReplaceNullWithFalse (SPARK-25860)
- A regra elimina as classificações sem limite na subconsulta de junção/agregação (SPARK-29343)
- Regra PruneHiveTablePartitions (SPARK-15616)
- Removendo campos aninhados desnecessários da geração (SPARK-27707)
- Regra RewriteNonCorrelatedExists (SPARK-29800)
- Minimizar os custos de sincronização do cache de tabela (SPARK-26917), (SPARK-26617), (SPARK-26548)
- Dividir o código de agregação em funções pequenas(SPARK-21870)
- Adicionar envio em lote no comando INSERT e ALTER TABLE ADD PARTITION (SPARK-29938)
Aprimoramentos de extensibilidade
- API de plug-in de catálogo (SPARK-31121)
- Refatoração da API da fonte de dados V2 (Spark-25390)
- Suporte ao metastore do Hive 3.0 e 3.1 (SPARK-27970),(SPARK-24360)
- Estender a interface de plug-in do Spark para o driver (SPARK-29396)
- Estender o sistema de métricas do Spark com métricas definidas pelo usuário usando plug-ins de executor (SPARK-28091)
- APIs de desenvolvedor para Suporte de Processamento de Coluna estendida (SPARK-27396)
- Migração de origem interna usando DSV2: parquet, ORC, CSV, JSON, Kafka, Text, Avro (SPARK-27589)
- Permitir FunctionInjection no SparkExtensions (SPARK-25560)
- Permite que o Agregador seja registrado como um UDAF (SPARK-27296)
Aprimoramentos do conector
- Remoção de coluna por expressões não determinísticas (SPARK-29768)
- Suporte
spark.sql.statistics.fallBackToHdfs
em tabelas de fontes de dados (SPARK-25474) - Permitir remoção de partição com filtros de subconsulta na origem do arquivo (SPARK-26893)
- Evitar aplicação de subconsultas em filtros de fonte de dados (SPARK-25482)
- Carregamento recursivo de dados de fontes de arquivo (SPARK-27990)
- Parquet/ORC
- Aplicação de predicados disjuntivos (SPARK-27699)
- Generalizar a remoção de colunas aninhadas (SPARK-25603) e ativadas por padrão (SPARK-29805)
- Somente parquet
- Pushdown de predicado parquet para campos aninhados (SPARK-17636)
- Somente ORC
- Suporte ao esquema de mesclagem para ORC (SPARK-11412)
- Remoção de esquema aninhado para ORC (SPARK-27034)
- Redução da complexidade de conversão de predicado para ORC (SPARK-27105, SPARK-28108)
- Atualização do Apache ORC para 1.5.9 (SPARK-30695)
- CSV
- Suporte ao pushdown de filtros na fonte de dados CSV (SPARK-30323)
- Hive SerDe
- Nenhuma inferência de esquema ao ler a tabela Hive serde com fonte de dados nativa (SPARK-27119)
- Os comandos CTAS do Hive devem usar a fonte de dados se ela for conversível (SPARK-25271)
- Uso de fonte de dados nativa para otimizar a inserção da tabela do Hive particionada (SPARK-28573)
- Apache Kafka
- Adição de suporte para os cabeçalhos do Kafka (SPARK-23539)
- Adição de suporte a token de delegação do Kafka (SPARK-25501)
- Introdução da nova opção para a origem do Kafka: deslocamento por data/hora (iniciando/terminando) (SPARK-26848)
- Dar suporte à opção
minPartitions
na origem do lote do Kafka e na fonte de streaming v1 (SPARK-30656) - Atualização do Kafka para 2.4.1 (SPARK-31126)
- Novas origens de dados incorporadas
- Novas fontes de dados de arquivo binário (SPARK-25348)
- Novas fontes de dados em lote não operacionais (SPARK-26550) e o coletor de streaming não operacional (SPARK-26649)
Aprimoramentos de recursos
- [Hydrogen] Agendador com reconhecimento de acelerador (SPARK-24615)
- Introduzir um conjunto completo de dicas de junção (SPARK-27225)
- Adicionar dica
PARTITION BY
para consultas SQL (SPARK-28746) - Tratamento de metadados no servidor Thrift (SPARK-28426)
- Adicionar funções de ordem superior à API scala (SPARK-27297)
- Dar suporte a coletas simples no contexto da tarefa de barreira (SPARK-30667)
- As UDFs do Hive são compatíveis com o tipo UDT (SPARK-28158)
- Suporte a Operadores DELETE/UPDATE/MERGE no Catalyst (SPARK-28351, SPARK-28892, SPARK-28893)
- Implementar DataFrame.tail (SPARK-30185)
- Novas funções internas
- sinh, cosh, tanh, asinh, acosh, atanh (SPARK-28133)
- any, every, some (SPARK-19851)
- bit_and, bit_or (SPARK-27879)
- bit_count (SPARK-29491)
- bit_xor (SPARK-29545)
- bool_and, bool_or (SPARK-30184)
- count_if (SPARK-27425)
- date_part (SPARK-28690)
- extract (SPARK-23903)
- forall (SPARK-27905)
- from_csv (SPARK-25393)
- make_date (SPARK-28432)
- make_interval (SPARK-29393)
- make_timestamp (SPARK-28459)
- map_entries (SPARK-23935)
- map_filter (SPARK-23937)
- map_zip_with (SPARK-23938)
- max_by, min_by (SPARK-27653)
- schema_of_csv (SPARK-25672)
- to_csv (SPARK-25638)
- transform_keys (SPARK-23939)
- transform_values (SPARK-23940)
- typeof (SPARK-29961)
- version (SPARK-29554)
- xxhash64 (SPARK-27099)
- Melhorias em funções existentes
- Melhoria de funções/operações de data/hora (SPARK-31415)
- Modo
FAILFAST
de suporte parafrom_json
(SPARK-25243) array_sort
adiciona um novo parâmetro comparador(SPARK-29020)- O filtro agora pode usar o índice como entrada, bem como o elemento (SPARK-28962)
Aprimoramentos na compatibilidade com o SQL
- Alternar para calendário Gregoriano Proléptico (SPARK-26651)
- Criar a própria definição de padrão de data e hora do Spark (SPARK-31408)
- Introdução de política de atribuição de armazenamento ANSI para inserção de tabela (SPARK-28495)
- Seguir a regra de atribuição de armazenamento ANSI na inserção de tabela por padrão (SPARK-28885)
- Adicionar um SQLConf
spark.sql.ansi.enabled
(SPARK-28989) - Dar suporte à cláusula de filtro SQL ANSI para expressão de agregação (SPARK-27986)
- Dar suporte à função SQL
OVERLAY
ANSI (SPARK-28077) - Suporte aos comentários em colchetes aninhados ANSI (SPARK-28880)
- Lançar exceção no estouro para inteiros (SPARK-26218)
- Verificação de estouro para operações aritméticas de intervalo (SPARK-30341)
- Lançar Exceção quando a cadeia de caracteres inválida é lançada em tipo numérico (SPARK-30292)
- Tornar o comportamento de estouro de intervalo multiplicado e dividido consistente com outras operações (SPARK-30919)
- Adicionar aliases de tipo ANSI para caractere e decimal (SPARK-29941)
- O Analisador SQL define palavras-chave reservadas em conformidade com ANSI (SPARK-26215)
- Proibir palavras-chave reservadas como identificadores quando o modo ANSI estiver em (SPARK-26976)
- Suporte à sintaxe
LIKE ... ESCAPE
SQL ANSI (SPARK-28083) - Suporte à sintaxe SQL de Booliano-Predicado ANSI (SPARK-27924)
- Melhor suporte para processamento de subconsulta correlacionada (SPARK-18455)
Aprimoramentos de monitoramento e depuração
- Nova Interface do Usuário de Fluxo Estruturado (SPARK-29543)
- SHS: permite que os logs de eventos para aplicativos de streaming em execução sejam transferidos (SPARK-28594)
- Adiciona uma API que permite que um usuário defina e observe métricas arbitrárias em consultas de lote e streaming (SPARK-29345)
- Instrumentação para acompanhar o tempo de planejamento por consulta (SPARK-26129)
- Coloca as métricas aleatórias básicas no operador de troca de dados SQL (SPARK-26139)
- A instrução SQL é mostrada na guia SQL em vez do site de chamada (SPARK-27045)
- Adicionar dica de ferramenta ao SparkUI (SPARK-29449)
- Melhorar o desempenho simultâneo do Servidor de Histórico (SPARK-29043)
- Comando
EXPLAIN FORMATTED
(SPARK-27395) - Suporte ao despejo de planos truncados e código gerado para um arquivo (SPARK-26023)
- Aprimorar a estrutura de descrição para descrever a saída de uma consulta (SPARK-26982)
- Adicionar comando
SHOW VIEWS
(SPARK-31113) - Melhorar as mensagens de erro do analisador SQL (SPARK-27901)
- Suporte ao monitoramento do Prometheus de forma nativa (SPARK-29429)
Aprimoramentos do PySpark
- UDFs do Pandas reformuladas com dicas de tipo (SPARK-28264)
- Pipeline de UDF do Pandas (SPARK-26412)
- Suporte a StructType como argumentos e tipos de retorno para a UDF do Pandas do Scalar (SPARK-27240 )
- Suporte ao Dataframe Cogroup por meio de UDFs do Pandas (SPARK-27463)
- Adicionar
mapInPandas
para permitir um iterador de DataFrames (SPARK-28198) - Determinadas SQL funções também devem ter nomes de coluna (SPARK-26979)
- Tornar as exceções do SQL PySpark mais compatíveis com Python (SPARK-31849)
Aprimoramentos de cobertura de documentação e teste
- Compilar uma Referência de SQL (SPARK-28588)
- Compilar um guia do usuário para o WebUI (SPARK-28372)
- Compilar uma página para a documentação de configuração do SQL (SPARK-30510)
- Adicionar informações de versão para a configuração do Spark (Spark-30839)
- Testes de regressão de porta do PostgreSQL (Spark-27763)
- Cobertura de teste do servidor Thrift (SPARK-28608)
- Cobertura de teste de UDFs (UDF do python, UDF de pandas, UDF de escala) (SPARK-27921)
Outras alterações importantes
- Atualização de execução interna do Hive de 1.2.1 para 2.3.6 (SPARK-23710, SPARK-28723, SPARK-31381)
- Usar a dependência Apache Hive 2.3 por padrão (SPARK-30034)
- GA escala 2.12 e remover 2.11 (SPARK-26132)
- Melhorar a lógica para executores de tempo limite em alocação dinâmica (SPARK-20286)
- Blocos de RDD persistentes de disco servidos pelo serviço de ordem aleatória e ignorados para Alocação Dinâmica (SPARK-27677)
- Adquirir novos executores para evitar a interrupção por causa do inclusão na lista de bloqueados (SPARK-22148)
- Permitir o compartilhamento de alocadores de pool de memória do Netty (SPARK-24920)
- Corrigir o deadlock entre
TaskMemoryManager
eUnsafeExternalSorter$SpillableIterator
(SPARK-27338) - Introduzir
AdmissionControl
APIs para StructuredStreaming (SPARK-30669) - Aprimoramento de desempenho da página principal do histórico do Spark (SPARK-25973)
- Acelerar e reduzir a agregação de métrica no ouvinte de SQL (SPARK-29562)
- Evitar a rede quando blocos de ordem aleatória são buscados do mesmo host (SPARK-27651)
- Melhorar a listagem de arquivos para
DistributedFileSystem
(SPARK-27801)
Alterações de comportamento para Spark core, Spark SQL e Streaming Estruturado
Os guias de migração a seguir listam as alterações de comportamento entre Apache Spark 2.4 e 3.0. Essas alterações podem exigir atualizações para os trabalhos que você está executando em versões mais baixas do Databricks Runtime:
- Guia de migração: Spark Core
- Guia de migração: SQL, conjuntos de dados e DataFrame
- Guia de migração: Streaming Estruturado
- Guia de migração: PySpark (Python no Spark)
As seguintes alterações de comportamento não são abordadas nesses guias de migração:
- No Spark 3.0, a classe preterida
org.apache.spark.sql.streaming.ProcessingTime
foi removida. Useorg.apache.spark.sql.streaming.Trigger.ProcessingTime
em vez disso. Da mesma forma,org.apache.spark.sql.execution.streaming.continuous.ContinuousTrigger
foi removido em favor deTrigger.Continuous
eorg.apache.spark.sql.execution.streaming.OneTimeTrigger
foi ocultado em favor deTrigger.Once
. (SPARK-28199) - No Databricks Runtime 7.0, ao ler uma tabela SerDe do Hive, por padrão, o Spark não permite a leitura de arquivos em um subdiretório que não seja uma partição de tabela. Para habilitá-lo, defina a configuração
spark.databricks.io.hive.scanNonpartitionedDirectory.enabled
comotrue
. Isso não afeta os leitores da tabela nativa do Spark e os leitores de arquivo.
MLlib
Destaques
- Suporte a várias colunas foi adicionado ao Binarizer (SPARK-23578), StringIndexer (SPARK-11215), StopWordsRemover (SPARK-29808) e PySpark QuantileDiscretizer (SPARK-22796)
- Suporte à transformação de recursos baseada em árvore (SPARK-13677)
- Dois novos avaliadores MultilabelClassificationEvaluator (SPARK-16692) e RankingEvaluator (SPARK-28045) foram adicionados
- O suporte a pesos de exemplo foi adicionado em DecisionTreeClassifier/Regressor (SPARK-19591), RandomForestClassifier/Regressor (SPARK-9478), GBTClassifier/Regressor (SPARK-9612), RegressionEvaluator (SPARK-24102), BinaryClassificationEvaluator (SPARK-24103), BisectingKMeans (SPARK-30351), KMeans (SPARK-29967) e GaussianMixture (SPARK-30102)
- A API do R para PowerIterationClustering foi adicionada (SPARK-19827)
- Ouvinte do spark ML adicionado para acompanhar o status do pipeline de ML (SPARK-23674)
- A opção de ajustar ao conjunto de validação foi adicionada às árvores aumentadas de gradiente no Python (SPARK-24333)
- Adição do transformador RobustScaler (SPARK-28399)
- Adição do classificador e do regressor das Máquinas de Fatoração (SPARK-29224)
- O Naive Bayes Gaussiano (SPARK-16872) e o Complemento Naive Bayes (SPARK-29942) foram adicionados
- A paridade de função de ML entre Scala e Python (SPARK-28958)
- O predictRaw torna-se público em todos os modelos de Classificação. O predictProbability torna-se público em todos os modelos de classificação, exceto LinearSVCModel (Spark-30358)
Alterações de comportamento para MLlib
O guia de migração a seguir lista as alterações de comportamento entre Apache Spark 2.4 e 3.0. Essas alterações podem exigir atualizações para os trabalhos que você está executando em versões mais baixas do Databricks Runtime:
As seguintes alterações de comportamento não são abordadas no guia de migração:
- No Spark 3.0, uma regressão logística de multiclasse no Pyspark agora retornará (corretamente)
LogisticRegressionSummary
, não a subclasseBinaryLogisticRegressionSummary
. Os métodos adicionais expostos peloBinaryLogisticRegressionSummary
não funcionariam nesse caso, de qualquer forma. (SPARK-31681) - No Spark 3.0,
pyspark.ml.param.shared.Has*
os mixins não fornecem mais nenhum método setterset*(self, value)
; use o respectivoself.set(self.*, value)
. Confira o SPARK-29093 para obter detalhes. (SPARK-29093)
SparkR
- Otimização de seta na interoperabilidade do SparkR (SPARK-26759)
- Aprimoramento de desempenho por meio de R gapply(), dapply(), createDataFrame, collect() vetorizados
- "Execução adiantada" para o R Shell, IDE (SPARK-24572)
- R API para clustering de iteração de energia (SPARK-19827)
Alterações de comportamento para SparkR
O guia de migração a seguir lista as alterações de comportamento entre Apache Spark 2.4 e 3.0. Essas alterações podem exigir atualizações para os trabalhos que você está executando em versões mais baixas do Databricks Runtime:
Desativações
- Suporte ao Python 2 preterido (SPARK-27884)
- Suporte ao R < 3.4 preterido (SPARK-26014)
Problemas conhecidos
- A análise do dia do ano com o uso da letra do padrão “D” retorna o resultado errado quando o campo “ano” está ausente. Isso pode acontecer em funções SQL, como
to_timestamp
, que analisa a cadeia de caracteres datetime como valores datetime usando uma cadeia de caracteres de padrão. (SPARK-31939) - Junção/janela/agregação dentro de subconsultas pode levar a resultados incorretos se as chaves tiverem valores -0,0 e 0,0. (SPARK-31958)
- Uma consulta de janela pode falhar com um erro de autojunção ambíguo inesperadamente. (SPARK-31956)
- As consultas de streaming com operador
dropDuplicates
podem não conseguir reiniciar com o ponto de verificação gravado pelo Spark 2.x. (SPARK-31990)
Atualizações de manutenção
Confira Atualizações de manutenção do Databricks Runtime 7.0.
Ambiente do sistema
- Sistema operacional: Ubuntu 18.04.4 LTS
- Java: 1.8.0_252
- Scala: 2.12.10
- Python: 3.7.5
- R: R versão 3.6.3 (29-02-2020)
- Delta Lake 0.7.0
Bibliotecas Python instaladas
Biblioteca | Versão | Biblioteca | Versão | Biblioteca | Versão |
---|---|---|---|---|---|
asn1crypto | 1.3.0 | backcall | 0.1.0 | boto3 | 1.12.0 |
botocore | 1.15.0 | certifi | 2020.4.5 | cffi | 1.14.0 |
chardet | 3.0.4 | criptografia | 2.8 | cycler | 0.10.0 |
Cython | 0.29.15 | decorator | 4.4.1 | docutils | 0.15.2 |
entrypoints | 0.3 | idna | 2.8 | ipykernel | 5.1.4 |
ipython | 7.12.0 | ipython-genutils | 0.2.0 | jedi | 0.14.1 |
jmespath | 0.9.4 | joblib | 0.14.1 | jupyter-client | 5.3.4 |
jupyter-core | 4.6.1 | kiwisolver | 1.1.0 | matplotlib | 3.1.3 |
numpy | 1.18.1 | pandas | 1.0.1 | parso | 0.5.2 |
patsy | 0.5.1 | pexpect | 4.8.0 | pickleshare | 0.7.5 |
pip | 20.0.2 | prompt-toolkit | 3.0.3 | psycopg2 | 2.8.4 |
ptyprocess | 0.6.0 | pyarrow | 0.15.1 | pycparser | 2.19 |
Pygments | 2.5.2 | PyGObject | 3.26.1 | pyOpenSSL | 19.1.0 |
pyparsing | 2.4.6 | PySocks | 1.7.1 | python-apt | 1.6.5+ubuntu0.3 |
python-dateutil | 2.8.1 | pytz | 2019.3 | pyzmq | 18.1.1 |
solicitações | 2.22.0 | s3transfer | 0.3.3 | scikit-learn | 0.22.1 |
scipy | 1.4.1 | seaborn | 0.10.0 | setuptools | 45.2.0 |
six | 1.14.0 | ssh-import-id | 5.7 | statsmodels | 0.11.0 |
tornado | 6.0.3 | traitlets | 4.3.3 | unattended-upgrades | 0,1 |
urllib3 | 1.25.8 | virtualenv | 16.7.10 | wcwidth | 0.1.8 |
wheel | 0.34.2 |
Bibliotecas R instaladas
As bibliotecas do R foram instaladas por meio do instantâneo do Microsoft CRAN em 22/4/2020.
Biblioteca | Versão | Biblioteca | Versão | Biblioteca | Versão |
---|---|---|---|---|---|
askpass | 1,1 | assertthat | 0.2.1 | backports | 1.1.6 |
base | 3.6.3 | base64enc | 0.1-3 | BH | 1.72.0-3 |
bit | 1.1-15.2 | bit64 | 0.9-7 | blob | 1.2.1 |
boot | 1.3-25 | brew | 1.0-6 | broom | 0.5.6 |
callr | 3.4.3 | sinal de interpolação | 6.0-86 | cellranger | 1.1.0 |
chron | 2.3-55 | classe | 7.3-17 | cli | 2.0.2 |
clipr | 0.7.0 | cluster | 2.1.0 | codetools | 0.2-16 |
colorspace | 1.4-1 | commonmark | 1,7 | compiler | 3.6.3 |
config | 0.3 | covr | 3.5.0 | crayon | 1.3.4 |
crosstalk | 1.1.0.1 | curl | 4.3 | data.table | 1.12.8 |
conjuntos de dados | 3.6.3 | DBI | 1.1.0 | dbplyr | 1.4.3 |
desc | 1.2.0 | devtools | 2.3.0 | digest | 0.6.25 |
dplyr | 0.8.5 | DT | 0.13 | ellipsis | 0.3.0 |
evaluate | 0,14 | fansi | 0.4.1 | farver | 2.0.3 |
fastmap | 1.0.1 | forcats | 0.5.0 | foreach | 1.5.0 |
foreign | 0.8-76 | forge | 0.2.0 | fs | 1.4.1 |
Genéricos | 0.0.2 | ggplot2 | 3.3.0 | gh | 1.1.0 |
git2r | 0.26.1 | glmnet | 3.0-2 | globals | 0.12.5 |
glue | 1.4.0 | gower | 0.2.1 | elemento gráfico | 3.6.3 |
grDevices | 3.6.3 | grade | 3.6.3 | gridExtra | 2.3 |
gsubfn | 0.7 | gtable | 0.3.0 | haven | 2.2.0 |
highr | 0.8 | hms | 0.5.3 | htmltools | 0.4.0 |
htmlwidgets | 1.5.1 | httpuv | 1.5.2 | httr | 1.4.1 |
hwriter | 1.3.2 | hwriterPlus | 1.0-3 | ini | 0.3.1 |
ipred | 0.9-9 | isoband | 0.2.1 | iterators | 1.0.12 |
jsonlite | 1.6.1 | KernSmooth | 2.23-17 | knitr | 1.28 |
labeling | 0.3 | later | 1.0.0 | lattice | 0.20-41 |
lava | 1.6.7 | lazyeval | 0.2.2 | ciclo de vida | 0.2.0 |
lubridate | 1.7.8 | magrittr | 1.5 | markdown | 1,1 |
MASS | 7.3-51.6 | Matriz | 1.2-18 | memoise | 1.1.0 |
methods | 3.6.3 | mgcv | 1.8-31 | mime | 0,9 |
ModelMetrics | 1.2.2.2 | modelr | 0.1.6 | munsell | 0.5.0 |
nlme | 3.1-147 | nnet | 7.3-14 | numDeriv | 2016.8-1.1 |
openssl | 1.4.1 | parallel | 3.6.3 | pillar | 1.4.3 |
pkgbuild | 1.0.6 | pkgconfig | 2.0.3 | pkgload | 1.0.2 |
plogr | 0.2.0 | plyr | 1.8.6 | praise | 1.0.0 |
prettyunits | 1.1.1 | pROC | 1.16.2 | processx | 3.4.2 |
prodlim | 2019.11.13 | progress | 1.2.2 | promises | 1.1.0 |
proto | 1.0.0 | ps | 1.3.2 | purrr | 0.3.4 |
r2d3 | 0.2.3 | R6 | 2.4.1 | randomForest | 4.6-14 |
rappdirs | 0.3.1 | rcmdcheck | 1.3.3 | RColorBrewer | 1.1-2 |
Rcpp | 1.0.4.6 | readr | 1.3.1 | readxl | 1.3.1 |
recipes | 0.1.10 | rematch | 1.0.1 | rematch2 | 2.1.1 |
remotes | 2.1.1 | reprex | 0.3.0 | reshape2 | 1.4.4 |
rex | 1.2.0 | rjson | 0.2.20 | rlang | 0.4.5 |
rmarkdown | 2.1 | RODBC | 1.3-16 | roxygen2 | 7.1.0 |
rpart | 4.1-15 | rprojroot | 1.3-2 | Rserve | 1.8-6 |
RSQLite | 2.2.0 | rstudioapi | 0,11 | rversions | 2.0.1 |
rvest | 0.3.5 | scales | 1.1.0 | selectr | 0.4-2 |
sessioninfo | 1.1.1 | shape | 1.4.4 | shiny | 1.4.0.2 |
sourcetools | 0.1.7 | sparklyr | 1.2.0 | SparkR | 3.0.0 |
spatial | 7.3-11 | splines | 3.6.3 | sqldf | 0.4-11 |
SQUAREM | 2020.2 | stats | 3.6.3 | stats4 | 3.6.3 |
stringi | 1.4.6 | stringr | 1.4.0 | survival | 3.1-12 |
sys | 3.3 | tcltk | 3.6.3 | TeachingDemos | 2,10 |
testthat | 2.3.2 | tibble | 3.0.1 | tidyr | 1.0.2 |
tidyselect | 1.0.0 | tidyverse | 1.3.0 | timeDate | 3043.102 |
tinytex | 0,22 | tools | 3.6.3 | usethis | 1.6.0 |
utf8 | 1.1.4 | utils | 3.6.3 | vctrs | 0.2.4 |
viridisLite | 0.3.0 | whisker | 0,4 | withr | 2.2.0 |
xfun | 0.13 | xml2 | 1.3.1 | xopen | 1.0.0 |
xtable | 1.8-4 | yaml | 2.2.1 |
Bibliotecas do Java e do Scala instaladas (versão do cluster Scala 2.12)
ID do Grupo | Artifact ID | Versão |
---|---|---|
antlr | antlr | 2.7.7 |
com.amazonaws | amazon-kinesis-client | 1.12.0 |
com.amazonaws | aws-java-sdk-autoscaling | 1.11.655 |
com.amazonaws | aws-java-sdk-cloudformation | 1.11.655 |
com.amazonaws | aws-java-sdk-cloudfront | 1.11.655 |
com.amazonaws | aws-java-sdk-cloudhsm | 1.11.655 |
com.amazonaws | aws-java-sdk-cloudsearch | 1.11.655 |
com.amazonaws | aws-java-sdk-cloudtrail | 1.11.655 |
com.amazonaws | aws-java-sdk-cloudwatch | 1.11.655 |
com.amazonaws | aws-java-sdk-cloudwatchmetrics | 1.11.655 |
com.amazonaws | aws-java-sdk-codedeploy | 1.11.655 |
com.amazonaws | aws-java-sdk-cognitoidentity | 1.11.655 |
com.amazonaws | aws-java-sdk-cognitosync | 1.11.655 |
com.amazonaws | aws-java-sdk-config | 1.11.655 |
com.amazonaws | aws-java-sdk-core | 1.11.655 |
com.amazonaws | aws-java-sdk-datapipeline | 1.11.655 |
com.amazonaws | aws-java-sdk-directconnect | 1.11.655 |
com.amazonaws | aws-java-sdk-directory | 1.11.655 |
com.amazonaws | aws-java-sdk-dynamodb | 1.11.655 |
com.amazonaws | aws-java-sdk-ec2 | 1.11.655 |
com.amazonaws | aws-java-sdk-ecs | 1.11.655 |
com.amazonaws | aws-java-sdk-efs | 1.11.655 |
com.amazonaws | aws-java-sdk-elasticache | 1.11.655 |
com.amazonaws | aws-java-sdk-elasticbeanstalk | 1.11.655 |
com.amazonaws | aws-java-sdk-elasticloadbalancing | 1.11.655 |
com.amazonaws | aws-java-sdk-elastictranscoder | 1.11.655 |
com.amazonaws | aws-java-sdk-emr | 1.11.655 |
com.amazonaws | aws-java-sdk-glacier | 1.11.655 |
com.amazonaws | aws-java-sdk-iam | 1.11.655 |
com.amazonaws | aws-java-sdk-importexport | 1.11.655 |
com.amazonaws | aws-java-sdk-kinesis | 1.11.655 |
com.amazonaws | aws-java-sdk-kms | 1.11.655 |
com.amazonaws | aws-java-sdk-lambda | 1.11.655 |
com.amazonaws | aws-java-sdk-logs | 1.11.655 |
com.amazonaws | aws-java-sdk-machinelearning | 1.11.655 |
com.amazonaws | aws-java-sdk-opsworks | 1.11.655 |
com.amazonaws | aws-java-sdk-rds | 1.11.655 |
com.amazonaws | aws-java-sdk-redshift | 1.11.655 |
com.amazonaws | aws-java-sdk-route53 | 1.11.655 |
com.amazonaws | aws-java-sdk-s3 | 1.11.655 |
com.amazonaws | aws-java-sdk-ses | 1.11.655 |
com.amazonaws | aws-java-sdk-simpledb | 1.11.655 |
com.amazonaws | aws-java-sdk-simpleworkflow | 1.11.655 |
com.amazonaws | aws-java-sdk-sns | 1.11.655 |
com.amazonaws | aws-java-sdk-sqs | 1.11.655 |
com.amazonaws | aws-java-sdk-ssm | 1.11.655 |
com.amazonaws | aws-java-sdk-storagegateway | 1.11.655 |
com.amazonaws | aws-java-sdk-sts | 1.11.655 |
com.amazonaws | aws-java-sdk-support | 1.11.655 |
com.amazonaws | aws-java-sdk-swf-libraries | 1.11.22 |
com.amazonaws | aws-java-sdk-workspaces | 1.11.655 |
com.amazonaws | jmespath-java | 1.11.655 |
com.chuusai | shapeless_2.12 | 2.3.3 |
com.clearspring.analytics | fluxo | 2.9.6 |
com.databricks | Rserve | 1.8-3 |
com.databricks | jets3t | 0.7.1-0 |
com.databricks.scalapb | compilerplugin_2.12 | 0.4.15-10 |
com.databricks.scalapb | scalapb-runtime_2.12 | 0.4.15-10 |
com.esotericsoftware | kryo-shaded | 4.0.2 |
com.esotericsoftware | minlog | 1.3.0 |
com.fasterxml | classmate | 1.3.4 |
com.fasterxml.jackson.core | jackson-annotations | 2.10.0 |
com.fasterxml.jackson.core | jackson-core | 2.10.0 |
com.fasterxml.jackson.core | jackson-databind | 2.10.0 |
com.fasterxml.jackson.dataformat | jackson-dataformat-cbor | 2.10.0 |
com.fasterxml.jackson.datatype | jackson-datatype-joda | 2.10.0 |
com.fasterxml.jackson.module | jackson-module-paranamer | 2.10.0 |
com.fasterxml.jackson.module | jackson-module-scala_2.12 | 2.10.0 |
com.github.ben-manes.caffeine | caffeine | 2.3.4 |
com.github.fommil | jniloader | 1,1 |
com.github.fommil.netlib | core | 1.1.2 |
com.github.fommil.netlib | native_ref-java | 1,1 |
com.github.fommil.netlib | native_ref-java-natives | 1,1 |
com.github.fommil.netlib | native_system-java | 1,1 |
com.github.fommil.netlib | native_system-java-natives | 1,1 |
com.github.fommil.netlib | netlib-native_ref-linux-x86_64-natives | 1,1 |
com.github.fommil.netlib | netlib-native_system-linux-x86_64-natives | 1,1 |
com.github.joshelser | dropwizard-metrics-hadoop-metrics2-reporter | 0.1.2 |
com.github.luben | zstd-jni | 1.4.4-3 |
com.github.wendykierp | JTransforms | 3.1 |
com.google.code.findbugs | jsr305 | 3.0.0 |
com.google.code.gson | gson | 2.2.4 |
com.google.flatbuffers | flatbuffers-java | 1.9.0 |
com.google.guava | guava | 15.0 |
com.google.protobuf | protobuf-java | 2.6.1 |
com.h2database | h2 | 1.4.195 |
com.helger | profiler | 1.1.1 |
com.jcraft | jsch | 0.1.50 |
com.jolbox | bonecp | 0.8.0.RELEASE |
com.microsoft.azure | azure-data-lake-store-sdk | 2.2.8 |
com.microsoft.sqlserver | mssql-jdbc | 8.2.1.jre8 |
com.ning | compress-lzf | 1.0.3 |
com.sun.mail | javax.mail | 1.5.2 |
com.tdunning | json | 1.8 |
com.thoughtworks.paranamer | paranamer | 2.8 |
com.trueaccord.lenses | lenses_2.12 | 0.4.12 |
com.twitter | chill-java | 0.9.5 |
com.twitter | chill_2.12 | 0.9.5 |
com.twitter | util-app_2.12 | 7.1.0 |
com.twitter | util-core_2.12 | 7.1.0 |
com.twitter | util-function_2.12 | 7.1.0 |
com.twitter | util-jvm_2.12 | 7.1.0 |
com.twitter | util-lint_2.12 | 7.1.0 |
com.twitter | util-registry_2.12 | 7.1.0 |
com.twitter | util-stats_2.12 | 7.1.0 |
com.typesafe | config | 1.2.1 |
com.typesafe.scala-logging | scala-logging_2.12 | 3.7.2 |
com.univocity | univocity-parsers | 2.8.3 |
com.zaxxer | HikariCP | 3.1.0 |
commons-beanutils | commons-beanutils | 1.9.4 |
commons-cli | commons-cli | 1,2 |
commons-codec | commons-codec | 1,10 |
commons-collections | commons-collections | 3.2.2 |
commons-configuration | commons-configuration | 1.6 |
commons-dbcp | commons-dbcp | 1.4 |
commons-digester | commons-digester | 1.8 |
commons-fileupload | commons-fileupload | 1.3.3 |
commons-httpclient | commons-httpclient | 3.1 |
commons-io | commons-io | 2.4 |
commons-lang | commons-lang | 2.6 |
commons-logging | commons-logging | 1.1.3 |
commons-net | commons-net | 3.1 |
commons-pool | commons-pool | 1.5.4 |
info.ganglia.gmetric4j | gmetric4j | 1.0.10 |
io.airlift | aircompressor | 0.10 |
io.dropwizard.metrics | metrics-core | 4.1.1 |
io.dropwizard.metrics | metrics-graphite | 4.1.1 |
io.dropwizard.metrics | metrics-healthchecks | 4.1.1 |
io.dropwizard.metrics | metrics-jetty9 | 4.1.1 |
io.dropwizard.metrics | metrics-jmx | 4.1.1 |
io.dropwizard.metrics | metrics-json | 4.1.1 |
io.dropwizard.metrics | metrics-jvm | 4.1.1 |
io.dropwizard.metrics | metrics-servlets | 4.1.1 |
io.netty | netty-all | 4.1.47.Final |
jakarta.annotation | jakarta.annotation-api | 1.3.5 |
jakarta.validation | jakarta.validation-api | 2.0.2 |
jakarta.ws.rs | jakarta.ws.rs-api | 2.1.6 |
javax.activation | activation | 1.1.1 |
javax.el | javax.el-api | 2.2.4 |
javax.jdo | jdo-api | 3.0.1 |
javax.servlet | javax.servlet-api | 3.1.0 |
javax.servlet.jsp | jsp-api | 2.1 |
javax.transaction | jta | 1,1 |
javax.transaction | transaction-api | 1,1 |
javax.xml.bind | jaxb-api | 2.2.2 |
javax.xml.stream | stax-api | 1.0-2 |
javolution | javolution | 5.5.1 |
jline | jline | 2.14.6 |
joda-time | joda-time | 2.10.5 |
log4j | apache-log4j-extras | 1.2.17 |
log4j | log4j | 1.2.17 |
net.razorvine | pyrolite | 4.30 |
net.sf.jpam | jpam | 1,1 |
net.sf.opencsv | opencsv | 2.3 |
net.sf.supercsv | super-csv | 2.2.0 |
net.snowflake | snowflake-ingest-sdk | 0.9.6 |
net.snowflake | snowflake-jdbc | 3.12.0 |
net.snowflake | spark-snowflake_2.12 | 2.5.9-spark_2.4 |
net.sourceforge.f2j | arpack_combined_all | 0,1 |
org.acplt.remotetea | remotetea-oncrpc | 1.1.2 |
org.antlr | ST4 | 4.0.4 |
org.antlr | antlr-runtime | 3.5.2 |
org.antlr | antlr4-runtime | 4.7.1 |
org.antlr | stringtemplate | 3.2.1 |
org.apache.ant | ant | 1.9.2 |
org.apache.ant | ant-jsch | 1.9.2 |
org.apache.ant | ant-launcher | 1.9.2 |
org.apache.arrow | arrow-format | 0.15.1 |
org.apache.arrow | arrow-memory | 0.15.1 |
org.apache.arrow | arrow-vector | 0.15.1 |
org.apache.avro | avro | 1.8.2 |
org.apache.avro | avro-ipc | 1.8.2 |
org.apache.avro | avro-mapred-hadoop2 | 1.8.2 |
org.apache.commons | commons-compress | 1.8.1 |
org.apache.commons | commons-crypto | 1.0.0 |
org.apache.commons | commons-lang3 | 3.9 |
org.apache.commons | commons-math3 | 3.4.1 |
org.apache.commons | commons-text | 1.6 |
org.apache.curator | curator-client | 2.7.1 |
org.apache.curator | curator-framework | 2.7.1 |
org.apache.curator | curator-recipes | 2.7.1 |
org.apache.derby | derby | 10.12.1.1 |
org.apache.directory.api | api-asn1-api | 1.0.0-M20 |
org.apache.directory.api | api-util | 1.0.0-M20 |
org.apache.directory.server | apacheds-i18n | 2.0.0-M15 |
org.apache.directory.server | apacheds-kerberos-codec | 2.0.0-M15 |
org.apache.hadoop | hadoop-annotations | 2.7.4 |
org.apache.hadoop | hadoop-auth | 2.7.4 |
org.apache.hadoop | hadoop-client | 2.7.4 |
org.apache.hadoop | hadoop-common | 2.7.4 |
org.apache.hadoop | hadoop-hdfs | 2.7.4 |
org.apache.hadoop | hadoop-mapreduce-client-app | 2.7.4 |
org.apache.hadoop | hadoop-mapreduce-client-common | 2.7.4 |
org.apache.hadoop | hadoop-mapreduce-client-core | 2.7.4 |
org.apache.hadoop | hadoop-mapreduce-client-jobclient | 2.7.4 |
org.apache.hadoop | hadoop-mapreduce-client-shuffle | 2.7.4 |
org.apache.hadoop | hadoop-yarn-api | 2.7.4 |
org.apache.hadoop | hadoop-yarn-client | 2.7.4 |
org.apache.hadoop | hadoop-yarn-common | 2.7.4 |
org.apache.hadoop | hadoop-yarn-server-common | 2.7.4 |
org.apache.hive | hive-beeline | 2.3.7 |
org.apache.hive | hive-cli | 2.3.7 |
org.apache.hive | hive-common | 2.3.7 |
org.apache.hive | hive-exec-core | 2.3.7 |
org.apache.hive | hive-jdbc | 2.3.7 |
org.apache.hive | hive-llap-client | 2.3.7 |
org.apache.hive | hive-llap-common | 2.3.7 |
org.apache.hive | hive-metastore | 2.3.7 |
org.apache.hive | hive-serde | 2.3.7 |
org.apache.hive | hive-shims | 2.3.7 |
org.apache.hive | hive-storage-api | 2.7.1 |
org.apache.hive | hive-vector-code-gen | 2.3.7 |
org.apache.hive.shims | hive-shims-0.23 | 2.3.7 |
org.apache.hive.shims | hive-shims-common | 2.3.7 |
org.apache.hive.shims | hive-shims-scheduler | 2.3.7 |
org.apache.htrace | htrace-core | 3.1.0-incubating |
org.apache.httpcomponents | httpclient | 4.5.6 |
org.apache.httpcomponents | httpcore | 4.4.12 |
org.apache.ivy | ivy | 2.4.0 |
org.apache.orc | orc-core | 1.5.10 |
org.apache.orc | orc-mapreduce | 1.5.10 |
org.apache.orc | orc-shims | 1.5.10 |
org.apache.parquet | parquet-column | 1.10.1.2-databricks4 |
org.apache.parquet | parquet-common | 1.10.1.2-databricks4 |
org.apache.parquet | parquet-encoding | 1.10.1.2-databricks4 |
org.apache.parquet | parquet-format | 2.4.0 |
org.apache.parquet | parquet-hadoop | 1.10.1.2-databricks4 |
org.apache.parquet | parquet-jackson | 1.10.1.2-databricks4 |
org.apache.thrift | libfb303 | 0.9.3 |
org.apache.thrift | libthrift | 0.12.0 |
org.apache.velocity | velocity | 1.5 |
org.apache.xbean | xbean-asm7-shaded | 4.15 |
org.apache.yetus | audience-annotations | 0.5.0 |
org.apache.zookeeper | zookeeper | 3.4.14 |
org.codehaus.jackson | jackson-core-asl | 1.9.13 |
org.codehaus.jackson | jackson-jaxrs | 1.9.13 |
org.codehaus.jackson | jackson-mapper-asl | 1.9.13 |
org.codehaus.jackson | jackson-xc | 1.9.13 |
org.codehaus.janino | commons-compiler | 3.0.16 |
org.codehaus.janino | janino | 3.0.16 |
org.datanucleus | datanucleus-api-jdo | 4.2.4 |
org.datanucleus | datanucleus-core | 4.1.17 |
org.datanucleus | datanucleus-rdbms | 4.1.19 |
org.datanucleus | javax.jdo | 3.2.0-m3 |
org.eclipse.jetty | jetty-client | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-continuation | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-http | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-io | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-jndi | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-plus | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-proxy | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-security | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-server | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-servlet | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-servlets | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-util | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-webapp | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-xml | 9.4.18.v20190429 |
org.fusesource.leveldbjni | leveldbjni-all | 1.8 |
org.glassfish.hk2 | hk2-api | 2.6.1 |
org.glassfish.hk2 | hk2-locator | 2.6.1 |
org.glassfish.hk2 | hk2-utils | 2.6.1 |
org.glassfish.hk2 | osgi-resource-locator | 1.0.3 |
org.glassfish.hk2.external | aopalliance-repackaged | 2.6.1 |
org.glassfish.hk2.external | jakarta.inject | 2.6.1 |
org.glassfish.jersey.containers | jersey-container-servlet | 2.30 |
org.glassfish.jersey.containers | jersey-container-servlet-core | 2.30 |
org.glassfish.jersey.core | jersey-client | 2.30 |
org.glassfish.jersey.core | jersey-common | 2.30 |
org.glassfish.jersey.core | jersey-server | 2.30 |
org.glassfish.jersey.inject | jersey-hk2 | 2.30 |
org.glassfish.jersey.media | jersey-media-jaxb | 2.30 |
org.hibernate.validator | hibernate-validator | 6.1.0.Final |
org.javassist | javassist | 3.25.0-GA |
org.jboss.logging | jboss-logging | 3.3.2.Final |
org.jdbi | jdbi | 2.63.1 |
org.joda | joda-convert | 1,7 |
org.jodd | jodd-core | 3.5.2 |
org.json4s | json4s-ast_2.12 | 3.6.6 |
org.json4s | json4s-core_2.12 | 3.6.6 |
org.json4s | json4s-jackson_2.12 | 3.6.6 |
org.json4s | json4s-scalap_2.12 | 3.6.6 |
org.lz4 | lz4-java | 1.7.1 |
org.mariadb.jdbc | mariadb-java-client | 2.1.2 |
org.objenesis | objenesis | 2.5.1 |
org.postgresql | postgresql | 42.1.4 |
org.roaringbitmap | RoaringBitmap | 0.7.45 |
org.roaringbitmap | shims | 0.7.45 |
org.rocksdb | rocksdbjni | 6.2.2 |
org.rosuda.REngine | REngine | 2.1.0 |
org.scala-lang | scala-compiler_2.12 | 2.12.10 |
org.scala-lang | scala-library_2.12 | 2.12.10 |
org.scala-lang | scala-reflect_2.12 | 2.12.10 |
org.scala-lang.modules | scala-collection-compat_2.12 | 2.1.1 |
org.scala-lang.modules | scala-parser-combinators_2.12 | 1.1.2 |
org.scala-lang.modules | scala-xml_2.12 | 1.2.0 |
org.scala-sbt | test-interface | 1,0 |
org.scalacheck | scalacheck_2.12 | 1.14.2 |
org.scalactic | scalactic_2.12 | 3.0.8 |
org.scalanlp | breeze-macros_2.12 | 1,0 |
org.scalanlp | breeze_2.12 | 1,0 |
org.scalatest | scalatest_2.12 | 3.0.8 |
org.slf4j | jcl-over-slf4j | 1.7.30 |
org.slf4j | jul-to-slf4j | 1.7.30 |
org.slf4j | slf4j-api | 1.7.30 |
org.slf4j | slf4j-log4j12 | 1.7.30 |
org.spark-project.spark | unused | 1.0.0 |
org.springframework | spring-core | 4.1.4.RELEASE |
org.springframework | spring-test | 4.1.4.RELEASE |
org.threeten | threeten-extra | 1.5.0 |
org.tukaani | xz | 1.5 |
org.typelevel | algebra_2.12 | 2.0.0-M2 |
org.typelevel | cats-kernel_2.12 | 2.0.0-M4 |
org.typelevel | machinist_2.12 | 0.6.8 |
org.typelevel | macro-compat_2.12 | 1.1.1 |
org.typelevel | spire-macros_2.12 | 0.17.0-M1 |
org.typelevel | spire-platform_2.12 | 0.17.0-M1 |
org.typelevel | spire-util_2.12 | 0.17.0-M1 |
org.typelevel | spire_2.12 | 0.17.0-M1 |
org.xerial | sqlite-jdbc | 3.8.11.2 |
org.xerial.snappy | snappy-java | 1.1.7.5 |
org.yaml | snakeyaml | 1,24 |
oro | oro | 2.0.8 |
pl.edu.icm | JLargeArrays | 1.5 |
software.amazon.ion | ion-java | 1.0.2 |
stax | stax-api | 1.0.1 |
xmlenc | xmlenc | 0.52 |