Atualizações de manutenção para o Databricks Runtime (arquivado)
Esta página arquivada lista as atualizações de manutenção emitidas para versões do Databricks Runtime que não têm mais suporte. Para adicionar uma atualização de manutenção a um cluster existente, reinicie o cluster.
Importante
Esta documentação foi desativada e pode não estar atualizada. Os produtos, serviços ou tecnologias mencionadas neste conteúdo chegaram ao fim do suporte. Veja Versões e compatibilidade das notas de versão do Databricks Runtime.
Observação
Este artigo contém referências ao termo lista de permissão, que o Azure Databricks não usa mais. Quando o termo for removido do software, também o removeremos deste artigo.
Versões do Databricks Runtime
Atualizações de manutenção por versão:
- Databricks Runtime 15.1
- Azure Databricks Runtime 15.0
- Databricks Runtime 14.2
- Databricks Runtime 14.0
- Databricks Runtime 13.1
- Databricks Runtime 12.2 LTS
- Databricks Runtime 11.3 LTS
- Databricks Runtime 10.4 LTS
- Databricks Runtime 9.1 LTS
- Databricks Runtime 13.0 (EoS)
- Databricks Runtime 12.1 (EoS)
- Databricks Runtime 12.0 (EoS)
- Databricks Runtime 11.2 (EoS)
- Databricks Runtime 11.1 (EoS)
- Databricks Runtime 11.0 (EoS)
- Databricks Runtime 10.5 (EoS)
- Databricks Runtime 10.3 (EoS)
- Databricks Runtime 10.2 (EoS)
- Databricks Runtime 10.1 (EoS)
- Databricks Runtime 10.0 (EoS)
- Databricks Runtime 9.0 (EoS)
- Databricks Runtime 8.4 (EoS)
- Databricks Runtime 8.3 (EoS)
- Databricks Runtime 8.2 (EoS)
- Databricks Runtime 8.1 (EoS)
- Databricks Runtime 8.0 (EoS)
- Databricks Runtime 7.6 (EoS)
- Databricks Runtime 7.5 (EoS)
- Databricks Runtime 7.3 LTS (EoS)
- Suporte Estendido do Databricks Runtime 6.4 (EoS)
- Databricks Runtime 5.5 LTS (EoS)
- Suporte estendido do Databricks Light 2.4
- Databricks Runtime 7.4 (EoS)
- Databricks Runtime 7.2 (EoS)
- Databricks Runtime 7.1 (EoS)
- Databricks Runtime 7.0 (EoS)
- Databricks Runtime 6.6 (EoS)
- Databricks Runtime 6.5 (EoS)
- Databricks Runtime 6.3 (EoS)
- Databricks Runtime 6.2 (EoS)
- Databricks Runtime 6.1 (EoS)
- Databricks Runtime 6.0 (EoS)
- Databricks Runtime 5.4 ML (EoS)
- Databricks Runtime 5.4 (EoS)
- Databricks Runtime 5.3 (EoS)
- Databricks Runtime 5.2 (EoS)
- Databricks Runtime 5.1 (EoS)
- Databricks Runtime 5.0 (EoS)
- Databricks Runtime 4.3 (EoS)
- Databricks Runtime 4.2 (EoS)
- Databricks Runtime 4.1 ML (EoS)
- Databricks Runtime 4.1 (EoS)
- Databricks Runtime 4.0 (EoS)
- Databricks Runtime 3.5 LTS (EoS)
- Databricks Runtime 3.4 (EoS)
Para obter as atualizações de manutenção em versões do Databricks Runtime com suporte, confira atualizações de manutenção do Databricks Runtime.
Databricks Runtime 15.1
Consulte Databricks Runtime 15.1 (EoS).
- 22 de outubro de 2024
- [SPARK-49863][SQL] Corrigir NormalizeFloatingNumbers para preservar a nulidade de structs aninhados
- [SPARK-46632][SQL] Corrija a eliminação de subexpressão quando expressões ternárias equivalentes têm filhos diferentes
- [FAÍSCA-49782][SQL] A regra ResolveDataFrameDropColumns resolve UnresolvedAttribute com saída filho
- [SPARK-49905] Use ShuffleOrigin dedicado para o operador stateful para evitar que o shuffle seja modificado do AQE
- [FAÍSCA-49829] Revise a otimização na adição de entrada ao repositório de estado na junção stream-stream (correção de correção)
- Atualizações de segurança do sistema operacional.
- 10 de outubro de 2024
- [FAÍSCA-49688][CONECTAR] Corrigir uma corrida de dados entre o plano de interrupção e execução
- [FAÍSCA-49743][SQL] OptimizeCsvJsonExpr não deve alterar os campos de esquema ao remover GetArrayStructFields
- [BACKPORT][[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474)[SS] Classificar classe de erro para erro de função de usuário FlatMapGroupsWithState
- Atualizações de segurança do sistema operacional.
- 25 de setembro de 2024
- [FAÍSCA-49628][SQL] ConstantFolding deve copiar a expressão com estado antes de avaliar
- [SPARK-48719][SQL] Corrija o bug de cálculo de RegrSlope e RegrIntercept quando o primeiro parâmetro é nulo
- [FAÍSCA-49492][CONECTAR] Tentativa de reanexação em ExecutionHolder inativo
- [SPARK-49000][SQL] Corrija "select count(distinct 1) from t" em que t é uma tabela vazia expandindo RewriteDistinctAggregates
- [FAÍSCA-49458][CONECTAR][PYTHON] Fornecer ID de sessão do lado do servidor por meio de ReattachExecute
- Atualizações de segurança do sistema operacional.
- 17 de setembro de 2024
- [FAÍSCA-49336][CONECTAR] Limitar o nível de aninhamento ao truncar uma mensagem protobuf
- [FAÍSCA-49526][CONECTAR] Suporte a caminhos no estilo Windows no ArtifactManager
- [FAÍSCA-49409][CONECTAR] Ajuste o valor padrão de CONNECT_SESSION_PLAN_CACHE_SIZE
- [FAÍSCA-43242][NÚCLEO] Correção do lançamento de 'Tipo inesperado de BlockId' no diagnóstico de corrupção aleatória
- [FAÍSCA-49366][CONECTAR] Tratar o nó União como folha na resolução da coluna do dataframe
- 29 de agosto de 2024
- [SPARK-49263][CONNECT] cliente Python do Spark Connect: lidar consistentemente com as opções de leitor do Dataframe booleano
- [SPARK-49056][SQL] ErrorClassesJsonReader não lida com nulo corretamente
- [SPARK-48862] [PYTHON][CONNECT] Evitar chamar
_proto_to_string
quando o nível INFO não estiver habilitado - [SPARK-49146][SS] Mover erros de declaração relacionados à falta de marca d'água em consultas de streaming no modo de acréscimo para a estrutura de erros
- 14 de agosto de 2024
- [SPARK-48941][SPARK-48970] Correções do gravador / leitor de ML do backport
- [SPARK-48050][SS] Registrar em log o plano lógico no início da consulta
- [SPARK-48706][PYTHON] O UDF do Python em funções de ordem superior não deve gerar erro interno
- [SPARK-48597][SQL] Introduzir um marcador para a propriedade isStreaming na representação de texto do plano lógico
- [SPARK-49065][SQL] A troca de base em formatadores/analisadores legados deve ser compatível com os fusos horários padrão não JVM
- [SPARK-49047][PYTHON][CONNECT] Truncar a mensagem para registro em log
- [SPARK-48740][SQL] Detectar o erro de especificação da janela ausente antecipadamente
- 1 de agosto de 2024
- Na computação sem servidor para notebooks e trabalhos, o modo SQL ANSI é habilitado por padrão. Consulte Parâmetros de configuração do Spark com suporte.
- Na computação configurada com o modo de acesso compartilhado, as leituras e gravações em lote do Kafka agora têm as mesmas limitações impostas que as documentadas para o Streaming Estruturado. Confira Limitações de streaming e requisitos para o modo de acesso compartilhado do Catálogo do Unity.
- A saída de uma instrução
SHOW CREATE TABLE
agora inclui todos os filtros de linha ou máscaras de coluna definidos em uma exibição materializada ou em uma tabela de streaming. Veja SHOW CREATE TABLE. Para saber mais sobre filtros de linha e máscaras de coluna, consulte Filtrar dados confidenciais da tabela com filtros de linha e máscaras de coluna. - [SPARK-48544][SQL] Reduzir a pressão de memória dos BitSets TreeNode vazios
- [SPARK-46957][CORE] Os arquivos de ordem aleatória migrados descomissionados devem fazer a limpeza no executor
- [SPARK-47202]][PYTHON] Corrigir datetimes de quebra de digitação com tzinfo
- [SPARK-48713] [SQL] Adicionar verificação de intervalo de índice para UnsafeRow.pointTo quando baseObject for uma matriz de bytes
- [SPARK-48896] [SPARK-48909] [SPARK-48883] Correções do gravador de ML do Spark de backport
- [SPARK-48810] [CONNECT] A API Session stop() deve ser idempotente e não falhar se a sessão já tiver sido fechada pelo servidor
- [SPARK-48873][SQL] Usar UnsafeRow no analisador JSON.
- [SPARK-48934][SS] Tipos de data e hora do Python convertidos incorretamente para definir o tempo limite em applyInPandasWithState
- [SPARK-48705][PYTHON] Usar explicitamente worker_main quando iniciar com pyspark
- [SPARK-48889][SS] testStream para descarregar os repositórios de estado antes de terminar
- [SPARK-48047][SQL] Reduzir a pressão de memória de tags TreeNode vazias
- [SPARK-48463] Tornar o StringIndexer compatível com as colunas de entrada aninhadas
- Atualizações de segurança do sistema operacional.
- 11 de julho de 2024
- (Alteração de comportamento) Os DataFrames armazenados em cache em relação às fontes da tabela Delta agora são invalidados se a tabela de origem for substituída. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use
.checkpoint()
para persistir um estado de tabela durante todo o tempo de vida de um DataFrame. - O Driver JDBC do Snowflake foi atualizado para a versão 3.16.1.
- Esta versão inclui uma correção para um problema que impediu a exibição correta da guia Ambiente de Interface do Usuário do Spark durante a execução nos Serviços de Contêiner do Databricks.
- Na computação sem servidor para notebooks e trabalhos, o modo SQL ANSI é habilitado por padrão. Consulte Parâmetros de configuração do Spark com suporte.
- Para ignorar partições inválidas ao ler dados, fontes de dados baseadas em arquivo, como Parquet, ORC, CSV ou JSON, podem definir a opção de fonte de dados ignoreInvalidPartitionPaths como true. Por exemplo: spark.read.format(“parquet”).option(“ignoreInvalidPartitionPaths”, “true”).load(…)`. Também é possível usar a configuração do SQL spark.sql.files.ignoreInvalidPartitionPaths. No entanto, a opção de fonte de dados tem precedência sobre a configuração do SQL. Essa configuração é false por padrão.
- [SPARK-48383][SS] Gerar erro melhor para partições incompatíveis na opção startOffset no Kafka
- [SPARK-48481][SQL][SS] Não aplicar OptimizeOneRowPlan em relação a um Dataset de streaming
- [SPARK-48100][SQL] Corrigir problemas ao ignorar campos de estrutura aninhada não selecionados no esquema
- [SPARK-47463][SQL] Usar V2Predicate para encapsular a expressão com o tipo de retorno booliano
- [SPARK-48445][SQL] Não embutir UDFs com filhos caros
- [SPARK-48292][CORE] Reverter [SPARK-39195][SQL] O Spark OutputCommitCoordinator deve anular o estágio quando o arquivo confirmado não for consistente com o status da tarefa
- [SPARK-48566][PYTHON] Corrigir bug em que os índices de partição estão incorretos quando UDTF analyze() usa tanto select quanto partitionColumns
- [SPARK-48648][PYTHON][CONNECT] Tornar SparkConnectClient.tags corretamente threadlocal
- [SPARK-48503][SQL] Corrigir subconsultas escalares inválidas com agrupar por em colunas não equivalentes que eram incorretamente permitidas
- [SPARK-48252][SQL] Atualizar CommonExpressionRef quando necessário
- [SPARK-48475][PYTHON] Otimizar _get_jvm_function no PySpark.
- [SPARK-48294][SQL] Gerenciar as letras minúsculas em nestedTypeMissingElementTypeError
- [SPARK-48286] Corrigir a análise de coluna com a expressão padrão existente – Adicionar erro de usuário
- [SPARK-47309][SQL] XML: Adicionar testes de inferência de esquema para marcas de valor
- [SPARK-47309][SQL][XML] Adicionar testes unitários de inferência de esquema
- [SPARK-48273][SQL] Corrigir a regravação tardia de PlanWithUnresolvedIdentifier
- Atualizações de segurança do sistema operacional.
- (Alteração de comportamento) Os DataFrames armazenados em cache em relação às fontes da tabela Delta agora são invalidados se a tabela de origem for substituída. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use
- 17 de junho de 2024
applyInPandasWithState()
está disponível em clusters compartilhados.- Corrige um bug em que a otimização da janela de classificação usando o Photon TopK manipulava incorretamente partições com structs.
- [SPARK-48310][PYTHON][CONNECT] As propriedades armazenadas em cache devem retornar cópias
- [SPARK-48276][PYTHON][CONNECT] Adicionar o método
__repr__
ausente paraSQLExpression
- [SPARK-48277] Aprimorar a mensagem de erro para ErrorClassesJsonReader.getErrorMessage
- [SPARK-47764][CORE][SQL] Limpar dependências de embaralhamento com base em ShuffleCleanupMode
- Atualizações de segurança do sistema operacional.
- 21 de maio de 2024
- Correção de um bug na função try_divide() em que entradas contendo decimais resultaram em exceções inesperadas.
- [SPARK-48173][SQL] CheckAnalysis deve ver o plano de consulta inteiro
- [SPARK-48016][SQL] Corrigir um bug na função try_divide quando tiver decimais
- [SPARK-48105][SS] Corrigir a condição de corrida entre o descarregamento do repositório de estado e o instantâneo
- [SPARK-48197][SQL] Evitar erro de asserção para a função lambda inválida
- [SPARK-48180][SQL] Aprimorar o erro quando a chamada UDTF com o arg TABLE esquecer os parênteses em torno de várias exprs PARTITION/ORDER BY
- [SPARK-48014][SQL] Alterar o erro makeFromJava em EvaluatePython para um erro voltado para o usuário
- [SPARK-48056][CONNECT][PYTHON] Executar novamente o plano se um erro de SESSION_NOT_FOUND for gerado e nenhuma resposta parcial tiver sido recebida
- [SPARK-48146][SQL] Corrigir a função de agregação na declaração With expression child
- [SPARK-47994][SQL] Corrigir um bug com o pushdown do filtro de coluna CASE WHEN no SQLServer
- Atualizações de segurança do sistema operacional.
- 09 de maio de 2024
- [SPARK-47543][CONNECT][PYTHON] Inferir dict como MapType do Pandas DataFrame para permitir a criação de DataFrame
- [SPARK-47739][SQL] Registrar tipo de avro lógico
- [SPARK-48044][PYTHON][CONNECT] Armazenar em cache
DataFrame.isStreaming
- [SPARK-47855][CONNECT] Adicionar
spark.sql.execution.arrow.pyspark.fallback.enabled
na lista sem suporte - [SPARK-48010][SQL] Evitar chamadas repetidas para conf.resolver em resolveExpression
- [SPARK-47941] [SS] [Connect] Propagar erros de inicialização de trabalho de ForeachBatch para usuários do PySpark
- [SPARK-47819][CONNECT][Cherry-pick-15.0] Usar o retorno de chamada assíncrono para limpeza de execução
- [SPARK-47956][SQL] Verificação de sanidade para referência LCA não resolvida
- [SPARK-47839][SQL] Corrigir bug de agregação em RewriteWithExpression
- [SPARK-48018][SS] Corrigir groupId nulo causando erro de param ausente ao lançar KafkaException.couldNotReadOffsetRange
- [SPARK-47371] [SQL] XML: Ignorar marcas de linha encontradas em CDATA
- [SPARK-47907][SQL] Inserir negação sob uma configuração
- [SPARK-47895][SQL] group by all deve ser idempotente
- [SPARK-47973][CORE] Registrar site de chamada no SparkContext.stop() e posterior no SparkContext.assertNotStopped()
- [SPARK-47986][CONNECT][PYTHON] Não é possível criar uma nova sessão quando a sessão padrão é fechada pelo servidor
- Atualizações de segurança do sistema operacional.
Azure Databricks Runtime 15.0
Consulte Databricks Runtime 15.0 (EoS).
- 30 de maio de 2024
- (Alteração de comportamento) agora há suporte para
dbutils.widgets.getAll()
para obter todos os valores de widget em um notebook.
- (Alteração de comportamento) agora há suporte para
- 25 de abril de 2024
- [SPARK-47786] SELECT DISTINCT () não deve se tornar SELECT DISTINCT struct() (reverter para o comportamento anterior)
- [SPARK-47802][SQL] Reverter () do significado struct() de volta ao significado *
- [SPARK-47509][SQL] Bloquear expressões de subconsulta em funções lambda e de ordem superior
- [SPARK-47722] Aguarde até que o trabalho em segundo plano do RocksDB seja concluído antes do fechamento
- [SPARK-47081][CONNECT] [FOLLOW] Melhorando a usabilidade do manipulador de progresso
- [SPARK-47694][CONNECT] Tornar o tamanho máximo da mensagem configurável no lado do cliente
- [SPARK-47669][SQL] [CONNECT] [PYTHON] Adicionar
Column.try_cast
- [SPARK-47664][PYTHON] [CONNECT] [Cherry-pick-15.0] Validar o nome da coluna com o esquema armazenado em cache
- [SPARK-47818][CONNECT] [Cherry-pick-15.0] Introduza o cache de planos no SparkConnectPlanner para melhorar o desempenho das solicitações analisar
- [SPARK-47704][SQL] A análise JSON falha com “java.lang.ClassCastException” quando spark.sql.json.enablePartialResults está habilitado
- [SPARK-47755][CONNECT] O pivô deve falhar quando o número de valores distintos for muito grande
- [SPARK-47713][SQL] [CONNECT] Corrigir uma falha de auto-junção
- [SPARK-47812][CONNECT] Suporte à serialização do SparkSession para a função de trabalho ForEachBatch
- [SPARK-47828][CONNECT] [PYTHON]
DataFrameWriterV2.overwrite
falha com plano inválido - [SPARK-47862][PYTHON] [CONNECT] Corrigir a geração de arquivos proto
- [SPARK-47800][SQL] Criar um novo método para conversão de identificador para tableIdentifier
- Atualizações de segurança do sistema operacional.
- 3 de abril de 2024
- (Alteração do comportamento) Para garantir um comportamento consistente entre os tipos de computação, os UDFs do PySpark em clusters compartilhados agora correspondem ao comportamento dos UDFs em clusters sem isolamento e atribuídos. Esta atualização inclui as seguintes alterações que podem interromper o código existente:
- Os UDFs com um tipo de retorno
string
não convertem mais implicitamente valores nãostring
em valoresstring
. Anteriormente, os UDFs com um tipo de retornostr
encapsulavam o valor de retorno com uma funçãostr()
, independentemente do tipo de dados real do valor retornado. - Os UDFs com tipos de retorno
timestamp
não aplicam mais implicitamente uma conversão paratimestamp
comtimezone
. - As configurações de cluster do Spark
spark.databricks.sql.externalUDF.*
não se aplicam mais aos UDFs do PySpark em clusters compartilhados. - A configuração
spark.databricks.safespark.externalUDF.plan.limit
do cluster do Spark não afeta mais os UDFs do PySpark, removendo a limitação da Visualização Pública de 5 UDFs por consulta para os UDFs do PySpark. - A configuração de cluster do Spark
spark.databricks.safespark.sandbox.size.default.mib
não se aplica mais aos UDFs do PySpark em clusters compartilhados. Em vez disso, é usada a memória disponível no sistema. Para limitar a memória dos UDFs do PySpark, usespark.databricks.pyspark.udf.isolation.memoryLimit
com um valor mínimo de100m
.
- Os UDFs com um tipo de retorno
- Agora há suporte para o tipo de dados
TimestampNTZ
como uma coluna de agrupamento com agrupamento líquido. Confira Usar clustering líquido para tabelas Delta. - [SPARK-47218][SQL] XML: Ignorar marcas de linha comentadas no tokenizador XML
- [SPARK-46990][SQL] Corrigir o carregamento de arquivos Avro vazios emitidos por hubs de eventos
- [SPARK-47033][SQL] Corrigir EXECUTE IMMEDIATE USING para que reconheça os nomes de variáveis de sessão
- [SPARK-47368][SQL] Remover a verificação da configuração inferTimestampNTZ no ParquetRowConverter
- [SPARK-47561][SQL] Corrigir problemas de ordem de regras do analisador sobre Alias
- [SPARK-47638][PS][CONNECT] Ignorar a validação do nome da coluna no PS
- [SPARK-46906][BACKPORT][SS] Adicionar uma verificação de alteração de operador com estado para streaming
- [SPARK-47569][SQL] Não permitir a comparação de variantes.
- [SPARK-47241][SQL] Corrigir problemas de ordem de regras para o ExtractGenerator
- [SPARK-47218] [SQL] XML: Alterado o SchemaOfXml para falhar no modo DROPMALFORMED
- [SPARK-47300][SQL]
quoteIfNeeded
deve citar o identificador que começa com dígitos - [SPARK-47009][SQL][Collation] Habilitar o suporte para a criação de tabela para ordenação
- [SPARK-47322][PYTHON][CONNECT] Tornar o tratamento de duplicação de nomes de colunas
withColumnsRenamed
consistente comwithColumnRenamed
- [SPARK-47544][PYTHON] O método de construção SparkSession é incompatível com o intellisense do Visual Studio Code
- [SPARK-47511][SQL] Canonizar expressões WITH reatribuindo IDs
- [SPARK-47385] Corrigir codificadores de tuplas com entradas de Opção.
- [SPARK-47200][SS] Classe de erro para o erro de função de usuário do coletor de lote Foreach
- [SPARK-47135][SS] Implementar classes de erro para exceções de perda de dados do Kafka
- [SPARK-38708][SQL] Atualizar o cliente Metastore do Hive para a versão 3.1.3 do Hive 3.1
- [SPARK-47305][SQL] Corrigir o PruneFilters para marcar corretamente o sinalizador isStreaming do LocalRelation quando o plano tiver lote e streaming
- [SPARK-47380][CONNECT] Assegurar no lado do servidor que a SparkSession seja a mesma
- Atualizações de segurança do sistema operacional.
- (Alteração do comportamento) Para garantir um comportamento consistente entre os tipos de computação, os UDFs do PySpark em clusters compartilhados agora correspondem ao comportamento dos UDFs em clusters sem isolamento e atribuídos. Esta atualização inclui as seguintes alterações que podem interromper o código existente:
Databricks Runtime 14.2
Confira Databricks Runtime 14.2 (EoS).
- 22 de outubro de 2024
- [FAÍSCA-49782][SQL] A regra ResolveDataFrameDropColumns resolve UnresolvedAttribute com saída filho
- [SPARK-49905] Use ShuffleOrigin dedicado para o operador stateful para evitar que o shuffle seja modificado do AQE
- Atualizações de segurança do sistema operacional.
- 10 de outubro de 2024
- [FAÍSCA-49743][SQL] OptimizeCsvJsonExpr não deve alterar os campos de esquema ao remover GetArrayStructFields
- [BACKPORT][[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474)[SS] Classificar classe de erro para erro de função de usuário FlatMapGroupsWithState
- 25 de setembro de 2024
- [SPARK-48719][SQL] Corrija o bug de cálculo de 'RegrS...
- [FAÍSCA-49628][SQL] ConstantFolding deve copiar a expressão com estado antes de avaliar
- [SPARK-49000][SQL] Corrija "select count(distinct 1) from t" em que t é uma tabela vazia expandindo RewriteDistinctAggregates
- [FAÍSCA-43242][NÚCLEO] Correção do lançamento de 'Tipo inesperado de BlockId' no diagnóstico de corrupção aleatória
- [FAÍSCA-46601] [NÚCLEO] Corrigir erro de log em handleStatusMessage
- Atualizações de segurança do sistema operacional.
- 17 de setembro de 2024
- [FAÍSCA-49526][CONECTAR] Suporte a caminhos no estilo Windows no ArtifactManager
- 29 de agosto de 2024
- [SPARK-49263][CONNECT] cliente Python do Spark Connect: lidar consistentemente com as opções de leitor do Dataframe booleano
- [SPARK-49146][SS] Mover erros de declaração relacionados à falta de marca d'água em consultas de streaming no modo de acréscimo para a estrutura de erros
- [SPARK-49056][SQL] ErrorClassesJsonReader não lida com nulo corretamente
- 14 de agosto de 2024
- [SPARK-48050][SS] Registrar em log o plano lógico no início da consulta
- [SPARK-48597][SQL] Introduzir um marcador para a propriedade isStreaming na representação de texto do plano lógico
- [SPARK-49065][SQL] A troca de base em formatadores/analisadores legados deve ser compatível com os fusos horários padrão não JVM
- [SPARK-48706][PYTHON] O UDF do Python em funções de ordem superior não deve gerar erro interno
- 1 de agosto de 2024
- Esta versão inclui uma correção de bug para as classes
ColumnVector
eColumnarArray
na interface Java do Spark. Antes dessa correção, umArrayIndexOutOfBoundsException
pode ser lançado ou um dado incorreto retornado quando uma instância de uma dessas classes continha valoresnull
. - A saída de uma instrução
SHOW CREATE TABLE
agora inclui todos os filtros de linha ou máscaras de coluna definidos em uma exibição materializada ou em uma tabela de streaming. Veja SHOW CREATE TABLE. Para saber mais sobre filtros de linha e máscaras de coluna, consulte Filtrar dados confidenciais da tabela com filtros de linha e máscaras de coluna. - [SPARK-47202]][PYTHON] Corrigir datetimes de quebra de digitação com tzinfo
- [SPARK-48705][PYTHON] Usar explicitamente worker_main quando iniciar com pyspark
- Atualizações de segurança do sistema operacional.
- Esta versão inclui uma correção de bug para as classes
- 11 de julho de 2024
- (Alteração de comportamento) Os DataFrames armazenados em cache em relação às fontes da tabela Delta agora são invalidados se a tabela de origem for substituída. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use
.checkpoint()
para persistir um estado de tabela durante todo o tempo de vida de um DataFrame. - O Driver JDBC do Snowflake foi atualizado para a versão 3.16.1
- Esta versão inclui uma correção para um problema que impediu a exibição correta da guia Ambiente de Interface do Usuário do Spark durante a execução nos Serviços de Contêiner do Databricks.
- [SPARK-48292][CORE] Reverter [SPARK-39195][SQL] O Spark OutputCommitCoordinator deve anular o estágio quando o arquivo confirmado não for consistente com o status da tarefa
- [SPARK-48273][SQL] Corrigir a regravação tardia de PlanWithUnresolvedIdentifier
- [SPARK-48503][SQL] Corrigir subconsultas escalares inválidas com agrupar por em colunas não equivalentes que eram incorretamente permitidas
- [SPARK-48481][SQL][SS] Não aplicar OptimizeOneRowPlan em relação a um Dataset de streaming
- [SPARK-48475][PYTHON] Otimizar _get_jvm_function no PySpark.
- [SPARK-48100][SQL] Corrigir problemas ao ignorar campos de estrutura aninhada não selecionados no esquema
- [SPARK-48445][SQL] Não embutir UDFs com filhos caros
- [SPARK-48383][SS] Gerar erro melhor para partições incompatíveis na opção startOffset no Kafka
- Atualizações de segurança do sistema operacional.
- (Alteração de comportamento) Os DataFrames armazenados em cache em relação às fontes da tabela Delta agora são invalidados se a tabela de origem for substituída. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use
- 17 de junho de 2024
- Corrige um bug em que a otimização da janela de classificação usando o Photon TopK manipulava incorretamente partições com structs.
- [SPARK-48276][PYTHON][CONNECT] Adicionar o método
__repr__
ausente paraSQLExpression
- [SPARK-48277] Aprimorar a mensagem de erro para ErrorClassesJsonReader.getErrorMessage
- Atualizações de segurança do sistema operacional.
- 21 de maio de 2024
- (Alteração de comportamento) agora há suporte para
dbutils.widgets.getAll()
para obter todos os valores de widget em um notebook. - [SPARK-48173][SQL] CheckAnalysis deve ver o plano de consulta inteiro
- [SPARK-48197][SQL] Evitar erro de asserção para a função lambda inválida
- [SPARK-47994][SQL] Corrigir um bug com o pushdown do filtro de coluna CASE WHEN no SQLServer
- [SPARK-48105][SS] Corrigir a condição de corrida entre o descarregamento do repositório de estado e o instantâneo
- Atualizações de segurança do sistema operacional.
- (Alteração de comportamento) agora há suporte para
- 09 de maio de 2024
- [SPARK-48044][PYTHON][CONNECT] Armazenar em cache
DataFrame.isStreaming
- [SPARK-47956][SQL] Verificação de sanidade para referência LCA não resolvida
- [SPARK-47371] [SQL] XML: Ignorar marcas de linha encontradas em CDATA
- [SPARK-47812][CONNECT] Suporte à serialização do SparkSession para a função de trabalho ForEachBatch
- [SPARK-47895][SQL] group by all deve ser idempotente
- [SPARK-47973][CORE] Registrar site de chamada no SparkContext.stop() e posterior no SparkContext.assertNotStopped()
- Atualizações de segurança do sistema operacional.
- [SPARK-48044][PYTHON][CONNECT] Armazenar em cache
- 25 de abril de 2024
- [SPARK-47704][SQL] A análise JSON falha com “java.lang.ClassCastException” quando spark.sql.json.enablePartialResults está habilitado
- [SPARK-47828][CONNECT] [PYTHON]
DataFrameWriterV2.overwrite
falha com plano inválido - Atualizações de segurança do sistema operacional.
- 11 de abril de 2024
- [SPARK-47309][SQL][XML] Adicionar testes unitários de inferência de esquema
- [SPARK-46990][SQL] Corrigir o carregamento de arquivos Avro vazios emitidos por hubs de eventos
- [SPARK-47638][PS][CONNECT] Ignorar a validação do nome da coluna no PS
- [SPARK-47509][SQL] Bloquear expressões de subconsulta em funções lambda e de ordem superior
- [SPARK-38708][SQL] Atualizar o cliente Metastore do Hive para a versão 3.1.3 do Hive 3.1
- Atualizações de segurança do sistema operacional.
- 1º de abril de 2024
- [SPARK-47322][PYTHON][CONNECT] Tornar o tratamento de duplicação de nomes de colunas
withColumnsRenamed
consistente comwithColumnRenamed
- [SPARK-47385] Corrigir codificadores de tuplas com entradas de Opção.
- [SPARK-47070] Corrigir agregação inválida após uma reescrita de subconsulta
- [SPARK-47218] [SQL] XML: Alterado o SchemaOfXml para falhar no modo DROPMALFORMED
- [SPARK-47305][SQL] Corrigir o PruneFilters para marcar corretamente o sinalizador isStreaming do LocalRelation quando o plano tiver lote e streaming
- [SPARK-47218][SQL] XML: Ignorar marcas de linha comentadas no tokenizador XML
- Reverter “[SPARK-46861][CORE] Evitar Deadlock no DAGScheduler”
- [SPARK-47300][SQL]
quoteIfNeeded
deve citar o identificador que começa com dígitos - [SPARK-47368][SQL] Remover a verificação da configuração inferTimestampNTZ no ParquetRowConverter
- Atualizações de segurança do sistema operacional.
- [SPARK-47322][PYTHON][CONNECT] Tornar o tratamento de duplicação de nomes de colunas
- 14 de março de 2024
- [SPARK-47035][SS][CONNECT] Protocolo para ouvinte do lado do cliente
- [SPARK-47121][CORE] Evitar RejectedExecutionExceptions durante o desligamento de StandaloneSchedulerBackend
- [SPARK-47145][SQL] Passar o identificador de tabela para o executável de verificação da fonte de dados de linha para a estratégia V2.
- [SPARK-47176][SQL] Ter uma função auxiliar ResolveAllExpressionsUpWithPruning
- [SPARK-47167][SQL] Adicionar classe concreta para relação anônima JDBC
- [SPARK-47129][CONNECT][SQL] Fazer o cache
ResolveRelations
conectar ao plano corretamente - [SPARK-47044][SQL] Adicionar uma consulta executada para fontes de dados externas JDBC para explicar a saída
- Atualizações de segurança do sistema operacional.
- 29 de fevereiro de 2024
- Correção de um problema em que o uso de uma coleção local como origem em um comando MERGE poderia resultar na métrica de operação numSourceRows informando o dobro do número correto de linhas.
- A criação de um esquema com um local definido agora exige que o usuário tenha privilégios SELECT e MODIFY em ANY FILE.
- Agora, é possível ingerir arquivos XML usando Autoloader, read_files, COPY INTO, DLT e DBSQL. O suporte a arquivos XML pode inferir e evoluir automaticamente o esquema, resgatar dados com incompatibilidades de tipo, validar XML usando XSD e dar suporte a expressões SQL, como from_xml, schema_of_xml e to_xml. Consulte Suporte a arquivos XML para obter mais detalhes. Se você já estava usando o pacote externo spark-xml, consulte aqui para obter diretrizes de migração.
- [SPARK-46954][SQL] XML: Encapsular InputStreamReader com BufferedReader
- [SPARK-46630][SQL] XML: Validar o nome do elemento XML na gravação
- [SPARK-46248][SQL] XML: Suporte para opções ignoreCorruptFiles e ignoreMissingFiles
- [SPARK-46954][SQL] XML: Otimizar a pesquisa de índice de esquema
- [SPARK-47059][SQL] Anexar contexto de erro para o comando ALTER COLUMN v1
- [SPARK-46993][SQL] Corrigir dobragem constante para variáveis de sessão
- 08 de fevereiro de 2024
- Não há suporte para consultas de feed de dados alterados (CDF) em exibições materializadas do Catálogo do Unity e a tentativa de executar uma consulta CDF com uma exibição materializada do Catálogo do Unity retorna um erro. As tabelas de streaming do Catálogo do Unity dão suporte a consultas CDF em não
APPLY CHANGES
tabelas no Databricks Runtime 14.1 e posterior. Não há suporte para consultas CDF com tabelas de streaming do Catálogo do Unity no Databricks Runtime 14.0 e versões anteriores. - [SPARK-46930] Adicionar suporte para um prefixo personalizado para campos de tipo de união no Avro.
- [SPARK-46822] Respeitar spark.sql.legacy.charVarcharAsString ao converter o tipo jdbc para o tipo de catalisador no jdbc.
- [SPARK-46952] XML: Limitar o tamanho do registro corrompido.
- [SPARK-46644] Alterar adicionar e mesclar no SQLMetric para usar isZero.
- [SPARK-46861] Evitar deadlock no DAGScheduler.
- [SPARK-46794] Remover subconsultas de restrições LogicalRDD.
- [SPARK-46941] Não é possível inserir o nó de limite do grupo de janelas para a computação top-k se contiver SizeBasedWindowFunction.
- [SPARK-46933] Adicionar a métrica de tempo de execução da consulta aos conectores que usam JDBCRDD.
- Atualizações de segurança do sistema operacional.
- Não há suporte para consultas de feed de dados alterados (CDF) em exibições materializadas do Catálogo do Unity e a tentativa de executar uma consulta CDF com uma exibição materializada do Catálogo do Unity retorna um erro. As tabelas de streaming do Catálogo do Unity dão suporte a consultas CDF em não
- 31 de janeiro de 2024
- [SPARK-46382] XML: Atualizar documento para
ignoreSurroundingSpaces
. - [SPARK-46382] XML: Capturar valores intercalados entre elementos.
- [SPARK-46763] Corrigir a falha de declaração em ReplaceDeduplicateWithAggregate para atributos duplicados.
- Reverter [SPARK-46769] Refinar inferência de esquema relacionada ao carimbo de data/hora.
- [SPARK-46677] Correção da resolução
dataframe["*"]
. - [SPARK-46382] XML: ignoreSurroundingSpaces padrão como true.
- [SPARK-46633] Corrigir o leitor do Avro para manipular blocos de comprimento zero.
- [SPARK-45964] Remover o acessador sql privado no pacote XML e JSON no pacote do catalisador.
- [SPARK-46581] Atualizar comentário sobre isZero no AccumulatorV2.
- [SPARK-45912] Aprimoramento da API XSDToSchema: Alterar para a API HDFS para acessibilidade de armazenamento em nuvem.
- [SPARK-45182] Ignorar a conclusão da tarefa do estágio antigo depois de tentar novamente o estágio indeterminado pai, conforme determinado pela soma de verificação.
- [SPARK-46660] ReattachExecute solicita atualizações de atividade do SessionHolder.
- [SPARK-46610] Criar tabela deve gerar exceção se nenhum valor para uma chave for especificado nas opções.
- [SPARK-46383] Reduzir o uso de heap do driver reduzindo o tempo de vida de
TaskInfo.accumulables()
. - [SPARK-46769] Refinar a inferência de esquema relacionada ao carimbo de data/hora.
- [SPARK-46684] Corrigir CoGroup.applyInPandas/Arrow para passar argumentos corretamente.
- [SPARK-46676] dropDuplicatesWithinWatermark não deve falhar na canonicalização do plano.
- [SPARK-45962] Remover
treatEmptyValuesAsNulls
e usar a opçãonullValue
em XML. - [SPARK-46541] Corrigir a referência de coluna ambígua na autojunção.
- [SPARK-46599] XML: Usar TypeCoercion.findTightestCommonType para verificar a compatibilidade.
- Atualizações de segurança do sistema operacional.
- [SPARK-46382] XML: Atualizar documento para
- 17 de janeiro de 2024
- O nó
shuffle
do plano explicativo retornado por uma consulta do Photon é atualizado para adicionar o sinalizadorcausedBroadcastJoinBuildOOM=true
quando ocorre um erro de falta de memória durante a operação de shuffle que faz parte de uma junção de transmissão. - Para evitar maior latência ao se comunicar pelo TLSv1.3, essa versão de manutenção inclui um patch para a instalação do JDK 8 para corrigir o bug JDK-8293562 do JDK.
- [SPARK-46261]
DataFrame.withColumnsRenamed
deve manter a ordenação de dicionário/mapa. - [SPARK-46538] Corrige o problema de referência de coluna ambígua em
ALSModel.transform
. - [SPARK-46145] O spark.catalog.listTables não gera exceção quando a tabela ou exibição não é encontrada.
- [SPARK-46484] Faz com que as funções auxiliares
resolveOperators
mantenham a ID do plano. - [SPARK-46394] Corrige problemas do spark.catalog.listDatabases() em esquemas com caracteres especiais quando
spark.sql.legacy.keepCommandOutputSchema
está definido como “true”. - [SPARK-46609] Evita a explosão exponencial em PartitioningPreservingUnaryExecNode.
- [SPARK-46446] Desabilita as subconsultas com OFFSET correlacionado para corrigir o bug de correção.
- [SPARK-46152] XML: Adiciona suporte a DecimalType na inferência de esquema XML.
- [SPARK-46602] Propaga
allowExisting
na criação da exibição quando a exibição/tabela não existir. - [SPARK-45814] Faz com que ArrowConverters.createEmptyArrowBatch chame close() para evitar perda de memória.
- [SPARK-46058] Adiciona um sinalizador separado para privateKeyPassword.
- [SPARK-46132] Suporte a senha de chave para chaves JKS para SSL de RPC.
- [SPARK-46600] Move o código compartilhado entre SqlConf e SqlApiConf para SqlApiConfHelper.
- [SPARK-46478] Reverte SPARK-43049 para usar oracle varchar(255) para cadeia de caracteres.
- [SPARK-46417] Não gera falha ao chamar hive.getTable quando throwException for false.
- [SPARK-46153] XML: Adiciona suporte ao TimestampNTZType.
- [SPARK-46056][BACKPORT] Corrigir NPE na leitura vetorial do Parquet com o valor padrão byteArrayDecimalType.
- [SPARK-46466] O leitor vetorizado de Parquet nunca deve trocar base para o carimbo de data/hora ntz.
- [SPARK-46260]
DataFrame.withColumnsRenamed
deve respeitar a ordem do dicionário. - [SPARK-46036] Remove a classe de erro da função raise_error.
- [SPARK-46294] Limpa a semântica de inicialização versus valor zero.
- [SPARK-46173] Ignora a chamada trimAll durante a análise de data.
- [SPARK-46250] Estabiliza test_parity_listener.
- [SPARK-46587] XML: Corrige a conversão de inteiros grandes XSD.
- [SPARK-46396] A inferência do carimbo de data/hora não deve gerar exceção.
- [SPARK-46241] Corrige a rotina de tratamento de erros para que ela não caia em recursão infinita.
- [SPARK-46355] XML: Fecha InputStreamReader na conclusão da leitura.
- [SPARK-46370] Corrige o bug ao consultar uma tabela depois de alterar os padrões de coluna.
- [SPARK-46265] As declarações na RPC AddArtifact tornam o cliente de conexão incompatível com clusters mais antigos.
- [SPARK-46308] Proibir o tratamento de erros recursivos.
- [SPARK-46337] Faz
CTESubstitution
reter oPLAN_ID_TAG
.
- O nó
- 14 de dezembro de 2023
- [SPARK-46141] Altera o padrão de spark.sql.legacy.ctePrecedencePolicy para CORRECTED.
- [SPARK-45730] Torna o ReloadingX509TrustManagerSuite menos sujeito a flutuações.
- [SPARK-45852] Lida normalmente com o erro de recursão durante o registro em log.
- [SPARK-45808] Melhora o tratamento de erros para exceções de SQL.
- [SPARK-45920] “group by ordinal” deve ser idempotente.
- Reverte "[SPARK-45649] Unifica a estrutura de preparação para
OffsetWindowFunctionFrame
". - [SPARK-45733] Suporte a várias políticas de repetição.
- [SPARK-45509] Corrigido comportamento de referência da coluna df para o Spark Connect.
- [SPARK-45655] Permite expressões não determinísticas dentro de AggregateFunctions em CollectMetrics.
- [SPARK-45905] O tipo menos comum entre tipos decimais deve reter dígitos integrais primeiro.
- [SPARK-45136] Aprimora o ClosureCleaner com suporte a Ammonite.
- [SPARK-46255] Suporte para conversão de tipo complexo –> para cadeia de caracteres.
- [SPARK-45859] Torna os objetos UDF em ml.functions lentos.
- [SPARK-46028] Faz com que
Column.__getitem__
aceite a coluna de entrada. - [SPARK-45798] ID da sessão do lado do servidor Assert.
- [SPARK-45892] Validação do plano do otimizador de refatoração para desconectar
validateSchemaOutput
evalidateExprIdUniqueness
. - [SPARK-45844] Implementar a não diferenciação de maiúsculas de minúsculas para XML.
- [SPARK-45770] Introduz o plano
DataFrameDropColumns
paraDataframe.drop
. - [SPARK-44790] XML: Implementação to_xml e associações para Python, conectividade e SQL.
- [SPARK-45851] Dá suporte a várias políticas no cliente scala.
- Atualizações de segurança do sistema operacional.
- 29 de novembro de 2023
- Instalou um novo pacote
pyarrow-hotfix
para corrigir uma vulnerabilidade do PyArrow RCE. - Corrigido um problema em que os sublinhados com escape em operações de
getColumns
provenientes de clientes JDBC ou ODBC eram interpretados incorretamente como curingas. - [SPARK-45730] Restrições de tempo aprimoradas para
ReloadingX509TrustManagerSuite
. - [SPARK-45852] O cliente do Python para Spark Connect agora captura erros de recursão durante a conversão de texto.
- [SPARK-45808] Melhor tratamento de erro para exceções SQL.
- [SPARK-45920] O ordinal
GROUP BY
não substitui o ordinal. - Reverter [SPARK-45649].
- [SPARK-45733] Suporte adicionado para várias políticas de repetição.
- [SPARK-45509] Comportamento de referência da coluna
df
corrigido para o Spark Connect. - [SPARK-45655] Permitir expressões não determinísticas dentro de
AggregateFunctions
emCollectMetrics
. - [SPARK-45905] O tipo menos comum entre tipos decimais agora retém dígitos integrais primeiro.
- [SPARK-45136] Aprimorar
ClosureCleaner
com suporte ao Ammonite. - [SPARK-45859] Tornou objetos UDF em
ml.functions
lentos. - [SPARK-46028]
Column.__getitem__
aceita colunas de entrada. - [SPARK-45798] ID da sessão do lado do servidor Assert.
- [SPARK-45892] Validação do plano do otimizador de refatoração para desconectar
validateSchemaOutput
evalidateExprIdUniqueness
. - [SPARK-45844] Implementar a não diferenciação de maiúsculas de minúsculas para XML.
- [SPARK-45770] Resolução de coluna corrigida com
DataFrameDropColumns
paraDataframe.drop
. - [SPARK-44790] Associações e implementação de
to_xml
adicionadas para Python, Spark Connect e SQL. - [SPARK-45851] Suporte adicionado para várias políticas no cliente Scala.
- Atualizações de segurança do sistema operacional.
- Instalou um novo pacote
Databricks Runtime 14.0
Consulte Databricks Runtime 14.0 (EoS).
- 08 de fevereiro de 2024
- [SPARK-46396] A inferência do carimbo de data/hora não deve gerar exceção.
- [SPARK-46794] Remover subconsultas de restrições LogicalRDD.
- [SPARK-45182] Ignorar a conclusão da tarefa do estágio antigo depois de tentar novamente o estágio indeterminado pai, conforme determinado pela soma de verificação.
- [SPARK-46933] Adicionar a métrica de tempo de execução da consulta aos conectores que usam JDBCRDD.
- [SPARK-45957] Evitar gerar um plano de execução para comandos não executáveis.
- [SPARK-46861] Evitar deadlock no DAGScheduler.
- [SPARK-46930] Adicionar suporte para um prefixo personalizado para campos de tipo de união no Avro.
- [SPARK-46941] Não é possível inserir o nó de limite do grupo de janelas para a computação top-k se contiver SizeBasedWindowFunction.
- [SPARK-45582] Verificar se a instância do repositório não é usada após chamar a confirmação dentro da agregação de streaming do modo de saída.
- Atualizações de segurança do sistema operacional.
- 31 de janeiro de 2024
- [SPARK-46541] Corrigir a referência de coluna ambígua na autojunção.
- [SPARK-46676] dropDuplicatesWithinWatermark não deve falhar na canonicalização do plano.
- [SPARK-46769] Refinar a inferência de esquema relacionada ao carimbo de data/hora.
- [SPARK-45498] Acompanhamento: Ignorar a conclusão da tarefa de tentativas do estágio antigo.
- Reverter [SPARK-46769] Refinar inferência de esquema relacionada ao carimbo de data/hora.
- [SPARK-46383] Reduzir o uso de heap do driver reduzindo o tempo de vida de
TaskInfo.accumulables()
. - [SPARK-46633] Corrigir o leitor do Avro para manipular blocos de comprimento zero.
- [SPARK-46677] Correção da resolução
dataframe["*"]
. - [SPARK-46684] Corrigir CoGroup.applyInPandas/Arrow para passar argumentos corretamente.
- [SPARK-46763] Corrigir a falha de declaração em ReplaceDeduplicateWithAggregate para atributos duplicados.
- [SPARK-46610] Criar tabela deve gerar exceção se nenhum valor para uma chave for especificado nas opções.
- Atualizações de segurança do sistema operacional.
- 17 de janeiro de 2024
- O nó
shuffle
do plano explicativo retornado por uma consulta do Photon é atualizado para adicionar o sinalizadorcausedBroadcastJoinBuildOOM=true
quando ocorre um erro de falta de memória durante a operação de shuffle que faz parte de uma junção de transmissão. - Para evitar maior latência ao se comunicar pelo TLSv1.3, essa versão de manutenção inclui um patch para a instalação do JDK 8 para corrigir o bug JDK-8293562 do JDK.
- [SPARK-46394] Corrige problemas do spark.catalog.listDatabases() em esquemas com caracteres especiais quando
spark.sql.legacy.keepCommandOutputSchema
está definido como “true”. - [SPARK-46250] Estabiliza test_parity_listener.
- [SPARK-45814] Faz com que ArrowConverters.createEmptyArrowBatch chame close() para evitar perda de memória.
- [SPARK-46173] Ignora a chamada trimAll durante a análise de data.
- [SPARK-46484] Faz com que as funções auxiliares
resolveOperators
mantenham a ID do plano. - [SPARK-46466] O leitor vetorizado de Parquet nunca deve trocar base para o carimbo de data/hora ntz.
- [SPARK-46056] Correção do NPE de leitura vetorizada do Parquet com valor padrão byteArrayDecimalType.
- [SPARK-46058] Adiciona um sinalizador separado para privateKeyPassword.
- [SPARK-46478] Reverte SPARK-43049 para usar oracle varchar(255) para cadeia de caracteres.
- [SPARK-46132] Suporte a senha de chave para chaves JKS para SSL de RPC.
- [SPARK-46417] Não gera falha ao chamar hive.getTable quando throwException for false.
- [SPARK-46261]
DataFrame.withColumnsRenamed
deve manter a ordenação de dicionário/mapa. - [SPARK-46370] Corrige o bug ao consultar uma tabela depois de alterar os padrões de coluna.
- [SPARK-46609] Evita a explosão exponencial em PartitioningPreservingUnaryExecNode.
- [SPARK-46600] Move o código compartilhado entre SqlConf e SqlApiConf para SqlApiConfHelper.
- [SPARK-46538] Corrige o problema de referência de coluna ambígua em
ALSModel.transform
. - [SPARK-46337] Faz
CTESubstitution
reter oPLAN_ID_TAG
. - [SPARK-46602] Propaga
allowExisting
na criação da exibição quando a exibição/tabela não existir. - [SPARK-46260]
DataFrame.withColumnsRenamed
deve respeitar a ordem do dicionário. - [SPARK-46145] O spark.catalog.listTables não gera exceção quando a tabela ou exibição não é encontrada.
- O nó
- 14 de dezembro de 2023
- Correção de um problema em que os sublinhados escapados nas operações getColumns provenientes de clientes JDBC ou ODBC eram tratados incorretamente e interpretados como curingas.
- [SPARK-46255] Suporte para conversão de tipo complexo –> para cadeia de caracteres.
- [SPARK-46028] Faz com que
Column.__getitem__
aceite a coluna de entrada. - [SPARK-45920] “group by ordinal” deve ser idempotente.
- [SPARK-45433] Corrige a inferência de esquema CSV/JSON quando os carimbos de data/hora não correspondem ao timestampFormat especificado.
- [SPARK-45509] Corrigido comportamento de referência da coluna df para o Spark Connect.
- Atualizações de segurança do sistema operacional.
- 29 de novembro de 2023
- Instalou um novo pacote
pyarrow-hotfix
para corrigir uma vulnerabilidade do PyArrow RCE. - Corrigido um problema em que os sublinhados com escape em operações de
getColumns
provenientes de clientes JDBC ou ODBC eram interpretados incorretamente como curingas. - Ao ingerir dados CSV usando o Carregador Automático ou tabelas de streaming, os arquivos CSV grandes agora podem ser divididos e podem ser processados em paralelo durante a inferência de esquema e o processamento de dados.
- O conector Spark-Snowflake foi atualizado para 2.12.0.
- [SPARK-45859] Tornou objetos UDF em
ml.functions
lentos. - Reverter [SPARK-45592].
- [SPARK-45892] Validação do plano do otimizador de refatoração para desconectar
validateSchemaOutput
evalidateExprIdUniqueness
. - [SPARK-45592] Corrigido problema de correção no AQE com
InMemoryTableScanExec
. - [SPARK-45620] As APIs relacionadas ao UDF do Python agora usam camelCase.
- [SPARK-44784] Tornou o teste do SBT hermético.
- [SPARK-45770] Resolução de coluna corrigida com
DataFrameDropColumns
paraDataframe.drop
. - [SPARK-45544] Suporte integrado a SSL em
TransportContext
. - [SPARK-45730] Restrições de tempo aprimoradas para
ReloadingX509TrustManagerSuite
. - Atualizações de segurança do sistema operacional.
- Instalou um novo pacote
- 10 de novembro de 2023
- Consultas de feed de dados alteradas em tabelas de streaming do Catálogo do Unity e exibições materializadas para exibir mensagens de erro.
- [SPARK-45545]
SparkTransportConf
herdaSSLOptions
na criação. - [SPARK-45584] Falha de execução corrigida de subconsulta com
TakeOrderedAndProjectExec
. - [SPARK-45427] Configurações adicionadas de RPC SSL para
SSLOptions
eSparkTransportConf
. - [SPARK-45541]
SSLFactory
adicionado. - [SPARK-45430]
FramelessOffsetWindowFunction
não falha mais quandoIGNORE NULLS
eoffset > rowCount
. - [SPARK-45429] Classes auxiliares adicionadas para comunicação SSL RPC.
- [SPARK-44219] Validações extras por regra adicionadas para regravações de otimização.
- [SPARK-45543] Corrigido um problema em que
InferWindowGroupLimit
gerava um erro se as outras funções de janela não tivessem a mesma moldura de janela que as funções de classificação. - Atualizações de segurança do sistema operacional.
- 23 de outubro de 2023
- [SPARK-45426] Suporte adicionado para
ReloadingX509TrustManager
. - [SPARK-45396] Entrada de documento adicionada para o módulo
PySpark.ml.connect
eEvaluator
adicionado a__all__
emml.connect
. - [SPARK-45256] Corrigido um problema em que
DurationWriter
falhava ao gravar mais valores do que a capacidade inicial. - [SPARK-45279]
plan_id
anexado a todos os planos lógicos. - [SPARK-45250] Suporte adicionado para perfil de recurso de tarefa em nível de estágio para clusters de fios quando a alocação dinâmica está desabilitada.
- [SPARK-45182] Suporte adicionado para reverter o estágio do mapa aleatório para que todas as tarefas do estágio possam ser repetidas quando a saída do estágio for indeterminada.
- [SPARK-45419] Evite reutilização de arquivos
rocksdb sst
em uma instânciarocksdb
diferente removendo as entradas do mapa de versão do arquivo de versões maiores. - [SPARK-45386] Corrigido um problema em que
StorageLevel.NONE
retornava incorretamente 0. - Atualizações de segurança do sistema operacional.
- [SPARK-45426] Suporte adicionado para
- 13 de outubro de 2023
- A dependência snowflake-jdbc foi atualizada de 3.13.29 para a 3.13.33.
- A função
array_insert
é baseada em 1 para índices positivos e negativos, mas antes ela era baseada em 0 para índices negativos. Agora ela insere um novo elemento no final das matrizes de entrada para o índice -1. Para restaurar o comportamento anterior, definaspark.sql.legacy.negativeIndexInArrayInsert
comotrue
. - O Azure Databricks não ignora mais arquivos corrompidos quando uma inferência de esquema CSV com o Carregador Automático tiver habilitado
ignoreCorruptFiles
. - [SPARK-45227] Corrigido um problema sutil de thread-safety com
CoarseGrainedExecutorBackend
. - [SPARK-44658]
ShuffleStatus.getMapStatus
deve retornarNone
em vez deSome(null)
. - [SPARK-44910]
Encoders.bean
não dá suporte a superclasses com argumentos de tipo genérico. - [SPARK-45346] A inferência de esquema Parquet respeita sinalizadores que diferenciam maiúsculas de minúsculas ao mesclar o esquema.
- Reverter [SPARK-42946].
- [SPARK-42205] Atualizado o protocolo JSON para remover o registro em log de acumuladores em uma tarefa ou eventos de início de estágio.
- [SPARK-45360] Construtor de sessão do Spark dá suporte à inicialização a partir de
SPARK_REMOTE
. - [SPARK-45316] Adicionar novos parâmetros
ignoreCorruptFiles
/ignoreMissingFiles
paraHadoopRDD
eNewHadoopRDD
. - [SPARK-44909] Ignorar o servidor de streaming de log do distribuidor de torch em execução quando ele não estiver disponível.
- [SPARK-45084]
StateOperatorProgress
agora usa o número de partição de aleatório preciso. - [SPARK-45371] Corrigidos os problemas de sombreamento no cliente Scala do Spark Connect.
- [SPARK-45178] Fallback para executar um lote único para
Trigger.AvailableNow
com fontes sem suporte em vez de usar o wrapper. - [SPARK-44840] Torna
array_insert()
baseado em 1 para índices negativos. - [SPARK-44551] Comentários editados para sincronizar com o OSS.
- [SPARK-45078] Agora, a função
ArrayInsert
torna a conversão explícita quando o tipo de elemento não é igual ao tipo de componente derivado. - [SPARK-45339] Agora, o PySpark registra erros de repetição.
- [SPARK-45057] Evita adquirir o bloqueio de leitura quando
keepReadLock
for falso. - [SPARK-44908] Corrigida a funcionalidade do parâmetro
foldCol
de validador cruzado. - Atualizações de segurança do sistema operacional.
Databricks Runtime 13.1
Consulte Databricks Runtime 13.1 (EoS).
- 29 de novembro de 2023
- Corrigido um problema em que os sublinhados com escape em operações de
getColumns
provenientes de clientes JDBC ou ODBC eram interpretados incorretamente como curingas. - [SPARK-44846] Removidas expressões de agrupamento complexas após
RemoveRedundantAggregates
. - [SPARK-43802] Corrigido um problema em que o codegen para expressões unhex e unbase64 falhava.
- [SPARK-43718] Corrigida a nulidade de chaves em junções de
USING
. - Atualizações de segurança do sistema operacional.
- Corrigido um problema em que os sublinhados com escape em operações de
- 14 de novembro de 2023
- Os filtros de partição nas consultas de streaming do Delta Lake são empurrados para baixo antes do limite de taxa para obter uma melhor utilização.
- Consultas de feed de dados alteradas em tabelas de streaming do catálogo do Unity e exibições materializadas para exibir mensagens de erro.
- [SPARK-45584] Falha de execução corrigida de subconsulta com
TakeOrderedAndProjectExec
. - [SPARK-45430]
FramelessOffsetWindowFunction
não falha mais quandoIGNORE NULLS
eoffset > rowCount
. - [SPARK-45543] Corrigido um problema em que
InferWindowGroupLimit
causava um problema se as outras funções de janela não tivessem o mesmo quadro de janela que as funções de classificação. - Atualizações de segurança do sistema operacional.
- 24 de outubro de 2023
- [SPARK-43799] Adicionada a opção binária de descritor à API
Protobuf
do PySpark. - Reverter [SPARK-42946].
- [SPARK-45346] Agora, a inferência do esquema Parquet respeita o sinalizador que diferencia maiúsculas de minúsculas ao mesclar um esquema.
- Atualizações de segurança do sistema operacional.
- [SPARK-43799] Adicionada a opção binária de descritor à API
- 13 de outubro de 2023
- A dependência snowflake-jdbc foi atualizada de 3.13.29 para a 3.13.33.
- Não ignore mais arquivos corrompidos quando
ignoreCorruptFiles
estiver habilitado durante a inferência de esquema CSV com o Carregador Automático. - [SPARK-44658]
ShuffleStatus.getMapStatus
retornaNone
em vez deSome(null)
. - [SPARK-45178] Fallback para executar um lote único para
Trigger.AvailableNow
com fontes sem suporte em vez de usar o wrapper. - [SPARK-42205] Atualizado o protocolo JSON para remover o registro em log de acumuladores em uma tarefa ou eventos de início de estágio.
- Atualizações de segurança do sistema operacional.
- 12 de setembro de 2023
- [SPARK-44718] Corresponder o padrão de configuração do modo de memória
ColumnVector
ao valor de configuraçãoOffHeapMemoryMode
. - SPARK-44878 Desabilitado o limite estrito do gerenciador de gravação do
RocksDB
para evitar a exceção de inserção no cache concluído. - Correções diversas.
- [SPARK-44718] Corresponder o padrão de configuração do modo de memória
- 30 de agosto de 2023
- [SPARK-44871] Comportamento percentile_disc corrigido.
- [SPARK-44714] Facilidade de restrição da resolução LCA em relação às consultas.
- [SPARK-44245]
PySpark.sql.dataframe sample()
os testes de documentação agora são somente ilustrativos. - [SPARK-44818] Correção da disputa para interrupção de tarefa pendente emitida antes
taskThread
de ser inicializado. - Atualizações de segurança do sistema operacional.
- 15 de agosto de 2023
- [SPARK-44485]
TreeNode.generateTreeString
otimizado. - [SPARK-44643]
Row.__repr__
corrigido quando a linha estiver vazia. - [SPARK-44504] A tarefa de manutenção agora limpa os provedores carregados em caso de erro de parada.
- [SPARK-44479] Conversão de
protobuf
corrigida de um tipo de estrutura vazia. - [SPARK-44464]
applyInPandasWithStatePythonRunner
corrigido para linhas de saída que têmNull
como o valor da primeira coluna. - Correções diversas.
- [SPARK-44485]
- 27 de julho de 2023
- Foi corrigido um problema em que
dbutils.fs.ls()
retornavaINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
quando chamado para um caminho de local de armazenamento que entrava em conflito com outro local de armazenamento externo ou gerenciado. - [SPARK-44199]
CacheManager
não atualiza mais ofileIndex
desnecessariamente. - [SPARK-44448] Corrigido o bug de resultados errados de
DenseRankLimitIterator
eInferWindowGroupLimit
. - Atualizações de segurança do sistema operacional.
- Foi corrigido um problema em que
- 24 de julho de 2023
- Reverter [SPARK-42323].
- [SPARK-41848]Corrigido o problema de excesso de agendamento de tarefas com
TaskResourceProfile
. - [SPARK-44136] Corrigido um problema em que
StateManager
era materializado em um executor em vez do driver emFlatMapGroupsWithStateExec
. - [SPARK-44337] Corrigido um problema em que qualquer campo definido como
Any.getDefaultInstance
causava erros de análise. - Atualizações de segurança do sistema operacional.
- 27 de junho de 2023
- Atualizações de segurança do sistema operacional.
- 15 de junho de 2023
approx_count_distinct
fotonizado.- Agora, o analisador de JSON no modo
failOnUnknownFields
descarta um registro no modoDROPMALFORMED
e tem uma falha direta no modoFAILFAST
. - A biblioteca Snowflake-jdbc foi atualizada para 3.13.29 para que fosse resolvido um problema de segurança.
- Para uma serialização e a desserialização direta, o campo de atributos
PubSubRecord
é armazenado como JSON em vez de cadeia de caracteres de um mapa Scala. - Agora, o comando
EXPLAIN EXTENDED
retorna a qualificação do cache de resultados da consulta. - Aprimoramento do desempenho da atualizações incrementais com Iceberg e Parquet
SHALLOW CLONE
. - [SPARK-43032] Correção de bugs do SQM do Python.
- [SPARK-43404] Ignorar a reutilização do arquivo SST para a mesma versão do armazenamento de estado do RocksDB para evitar erro de incompatibilidade de ID.
- [SPARK-43340] Lidar com o campo de rastreamento de pilha ausente em eventlogs.
- [SPARK-43527] Corrigido
catalog.listCatalogs
no PySpark. - [SPARK-43541] Propagar todas as marcas
Project
na resolução de expressões e colunas ausentes. - [SPARK-43300]
NonFateSharingCache
O wrapper para o cache Guava. - [SPARK-43378] Fechar corretamente os objetos de fluxo em
deserializeFromChunkedBuffer
. - [SPARK-42852] Reverter alterações relacionadas a
NamedLambdaVariable
deEquivalentExpressions
. - [SPARK-43779]
ParseToDate
Agora, carregaEvalMode
no thread principal. - [SPARK-43413] Corrigida a subconsulta
IN
da nulidadeListQuery
. - [SPARK-43889] Adicionar uma verificação para o nome da coluna de
__dir__()
para filtrar nomes de coluna propensos a erros. - [SPARK-43043] Aprimoramento do desempenho de
MapOutputTracker
.updateMapOutput - [SPARK-43522] Corrigida a criação de nome da coluna struct com índice de matriz.
- [SPARK-43457] Agente de usuário de argumento com versões do sistema operacional, Python e Spark.
- [SPARK-43286] Modo CBC
aes_encrypt
atualizado para gerar IVs aleatórios. - [SPARK-42851] Proteger
EquivalentExpressions.addExpr()
comsupportedExpression()
. - Reverter [SPARK-43183].
- Atualizações de segurança do sistema operacional.
Databricks Runtime 12.2 LTS
Confira Databricks Runtime 12.2 LTS.
- 29 de novembro de 2023
- Corrigido um problema em que os sublinhados com escape em operações de
getColumns
provenientes de clientes JDBC ou ODBC eram interpretados incorretamente como curingas. - [SPARK-42205] Removidos os acumuladores de log nos eventos de início
Stage
eTask
. - [SPARK-44846] Removidas expressões de agrupamento complexas após
RemoveRedundantAggregates
. - [SPARK-43718] Corrigida a nulidade de chaves em junções de
USING
. - [SPARK-45544] Suporte integrado a SSL em
TransportContext
. - [SPARK-43973] A interface do usuário do Fluxo Estruturado agora exibe corretamente as consultas com falha.
- [SPARK-45730] Restrições de tempo aprimoradas para
ReloadingX509TrustManagerSuite
. - [SPARK-45859] Tornou objetos UDF em
ml.functions
lentos. - Atualizações de segurança do sistema operacional.
- Corrigido um problema em que os sublinhados com escape em operações de
- 14 de novembro de 2023
- Os filtros de partição nas consultas de streaming do Delta Lake são empurrados para baixo antes do limite de taxa para obter uma melhor utilização.
- [SPARK-45545]
SparkTransportConf
herdaSSLOptions
na criação. - [SPARK-45427] Configurações adicionadas de RPC SSL para
SSLOptions
eSparkTransportConf
. - [SPARK-45584] Falha de execução corrigida de subconsulta com
TakeOrderedAndProjectExec
. - [SPARK-45541]
SSLFactory
adicionado. - [SPARK-45430]
FramelessOffsetWindowFunction
não falha mais quandoIGNORE NULLS
eoffset > rowCount
. - [SPARK-45429] Classes auxiliares adicionadas para comunicação SSL RPC.
- Atualizações de segurança do sistema operacional.
- 24 de outubro de 2023
- [SPARK-45426] Suporte adicionado para
ReloadingX509TrustManager
. - Correções diversas.
- [SPARK-45426] Suporte adicionado para
- 13 de outubro de 2023
- A dependência snowflake-jdbc foi atualizada de 3.13.29 para a 3.13.33.
- [SPARK-42553] Garantir pelo menos uma unidade de tempo após o intervalo.
- [SPARK-45346] A inferência de esquema Parquet respeita o sinalizador que diferencia maiúsculas de minúsculas ao mesclar o esquema.
- [SPARK-45178] Fallback para executar um lote único para
Trigger.AvailableNow
com fontes sem suporte em vez de usar o wrapper. - [SPARK-45084]
StateOperatorProgress
para usar um número de partição de ordem aleatória preciso e adequado.
- 12 de setembro de 2023
- [SPARK-44873] Suporte adicionado para
alter view
com colunas aninhadas no cliente Hive. - [SPARK-44718] Corresponder o padrão de configuração do modo de memória
ColumnVector
ao valor de configuraçãoOffHeapMemoryMode
. - [SPARK-43799] Adicionada a opção binária de descritor à API
Protobuf
do PySpark. - Correções diversas.
- [SPARK-44873] Suporte adicionado para
- 30 de agosto de 2023
- [SPARK-44485]
TreeNode.generateTreeString
otimizado. - [SPARK-44818] Correção da disputa para interrupção de tarefa pendente emitida antes
taskThread
de ser inicializado. - [SPARK-44871][11.3-13.0] Comportamento
percentile_disc
corrigido. - [SPARK-44714] Restrição facilitada da resolução LCA em relação a consultas.
- Atualizações de segurança do sistema operacional.
- [SPARK-44485]
- 15 de agosto de 2023
- [SPARK-44504] A tarefa de manutenção limpa os provedores carregados em caso de erro de parada.
- [SPARK-44464]
applyInPandasWithStatePythonRunner
corrigido para linhas de saída que têmNull
como o valor da primeira coluna. - Atualizações de segurança do sistema operacional.
- 29 de julho de 2023
- Foi corrigido um problema em que
dbutils.fs.ls()
retornavaINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
quando chamado para um caminho de local de armazenamento que entrava em conflito com outro local de armazenamento externo ou gerenciado. - [SPARK-44199]
CacheManager
não atualiza mais ofileIndex
desnecessariamente. - Atualizações de segurança do sistema operacional.
- Foi corrigido um problema em que
- 24 de julho de 2023
- [SPARK-44337] Corrigido um problema em que qualquer campo definido como
Any.getDefaultInstance
causava erros de análise. - [SPARK-44136] Corrigido um problema em que
StateManager
era materializado em um executor em vez do driver emFlatMapGroupsWithStateExec
. - Atualizações de segurança do sistema operacional.
- [SPARK-44337] Corrigido um problema em que qualquer campo definido como
- 23 de junho de 2023
- Atualizações de segurança do sistema operacional.
- 15 de junho de 2023
approx_count_distinct
fotonizado.- A biblioteca Snowflake-jdbc foi atualizada para 3.13.29 para que fosse resolvido um problema de segurança.
- [SPARK-43779] Agora,
ParseToDate
carregaEvalMode
no thread principal. - [SPARK-43156][SPARK-43098] Teste de erro de contagem de subconsultas escalar estendida com
decorrelateInnerQuery
desativado. - Atualizações de segurança do sistema operacional.
- 2 de junho de 2023
- O analisador JSON no modo
failOnUnknownFields
descarta um registro no modoDROPMALFORMED
e falha diretamente no modoFAILFAST
. - Aprimoramento do desempenho da atualizações incrementais com Iceberg e Parquet
SHALLOW CLONE
. - Corrigido um problema no Carregador Automático em que diferentes formatos de arquivo de origem eram inconsistentes quando o esquema fornecido não incluía partições inferidas. Esse problema pode causar falhas inesperadas ao ler arquivos com colunas ausentes no esquema de partição inferido.
- [SPARK-43404] Ignorar a reutilização do arquivo SST para a mesma versão do armazenamento de estado do RocksDB para evitar erro de incompatibilidade de ID.
- [SPARK-43413][11.3-13.0] Corrigida a subconsulta
IN
da nulidadeListQuery
. - [SPARK-43522] Corrigida a criação de nome da coluna struct com índice de matriz.
- [SPARK-43541] Propagar todas as marcas
Project
na resolução de expressões e colunas ausentes. - [SPARK-43527] Corrigido
catalog.listCatalogs
no PySpark. - [SPARK-43123] Os metadados de campos internos não vazam mais para os catálogos.
- [SPARK-43340] Corrigido o campo de rastreamento de pilha ausente em eventlogs.
- [SPARK-42444]
DataFrame.drop
agora lida com colunas duplicadas corretamente. - [SPARK-42937]
PlanSubqueries
agora defineInSubqueryExec#shouldBroadcast
como true. - [SPARK-43286] Modo CBC
aes_encrypt
atualizado para gerar IVs aleatórios. - [SPARK-43378] Fechar corretamente os objetos de fluxo em
deserializeFromChunkedBuffer
.
- O analisador JSON no modo
- 17 de maio de 2023
- As verificações parquet agora são robustas em relação aos OOMs ao verificar arquivos excepcionalmente estruturados ajustando dinamicamente o tamanho do lote. Os metadados de arquivo são analisados para reduzir preventivamente o tamanho do lote e são reduzidos novamente em tentativas de tarefa como uma rede de segurança final.
- Se um arquivo Avro fosse lido apenas com a opção
failOnUnknownFields\
ou com o Carregador Automático no modo de evolução do esquemafailOnNewColumns\
, as colunas que têm tipos de dados diferentes seriam lidas comonull\
em vez de gerar um erro informando que o arquivo não pode ser lido. Essas leituras agora falham e recomendam que os usuários usem a opçãorescuedDataColumn\
. - O Carregador Automático agora faz o seguinte.
-
- Lê corretamente e não resgata mais os tipos
Integer
,Short
,Byte
se um desses tipos de dados for fornecido, mas o arquivo Avro sugere um dos outros dois tipos.
- Lê corretamente e não resgata mais os tipos
-
- Impede a leitura de tipos de intervalo como tipos de data ou carimbo de data/hora para evitar a obtenção de datas corrompidas.
-
- Impede tipos de leitura
Decimal
com precisão mais baixa.
- Impede tipos de leitura
- [SPARK-43172] Expõe o host e o token do cliente do Spark Connect.
- [SPARK-43293]
__qualified_access_only
é ignorado em colunas normais. - [SPARK-43098] Corrigido o bug
COUNT
de correção quando a subconsulta escalar é agrupada por cláusula. - [SPARK-43085] Suporte para atribuição de coluna
DEFAULT
para nomes de tabela de várias partes. - [SPARK-43190]
ListQuery.childOutput
já é consistente com a saída secundária. - [SPARK-43192] Removida a validação do conjunto de caracteres do agente de usuário.
- Atualizações de segurança do sistema operacional.
- 25 de abril de 2023
- Se um arquivo Parquet fosse lido apenas com a opção
failOnUnknownFields
ou com o Carregador Automático no modo de evolução do esquemafailOnNewColumns
, as colunas que têm tipos de dados diferentes seriam lidas comonull
em vez de gerar um erro informando que o arquivo não pode ser lido. Essas leituras agora falham e recomendam que os usuários usem a opçãorescuedDataColumn
. - O Carregador Automático agora lê corretamente e não resgata mais os tipos
Integer
,Short
,Byte
se um desses tipos de dados for fornecido. O arquivo Parquet sugere um dos outros dois tipos. Quando a coluna de dados resgatados foi habilitada anteriormente, a incompatibilidade de tipo de dados faria com que as colunas fossem salvas mesmo que fossem legíveis. - [SPARK-43009]
sql()
parametrizado com constantesAny
- [SPARK-42406] Encerrar campos recursivos do Protobuf removendo o campo
- [SPARK-43038] Suporte ao modo GCM por
aes_encrypt()
/aes_decrypt()
- [SPARK-42971] Alterar para imprimir
workdir
seappDirs
for nulo quando o evento de identificadorWorkDirCleanup
de trabalho - [SPARK-43018] Corrigir o bug para comandos INSERT com literais de carimbo de data/hora
- Atualizações de segurança do sistema operacional.
- Se um arquivo Parquet fosse lido apenas com a opção
- 11 de abril de 2023
- Suporte a formatos de fonte de dados herdados no comando
SYNC
. - Corrige um problema no comportamento %autoreload em notebooks fora de um repositório.
- Correção de um problema em que a evolução do esquema do Carregador Automático pode entrar em um loop de falha infinito quando uma nova coluna é detectada no esquema de um objeto JSON aninhado.
- [SPARK-42928] Torna
resolvePersistentFunction
sincronizado. - [SPARK-42936] Corrige o problema de LCA quando a cláusula pode ser resolvida diretamente por sua agregação filho.
- [SPARK-42967] Corrige
SparkListenerTaskStart.stageAttemptId
quando uma tarefa é iniciada após o cancelamento do estágio. - Atualizações de segurança do sistema operacional.
- Suporte a formatos de fonte de dados herdados no comando
- 29 de março de 2023
O Databricks SQL agora dá suporte à especificação de valores padrão para colunas de tabelas do Delta Lake, seja no momento da criação da tabela ou posteriormente. Os comandos
INSERT
,UPDATE
,DELETE
, eMERGE
subsequentes podem se referir ao valor padrão de uma coluna usando a palavra-chaveDEFAULT
explícita. Além disso, se qualquer atribuiçãoINSERT
tiver uma lista explícita de menos colunas do que a tabela de destino, os valores padrão de coluna correspondentes serão substituídos pelas colunas restantes (ou NULL se nenhum padrão for especificado).Por exemplo:
CREATE TABLE t (first INT, second DATE DEFAULT CURRENT_DATE()); INSERT INTO t VALUES (0, DEFAULT); INSERT INTO t VALUES (1, DEFAULT); SELECT first, second FROM t; \> 0, 2023-03-28 1, 2023-03-28z
O Carregador Automático agora inicia pelo menos um log do RocksDB síncrono limpo para fluxos
Trigger.AvailableNow
para verificar se o ponto de verificação pode ser limpo regularmente para fluxos do Carregador Automático em execução rápida. Isso pode fazer com que alguns fluxos levem mais tempo antes de serem desligados, mas economizarão custos de armazenamento e aprimorarão a experiência do Carregador Automático em execuções futuras.Agora você pode modificar uma tabela Delta para adicionar suporte a recursos de tabela usando
DeltaTable.addFeatureSupport(feature_name)
.[SPARK-42794] Aumentar o lockAcquireTimeoutMs para 2 minutos para adquirir o repositório de estado RocksDB no Fluxo Estruturado
[SPARK-42521] Adicionar NULLs para INSERTSs com listas especificadas pelo usuário de menos colunas do que a tabela de destino
[SPARK-42702][SPARK-42623] Suporte à consulta parametrizada em subconsulta e CTE
[SPARK-42668] Capturar exceção ao tentar fechar o fluxo compactado na interrupção de HDFSStateStoreProvider
[SPARK-42403] JsonProtocol deve lidar com cadeias de caracteres JSON nulas
- 8 de março de 2023
- A mensagem de erro "Falha ao inicializar a configuração" foi aprimorada para fornecer mais contexto para o cliente.
- Há uma alteração de terminologia para adicionar recursos a uma tabela Delta usando a propriedade table. A sintaxe preferencial agora
'delta.feature.featureName'='supported'
é em vez de'delta.feature.featureName'='enabled'
. Para compatibilidade com versões anteriores, o uso de'delta.feature.featureName'='enabled'
ainda funciona e continuará funcionando. - A partir desta versão, é possível criar/substituir uma tabela por uma propriedade
delta.ignoreProtocolDefaults
de tabela adicional para ignorar configurações do Spark relacionadas ao protocolo, que inclui versões de leitor e gravador padrão, bem como recursos de tabela com suporte por padrão. - [SPARK-42070] Alterar o valor padrão da função Mask de -1 para NULL
- [SPARK-41793] Resultado incorreto para quadros de janela definidos por uma cláusula de intervalo em decimais significantes
- [SPARK-42484] Mensagem de erro UnsafeRowUtils aprimorada
- [SPARK-42516] Sempre capturar a configuração de fuso horário da sessão ao criar exibições
- [SPARK-42635] Corrigir a expressão TimestampAdd.
- [SPARK-42622] Substituição desativada em valores
- [SPARK-42534] Corrigir cláusula DB2Dialect Limit
- [SPARK-42121] Adicionar funções internas com valor de tabela posexplode, posexplode_outer, json_tuple e stack
- [SPARK-42045] Modo ANSI SQL: Round/Bround deve retornar um erro no estouro de inteiro minúsculo/pequeno/grande
- Atualizações de segurança do sistema operacional.
Databricks Runtime 11.3 LTS
Confira Databricks Runtime 11.3 LTS.
- 29 de novembro de 2023
- Corrigido um problema em que os sublinhados com escape em operações de
getColumns
provenientes de clientes JDBC ou ODBC eram interpretados incorretamente como curingas. - [SPARK-43973] A interface do usuário do Fluxo Estruturado agora exibe corretamente as consultas com falha.
- [SPARK-45730] Restrições de tempo aprimoradas para
ReloadingX509TrustManagerSuite
. - [SPARK-45544] Suporte integrado a SSL em
TransportContext
. - [SPARK-45859] Tornou objetos UDF em
ml.functions
lentos. - [SPARK-43718] Corrigida a nulidade de chaves em junções de
USING
. - [SPARK-44846] Removidas expressões de agrupamento complexas após
RemoveRedundantAggregates
. - Atualizações de segurança do sistema operacional.
- Corrigido um problema em que os sublinhados com escape em operações de
- 14 de novembro de 2023
- Os filtros de partição nas consultas de streaming do Delta Lake são empurrados para baixo antes do limite de taxa para obter uma melhor utilização.
- [SPARK-42205] Removidos os acumuladores de log nos eventos de início Stage e Task.
- [SPARK-45545]
SparkTransportConf
herdaSSLOptions
na criação. - Reverter [SPARK-33861].
- [SPARK-45541]
SSLFactory
adicionado. - [SPARK-45429] Classes auxiliares adicionadas para comunicação SSL RPC.
- [SPARK-45584] Falha de execução corrigida de subconsulta com
TakeOrderedAndProjectExec
. - [SPARK-45430]
FramelessOffsetWindowFunction
não falha mais quandoIGNORE NULLS
eoffset > rowCount
. - [SPARK-45427] Configurações adicionadas de RPC SSL para
SSLOptions
eSparkTransportConf
. - Atualizações de segurança do sistema operacional.
- 24 de outubro de 2023
- [SPARK-45426] Suporte adicionado para
ReloadingX509TrustManager
. - Correções diversas.
- [SPARK-45426] Suporte adicionado para
- 13 de outubro de 2023
- A dependência snowflake-jdbc foi atualizada de 3.13.29 para a 3.13.33.
- [SPARK-45178] Fallback para executar um lote único para
Trigger.AvailableNow
com fontes sem suporte em vez de usar o wrapper. - [SPARK-45084]
StateOperatorProgress
para usar um número de partição de ordem aleatória preciso e adequado. - [SPARK-45346] Agora, a inferência do esquema Parquet respeita o sinalizador que diferencia maiúsculas de minúsculas ao mesclar um esquema.
- Atualizações de segurança do sistema operacional.
- 10 de setembro de 2023
- Correções diversas.
- 30 de agosto de 2023
- [SPARK-44818] Correção da disputa para interrupção de tarefa pendente emitida antes
taskThread
de ser inicializado. - [SPARK-44871][11.3-13.0] Comportamento
percentile_disc
corrigido. - Atualizações de segurança do sistema operacional.
- [SPARK-44818] Correção da disputa para interrupção de tarefa pendente emitida antes
- 15 de agosto de 2023
- [SPARK-44485]
TreeNode.generateTreeString
otimizado. - [SPARK-44504] A tarefa de manutenção limpa os provedores carregados em caso de erro de parada.
- [SPARK-44464]
applyInPandasWithStatePythonRunner
corrigido para linhas de saída que têmNull
como o valor da primeira coluna. - Atualizações de segurança do sistema operacional.
- [SPARK-44485]
- 27 de julho de 2023
- Foi corrigido um problema em que
dbutils.fs.ls()
retornavaINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
quando chamado para um caminho de local de armazenamento que entrava em conflito com outro local de armazenamento externo ou gerenciado. - [SPARK-44199]
CacheManager
não atualiza mais ofileIndex
desnecessariamente. - Atualizações de segurança do sistema operacional.
- Foi corrigido um problema em que
- 24 de julho de 2023
- [SPARK-44136] Corrigido um problema em que o StateManager podia ser materializado no executor em vez de no driver em FlatMapGroupsWithStateExec.
- Atualizações de segurança do sistema operacional.
- 23 de junho de 2023
- Atualizações de segurança do sistema operacional.
- 15 de junho de 2023
approx_count_distinct
fotonizado.- A biblioteca Snowflake-jdbc foi atualizada para 3.13.29 para que fosse resolvido um problema de segurança.
- [SPARK-43779] Agora,
ParseToDate
carregaEvalMode
no thread principal. - [SPARK-40862] Suportar subconsultas não agregadas em RewriteCorrelatedScalarSubquery
- [SPARK-43156][SPARK-43098] Teste de bug de contagem de subconsultas escalar estendida com
decorrelateInnerQuery
desativado. - [SPARK-43098] Corrige o bug COUNT de correção quando a subconsulta escalar tiver uma cláusula group by
- Atualizações de segurança do sistema operacional.
- 2 de junho de 2023
- O analisador JSON no modo
failOnUnknownFields
descarta um registro no modoDROPMALFORMED
e falha diretamente no modoFAILFAST
. - Aprimoramento do desempenho da atualizações incrementais com Iceberg e Parquet
SHALLOW CLONE
. - Corrigido um problema no Carregador Automático em que diferentes formatos de arquivo de origem eram inconsistentes quando o esquema fornecido não incluía partições inferidas. Esse problema pode causar falhas inesperadas ao ler arquivos com colunas ausentes no esquema de partição inferido.
- [SPARK-43404] Ignorar a reutilização do arquivo SST para a mesma versão do armazenamento de estado do RocksDB para evitar erro de incompatibilidade de ID.
- [SPARK-43527] Corrigido
catalog.listCatalogs
no PySpark. - [SPARK-43413][11.3-13.0] Corrigida a subconsulta
IN
da nulidadeListQuery
. - [SPARK-43340] Corrigido o campo de rastreamento de pilha ausente em eventlogs.
- O analisador JSON no modo
Databricks Runtime 10.4 LTS
Consulte Databricks Runtime 10.4 LTS.
- 29 de novembro de 2023
- [SPARK-45544] Suporte integrado a SSL em
TransportContext
. - [SPARK-45859] Tornou objetos UDF em
ml.functions
lentos. - [SPARK-43718] Corrigida a nulidade de chaves em junções de
USING
. - [SPARK-45730] Restrições de tempo aprimoradas para
ReloadingX509TrustManagerSuite
. - [SPARK-42205] Removidos os acumuladores de log nos eventos de início Stage e Task.
- [SPARK-44846] Removidas expressões de agrupamento complexas após
RemoveRedundantAggregates
. - Atualizações de segurança do sistema operacional.
- [SPARK-45544] Suporte integrado a SSL em
- 14 de novembro de 2023
- [SPARK-45541]
SSLFactory
adicionado. - [SPARK-45545]
SparkTransportConf
herdaSSLOptions
na criação. - [SPARK-45427] Configurações adicionadas de RPC SSL para
SSLOptions
eSparkTransportConf
. - [SPARK-45429] Classes auxiliares adicionadas para comunicação SSL RPC.
- [SPARK-45584] Falha de execução corrigida de subconsulta com
TakeOrderedAndProjectExec
. - Reverter [SPARK-33861].
- Atualizações de segurança do sistema operacional.
- [SPARK-45541]
- 24 de outubro de 2023
- [SPARK-45426] Suporte adicionado para
ReloadingX509TrustManager
. - Atualizações de segurança do sistema operacional.
- [SPARK-45426] Suporte adicionado para
- 13 de outubro de 2023
- [SPARK-45084]
StateOperatorProgress
para usar um número de partição de ordem aleatória preciso e adequado. - [SPARK-45178] Fallback para executar um lote único para
Trigger.AvailableNow
com fontes sem suporte em vez de usar o wrapper. - Atualizações de segurança do sistema operacional.
- [SPARK-45084]
- 10 de setembro de 2023
- Correções diversas.
- 30 de agosto de 2023
- [SPARK-44818] Correção da disputa para interrupção de tarefa pendente emitida antes
taskThread
de ser inicializado. - Atualizações de segurança do sistema operacional.
- [SPARK-44818] Correção da disputa para interrupção de tarefa pendente emitida antes
- 15 de agosto de 2023
- [SPARK-44504] A tarefa de manutenção limpa os provedores carregados em caso de erro de parada.
- [SPARK-43973] A interface do usuário do Fluxo Estruturado agora aparece corretamente as consultas com falha.
- Atualizações de segurança do sistema operacional.
- 23 de junho de 2023
- Atualizações de segurança do sistema operacional.
- 15 de junho de 2023
- A biblioteca Snowflake-jdbc foi atualizada para 3.13.29 para que fosse resolvido um problema de segurança.
- [SPARK-43098] Corrige o bug COUNT de correção quando a subconsulta escalar tiver uma cláusula group by
- [SPARK-40862] Suportar subconsultas não agregadas em RewriteCorrelatedScalarSubquery
- [SPARK-43156][SPARK-43098] Teste de contagem de subconsultas escalar estendida com
decorrelateInnerQuery
desativado. - Atualizações de segurança do sistema operacional.
- 2 de junho de 2023
- O analisador JSON no modo
failOnUnknownFields
descarta um registro no modoDROPMALFORMED
e falha diretamente no modoFAILFAST
. - Corrigido um problema na análise de dados resgatados JSON para evitar
UnknownFieldException
. - Corrigido um problema no Carregador Automático em que diferentes formatos de arquivo de origem eram inconsistentes quando o esquema fornecido não incluía partições inferidas. Esse problema pode causar falhas inesperadas ao ler arquivos com colunas ausentes no esquema de partição inferido.
- [SPARK-43404] Ignorar a reutilização do arquivo SST para a mesma versão do armazenamento de estado do RocksDB para evitar erro de incompatibilidade de ID.
- [SPARK-43413] Corrigida a subconsulta
IN
da nulidadeListQuery
. - Atualizações de segurança do sistema operacional.
- O analisador JSON no modo
- 17 de maio de 2023
- As verificações parquet agora são robustas em relação aos OOMs ao verificar arquivos excepcionalmente estruturados ajustando dinamicamente o tamanho do lote. Os metadados de arquivo são analisados para reduzir preventivamente o tamanho do lote e são reduzidos novamente em tentativas de tarefa como uma rede de segurança final.
- [SPARK-41520] Dividir padrão de árvore
AND_OR
para separarAND
eOR
. - [SPARK-43190]
ListQuery.childOutput
já é consistente com a saída secundária. - Atualizações de segurança do sistema operacional.
- 25 de abril de 2023
- [SPARK-42928] Tornar o
resolvePersistentFunction
sincronizado. - Atualizações de segurança do sistema operacional.
- [SPARK-42928] Tornar o
- 11 de abril de 2023
- Correção de um problema em que a evolução do esquema do Carregador Automático pode entrar em um loop de falha infinito quando uma nova coluna é detectada no esquema de um objeto JSON aninhado.
- [SPARK-42937]
PlanSubqueries
agora defineInSubqueryExec#shouldBroadcast
como true. - [SPARK-42967] Corrigir SparkListenerTaskStart.stageAttemptId quando uma tarefa é iniciada após o cancelamento do estágio.
- 29 de março de 2023
- [SPARK-42668] Capturar exceção ao tentar fechar o fluxo compactado na interrupção de HDFSStateStoreProvider
- [SPARK-42635] Corrigir o…
- Atualizações de segurança do sistema operacional.
- 14 de março de 2023
- [SPARK-41162] Corrigir a junção anti e semi para autojunção com agregações
- [SPARK-33206] Corrigir o cache de índice de cálculo de peso em ordem aleatória para arquivos de índice pequenos
- [SPARK-42484] Aprimorou a mensagem de erro
UnsafeRowUtils
- Correções diversas.
- 28 de fevereiro de 2023
- Suporte à coluna gerada para yyyy-MM-dd date_format. Essa alteração dá suporte à remoção de partição para aaaa-MM-dd como um date_format em colunas geradas.
- Os usuários agora podem ler e gravar tabelas Delta específicas que exigem o Leitor versão 3 e o Gravador versão 7, usando o Databricks Runtime 9.1 LTS ou posterior. Para ter êxito, os recursos de tabela listados no protocolo das tabelas devem ter suporte da versão atual do Databricks Runtime.
- Suporte à coluna gerada para yyyy-MM-dd date_format. Essa alteração dá suporte à remoção de partição para aaaa-MM-dd como um date_format em colunas geradas.
- Atualizações de segurança do sistema operacional.
- 16 de fevereiro de 2023
- [SPARK-30220] Habilitar o uso de subconsultas Exists/In fora do nó Filtro
- Atualizações de segurança do sistema operacional.
- 31 de janeiro de 2023
- Os tipos de tabelas JDBC agora são EXTERNAL por padrão.
- 18 de janeiro de 2023
- O conector do Azure Synapse retorna uma mensagem de erro mais descritiva quando um nome de coluna contém caracteres inválidos, como espaços em branco ou ponto e vírgula. Nesses casos, a seguinte mensagem será retornada:
Azure Synapse Analytics failed to run the JDBC query produced by the connector. Check column names do not include not valid characters such as ';' or white space
. - [SPARK-38277] Limpar o lote de gravação após a confirmação do armazenamento de estado de RocksDB
- [SPARK-41199] Corrigir o problema de métricas quando a fonte de transmissão DSv1 e a fonte de transmissão DSv2 são coutilizadas
- [SPARK-41198] Corrigir métricas na consulta de transmissão com fonte de transmissão CTE e DSv1
- [SPARK-41339] Fechar e recriar o lote de gravação de RocksDB em vez de apenas limpar
- [SPARK-41732] Aplicar remoção baseada em padrão de árvore para a regra SessionWindowing
- Atualizações de segurança do sistema operacional.
- O conector do Azure Synapse retorna uma mensagem de erro mais descritiva quando um nome de coluna contém caracteres inválidos, como espaços em branco ou ponto e vírgula. Nesses casos, a seguinte mensagem será retornada:
- 29 de novembro de 2022
- Os usuários podem configurar o comportamento dos espaços em branco à esquerda e à direita ao escrever dados usando o conector do Redshift. As seguintes opções foram adicionadas para controlar o tratamento de espaço em branco:
csvignoreleadingwhitespace
, quando definido comotrue
, remove o espaço em branco à esquerda dos valores ao escrever quandotempformat
é definido comoCSV
ouCSV GZIP
. Os espaços em branco são mantidos quando a configuração é definida comofalse
. Por padrão, o valor étrue
.csvignoretrailingwhitespace
, quando definido comotrue
, remove o espaço em branco à direita dos valores ao escrever quandotempformat
é definido comoCSV
ouCSV GZIP
. Os espaços em branco são mantidos quando a configuração é definida comofalse
. Por padrão, o valor étrue
.
- Corrigido um problema com análise de JSON no Carregador Automático quando todas as colunas eram deixadas como cadeias de caracteres (
cloudFiles.inferColumnTypes
não era definido comofalse
) e o JSON continha objetos aninhados. - Atualizações de segurança do sistema operacional.
- Os usuários podem configurar o comportamento dos espaços em branco à esquerda e à direita ao escrever dados usando o conector do Redshift. As seguintes opções foram adicionadas para controlar o tratamento de espaço em branco:
- 15 de novembro de 2022
- Atualização do Apache commons-text para 1.10.0.
- [SPARK-40646] A análise de JSON para structs, mapas e matrizes foi corrigida para que, quando uma parte de um registro não corresponder ao esquema, o restante do registro ainda possa ser analisado corretamente em vez de retornar nulos. Para aceitar o comportamento aprimorado, defina
spark.sql.json.enablePartialResults
comotrue
. O sinalizador é desabilitado por padrão para preservar o comportamento original. - [SPARK-40292] Corrigir os nomes da coluna na função
arrays_zip
quando as matrizes forem referenciadas por structs aninhados - Atualizações de segurança do sistema operacional.
- 1º de novembro de 2022
- Corrigido um problema em que, se uma tabela Delta tivesse uma coluna definida pelo usuário chamada
_change_type
, mas se Alterar feed de dados estivesse desabilitado nessa tabela, os dados dessa coluna preencheriam incorretamente com valores NULL ao executarMERGE
. - Corrigido um problema com o Carregador Automático em que um arquivo podia ser duplicado no mesmo microlote quando
allowOverwrites
estivesse habilitado - [SPARK-40697] Adicionar preenchimento de caracteres do lado da leitura para cobrir arquivos de dados externos
- [SPARK-40596] Preencher ExecutorDecommission com mensagens em ExecutorDecommissionInfo
- Atualizações de segurança do sistema operacional.
- Corrigido um problema em que, se uma tabela Delta tivesse uma coluna definida pelo usuário chamada
- 18 de outubro de 2022
- Atualizações de segurança do sistema operacional.
- 5 de outubro de 2022
- [SPARK-40468] Corrigir a remoção de coluna no CSV quando
_corrupt_record
estiver selecionado. - Atualizações de segurança do sistema operacional.
- [SPARK-40468] Corrigir a remoção de coluna no CSV quando
- 22 de setembro de 2022
- Os usuários podem definir spark.conf.set(
spark.databricks.io.listKeysWithPrefix.azure.enabled
,true
) para reabilitar a listagem interna do Carregador Automático no ADLS Gen2. A listagem interna foi desativada anteriormente devido a problemas de desempenho, mas pode ter gerado um aumento nos custos de armazenamento para os clientes. - [SPARK-40315] Adicionar hashCode() para Literal de ArrayBasedMapData
- [SPARK-40213] Suporte à conversão de valor ASCII para caracteres Latin-1
- [SPARK-40380] Corrigir dobra constante de InvokeLike para evitar literais não serializáveis inseridos no plano
- [SPARK-38404] Aprimorar a resolução de CTE quando uma CTE aninhada faz referência a uma CTE externa
- [SPARK-40089] Corrigir a classificação para alguns tipos Decimais
- [SPARK-39887] RemoveRedundantAliases deve manter os aliases que tornam a saída de nós de projeção exclusiva
- Os usuários podem definir spark.conf.set(
- 06 de setembro de 2022
- SPARK-40235 Usar o bloqueio interruptível em vez de sincronizado em Executor.updateDependencies()
- [SPARK-40218] Os GROUPING SETS devem preservar as colunas de agrupamento
- [SPARK-39976] O ArrayIntersect deve processar null na expressão à esquerda corretamente
- [SPARK-40053] Adicinoar
assume
aos casos de cancelamento dinâmico que exigem o ambiente de runtime do Python - [SPARK-35542] Correção: o classificador em buckets criado para várias colunas com os parâmetros splitsArray, inputCols e outputCols não pode ser carregado após salvá-lo
- [SPARK-40079] Adição da validação inputCols do imputador para o caso de entrada vazio
- 24 de agosto de 2022
- [SPARK-39983] Não armazenar as relações de transmissão não serializadas em cache no driver
- [SPARK-39775] Desabilitar a validação de valores padrão ao analisar esquemas Avro
- [SPARK-39962] Aplicar projeção quando os atributos de grupo estiverem vazios
- [SPARK-37643] Quando charVarcharAsString for verdadeiro, a consulta de predicado de tipo de dados char deve ignorar a regra de rpadding
- Atualizações de segurança do sistema operacional.
- 9 de agosto de 2022
- [SPARK-39847] Corrigir condição de disputa em RocksDBLoader.loadLibrary() se o thread do chamador for interrompido
- [SPARK-39731] Corrigir problemas em fontes de dados CSV e JSON ao analisar datas no formato "yyyyMMdd" com política de analisador de tempo CORRIGIDA
- Atualizações de segurança do sistema operacional.
- 27 de julho de 2022
- [SPARK-39625] Adicionar Dataset.as(StructType)
- [SPARK-39689] Suportar
lineSep
de 2 caracteres na fonte de dados CSV - [SPARK-39104] InMemoryRelation#isCachedColumnBuffersLoaded deve ser thread-safe
- [SPARK-39570] A tabela embutida deve permitir expressões com alias
- [SPARK-39702] Reduzir a sobrecarga de memória de TransportCipher$EncryptedMessage usando um byteRawChannel compartilhado
- [SPARK-39575] Adicionar ByteBuffer#rewind após ByteBuffer#get no AvroDeserializer
- [SPARK-39476] Desabilitar a otimização de conversão de cancelamento de quebra de linha ao converter de Long para Float/Double ou de Integer para Float
- [SPARK-38868] Não propagar exceções do predicado de filtro ao otimizar junções externas
- Atualizações de segurança do sistema operacional.
- 20 de julho de 2022
- Torne os resultados da operação Delta MERGE consistentes quando a origem não for determinística.
- [SPARK-39355] A coluna única usa aspas para construir UnresolvedAttribute
- [SPARK-39548] O comando CreateView com uma consulta de cláusula de janela pressionou uma definição de janela errada. Problema não encontrado
- [SPARK-39419] Corrigir ArraySort para lançar uma exceção quando o comparador retorna nulo
- Desabilitado o uso de APIs de nuvem internas do Carregador Automático para listagem de diretórios no Azure.
- Atualizações de segurança do sistema operacional.
- 5 de julho de 2022
- [SPARK-39376] Ocultar colunas duplicadas na expansão em estrela do alias de subconsulta de NATURAL/USING JOIN
- Atualizações de segurança do sistema operacional.
- 15 de junho de 2022
- [SPARK-39283]Corrigir o deadlock entre TaskMemoryManager e UnsafeExternalSorter.SpillableIterator
- [SPARK-39285] O Spark não deve verificar nomes de campo ao ler arquivos
- [SPARK-34096] Aprimorar o desempenho de nth_value e ignorar nulos durante a janela de deslocamento
- [SPARK-36718] Corrigir a verificação
isExtractOnly
em CollapseProject
- 2 de junho de 2022
- [SPARK-39093] Evitar o erro de compilação de codegen ao dividir intervalos de ano-mês ou intervalos de dia-hora por um integral
- [SPARK-38990] Evitar NullPointerException ao avaliar o formato date_trunc/trunc como uma referência associada
- Atualizações de segurança do sistema operacional.
- 18 de maio de 2022
- Corrige um possível vazamento de memória interna no Carregador Automático.
- [SPARK-38918] A remoção de coluna aninhada deve filtrar atributos que não pertencem à relação atual
- [SPARK-37593] Reduzir o tamanho da página padrão por LONG_ARRAY_OFFSET se G1GC e ON_HEAP forem usados
- [SPARK-39084] Corrigir df.rdd.isEmpty() usando TaskContext para interromper o enumerador na conclusão da tarefa
- [SPARK-32268] Adicionar ColumnPruning em injectBloomFilter
- [SPARK-38974] Filtrar funções registradas com um determinado nome de banco de dados em funções de lista
- [SPARK-38931] Criar diretório dfs raiz para RocksDBFileManager com um número desconhecido de chaves no 1º ponto de verificação
- Atualizações de segurança do sistema operacional.
- 19 de abril de 2022
- SDK do Java AWS atualizado da versão 1.11.655 para 1.12.1899.
- Corrigido um problema com bibliotecas com escopo de notebook que não funcionavam em trabalhos de streaming em lotes.
- [SPARK-38616] Acompanhar texto de consulta SQL no Catalyst TreeNode
- Atualizações de segurança do sistema operacional.
- 6 de abril de 2022
- As seguintes funções SQL do Spark agora estão disponíveis com esta versão:
timestampadd()
edateadd()
: adicionar uma duração de tempo em uma unidade especificada a uma expressão de carimbo de data/hora.timestampdiff()
edatediff()
: calcular a diferença de tempo entre duas expressões de carimbo de data/hora em uma unidade especificada.
- O Parquet-MR foi atualizado para 1.12.2
- Suporte aprimorado para esquemas abrangentes em arquivos parquet
- [SPARK-38631] Usa a implementação baseada em Java para descoberta em Utils.unpack
- [SPARK-38509][SPARK-38481] Cherry-pick de três alterações de
timestmapadd/diff
. - [SPARK-38523] Correção referente à coluna de registro corrompido do CSV
- [SPARK-38237] Permitir que
ClusteredDistribution
exija chaves de clustering completas - [SPARK-38437] Serialização branda de datetime da fonte de dados
- [SPARK-38180] Permitir expressões de up-cast seguras em predicados de igualdade correlacionados
- [SPARK-38155] Não permitir agregação distinta em subconsultas laterais com predicados sem suporte
- Atualizações de segurança do sistema operacional.
- As seguintes funções SQL do Spark agora estão disponíveis com esta versão:
Databricks Runtime 9.1 LTS
Consulte Databricks Runtime 9.1 LTS.
- 29 de novembro de 2023
- [SPARK-45859] Tornou objetos UDF em
ml.functions
lentos. - [SPARK-45544] Suporte integrado a SSL em
TransportContext
. - [SPARK-45730] Restrições de tempo aprimoradas para
ReloadingX509TrustManagerSuite
. - Atualizações de segurança do sistema operacional.
- [SPARK-45859] Tornou objetos UDF em
- 14 de novembro de 2023
- [SPARK-45545]
SparkTransportConf
herdaSSLOptions
na criação. - [SPARK-45429] Classes auxiliares adicionadas para comunicação SSL RPC.
- [SPARK-45427] Configurações adicionadas de RPC SSL para
SSLOptions
eSparkTransportConf
. - [SPARK-45584] Falha de execução corrigida de subconsulta com
TakeOrderedAndProjectExec
. - [SPARK-45541]
SSLFactory
adicionado. - [SPARK-42205] Removidos os acumuladores de log nos eventos de início Stage e Task.
- Atualizações de segurança do sistema operacional.
- [SPARK-45545]
- 24 de outubro de 2023
- [SPARK-45426] Suporte adicionado para
ReloadingX509TrustManager
. - Atualizações de segurança do sistema operacional.
- [SPARK-45426] Suporte adicionado para
- 13 de outubro de 2023
- Atualizações de segurança do sistema operacional.
- 10 de setembro de 2023
- Correções diversas.
- 30 de agosto de 2023
- Atualizações de segurança do sistema operacional.
- 15 de agosto de 2023
- Atualizações de segurança do sistema operacional.
- 23 de junho de 2023
- A biblioteca Snowflake-jdbc foi atualizada para 3.13.29 para que fosse resolvido um problema de segurança.
- Atualizações de segurança do sistema operacional.
- 15 de junho de 2023
- [SPARK-43098] Corrige o bug COUNT de correção quando a subconsulta escalar tiver uma cláusula group by
- [SPARK-43156][SPARK-43098] Teste de bug de contagem de subconsultas escalar estendida com
decorrelateInnerQuery
desativado. - [SPARK-40862] Suportar subconsultas não agregadas em RewriteCorrelatedScalarSubquery
- Atualizações de segurança do sistema operacional.
- 2 de junho de 2023
- O analisador JSON no modo
failOnUnknownFields
descarta um registro no modoDROPMALFORMED
e falha diretamente no modoFAILFAST
. - Corrigido um problema na análise de dados resgatados JSON para evitar
UnknownFieldException
. - Corrigido um problema no Carregador Automático em que diferentes formatos de arquivo de origem eram inconsistentes quando o esquema fornecido não incluía partições inferidas. Esse problema pode causar falhas inesperadas ao ler arquivos com colunas ausentes no esquema de partição inferido.
- [SPARK-37520] Adicionar as funções de cadeia de caracteres
startswith()
eendswith()
- [SPARK-43413] Corrigida a subconsulta
IN
da nulidadeListQuery
. - Atualizações de segurança do sistema operacional.
- O analisador JSON no modo
- 17 de maio de 2023
- Atualizações de segurança do sistema operacional.
- 25 de abril de 2023
- Atualizações de segurança do sistema operacional.
- 11 de abril de 2023
- Correção de um problema em que a evolução do esquema do Carregador Automático pode entrar em um loop de falha infinito quando uma nova coluna é detectada no esquema de um objeto JSON aninhado.
- [SPARK-42967] Corrigir SparkListenerTaskStart.stageAttemptId quando uma tarefa é iniciada após o cancelamento do estágio.
- 29 de março de 2023
- Atualizações de segurança do sistema operacional.
- 14 de março de 2023
- [SPARK-42484] Aprimorou a mensagem de erro para
UnsafeRowUtils
. - Correções diversas.
- [SPARK-42484] Aprimorou a mensagem de erro para
- 28 de fevereiro de 2023
- Os usuários agora podem ler e gravar tabelas Delta específicas que exigem o Leitor versão 3 e o Gravador versão 7, usando o Databricks Runtime 9.1 LTS ou posterior. Para ter êxito, os recursos de tabela listados no protocolo das tabelas devem ter suporte da versão atual do Databricks Runtime.
- Atualizações de segurança do sistema operacional.
- 16 de fevereiro de 2023
- Atualizações de segurança do sistema operacional.
- 31 de janeiro de 2023
- Os tipos de tabelas JDBC agora são EXTERNAL por padrão.
- 18 de janeiro de 2023
- Atualizações de segurança do sistema operacional.
- 29 de novembro de 2022
- Corrigido um problema com análise de JSON no Carregador Automático quando todas as colunas eram deixadas como cadeias de caracteres (
cloudFiles.inferColumnTypes
não era definido comofalse
) e o JSON continha objetos aninhados. - Atualizações de segurança do sistema operacional.
- Corrigido um problema com análise de JSON no Carregador Automático quando todas as colunas eram deixadas como cadeias de caracteres (
- 15 de novembro de 2022
- Atualização do Apache commons-text para 1.10.0.
- Atualizações de segurança do sistema operacional.
- Correções diversas.
- 1º de novembro de 2022
- Corrigido um problema em que, se uma tabela Delta tivesse uma coluna definida pelo usuário chamada
_change_type
, mas se Alterar feed de dados estivesse desabilitado nessa tabela, os dados dessa coluna preencheriam incorretamente com valores NULL ao executarMERGE
. - Corrigido um problema com o Carregador Automático em que um arquivo podia ser duplicado no mesmo microlote quando
allowOverwrites
estivesse habilitado - [SPARK-40596] Preencher ExecutorDecommission com mensagens em ExecutorDecommissionInfo
- Atualizações de segurança do sistema operacional.
- Corrigido um problema em que, se uma tabela Delta tivesse uma coluna definida pelo usuário chamada
- 18 de outubro de 2022
- Atualizações de segurança do sistema operacional.
- 5 de outubro de 2022
- Correções diversas.
- Atualizações de segurança do sistema operacional.
- 22 de setembro de 2022
- Os usuários podem definir spark.conf.set(“spark.databricks.io.listKeysWithPrefix.azure.enabled”, “true”) para reabilitar a listagem interna do Carregador Automático no ADLS Gen2. A listagem interna foi desativada anteriormente devido a problemas de desempenho, mas pode ter gerado um aumento nos custos de armazenamento para os clientes.
- [SPARK-40315] Adicionar hashCode() para Literal de ArrayBasedMapData
- [SPARK-40089] Corrigir a classificação para alguns tipos Decimais
- [SPARK-39887] RemoveRedundantAliases deve manter os aliases que tornam a saída de nós de projeção exclusiva
- 06 de setembro de 2022
- SPARK-40235 Usar o bloqueio interruptível em vez de sincronizado em Executor.updateDependencies()
- [SPARK-35542] Correção: o classificador em buckets criado para várias colunas com os parâmetros splitsArray, inputCols e outputCols não pode ser carregado após salvá-lo
- [SPARK-40079] Adição da validação inputCols do imputador para o caso de entrada vazio
- 24 de agosto de 2022
- [SPARK-39666] Usar UnsafeProjection.create para respeitar
spark.sql.codegen.factoryMode
em ExpressionEncoder - [SPARK-39962] Aplicar projeção quando os atributos de grupo estiverem vazios
- Atualizações de segurança do sistema operacional.
- [SPARK-39666] Usar UnsafeProjection.create para respeitar
- 9 de agosto de 2022
- Atualizações de segurança do sistema operacional.
- 27 de julho de 2022
- Torne os resultados da operação Delta MERGE consistentes quando a origem não for determinística.
- [SPARK-39689] Suporte para
lineSep
de 2 caracteres na fonte de dados CSV - [SPARK-39575]
ByteBuffer#rewind
adicionado apósByteBuffer#get
noAvroDeserializer
. - [SPARK-37392] Corrigido o erro de desempenho do otimizador do catalisador.
- Atualizações de segurança do sistema operacional.
- 13 de julho de 2022
- [SPARK-39419]
ArraySort
gera uma exceção quando o comparador retorna nulo. - Desabilitado o uso de APIs de nuvem internas do Carregador Automático para listagem de diretórios no Azure.
- Atualizações de segurança do sistema operacional.
- [SPARK-39419]
- 5 de julho de 2022
- Atualizações de segurança do sistema operacional.
- Correções diversas.
- 15 de junho de 2022
- [SPARK-39283] Corrigir o deadlock entre
TaskMemoryManager
eUnsafeExternalSorter.SpillableIterator
.
- [SPARK-39283] Corrigir o deadlock entre
- 2 de junho de 2022
- [SPARK-34554]Implementar o método
copy()
emColumnarMap
. - Atualizações de segurança do sistema operacional.
- [SPARK-34554]Implementar o método
- 18 de maio de 2022
- Corrigido um possível vazamento de memória interna no Carregador Automático.
- Atualize a versão do SDK do AWS da 1.11.655 para a 1.11.678.
- [SPARK-38918] A remoção de coluna aninhada deve filtrar atributos que não pertencem à relação atual
- [SPARK-39084] Corrigir
df.rdd.isEmpty()
usandoTaskContext
para interromper o enumerador na conclusão da tarefa - Atualizações de segurança do sistema operacional.
- 19 de abril de 2022
- Atualizações de segurança do sistema operacional.
- Correções diversas.
- 6 de abril de 2022
- [SPARK-38631] Usa a implementação baseada em Java para descoberta em Utils.unpack
- Atualizações de segurança do sistema operacional.
- 22 de março de 2022
- Alteração do diretório de trabalho atual dos notebooks em clusters de simultaneidade alta com controle de acesso de tabela ou passagem de credencial habilitada para o diretório inicial do usuário. Anteriormente, o diretório ativo era
/databricks/driver
. - [SPARK-38437] Serialização branda de datetime da fonte de dados
- [SPARK-38180] Permitir expressões de up-cast seguras em predicados de igualdade correlacionados
- [SPARK-38155] Não permitir agregação distinta em subconsultas laterais com predicados sem suporte
- [SPARK-27442] Removido um campo de verificação ao ler ou gravar dados em um parquet.
- Alteração do diretório de trabalho atual dos notebooks em clusters de simultaneidade alta com controle de acesso de tabela ou passagem de credencial habilitada para o diretório inicial do usuário. Anteriormente, o diretório ativo era
- 14 de março de 2022
- [SPARK-38236]Os caminhos absolutos de arquivo especificados na tabela criar/alterar são tratados como relativos
- [SPARK-34069] Interromper thread da tarefa se a propriedade local
SPARK_JOB_INTERRUPT_ON_CANCEL
estiver definida como verdadeiro.
- 23 de fevereiro de 2022
- [SPARK-37859] As tabelas SQL criadas com o JDBC com Spark 3.1 não podem ser lidas com o Spark 3.2.
- 8 de fevereiro de 2022
- [SPARK-27442] Removido um campo de verificação ao ler ou gravar dados em um parquet.
- Atualizações de segurança do sistema operacional.
- 1° de fevereiro de 2022
- Atualizações de segurança do sistema operacional.
- 26 de janeiro de 2022
- Corrigido um problema em que as transações simultâneas em tabelas Delta podiam ser executadas em uma ordem não serializável em determinadas condições raras.
- Corrigido um problema em que o comando
OPTIMIZE
poderia falhar quando o dialeto ANSI SQL estava habilitado.
- 19 de janeiro de 2022
- Correções secundárias e aprimoramentos de segurança.
- Atualizações de segurança do sistema operacional.
- 4 de novembro de 2021
- Corrigido um problema que fazia com que fluxos do Fluxo Estruturado falhassem com um
ArrayIndexOutOfBoundsException
. - Corrigiu uma condição de corrida que pode causar uma falha de consulta com uma IOException como
java.io.IOException: No FileSystem for scheme
ou que pode fazer com que as modificações emsparkContext.hadoopConfiguration
não afetem as consultas. - O Apache Spark Conector para compartilhamento Delta foi atualizado para 0.2.0.
- Corrigido um problema que fazia com que fluxos do Fluxo Estruturado falhassem com um
- 20 de outubro de 2021
- Conector do BigQuery atualizado de 0.18.1 para 0.22.2. Isso adiciona suporte para o tipo BigNumeric.
Databricks Runtime 13.0 (EoS)
Consulte Databricks Runtime 13.0 (EoS).
13 de outubro de 2023
- A dependência snowflake-jdbc foi atualizada de 3.13.29 para a 3.13.33.
- [SPARK-42553][SQL] Garante pelo menos uma unidade de tempo após intervalo.
- [SPARK-45178] Fallback para executar um lote único para
Trigger.AvailableNow
com fontes sem suporte em vez de usar wrapper. - [SPARK-44658][CORE]
ShuffleStatus.getMapStatus
retornaNone
em vez deSome(null)
. - [SPARK-42205][CORE] Remova o registro em log de Accumulables em eventos de início de tarefa/estágio em
JsonProtocol
. - Atualizações de segurança do sistema operacional.
12 de setembro de 2023
- [SPARK-44485][SQL] Otimizar
TreeNode.generateTreeString
. - [SPARK-44718][SQL] Corresponder o padrão
ColumnVector
de configuração do modo de memória ao valor de configuraçãoOffHeapMemoryMode
. - Diversas correções de bugs.
- [SPARK-44485][SQL] Otimizar
30 de agosto de 2023
- [SPARK-44818][Backport] Correção da corrida para interrupção de tarefa pendente emitida antes
taskThread
de ser inicializado. - [SPARK-44714] Facilidade de restrição da resolução LCA em relação às consultas.
- [SPARK-44245][PYTHON]
pyspark.sql.dataframe sample()
os doctests agora são somente ilustrativos. - [SPARK-44871][11.3-13.0] [SQL] Comportamento
percentile_disc
corrigido. - Atualizações de segurança do sistema operacional.
- [SPARK-44818][Backport] Correção da corrida para interrupção de tarefa pendente emitida antes
15 de agosto de 2023
- [SPARK-44643][SQL][PYTHON] Correção
Row.__repr__
quando a linha está vazia. - [SPARK-44504][Backport] A tarefa de manutenção limpa os provedores carregados em caso de erro de parada.
- [SPARK-44479][CONNECT][PYTHON] Conversão fixa
protobuf
de um tipo de estrutura vazia. - [SPARK-44464][SS]
applyInPandasWithStatePythonRunner
Corrigido para linhas de saída que têmNull
como valor de primeira coluna. - Diversas correções de bugs.
- [SPARK-44643][SQL][PYTHON] Correção
29 de julho de 2023
- Foi corrigido um bug em que
dbutils.fs.ls()
retornavaINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
quando chamado para um caminho de local de armazenamento que entrava em conflito com outro local de armazenamento externo ou gerenciado. - [SPARK-44199]
CacheManager
não atualiza mais ofileIndex
desnecessariamente. - Atualizações de segurança do sistema operacional.
- Foi corrigido um bug em que
24 de julho de 2023
- Foi corrigido um problema [SPARK-44337][PROTOBUF] em que qualquer campo definido como
Any.getDefaultInstance
causava erros de análise. - [SPARK-44136] [SS] Corrigido um problema em que
StateManager
era materializado em um executor em vez de um driver emFlatMapGroupsWithStateExec
. - Reverter a atribuição “[SPARK-42323][SQL] de nome para
_LEGACY_ERROR_TEMP_2332
. - Atualizações de segurança do sistema operacional.
- Foi corrigido um problema [SPARK-44337][PROTOBUF] em que qualquer campo definido como
23 de junho de 2023
- Atualizações de segurança do sistema operacional.
15 de junho de 2023
approx_count_distinct
fotonizado.- A biblioteca Snowflake-jdbc foi atualizada para 3.13.29 para que fosse resolvido um problema de segurança.
- [SPARK-43156][SPARK-43098][SQL] Estenda o teste de bug de contagem de subconsultas escalares com decorrelateInnerQuery desabilitado
- [SPARK-43779][SQL] Agora,
ParseToDate
carregaEvalMode
no thread principal. - [SPARK-42937][SQL]
PlanSubqueries
deve definirInSubqueryExec#shouldBroadcast
como true - Atualizações de segurança do sistema operacional.
2 de junho de 2023
- O analisador JSON no modo
failOnUnknownFields
descarta um registro no modoDROPMALFORMED
e falha diretamente no modoFAILFAST
. - Melhoria do desempenho da atualização incremental com Iceberg e Parquet
SHALLOW CLONE
. - Corrigido um problema no Carregador Automático em que diferentes formatos de arquivo de origem eram inconsistentes quando o esquema fornecido não incluía partições inferidas. Esse problema pode causar falhas inesperadas ao ler arquivos com colunas ausentes no esquema de partição inferido.
- [SPARK-43404][Backport] Ignore a reutilização do arquivo sst para a mesma versão do armazenamento de estado do RocksDB para evitar erro de incompatibilidade de ID.
- [SPARK-43340][CORE] Corrigido o campo de rastreamento de pilha ausente nos logs de eventos.
- [SPARK-43300][CORE]
NonFateSharingCache
wrapper para o cache Guava. - [SPARK-43378][CORE] Feche corretamente os objetos de fluxo em
deserializeFromChunkedBuffer
. - [SPARK-16484][SQL] Use registradores de 8 bits para representar DataSketches.
- [SPARK-43522][SQL] Corrigida a criação de nome da coluna struct com índice de matriz.
- [SPARK-43413][11.3-13.0][SQL] Corrigida a nulidade
IN
da subconsultaListQuery
. - [SPARK-43043][CORE] Desempenho
MapOutputTracker.updateMapOutput
aprimorado. - [SPARK-16484][SQL] Adicionado suporte para DataSketches HllSketch.
- [SPARK-43123][SQL] Os metadados de campos internos não vazam mais para os catálogos.
- [SPARK-42851][SQL] Proteja
EquivalentExpressions.addExpr()
comsupportedExpression()
. - [SPARK-43336][SQL] Casting entre
Timestamp
eTimestampNTZ
requer fuso horário. - [SPARK-43286][SQL] Modo CBC
aes_encrypt
atualizado para gerar IVs aleatórios. - [SPARK-42852][SQL] Alterações relacionadas revertidas
NamedLambdaVariable
deEquivalentExpressions
. - [SPARK-43541][SQL] Propague todas as marcas
Project
na resolução de expressões e colunas ausentes. - [SPARK-43527][PYTHON] Corrigido
catalog.listCatalogs
no PySpark. - Atualizações de segurança do sistema operacional.
- O analisador JSON no modo
31 de maio de 2023
- O suporte de gravação otimizado padrão para tabelas Delta registradas no Catálogo do Unity foi expandido para incluir instruções
CTAS
e operaçõesINSERT
para tabelas particionadas. Esse comportamento se alinha aos padrões em SQL warehouses. Consulte Gravações otimizadas para o Delta Lake no Azure Databricks.
- O suporte de gravação otimizado padrão para tabelas Delta registradas no Catálogo do Unity foi expandido para incluir instruções
17 de maio de 2023
- Correção de uma regressão em que
_metadata.file_path
e_metadata.file_name
retornariam cadeias de caracteres formatadas incorretamente. Por exemplo, agora um caminho com espaços é representado comos3://test-bucket/some%20directory/some%20data.csv
em vez des3://test-bucket/some directory/some data.csv
. - As verificações parquet agora são robustas em relação aos OOMs ao verificar arquivos excepcionalmente estruturados ajustando dinamicamente o tamanho do lote. Os metadados de arquivo são analisados para reduzir preventivamente o tamanho do lote e são reduzidos novamente em tentativas de tarefa como uma rede de segurança final.
-
- Se um arquivo Avro fosse lido apenas com a opção
failOnUnknownFields\
ou com o Carregador Automático no modo de evolução do esquemafailOnNewColumns\
, as colunas que têm tipos de dados diferentes seriam lidas comonull\
em vez de gerar um erro informando que o arquivo não pode ser lido. Essas leituras agora falham e recomendam que os usuários usem a opçãorescuedDataColumn\
.
- Se um arquivo Avro fosse lido apenas com a opção
- O Carregador Automático agora faz o seguinte.
-
- Lê e não resgata mais corretamente os tipos
Integer
,Short
,Byte
se um desses tipos de dados for fornecido, mas o arquivo Avro sugerir um dos outros dois tipos.
- Lê e não resgata mais corretamente os tipos
-
- Impede a leitura de tipos de intervalo como tipos de data ou carimbo de data/hora para evitar a obtenção de datas corrompidas.
-
- Impede tipos de leitura
Decimal
com precisão mais baixa.
- Impede tipos de leitura
- [SPARK-43172] [CONNECT] Expõe o host e o token do cliente Spark connect.
- [SPARK-43293][SQL]
__qualified_access_only
é ignorado em colunas normais. - [SPARK-43098][SQL] Corrigido o bug de correção
COUNT
quando a subconsulta escalar é agrupada por cláusula. - [SPARK-43085][SQL] Suporte para atribuição de coluna
DEFAULT
para nomes de tabela de várias partes. - [SPARK-43190][SQL]
ListQuery.childOutput
agora é consistente com a saída secundária. - [SPARK-43192] [CONNECT] Removeu a validação do conjunto de caracteres do agente de usuário.
- Correção de uma regressão em que
25 de abril de 2023
- Você pode modificar uma tabela Delta para adicionar suporte a um recurso de tabela Delta usando
DeltaTable.addFeatureSupport(feature_name)
. - O comando
SYNC
agora dá suporte a formatos de fonte de dados herdados. - Correção de um bug em que usar o formatador do Python antes de executar outros comandos em um notebook Python poderia fazer com que o caminho do notebook estivesse ausente de
sys.path.
- O Azure Databricks agora dá suporte à especificação de valores padrão para colunas de tabelas Delta. Os comandos
INSERT
,UPDATE
,DELETE
, eMERGE
podem se referir ao valor padrão de uma coluna usando a palavra-chave explícitaDEFAULT
. Para comandosINSERT
com uma lista explícita de menos colunas do que a tabela de destino, os valores padrão de coluna correspondentes são substituídos pelas colunas restantes (ouNULL
se nenhum padrão for especificado).
- Você pode modificar uma tabela Delta para adicionar suporte a um recurso de tabela Delta usando
Corrige um bug em que o terminal da Web não pôde ser usado para acessar arquivos no
/Workspace
para alguns usuários.- Se um arquivo Parquet fosse lido apenas com a opção
failOnUnknownFields
ou com o Carregador Automático no modo de evolução do esquemafailOnNewColumns
, as colunas que têm tipos de dados diferentes seriam lidas comonull
em vez de gerar um erro informando que o arquivo não pode ser lido. Essas leituras agora falham e recomendam que os usuários usem a opçãorescuedDataColumn
. - O Carregador Automático agora lê corretamente e não resgata mais os tipos
Integer
,Short
,Byte
se um desses tipos de dados for fornecido. O arquivo Parquet sugere um dos outros dois tipos. Quando a coluna de dados resgatados foi habilitada anteriormente, a incompatibilidade de tipo de dados faria com que as colunas fossem resgatadas mesmo que fossem legíveis. - Correção de um bug em que a evolução do esquema do Carregador Automático pode entrar em um loop de falha infinito, quando uma nova coluna é detectada no esquema de um objeto JSON aninhado.
- [SPARK-42794][SS] Aumentar o lockAcquireTimeoutMs para 2 minutos para adquirir o repositório de estado RocksDB no Structure Streaming.
- [SPARK-39221][SQL] Fazer com que as informações confidenciais sejam redigidas corretamente para a guia trabalho/estágio do servidor thrift.
- [SPARK-42971][CORE] Alterar para imprimir
workdir
seappDirs
for nulo quando o evento de identificadorWorkDirCleanup
de trabalho. - [SPARK-42936] [SQL] Corrigir o bug LCA quando a cláusula having pode ser resolvida diretamente pela agregação filho.
- [SPARK-43018][SQL] Corrigir o bug para comandos
INSERT
com literais de carimbo de data/hora. - Reverta [SPARK-42754][SQL][UI] Corrigir problema de compatibilidade com versões anteriores na execução aninhada do SQL.
- [SPARK-41498] [SC-119018] Propagar metadados por meio de União.
- [SPARK-43038] [SQL] Suporte ao modo GCM por
aes_encrypt()
/aes_decrypt()
- [SPARK-42928][SQL] Fazer a sincronização
resolvePersistentFunction
. - [SPARK-42521][SQL] Adicionar valores
NULL
paraINSERT
com listas especificadas pelo usuário de menos colunas do que a tabela de destino. - [SPARK-41391][SQL] O nome da coluna de saída de
groupBy.agg(count_distinct)
estava incorreto. - [SPARK-42548][SQL] Adicionar
ReferenceAllColumns
para ignorar atributos de reescrita. - [SPARK-42423][SQL] Adicionar início e comprimento do bloco de arquivo de coluna de metadados.
- [SPARK-42796][SQL] Suporte ao acesso a
TimestampNTZ
colunas noCachedBatch
. - [SPARK-42266][PYTHON] Remover o diretório pai em shell.py executado quando o IPython for usado.
- [SPARK-43011][SQL]
array_insert
deve falhar com o índice 0. - [SPARK-41874][CONNECT][PYTHON] Suporte
SameSemantics
no Spark Connect. - [SPARK-42702][SPARK-42623][SQL] Suporte à consulta parametrizada em subconsulta e CTE.
- [SPARK-42967][CORE] Correção
SparkListenerTaskStart.stageAttemptId
quando uma tarefa é iniciada após o cancelamento do estágio. - Atualizações de segurança do sistema operacional.
- Se um arquivo Parquet fosse lido apenas com a opção
Databricks Runtime 12.1 (EoS)
Consulte Databricks Runtime 12.1 (EoS).
23 de junho de 2023
- Atualizações de segurança do sistema operacional.
15 de junho de 2023
approx_count_distinct
fotonizado.- A biblioteca Snowflake-jdbc foi atualizada para 3.13.29 para que fosse resolvido um problema de segurança.
- [SPARK-43779][SQL] Agora,
ParseToDate
carregaEvalMode
no thread principal. - [SPARK-43156][SPARK-43098][SQL] Estenda o teste de bug de contagem de subconsultas escalares com decorrelateInnerQuery desabilitado
- Atualizações de segurança do sistema operacional.
2 de junho de 2023
- O analisador JSON no modo
failOnUnknownFields
descarta um registro no modoDROPMALFORMED
e falha diretamente no modoFAILFAST
. - Melhoria do desempenho da atualização incremental com Iceberg e Parquet
SHALLOW CLONE
. - Corrigido um problema no Carregador Automático em que diferentes formatos de arquivo de origem eram inconsistentes quando o esquema fornecido não incluía partições inferidas. Esse problema pode causar falhas inesperadas ao ler arquivos com colunas ausentes no esquema de partição inferido.
- [SPARK-43404][Backport] Ignore a reutilização do arquivo sst para a mesma versão do armazenamento de estado do RocksDB para evitar erro de incompatibilidade de ID.
- [SPARK-43413][11.3-13.0][SQL] Corrigida a nulidade
IN
da subconsultaListQuery
. - [SPARK-43522][SQL] Corrigida a criação de nome da coluna struct com índice de matriz.
- [SPARK-42444][PYTHON]
DataFrame.drop
agora lida com colunas duplicadas corretamente. - [SPARK-43541][SQL] Propague todas as marcas
Project
na resolução de expressões e colunas ausentes. - [SPARK-43340][CORE] Corrigido o campo de rastreamento de pilha ausente nos logs de eventos.
- [SPARK-42937][SQL]
PlanSubqueries
agora é definidoInSubqueryExec#shouldBroadcast
como verdadeiro. - [SPARK-43527][PYTHON] Corrigido
catalog.listCatalogs
no PySpark. - [SPARK-43378][CORE] Feche corretamente os objetos de fluxo em
deserializeFromChunkedBuffer
.
- O analisador JSON no modo
17 de maio de 2023
- As verificações parquet agora são robustas em relação aos OOMs ao verificar arquivos excepcionalmente estruturados ajustando dinamicamente o tamanho do lote. Os metadados de arquivo são analisados para reduzir preventivamente o tamanho do lote e são reduzidos novamente em tentativas de tarefa como uma rede de segurança final.
- Se um arquivo Avro fosse lido apenas com a opção
failOnUnknownFields\
ou com o Carregador Automático no modo de evolução do esquemafailOnNewColumns\
, as colunas que têm tipos de dados diferentes seriam lidas comonull\
em vez de gerar um erro informando que o arquivo não pode ser lido. Essas leituras agora falham e recomendam que os usuários usem a opçãorescuedDataColumn\
. - O Carregador Automático agora faz o seguinte.
-
- Lê e não resgata mais corretamente os tipos
Integer
,Short
,Byte
se um desses tipos de dados for fornecido, mas o arquivo Avro sugerir um dos outros dois tipos.
- Lê e não resgata mais corretamente os tipos
-
- Impede a leitura de tipos de intervalo como tipos de data ou carimbo de data/hora para evitar a obtenção de datas corrompidas.
-
- Impede tipos de leitura
Decimal
com precisão mais baixa.
- Impede tipos de leitura
- [SPARK-43098][SQL] Corrigido o bug de correção
COUNT
quando a subconsulta escalar é agrupada por cláusula. - [SPARK-43190][SQL]
ListQuery.childOutput
agora é consistente com a saída secundária. - Atualizações de segurança do sistema operacional.
25 de abril de 2023
- Se um arquivo Parquet fosse lido apenas com a opção
failOnUnknownFields
ou com o Carregador Automático no modo de evolução do esquemafailOnNewColumns
, as colunas que têm tipos de dados diferentes seriam lidas comonull
em vez de gerar um erro informando que o arquivo não pode ser lido. Essas leituras agora falham e recomendam que os usuários usem a opçãorescuedDataColumn
. - O Carregador Automático agora lê corretamente e não resgata mais os tipos
Integer
,Short
,Byte
se um desses tipos de dados for fornecido. O arquivo Parquet sugere um dos outros dois tipos. Quando a coluna de dados resgatados foi habilitada anteriormente, a incompatibilidade de tipo de dados faria com que as colunas fossem resgatadas mesmo que fossem legíveis. - [SPARK-43009][SQL]
sql()
Parametrizado com constantesAny
. - [SPARK-42971][CORE] Alterar para imprimir
workdir
seappDirs
for nulo quando o evento de identificadorWorkDirCleanup
de trabalho. - Atualizações de segurança do sistema operacional.
- Se um arquivo Parquet fosse lido apenas com a opção
11 de abril de 2023
- Suporte a formatos de fonte de dados herdados no comando SYNC.
- Corrige um bug no comportamento %autoreload em notebooks que estão fora de um repositório.
- Correção de um bug em que a evolução do esquema do Carregador Automático pode entrar em um loop de falha infinito, quando uma nova coluna é detectada no esquema de um objeto JSON aninhado.
- [SPARK-42928][SQL] Faz a sincronização
resolvePersistentFunction
. - [SPARK-42967][CORE] Corrige
SparkListenerTaskStart.stageAttemptId
quando uma tarefa é iniciada após o cancelamento do estágio. - Atualizações de segurança do sistema operacional.
29 de março de 2023
- O Carregador Automático agora dispara pelo menos um log do RocksDB síncrono limpo para fluxos
Trigger.AvailableNow
para garantir que o ponto de verificação possa ser limpo regularmente para fluxos do Carregador Automático em execução rápida. Isso pode fazer com que alguns fluxos levem mais tempo antes de serem desligados, mas economizarão custos de armazenamento e melhorarão a experiência do Carregador Automático em execuções futuras. - Agora você pode modificar uma tabela Delta para adicionar suporte a recursos de tabela usando
DeltaTable.addFeatureSupport(feature_name)
. - [SPARK-42702][SPARK-42623][SQL] Suporte à consulta parametrizada em subconsulta e CTE
- [SPARK-41162][SQL] Corrigir a junção anti e semi-junção para autojunção com agregações
- [SPARK-42403][CORE] JsonProtocol deve manipular cadeias de caracteres JSON nulas
- [SPARK-42668][SS] Capturar exceção ao tentar fechar o fluxo compactado na anulação de HDFSStateStoreProvider
- [SPARK-42794][SS] Aumentar o lockAcquireTimeoutMs para 2 minutos para adquirir o repositório de estado RocksDB no Structure Streaming
- O Carregador Automático agora dispara pelo menos um log do RocksDB síncrono limpo para fluxos
14 de março de 2023
- Há uma alteração de terminologia para adicionar recursos a uma tabela Delta usando a propriedade table. A sintaxe preferencial agora
'delta.feature.featureName'='supported'
é em vez de'delta.feature.featureName'='enabled'
. Para compatibilidade com versões anteriores, o uso de'delta.feature.featureName'='enabled'
ainda funciona e continuará funcionando. - [SPARK-42622][CORE] Desabilitar substituição em valores
- [SPARK-42534][SQL] Corrigir cláusula DB2Dialect Limit
- [SPARK-42635][SQL] Corrigir a expressão TimestampAdd.
- [SPARK-42516][SQL] Sempre capture a configuração de fuso horário da sessão ao criar exibições
- [SPARK-42484] [SQL] Mensagem de erro unsafeRowUtils melhor
- [SPARK-41793][SQL] Resultado incorreto para quadros de janela definidos por uma cláusula de intervalo em decimais grandes
- Atualizações de segurança do sistema operacional.
- Há uma alteração de terminologia para adicionar recursos a uma tabela Delta usando a propriedade table. A sintaxe preferencial agora
24 de fevereiro de 2023
- Agora você pode usar um conjunto unificado de opções (
host
,port
,database
,user
,password
) para se conectar às fontes de dados com suporte na Federação de Consultas (PostgreSQL, MySQL, Synapse, Snowflake, Redshift SQL Server). Observe queport
é opcional e usará o número da porta padrão para cada fonte de dados, se ele não for fornecido.
Exemplo de configuração de conexão do PostgreSQL
CREATE TABLE postgresql_table USING postgresql OPTIONS ( dbtable '<table-name>', host '<host-name>', database '<database-name>', user '<user>', password secret('scope', 'key') );
Exemplo de configuração de conexão do Snowflake
CREATE TABLE snowflake_table USING snowflake OPTIONS ( dbtable '<table-name>', host '<host-name>', port '<port-number>', database '<database-name>', user secret('snowflake_creds', 'my_username'), password secret('snowflake_creds', 'my_password'), schema '<schema-name>', sfWarehouse '<warehouse-name>' );
- [SPARK-41989][PYTHON] Evitar quebrar a configuração de log do pyspark.pandas
- [SPARK-42346][SQL] Reescrever agregações distintas após a mesclagem de subconsulta
- [SPARK-41990][SQL] Usar
FieldReference.column
em vez deapply
na conversão de filtro V1 para V2 - Reverter [SPARK-41848][CORE] Correção de tarefas superagendadas com TaskResourceProfile
- [SPARK-42162] Introduzir a expressão MultiCommutativeOp como uma otimização de memória para canonizar árvores grandes de expressões comutativas
- Atualizações de segurança do sistema operacional.
- Agora você pode usar um conjunto unificado de opções (
16 de fevereiro de 2023
- O comando SYNC dá suporte à sincronização de tabelas recriadas do Metastore do Hive. Se uma tabela HMS tiver sido sincronizada anteriormente para o Catálogo do Unity, mas depois descartada e recriada, uma nova sincronização subsequente funcionará em vez de gerar o código de status TABLE_ALREADY_EXISTS.
- [SPARK-41219][SQL] IntegralDivide usa decimal(1, 0) para representar 0
- [SPARK-36173][CORE] Suporte para obtenção de número de CPU em TaskContext
- [SPARK-41848][CORE] Correção de tarefas superagendadas com TaskResourceProfile
- [SPARK-42286][SQL] Fallback para o caminho de código codegen anterior para expr complexo com CAST
31 de janeiro de 2023
- A criação de um esquema com um local definido agora exige que o usuário tenha privilégios SELECT e MODIFY em ANY FILE.
- [SPARK-41581] [SQL] Atribuir nome a _LEGACY_ERROR_TEMP_1230
- [SPARK-41996][SQL][SS] Corrigir teste do Kafka para verificar partições perdidas para considerar operações lentas do Kafka
- [SPARK-41580] [SC-118715][SQL] Atribuir nome a _LEGACY_ERROR_TEMP_2137
- [SPARK-41666][PYTHON] Suporte a SQL parametrizado por
sql()
- [SPARK-41579] [SC-118715][SQL] Atribuir nome a _LEGACY_ERROR_TEMP_1240
- [SPARK-41573] [SC-118715][SQL] Atribuir nome a _LEGACY_ERROR_TEMP_2136
- [SPARK-41574] [SC-118715][SQL] Atribuir nome a _LEGACY_ERROR_TEMP_2009
- [SPARK-41049][Acompanhamento] Corrigir uma regressão de sincronização de código para ConvertToLocalRelation
- [SPARK-41576] [SC-118715][SQL] Atribuir nome a _LEGACY_ERROR_TEMP_2051
- [SPARK-41572] [SC-118715][SQL] Atribuir nome a _LEGACY_ERROR_TEMP_2149
- [SPARK-41575] [SC-118715][SQL] Atribuir nome a _LEGACY_ERROR_TEMP_2054
- Atualizações de segurança do sistema operacional.
Databricks Runtime 12.0 (EoS)
Consulte Databricks Runtime 12.0 (EoS).
15 de junho de 2023
approx_count_distinct
fotonizado.- A biblioteca Snowflake-jdbc foi atualizada para 3.13.29 para que fosse resolvido um problema de segurança.
- [SPARK-43156][SPARK-43098][SQL] Estenda o teste de bug de contagem de subconsultas escalares com decorrelateInnerQuery desabilitado
- [SPARK-43779][SQL] Agora,
ParseToDate
carregaEvalMode
no thread principal. - Atualizações de segurança do sistema operacional.
2 de junho de 2023
- O analisador JSON no modo
failOnUnknownFields
descarta um registro no modoDROPMALFORMED
e falha diretamente no modoFAILFAST
. - Melhoria do desempenho da atualização incremental com Iceberg e Parquet
SHALLOW CLONE
. - Corrigido um problema no Carregador Automático em que diferentes formatos de arquivo de origem eram inconsistentes quando o esquema fornecido não incluía partições inferidas. Esse problema pode causar falhas inesperadas ao ler arquivos com colunas ausentes no esquema de partição inferido.
- [SPARK-42444][PYTHON]
DataFrame.drop
agora lida com colunas duplicadas corretamente. - [SPARK-43404][Backport] Ignore a reutilização do arquivo sst para a mesma versão do armazenamento de estado do RocksDB para evitar erro de incompatibilidade de ID.
- [SPARK-43413][11.3-13.0][SQL] Corrigida a nulidade
IN
da subconsultaListQuery
. - [SPARK-43527][PYTHON] Corrigido
catalog.listCatalogs
no PySpark. - [SPARK-43522][SQL] Corrigida a criação de nome da coluna struct com índice de matriz.
- [SPARK-43541][SQL] Propague todas as marcas
Project
na resolução de expressões e colunas ausentes. - [SPARK-43340][CORE] Corrigido o campo de rastreamento de pilha ausente nos logs de eventos.
- [SPARK-42937][SQL]
PlanSubqueries
definidoInSubqueryExec#shouldBroadcast
como verdadeiro.
- O analisador JSON no modo
17 de maio de 2023
- As verificações parquet agora são robustas em relação aos OOMs ao verificar arquivos excepcionalmente estruturados ajustando dinamicamente o tamanho do lote. Os metadados de arquivo são analisados para reduzir preventivamente o tamanho do lote e são reduzidos novamente em tentativas de tarefa como uma rede de segurança final.
- Se um arquivo Avro fosse lido apenas com a opção
failOnUnknownFields\
ou com o Carregador Automático no modo de evolução do esquemafailOnNewColumns\
, as colunas que têm tipos de dados diferentes seriam lidas comonull\
em vez de gerar um erro informando que o arquivo não pode ser lido. Essas leituras agora falham e recomendam que os usuários usem a opçãorescuedDataColumn\
. - O Carregador Automático agora faz o seguinte.
-
- Lê e não resgata mais corretamente os tipos
Integer
,Short
,Byte
se um desses tipos de dados for fornecido, mas o arquivo Avro sugerir um dos outros dois tipos.
- Lê e não resgata mais corretamente os tipos
-
- Impede a leitura de tipos de intervalo como tipos de data ou carimbo de data/hora para evitar a obtenção de datas corrompidas.
-
- Impede tipos de leitura
Decimal
com precisão mais baixa.
- Impede tipos de leitura
- [SPARK-43172] [CONNECT] Expõe o host e o token do cliente Spark connect.
- [SPARK-41520][SQL] Dividir
AND_OR
padrão de árvore para separarAND
eOR
. - [SPARK-43098][SQL] Corrigido o bug de correção
COUNT
quando a subconsulta escalar é agrupada por cláusula. - [SPARK-43190][SQL]
ListQuery.childOutput
agora é consistente com a saída secundária. - Atualizações de segurança do sistema operacional.
25 de abril de 2023
- Se um arquivo Parquet fosse lido apenas com a opção
failOnUnknownFields
ou com o Carregador Automático no modo de evolução do esquemafailOnNewColumns
, as colunas que têm tipos de dados diferentes seriam lidas comonull
em vez de gerar um erro informando que o arquivo não pode ser lido. Essas leituras agora falham e recomendam que os usuários usem a opçãorescuedDataColumn
. - O Carregador Automático agora lê corretamente e não resgata mais os tipos
Integer
,Short
,Byte
se um desses tipos de dados for fornecido. O arquivo Parquet sugere um dos outros dois tipos. Quando a coluna de dados resgatados foi habilitada anteriormente, a incompatibilidade de tipo de dados faria com que as colunas fossem resgatadas mesmo que fossem legíveis. - [SPARK-42971][CORE] Alterar para imprimir
workdir
seappDirs
for nulo quando o evento de identificadorWorkDirCleanup
de trabalho - Atualizações de segurança do sistema operacional.
- Se um arquivo Parquet fosse lido apenas com a opção
11 de abril de 2023
- Suporte a formatos de fonte de dados herdados no comando
SYNC
. - Corrige um bug no comportamento %autoreload em notebooks que estão fora de um repositório.
- Correção de um bug em que a evolução do esquema do Carregador Automático pode entrar em um loop de falha infinito, quando uma nova coluna é detectada no esquema de um objeto JSON aninhado.
- [SPARK-42928][SQL] Faz a sincronização
resolvePersistentFunction
. - [SPARK-42967][CORE] Corrige
SparkListenerTaskStart.stageAttemptId
quando uma tarefa é iniciada após o cancelamento do estágio. - Atualizações de segurança do sistema operacional.
- Suporte a formatos de fonte de dados herdados no comando
29 de março de 2023
- [SPARK-42794][SS] Aumentar o lockAcquireTimeoutMs para 2 minutos para adquirir o repositório de estado RocksDB no Structure Streaming
- [SPARK-41162][SQL] Corrigir a junção anti e semi-junção para autojunção com agregações
- [SPARK-42403][CORE] JsonProtocol deve manipular cadeias de caracteres JSON nulas
- [SPARK-42668][SS] Capturar exceção ao tentar fechar o fluxo compactado na anulação de HDFSStateStoreProvider
- Diversas correções de bugs.
14 de março de 2023
- [SPARK-42534][SQL] Corrigir cláusula DB2Dialect Limit
- [SPARK-42622][CORE] Desabilitar substituição em valores
- [SPARK-41793][SQL] Resultado incorreto para quadros de janela definidos por uma cláusula de intervalo em decimais grandes
- [SPARK-42484] [SQL] Mensagem de erro unsafeRowUtils melhor
- [SPARK-42635][SQL] Corrigir a expressão TimestampAdd.
- [SPARK-42516][SQL] Sempre capture a configuração de fuso horário da sessão ao criar exibições
- Atualizações de segurança do sistema operacional.
24 de fevereiro de 2023
Opções de Conexão Padronizadas para Federação de Consulta
Agora você pode usar um conjunto unificado de opções (
host
,port
,database
,user
,password
) para se conectar às fontes de dados com suporte na Federação de Consultas (PostgreSQL, MySQL, Synapse, Snowflake, Redshift SQL Server). Observe queport
é opcional e usará o número da porta padrão para cada fonte de dados, se não for fornecido.Exemplo de configuração de conexão do PostgreSQL
CREATE TABLE postgresql_table USING postgresql OPTIONS ( dbtable '<table-name>', host '<host-name>', database '<database-name>', user '<user>', password secret('scope', 'key') );
Exemplo de configuração de conexão do Snowflake
CREATE TABLE snowflake_table USING snowflake OPTIONS ( dbtable '<table-name>', host '<host-name>', port '<port-number>', database '<database-name>', user secret('snowflake_creds', 'my_username'), password secret('snowflake_creds', 'my_password'), schema '<schema-name>', sfWarehouse '<warehouse-name>' );
Reverter [SPARK-41848][CORE] Correção de tarefas superagendadas com TaskResourceProfile
[SPARK-42162] Introduzir a expressão MultiCommutativeOp como uma otimização de memória para canonizar árvores grandes de expressões comutativas
[SPARK-41990][SQL] Usar
FieldReference.column
em vez deapply
na conversão de filtro V1 para V2[SPARK-42346][SQL] Reescrever agregações distintas após a mesclagem de subconsulta
Atualizações de segurança do sistema operacional.
16 de fevereiro de 2023
- Os usuários agora podem ler e gravar determinadas tabelas Delta que exigem o Leitor versão 3 e o Gravador versão 7, usando o Databricks Runtime 9.1 ou posterior. Para ter êxito, os recursos de tabela listados no protocolo das tabelas devem ter suporte da versão atual do Databricks Runtime.
- O comando SYNC dá suporte à sincronização de tabelas recriadas do Metastore do Hive. Se uma tabela HMS tiver sido sincronizada anteriormente para o Catálogo do Unity, mas depois descartada e recriada, uma nova sincronização subsequente funcionará em vez de gerar o código de status TABLE_ALREADY_EXISTS.
- [SPARK-36173][CORE] Suporte para obtenção de número de CPU em TaskContext
- [SPARK-42286][SQL] Fallback para o caminho de código codegen anterior para expr complexo com CAST
- [SPARK-41848][CORE] Correção de tarefas superagendadas com TaskResourceProfile
- [SPARK-41219][SQL] IntegralDivide usa decimal(1, 0) para representar 0
25 de janeiro de 2023
- [SPARK-41660] [SQL] Somente propagar colunas de metadados se forem usadas
- [SPARK-41379] [SS][PYTHON] Fornecer sessão do Spark clonada no DataFrame na função de usuário para o coletor foreachBatch no PySpark
- [SPARK-41669][SQL] Remoção antecipada em canCollapseExpressions
- Atualizações de segurança do sistema operacional.
18 de janeiro de 2023
- Agora o comando SQL
REFRESH FUNCTION
dá suporte a funções SQL e funções de Tabela SQL. Por exemplo, o comando poderia ser usado para atualizar uma função SQL persistente que foi atualizada em outra sessão SQL. - A fonte de dados JDBC (Java Database Connectivity) v1 agora dá suporte ao pushdown da cláusula LIMIT para melhorar o desempenho em consultas. Esse recurso é habilitado por padrão e pode ser desabilitado definindo
spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled
comofalse
. - Em clusters de ACLs de tabela herdada, agora a criação de funções que referenciam classes JVM requer o privilégio
MODIFY_CLASSPATH
. - A fonte de dados JDBC (Java Database Connectivity) v1 agora dá suporte ao pushdown da cláusula LIMIT para melhorar o desempenho em consultas. Esse recurso é habilitado por padrão e pode ser desabilitado com spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled definido como false.
- Agora o conector Azure Synapse retorna uma mensagem de erro mais descritiva quando um nome de coluna contém caracteres inválidos, como espaços em branco ou ponto e vírgula. Nesses casos, a seguinte mensagem será retornada:
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace
. - Agora o Streaming Estruturado do Spark funciona com format("deltasharing") em uma tabela de compartilhamento delta como fonte.
- [SPARK-38277][SS] Limpar o lote de gravação após o commit do armazenamento de estado de RocksDB
- [SPARK-41733][SQL][SS] Aplicar remoção baseada em padrão de árvore para a regra ResolveWindowTime
- [SPARK-39591][SS] Acompanhamento de progresso assíncrono
- [SPARK-41339][SQL] Fechar e recriar o lote de gravação de RocksDB em vez de apenas limpar
- [SPARK-41198][SS] Corrigir métricas no fluxo de consulta com fonte de fluxo CTE e DSv1
- [SPARK-41539][SQL] Remapear estatísticas e restrições em relação à saída no plano lógico para LogicalRDD
- [SPARK-41732][SQL][SS] Aplicar remoção baseada em padrão de árvore para a regra SessionWindowing
- [SPARK-41862][SQL] Corrigir bug de correção relacionado aos valores DEFAULT no leitor de Orc
- [SPARK-41199][SS] Corrigir o problema de métricas quando a fonte de fluxo DSv1 e a fonte de fluxo DSv2 são coutilizadas
- [SPARK-41261][PYTHON][SS] Corrigir problema para applyInPandasWithState quando as colunas de chaves de agrupamento não são colocadas em ordem desde o início
- Atualizações de segurança do sistema operacional.
- Agora o comando SQL
17 de maio de 2023
- As verificações parquet agora são robustas em relação aos OOMs ao verificar arquivos excepcionalmente estruturados ajustando dinamicamente o tamanho do lote. Os metadados de arquivo são analisados para reduzir preventivamente o tamanho do lote e são reduzidos novamente em tentativas de tarefa como uma rede de segurança final.
- Correção de uma regressão que fazia com que os trabalhos do Azure Databricks persistissem após a falha na conexão com o metastore durante a inicialização do cluster.
- [SPARK-41520][SQL] Dividir
AND_OR
padrão de árvore para separarAND
eOR
. - [SPARK-43190][SQL]
ListQuery.childOutput
agora é consistente com a saída secundária. - Atualizações de segurança do sistema operacional.
25 de abril de 2023
- Se um arquivo Parquet fosse lido apenas com a opção
failOnUnknownFields
ou com o Carregador Automático no modo de evolução do esquemafailOnNewColumns
, as colunas que têm tipos de dados diferentes seriam lidas comonull
em vez de gerar um erro informando que o arquivo não pode ser lido. Essas leituras agora falham e recomendam que os usuários usem a opçãorescuedDataColumn
. - O Carregador Automático agora lê corretamente e não resgata mais os tipos
Integer
,Short
,Byte
se um desses tipos de dados for fornecido. O arquivo Parquet sugere um dos outros dois tipos. Quando a coluna de dados resgatados foi habilitada anteriormente, a incompatibilidade de tipo de dados faria com que as colunas fossem resgatadas mesmo que fossem legíveis. - [SPARK-42937][SQL]
PlanSubqueries
agora é definidoInSubqueryExec#shouldBroadcast
como verdadeiro. - Atualizações de segurança do sistema operacional.
- Se um arquivo Parquet fosse lido apenas com a opção
11 de abril de 2023
- Suporte a formatos de fonte de dados herdados no comando SYNC.
- Corrige um bug no comportamento %autoreload em notebooks que estão fora de um repositório.
- Correção de um bug em que a evolução do esquema do Carregador Automático pode entrar em um loop de falha infinito, quando uma nova coluna é detectada no esquema de um objeto JSON aninhado.
- [SPARK-42928][SQL] Fazer resolvePersistentFunction sincronizado.
- [SPARK-42967][CORE] Corrigir SparkListenerTaskStart.stageAttemptId quando uma tarefa é iniciada após o cancelamento do estágio.
29 de março de 2023
- [SPARK-42794][SS] Aumentar o lockAcquireTimeoutMs para 2 minutos para adquirir o repositório de estado RocksDB no Structure Streaming
- [SPARK-42403][CORE] JsonProtocol deve manipular cadeias de caracteres JSON nulas
- [SPARK-42668][SS] Capturar exceção ao tentar fechar o fluxo compactado na anulação de HDFSStateStoreProvider
- Atualizações de segurança do sistema operacional.
14 de março de 2023
- [SPARK-42635][SQL] Corrigir a expressão TimestampAdd.
- [SPARK-41793][SQL] Resultado incorreto para quadros de janela definidos por uma cláusula de intervalo em decimais grandes
- [SPARK-42484] [SQL] Mensagem de erro unsafeRowUtils melhor
- [SPARK-42534][SQL] Corrigir cláusula DB2Dialect Limit
- [SPARK-41162][SQL] Corrigir a junção anti e semi-junção para autojunção com agregações
- [SPARK-42516][SQL] Sempre capture a configuração de fuso horário da sessão ao criar exibições
- Diversas correções de bugs.
28 de fevereiro de 2023
Opções de Conexão Padronizadas para Federação de Consulta
Agora você pode usar um conjunto unificado de opções (
host
,port
,database
,user
,password
) para se conectar às fontes de dados com suporte na Federação de Consultas (PostgreSQL, MySQL, Synapse, Snowflake, Redshift SQL Server). Observe queport
é opcional e usará o número da porta padrão para cada fonte de dados, se ele não for fornecido.Exemplo de configuração de conexão do PostgreSQL
CREATE TABLE postgresql_table USING postgresql OPTIONS ( dbtable '<table-name>', host '<host-name>', database '<database-name>', user '<user>', password secret('scope', 'key') );
Exemplo de configuração de conexão do Snowflake
CREATE TABLE snowflake_table USING snowflake OPTIONS ( dbtable '<table-name>', host '<host-name>', port '<port-number>', database '<database-name>', user secret('snowflake_creds', 'my_username'), password secret('snowflake_creds', 'my_password'), schema '<schema-name>', sfWarehouse '<warehouse-name>' );
[SPARK-42286][SQL] Fallback para o caminho de código codegen anterior para expr complexo com CAST
[SPARK-41989][PYTHON] Evitar quebrar a configuração de log do pyspark.pandas
[SPARK-42346][SQL] Reescrever agregações distintas após a mesclagem de subconsulta
[SPARK-41360][CORE] Evite o novo registro do BlockManager se o executor tiver sido perdido
[SPARK-42162] Introduzir a expressão MultiCommutativeOp como uma otimização de memória para canonizar árvores grandes de expressões comutativas
[SPARK-41990][SQL] Usar
FieldReference.column
em vez deapply
na conversão de filtro V1 para V2Atualizações de segurança do sistema operacional.
16 de fevereiro de 2023
- Os usuários agora podem ler e gravar determinadas tabelas Delta que exigem o Leitor versão 3 e o Gravador versão 7, usando o Databricks Runtime 9.1 ou posterior. Para ter êxito, os recursos de tabela listados no protocolo das tabelas devem ter suporte da versão atual do Databricks Runtime.
- O comando SYNC dá suporte à sincronização de tabelas recriadas do Metastore do Hive. Se uma tabela HMS tiver sido sincronizada anteriormente para o Catálogo do Unity, mas depois descartada e recriada, uma nova sincronização subsequente funcionará em vez de gerar o código de status TABLE_ALREADY_EXISTS.
- [SPARK-41219][SQL] IntegralDivide usa decimal(1, 0) para representar 0
- [SPARK-40382][SQL] Agrupar expressões agregadas distintas por filhos semanticamente equivalentes em
RewriteDistinctAggregates
- Atualizações de segurança do sistema operacional.
25 de janeiro de 2023
- [SPARK-41379] [SS][PYTHON] Fornecer sessão do Spark clonada no DataFrame na função de usuário para o coletor foreachBatch no PySpark
- [SPARK-41660] [SQL] Somente propagar colunas de metadados se forem usadas
- [SPARK-41669][SQL] Remoção antecipada em canCollapseExpressions
- Diversas correções de bugs.
18 de janeiro de 2023
- Agora o comando SQL
REFRESH FUNCTION
dá suporte a funções SQL e funções de Tabela SQL. Por exemplo, o comando poderia ser usado para atualizar uma função SQL persistente que foi atualizada em outra sessão SQL. - A fonte de dados JDBC (Java Database Connectivity) v1 agora dá suporte ao pushdown da cláusula LIMIT para melhorar o desempenho em consultas. Esse recurso é habilitado por padrão e pode ser desabilitado definindo
spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled
comofalse
. - A fonte de dados JDBC (Java Database Connectivity) v1 agora dá suporte ao pushdown da cláusula LIMIT para melhorar o desempenho em consultas. Esse recurso é habilitado por padrão e pode ser desabilitado com spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled definido como false.
- Agora o conector Azure Synapse retorna uma mensagem de erro mais descritiva quando um nome de coluna contém caracteres inválidos, como espaços em branco ou ponto e vírgula. Nesses casos, a seguinte mensagem será retornada:
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace
. - [SPARK-41198][SS] Corrigir métricas no fluxo de consulta com fonte de fluxo CTE e DSv1
- [SPARK-41862][SQL] Corrigir bug de correção relacionado aos valores DEFAULT no leitor de Orc
- [SPARK-41539][SQL] Remapear estatísticas e restrições em relação à saída no plano lógico para LogicalRDD
- [SPARK-39591][SS] Acompanhamento de progresso assíncrono
- [SPARK-41199][SS] Corrigir o problema de métricas quando a fonte de fluxo DSv1 e a fonte de fluxo DSv2 são coutilizadas
- [SPARK-41261][PYTHON][SS] Corrigir problema para applyInPandasWithState quando as colunas de chaves de agrupamento não são colocadas em ordem desde o início
- [SPARK-41339][SQL] Fechar e recriar o lote de gravação de RocksDB em vez de apenas limpar
- [SPARK-41732][SQL][SS] Aplicar remoção baseada em padrão de árvore para a regra SessionWindowing
- [SPARK-38277][SS] Limpar o lote de gravação após o commit do armazenamento de estado de RocksDB
- Atualizações de segurança do sistema operacional.
- Agora o comando SQL
29 de novembro de 2022
- Os usuários podem configurar o comportamento dos espaços em branco à esquerda e à direita ao escrever dados usando o conector do Redshift. As seguintes opções foram adicionadas para controlar o tratamento de espaço em branco:
csvignoreleadingwhitespace
, quando definido comotrue
, remove o espaço em branco à esquerda dos valores ao escrever quandotempformat
é definido comoCSV
ouCSV GZIP
. Os espaços em branco são mantidos quando a configuração é definida comofalse
. Por padrão, o valor étrue
.csvignoretrailingwhitespace
, quando definido comotrue
, remove o espaço em branco à direita dos valores ao escrever quandotempformat
é definido comoCSV
ouCSV GZIP
. Os espaços em branco são mantidos quando a configuração é definida comofalse
. Por padrão, o valor étrue
.
- Corrigido um bug com análise de JSON no Carregador Automático quando todas as colunas eram deixadas como cadeias de caracteres (
cloudFiles.inferColumnTypes
não era definido comofalse
) e o JSON continha objetos aninhados. - Atualização da dependência
snowflake-jdbc
para a versão 3.13.22. - Os tipos de tabelas JDBC agora são EXTERNAL por padrão.
- [SPARK-40906][SQL]
Mode
deve copiar chaves antes de inserir no Mapa - Atualizações de segurança do sistema operacional.
- Os usuários podem configurar o comportamento dos espaços em branco à esquerda e à direita ao escrever dados usando o conector do Redshift. As seguintes opções foram adicionadas para controlar o tratamento de espaço em branco:
15 de novembro de 2022
- ACLs de tabela e clusters UC Compartilhados agora permitem o método Dataset.toJSON do Python.
- [SPARK-40646] A análise de JSON para structs, mapas e matrizes foi corrigida para que, quando uma parte de um registro não corresponder ao esquema, o restante do registro ainda possa ser analisado corretamente em vez de retornar nulos. Para optar pelo comportamento aprimorado, defina
spark.sql.json.enablePartialResults
comotrue
. O sinalizador é desabilitado por padrão para preservar o comportamento original - [SPARK-40903][SQL] Evitar reordenar a Adição decimal para canonização se o tipo de dados for alterado
- [SPARK-40618][SQL] Corrigir bug na regra MergeScalarSubqueries com subconsultas aninhadas usando rastreamento de referência
- [SPARK-40697][SQL] Adicionar preenchimento de caracteres do lado da leitura para cobrir arquivos de dados externos
- Atualizações de segurança do sistema operacional.
1º de novembro de 2022
- O Fluxo Estruturado no Catálogo do Unity agora dá suporte à atualização de tokens de acesso temporário. Cargas de trabalho de fluxo em execução com clusters de trabalho ou para todas as finalidades do Catálogo do Unity não falham mais após a expiração do token inicial.
- Corrigido um problema em que, se uma tabela Delta tivesse uma coluna definida pelo usuário chamada
_change_type
, mas o feed de dados de alteração estivesse desabilitado nessa tabela, os dados dessa coluna preencheriam incorretamente com valores NULL ao executarMERGE
. - Corrigido um problema em que executar
MERGE
e usar exatamente 99 colunas da origem na condição poderia resultar emjava.lang.ClassCastException: org.apache.spark.sql.vectorized.ColumnarBatch cannot be cast to org.apache.spark.sql.catalyst.InternalRow
. - Corrigido um problema com o Carregador Automático em que um arquivo podia ser duplicado no mesmo microlote quando
allowOverwrites
estivesse habilitado. - Atualização do Apache commons-text para 1.10.0.
- [SPARK-38881][DSTREAMS][KINESIS][PYSPARK] Adicionado suporte para Configuração MetricsLevel da CloudWatch
- [SPARK-40596][CORE] Preencher ExecutorDecommission com mensagens em ExecutorDecommissionInfo
- [SPARK-40670][SS][PYTHON] Correção de NPE em applyInPandasWithState quando o esquema de entrada tiver colunas "não anuláveis"
- Atualizações de segurança do sistema operacional.
Databricks Runtime 11.2 (EoS)
Consulte Databricks Runtime 11.2 (EoS).
- 28 de fevereiro de 2023
- [SPARK-42286][SQL] Fallback para o caminho de código codegen anterior para expr complexo com CAST
- [SPARK-42346][SQL] Reescrever agregações distintas após a mesclagem de subconsulta
- Atualizações de segurança do sistema operacional.
- 16 de fevereiro de 2023
- Os usuários agora podem ler e gravar determinadas tabelas Delta que exigem o Leitor versão 3 e o Gravador versão 7, usando o Databricks Runtime 9.1 ou posterior. Para ter êxito, os recursos de tabela listados no protocolo das tabelas devem ter suporte da versão atual do Databricks Runtime.
- O comando SYNC dá suporte à sincronização de tabelas recriadas do Metastore do Hive. Se uma tabela HMS tiver sido sincronizada anteriormente para o Catálogo do Unity, mas depois descartada e recriada, uma nova sincronização subsequente funcionará em vez de gerar o código de status TABLE_ALREADY_EXISTS.
- [SPARK-41219][SQL] IntegralDivide usa decimal(1, 0) para representar 0
- Atualizações de segurança do sistema operacional.
- 31 de janeiro de 2023
- Os tipos de tabelas JDBC agora são EXTERNAL por padrão.
- [SPARK-41379] [SS][PYTHON] Fornecer sessão do Spark clonada no DataFrame na função de usuário para o coletor foreachBatch no PySpark
- 18 de janeiro de 2023
- Agora o conector Azure Synapse retorna uma mensagem de erro mais descritiva quando um nome de coluna contém caracteres inválidos, como espaços em branco ou ponto e vírgula. Nesses casos, a seguinte mensagem será retornada:
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace
. - [SPARK-41198][SS] Corrigir métricas no fluxo de consulta com fonte de fluxo CTE e DSv1
- [SPARK-41862][SQL] Corrigir bug de correção relacionado aos valores DEFAULT no leitor de Orc
- [SPARK-41539][SQL] Remapear estatísticas e restrições em relação à saída no plano lógico para LogicalRDD
- [SPARK-41199][SS] Corrigir o problema de métricas quando a fonte de fluxo DSv1 e a fonte de fluxo DSv2 são coutilizadas
- [SPARK-41339][SQL] Fechar e recriar o lote de gravação de RocksDB em vez de apenas limpar
- [SPARK-41732][SQL][SS] Aplicar remoção baseada em padrão de árvore para a regra SessionWindowing
- [SPARK-38277][SS] Limpar o lote de gravação após o commit do armazenamento de estado de RocksDB
- Atualizações de segurança do sistema operacional.
- Agora o conector Azure Synapse retorna uma mensagem de erro mais descritiva quando um nome de coluna contém caracteres inválidos, como espaços em branco ou ponto e vírgula. Nesses casos, a seguinte mensagem será retornada:
- 29 de novembro de 2022
- Os usuários podem configurar o comportamento dos espaços em branco à esquerda e à direita ao escrever dados usando o conector do Redshift. As seguintes opções foram adicionadas para controlar o tratamento de espaço em branco:
csvignoreleadingwhitespace
, quando definido comotrue
, remove o espaço em branco à esquerda dos valores ao escrever quandotempformat
é definido comoCSV
ouCSV GZIP
. Os espaços em branco são mantidos quando a configuração é definida comofalse
. Por padrão, o valor étrue
.csvignoretrailingwhitespace
, quando definido comotrue
, remove o espaço em branco à direita dos valores ao escrever quandotempformat
é definido comoCSV
ouCSV GZIP
. Os espaços em branco são mantidos quando a configuração é definida comofalse
. Por padrão, o valor étrue
.
- Corrigido um bug com análise de JSON no Carregador Automático quando todas as colunas eram deixadas como cadeias de caracteres (
cloudFiles.inferColumnTypes
não era definido comofalse
) e o JSON continha objetos aninhados. - [SPARK-40906][SQL]
Mode
deve copiar chaves antes de inserir no Mapa - Atualizações de segurança do sistema operacional.
- Os usuários podem configurar o comportamento dos espaços em branco à esquerda e à direita ao escrever dados usando o conector do Redshift. As seguintes opções foram adicionadas para controlar o tratamento de espaço em branco:
- 15 de novembro de 2022
- [SPARK-40646] A análise de JSON para structs, mapas e matrizes foi corrigida para que, quando uma parte de um registro não corresponder ao esquema, o restante do registro ainda possa ser analisado corretamente em vez de retornar nulos. Para aceitar o comportamento aprimorado, defina
spark.sql.json.enablePartialResults
comotrue
. O sinalizador é desabilitado por padrão para preservar o comportamento original - [SPARK-40618][SQL] Corrigir bug na regra MergeScalarSubqueries com subconsultas aninhadas usando rastreamento de referência
- [SPARK-40697][SQL] Adicionar preenchimento de caracteres do lado da leitura para cobrir arquivos de dados externos
- Atualizações de segurança do sistema operacional.
- [SPARK-40646] A análise de JSON para structs, mapas e matrizes foi corrigida para que, quando uma parte de um registro não corresponder ao esquema, o restante do registro ainda possa ser analisado corretamente em vez de retornar nulos. Para aceitar o comportamento aprimorado, defina
- 1º de novembro de 2022
- Atualização do Apache commons-text para 1.10.0.
- Corrigido um problema em que, se uma tabela Delta tivesse uma coluna definida pelo usuário chamada
_change_type
, mas o feed de dados de alteração estivesse desabilitado nessa tabela, os dados dessa coluna preencheriam incorretamente com valores NULL ao executarMERGE
. - Corrigido um problema em que executar
MERGE
e usar exatamente 99 colunas da origem na condição poderia resultar emjava.lang.ClassCastException: org.apache.spark.sql.vectorized.ColumnarBatch cannot be cast to org.apache.spark.sql.catalyst.InternalRow
. - Corrigido um problema com o Carregador Automático em que um arquivo podia ser duplicado no mesmo microlote quando
allowOverwrites
estivesse habilitado - [SPARK-40596][CORE] Preencher ExecutorDecommission com mensagens em ExecutorDecommissionInfo
- Atualizações de segurança do sistema operacional.
- 19 de outubro de 2022
- Correção de um problema com o uso de COPY INTO com credenciais temporárias em clusters/warehouses habilitados para o Catálogo do Unity.
- [SPARK-40213][SQL] Suporte à conversão de valor ASCII para caracteres Latino-1
- Atualizações de segurança do sistema operacional.
- 5 de outubro de 2022
- Os usuários podem definir spark.conf.set(“spark.databricks.io.listKeysWithPrefix.azure.enabled”, “true”) para reabilitar a listagem nativa do Carregador Automático no ADLS Gen2. A listagem nativa foi desativada anteriormente devido a problemas de desempenho, mas pode ter gerado um aumento nos custos de armazenamento para os clientes. Essa alteração foi implementada no DBR 10.4 e 9.1 na atualização de manutenção anterior.
- [SPARK-40315][SQL]Dar suporte à codificação/decodificação de URL como função interna e arrumar funções relacionadas à URL
- [SPARK-40156][SQL]
url_decode()
caso retorne uma classe de erro - [SPARK-40169] Não efetuar pushdown de filtros Parquet sem referência ao esquema de dados
- [SPARK-40460][SS] Corrigir métricas de streaming ao selecionar
_metadata
- [SPARK-40468][SQL] Corrigir a remoção de coluna no CSV quando _corrupt_record estiver selecionado
- [SPARK-40055][SQL] listCatalogs também devem retornar spark_catalog mesmo quando a implementação spark_catalog for defaultSessionCatalog
- Atualizações de segurança do sistema operacional.
- 22 de setembro de 2022
- [SPARK-40315][SQL] Adicionar hashCode() para Literal de ArrayBasedMapData
- [SPARK-40389][SQL] Decimals não podem ser usar upcast como tipos integrais se a conversão puder estourar
- [SPARK-40380][SQL] Corrigir dobra constante de InvokeLike para evitar literais não serializáveis inseridos no plano
- [SPARK-40066][SQL][FOLLOW-UP] Verificar se ElementAt foi resolvido antes de obter seu dataType
- [SPARK-40109][SQL] Nova função SQL: get()
- [SPARK-40066][SQL] Modo ANSI: sempre retornar nulo no acesso inválido à coluna do mapa
- [SPARK-40089][SQL] Corrigir a classificação para alguns tipos decimais
- [SPARK-39887][SQL] RemoveRedundantAliases deve manter os aliases que tornam a saída de nós de projeção exclusiva
- [SPARK-40152][SQL] Corrigir problema de compilação de codegen split_part
- [SPARK-40235][CORE] Uso do bloqueio interruptível em vez de sincronizado em Executor.updateDependencies()
- [SPARK-40212][SQL] O castPartValue do SparkSQL não lida corretamente com byte, short ou float
- [SPARK-40218][SQL] Os GROUPING SETS devem preservar as colunas de agrupamento
- [SPARK-35542][ML] Corrigir: Classificar em buckets criados para várias colunas com parâmetros
- [SPARK-40079] Adição da validação inputCols do imputador para o caso de entrada vazio
- [SPARK-39912]SPARK-39828[SQL] Refinar CatalogImpl
Databricks Runtime 11.1 (EoS)
Consulte Databricks Runtime 11.1 (EoS).
31 de janeiro de 2023
- [SPARK-41379] [SS][PYTHON] Fornecer sessão do Spark clonada no DataFrame na função de usuário para o coletor foreachBatch no PySpark
- Diversas correções de bugs.
18 de janeiro de 2023
- Agora o conector Azure Synapse retorna uma mensagem de erro mais descritiva quando um nome de coluna contém caracteres inválidos, como espaços em branco ou ponto e vírgula. Nesses casos, a seguinte mensagem será retornada:
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace
. - [SPARK-41198][SS] Corrigir métricas no fluxo de consulta com fonte de fluxo CTE e DSv1
- [SPARK-41862][SQL] Corrigir bug de correção relacionado aos valores DEFAULT no leitor de Orc
- [SPARK-41199][SS] Corrigir o problema de métricas quando a fonte de fluxo DSv1 e a fonte de fluxo DSv2 são coutilizadas
- [SPARK-41339][SQL] Fechar e recriar o lote de gravação de RocksDB em vez de apenas limpar
- [SPARK-41732][SQL][SS] Aplicar remoção baseada em padrão de árvore para a regra SessionWindowing
- [SPARK-38277][SS] Limpar o lote de gravação após o commit do armazenamento de estado de RocksDB
- Atualizações de segurança do sistema operacional.
- Agora o conector Azure Synapse retorna uma mensagem de erro mais descritiva quando um nome de coluna contém caracteres inválidos, como espaços em branco ou ponto e vírgula. Nesses casos, a seguinte mensagem será retornada:
29 de novembro de 2022
- Os usuários podem configurar o comportamento dos espaços em branco à esquerda e à direita ao escrever dados usando o conector do Redshift. As seguintes opções foram adicionadas para controlar o tratamento de espaço em branco:
csvignoreleadingwhitespace
, quando definido comotrue
, remove o espaço em branco à esquerda dos valores ao escrever quandotempformat
é definido comoCSV
ouCSV GZIP
. Os espaços em branco são mantidos quando a configuração é definida comofalse
. Por padrão, o valor étrue
.csvignoretrailingwhitespace
, quando definido comotrue
, remove o espaço em branco à direita dos valores ao escrever quandotempformat
é definido comoCSV
ouCSV GZIP
. Os espaços em branco são mantidos quando a configuração é definida comofalse
. Por padrão, o valor étrue
.
- Corrigido um bug com análise de JSON no Carregador Automático quando todas as colunas eram deixadas como cadeias de caracteres (
cloudFiles.inferColumnTypes
não era definido comofalse
) e o JSON continha objetos aninhados. - [SPARK-39650] [SS] Correção de esquema de valor incorreto na eliminação de duplicação de fluxo com a compatibilidade com versões anteriores
- Atualizações de segurança do sistema operacional.
- Os usuários podem configurar o comportamento dos espaços em branco à esquerda e à direita ao escrever dados usando o conector do Redshift. As seguintes opções foram adicionadas para controlar o tratamento de espaço em branco:
15 de novembro de 2022
- [SPARK-40646] A análise de JSON para structs, mapas e matrizes foi corrigida para que, quando uma parte de um registro não corresponder ao esquema, o restante do registro ainda possa ser analisado corretamente em vez de retornar nulos. Para optar pelo comportamento aprimorado, defina
spark.sql.json.enablePartialResults
comotrue
. O sinalizador é desabilitado por padrão para preservar o comportamento original - Atualizações de segurança do sistema operacional.
- [SPARK-40646] A análise de JSON para structs, mapas e matrizes foi corrigida para que, quando uma parte de um registro não corresponder ao esquema, o restante do registro ainda possa ser analisado corretamente em vez de retornar nulos. Para optar pelo comportamento aprimorado, defina
1º de novembro de 2022
- Atualização do Apache commons-text para 1.10.0.
- Corrigido um problema em que, se uma tabela Delta tivesse uma coluna definida pelo usuário chamada
_change_type
, mas o feed de dados de alteração estivesse desabilitado nessa tabela, os dados dessa coluna preencheriam incorretamente com valores NULL ao executarMERGE
. - Corrigido um problema em que executar
MERGE
e usar exatamente 99 colunas da origem na condição poderia resultar emjava.lang.ClassCastException: org.apache.spark.sql.vectorized.ColumnarBatch cannot be cast to org.apache.spark.sql.catalyst.InternalRow
. - Corrigido um problema com o Carregador Automático em que um arquivo podia ser duplicado no mesmo microlote quando
allowOverwrites
estivesse habilitado - [SPARK-40697][SQL] Adicionar preenchimento de caracteres do lado da leitura para cobrir arquivos de dados externos
- [SPARK-40596][CORE] Preencher ExecutorDecommission com mensagens em ExecutorDecommissionInfo
- Atualizações de segurança do sistema operacional.
18 de outubro de 2022
- Correção de um problema com o uso de COPY INTO com credenciais temporárias em clusters/warehouses habilitados para o Catálogo do Unity.
- [SPARK-40213][SQL] Suporte à conversão de valor ASCII para caracteres Latino-1
- Atualizações de segurança do sistema operacional.
5 de outubro de 2022
- Os usuários podem definir spark.conf.set(“spark.databricks.io.listKeysWithPrefix.azure.enabled”, “true”) para reabilitar a listagem nativa do Carregador Automático no ADLS Gen2. A listagem nativa foi desativada anteriormente devido a problemas de desempenho, mas pode ter gerado um aumento nos custos de armazenamento para os clientes. Essa alteração foi implementada no DBR 10.4 e 9.1 na atualização de manutenção anterior.
- [SPARK-40169] Não efetuar pushdown de filtros Parquet sem referência ao esquema de dados
- [SPARK-40460][SS] Corrigir métricas de streaming ao selecionar
_metadata
- [SPARK-40468][SQL] Corrigir a remoção de coluna no CSV quando _corrupt_record estiver selecionado
- [SPARK-40055][SQL] listCatalogs também devem retornar spark_catalog mesmo quando a implementação spark_catalog for defaultSessionCatalog
- Atualizações de segurança do sistema operacional.
22 de setembro de 2022
- [SPARK-40315][SQL] Adicionar hashCode() para Literal de ArrayBasedMapData
- [SPARK-40380][SQL] Corrigir dobra constante de InvokeLike para evitar literais não serializáveis inseridos no plano
- [SPARK-40089][SQL] Corrigir a classificação para alguns tipos decimais
- [SPARK-39887][SQL] RemoveRedundantAliases deve manter os aliases que tornam a saída de nós de projeção exclusiva
- [SPARK-40152][SQL] Corrigir problema de compilação de codegen split_part
06 de setembro de 2022
- Atualizamos o modelo de permissão nos Controles de Acesso à Tabela (ACLs de Tabela) para que apenas as permissões MODIFY sejam necessárias para alterar o esquema ou as propriedades da tabela de uma tabela com ALTER TABLE. Anteriormente, essas operações exigiam que um usuário fosse o proprietário da tabela. A propriedade ainda é necessária para conceder permissões em uma tabela, alterar o proprietário, alterar o local ou renomeá-la. Essa alteração torna o modelo de permissão para as ACLs de Tabela mais consistente com o Catálogo do Unity.
- [SPARK-40235][CORE] Uso do bloqueio interruptível em vez de sincronizado em Executor.updateDependencies()
- [SPARK-40212][SQL] O castPartValue do SparkSQL não lida corretamente com byte, short ou float
- [SPARK-40218][SQL] Os GROUPING SETS devem preservar as colunas de agrupamento
- [SPARK-39976] [SQL] O ArrayIntersect deve processar null na expressão à esquerda corretamente
- [SPARK-40053][CORE][SQL][TESTS] Adição de
assume
aos casos de cancelamento dinâmico que exigem o ambiente de runtime do Python - [SPARK-35542][CORE][ML] Correção: o classificador em buckets criado para várias colunas com os parâmetros splitsArray, inputCols e outputCols não pode ser carregado após salvá-lo
- [SPARK-40079][CORE] Adição da validação inputCols do imputador para o caso de entrada vazio
24 de agosto de 2022
- Os compartilhamentos, os provedores e os destinatários agora dão suporte a comandos SQL para alterar proprietários, comentar e renomear
- [SPARK-39983][CORE][SQL] Não armazene em cache as relações de difusão não serializadas no driver
- [SPARK-39912][SPARK-39828][SQL] Refinar CatalogImpl
- [SPARK-39775][CORE][AVRO] Foi desabilitada a validação de valores padrão ao analisar esquemas Avro
- [SPARK-39806] Foi corrigido o problema em consultas que acessavam a falha do struct METADATA em tabelas particionadas
- [SPARK-39867][SQL] O limite global não deve herdar OrderPreservingUnaryNode
- [SPARK-39962][PYTHON][SQL] Aplicar projeção quando os atributos de grupo estiverem vazios
- [SPARK-39839][SQL] Tratar o caso especial de decimal de comprimento variável nulo com offsetAndSize diferente de zero na verificação de integridade estrutural de UnsafeRow
- [SPARK-39713][SQL] Modo ANSI: adicionar sugestão de uso de try_element_at para erro INVALID_ARRAY_INDEX
- [SPARK-39847] Corrigir condição de corrida em RocksDBLoader.loadLibrary() se o thread do chamador for interrompido
- [SPARK-39731][SQL] Corrigir problema em fontes de dados CSV e JSON ao analisar datas no formato "yyyyMMdd" com política de analisador de tempo CORRECTED
- Atualizações de segurança do sistema operacional.
10 de agosto de 2022
- Para tabelas Delta com controle de acesso à tabela, a evolução automática do esquema por meio de instruções DML, como
INSERT
eMERGE
, já está disponível para todos os usuários que têm permissõesMODIFY
nessas tabelas. Além disso, as permissões necessárias para executar a evolução do esquema comCOPY INTO
já foram reduzidas deOWNER
paraMODIFY
, permitindo a consistência com outros comandos. Essas alterações tornam o modelo de segurança de ACL de tabela mais consistente com o modelo de segurança do Catálogo do Unity, bem como com outras operações, como a substituição de uma tabela. - [SPARK-39889] Aprimorar a mensagem de erro da divisão em 0
- [SPARK-39795] [SQL] Nova função SQL: try_to_timestamp
- [SPARK-39749] Sempre use a representação de cadeia de caracteres sem formatação na conversão decimal como cadeia de caracteres no modo ANSI
- [SPARK-39625] Renomear df.as para df.to
- [SPARK-39787] [SQL] Use a classe de erro no erro de análise da função to_timestamp
- [SPARK-39625] [SQL] Adicionar Dataset.as(StructType)
- [SPARK-39689] Suporte a 2 caracteres
lineSep
na fonte de dados CSV - [SPARK-39579] [SQL][PYTHON][R] Torne ListFunctions/getFunction/functionExists compatível com o namespace de três camadas
- [SPARK-39702] [CORE] Reduzir a sobrecarga de memória de TransportCipher$EncryptedMessage usando um byteRawChannel compartilhado
- [SPARK-39575] [AVRO] Adicionar ByteBuffer#rewind após ByteBuffer#get no AvroDeserializer
- [SPARK-39265] [SQL] Corrigir falha de teste quando SPARK_ANSI_SQL_MODE for habilitado
- [SPARK-39441] [SQL] Acelerar DeduplicateRelations
- [SPARK-39497][SQL] Aprimore a exceção de análise da coluna de chave de mapa ausente
- [SPARK-39476] [SQL] Desabilitar a otimização de conversão de cancelamento de quebra de linha ao converter de Long para Float/Double ou de Integer para Float
- [SPARK-39434][SQL] Forneça o contexto da consulta de erro de runtime quando o índice de matriz estiver fora do limite
- Para tabelas Delta com controle de acesso à tabela, a evolução automática do esquema por meio de instruções DML, como
Databricks Runtime 11.0 (EoS)
Consulte Databricks Runtime 11.0 (EoS).
- 29 de novembro de 2022
- Os usuários podem configurar o comportamento dos espaços em branco à esquerda e à direita ao escrever dados usando o conector do Redshift. As seguintes opções foram adicionadas para controlar o tratamento de espaço em branco:
csvignoreleadingwhitespace
, quando definido comotrue
, remove o espaço em branco à esquerda dos valores ao escrever quandotempformat
é definido comoCSV
ouCSV GZIP
. Os espaços em branco são mantidos quando a configuração é definida comofalse
. Por padrão, o valor étrue
.csvignoretrailingwhitespace
, quando definido comotrue
, remove o espaço em branco à direita dos valores ao escrever quandotempformat
é definido comoCSV
ouCSV GZIP
. Os espaços em branco são mantidos quando a configuração é definida comofalse
. Por padrão, o valor étrue
.
- Corrigido um bug com análise de JSON no Carregador Automático quando todas as colunas eram deixadas como cadeias de caracteres (
cloudFiles.inferColumnTypes
não era definido comofalse
) e o JSON continha objetos aninhados. - [SPARK-39650] [SS] Correção de esquema de valor incorreto na eliminação de duplicação de fluxo com a compatibilidade com versões anteriores
- Atualizações de segurança do sistema operacional.
- Os usuários podem configurar o comportamento dos espaços em branco à esquerda e à direita ao escrever dados usando o conector do Redshift. As seguintes opções foram adicionadas para controlar o tratamento de espaço em branco:
- 15 de novembro de 2022
- [SPARK-40646] A análise de JSON para structs, mapas e matrizes foi corrigida para que, quando uma parte de um registro não corresponder ao esquema, o restante do registro ainda possa ser analisado corretamente em vez de retornar nulos. Para aceitar o comportamento aprimorado, defina
spark.sql.json.enablePartialResults
comotrue
. O sinalizador é desabilitado por padrão para preservar o comportamento original.
- [SPARK-40646] A análise de JSON para structs, mapas e matrizes foi corrigida para que, quando uma parte de um registro não corresponder ao esquema, o restante do registro ainda possa ser analisado corretamente em vez de retornar nulos. Para aceitar o comportamento aprimorado, defina
- 1º de novembro de 2022
- Atualização do Apache commons-text para 1.10.0.
- Corrigido um problema em que, se uma tabela Delta tivesse uma coluna definida pelo usuário chamada
_change_type
, mas o feed de dados de alteração estivesse desabilitado nessa tabela, os dados dessa coluna preencheriam incorretamente com valores NULL ao executarMERGE
. - Corrigido um problema com o Carregador Automático em que um arquivo podia ser duplicado no mesmo microlote quando
allowOverwrites
estivesse habilitado - [SPARK-40697][SQL] Adicionar preenchimento de caracteres do lado da leitura para cobrir arquivos de dados externos
- [SPARK-40596][CORE] Preencher ExecutorDecommission com mensagens em ExecutorDecommissionInfo
- Atualizações de segurança do sistema operacional.
- 18 de outubro de 2022
- [SPARK-40213][SQL] Suporte à conversão de valor ASCII para caracteres Latino-1
- Atualizações de segurança do sistema operacional.
- 5 de outubro de 2022
- Os usuários podem definir spark.conf.set(“spark.databricks.io.listKeysWithPrefix.azure.enabled”, “true”) para reabilitar a listagem nativa do Carregador Automático no ADLS Gen2. A listagem nativa foi desativada anteriormente devido a problemas de desempenho, mas pode ter gerado um aumento nos custos de armazenamento para os clientes. Essa alteração foi implementada no DBR 10.4 e 9.1 na atualização de manutenção anterior.
- [SPARK-40169] Não efetuar pushdown de filtros Parquet sem referência ao esquema de dados
- [SPARK-40460][SS] Corrigir métricas de streaming ao selecionar
_metadata
- [SPARK-40468][SQL] Corrigir a remoção de coluna no CSV quando _corrupt_record estiver selecionado
- Atualizações de segurança do sistema operacional.
- 22 de setembro de 2022
- [SPARK-40315][SQL] Adicionar hashCode() para Literal de ArrayBasedMapData
- [SPARK-40380][SQL] Corrigir dobra constante de InvokeLike para evitar literais não serializáveis inseridos no plano
- [SPARK-40089][SQL] Corrigir a classificação para alguns tipos decimais
- [SPARK-39887][SQL] RemoveRedundantAliases deve manter os aliases que tornam a saída de nós de projeção exclusiva
- [SPARK-40152][SQL] Corrigir problema de compilação de codegen split_part
- 06 de setembro de 2022
- [SPARK-40235][CORE] Uso do bloqueio interruptível em vez de sincronizado em Executor.updateDependencies()
- [SPARK-40212][SQL] O castPartValue do SparkSQL não lida corretamente com byte, short ou float
- [SPARK-40218][SQL] Os GROUPING SETS devem preservar as colunas de agrupamento
- [SPARK-39976] [SQL] O ArrayIntersect deve processar null na expressão à esquerda corretamente
- [SPARK-40053][CORE][SQL][TESTS] Adição de
assume
aos casos de cancelamento dinâmico que exigem o ambiente de runtime do Python - [SPARK-35542][CORE][ML] Correção: o classificador em buckets criado para várias colunas com os parâmetros splitsArray, inputCols e outputCols não pode ser carregado após salvá-lo
- [SPARK-40079][CORE] Adição da validação inputCols do imputador para o caso de entrada vazio
- 24 de agosto de 2022
- [SPARK-39983][CORE][SQL] Não armazene em cache as relações de difusão não serializadas no driver
- [SPARK-39775][CORE][AVRO] Foi desabilitada a validação de valores padrão ao analisar esquemas Avro
- [SPARK-39806] Foi corrigido o problema em consultas que acessavam a falha do struct METADATA em tabelas particionadas
- [SPARK-39867][SQL] O limite global não deve herdar OrderPreservingUnaryNode
- [SPARK-39962][PYTHON][SQL] Aplicar projeção quando os atributos de grupo estiverem vazios
- Atualizações de segurança do sistema operacional.
- 9 de agosto de 2022
- [SPARK-39713][SQL] Modo ANSI: adicionar sugestão de uso de try_element_at para erro INVALID_ARRAY_INDEX
- [SPARK-39847] Corrija condição de corrida em RocksDBLoader.loadLibrary() se o thread do chamador for interrompido
- [SPARK-39731][SQL] Corrigir problema em fontes de dados CSV e JSON ao analisar datas no formato "yyyyMMdd" com política de analisador de tempo CORRECTED
- [SPARK-39889] Aprimorar a mensagem de erro da divisão em 0
- [SPARK-39795][SQL] Nova função SQL: try_to_timestamp
- [SPARK-39749] Sempre use a representação de cadeia de caracteres sem formatação na conversão decimal como cadeia de caracteres no modo ANSI
- [SPARK-39625][SQL] Adicionar Dataset.to(StructType)
- [SPARK-39787][SQL] Use a classe de erro no erro de análise da função to_timestamp
- Atualizações de segurança do sistema operacional.
- 27 de julho de 2022
- [SPARK-39689] Suporte a 2 caracteres
lineSep
na fonte de dados CSV - [SPARK-39104] [SQL] InMemoryRelation#isCachedColumnBuffersLoaded deve ser thread-safe
- [SPARK-39702][CORE] Reduzir a sobrecarga de memória de TransportCipher$EncryptedMessage usando um byteRawChannel compartilhado
- [SPARK-39575][AVRO] Adicionar ByteBuffer#rewind após ByteBuffer#get no AvroDeserializer
- [SPARK-39497][SQL] Aprimorar a exceção de análise da coluna de chave de mapa ausente
- [SPARK-39441][SQL] Acelerar DeduplicateRelations
- [SPARK-39476][SQL] Desabilitar a otimização de conversão de cancelamento de quebra de linha ao converter de Long para Float/Double ou de Integer para Float
- [SPARK-39434][SQL] Fornecer o contexto da consulta de erro de runtime quando o índice de matriz está fora do limite
- [SPARK-39570] [SQL] A tabela embutida deve permitir expressões com alias
- Atualizações de segurança do sistema operacional.
- [SPARK-39689] Suporte a 2 caracteres
- 13 de julho de 2022
- Torne os resultados da operação DELTA MERGE consistentes quando a origem não for determinística.
- Foi consertado um problema no TVF cloud_files_state ao executar em caminhos não DBFS.
- Desabilitado o uso de APIs de nuvem nativas do Carregador Automático para listagem de diretórios no Azure.
- [SPARK-38796][SQL] Atualize as funções to_number e try_to_number para permitir a PR com números positivos
- [SPARK-39272][SQL] Aumente a posição inicial do contexto de consulta em 1
- [SPARK-39419][SQL] Conserte um erro em que ArraySort lança uma exceção quando o comparador retorna nulo
- Atualizações de segurança do sistema operacional.
- 5 de julho de 2022
- Melhoria nas mensagens de erro para uma variedade de classes de erro.
- [SPARK-39451][SQL] Suporte de intervalos de conversão para integrais no modo ANSI
- [SPARK-39361] Não usar o padrão de conversão lançável estendido do Log4J2 nas configurações de registro padrão
- [SPARK-39354][SQL] Garantir que
Table or view not found
será exibido mesmo se houverdataTypeMismatchError
com relação aFilter
ao mesmo tempo - [SPARK-38675][CORE] Corrigir a corrida durante o desbloqueio no BlockInfoManager
- [SPARK-39392][SQL] Refinar as mensagens de erro ANSI para dicas de função try_*
- [SPARK-39214][SQL][3.3] Melhoria dos erros relacionados a CAST
- [SPARK-37939][SQL] Usar classes de erro nos erros de análise de propriedades
- [SPARK-39085][SQL] Mover a mensagem de erro de
INCONSISTENT_BEHAVIOR_CROSS_VERSION
para error-classes.json - [SPARK-39376][SQL] Ocultar colunas duplicadas na expansão em estrela do alias de subconsulta de NATURAL/USING JOIN
- [SPARK-39283][CORE] Consertar o deadlock entre TaskMemoryManager e UnsafeExternalSorter.SpillableIterator
- [SPARK-39285][SQL] O Spark não deve verificar nomes de campo ao ler arquivos
- Atualizações de segurança do sistema operacional.
Databricks Runtime 10.5 (EoS)
Consulte Databricks Runtime 10.5 (EoS).
- 1º de novembro de 2022
- Corrigido um problema em que, se uma tabela Delta tivesse uma coluna definida pelo usuário chamada
_change_type
, mas o feed de dados de alteração estivesse desabilitado nessa tabela, os dados dessa coluna preencheriam incorretamente com valores NULL ao executarMERGE
. - [SPARK-40697][SQL] Adicionar preenchimento de caracteres do lado da leitura para cobrir arquivos de dados externos
- [SPARK-40596][CORE] Preencher ExecutorDecommission com mensagens em ExecutorDecommissionInfo
- Atualizações de segurança do sistema operacional.
- Corrigido um problema em que, se uma tabela Delta tivesse uma coluna definida pelo usuário chamada
- 18 de outubro de 2022
- Atualizações de segurança do sistema operacional.
- 5 de outubro de 2022
- Os usuários podem definir spark.conf.set(“spark.databricks.io.listKeysWithPrefix.azure.enabled”, “true”) para reabilitar a listagem nativa do Carregador Automático no ADLS Gen2. A listagem nativa foi desativada anteriormente devido a problemas de desempenho, mas pode ter gerado um aumento nos custos de armazenamento para os clientes. Essa alteração foi implementada no DBR 10.4 e 9.1 na atualização de manutenção anterior.
- O reload4j foi atualizado para 1.2.19 para corrigir as vulnerabilidades.
- [SPARK-40460][SS] Corrigir métricas de streaming ao selecionar
_metadata
- [SPARK-40468][SQL] Corrigir a remoção de coluna no CSV quando _corrupt_record estiver selecionado
- Atualizações de segurança do sistema operacional.
- 22 de setembro de 2022
- [SPARK-40315][SQL] Adicionar hashCode() para Literal de ArrayBasedMapData
- [SPARK-40213][SQL] Suporte à conversão de valor ASCII para caracteres Latino-1
- [SPARK-40380][SQL] Corrigir dobra constante de InvokeLike para evitar literais não serializáveis inseridos no plano
- [SPARK-38404][SQL] Melhorar a resolução de CTE quando um CTE aninhado faz referência a um CTE externo
- [SPARK-40089][SQL] Corrigir a classificação para alguns tipos decimais
- [SPARK-39887][SQL] RemoveRedundantAliases deve manter os aliases que tornam a saída de nós de projeção exclusiva
- Atualizações de segurança do sistema operacional.
- 06 de setembro de 2022
- [SPARK-40235][CORE] Uso do bloqueio interruptível em vez de sincronizado em Executor.updateDependencies()
- [SPARK-39976] [SQL] O ArrayIntersect deve processar null na expressão à esquerda corretamente
- [SPARK-40053][CORE][SQL][TESTS] Adição de
assume
aos casos de cancelamento dinâmico que exigem o ambiente de runtime do Python - [SPARK-35542][CORE][ML] Correção: o classificador em buckets criado para várias colunas com os parâmetros splitsArray, inputCols e outputCols não pode ser carregado após salvá-lo
- [SPARK-40079][CORE] Adição da validação inputCols do imputador para o caso de entrada vazio
- 24 de agosto de 2022
- [SPARK-39983][CORE][SQL] Não armazene em cache as relações de difusão não serializadas no driver
- [SPARK-39775][CORE][AVRO] Foi desabilitada a validação de valores padrão ao analisar esquemas Avro
- [SPARK-39806] Foi corrigido o problema em consultas que acessavam a falha do struct METADATA em tabelas particionadas
- [SPARK-39962][PYTHON][SQL] Aplicar projeção quando os atributos de grupo estiverem vazios
- [SPARK-37643][SQL] Quando charVarcharAsString for true, a consulta de predicado de tipo de dados char deve ignorar a regra de rpadding
- Atualizações de segurança do sistema operacional.
- 9 de agosto de 2022
- [SPARK-39847] Corrija condição de corrida em RocksDBLoader.loadLibrary() se o thread do chamador for interrompido
- [SPARK-39731][SQL] Corrigir problema em fontes de dados CSV e JSON ao analisar datas no formato "yyyyMMdd" com política de analisador de tempo CORRECTED
- Atualizações de segurança do sistema operacional.
- 27 de julho de 2022
- [SPARK-39625][SQL] Adicionar Dataset.as(StructType)
- [SPARK-39689] Suporte a 2 caracteres
lineSep
na fonte de dados CSV - [SPARK-39104] [SQL] InMemoryRelation#isCachedColumnBuffersLoaded deve ser thread-safe
- [SPARK-39570] [SQL] A tabela embutida deve permitir expressões com alias
- [SPARK-39702][CORE] Reduzir a sobrecarga de memória de TransportCipher$EncryptedMessage usando um byteRawChannel compartilhado
- [SPARK-39575][AVRO] Adicionar ByteBuffer#rewind após ByteBuffer#get no AvroDeserializer
- [SPARK-39476][SQL] Desabilitar a otimização de conversão de cancelamento de quebra de linha ao converter de Long para Float/Double ou de Integer para Float
- Atualizações de segurança do sistema operacional.
- 13 de julho de 2022
- Torne os resultados da operação DELTA MERGE consistentes quando a origem não for determinística.
- [SPARK-39355][SQL] A coluna única usa aspas para construir UnresolvedAttribute
- [SPARK-39548][SQL] O comando CreateView com uma consulta de cláusula de janela atingiu uma definição de janela errada. Problema não encontrado
- [SPARK-39419][SQL] Conserte um erro em que ArraySort lança uma exceção quando o comparador retorna nulo
- Desabilitado o uso de APIs de nuvem nativas do Carregador Automático para listagem de diretórios no Azure.
- Atualizações de segurança do sistema operacional.
- 5 de julho de 2022
- [SPARK-39376][SQL] Ocultar colunas duplicadas na expansão em estrela do alias de subconsulta de NATURAL/USING JOIN
- Atualizações de segurança do sistema operacional.
- 15 de junho de 2022
- [SPARK-39283][CORE] Consertar o deadlock entre TaskMemoryManager e UnsafeExternalSorter.SpillableIterator
- [SPARK-39285][SQL] O Spark não deve verificar nomes de campo ao ler arquivos
- [SPARK-34096][SQL] Aprimorar o desempenho de nth_value e ignorar nulos durante a janela de deslocamento
- [SPARK-36718][SQL][ACOMPANHAMENTO] Consertar a verificação
isExtractOnly
em CollapseProject
- 2 de junho de 2022
- [SPARK-39166][SQL] Fornecer o contexto da consulta de erro de runtime para aritmética binária quando o WSCG estiver desativado
- [SPARK-39093][SQL] Evitar o erro de compilação do codegen ao dividir intervalos de ano-mês ou intervalos de dia-hora por um integral
- [SPARK-38990][SQL] Evitar NullPointerException ao avaliar o formato date_trunc/trunc como uma referência associada
- Atualizações de segurança do sistema operacional.
- 18 de maio de 2022
- Corrige um possível vazamento de memória nativa no Carregador Automático.
- [SPARK-38868][SQL]Não propagar exceções do predicado de filtro ao otimizar junções externas
- [SPARK-38796][SQL] Implementar as funções to_number e try_to_number SQL de acordo com uma nova especificação
- [SPARK-38918][SQL] A poda de coluna aninhada deve filtrar atributos que não pertencem à relação atual
- [SPARK-38929][SQL] Aprimorar as mensagens de erro para converter falhas em ANSI
- [SPARK-38926][SQL] Tipos de saída em mensagens de erro no estilo SQL
- [SPARK-39084][PYSPARK] Corrigir df.rdd.isEmpty() usando TaskContext para interromper o iterador na conclusão da tarefa
- [SPARK-32268][SQL] Adicionar ColumnPruning no injectBloomFilter
- [SPARK-38908][SQL] Fornecer contexto de consulta no erro de runtime de Conversão de Cadeia de Caracteres para Número/Data/Carimbo de Data/Hora/Booliano
- [SPARK-39046][SQL] Retornar uma cadeia de caracteres de contexto vazia se TreeNode.origin estiver definido incorretamente
- [SPARK-38974][SQL] Filtrar funções registradas com um determinado nome de banco de dados em funções de lista
- [SPARK-38762][SQL] Fornecer contexto de consulta em erros de estouro de Decimal
- [SPARK-38931][SS] Criar diretório dfs raiz para RocksDBFileManager com número desconhecido de chaves no 1º ponto de verificação
- [SPARK-38992][CORE] Evitar usar bash -c em ShellBasedGroupsMappingProvider
- [SPARK-38716][SQL] Fornecer contexto de consulta no erro chave de mapa não existe
- [SPARK-38889][SQL] Compilar filtros de coluna booliana para usar o tipo de bit para a fonte de dados MSSQL
- [SPARK-38698][SQL] Fornecer contexto de consulta no erro de runtime de Dividir/Div/Resto/Pmod
- [SPARK-38823][SQL] Tornar
NewInstance
não dobrável para corrigir o problema de corrupção do buffer de agregação - [SPARK-38809][SS] Implemente a opção para ignorar valores nulos na implementação de hash simétrico de junções fluxo-fluxo
- [SPARK-38676][SQL] Forneça contexto de consulta SQL na mensagem de erro de runtime de Adicionar/Subtrair/Multiplicar
- [SPARK-38677][PYSPARK] Python MonitorThread deve detectar um deadlock devido ao bloqueio por E/S
- Atualizações de segurança do sistema operacional.
Databricks Runtime 10.3 (EoS)
Consulte Databricks Runtime 10.3 (EoS).
- 27 de julho de 2022
- [SPARK-39689] Suporte a 2 caracteres
lineSep
na fonte de dados CSV - [SPARK-39104] [SQL] InMemoryRelation#isCachedColumnBuffersLoaded deve ser thread-safe
- [SPARK-39702][CORE] Reduzir a sobrecarga de memória de TransportCipher$EncryptedMessage usando um byteRawChannel compartilhado
- Atualizações de segurança do sistema operacional.
- [SPARK-39689] Suporte a 2 caracteres
- 20 de julho de 2022
- Torne os resultados da operação DELTA MERGE consistentes quando a origem não for determinística.
- [SPARK-39476][SQL] Desabilitar a otimização de conversão de cancelamento de quebra de linha ao converter de Long para Float/Double ou de Integer para Float
- [SPARK-39548][SQL] O comando CreateView com uma consulta de cláusula de janela atingiu uma definição de janela errada. Problema não encontrado
- [SPARK-39419][SQL] Conserte um erro em que ArraySort lança uma exceção quando o comparador retorna nulo
- Atualizações de segurança do sistema operacional.
- 5 de julho de 2022
- [SPARK-39376][SQL] Ocultar colunas duplicadas na expansão em estrela do alias de subconsulta de NATURAL/USING JOIN
- Atualizações de segurança do sistema operacional.
- 15 de junho de 2022
- [SPARK-39283][CORE] Consertar o deadlock entre TaskMemoryManager e UnsafeExternalSorter.SpillableIterator
- [SPARK-39285][SQL] O Spark não deve verificar nomes de campo ao ler arquivos
- [SPARK-34096][SQL] Aprimorar o desempenho de nth_value e ignorar nulos durante a janela de deslocamento
- [SPARK-36718][SQL][ACOMPANHAMENTO] Consertar a verificação
isExtractOnly
em CollapseProject
- 2 de junho de 2022
- [SPARK-38990][SQL] Evitar NullPointerException ao avaliar o formato date_trunc/trunc como uma referência associada
- Atualizações de segurança do sistema operacional.
- 18 de maio de 2022
- Corrige um possível vazamento de memória nativa no Carregador Automático.
- [SPARK-38918][SQL] A poda de coluna aninhada deve filtrar atributos que não pertencem à relação atual
- [SPARK-37593][CORE] Reduza o tamanho da página padrão LONG_ARRAY_OFFSET se G1GC e ON_HEAP forem usados
- [SPARK-39084][PYSPARK] Corrigir df.rdd.isEmpty() usando TaskContext para interromper o iterador na conclusão da tarefa
- [SPARK-32268][SQL] Adicionar ColumnPruning no injectBloomFilter
- [SPARK-38974][SQL] Filtrar funções registradas com um determinado nome de banco de dados em funções de lista
- [SPARK-38889][SQL] Compilar filtros de coluna booliana para usar o tipo de bit para a fonte de dados MSSQL
- Atualizações de segurança do sistema operacional.
- 4 de maio de 2022
- SDK do Java AWS atualizado da versão 1.11.655 para 1.12.1899.
- 19 de abril de 2022
- [SPARK-38616][SQL] Acompanhar texto de consulta SQL no Catalyst TreeNode
- Atualizações de segurança do sistema operacional.
- 6 de abril de 2022
- [SPARK-38631][CORE] Usa a implementação baseada em Java para descoberta em Utils.unpack
- Atualizações de segurança do sistema operacional.
- 22 de março de 2022
- Alteração do diretório de trabalho atual dos notebooks em clusters de simultaneidade alta com controle de acesso de tabela ou passagem de credencial habilitada para o diretório inicial do usuário. Anteriormente, o diretório de trabalho era
/databricks/driver
. - [SPARK-38437][SQL] Serialização branda de datetime da fonte de dados
- [SPARK-38180][SQL] Permitir expressões de up-cast seguras em predicados de igualdade correlacionados
- [SPARK-38155][SQL] Não permitir agregação distinta em subconsultas laterais com predicados sem suporte
- [SPARK-38325][SQL] Modo ANSI: evitar um possível erro de runtime em HashJoin.extractKeyExprAt()
- Alteração do diretório de trabalho atual dos notebooks em clusters de simultaneidade alta com controle de acesso de tabela ou passagem de credencial habilitada para o diretório inicial do usuário. Anteriormente, o diretório de trabalho era
- 14 de março de 2022
- Melhorou a detecção de conflito de transação para transações vazias no Delta Lake.
- [SPARK-38185][SQL] Corrige os dados incorretos se a função de agregação estiver vazia
- [SPARK-38318][SQL] Regressão ao substituir uma exibição de conjuntos de dados
- [SPARK-38236][SQL] Os caminhos absolutos de arquivo especificados na tabela criada/alterada são tratados como relativos
- [SPARK-35937][SQL] A extração do campo de data do carimbo de data/hora funciona no modo ANSI
- [SPARK-34069][SQL] As tarefas de barreira de encerramento devem respeitar
SPARK_JOB_INTERRUPT_ON_CANCEL
- [SPARK-37707][SQL] Permite a atribuição de armazenamento entre TimestampNTZ e Data/Carimbo de data/hora
- 23 de fevereiro de 2022
- [SPARK-27442][SQL] Remove o nome do campo de verificação ao ler/escrever dados no parquet
Databricks Runtime 10.2 (EoS)
Consulte Databricks Runtime 10.2 (EoS).
- 15 de junho de 2022
- [SPARK-39283][CORE] Consertar o deadlock entre TaskMemoryManager e UnsafeExternalSorter.SpillableIterator
- [SPARK-39285][SQL] O Spark não deve verificar nomes de campo ao ler arquivos
- [SPARK-34096][SQL] Aprimorar o desempenho de nth_value e ignorar nulos durante a janela de deslocamento
- 2 de junho de 2022
- [SPARK-38918][SQL] A poda de coluna aninhada deve filtrar atributos que não pertencem à relação atual
- [SPARK-38990][SQL] Evitar NullPointerException ao avaliar o formato date_trunc/trunc como uma referência associada
- Atualizações de segurança do sistema operacional.
- 18 de maio de 2022
- Corrige um possível vazamento de memória nativa no Carregador Automático.
- [SPARK-39084][PYSPARK] Corrigir df.rdd.isEmpty() usando TaskContext para interromper o iterador na conclusão da tarefa
- [SPARK-38889][SQL] Compilar filtros de coluna booliana para usar o tipo de bit para a fonte de dados MSSQL
- [SPARK-38931][SS] Criar diretório dfs raiz para RocksDBFileManager com número desconhecido de chaves no 1º ponto de verificação
- Atualizações de segurança do sistema operacional.
- 4 de maio de 2022
- SDK do Java AWS atualizado da versão 1.11.655 para 1.12.1899.
- 19 de abril de 2022
- Atualizações de segurança do sistema operacional.
- Diversas correções de bugs.
- 6 de abril de 2022
- [SPARK-38631][CORE] Usa a implementação baseada em Java para descoberta em Utils.unpack
- Atualizações de segurança do sistema operacional.
- 22 de março de 2022
- Alteração do diretório de trabalho atual dos notebooks em clusters de simultaneidade alta com controle de acesso de tabela ou passagem de credencial habilitada para o diretório inicial do usuário. Anteriormente, o diretório de trabalho era
/databricks/driver
. - [SPARK-38437][SQL] Serialização branda de datetime da fonte de dados
- [SPARK-38180][SQL] Permitir expressões de up-cast seguras em predicados de igualdade correlacionados
- [SPARK-38155][SQL] Não permitir agregação distinta em subconsultas laterais com predicados sem suporte
- [SPARK-38325][SQL] Modo ANSI: evitar um possível erro de runtime em HashJoin.extractKeyExprAt()
- Alteração do diretório de trabalho atual dos notebooks em clusters de simultaneidade alta com controle de acesso de tabela ou passagem de credencial habilitada para o diretório inicial do usuário. Anteriormente, o diretório de trabalho era
- 14 de março de 2022
- Melhorou a detecção de conflito de transação para transações vazias no Delta Lake.
- [SPARK-38185][SQL] Corrige os dados incorretos se a função de agregação estiver vazia
- [SPARK-38318][SQL] Regressão ao substituir uma exibição de conjuntos de dados
- [SPARK-38236][SQL] Os caminhos absolutos de arquivo especificados na tabela criada/alterada são tratados como relativos
- [SPARK-35937][SQL] A extração do campo de data do carimbo de data/hora funciona no modo ANSI
- [SPARK-34069][SQL] As tarefas de barreira de encerramento devem respeitar
SPARK_JOB_INTERRUPT_ON_CANCEL
- [SPARK-37707][SQL] Permite a atribuição de armazenamento entre TimestampNTZ e Data/Carimbo de data/hora
- 23 de fevereiro de 2022
- [SPARK-37577][SQL] Corrige o ClassCastException: ArrayType não pode ser convertido para StructType para gerar remoção
- 8 de fevereiro de 2022
- [SPARK-27442][SQL] Remove o nome do campo de verificação ao ler/escrever dados no parquet.
- Atualizações de segurança do sistema operacional.
- 1° de fevereiro de 2022
- Atualizações de segurança do sistema operacional.
- 26 de janeiro de 2022
- Corrigiu um bug em que as transações simultâneas em tabelas Delta podiam ser executadas em uma ordem não serializável em determinadas condições raras.
- Corrigiu um bug em que o comando OPTIMIZE falhava quando o dialeto SQL ANSI estava habilitado.
- 19 de janeiro de 2022
- Introduziu suporte para credenciais temporárias em série para COPY INTO para carregar os dados de origem sem exigir permissões ANY_FILE de SQL
- Correções de erros e aprimoramentos de segurança.
- 20 de dezembro de 2021
- Corrigiu um bug raro com filtragem baseada em índice de coluna Parquet.
Databricks Runtime 10.1 (EoS)
Consulte Databricks Runtime 10.1 (EoS).
- 15 de junho de 2022
- [SPARK-39283][CORE] Consertar o deadlock entre TaskMemoryManager e UnsafeExternalSorter.SpillableIterator
- [SPARK-39285][SQL] O Spark não deve verificar nomes de campo ao ler arquivos
- [SPARK-34096][SQL] Aprimorar o desempenho de nth_value e ignorar nulos durante a janela de deslocamento
- 2 de junho de 2022
- Atualizações de segurança do sistema operacional.
- 18 de maio de 2022
- Corrige um possível vazamento de memória nativa no Carregador Automático.
- [SPARK-39084][PYSPARK] Corrigir df.rdd.isEmpty() usando TaskContext para interromper o iterador na conclusão da tarefa
- [SPARK-38889][SQL] Compilar filtros de coluna booliana para usar o tipo de bit para a fonte de dados MSSQL
- Atualizações de segurança do sistema operacional.
- 19 de abril de 2022
- [SPARK-37270][SQL] Corrigir push dobrável em ramificações CaseWhen se elseValue estiver vazio
- Atualizações de segurança do sistema operacional.
- 6 de abril de 2022
- [SPARK-38631][CORE] Usa a implementação baseada em Java para descoberta em Utils.unpack
- Atualizações de segurança do sistema operacional.
- 22 de março de 2022
- [SPARK-38437][SQL] Serialização branda de datetime da fonte de dados
- [SPARK-38180][SQL] Permitir expressões de up-cast seguras em predicados de igualdade correlacionados
- [SPARK-38155][SQL] Não permitir agregação distinta em subconsultas laterais com predicados sem suporte
- [SPARK-38325][SQL] Modo ANSI: evitar um possível erro de runtime em HashJoin.extractKeyExprAt()
- 14 de março de 2022
- Melhorou a detecção de conflito de transação para transações vazias no Delta Lake.
- [SPARK-38185][SQL] Corrige os dados incorretos se a função de agregação estiver vazia
- [SPARK-38318][SQL] Regressão ao substituir uma exibição de conjuntos de dados
- [SPARK-38236][SQL] Os caminhos absolutos de arquivo especificados na tabela criada/alterada são tratados como relativos
- [SPARK-35937][SQL] A extração do campo de data do carimbo de data/hora funciona no modo ANSI
- [SPARK-34069][SQL] As tarefas de barreira de encerramento devem respeitar
SPARK_JOB_INTERRUPT_ON_CANCEL
- [SPARK-37707][SQL] Permite a atribuição de armazenamento entre TimestampNTZ e Data/Carimbo de data/hora
- 23 de fevereiro de 2022
- [SPARK-37577][SQL] Corrige o ClassCastException: ArrayType não pode ser convertido para StructType para gerar remoção
- 8 de fevereiro de 2022
- [SPARK-27442][SQL] Remove o nome do campo de verificação ao ler/escrever dados no parquet.
- Atualizações de segurança do sistema operacional.
- 1° de fevereiro de 2022
- Atualizações de segurança do sistema operacional.
- 26 de janeiro de 2022
- Corrigiu um bug em que as transações simultâneas em tabelas Delta podiam ser executadas em uma ordem não serializável em determinadas condições raras.
- Corrigiu um bug em que o comando OPTIMIZE falhava quando o dialeto SQL ANSI estava habilitado.
- 19 de janeiro de 2022
- Introduziu suporte para credenciais temporárias em série para COPY INTO para carregar os dados de origem sem exigir permissões ANY_FILE de SQL
- Corrigiu um problema de falta de memória ao fazer o cache de resultados da consulta em determinadas condições.
- Corrigiu um problema com
USE DATABASE
quando um usuário alterna o catálogo atual para um catálogo não padrão. - Correções de erros e aprimoramentos de segurança.
- Atualizações de segurança do sistema operacional.
- 20 de dezembro de 2021
- Corrigiu um bug raro com filtragem baseada em índice de coluna Parquet.
Databricks Runtime 10.0 (EoS)
Consulte Databricks Runtime 10.0 (EoS).
- 19 de abril de 2022
- [SPARK-37270][SQL] Corrigir push dobrável em ramificações CaseWhen se elseValue estiver vazio
- Atualizações de segurança do sistema operacional.
- 6 de abril de 2022
- [SPARK-38631][CORE] Usa a implementação baseada em Java para descoberta em Utils.unpack
- Atualizações de segurança do sistema operacional.
- 22 de março de 2022
- [SPARK-38437][SQL] Serialização branda de datetime da fonte de dados
- [SPARK-38180][SQL] Permitir expressões de up-cast seguras em predicados de igualdade correlacionados
- [SPARK-38155][SQL] Não permitir agregação distinta em subconsultas laterais com predicados sem suporte
- [SPARK-38325][SQL] Modo ANSI: evitar um possível erro de runtime em HashJoin.extractKeyExprAt()
- 14 de março de 2022
- Melhorou a detecção de conflito de transação para transações vazias no Delta Lake.
- [SPARK-38185][SQL] Corrige os dados incorretos se a função de agregação estiver vazia
- [SPARK-38318][SQL] Regressão ao substituir uma exibição de conjuntos de dados
- [SPARK-38236][SQL] Os caminhos absolutos de arquivo especificados na tabela criada/alterada são tratados como relativos
- [SPARK-35937][SQL] A extração do campo de data do carimbo de data/hora funciona no modo ANSI
- [SPARK-34069][SQL] As tarefas de barreira de encerramento devem respeitar
SPARK_JOB_INTERRUPT_ON_CANCEL
- [SPARK-37707][SQL] Permite a atribuição de armazenamento entre TimestampNTZ e Data/Carimbo de data/hora
- 23 de fevereiro de 2022
- [SPARK-37577][SQL] Corrige o ClassCastException: ArrayType não pode ser convertido para StructType para gerar remoção
- 8 de fevereiro de 2022
- [SPARK-27442][SQL] Remove o nome do campo de verificação ao ler/escrever dados no parquet.
- [SPARK-36905][SQL] Corrige exibições de hive de leitura sem nomes explícitos de coluna
- [SPARK-37859][SQL] Corrige o problema em que as tabelas SQL criadas com o JDBC com Spark 3.1 não conseguem ser acessadas com a 3.2
- Atualizações de segurança do sistema operacional.
- 1° de fevereiro de 2022
- Atualizações de segurança do sistema operacional.
- 26 de janeiro de 2022
- Corrigiu um bug em que as transações simultâneas em tabelas Delta podiam ser executadas em uma ordem não serializável em determinadas condições raras.
- Corrigiu um bug em que o comando OPTIMIZE falhava quando o dialeto SQL ANSI estava habilitado.
- 19 de janeiro de 2022
- Correções de erros e aprimoramentos de segurança.
- Atualizações de segurança do sistema operacional.
- 20 de dezembro de 2021
- Corrigiu um bug raro com filtragem baseada em índice de coluna Parquet.
- 9 de novembro de 2021
- Introduziu sinalizadores adicionais de configuração para habilitar o controle de granularidade dos comportamentos ANSI.
- 4 de novembro de 2021
- Corrigiu um bug que fazia com que fluxos do Streaming Estruturado falhassem com uma ArrayIndexOutOfBoundsException
- Corrigiu uma condição de corrida que pode causar uma falha de consulta com uma IOException como
java.io.IOException: No FileSystem for scheme
ou que pode fazer com que as modificações emsparkContext.hadoopConfiguration
não afetem as consultas. - O Apache Spark Conector para compartilhamento Delta foi atualizado para 0.2.0.
- 30 de novembro de 2021
- Corrigiu um problema com a análise do carimbo de data/hora em que uma cadeia de caracteres de fuso horário sem dois-pontos era considerada inválida.
- Corrigiu um problema de falta de memória ao fazer o cache de resultados da consulta em determinadas condições.
- Corrigiu um problema com
USE DATABASE
quando um usuário alterna o catálogo atual para um catálogo não padrão.
Databricks Runtime 9.0 (EoS)
Consulte Databricks Runtime 9.0 (EoS).
- 8 de fevereiro de 2022
- Atualizações de segurança do sistema operacional.
- 1° de fevereiro de 2022
- Atualizações de segurança do sistema operacional.
- 26 de janeiro de 2022
- Corrigiu um bug em que o comando OPTIMIZE falhava quando o dialeto SQL ANSI estava habilitado.
- 19 de janeiro de 2022
- Correções de erros e aprimoramentos de segurança.
- Atualizações de segurança do sistema operacional.
- 4 de novembro de 2021
- Corrigiu um bug que fazia com que fluxos do Streaming Estruturado falhassem com uma ArrayIndexOutOfBoundsException
- Corrigiu uma condição de corrida que pode causar uma falha de consulta com uma IOException como
java.io.IOException: No FileSystem for scheme
ou que pode fazer com que as modificações emsparkContext.hadoopConfiguration
não afetem as consultas. - O Apache Spark Conector para compartilhamento Delta foi atualizado para 0.2.0.
- 22 de setembro de 2021
- Corrigiu um bug na conversão de nulo para cadeia de caracteres da matriz Spark
- 15 de setembro de 2021
- Corrigiu uma condição de corrida que pode causar uma falha de consulta com uma IOException como
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
.
- Corrigiu uma condição de corrida que pode causar uma falha de consulta com uma IOException como
- 8 de setembro de 2021
- Foi adicionado suporte para o nome do esquema (formato
databaseName.schemaName.tableName
) como o nome da tabela de destino para o Azure Synapse Connector. - Foi adicionado suporte a tipos JDBC de geometria e geografia para o Spark SQL.
- [SPARK-33527][SQL] Foi estendida a função de decodificação de modo consistente com os bancos de dados base.
- [SPARK-36532][CORE][3.1] Corrigiu o deadlock em
CoarseGrainedExecutorBackend.onDisconnected
para evitarexecutorsconnected
de impedir o travamento do desligamento do executor.
- Foi adicionado suporte para o nome do esquema (formato
- 25 de agosto de 2021
- A biblioteca de drivers do SQL Server foi atualizada para 9.2.1. jre8.
- O conector Snowflake foi atualizado para 2.9.0.
- Corrigiu o link desfeito para o melhor notebook de avaliação na página de experimento do AutoML.
Databricks Runtime 8.4 (EoS)
Consulte Databricks Runtime 8.4 (EoS).
- 19 de janeiro de 2022
- Atualizações de segurança do sistema operacional.
- 4 de novembro de 2021
- Corrigiu um bug que fazia com que fluxos do Streaming Estruturado falhassem com uma ArrayIndexOutOfBoundsException
- Corrigiu uma condição de corrida que pode causar uma falha de consulta com uma IOException como
java.io.IOException: No FileSystem for scheme
ou que pode fazer com que as modificações emsparkContext.hadoopConfiguration
não afetem as consultas. - O Apache Spark Conector para compartilhamento Delta foi atualizado para 0.2.0.
- 22 de setembro de 2021
- O driver JDBC do Spark foi atualizado para 2.6.19.1030
- [SPARK-36734][SQL] Atualizado ORC para 1.5.1
- 15 de setembro de 2021
- Corrigiu uma condição de corrida que pode causar uma falha de consulta com uma IOException como
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
. - Atualizações de segurança do sistema operacional.
- Corrigiu uma condição de corrida que pode causar uma falha de consulta com uma IOException como
- 8 de setembro de 2021
- [SPARK-36532][CORE][3.1] Corrigiu o deadlock em
CoarseGrainedExecutorBackend.onDisconnected
para evitarexecutorsconnected
de impedir o travamento do desligamento do executor.
- [SPARK-36532][CORE][3.1] Corrigiu o deadlock em
- 25 de agosto de 2021
- A biblioteca de drivers do SQL Server foi atualizada para 9.2.1. jre8.
- O conector Snowflake foi atualizado para 2.9.0.
- Corrige um bug na passagem de credencial causada pela nova otimização de pré-busca Parquet, em que a credencial de passagem do usuário pode não ser encontrada durante o acesso ao arquivo.
- 11 de agosto de 2021
- Corrige um problema de incompatibilidade do RocksDB que inibe o Databricks Runtime 8,4 mais antigo. Isso corrige a compatibilidade com o carregador automático, o
COPY INTO
e os aplicativos de streaming com estado. - Corrige um bug ao usar o carregador automático para ler arquivos CSV com arquivos de cabeçalho incompatíveis. Se os nomes de coluna não corresponderem, a coluna será preenchida com nulos. Agora, se um esquema for fornecido, ele assumirá que o esquema é o mesmo e salvará apenas as incompatibilidades de coluna se as colunas de dados recuperadas estiverem habilitadas.
- Adiciona uma nova opção chamada
externalDataSource
no conector do Azure Synapse para remover o requisito de permissãoCONTROL
no banco de dados para leitura do PolyBase.
- Corrige um problema de incompatibilidade do RocksDB que inibe o Databricks Runtime 8,4 mais antigo. Isso corrige a compatibilidade com o carregador automático, o
- 29 de julho de 2021
- [SPARK-36034][BUILD] Troca de base datetime nos filtros enviados por push para o Parquet
- [SPARK-36163][BUILD] Propaga as propriedades JDBC corretas no provedor de conector JDBC e adiciona a opção
connectionProvider
Databricks Runtime 8.3 (EoS)
Consulte Databricks Runtime 8.3 (EoS).
- 19 de janeiro de 2022
- Atualizações de segurança do sistema operacional.
- 4 de novembro de 2021
- Corrigiu um bug que fazia com que fluxos do Streaming Estruturado falhassem com uma ArrayIndexOutOfBoundsException
- Corrigiu uma condição de corrida que pode causar uma falha de consulta com uma IOException como
java.io.IOException: No FileSystem for scheme
ou que pode fazer com que as modificações emsparkContext.hadoopConfiguration
não afetem as consultas.
- 22 de setembro de 2021
- O driver JDBC do Spark foi atualizado para 2.6.19.1030
- 15 de setembro de 2021
- Corrigiu uma condição de corrida que pode causar uma falha de consulta com uma IOException como
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
. - Atualizações de segurança do sistema operacional.
- Corrigiu uma condição de corrida que pode causar uma falha de consulta com uma IOException como
- 8 de setembro de 2021
- [SPARK-35700][SQL] [WARMFIX] Lê tabela char/varchar orc quando criada e gravada por sistemas externos.
- [SPARK-36532][CORE][3.1] Corrigiu o deadlock em
CoarseGrainedExecutorBackend.onDisconnected
para evitarexecutorsconnected
de impedir o travamento do desligamento do executor.
- 25 de agosto de 2021
- A biblioteca de drivers do SQL Server foi atualizada para 9.2.1. jre8.
- O conector Snowflake foi atualizado para 2.9.0.
- Corrige um bug na passagem de credencial causada pela nova otimização de pré-busca Parquet, em que a credencial de passagem do usuário pode não ser encontrada durante o acesso ao arquivo.
- 11 de agosto de 2021
- Corrige um bug ao usar o carregador automático para ler arquivos CSV com arquivos de cabeçalho incompatíveis. Se os nomes de coluna não corresponderem, a coluna será preenchida com nulos. Agora, se um esquema for fornecido, ele assumirá que o esquema é o mesmo e salvará apenas as incompatibilidades de coluna se as colunas de dados recuperadas estiverem habilitadas.
- 29 de julho de 2021
- Atualização do conector Databricks Snowflake Spark para 2.9.0-spark-3,1
- [SPARK-36034][BUILD] Troca de base datetime nos filtros enviados por push para o Parquet
- [SPARK-36163][BUILD] Propaga as propriedades JDBC corretas no provedor de conector JDBC e adiciona a opção
connectionProvider
- 14 de julho de 2021
- Corrigiu um problema ao usar nomes de coluna com pontos no conector do Azure Synapse.
- Introduziu o formato
database.schema.table
do conector do Synapse. - Adicionou suporte para fornecer o formato
databaseName.schemaName.tableName
como a tabela de destino em vez de apenasschemaName.tableName
outableName
.
- 15 de junho de 2021
- Corrigiu o bug
NoSuchElementException
em gravações otimizadas do Delta Lake que podia ocorrer durante a gravação de grandes quantidades de dados e a ocorrência de perdas de executor - Adiciona os comandos SQL
CREATE GROUP
,DROP GROUP
,ALTER GROUP
,SHOW GROUPS
eSHOW USERS
. Para obter detalhes, confira Instruções de Segurança e Instruções de exibição.
- Corrigiu o bug
Databricks Runtime 8.2 (EoS)
Consulte Databricks Runtime 8.2 (EoS).
22 de setembro de 2021
- Atualizações de segurança do sistema operacional.
15 de setembro de 2021
- Corrigiu uma condição de corrida que pode causar uma falha de consulta com uma IOException como
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
.
- Corrigiu uma condição de corrida que pode causar uma falha de consulta com uma IOException como
8 de setembro de 2021
- [SPARK-35700][SQL] [WARMFIX] Lê tabela char/varchar orc quando criada e gravada por sistemas externos.
- [SPARK-36532][CORE][3.1] Corrigiu o deadlock em
CoarseGrainedExecutorBackend.onDisconnected
para evitarexecutorsconnected
de impedir o travamento do desligamento do executor.
25 de agosto de 2021
- O conector Snowflake foi atualizado para 2.9.0.
11 de agosto de 2021
- [SPARK-36034][SQL] Troca de base datetime nos filtros enviados por push para o Parquet.
29 de julho de 2021
- Atualização do conector Databricks Snowflake Spark para 2.9.0-spark-3,1
- [SPARK-36163][BUILD] Propaga as propriedades JDBC corretas no provedor de conector JDBC e adiciona a opção
connectionProvider
14 de julho de 2021
- Corrigiu um problema ao usar nomes de coluna com pontos no conector do Azure Synapse.
- Introduziu o formato
database.schema.table
do conector do Synapse. - Adicionou suporte para fornecer o formato
databaseName.schemaName.tableName
como a tabela de destino em vez de apenasschemaName.tableName
outableName
. - Corrigiu um bug que impedia que os usuários viajassem no tempo em versões mais antigas disponíveis com tabelas Delta.
15 de junho de 2021
- Corrige o bug
NoSuchElementException
em gravações otimizadas do Delta Lake que pode ocorrer durante a gravação de grandes quantidades de dados e a ocorrência de perdas de executor
- Corrige o bug
26 de maio de 2021
- Python atualizado com patch de segurança para corrigir vulnerabilidade de segurança do Python (CVE-2021-3177).
30 de abril de 2021
- Atualizações de segurança do sistema operacional.
- [SPARK-35227][BUILD] Atualiza o resolvedor para pacotes Spark no SparkSubmit
- [SPARK-34245][CORE] Verifica se o Master remove executores que não puderam enviar o estado concluído
- Corrigiu o problema de OOM em que o carregador automático relata métricas de progresso do Streaming estruturado.
Databricks Runtime 8.1 (EoS)
Consulte Databricks Runtime 8.1 (EoS).
22 de setembro de 2021
- Atualizações de segurança do sistema operacional.
15 de setembro de 2021
- Corrigiu uma condição de corrida que pode causar uma falha de consulta com uma IOException como
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
.
- Corrigiu uma condição de corrida que pode causar uma falha de consulta com uma IOException como
8 de setembro de 2021
- [SPARK-35700][SQL] [WARMFIX] Lê tabela char/varchar orc quando criada e gravada por sistemas externos.
- [SPARK-36532][CORE][3.1] Corrigiu o deadlock em
CoarseGrainedExecutorBackend.onDisconnected
para evitarexecutorsconnected
de impedir o travamento do desligamento do executor.
25 de agosto de 2021
- O conector Snowflake foi atualizado para 2.9.0.
11 de agosto de 2021
- [SPARK-36034][SQL] Troca de base datetime nos filtros enviados por push para o Parquet.
29 de julho de 2021
- Atualização do conector Databricks Snowflake Spark para 2.9.0-spark-3,1
- [SPARK-36163][BUILD] Propaga as propriedades JDBC corretas no provedor de conector JDBC e adiciona a opção
connectionProvider
14 de julho de 2021
- Corrigiu um problema ao usar nomes de coluna com pontos no conector do Azure Synapse.
- Corrigiu um bug que impedia que os usuários viajassem no tempo em versões mais antigas disponíveis com tabelas Delta.
15 de junho de 2021
- Corrige o bug
NoSuchElementException
em gravações otimizadas do Delta Lake que pode ocorrer durante a gravação de grandes quantidades de dados e a ocorrência de perdas de executor
- Corrige o bug
26 de maio de 2021
- Python atualizado com patch de segurança para corrigir vulnerabilidade de segurança do Python (CVE-2021-3177).
30 de abril de 2021
- Atualizações de segurança do sistema operacional.
- [SPARK-35227][BUILD] Atualiza o resolvedor para pacotes Spark no SparkSubmit
- Corrigiu o problema de OOM em que o carregador automático relata métricas de progresso do Streaming estruturado.
27 de abril de 2021
- [SPARK-34245][CORE] Verifica se o Master remove executores que não puderam enviar o estado concluído
- [SPARK-34856][SQL] Modo ANSI: permite a conversão de tipos complexos como tipo cadeia de caracteres
- [SPARK-35014] Corrige o padrão PhysicalAggregation para não reescrever expressões fold
- [SPARK-34769][SQL] AnsiTypeCoercion: retorna tipo conversível mais estreito entre TypeCollection
- [SPARK-34614][SQL] Modo ANSI: a conversão da cadeia de caracteres para booliano gerará uma exceção no erro de análise
- [SPARK-33794][SQL] modo ANSI: corrige a expressão NextDay para lançar o runtime IllegalArgumentException ao receber entrada inválida
Databricks Runtime 8.0 (EoS)
Consulte Databricks Runtime 8.0 (EoS).
15 de setembro de 2021
- Corrigiu uma condição de corrida que pode causar uma falha de consulta com uma IOException como
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
.
- Corrigiu uma condição de corrida que pode causar uma falha de consulta com uma IOException como
25 de agosto de 2021
- O conector Snowflake foi atualizado para 2.9.0.
11 de agosto de 2021
- [SPARK-36034][SQL] Troca de base datetime nos filtros enviados por push para o Parquet.
29 de julho de 2021
- [SPARK-36163][BUILD] Propaga as propriedades JDBC corretas no provedor de conector JDBC e adiciona a opção
connectionProvider
- [SPARK-36163][BUILD] Propaga as propriedades JDBC corretas no provedor de conector JDBC e adiciona a opção
14 de julho de 2021
- Corrigiu um problema ao usar nomes de coluna com pontos no conector do Azure Synapse.
- Corrigiu um bug que impedia que os usuários viajassem no tempo em versões mais antigas disponíveis com tabelas Delta.
26 de maio de 2021
- Python atualizado com patch de segurança para corrigir vulnerabilidade de segurança do Python (CVE-2021-3177).
30 de abril de 2021
- Atualizações de segurança do sistema operacional.
- [SPARK-35227][BUILD] Atualiza o resolvedor para pacotes Spark no SparkSubmit
- [SPARK-34245][CORE] Verifica se o Master remove executores que não puderam enviar o estado concluído
24 de março de 2021
- [SPARK-34681] [SQL] Corrige o bug da junção de hash completa, embaralhada e externa ao compilar o lado esquerdo com condição não igual
- [SPARK-34534] Corrige a ordem de blockIds ao usar o FetchShuffleBlocks para pegar os blocos
- [SPARK-34613][SQL] A exibição de correção não captura configuração de dica desabilitada
9 de março de 2021
- [SPARK-34543][SQL] Respeita a configuração
spark.sql.caseSensitive
ao resolver a especificação de partição em v1SET LOCATION
- [SPARK-34392][SQL] Suporte a ZoneOffset +h:mm em DateTimeUtils. getZoneId
- [UI] Corrige o link href da visualização do Spark DAG
- [SPARK-34436][SQL] Suporte DPP à expressão LIKE ANY/ALL
- [SPARK-34543][SQL] Respeita a configuração
Databricks Runtime 7.6 (EoS)
Consulte Databricks Runtime 7.6 (EoS).
- 11 de agosto de 2021
- [SPARK-36034][SQL] Troca de base datetime nos filtros enviados por push para o Parquet.
- 29 de julho de 2021
- [SPARK-32998][BUILD] Adiciona capacidade de substituir repositórios remotos padrão apenas por repositórios internos
- 14 de julho de 2021
- Corrigiu um bug que impedia que os usuários viajassem no tempo em versões mais antigas disponíveis com tabelas Delta.
- 26 de maio de 2021
- Python atualizado com patch de segurança para corrigir vulnerabilidade de segurança do Python (CVE-2021-3177).
- 30 de abril de 2021
- Atualizações de segurança do sistema operacional.
- [SPARK-35227][BUILD] Atualiza o resolvedor para pacotes Spark no SparkSubmit
- [SPARK-34245][CORE] Verifica se o Master remove executores que não puderam enviar o estado concluído
- 24 de março de 2021
- [SPARK-34768][SQL] Respeita o tamanho padrão do buffer de entrada em Univocity
- [SPARK-34534] Corrige a ordem de blockIds ao usar o FetchShuffleBlocks para pegar os blocos
- 9 de março de 2021
- (Somente Azure) Corrigiu um bug do carregador automático que causava NullPointerException ao usar o Databricks Runtime 7,6 para executar um fluxo do carregador automático antigo criado no Databricks Runtime 7.2
- [UI] Corrige o link href da visualização do Spark DAG
- Nó de folha SparkPlan desconhecido não é tratado corretamente em SizeInBytesOnlyStatsSparkPlanVisitor
- Restaurar o esquema de saída de
SHOW DATABASES
- [Delta][8.0, 7.6] Corrigiu o bug de cálculo na lógica de ajuste automático do tamanho do arquivo
- Desabilitar a verificação de obsolescência para arquivos de tabela Delta no cache de disco
- [SQL] Usar a correta chave de compilação de remoção dinâmica quando a dica de junção de intervalo estiver habilitada
- Desabilitar o suporte ao tipo de caractere no caminho do código não SQL
- Evitar o NPE no DataFrameReader.schema
- Corrigir o NPE quando a resposta EventGridClient não tiver nenhuma entidade
- Corrigir um bug de fluxo de leitura fechado no carregador automático do Azure
- [SQL] Não gerar aviso de número de partição em ordem aleatória quando o AOS estiver habilitado
- 24 de fevereiro de 2021
- O conector do Spark BigQuery foi atualizado para v 0.18, que apresenta várias correções de bugs e suporte para iteradores de Arrow e Avro.
- Corrigiu um problema de correção que fazia com que o Spark retornasse resultados incorretos quando a precisão decimal e a escala do arquivo Parquet eram diferentes do esquema do Spark.
- Corrigiu o problema de falha de leitura nas tabelas do Microsoft SQL Server que contêm tipos de dados espaciais, adicionando suporte a tipos de tipo de gráfico de geometria e geografia para o Spark SQL.
- Introduziu a nova configuração
spark.databricks.hive.metastore.init.reloadFunctions.enabled
. Essa configuração controla a inicialização do Hive interno. Quando definido como verdadeiro, o Azure Databricks recarrega todas as funções de todos os bancos de dados que os usuários têm emFunctionRegistry
. Esse é o comportamento padrão no Metastore do Hive. Quando definido como falso, o Azure Databricks desabilita esse processo para otimização. - [SPARK-34212] Corrigiu os problemas relacionados à leitura de dados decimais de arquivos Parquet.
- [SPARK-34260][SQL] Corrigiu o UnresolvedException ao criar a exibição temporária duas vezes.
Databricks Runtime 7.5 (EoS)
Consulte Databricks Runtime 7.5 (EoS).
- 26 de maio de 2021
- Python atualizado com patch de segurança para corrigir vulnerabilidade de segurança do Python (CVE-2021-3177).
- 30 de abril de 2021
- Atualizações de segurança do sistema operacional.
- [SPARK-35227][BUILD] Atualiza o resolvedor para pacotes Spark no SparkSubmit
- [SPARK-34245][CORE] Verifica se o Master remove executores que não puderam enviar o estado concluído
- 24 de março de 2021
- [SPARK-34768][SQL] Respeita o tamanho padrão do buffer de entrada em Univocity
- [SPARK-34534] Corrige a ordem de blockIds ao usar o FetchShuffleBlocks para pegar os blocos
- 9 de março de 2021
- (Somente Azure) Corrigiu um bug do carregador automático que causava NullPointerException ao usar o Databricks Runtime 7,5 para executar um fluxo do carregador automático antigo criado no Databricks Runtime 7.2.
- [UI] Corrige o link href da visualização do Spark DAG
- Nó de folha SparkPlan desconhecido não é tratado corretamente em SizeInBytesOnlyStatsSparkPlanVisitor
- Restaurar o esquema de saída de
SHOW DATABASES
- Desabilitar a verificação de obsolescência para arquivos de tabela Delta no cache de disco
- [SQL] Usar a correta chave de compilação de remoção dinâmica quando a dica de junção de intervalo estiver habilitada
- Desabilitar o suporte ao tipo de caractere no caminho do código não SQL
- Evitar o NPE no DataFrameReader.schema
- Corrigir o NPE quando a resposta EventGridClient não tiver nenhuma entidade
- Corrigir um bug de fluxo de leitura fechado no carregador automático do Azure
- 24 de fevereiro de 2021
- O conector do Spark BigQuery foi atualizado para v 0.18, que apresenta várias correções de bugs e suporte para iteradores de Arrow e Avro.
- Corrigiu um problema de correção que fazia com que o Spark retornasse resultados incorretos quando a precisão decimal e a escala do arquivo Parquet eram diferentes do esquema do Spark.
- Corrigiu o problema de falha de leitura nas tabelas do Microsoft SQL Server que contêm tipos de dados espaciais, adicionando suporte a tipos de tipo de gráfico de geometria e geografia para o Spark SQL.
- Introduziu a nova configuração
spark.databricks.hive.metastore.init.reloadFunctions.enabled
. Essa configuração controla a inicialização do Hive interno. Quando definido como verdadeiro, o Azure Databricks recarrega todas as funções de todos os bancos de dados que os usuários têm emFunctionRegistry
. Esse é o comportamento padrão no Metastore do Hive. Quando definido como falso, o Azure Databricks desabilita esse processo para otimização. - [SPARK-34212] Corrigiu os problemas relacionados à leitura de dados decimais de arquivos Parquet.
- [SPARK-34260][SQL] Corrigiu o UnresolvedException ao criar a exibição temporária duas vezes.
- 4 de fevereiro de 2021
- Corrigiu a regressão que impede a execução incremental de uma consulta que define um limite global, como
SELECT * FROM table LIMIT nrows
. A regressão ocorria quando os usuários executavam consultas por meio de ODBC/JDBC com a serialização de Arrow habilitada. - Introduziu a verificações de tempo de gravação do cliente Hive para evitar a corrupção de metadados no metastore do Hive em tabelas Delta.
- Corrigiu a regressão que causava falha no início do FUSE do DBFS quando as configurações de variáveis de ambiente do cluster continham sintaxe inválida de bash.
- Corrigiu a regressão que impede a execução incremental de uma consulta que define um limite global, como
- 20 de janeiro de 2021
- Correção da regressão na versão de manutenção de 12 de janeiro de 2021 que causava uma AnalysisException incorreta e dizia que a coluna era ambígua em uma autojunção. Essa regressão ocorre quando um usuário faz a junção do DataFrame com o DataFrame derivado (denominado autojunção) nas seguintes condições:
- Esses dois DataFrames têm colunas em comum, mas a saída da autojunção não tem colunas em comum. Por exemplo,
df.join(df.select($"col" as "new_col"), cond)
- O DataFrame derivado exclui algumas colunas por meio de select, groupBy ou window.
- A condição de junção ou a transformação a seguir após o Dataframe unido refere-se às colunas não comuns. Por exemplo,
df.join(df.drop("a"), df("a") === 1)
- Esses dois DataFrames têm colunas em comum, mas a saída da autojunção não tem colunas em comum. Por exemplo,
- Correção da regressão na versão de manutenção de 12 de janeiro de 2021 que causava uma AnalysisException incorreta e dizia que a coluna era ambígua em uma autojunção. Essa regressão ocorre quando um usuário faz a junção do DataFrame com o DataFrame derivado (denominado autojunção) nas seguintes condições:
- 12 de janeiro de 2021
- Atualização do SDK do Armazenamento do Microsoft Azure de 2.3.8 para 2.3.9.
- [SPARK-33593][SQL] O leitor de vetor recebeu dados incorretos com o valor de partição binária
- [SPARK-33480][SQL] Atualiza a mensagem de erro da verificação de comprimento de inserção da tabela char/varchar
Databricks Runtime 7.3 LTS (EoS)
Consulte Databricks Runtime 7.3 LTS (EoS).
10 de setembro de 2023
- Diversas correções de bugs.
30 de agosto de 2023
- Atualizações de segurança do sistema operacional.
15 de agosto de 2023
- Atualizações de segurança do sistema operacional.
23 de junho de 2023
- A biblioteca Snowflake-jdbc foi atualizada para 3.13.29 para que fosse resolvido um problema de segurança.
- Atualizações de segurança do sistema operacional.
15 de junho de 2023
- [SPARK-43413][SQL] Corrija a nulidade
IN
da subconsultaListQuery
. - Atualizações de segurança do sistema operacional.
- [SPARK-43413][SQL] Corrija a nulidade
2 de junho de 2023
- Corrigido um problema no Carregador Automático em que diferentes formatos de arquivo de origem eram inconsistentes quando o esquema fornecido não incluía partições inferidas. Esse problema pode causar falhas inesperadas ao ler arquivos com colunas ausentes no esquema de partição inferido.
17 de maio de 2023
- Atualizações de segurança do sistema operacional.
25 de abril de 2023
- Atualizações de segurança do sistema operacional.
11 de abril de 2023
- [SPARK-42967][CORE] Corrigir SparkListenerTaskStart.stageAttemptId quando uma tarefa é iniciada após o cancelamento do estágio.
- Diversas correções de bugs.
29 de março de 2023
- Atualizações de segurança do sistema operacional.
14 de março de 2023
- Diversas correções de bugs.
28 de fevereiro de 2023
- Atualizações de segurança do sistema operacional.
16 de fevereiro de 2023
- Atualizações de segurança do sistema operacional.
31 de janeiro de 2023
- Os tipos de tabelas JDBC agora são EXTERNAL por padrão.
18 de janeiro de 2023
- Atualizações de segurança do sistema operacional.
29 de novembro de 2022
- Diversas correções de bugs.
15 de novembro de 2022
- Atualização do Apache commons-text para 1.10.0.
- Atualizações de segurança do sistema operacional.
- Diversas correções de bugs.
1º de novembro de 2022
- [SPARK-38542] [SQL] UnsafeHashedRelation deve serializar numKeys
18 de outubro de 2022
- Atualizações de segurança do sistema operacional.
5 de outubro de 2022
- Diversas correções de bugs.
- Atualizações de segurança do sistema operacional.
22 de setembro de 2022
- [SPARK-40089][SQL] Corrigir a classificação para alguns tipos decimais
06 de setembro de 2022
- [SPARK-35542][CORE][ML] Correção: o classificador em buckets criado para várias colunas com os parâmetros splitsArray, inputCols e outputCols não pode ser carregado após salvá-lo
- [SPARK-40079][CORE] Adição da validação inputCols do imputador para o caso de entrada vazio
24 de agosto de 2022
- [SPARK-39962][PYTHON][SQL] Aplicar projeção quando os atributos de grupo estiverem vazios
- Atualizações de segurança do sistema operacional.
9 de agosto de 2022
- Atualizações de segurança do sistema operacional.
27 de julho de 2022
- Torne os resultados da operação DELTA MERGE consistentes quando a origem não for determinística.
- Atualizações de segurança do sistema operacional.
- Diversas correções de bugs.
13 de julho de 2022
- [SPARK-32680][SQL] Não pré-processe o CTAS V2 com uma consulta não resolvida
- Desabilitado o uso de APIs de nuvem nativas do Carregador Automático para listagem de diretórios no Azure.
- Atualizações de segurança do sistema operacional.
5 de julho de 2022
- Atualizações de segurança do sistema operacional.
- Diversas correções de bugs.
2 de junho de 2022
- [SPARK-38918][SQL] A poda de coluna aninhada deve filtrar atributos que não pertencem à relação atual
- Atualizações de segurança do sistema operacional.
18 de maio de 2022
- Atualize a versão do SDK do AWS da 1.11.655 para a 1.11.678.
- Atualizações de segurança do sistema operacional.
- Diversas correções de bugs.
19 de abril de 2022
- Atualizações de segurança do sistema operacional.
- Diversas correções de bugs.
6 de abril de 2022
- Atualizações de segurança do sistema operacional.
- Diversas correções de bugs.
14 de março de 2022
- Remover classes vulneráveis do jar log4j 1.2.17
- Diversas correções de bugs.
23 de fevereiro de 2022
- [SPARK-37859][SQL] Não verifica se há metadados durante a comparação de esquema
8 de fevereiro de 2022
- Atualiza o JDK do Ubuntu para 1.8.0.312.
- Atualizações de segurança do sistema operacional.
1° de fevereiro de 2022
- Atualizações de segurança do sistema operacional.
26 de janeiro de 2022
- Corrigiu um bug em que o comando OPTIMIZE falhava quando o dialeto SQL ANSI estava habilitado.
19 de janeiro de 2022
- O canal padrão do Conda foi removido da versão 7.3 ML LTS
- Atualizações de segurança do sistema operacional.
7 de dezembro de 2021
- Atualizações de segurança do sistema operacional.
4 de novembro de 2021
- Corrigiu um bug que fazia com que fluxos do Streaming Estruturado falhassem com uma ArrayIndexOutOfBoundsException
- Corrigiu uma condição de corrida que pode causar uma falha de consulta com uma IOException como
java.io.IOException: No FileSystem for scheme
ou que pode fazer com que as modificações emsparkContext.hadoopConfiguration
não afetem as consultas.
15 de setembro de 2021
- Corrigiu uma condição de corrida que pode causar uma falha de consulta com uma IOException como
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
. - Atualizações de segurança do sistema operacional.
- Corrigiu uma condição de corrida que pode causar uma falha de consulta com uma IOException como
8 de setembro de 2021
- [SPARK-35700][SQL] [WARMFIX] Lê tabela char/varchar orc quando criada e gravada por sistemas externos.
- [SPARK-36532][CORE][3.1] Corrigiu o deadlock em
CoarseGrainedExecutorBackend.onDisconnected
para evitarexecutorsconnected
de impedir o travamento do desligamento do executor.
25 de agosto de 2021
- O conector Snowflake foi atualizado para 2.9.0.
29 de julho de 2021
- [SPARK-36034][BUILD] Troca de base datetime nos filtros enviados por push para o Parquet
- [SPARK-34508][BUILD] Ignora
HiveExternalCatalogVersionsSuite
se a rede estiver inativa
14 de julho de 2021
- Introduziu o formato
database.schema.table
do conector do Azure Synapse. - Adicionou suporte para fornecer o formato
databaseName.schemaName.tableName
como a tabela de destino em vez de apenasschemaName.tableName
outableName
. - Corrigiu um bug que impedia que os usuários viajassem no tempo em versões mais antigas disponíveis com tabelas Delta.
- Introduziu o formato
15 de junho de 2021
- Corrige o bug
NoSuchElementException
em gravações otimizadas do Delta Lake que pode ocorrer durante a gravação de grandes quantidades de dados e a ocorrência de perdas de executor - Python atualizado com patch de segurança para corrigir vulnerabilidade de segurança do Python (CVE-2021-3177).
- Corrige o bug
30 de abril de 2021
- Atualizações de segurança do sistema operacional.
- [SPARK-35227][BUILD] Atualiza o resolvedor para pacotes Spark no SparkSubmit
- [SPARK-34245][CORE] Verifica se o Master remove executores que não puderam enviar o estado concluído
- [SPARK-35045][SQL] Adiciona uma opção interna para controlar o buffer de entrada em univocidade
24 de março de 2021
- [SPARK-34768][SQL] Respeita o tamanho padrão do buffer de entrada em Univocity
- [SPARK-34534] Corrige a ordem de blockIds ao usar o FetchShuffleBlocks para pegar os blocos
- [SPARK-33118][SQL] Falha ao CRIAR TABELA TEMPORÁRIA com o local
9 de março de 2021
- O driver do Azure Blob File System atualizado para Azure Data Lake Storage Gen2 agora está habilitado por padrão. Ele traz vários aprimoramentos na estabilidade.
- Correção do separador de caminho no Windows para
databricks-connect get-jar-dir
- [UI] Corrige o link href da visualização do Spark DAG
- [DBCONNECT] Adiciona suporte para FlatMapCoGroupsInPandas no Databricks Conexão 7.3
- Restaurar o esquema de saída de
SHOW DATABASES
- [SQL] Usar a correta chave de compilação de remoção dinâmica quando a dica de junção de intervalo estiver habilitada
- Desabilitar a verificação de obsolescência para arquivos de tabela Delta no cache de disco
- [SQL] Não gera aviso de número de partição em ordem aleatória quando o AOS está habilitado
24 de fevereiro de 2021
- O conector do Spark BigQuery foi atualizado para v 0.18, que apresenta várias correções de bugs e suporte para iteradores de Arrow e Avro.
- Corrigiu um problema de correção que fazia com que o Spark retornasse resultados incorretos quando a precisão decimal e a escala do arquivo Parquet eram diferentes do esquema do Spark.
- Corrigiu o problema de falha de leitura nas tabelas do Microsoft SQL Server que contêm tipos de dados espaciais, adicionando suporte a tipos de tipo de gráfico de geometria e geografia para o Spark SQL.
- Introduziu a nova configuração
spark.databricks.hive.metastore.init.reloadFunctions.enabled
. Essa configuração controla a inicialização do Hive interno. Quando definido como verdadeiro, o Azure Databricks recarrega todas as funções de todos os bancos de dados que os usuários têm emFunctionRegistry
. Esse é o comportamento padrão no Metastore do Hive. Quando definido como falso, o Azure Databricks desabilita esse processo para otimização. - [SPARK-34212] Corrigiu os problemas relacionados à leitura de dados decimais de arquivos Parquet.
- [SPARK-33579][UI] Corrige o executor de página em branco atrás do proxy.
- [SPARK-20044][UI] Suporta a interface do usuário do Spark por trás do proxy reverso de front-end usando um prefixo de caminho.
- [SPARK-33277][PYSPARK][SQL] Usa ContextAwareIterator para parar o consumo após o término da tarefa.
4 de fevereiro de 2021
- Corrigiu a regressão que impede a execução incremental de uma consulta que define um limite global, como
SELECT * FROM table LIMIT nrows
. A regressão ocorria quando os usuários executavam consultas por meio de ODBC/JDBC com a serialização de Arrow habilitada. - Corrigiu a regressão que causava falha no início do FUSE do DBFS quando as configurações de variáveis de ambiente do cluster continham sintaxe inválida de bash.
- Corrigiu a regressão que impede a execução incremental de uma consulta que define um limite global, como
20 de janeiro de 2021
- Correção da regressão na versão de manutenção de 12 de janeiro de 2021 que causava uma AnalysisException incorreta e dizia que a coluna era ambígua em uma autojunção. Essa regressão ocorre quando um usuário faz a junção do DataFrame com o DataFrame derivado (denominado autojunção) nas seguintes condições:
- Esses dois DataFrames têm colunas em comum, mas a saída da autojunção não tem colunas em comum. Por exemplo,
df.join(df.select($"col" as "new_col"), cond)
- O DataFrame derivado exclui algumas colunas por meio de select, groupBy ou window.
- A condição de junção ou a transformação a seguir após o Dataframe unido refere-se às colunas não comuns. Por exemplo,
df.join(df.drop("a"), df("a") === 1)
- Esses dois DataFrames têm colunas em comum, mas a saída da autojunção não tem colunas em comum. Por exemplo,
- Correção da regressão na versão de manutenção de 12 de janeiro de 2021 que causava uma AnalysisException incorreta e dizia que a coluna era ambígua em uma autojunção. Essa regressão ocorre quando um usuário faz a junção do DataFrame com o DataFrame derivado (denominado autojunção) nas seguintes condições:
12 de janeiro de 2021
- Atualizações de segurança do sistema operacional.
- [SPARK-33593][SQL] O leitor de vetor recebeu dados incorretos com o valor de partição binária
- [SPARK-33677][SQL] Ignora a regra LikeSimplification se o padrão contiver escapeChar
- [SPARK-33592][ML][PYTHON] Os parâmetros do validador Pyspark ML no estimatorParamMaps podem ser perdidos após salvar e recarregar
- [SPARK-33071][SPARK-33536][SQL] Evita alterações no dataset_id do LogicalPlan em join() para não interromper o DetectAmbiguousSelfJoin
8 de dezembro de 2020
- [SPARK-33587][CORE] Encerra o executor em erros fatais aninhados
- [SPARK-27421][SQL] Corrige o filtro da coluna int e classe de valor do java.lang.String ao remover a coluna de partição
- [SPARK-33316][SQL] Usuário de suporte forneceu o esquema Avro anulável para o esquema de catalisador não anulável na gravação do Avro
- Os trabalhos do Spark iniciados usando o Databricks Connect podem parar indefinidamente com
Executor$TaskRunner.$anonfun$copySessionState
em rastreamento de pilha do executor - Atualizações de segurança do sistema operacional.
1º de dezembro de 2020
- [SPARK-33404][SQL][3.0] Corrige os resultados incorretos na expressão
date_trunc
- [SPARK-33339][PYTHON] O aplicativo Pyspark será interrompido devido a um erro de não exceção
- [SPARK-33183][SQL][HOTFIX] Corrige a regra EliminateSorts do otimizador e adiciona uma regra física para remover as classificações redundantes
- [SPARK-33371][PYTHON][3.0] Atualiza o setup.py e testes para o Python 3.9
- [SPARK-33391][SQL] O element_at com o CreateArray não respeita um índice baseado.
- [SPARK-33306][SQL] O fuso horário é necessário ao converter uma data para uma cadeia de caracteres
- [SPARK-33260][SQL] Corrige os resultados incorretos de SortExec quando sortOrder é Stream
- [SPARK-33404][SQL][3.0] Corrige os resultados incorretos na expressão
5 de novembro de 2020
- Corrige o bloqueio de ABFS e WASB com relação a
UserGroupInformation.getCurrentUser()
. - Corrige um bug de loop infinito quando o leitor do Avro lia os bytes MAGIC.
- Adiciona suporte para o privilégio de USO.
- Melhorias de desempenho para verificação de privilégios no controle de acesso à tabela.
- Corrige o bloqueio de ABFS e WASB com relação a
13 de outubro de 2020
- Atualizações de segurança do sistema operacional.
- Você pode ler e gravar do DBFS usando a montagem FUSE em /dbfs/ quando estiver em um cluster habilitado para passagem de credencial de alta simultaneidade. Suporta montagens regulares, mas as montagens que precisam de credenciais de passagem ainda não são suportadas.
- [SPARK-32999][SQL] Usa Utils.getSimpleName para evitar que ocorra nome de classe malformado no TreeNode
- [SPARK-32585][SQL] Suporta enumeração escalar em ScalaReflection
- Corrigiu diretórios de listagem na montagem FUSE que contêm nomes de arquivos com caracteres XML inválidos
- A montagem FUSE não usa mais ListMultipartUploads
29 de setembro de 2020
- [SPARK-32718][SQL] Remove palavras-chave desnecessárias nas unidades de intervalo
- [SPARK-32635][SQL] Corrige a propagação dobrável
- Adiciona a nova configuração
spark.shuffle.io.decoder.consolidateThreshold
. Define o valor de configuração comoLong.MAX_VALUE
para ignorar a consolidação de FrameBuffers de netty, que impedejava.lang.IndexOutOfBoundsException
em casos fora do padrão.
25 de abril de 2023
- Atualizações de segurança do sistema operacional.
11 de abril de 2023
- Diversas correções de bugs.
29 de março de 2023
- Diversas correções de bugs.
14 de março de 2023
- Atualizações de segurança do sistema operacional.
28 de fevereiro de 2023
- Atualizações de segurança do sistema operacional.
16 de fevereiro de 2023
- Atualizações de segurança do sistema operacional.
31 de janeiro de 2023
- Diversas correções de bugs.
18 de janeiro de 2023
- Atualizações de segurança do sistema operacional.
29 de novembro de 2022
- Atualizações de segurança do sistema operacional.
15 de novembro de 2022
- Atualizações de segurança do sistema operacional.
- Diversas correções de bugs.
1º de novembro de 2022
- Atualizações de segurança do sistema operacional.
18 de outubro de 2022
- Atualizações de segurança do sistema operacional.
- 5 de outubro de 2022
- Atualizações de segurança do sistema operacional.
- 24 de agosto de 2022
- Atualizações de segurança do sistema operacional.
- 9 de agosto de 2022
- Atualizações de segurança do sistema operacional.
- 27 de julho de 2022
- Atualizações de segurança do sistema operacional.
- 5 de julho de 2022
- Atualizações de segurança do sistema operacional.
- 2 de junho de 2022
- Atualizações de segurança do sistema operacional.
- 18 de maio de 2022
- Atualizações de segurança do sistema operacional.
- 19 de abril de 2022
- Atualizações de segurança do sistema operacional.
- Diversas correções de bugs.
- 6 de abril de 2022
- Atualizações de segurança do sistema operacional.
- Diversas correções de bugs.
- 14 de março de 2022
- Diversas correções de bugs.
- 23 de fevereiro de 2022
- Diversas correções de bugs.
- 8 de fevereiro de 2022
- Atualiza o JDK do Ubuntu para 1.8.0.312.
- Atualizações de segurança do sistema operacional.
- 1° de fevereiro de 2022
- Atualizações de segurança do sistema operacional.
- 19 de janeiro de 2022
- Atualizações de segurança do sistema operacional.
- 22 de setembro de 2021
- Atualizações de segurança do sistema operacional.
- 30 de abril de 2021
- Atualizações de segurança do sistema operacional.
- [SPARK-35227][BUILD] Atualiza o resolvedor para pacotes Spark no SparkSubmit
- 12 de janeiro de 2021
- Atualizações de segurança do sistema operacional.
- 8 de dezembro de 2020
- [SPARK-27421][SQL] Corrige o filtro da coluna int e classe de valor do java.lang.String ao remover a coluna de partição
- Atualizações de segurança do sistema operacional.
- 1º de dezembro de 2020
- [SPARK-33260][SQL] Corrige os resultados incorretos de SortExec quando sortOrder é Stream
- 3 de novembro de 2020
- Versão do Java atualizada de 1.8.0_252 para 1.8.0_265.
- Corrige o bloqueio ABFS e WASB em relação a UserGroupInformation.getCurrentUser()
- 13 de outubro de 2020
- Atualizações de segurança do sistema operacional.
Suporte Estendido do Databricks Runtime 6.4 (EoS)
Consulte Databricks Runtime 6.4 (EoS) e Suporte estendido do Databricks Runtime 6.4 (EoS).
5 de julho de 2022
- Atualizações de segurança do sistema operacional.
- Diversas correções de bugs.
2 de junho de 2022
- Atualizações de segurança do sistema operacional.
18 de maio de 2022
- Atualizações de segurança do sistema operacional.
19 de abril de 2022
- Atualizações de segurança do sistema operacional.
- Diversas correções de bugs.
6 de abril de 2022
- Atualizações de segurança do sistema operacional.
- Diversas correções de bugs.
14 de março de 2022
- Remover classes vulneráveis do jar log4j 1.2.17
- Diversas correções de bugs.
23 de fevereiro de 2022
- Diversas correções de bugs.
8 de fevereiro de 2022
- Atualiza o JDK do Ubuntu para 1.8.0.312.
- Atualizações de segurança do sistema operacional.
1° de fevereiro de 2022
- Atualizações de segurança do sistema operacional.
26 de janeiro de 2022
- Corrigiu um bug em que o comando OPTIMIZE falhava quando o dialeto SQL ANSI estava habilitado.
19 de janeiro de 2022
- Atualizações de segurança do sistema operacional.
8 de dezembro de 2021
- Atualizações de segurança do sistema operacional.
22 de setembro de 2021
- Atualizações de segurança do sistema operacional.
15 de junho de 2021
- [SPARK-35576][SQL][3.1] Edita as informações confidenciais no resultado do comando Set
7 de junho de 2021
- Adiciona uma nova configuração chamada
spark.sql.maven.additionalRemoteRepositories
, uma configuração de cadeia de caracteres delimitada por vírgula do espelho do Maven que é remoto, adicional e opcional. O valor padrão éhttps://maven-central.storage-download.googleapis.com/maven2/
.
- Adiciona uma nova configuração chamada
30 de abril de 2021
- Atualizações de segurança do sistema operacional.
- [SPARK-35227][BUILD] Atualiza o resolvedor para pacotes Spark no SparkSubmit
9 de março de 2021
- Porta HADOOP-17215 para o driver do Azure Blob File System (suporte para substituição condicional).
- Correção do separador de caminho no Windows para
databricks-connect get-jar-dir
- Adicionou suporte para metastore do Hive nas versões 2.3.5, 2.3.6 e 2.3.7
- O Arrow "totalResultsCollected" relatou incorretamente após o despejo
24 de fevereiro de 2021
- Introduziu a nova configuração
spark.databricks.hive.metastore.init.reloadFunctions.enabled
. Essa configuração controla a inicialização do Hive interno. Quando definido como verdadeiro, o Azure Databricks recarrega todas as funções de todos os bancos de dados que os usuários têm emFunctionRegistry
. Esse é o comportamento padrão no Metastore do Hive. Quando definido como falso, o Azure Databricks desabilita esse processo para otimização.
- Introduziu a nova configuração
4 de fevereiro de 2021
- Corrigiu a regressão que impede a execução incremental de uma consulta que define um limite global, como
SELECT * FROM table LIMIT nrows
. A regressão ocorria quando os usuários executavam consultas por meio de ODBC/JDBC com a serialização de Arrow habilitada. - Corrigiu a regressão que causava falha no início do FUSE do DBFS quando as configurações de variáveis de ambiente do cluster continham sintaxe inválida de bash.
- Corrigiu a regressão que impede a execução incremental de uma consulta que define um limite global, como
12 de janeiro de 2021
- Atualizações de segurança do sistema operacional.
8 de dezembro de 2020
- [SPARK-27421][SQL] Corrige o filtro da coluna int e classe de valor do java.lang.String ao remover a coluna de partição
- [SPARK-33183][SQL] Corrige a regra EliminateSorts do otimizador e adiciona uma regra física para remover as classificações redundantes
- [Runtime 6.4 ML GPU] Instalamos anteriormente uma versão incorreta (2.7.8-1+cuda11.1) de NCCL. Esta versão o corrige para 2.4.8-1+cuda10.0, que é compatível com CUDA 10,0.
- Atualizações de segurança do sistema operacional.
1º de dezembro de 2020
- [SPARK-33260][SQL] Corrige os resultados incorretos de SortExec quando sortOrder é Stream
- [SPARK-32635][SQL] Corrige a propagação dobrável
3 de novembro de 2020
- Versão do Java atualizada de 1.8.0_252 para 1.8.0_265.
- Corrige o bloqueio ABFS e WASB em relação a UserGroupInformation.getCurrentUser()
- Corrige um bug de loop infinito do leitor do Avro ao ler os bytes MAGIC.
13 de outubro de 2020
- Atualizações de segurança do sistema operacional.
- [SPARK-32999][SQL][2.4] Usa Utils.getSimpleName para evitar que ocorra nome de classe malformado no TreeNode
- Corrigiu diretórios de listagem na montagem FUSE que contêm nomes de arquivos com caracteres XML inválidos
- A montagem FUSE não usa mais ListMultipartUploads
24 de setembro de 2020
- Corrigiu uma limitação anterior em que a passagem no cluster padrão ainda restringia o uso do usuário de implementação do sistema de arquivos. Agora, os usuários poderão acessar os sistemas de arquivos locais sem restrições.
- Atualizações de segurança do sistema operacional.
8 de setembro de 2020
- O novo parâmetro
maxbinlength
foi criado no Azure Synapse Analytics. Esse parâmetro é usado para controlar o tamanho de coluna das colunas BinaryType e é traduzido comoVARBINARY(maxbinlength)
. Ele pode ser definido usando.option("maxbinlength", n)
, em que 0 < n < = 8000. - Atualiza o SDK do Armazenamento do Microsoft Azure para 8.6.4 e habilita o TCP para mantê-lo funcionando em conexões feitas pelo driver WASB
- O novo parâmetro
25 de agosto de 2020
- Corrigiu a resolução ambígua de atributo na automesclagem
18 de agosto de 2020
- [SPARK-32431][SQL] Verifica as colunas aninhadas duplicadas na leitura de fontes de base criadas
- Corrigiu a condição de corrida no conector do AQS ao usar o Trigger.Once.
11 de agosto de 2020
- [SPARK-28676][CORE] Evita o excessivo registro em log do ContextCleaner
3 de agosto de 2020
- Agora você pode usar a função de transformação LDA em um cluster habilitado para passagem.
- Atualizações de segurança do sistema operacional.
7 de julho de 2020
- Versão do Java atualizada de 1.8.0_232 para 1.8.0_252.
21 de abril de 2020
- [SPARK-31312][SQL] Instancia classe de cache para a instância de UDF em HiveFunctionWrapper
7 de abril de 2020
- Para resolver um problema de udf de pandas não funcionar com o PyArrow 0.15.0 e superiores, adicionamos uma variável de ambiente (
ARROW_PRE_0_15_IPC_FORMAT=1
) para habilitar o suporte para essas versões do PyArrow. Consulte as instruções em [SPARK-29367].
- Para resolver um problema de udf de pandas não funcionar com o PyArrow 0.15.0 e superiores, adicionamos uma variável de ambiente (
10 de março de 2020
- O dimensionamento automático otimizado agora é usado por padrão em clusters interativos no plano de segurança.
- O conector (
spark-snowflake_2.11
) do Snowflake incluído no Databricks Runtime foi atualizado para a versão 2.5.9.snowflake-jdbc
foi atualizado para a versão 3.12.0.
Databricks Runtime 5.5 LTS (EoS)
Consulte Databricks Runtime 5.5 (EoS) e Suporte estendido do Databricks Runtime 5.5 (EoS).
8 de dezembro de 2021
- Atualizações de segurança do sistema operacional.
22 de setembro de 2021
- Atualizações de segurança do sistema operacional.
25 de agosto de 2021
- Foi feito downgrade de alguns pacotes Python atualizados anteriormente na versão do Suporte estendido do 5.5 ML para manter uma melhor paridade com o 5.5 ML LTS (agora descontinuado). Consulte [_]/release-notes/runtime/5.5xml.md) para obter as diferenças atualizadas entre as duas versões.
15 de junho de 2021
- [SPARK-35576][SQL][3.1] Edita as informações confidenciais no resultado do comando Set
7 de junho de 2021
- Adiciona uma nova configuração chamada
spark.sql.maven.additionalRemoteRepositories
, uma configuração de cadeia de caracteres delimitada por vírgula do espelho do Maven que é remoto, adicional e opcional. O valor padrão éhttps://maven-central.storage-download.googleapis.com/maven2/
.
- Adiciona uma nova configuração chamada
30 de abril de 2021
- Atualizações de segurança do sistema operacional.
- [SPARK-35227][BUILD] Atualiza o resolvedor para pacotes Spark no SparkSubmit
9 de março de 2021
- Porta HADOOP-17215 para o driver do Azure Blob File System (suporte para substituição condicional).
24 de fevereiro de 2021
- Introduziu a nova configuração
spark.databricks.hive.metastore.init.reloadFunctions.enabled
. Essa configuração controla a inicialização do Hive interno. Quando definido como verdadeiro, o Azure Databricks recarrega todas as funções de todos os bancos de dados que os usuários têm emFunctionRegistry
. Esse é o comportamento padrão no Metastore do Hive. Quando definido como falso, o Azure Databricks desabilita esse processo para otimização.
- Introduziu a nova configuração
12 de janeiro de 2021
- Atualizações de segurança do sistema operacional.
- Corrige para [HADOOP-17130].
8 de dezembro de 2020
- [SPARK-27421][SQL] Corrige o filtro da coluna int e classe de valor do java.lang.String ao remover a coluna de partição
- Atualizações de segurança do sistema operacional.
1º de dezembro de 2020
- [SPARK-33260][SQL] Corrige os resultados incorretos de SortExec quando sortOrder é Stream
- [SPARK-32635][SQL] Corrige a propagação dobrável
29 de outubro de 2020
- Versão do Java atualizada de 1.8.0_252 para 1.8.0_265.
- Corrige o bloqueio ABFS e WASB em relação a UserGroupInformation.getCurrentUser()
- Corrige um bug de loop infinito do leitor do Avro ao ler os bytes MAGIC.
13 de outubro de 2020
- Atualizações de segurança do sistema operacional.
- [SPARK-32999][SQL][2.4] Usa Utils.getSimpleName para evitar que ocorra nome de classe malformado no TreeNode
24 de setembro de 2020
- Atualizações de segurança do sistema operacional.
8 de setembro de 2020
- O novo parâmetro
maxbinlength
foi criado no Azure Synapse Analytics. Esse parâmetro é usado para controlar o tamanho de coluna das colunas BinaryType e é traduzido comoVARBINARY(maxbinlength)
. Ele pode ser definido usando.option("maxbinlength", n)
, em que 0 < n < = 8000.
- O novo parâmetro
18 de agosto de 2020
- [SPARK-32431][SQL] Verifica as colunas aninhadas duplicadas na leitura de fontes de base criadas
- Corrigiu a condição de corrida no conector do AQS ao usar o Trigger.Once.
11 de agosto de 2020
- [SPARK-28676][CORE] Evita o excessivo registro em log do ContextCleaner
3 de agosto de 2020
- Atualizações de segurança do sistema operacional
7 de julho de 2020
- Versão do Java atualizada de 1.8.0_232 para 1.8.0_252.
21 de abril de 2020
- [SPARK-31312][SQL] Instancia classe de cache para a instância de UDF em HiveFunctionWrapper
7 de abril de 2020
- Para resolver um problema de udf de pandas não funcionar com o PyArrow 0.15.0 e superiores, adicionamos uma variável de ambiente (
ARROW_PRE_0_15_IPC_FORMAT=1
) para habilitar o suporte para essas versões do PyArrow. Consulte as instruções em [SPARK-29367].
- Para resolver um problema de udf de pandas não funcionar com o PyArrow 0.15.0 e superiores, adicionamos uma variável de ambiente (
25 de março de 2020
- O conector (
spark-snowflake_2.11
) do Snowflake incluído no Databricks Runtime foi atualizado para a versão 2.5.9.snowflake-jdbc
foi atualizado para a versão 3.12.0.
- O conector (
10 de março de 2020
- A saída do trabalho, como a saída de log emitida para stdout, está sujeita a um limite de tamanho de 20 MB. Se a saída total tiver um tamanho maior, a execução será cancelada e marcada como com falha. Para evitar que chegue nesse limite, você pode impedir que o stdout seja retornado do driver, definindo a configuração
spark.databricks.driver.disableScalaOutput
do Spark comotrue
. Por padrão, o valor do sinalizador éfalse
. O sinalizador controla a saída da célula para os trabalhos do JAR do Scala e os notebooks do Scala. Se o sinalizador estiver habilitado, o Spark não retornará os resultados de execução do trabalho para o cliente. O sinalizador não afeta os dados que são gravados nos arquivos de log do cluster. Recomenda-se definir esse sinalizador apenas para clusters automatizados para trabalhos JAR, pois ele desabilitará os resultados do notebook.
- A saída do trabalho, como a saída de log emitida para stdout, está sujeita a um limite de tamanho de 20 MB. Se a saída total tiver um tamanho maior, a execução será cancelada e marcada como com falha. Para evitar que chegue nesse limite, você pode impedir que o stdout seja retornado do driver, definindo a configuração
18 de fevereiro de 2020
- [SPARK-24783][SQL] O spark.sql.shuffle.partitions=0 deve lançar exceção
- A passagem de credenciais com ADLS Gen2 tem uma degradação de desempenho devido ao tratamento local incorreto da thread quando a pré-busca do cliente ADLS está habilitada. Até que tenhamos uma correção adequada, esta versão desabilita a pré-busca do ADLS Gen2 quando a passagem de credencial está habilitada.
28 de janeiro de 2020
- [SPARK-30447][SQL] Problema de constante nulidade de propagação.
14 de janeiro de 2020
- Versão do Java atualizada de 1.8.0_222 para 1.8.0_232.
19 de novembro de 2019
- [SPARK-29743][SQL] A amostra deverá definir needCopyResult como verdadeiro se o needCopyResult do filho for verdadeiro
- A versão do R foi atualizada incorretamente da 3.6.0 para 3.6.1. Fizemos o downgrade de volta para 3.6.0.
5 de novembro de 2019
- Versão do Java atualizada de 1.8.0_212 para 1.8.0_222.
23 de outubro de 2019
- [SPARK-29244][CORE] Impede que a página liberada no BytesToBytesMap seja liberada novamente
8 de outubro de 2019
- Alterações no lado do servidor para permitir que o driver ODBC do Simba Apache Spark se reconecte e continue após uma falha de conexão durante a busca de resultados (requer a versão 2.6.10 do driver do ODBC do Simba Apache Spark).
- Corrigiu um problema que afetava o uso do comando
Optimize
com clusters habilitados para ACL de tabela. - Corrigiu um problema em que as bibliotecas
pyspark.ml
falhavam devido a um erro proibido de UDF Scala na ACL de tabela e nos clusters habilitados para passagem de credencial. - Lista de permitidos dos métodos SerDe e SerDeUtil para passagem de credencial.
- Corrigiu o NullPointerException ao verificar o código de erro no cliente WASB.
24 de setembro de 2019
- Aprimorou a estabilidade do gravador do Parquet.
- Corrigiu o problema em que a consulta Thrift cancelava antes de iniciar a execução e ficava presa no estado STARTED.
10 de setembro de 2019
- Adiciona iterador seguro de thread ao BytesToBytesMap
- [SPARK-27992][SPARK-28881] Permite que o Python ingresse no thread de conexão para propagar erros
- Corrigiu um bug que afetava determinadas consultas de agregação global.
- Aprimorou a edição de credenciais.
- [SPARK-27330][SS] Suporta a interrupção de tarefas no gravador de foreach
- [SPARK-28642] Oculta as credenciais em SHOW CREATE TABLE
- [SPARK-28699][SQL] Desabilita o uso de classificação de base para ShuffleExchangeExec no caso de repartição
27 de agosto de 2019
- [SPARK-20906][SQL] Permite esquema especificado pelo usuário na API to_avro com registro de esquema
- [SPARK-27838][SQL] Usuário de suporte forneceu o esquema Avro não anulável para o esquema de catalisador anulável sem nenhum registro nulo
- Melhoria na viagem no tempo do Delta Lake
- Corrigiu um problema que afeta determinada expressão
transform
- Suporta variáveis de transmissão quando o Isolamento do processo está habilitado
13 de agosto de 2019
- A fonte de streaming Delta deverá verificar o protocolo mais recente de uma tabela
- [SPARK-28260] Adiciona o estado CLOSED ao ExecutionState
- [SPARK-28489][SS] Corrige um bug em que KafkaOffsetRangeCalculator.getRanges soltava deslocamentos
30 de julho de 2019
- [SPARK-28015][SQL] Verifica se o stringToDate() consome toda a entrada para os formatos aaaa e aaaa-[m]m
- [SPARK-28308][CORE] A parte do subsegundo de CalendarInterval deve ser preenchida antes da análise
- [SPARK-27485] O EnsureRequirements.reorder deve tratar expressões duplicadas normalmente
- [SPARK-28355][CORE][PYTHON] Usa a configuração do Spark para definir o limite no qual a UDF é compactada por difusão
Suporte estendido do Databricks Light 2.4
Consulte Databricks Light 2.4 (EoS) e Suporte Estendido do Databricks Light 2.4 (EoS).
Databricks Runtime 7.4 (EoS)
Consulte Databricks Runtime 7.4 (EoS).
30 de abril de 2021
- Atualizações de segurança do sistema operacional.
- [SPARK-35227][BUILD] Atualiza o resolvedor para pacotes Spark no SparkSubmit
- [SPARK-34245][CORE] Verifica se o Master remove executores que não puderam enviar o estado concluído
- [SPARK-35045][SQL] Adiciona uma opção interna para controlar o buffer de entrada na univocidade e uma configuração para o tamanho do buffer de entrada CSV
24 de março de 2021
- [SPARK-34768][SQL] Respeita o tamanho padrão do buffer de entrada em Univocity
- [SPARK-34534] Corrige a ordem de blockIds ao usar o FetchShuffleBlocks para pegar os blocos
9 de março de 2021
- O driver do Azure Blob File System atualizado para Azure Data Lake Storage Gen2 agora está habilitado por padrão. Ele traz vários aprimoramentos na estabilidade.
- [ES-67926][UI] Corrige o link href da visualização do Spark DAG
- [ES-65064] Restaura o esquema de saída de
SHOW DATABASES
- [SC-70522][SQL] Usa a correta chave de compilação de remoção dinâmica quando a dica de junção de intervalo está habilitada
- [SC-35081] Desabilitar a verificação de obsolescência para arquivos de tabela Delta no cache de disco
- [SC-70640] Corrige o NPE quando a resposta do EventGridClient não tem nenhuma entidade
- [SC-70220][SQL] Não gera aviso de número de partição em ordem aleatória quando o AOS está habilitado
24 de fevereiro de 2021
- O conector do Spark BigQuery foi atualizado para v 0.18, que apresenta várias correções de bugs e suporte para iteradores de Arrow e Avro.
- Corrigiu um problema de correção que fazia com que o Spark retornasse resultados incorretos quando a precisão decimal e a escala do arquivo Parquet eram diferentes do esquema do Spark.
- Corrigiu o problema de falha de leitura nas tabelas do Microsoft SQL Server que contêm tipos de dados espaciais, adicionando suporte a tipos de tipo de gráfico de geometria e geografia para o Spark SQL.
- Introduziu a nova configuração
spark.databricks.hive.metastore.init.reloadFunctions.enabled
. Essa configuração controla a inicialização do Hive interno. Quando definido como verdadeiro, o Azure Databricks recarrega todas as funções de todos os bancos de dados que os usuários têm emFunctionRegistry
. Esse é o comportamento padrão no Metastore do Hive. Quando definido como falso, o Azure Databricks desabilita esse processo para otimização. - [SPARK-34212] Corrigiu os problemas relacionados à leitura de dados decimais de arquivos Parquet.
- [SPARK-33579][UI] Corrige o executor de página em branco atrás do proxy.
- [SPARK-20044][UI] Suporta a interface do usuário do Spark por trás do proxy reverso de front-end usando um prefixo de caminho.
- [SPARK-33277][PYSPARK][SQL] Usa ContextAwareIterator para parar o consumo após o término da tarefa.
4 de fevereiro de 2021
- Corrigiu a regressão que impede a execução incremental de uma consulta que define um limite global, como
SELECT * FROM table LIMIT nrows
. A regressão ocorria quando os usuários executavam consultas por meio de ODBC/JDBC com a serialização de Arrow habilitada. - Corrigiu a regressão que causava falha no início do FUSE do DBFS quando as configurações de variáveis de ambiente do cluster continham sintaxe inválida de bash.
- Corrigiu a regressão que impede a execução incremental de uma consulta que define um limite global, como
20 de janeiro de 2021
- Correção da regressão na versão de manutenção de 12 de janeiro de 2021 que causava uma AnalysisException incorreta e dizia que a coluna era ambígua em uma autojunção. Essa regressão ocorre quando um usuário faz a junção do DataFrame com o DataFrame derivado (denominado autojunção) nas seguintes condições:
- Esses dois DataFrames têm colunas em comum, mas a saída da autojunção não tem colunas em comum. Por exemplo,
df.join(df.select($"col" as "new_col"), cond)
- O DataFrame derivado exclui algumas colunas por meio de select, groupBy ou window.
- A condição de junção ou a transformação a seguir após o Dataframe unido refere-se às colunas não comuns. Por exemplo,
df.join(df.drop("a"), df("a") === 1)
- Esses dois DataFrames têm colunas em comum, mas a saída da autojunção não tem colunas em comum. Por exemplo,
- Correção da regressão na versão de manutenção de 12 de janeiro de 2021 que causava uma AnalysisException incorreta e dizia que a coluna era ambígua em uma autojunção. Essa regressão ocorre quando um usuário faz a junção do DataFrame com o DataFrame derivado (denominado autojunção) nas seguintes condições:
12 de janeiro de 2021
- Atualizações de segurança do sistema operacional.
- [SPARK-33593][SQL] O leitor de vetor recebeu dados incorretos com o valor de partição binária
- [SPARK-33677][SQL] Ignora a regra LikeSimplification se o padrão contiver escapeChar
- [SPARK-33071][SPARK-33536][SQL] Evita alterações no dataset_id do LogicalPlan em join() para não interromper o DetectAmbiguousSelfJoin
8 de dezembro de 2020
- [SPARK-33587][CORE] Encerra o executor em erros fatais aninhados
- [SPARK-27421][SQL] Corrige o filtro da coluna int e classe de valor do java.lang.String ao remover a coluna de partição
- [SPARK-33316][SQL] Usuário de suporte forneceu o esquema Avro anulável para o esquema de catalisador não anulável na gravação do Avro
- Atualizações de segurança do sistema operacional.
1º de dezembro de 2020
- [SPARK-33404][SQL][3.0] Corrige os resultados incorretos na expressão
date_trunc
- [SPARK-33339][PYTHON] O aplicativo Pyspark será interrompido devido a um erro de não exceção
- [SPARK-33183][SQL][HOTFIX] Corrige a regra EliminateSorts do otimizador e adiciona uma regra física para remover as classificações redundantes
- [SPARK-33371][PYTHON][3.0] Atualiza o setup.py e testes para o Python 3.9
- [SPARK-33391][SQL] O element_at com o CreateArray não respeita um índice baseado.
- [SPARK-33306][SQL] O fuso horário é necessário ao converter uma data para uma cadeia de caracteres
- [SPARK-33260][SQL] Corrige os resultados incorretos de SortExec quando sortOrder é Stream
- [SPARK-33272][SQL] Remove o mapeamento de atributos em QueryPlan.transformUpWithNewOutput
- [SPARK-33404][SQL][3.0] Corrige os resultados incorretos na expressão
Databricks Runtime 7.2 (EoS)
Consulte Databricks Runtime 7.2 (EoS).
4 de fevereiro de 2021
- Corrigiu a regressão que impede a execução incremental de uma consulta que define um limite global, como
SELECT * FROM table LIMIT nrows
. A regressão ocorria quando os usuários executavam consultas por meio de ODBC/JDBC com a serialização de Arrow habilitada. - Corrigiu a regressão que causava falha no início do FUSE do DBFS quando as configurações de variáveis de ambiente do cluster continham sintaxe inválida de bash.
- Corrigiu a regressão que impede a execução incremental de uma consulta que define um limite global, como
20 de janeiro de 2021
- Correção da regressão na versão de manutenção de 12 de janeiro de 2021 que causava uma AnalysisException incorreta e dizia que a coluna era ambígua em uma autojunção. Essa regressão ocorre quando um usuário faz a junção do DataFrame com o DataFrame derivado (denominado autojunção) nas seguintes condições:
- Esses dois DataFrames têm colunas em comum, mas a saída da autojunção não tem colunas em comum. Por exemplo,
df.join(df.select($"col" as "new_col"), cond)
- O DataFrame derivado exclui algumas colunas por meio de select, groupBy ou window.
- A condição de junção ou a transformação a seguir após o Dataframe unido refere-se às colunas não comuns. Por exemplo,
df.join(df.drop("a"), df("a") === 1)
- Esses dois DataFrames têm colunas em comum, mas a saída da autojunção não tem colunas em comum. Por exemplo,
- Correção da regressão na versão de manutenção de 12 de janeiro de 2021 que causava uma AnalysisException incorreta e dizia que a coluna era ambígua em uma autojunção. Essa regressão ocorre quando um usuário faz a junção do DataFrame com o DataFrame derivado (denominado autojunção) nas seguintes condições:
12 de janeiro de 2021
- Atualizações de segurança do sistema operacional.
- [SPARK-33593][SQL] O leitor de vetor recebeu dados incorretos com o valor de partição binária
- [SPARK-33677][SQL] Ignora a regra LikeSimplification se o padrão contiver escapeChar
- [SPARK-33071][SPARK-33536][SQL] Evita alterações no dataset_id do LogicalPlan em join() para não interromper o DetectAmbiguousSelfJoin
8 de dezembro de 2020
- [SPARK-27421][SQL] Corrige o filtro da coluna int e classe de valor do java.lang.String ao remover a coluna de partição
- [SPARK-33404][SQL] Corrige os resultados incorretos na expressão
date_trunc
- [SPARK-33339][PYTHON] O aplicativo Pyspark será interrompido devido a um erro de não exceção
- [SPARK-33183][SQL] Corrige a regra EliminateSorts do otimizador e adiciona uma regra física para remover as classificações redundantes
- [SPARK-33391][SQL] O element_at com o CreateArray não respeita um índice baseado.
- Atualizações de segurança do sistema operacional.
1º de dezembro de 2020
- [SPARK-33306][SQL] O fuso horário é necessário ao converter uma data para uma cadeia de caracteres
- [SPARK-33260][SQL] Corrige os resultados incorretos de SortExec quando sortOrder é Stream
3 de novembro de 2020
- Versão do Java atualizada de 1.8.0_252 para 1.8.0_265.
- Corrige o bloqueio ABFS e WASB em relação a UserGroupInformation.getCurrentUser()
- Corrige um bug de loop infinito do leitor do Avro ao ler os bytes MAGIC.
13 de outubro de 2020
- Atualizações de segurança do sistema operacional.
- [SPARK-32999][SQL] Usa Utils.getSimpleName para evitar que ocorra nome de classe malformado no TreeNode
- Corrigiu diretórios de listagem na montagem FUSE que contêm nomes de arquivos com caracteres XML inválidos
- A montagem FUSE não usa mais ListMultipartUploads
29 de setembro de 2020
- [SPARK-28863][SQL][WARMFIX] Introduz o AlreadyOptimized para evitar a reanálise de V1FallbackWriters
- [SPARK-32635][SQL] Corrige a propagação dobrável
- Adiciona a nova configuração
spark.shuffle.io.decoder.consolidateThreshold
. Define o valor de configuração comoLong.MAX_VALUE
para ignorar a consolidação de FrameBuffers de netty, que impedejava.lang.IndexOutOfBoundsException
em casos fora do padrão.
24 de setembro de 2020
- [SPARK-32764][SQL] -0,0 deve ser igual a 0,0
- [SPARK-32753][SQL] Somente copia as tags para o nó sem tags ao transformar planos
- [SPARK-32659][SQL] Corrige o problema de dados da remoção de partição dinâmica inserida no tipo não atômico
- Atualizações de segurança do sistema operacional.
8 de setembro de 2020
- O novo parâmetro
maxbinlength
foi criado no Azure Synapse Analytics. Esse parâmetro é usado para controlar o tamanho de coluna das colunas BinaryType e é traduzido comoVARBINARY(maxbinlength)
. Ele pode ser definido usando.option("maxbinlength", n)
, em que 0 < n < = 8000.
- O novo parâmetro
Databricks Runtime 7.1 (EoS)
Consulte Databricks Runtime 7.1 (EoS).
4 de fevereiro de 2021
- Corrigiu a regressão que causava falha no início do FUSE do DBFS quando as configurações de variáveis de ambiente do cluster continham sintaxe inválida de bash.
20 de janeiro de 2021
- Correção da regressão na versão de manutenção de 12 de janeiro de 2021 que causava uma AnalysisException incorreta e dizia que a coluna era ambígua em uma autojunção. Essa regressão ocorre quando um usuário faz a junção do DataFrame com o DataFrame derivado (denominado autojunção) nas seguintes condições:
- Esses dois DataFrames têm colunas em comum, mas a saída da autojunção não tem colunas em comum. Por exemplo,
df.join(df.select($"col" as "new_col"), cond)
- O DataFrame derivado exclui algumas colunas por meio de select, groupBy ou window.
- A condição de junção ou a transformação a seguir após o Dataframe unido refere-se às colunas não comuns. Por exemplo,
df.join(df.drop("a"), df("a") === 1)
- Esses dois DataFrames têm colunas em comum, mas a saída da autojunção não tem colunas em comum. Por exemplo,
- Correção da regressão na versão de manutenção de 12 de janeiro de 2021 que causava uma AnalysisException incorreta e dizia que a coluna era ambígua em uma autojunção. Essa regressão ocorre quando um usuário faz a junção do DataFrame com o DataFrame derivado (denominado autojunção) nas seguintes condições:
12 de janeiro de 2021
- Atualizações de segurança do sistema operacional.
- [SPARK-33593][SQL] O leitor de vetor recebeu dados incorretos com o valor de partição binária
- [SPARK-33677][SQL] Ignora a regra LikeSimplification se o padrão contiver escapeChar
- [SPARK-33071][SPARK-33536][SQL] Evita alterações no dataset_id do LogicalPlan em join() para não interromper o DetectAmbiguousSelfJoin
8 de dezembro de 2020
- [SPARK-27421][SQL] Corrige o filtro da coluna int e classe de valor do java.lang.String ao remover a coluna de partição
- Os trabalhos do Spark iniciados usando o Databricks Connect podem parar indefinidamente com
Executor$TaskRunner.$anonfun$copySessionState
em rastreamento de pilha do executor - Atualizações de segurança do sistema operacional.
1º de dezembro de 2020
- [SPARK-33404][SQL][3.0] Corrige os resultados incorretos na expressão
date_trunc
- [SPARK-33339][PYTHON] O aplicativo Pyspark será interrompido devido a um erro de não exceção
- [SPARK-33183][SQL][HOTFIX] Corrige a regra EliminateSorts do otimizador e adiciona uma regra física para remover as classificações redundantes
- [SPARK-33371][PYTHON][3.0] Atualiza o setup.py e testes para o Python 3.9
- [SPARK-33391][SQL] O element_at com o CreateArray não respeita um índice baseado.
- [SPARK-33306][SQL] O fuso horário é necessário ao converter uma data para uma cadeia de caracteres
- [SPARK-33404][SQL][3.0] Corrige os resultados incorretos na expressão
3 de novembro de 2020
- Versão do Java atualizada de 1.8.0_252 para 1.8.0_265.
- Corrige o bloqueio ABFS e WASB em relação a UserGroupInformation.getCurrentUser()
- Corrige um bug de loop infinito do leitor do Avro ao ler os bytes MAGIC.
13 de outubro de 2020
- Atualizações de segurança do sistema operacional.
- [SPARK-32999][SQL] Usa Utils.getSimpleName para evitar que ocorra nome de classe malformado no TreeNode
- Corrigiu diretórios de listagem na montagem FUSE que contêm nomes de arquivos com caracteres XML inválidos
- A montagem FUSE não usa mais ListMultipartUploads
29 de setembro de 2020
- [SPARK-28863][SQL][WARMFIX] Introduz o AlreadyOptimized para evitar a reanálise de V1FallbackWriters
- [SPARK-32635][SQL] Corrige a propagação dobrável
- Adiciona a nova configuração
spark.shuffle.io.decoder.consolidateThreshold
. Define o valor de configuração comoLong.MAX_VALUE
para ignorar a consolidação de FrameBuffers de netty, que impedejava.lang.IndexOutOfBoundsException
em casos fora do padrão.
24 de setembro de 2020
- [SPARK-32764][SQL] -0,0 deve ser igual a 0,0
- [SPARK-32753][SQL] Somente copia as tags para o nó sem tags ao transformar planos
- [SPARK-32659][SQL] Corrige o problema de dados da remoção de partição dinâmica inserida no tipo não atômico
- Atualizações de segurança do sistema operacional.
8 de setembro de 2020
- O novo parâmetro
maxbinlength
foi criado no Azure Synapse Analytics. Esse parâmetro é usado para controlar o tamanho de coluna das colunas BinaryType e é traduzido comoVARBINARY(maxbinlength)
. Ele pode ser definido usando.option("maxbinlength", n)
, em que 0 < n < = 8000.
- O novo parâmetro
25 de agosto de 2020
- [SPARK-32159][SQL] Corrige a integração entre
Aggregator[Array[_], _, _]
eUnresolvedMapObjects
- [SPARK-32559][SQL] Corrige a lógica de corte em
UTF8String.toInt/toLong
, que não manipulava corretamente caracteres não ASCII - [SPARK-32543][R] Remove o uso de
arrow::as_tibble
no SparkR - [SPARK-32091][CORE] Ignora erros de tempo limite ao remover blocos no executor perdido
- Corrigiu um problema que afetava o conector do Azure Synapse com as credenciais do MSI
- Corrigiu a resolução ambígua de atributo na automesclagem
- [SPARK-32159][SQL] Corrige a integração entre
18 de agosto de 2020
- [SPARK-32594][SQL] Corrige a serialização de datas inseridas nas tabelas do Hive
- [SPARK-32237][SQL] Resolve dica na CTE
- [SPARK-32431][SQL] Verifica as colunas aninhadas duplicadas na leitura de fontes de base criadas
- [SPARK-32467][UI] Evita a codificação de URL duas vezes no redirecionamento https
- Corrigiu a condição de corrida no conector do AQS ao usar o Trigger.Once.
11 de agosto de 2020
- [SPARK-32280][SPARK-32372][SQL] O ResolveReferences.dedupRight só deve regravar atributos para nós ancestrais do plano de conflito
- [SPARK-32234][SQL] Os comandos do Spark SQL estão falhando ao selecionar as tabelas ORC
3 de agosto de 2020
- Agora você pode usar a função de transformação LDA em um cluster habilitado para passagem.
Databricks Runtime 7.0 (EoS)
Consulte Databricks Runtime 7.0 (EoS).
4 de fevereiro de 2021
- Corrigiu a regressão que causava falha no início do FUSE do DBFS quando as configurações de variáveis de ambiente do cluster continham sintaxe inválida de bash.
20 de janeiro de 2021
- Correção da regressão na versão de manutenção de 12 de janeiro de 2021 que causava uma AnalysisException incorreta e dizia que a coluna era ambígua em uma autojunção. Essa regressão ocorre quando um usuário faz a junção do DataFrame com o DataFrame derivado (denominado autojunção) nas seguintes condições:
- Esses dois DataFrames têm colunas em comum, mas a saída da autojunção não tem colunas em comum. Por exemplo,
df.join(df.select($"col" as "new_col"), cond)
- O DataFrame derivado exclui algumas colunas por meio de select, groupBy ou window.
- A condição de junção ou a transformação a seguir após o Dataframe unido refere-se às colunas não comuns. Por exemplo,
df.join(df.drop("a"), df("a") === 1)
- Esses dois DataFrames têm colunas em comum, mas a saída da autojunção não tem colunas em comum. Por exemplo,
- Correção da regressão na versão de manutenção de 12 de janeiro de 2021 que causava uma AnalysisException incorreta e dizia que a coluna era ambígua em uma autojunção. Essa regressão ocorre quando um usuário faz a junção do DataFrame com o DataFrame derivado (denominado autojunção) nas seguintes condições:
12 de janeiro de 2021
- Atualizações de segurança do sistema operacional.
- [SPARK-33593][SQL] O leitor de vetor recebeu dados incorretos com o valor de partição binária
- [SPARK-33677][SQL] Ignora a regra LikeSimplification se o padrão contiver escapeChar
- [SPARK-33071][SPARK-33536][SQL] Evita alterações no dataset_id do LogicalPlan em join() para não interromper o DetectAmbiguousSelfJoin
8 de dezembro de 2020
- [SPARK-27421][SQL] Corrige o filtro da coluna int e classe de valor do java.lang.String ao remover a coluna de partição
- [SPARK-33404][SQL] Corrige os resultados incorretos na expressão
date_trunc
- [SPARK-33339][PYTHON] O aplicativo Pyspark será interrompido devido a um erro de não exceção
- [SPARK-33183][SQL] Corrige a regra EliminateSorts do otimizador e adiciona uma regra física para remover as classificações redundantes
- [SPARK-33391][SQL] O element_at com o CreateArray não respeita um índice baseado.
- Atualizações de segurança do sistema operacional.
1º de dezembro de 2020
- [SPARK-33306][SQL] O fuso horário é necessário ao converter uma data para uma cadeia de caracteres
3 de novembro de 2020
- Versão do Java atualizada de 1.8.0_252 para 1.8.0_265.
- Corrige o bloqueio ABFS e WASB em relação a UserGroupInformation.getCurrentUser()
- Corrige um bug de loop infinito do leitor do Avro ao ler os bytes MAGIC.
13 de outubro de 2020
- Atualizações de segurança do sistema operacional.
- [SPARK-32999][SQL] Usa Utils.getSimpleName para evitar que ocorra nome de classe malformado no TreeNode
- Corrigiu diretórios de listagem na montagem FUSE que contêm nomes de arquivos com caracteres XML inválidos
- A montagem FUSE não usa mais ListMultipartUploads
29 de setembro de 2020
- [SPARK-28863][SQL][WARMFIX] Introduz o AlreadyOptimized para evitar a reanálise de V1FallbackWriters
- [SPARK-32635][SQL] Corrige a propagação dobrável
- Adiciona a nova configuração
spark.shuffle.io.decoder.consolidateThreshold
. Define o valor de configuração comoLong.MAX_VALUE
para ignorar a consolidação de FrameBuffers de netty, que impedejava.lang.IndexOutOfBoundsException
em casos fora do padrão.
24 de setembro de 2020
- [SPARK-32764][SQL] -0,0 deve ser igual a 0,0
- [SPARK-32753][SQL] Somente copia as tags para o nó sem tags ao transformar planos
- [SPARK-32659][SQL] Corrige o problema de dados da remoção de partição dinâmica inserida no tipo não atômico
- Atualizações de segurança do sistema operacional.
8 de setembro de 2020
- O novo parâmetro
maxbinlength
foi criado no Azure Synapse Analytics. Esse parâmetro é usado para controlar o tamanho de coluna das colunas BinaryType e é traduzido comoVARBINARY(maxbinlength)
. Ele pode ser definido usando.option("maxbinlength", n)
, em que 0 < n < = 8000.
- O novo parâmetro
25 de agosto de 2020
- [SPARK-32159][SQL] Corrige a integração entre
Aggregator[Array[_], _, _]
eUnresolvedMapObjects
- [SPARK-32559][SQL] Corrige a lógica de corte em
UTF8String.toInt/toLong
, que não manipulava corretamente caracteres não ASCII - [SPARK-32543][R] Remove o uso de
arrow::as_tibble
no SparkR - [SPARK-32091][CORE] Ignora erros de tempo limite ao remover blocos no executor perdido
- Corrigiu um problema que afetava o conector do Azure Synapse com as credenciais do MSI
- Corrigiu a resolução ambígua de atributo na automesclagem
- [SPARK-32159][SQL] Corrige a integração entre
18 de agosto de 2020
- [SPARK-32594][SQL] Corrige a serialização de datas inseridas nas tabelas do Hive
- [SPARK-32237][SQL] Resolve dica na CTE
- [SPARK-32431][SQL] Verifica as colunas aninhadas duplicadas na leitura de fontes de base criadas
- [SPARK-32467][UI] Evita a codificação de URL duas vezes no redirecionamento https
- Corrigiu a condição de corrida no conector do AQS ao usar o Trigger.Once.
11 de agosto de 2020
- [SPARK-32280][SPARK-32372][SQL] O ResolveReferences.dedupRight só deve regravar atributos para nós ancestrais do plano de conflito
- [SPARK-32234][SQL] Os comandos do Spark SQL estão falhando ao selecionar as tabelas ORC
- Agora você pode usar a função de transformação LDA em um cluster habilitado para passagem.
Databricks Runtime 6.6 (EoS)
Consulte Databricks Runtime 6.6 (EoS).
1º de dezembro de 2020
- [SPARK-33260][SQL] Corrige os resultados incorretos de SortExec quando sortOrder é Stream
- [SPARK-32635][SQL] Corrige a propagação dobrável
3 de novembro de 2020
- Versão do Java atualizada de 1.8.0_252 para 1.8.0_265.
- Corrige o bloqueio ABFS e WASB em relação a UserGroupInformation.getCurrentUser()
- Corrige um bug de loop infinito do leitor do Avro ao ler os bytes MAGIC.
13 de outubro de 2020
- Atualizações de segurança do sistema operacional.
- [SPARK-32999][SQL][2.4] Usa Utils.getSimpleName para evitar que ocorra nome de classe malformado no TreeNode
- Corrigiu diretórios de listagem na montagem FUSE que contêm nomes de arquivos com caracteres XML inválidos
- A montagem FUSE não usa mais ListMultipartUploads
24 de setembro de 2020
- Atualizações de segurança do sistema operacional.
8 de setembro de 2020
- O novo parâmetro
maxbinlength
foi criado no Azure Synapse Analytics. Esse parâmetro é usado para controlar o tamanho de coluna das colunas BinaryType e é traduzido comoVARBINARY(maxbinlength)
. Ele pode ser definido usando.option("maxbinlength", n)
, em que 0 < n < = 8000. - Atualiza o SDK do Armazenamento do Microsoft Azure para 8.6.4 e habilita o TCP para mantê-lo funcionando em conexões feitas pelo driver WASB
- O novo parâmetro
25 de agosto de 2020
- Corrigiu a resolução ambígua de atributo na automesclagem
18 de agosto de 2020
- [SPARK-32431][SQL] Verifica as colunas aninhadas duplicadas na leitura de fontes de base criadas
- Corrigiu a condição de corrida no conector do AQS ao usar o Trigger.Once.
11 de agosto de 2020
- [SPARK-28676][CORE] Evita o excessivo registro em log do ContextCleaner
- [SPARK-31967][UI] Faça o downgrade para vis.js 4.21.0 para corrigir os trabalhos de regressão do tempo de carregamento da interface do usuário
3 de agosto de 2020
- Agora você pode usar a função de transformação LDA em um cluster habilitado para passagem.
- Atualizações de segurança do sistema operacional.
Databricks Runtime 6.5 (EoS)
Consulte Databricks Runtime 6.5 (EoS).
- 24 de setembro de 2020
- Corrigiu uma limitação anterior em que a passagem no cluster padrão ainda restringia o uso do usuário de implementação do sistema de arquivos. Agora, os usuários poderão acessar os sistemas de arquivos locais sem restrições.
- Atualizações de segurança do sistema operacional.
- 8 de setembro de 2020
- O novo parâmetro
maxbinlength
foi criado no Azure Synapse Analytics. Esse parâmetro é usado para controlar o tamanho de coluna das colunas BinaryType e é traduzido comoVARBINARY(maxbinlength)
. Ele pode ser definido usando.option("maxbinlength", n)
, em que 0 < n < = 8000. - Atualiza o SDK do Armazenamento do Microsoft Azure para 8.6.4 e habilita o TCP para mantê-lo funcionando em conexões feitas pelo driver WASB
- O novo parâmetro
- 25 de agosto de 2020
- Corrigiu a resolução ambígua de atributo na automesclagem
- 18 de agosto de 2020
- [SPARK-32431][SQL] Verifica as colunas aninhadas duplicadas na leitura de fontes de base criadas
- Corrigiu a condição de corrida no conector do AQS ao usar o Trigger.Once.
- 11 de agosto de 2020
- [SPARK-28676][CORE] Evita o excessivo registro em log do ContextCleaner
- 3 de agosto de 2020
- Agora você pode usar a função de transformação LDA em um cluster habilitado para passagem.
- Atualizações de segurança do sistema operacional.
- 7 de julho de 2020
- Versão do Java atualizada de 1.8.0_242 para 1.8.0_252.
- 21 de abril de 2020
- [SPARK-31312][SQL] Instancia classe de cache para a instância de UDF em HiveFunctionWrapper
Databricks Runtime 6.3 (EoS)
Consulte Databricks Runtime 6.3 (EoS).
- 7 de julho de 2020
- Versão do Java atualizada de 1.8.0_232 para 1.8.0_252.
- 21 de abril de 2020
- [SPARK-31312][SQL] Instancia classe de cache para a instância de UDF em HiveFunctionWrapper
- 7 de abril de 2020
- Para resolver um problema de udf de pandas não funcionar com o PyArrow 0.15.0 e superiores, adicionamos uma variável de ambiente (
ARROW_PRE_0_15_IPC_FORMAT=1
) para habilitar o suporte para essas versões do PyArrow. Consulte as instruções em [SPARK-29367].
- Para resolver um problema de udf de pandas não funcionar com o PyArrow 0.15.0 e superiores, adicionamos uma variável de ambiente (
- 10 de março de 2020
- O conector (
spark-snowflake_2.11
) do Snowflake incluído no Databricks Runtime foi atualizado para a versão 2.5.9.snowflake-jdbc
foi atualizado para a versão 3.12.0.
- O conector (
- 18 de fevereiro de 2020
- A passagem de credenciais com ADLS Gen2 tem uma degradação de desempenho devido ao tratamento local incorreto da thread quando a pré-busca do cliente ADLS está habilitada. Até que tenhamos uma correção adequada, esta versão desabilita a pré-busca do ADLS Gen2 quando a passagem de credencial está habilitada.
- 11 de fevereiro de 2020
- [SPARK-24783][SQL] O spark.sql.shuffle.partitions=0 deve lançar exceção
- [SPARK-30447][SQL] Problema de constante nulidade de propagação
- [SPARK-28152][SQL] Adição de uma configuração herdada para o mapeamento numérico antigo de MsSqlServerDialect
- Lista de permitidos da função de substituição para que o MLModels estenda o MLWriter e possa chamar a função.
Databricks Runtime 6.2 (EoS)
Consulte Databricks Runtime 6.2 (EoS).
- 21 de abril de 2020
- [SPARK-31312][SQL] Instancia classe de cache para a instância de UDF em HiveFunctionWrapper
- 7 de abril de 2020
- Para resolver um problema de udf de pandas não funcionar com o PyArrow 0.15.0 e superiores, adicionamos uma variável de ambiente (
ARROW_PRE_0_15_IPC_FORMAT=1
) para habilitar o suporte para essas versões do PyArrow. Consulte as instruções em [SPARK-29367].
- Para resolver um problema de udf de pandas não funcionar com o PyArrow 0.15.0 e superiores, adicionamos uma variável de ambiente (
- 25 de março de 2020
- A saída do trabalho, como a saída de log emitida para stdout, está sujeita a um limite de tamanho de 20 MB. Se a saída total tiver um tamanho maior, a execução será cancelada e marcada como com falha. Para evitar que chegue nesse limite, você pode impedir que o stdout seja retornado do driver, definindo a configuração
spark.databricks.driver.disableScalaOutput
do Spark comotrue
. Por padrão, o valor do sinalizador éfalse
. O sinalizador controla a saída da célula para os trabalhos do JAR do Scala e os notebooks do Scala. Se o sinalizador estiver habilitado, o Spark não retornará os resultados de execução do trabalho para o cliente. O sinalizador não afeta os dados que são gravados nos arquivos de log do cluster. Recomenda-se definir esse sinalizador apenas para clusters automatizados para trabalhos JAR, pois ele desabilitará os resultados do notebook.
- A saída do trabalho, como a saída de log emitida para stdout, está sujeita a um limite de tamanho de 20 MB. Se a saída total tiver um tamanho maior, a execução será cancelada e marcada como com falha. Para evitar que chegue nesse limite, você pode impedir que o stdout seja retornado do driver, definindo a configuração
- 10 de março de 2020
- O conector (
spark-snowflake_2.11
) do Snowflake incluído no Databricks Runtime foi atualizado para a versão 2.5.9.snowflake-jdbc
foi atualizado para a versão 3.12.0.
- O conector (
- 18 de fevereiro de 2020
- [SPARK-24783][SQL] O spark.sql.shuffle.partitions=0 deve lançar exceção
- A passagem de credenciais com ADLS Gen2 tem uma degradação de desempenho devido ao tratamento local incorreto da thread quando a pré-busca do cliente ADLS está habilitada. Até que tenhamos uma correção adequada, esta versão desabilita a pré-busca do ADLS Gen2 quando a passagem de credencial está habilitada.
- 28 de janeiro de 2020
- Lista de permitidos da função de substituição do ML Model Writers para clusters habilitados para passagem de credencial, para que o salvamento do modelo possa usar o modo de substituição em clusters de passagem de credencial.
- [SPARK-30447][SQL] Problema de constante nulidade de propagação.
- [SPARK-28152][SQL] Adiciona uma configuração herdada para mapeamento numérico do MsSqlServerDialect antigo.
- 14 de janeiro de 2020
- Versão do Java atualizada de 1.8.0_222 para 1.8.0_232.
- 10 de dezembro de 2019
- [SPARK-29904][SQL] Analisa os carimbos de data/hora com precisão de microssegundos por fontes de dados JSON/CSV.
Databricks Runtime 6.1 (EoS)
Consulte Databricks Runtime 6.1 (EoS).
- 7 de abril de 2020
- Para resolver um problema de udf de pandas não funcionar com o PyArrow 0.15.0 e superiores, adicionamos uma variável de ambiente (
ARROW_PRE_0_15_IPC_FORMAT=1
) para habilitar o suporte para essas versões do PyArrow. Consulte as instruções em [SPARK-29367].
- Para resolver um problema de udf de pandas não funcionar com o PyArrow 0.15.0 e superiores, adicionamos uma variável de ambiente (
- 25 de março de 2020
- A saída do trabalho, como a saída de log emitida para stdout, está sujeita a um limite de tamanho de 20 MB. Se a saída total tiver um tamanho maior, a execução será cancelada e marcada como com falha. Para evitar que chegue nesse limite, você pode impedir que o stdout seja retornado do driver, definindo a configuração
spark.databricks.driver.disableScalaOutput
do Spark comotrue
. Por padrão, o valor do sinalizador éfalse
. O sinalizador controla a saída da célula para os trabalhos do JAR do Scala e os notebooks do Scala. Se o sinalizador estiver habilitado, o Spark não retornará os resultados de execução do trabalho para o cliente. O sinalizador não afeta os dados que são gravados nos arquivos de log do cluster. Recomenda-se definir esse sinalizador apenas para clusters automatizados para trabalhos JAR, pois ele desabilitará os resultados do notebook.
- A saída do trabalho, como a saída de log emitida para stdout, está sujeita a um limite de tamanho de 20 MB. Se a saída total tiver um tamanho maior, a execução será cancelada e marcada como com falha. Para evitar que chegue nesse limite, você pode impedir que o stdout seja retornado do driver, definindo a configuração
- 10 de março de 2020
- O conector (
spark-snowflake_2.11
) do Snowflake incluído no Databricks Runtime foi atualizado para a versão 2.5.9.snowflake-jdbc
foi atualizado para a versão 3.12.0.
- O conector (
- 18 de fevereiro de 2020
- [SPARK-24783][SQL] O spark.sql.shuffle.partitions=0 deve lançar exceção
- A passagem de credenciais com ADLS Gen2 tem uma degradação de desempenho devido ao tratamento local incorreto da thread quando a pré-busca do cliente ADLS está habilitada. Até que tenhamos uma correção adequada, esta versão desabilita a pré-busca do ADLS Gen2 quando a passagem de credencial está habilitada.
- 28 de janeiro de 2020
- [SPARK-30447][SQL] Problema de constante nulidade de propagação.
- [SPARK-28152][SQL] Adiciona uma configuração herdada para mapeamento numérico do MsSqlServerDialect antigo.
- 14 de janeiro de 2020
- Versão do Java atualizada de 1.8.0_222 para 1.8.0_232.
- 7 de novembro de 2019
- [SPARK-29743][SQL] A amostra deverá definir needCopyResult como verdadeiro se o needCopyResult do filho for verdadeiro.
- Segredos referenciados de propriedades de configuração e variáveis de ambiente do Spark na visualização Pública. Confira Usar um segredo em uma propriedade de configuração ou variável de ambiente do Spark.
- 5 de novembro de 2019
- Corrigiu um bug no FUSE de DBFS para tratar os pontos de montagem que têm
//
no caminho. - [SPARK-29081] Substitui as chamadas de SerializationUtils.clone em propriedades com uma implementação mais rápida
- [SPARK-29244][CORE] Impede que a página liberada no BytesToBytesMap seja liberada novamente
- (6,1 ML) A biblioteca mkl versão 2019.4 foi instalada acidentalmente. Fizemos o downgrade para a versão mkl 2019.3 para corresponder com o Anaconda Distribution 2019.03.
- Corrigiu um bug no FUSE de DBFS para tratar os pontos de montagem que têm
Databricks Runtime 6.0 (EoS)
Consulte Databricks Runtime 6.0 (EoS).
- 25 de março de 2020
- A saída do trabalho, como a saída de log emitida para stdout, está sujeita a um limite de tamanho de 20 MB. Se a saída total tiver um tamanho maior, a execução será cancelada e marcada como com falha. Para evitar que chegue nesse limite, você pode impedir que o stdout seja retornado do driver, definindo a configuração
spark.databricks.driver.disableScalaOutput
do Spark comotrue
. Por padrão, o valor do sinalizador éfalse
. O sinalizador controla a saída da célula para os trabalhos do JAR do Scala e os notebooks do Scala. Se o sinalizador estiver habilitado, o Spark não retornará os resultados de execução do trabalho para o cliente. O sinalizador não afeta os dados que são gravados nos arquivos de log do cluster. Recomenda-se definir esse sinalizador apenas para clusters automatizados para trabalhos JAR, pois ele desabilitará os resultados do notebook.
- A saída do trabalho, como a saída de log emitida para stdout, está sujeita a um limite de tamanho de 20 MB. Se a saída total tiver um tamanho maior, a execução será cancelada e marcada como com falha. Para evitar que chegue nesse limite, você pode impedir que o stdout seja retornado do driver, definindo a configuração
- 18 de fevereiro de 2020
- A passagem de credenciais com ADLS Gen2 tem uma degradação de desempenho devido ao tratamento local incorreto da thread quando a pré-busca do cliente ADLS está habilitada. Até que tenhamos uma correção adequada, esta versão desabilita a pré-busca do ADLS Gen2 quando a passagem de credencial está habilitada.
- 11 de fevereiro de 2020
- [SPARK-24783][SQL] O spark.sql.shuffle.partitions=0 deve lançar exceção
- 28 de janeiro de 2020
- [SPARK-30447][SQL] Problema de constante nulidade de propagação.
- [SPARK-28152][SQL] Adiciona uma configuração herdada para mapeamento numérico do MsSqlServerDialect antigo.
- 14 de janeiro de 2020
- Versão do Java atualizada de 1.8.0_222 para 1.8.0_232.
- 19 de novembro de 2019
- [SPARK-29743][SQL] A amostra deverá definir needCopyResult como verdadeiro se o needCopyResult do filho for verdadeiro
- 5 de novembro de 2019
dbutils.tensorboard.start()
Agora suporta o TensorBoard 2.0 (se for instalado manualmente).- Corrigiu um bug no FUSE de DBFS para tratar os pontos de montagem que têm
//
no caminho. - [SPARK-29081] Substitui as chamadas de SerializationUtils.clone em propriedades com uma implementação mais rápida
- 23 de outubro de 2019
- [SPARK-29244][CORE] Impede que a página liberada no BytesToBytesMap seja liberada novamente
- 8 de outubro de 2019
- Alterações no lado do servidor para permitir que o driver ODBC do Simba Apache Spark se reconecte e continue após uma falha de conexão durante a busca de resultados (requer a versão 2.6.10 do driver do ODBC do Simba Apache Spark).
- Corrigiu um problema que afetava o uso do comando
Optimize
com clusters habilitados para ACL de tabela. - Corrigiu um problema em que as bibliotecas
pyspark.ml
falhavam devido a um erro proibido de UDF Scala na ACL de tabela e nos clusters habilitados para passagem de credencial. - Lista de permitidos dos métodos SerDe e SerDeUtil para passagem de credencial.
- Corrigiu o NullPointerException ao verificar o código de erro no cliente WASB.
- Corrigiu o problema em que as credenciais do usuário não eram encaminhadas para os trabalhos criados pelo
dbutils.notebook.run()
.
Databricks Runtime 5.4 ML (EoS)
Consulte Databricks Runtime 5.4 para ML (EoS).
- 18 de junho de 2019
- Tratamento aprimorado de execuções ativas do MLflow na integração do Hyperopt
- Mensagens aprimoradas no Hyperopt
- Pacote
Marchkdown
atualizado de 3.1 para 3.1.1
Databricks Runtime 5.4 (EoS)
Consulte Databricks Runtime 5.4 (EoS).
- 19 de novembro de 2019
- [SPARK-29743][SQL] A amostra deverá definir needCopyResult como verdadeiro se o needCopyResult do filho for verdadeiro
- 8 de outubro de 2019
- Alterações no lado do servidor para permitir que o driver ODBC do Simba Apache Spark se reconecte e continue após uma falha de conexão durante a busca de resultados (requer a versão 2.6.10 do driver do ODBC do Simba Apache Spark).
- Corrigiu o NullPointerException ao verificar o código de erro no cliente WASB.
- 10 de setembro de 2019
- Adiciona iterador seguro de thread ao BytesToBytesMap
- Corrigiu um bug que afetava determinadas consultas de agregação global.
- [SPARK-27330][SS] Suporta a interrupção de tarefas no gravador de foreach
- [SPARK-28642] Oculta as credenciais em SHOW CREATE TABLE
- [SPARK-28699][SQL] Desabilita o uso de classificação de base para ShuffleExchangeExec no caso de repartição
- [SPARK-28699][CORE] Corrige um caso fora do padrão ao anular o estágio indeterminado
- 27 de agosto de 2019
- Corrigiu um problema que afetava determinadas expressões
transform
- Corrigiu um problema que afetava determinadas expressões
- 13 de agosto de 2019
- A fonte de streaming Delta deverá verificar o protocolo mais recente de uma tabela
- [SPARK-28489][SS] Corrige um bug em que KafkaOffsetRangeCalculator.getRanges soltava deslocamentos
- 30 de julho de 2019
- [SPARK-28015][SQL] Verifica se o stringToDate() consome toda a entrada para os formatos aaaa e aaaa-[m]m
- [SPARK-28308][CORE] A parte do subsegundo de CalendarInterval deve ser preenchida antes da análise
- [SPARK-27485] O EnsureRequirements.reorder deve tratar expressões duplicadas normalmente
- 2 de julho de 2019
- Snappy-java atualizado de 1.1.7.1 para 1.1.7.3.
- 18 de junho de 2019
- Tratamento aprimorado de execuções ativas do MLflow na integração do MLlib
- Mensagem aprimorada do Assistente do Databricks relacionada ao uso do cache de disco
- Corrigiu um bug que afetava o uso de funções de ordem superior
- Corrigiu um bug que afetava as consultas aos metadados do Delta
Databricks Runtime 5.3 (EoS)
Consulte Databricks Runtime 5.3 (EoS).
- 7 de novembro de 2019
- [SPARK-29743][SQL] A amostra deverá definir needCopyResult como verdadeiro se o needCopyResult do filho for verdadeiro
- 8 de outubro de 2019
- Alterações no lado do servidor para permitir que o driver ODBC do Simba Apache Spark se reconecte e continue após uma falha de conexão durante a busca de resultados (requer a versão 2.6.10 do driver do ODBC do Simba Apache Spark).
- Corrigiu o NullPointerException ao verificar o código de erro no cliente WASB.
- 10 de setembro de 2019
- Adiciona iterador seguro de thread ao BytesToBytesMap
- Corrigiu um bug que afetava determinadas consultas de agregação global.
- [SPARK-27330][SS] Suporta a interrupção de tarefas no gravador de foreach
- [SPARK-28642] Oculta as credenciais em SHOW CREATE TABLE
- [SPARK-28699][SQL] Desabilita o uso de classificação de base para ShuffleExchangeExec no caso de repartição
- [SPARK-28699][CORE] Corrige um caso fora do padrão ao anular o estágio indeterminado
- 27 de agosto de 2019
- Corrigiu um problema que afetava determinadas expressões
transform
- Corrigiu um problema que afetava determinadas expressões
- 13 de agosto de 2019
- A fonte de streaming Delta deverá verificar o protocolo mais recente de uma tabela
- [SPARK-28489][SS] Corrige um bug em que KafkaOffsetRangeCalculator.getRanges soltava deslocamentos
- 30 de julho de 2019
- [SPARK-28015][SQL] Verifica se o stringToDate() consome toda a entrada para os formatos aaaa e aaaa-[m]m
- [SPARK-28308][CORE] A parte do subsegundo de CalendarInterval deve ser preenchida antes da análise
- [SPARK-27485] O EnsureRequirements.reorder deve tratar expressões duplicadas normalmente
- 18 de junho de 2019
- Mensagem aprimorada do Assistente do Databricks relacionada ao uso do cache de disco
- Corrigiu um bug que afetava o uso de funções de ordem superior
- Corrigiu um bug que afetava as consultas aos metadados do Delta
- 28 de maio de 2019
- Melhorou a estabilidade do Delta
- Tolera IOExceptions ao ler o arquivo LAST_CHECKPOINT do Delta
- Recuperação adicionada à instalação da biblioteca com falha
- 7 de maio de 2019
- Porta HADOOP-15778 (ABFS: corrige a limitação do lado do cliente para leitura) para o conector do Azure Data Lake Storage Gen2
- Porta HADOOP-16040 (ABFS: correção de bug para configuração do tolerateOobAppends) para o conector do Azure Data Lake Storage Gen2
- Corrigiu um bug que afetava as ACLs de tabela
- Corrigiu uma condição de corrida ao carregar um arquivo de soma de verificação de log do Delta
- Corrigiu a lógica de detecção de conflitos do Delta para não identificar "insert + overwrite" como operação "append" pura
- Garante que o cache de disco não seja desabilitado quando as ACLs de tabela estiverem habilitadas
- [SPARK-27494][SS] Valores/chaves nulos não funcionam na origem v2 do Kafka
- [SPARK-27446][R] Usa a configuração existente do Spark, se disponível.
- [SPARK-27454] [SPARK-27454][ML][SQL] O datasource da imagem do Spark falha ao encontrar imagens ilegais
- [SPARK-27160][SQL] Corrige o DecimalType ao criar filtros orc
- [SPARK-27338][CORE] Corrige o deadlock entre UnsafeExternalSorter e TaskMemoryManager
Databricks Runtime 5.2 (EoS)
Consulte Databricks Runtime 5.2 (EoS).
- 10 de setembro de 2019
- Adiciona iterador seguro de thread ao BytesToBytesMap
- Corrigiu um bug que afetava determinadas consultas de agregação global.
- [SPARK-27330][SS] Suporta a interrupção de tarefas no gravador de foreach
- [SPARK-28642] Oculta as credenciais em SHOW CREATE TABLE
- [SPARK-28699][SQL] Desabilita o uso de classificação de base para ShuffleExchangeExec no caso de repartição
- [SPARK-28699][CORE] Corrige um caso fora do padrão ao anular o estágio indeterminado
- 27 de agosto de 2019
- Corrigiu um problema que afetava determinadas expressões
transform
- Corrigiu um problema que afetava determinadas expressões
- 13 de agosto de 2019
- A fonte de streaming Delta deverá verificar o protocolo mais recente de uma tabela
- [SPARK-28489][SS] Corrige um bug em que KafkaOffsetRangeCalculator.getRanges soltava deslocamentos
- 30 de julho de 2019
- [SPARK-28015][SQL] Verifica se o stringToDate() consome toda a entrada para os formatos aaaa e aaaa-[m]m
- [SPARK-28308][CORE] A parte do subsegundo de CalendarInterval deve ser preenchida antes da análise
- [SPARK-27485] O EnsureRequirements.reorder deve tratar expressões duplicadas normalmente
- 2 de julho de 2019
- Tolera IOExceptions ao ler o arquivo LAST_CHECKPOINT do Delta
- 18 de junho de 2019
- Mensagem aprimorada do Assistente do Databricks relacionada ao uso do cache de disco
- Corrigiu um bug que afetava o uso de funções de ordem superior
- Corrigiu um bug que afetava as consultas aos metadados do Delta
- 28 de maio de 2019
- Recuperação adicionada à instalação da biblioteca com falha
- 7 de maio de 2019
- Porta HADOOP-15778 (ABFS: corrige a limitação do lado do cliente para leitura) para o conector do Azure Data Lake Storage Gen2
- Porta HADOOP-16040 (ABFS: correção de bug para configuração do tolerateOobAppends) para o conector do Azure Data Lake Storage Gen2
- Corrigiu uma condição de corrida ao carregar um arquivo de soma de verificação de log do Delta
- Corrigiu a lógica de detecção de conflitos do Delta para não identificar "insert + overwrite" como operação "append" pura
- Garante que o cache de disco não seja desabilitado quando as ACLs de tabela estiverem habilitadas
- [SPARK-27494][SS] Valores/chaves nulos não funcionam na origem v2 do Kafka
- [SPARK-27454] [SPARK-27454][ML][SQL] O datasource da imagem do Spark falha ao encontrar imagens ilegais
- [SPARK-27160][SQL] Corrige o DecimalType ao criar filtros orc
- [SPARK-27338][CORE] Corrige o deadlock entre UnsafeExternalSorter e TaskMemoryManager
- 26 de março de 2019
- Evita literalmente a inserção de deslocamentos dependentes da plataforma no código gerado em todo o estágio
- [SPARK-26665][CORE] Corrige um bug em que o BlockTransferService.fetchBlockSync fica esperando para sempre.
- [SPARK-27134][SQL] A função array_distinct não funciona corretamente com colunas que contêm matriz de matriz.
- [SPARK-24669][SQL] Invalida tabelas no caso de SOLTAR BANCO DE DADOS EM CASCATA.
- [SPARK-26572][SQL] Corrige a avaliação do resultado de codegen agregado.
- Corrigiu um bug que afetava determinados PythonUDFs.
- 26 de fevereiro de 2019
- [SPARK-26864][SQL] A consulta pode retornar resultado incorreto quando a udf do Python é usada como uma condição left semi join.
- [SPARK-26887][PYTHON] Cria datetime.date diretamente em vez de criar datetime64 como dados intermediários.
- Corrigiu um bug que afetava o servidor JDBC/ODBC.
- Corrigiu um bug que afetava o PySpark.
- Exclui os arquivos ocultos ao compilar o HadoopRDD.
- Corrigiu um bug no Delta que causava problemas de serialização.
- 12 de fevereiro de 2019
- Corrigiu um problema que afetava o uso do Delta com pontos de montagem do ADLS Gen2 do Azure.
- Corrigiu um problema em que o protocolo de rede de nível inferior do Spark era violado ao enviar grandes mensagens de erro de RPC com criptografia habilitada (quando
spark.network.crypto.enabled
era definido como verdadeiro).
- 30 de janeiro de 2019
- Corrigiu o StackOverflowError ao colocar a dica de junção de distorção na relação em cache.
- Corrigiu a inconsistência entre o RDD em cache de um cache SQL e seu plano físico, o que causava um resultado incorreto.
- [SPARK-26706][SQL] Corrige
illegalNumericPrecedence
para ByteType. - [SPARK-26709][SQL] O OptimizeMetadataOnlyQuery não manipula registros vazios corretamente.
- Fontes de dados CSV/JSON devem evitar caminhos de glob ao inferir esquema.
- Corrigiu a inferência de restrição no operador do Window.
- Corrigiu um problema que afetava a instalação de bibliotecas do Python com clusters com a ACL de tabela habilitada.
Databricks Runtime 5.1 (EoS)
Consulte Databricks Runtime 5.1 (EoS).
- 13 de agosto de 2019
- A fonte de streaming Delta deverá verificar o protocolo mais recente de uma tabela
- [SPARK-28489][SS] Corrige um bug em que KafkaOffsetRangeCalculator.getRanges soltava deslocamentos
- 30 de julho de 2019
- [SPARK-28015][SQL] Verifica se o stringToDate() consome toda a entrada para os formatos aaaa e aaaa-[m]m
- [SPARK-28308][CORE] A parte do subsegundo de CalendarInterval deve ser preenchida antes da análise
- [SPARK-27485] O EnsureRequirements.reorder deve tratar expressões duplicadas normalmente
- 2 de julho de 2019
- Tolera IOExceptions ao ler o arquivo LAST_CHECKPOINT do Delta
- 18 de junho de 2019
- Corrigiu um bug que afetava o uso de funções de ordem superior
- Corrigiu um bug que afetava as consultas aos metadados do Delta
- 28 de maio de 2019
- Recuperação adicionada à instalação da biblioteca com falha
- 7 de maio de 2019
- Porta HADOOP-15778 (ABFS: corrige a limitação do lado do cliente para leitura) para o conector do Azure Data Lake Storage Gen2
- Porta HADOOP-16040 (ABFS: correção de bug para configuração do tolerateOobAppends) para o conector do Azure Data Lake Storage Gen2
- Corrigiu uma condição de corrida ao carregar um arquivo de soma de verificação de log do Delta
- Corrigiu a lógica de detecção de conflitos do Delta para não identificar "insert + overwrite" como operação "append" pura
- [SPARK-27494][SS] Valores/chaves nulos não funcionam na origem v2 do Kafka
- [SPARK-27454] [SPARK-27454][ML][SQL] O datasource da imagem do Spark falha ao encontrar imagens ilegais
- [SPARK-27160][SQL] Corrige o DecimalType ao criar filtros orc
- [SPARK-27338][CORE] Corrige o deadlock entre UnsafeExternalSorter e TaskMemoryManager
- 26 de março de 2019
- Evita literalmente a inserção de deslocamentos dependentes da plataforma no código gerado em todo o estágio
- Corrigiu um bug que afetava determinados PythonUDFs.
- 26 de fevereiro de 2019
- [SPARK-26864][SQL] A consulta pode retornar resultado incorreto quando a udf do Python é usada como uma condição left semi join.
- Corrigiu um bug que afetava o servidor JDBC/ODBC.
- Exclui os arquivos ocultos ao compilar o HadoopRDD.
- 12 de fevereiro de 2019
- Corrigiu um problema que afetava a instalação de bibliotecas do Python com clusters com a ACL de tabela habilitada.
- Corrigiu a inconsistência entre o RDD em cache de um cache SQL e seu plano físico, o que causava um resultado incorreto.
- [SPARK-26706][SQL] Corrige
illegalNumericPrecedence
para ByteType. - [SPARK-26709][SQL] O OptimizeMetadataOnlyQuery não manipula registros vazios corretamente.
- Corrigiu a inferência de restrição no operador do Window.
- Corrigiu um problema em que o protocolo de rede de nível inferior do Spark era violado ao enviar grandes mensagens de erro de RPC com criptografia habilitada (quando
spark.network.crypto.enabled
era definido como verdadeiro).
- 30 de janeiro de 2019
- Corrigiu um problema que causava
df.rdd.count()
com o UDT retornando uma resposta incorreta para determinados casos. - Corrigiu um problema que afetava a instalação de cache local de pacotes Python.
- [SPARK-26267] Tenta novamente ao detectar deslocamentos incorretos do Kafka.
- Corrigiu um bug que afetava várias fontes de fluxo de arquivos em uma consulta de streaming.
- Corrigiu o StackOverflowError ao colocar a dica de junção de distorção na relação em cache.
- Corrigiu a inconsistência entre o RDD em cache de um cache SQL e seu plano físico, o que causava um resultado incorreto.
- Corrigiu um problema que causava
- 8 de janeiro de 2019
- Corrigiu o problema que causava o erro
org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
. - [SPARK-26352] A reordenação de junção não deve alterar a ordem dos atributos de saída.
- [SPARK-26366] O ReplaceExceptWithFilter deve considerar NULL como Falso.
- Melhoria de estabilidade no Delta Lake.
- O Delta Lake está habilitado.
- Corrigiu o problema que causava falha no acesso ao Azure Data Lake Storage Gen2 quando a passagem de credenciais do Microsoft Entra ID está habilitada para o Azure Data Lake Storage Gen1.
- O cache de E/S do Databricks agora está habilitado para os tipos de instâncias de trabalho da série Ls para todos os tipos de preço.
- Corrigiu o problema que causava o erro
Databricks Runtime 5.0 (EoS)
Consulte Databricks Runtime 5.0 (EoS).
- 18 de junho de 2019
- Corrigiu um bug que afetava o uso de funções de ordem superior
- 7 de maio de 2019
- Corrigiu uma condição de corrida ao carregar um arquivo de soma de verificação de log do Delta
- Corrigiu a lógica de detecção de conflitos do Delta para não identificar "insert + overwrite" como operação "append" pura
- [SPARK-27494][SS] Valores/chaves nulos não funcionam na origem v2 do Kafka
- [SPARK-27454] [SPARK-27454][ML][SQL] O datasource da imagem do Spark falha ao encontrar imagens ilegais
- [SPARK-27160][SQL] Corrige o DecimalType ao criar filtros orc
- [SPARK-27338][CORE] Corrige o deadlock entre UnsafeExternalSorter e TaskMemoryManager
- 26 de março de 2019
- Evita literalmente a inserção de deslocamentos dependentes da plataforma no código gerado em todo o estágio
- Corrigiu um bug que afetava determinados PythonUDFs.
- 12 de março de 2019
- [SPARK-26864][SQL] A consulta pode retornar resultado incorreto quando a udf do Python é usada como uma condição left semi join.
- 26 de fevereiro de 2019
- Corrigiu um bug que afetava o servidor JDBC/ODBC.
- Exclui os arquivos ocultos ao compilar o HadoopRDD.
- 12 de fevereiro de 2019
- Corrigiu a inconsistência entre o RDD em cache de um cache SQL e seu plano físico, o que causava um resultado incorreto.
- [SPARK-26706][SQL] Corrige
illegalNumericPrecedence
para ByteType. - [SPARK-26709][SQL] O OptimizeMetadataOnlyQuery não manipula registros vazios corretamente.
- Corrigiu a inferência de restrição no operador do Window.
- Corrigiu um problema em que o protocolo de rede de nível inferior do Spark era violado ao enviar grandes mensagens de erro de RPC com criptografia habilitada (quando
spark.network.crypto.enabled
era definido como verdadeiro).
- 30 de janeiro de 2019
- Corrigiu um problema que causava
df.rdd.count()
com o UDT retornando uma resposta incorreta para determinados casos. - [SPARK-26267] Tenta novamente ao detectar deslocamentos incorretos do Kafka.
- Corrigiu um bug que afetava várias fontes de fluxo de arquivos em uma consulta de streaming.
- Corrigiu o StackOverflowError ao colocar a dica de junção de distorção na relação em cache.
- Corrigiu a inconsistência entre o RDD em cache de um cache SQL e seu plano físico, o que causava um resultado incorreto.
- Corrigiu um problema que causava
- 8 de janeiro de 2019
- Corrigiu o problema que causava o erro
org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
. - [SPARK-26352] A reordenação de junção não deve alterar a ordem dos atributos de saída.
- [SPARK-26366] O ReplaceExceptWithFilter deve considerar NULL como Falso.
- Melhoria de estabilidade no Delta Lake.
- O Delta Lake está habilitado.
- O cache de E/S do Databricks agora está habilitado para os tipos de instâncias de trabalho da série Ls para todos os tipos de preço.
- Corrigiu o problema que causava o erro
- 18 de dezembro de 2018
- [SPARK-26293] Exceção de conversão ao ter o UDF do Python na subconsulta
- Corrigiu um problema que afetava determinadas consultas usando Join e Limit.
- Credenciais editadas dos nomes RDD na interface do usuário do Spark
- 6 de dezembro de 2018
- Corrigiu um problema que causava o resultado incorreto da consulta ao usar orderBy seguido imediatamente por groupBy com a chave group-by como a parte principal da chave sort-by.
- Connector do Snowflake para Spark atualizado da versão 2.4.9.2-spark_2.4_pre_release para a versão 2.4.10.
- Ignora apenas os arquivos corrompidos após uma ou mais tentativas quando o sinalizador
spark.sql.files.ignoreCorruptFiles
ouspark.sql.files.ignoreMissingFiles
está habilitado. - Corrigiu um problema que afetava determinadas consultas de autojoin.
- Corrigiu um bug com o servidor thrift em que as sessões às vezes eram vazadas quando canceladas.
- [SPARK-26307] Corrigiu o CTAS quando se fazia INSERT em uma tabela particionada usando o SerDe do Hive.
- [SPARK-26147] As UDFs do Python na condição do join falham mesmo ao usar colunas de apenas um lado do join
- [SPARK-26211] Corrige o InSet para binário e struct e matriz com nulos.
- [SPARK-26181]O método
hasMinMaxStats
deColumnStatsMap
não está correto. - Corrigiu um problema que afetava a instalação do Python Wheels em ambientes sem acesso à internet.
- 20 de novembro de 2018
- Corrigiu um problema que fazia com que o notebook ficasse inacessível após o cancelamento de uma consulta de streaming.
- Corrigiu um problema que afetava determinadas consultas usando funções de janela.
- Corrigiu um problema que afetava o fluxo do Delta com várias alterações de esquema.
- Corrigiu um problema que afetava determinadas consultas de agregação com left semi/anti joins.
Databricks Runtime 4.3 (EoS)
Consulte Databricks Runtime 4.3 (EoS).
9 de abril de 2019
- [SPARK-26665][CORE] Corrige um bug em que o BlockTransferService.fetchBlockSync fica esperando para sempre.
- [SPARK-24669][SQL] Invalida tabelas no caso de SOLTAR BANCO DE DADOS EM CASCATA.
12 de março de 2019
- Corrigiu um bug que afetava a geração de código.
- Corrigiu um bug que afetava o Delta.
26 de fevereiro de 2019
- Corrigiu um bug que afetava o servidor JDBC/ODBC.
12 de fevereiro de 2019
- [SPARK-26709][SQL] O OptimizeMetadataOnlyQuery não manipula registros vazios corretamente.
- Exclui os arquivos ocultos ao compilar o HadoopRDD.
- Corrigiu a conversão de filtro do Parquet do predicado IN quando seu valor está vazio.
- Corrigiu um problema em que o protocolo de rede de nível inferior do Spark era violado ao enviar grandes mensagens de erro de RPC com criptografia habilitada (quando
spark.network.crypto.enabled
era definido como verdadeiro).
30 de janeiro de 2019
- Corrigiu um problema que causava
df.rdd.count()
com o UDT retornando uma resposta incorreta para determinados casos. - Corrigiu a inconsistência entre o RDD em cache de um cache SQL e seu plano físico, o que causava um resultado incorreto.
- Corrigiu um problema que causava
8 de janeiro de 2019
- Corrigiu o problema que causava o erro
org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
. - Credenciais editadas dos nomes RDD na interface do usuário do Spark
- [SPARK-26352] A reordenação de junção não deve alterar a ordem dos atributos de saída.
- [SPARK-26366] O ReplaceExceptWithFilter deve considerar NULL como Falso.
- O Delta Lake está habilitado.
- O cache de E/S do Databricks agora está habilitado para os tipos de instâncias de trabalho da série Ls para todos os tipos de preço.
- Corrigiu o problema que causava o erro
18 de dezembro de 2018
- [SPARK-25002] Avro: revisa o namespace do registro de saída.
- Corrigiu um problema que afetava determinadas consultas usando Join e Limit.
- [SPARK-26307] Corrigiu o CTAS quando se fazia INSERT em uma tabela particionada usando o SerDe do Hive.
- Ignora apenas os arquivos corrompidos após uma ou mais tentativas quando o sinalizador
spark.sql.files.ignoreCorruptFiles
ouspark.sql.files.ignoreMissingFiles
está habilitado. - [SPARK-26181]O método
hasMinMaxStats
deColumnStatsMap
não está correto. - Corrigiu um problema que afetava a instalação do Python Wheels em ambientes sem acesso à internet.
- Corrigiu um problema de desempenho no analisador de consulta.
- Corrigiu um problema no PySpark que causava falha nas ações de DataFrame com o erro "conexão recusada".
- Corrigiu um problema que afetava determinadas consultas de autojoin.
20 de novembro de 2018
- [SPARK-17916][SPARK-25241]Corrige a cadeia de caracteres vazia que está sendo analisada como nula quando o NullValue está definido.
- [SPARK-25387] Corrige o NPE causado por entrada inadequada de CSV.
- Corrigiu um problema que afetava determinadas consultas de agregação com left semi/anti joins.
6 de novembro de 2018
- [SPARK-25741] As URLs longas não são renderizadas corretamente na interface do usuário da Web.
- [SPARK-25714] Corrige a manipulação de NULL na regra do otimizador BooleanSimplification.
- Corrigiu um problema que afetava a limpeza de objetos temporários no conector do Synapse Analytics.
- [SPARK-25816] Corrige a resolução de atributo em extratores aninhados.
16 de outubro de 2018
- Corrigiu um bug que afetava a saída da execução
SHOW CREATE TABLE
em tabelas do Delta. - Corrigiu um bug que afetava a operação
Union
.
- Corrigiu um bug que afetava a saída da execução
25 de setembro de 2018
- [SPARK-25368][SQL] Inferência de restrição incorreta retorna resultado incorreto.
- [SPARK-25402][SQL] Tratamento do nulo em BooleanSimplification.
- Corrigiu
NotSerializableException
na fonte de dados Avro.
11 de setembro de 2018
- [SPARK-25214][SS] Corrige o problema da origem Kafka V2 retornar registros duplicados quando
failOnDataLoss=false
. - [SPARK-24987][SS] Corrige o vazamento do consumidor Kafka quando não há deslocamentos novos para articlePartition.
- A redução do filtro deve tratar o valor nulo corretamente.
- Melhoria de estabilidade do mecanismo de execução.
- [SPARK-25214][SS] Corrige o problema da origem Kafka V2 retornar registros duplicados quando
28 de Agosto de 2018
- Corrigiu um bug no comando Delete do Delta Lake que excluía incorretamente as linhas em que a condição avaliava como NULL.
- [SPARK-25142] Adiciona mensagens de erro quando o trabalho do Python não pode abrir o soquete no
_load_from_socket
.
23 de agosto de 2018
- [SPARK-23935]O mapEntry gera
org.codehaus.commons.compiler.CompileException
. - Corrigiu o problema do mapa com nulos no leitor do Parquet.
- [SPARK-25051][SQL] O FixNullability não deve parar no AnalysisBarrier.
- [SPARK-25081] Corrigiu um bug em que o ShuffleExternalSorter acessava uma página de memória liberada quando o despejo falhava ao alocar memória.
- Corrigiu uma interação entre o Databricks do Delta e o Pyspark que causava falhas de leitura transitórias.
- [SPARK-25084]O "distribuir por" em várias colunas (entre colchetes) pode levar a um problema codegen.
- [SPARK-25096] Afrouxa a nulidade se a conversão for permitir valor nulo à foça.
- Reduziu o número padrão de threads usadas pelo comando Optimize do Delta Lake, reduzindo a sobrecarga de memória e fazer commit mais rapidamente nos dados.
- [SPARK-25114] Corrige o RecordBinaryComparator quando a subtração entre duas palavras é divisível por Integer.MAX_VALUE.
- Corrigiu a edição do gerenciador de segredo quando o comando funciona parcialmente.
- [SPARK-23935]O mapEntry gera
Databricks Runtime 4.2 (EoS)
Consulte Databricks Runtime 4.2 (EoS).
26 de fevereiro de 2019
- Corrigiu um bug que afetava o servidor JDBC/ODBC.
12 de fevereiro de 2019
- [SPARK-26709][SQL] O OptimizeMetadataOnlyQuery não manipula registros vazios corretamente.
- Exclui os arquivos ocultos ao compilar o HadoopRDD.
- Corrigiu a conversão de filtro do Parquet do predicado IN quando seu valor está vazio.
- Corrigiu um problema em que o protocolo de rede de nível inferior do Spark era violado ao enviar grandes mensagens de erro de RPC com criptografia habilitada (quando
spark.network.crypto.enabled
era definido como verdadeiro).
30 de janeiro de 2019
- Corrigiu um problema que causava
df.rdd.count()
com o UDT retornando uma resposta incorreta para determinados casos.
- Corrigiu um problema que causava
8 de janeiro de 2019
- Corrigiu o problema que causava o erro
org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
. - Credenciais editadas dos nomes RDD na interface do usuário do Spark
- [SPARK-26352] A reordenação de junção não deve alterar a ordem dos atributos de saída.
- [SPARK-26366] O ReplaceExceptWithFilter deve considerar NULL como Falso.
- O Delta Lake está habilitado.
- O cache de E/S do Databricks agora está habilitado para os tipos de instâncias de trabalho da série Ls para todos os tipos de preço.
- Corrigiu o problema que causava o erro
18 de dezembro de 2018
- [SPARK-25002] Avro: revisa o namespace do registro de saída.
- Corrigiu um problema que afetava determinadas consultas usando Join e Limit.
- [SPARK-26307] Corrigiu o CTAS quando se fazia INSERT em uma tabela particionada usando o SerDe do Hive.
- Ignora apenas os arquivos corrompidos após uma ou mais tentativas quando o sinalizador
spark.sql.files.ignoreCorruptFiles
ouspark.sql.files.ignoreMissingFiles
está habilitado. - [SPARK-26181]O método
hasMinMaxStats
deColumnStatsMap
não está correto. - Corrigiu um problema que afetava a instalação do Python Wheels em ambientes sem acesso à internet.
- Corrigiu um problema de desempenho no analisador de consulta.
- Corrigiu um problema no PySpark que causava falha nas ações de DataFrame com o erro "conexão recusada".
- Corrigiu um problema que afetava determinadas consultas de autojoin.
20 de novembro de 2018
- [SPARK-17916][SPARK-25241]Corrige a cadeia de caracteres vazia que está sendo analisada como nula quando o NullValue está definido.
- Corrigiu um problema que afetava determinadas consultas de agregação com left semi/anti joins.
6 de novembro de 2018
- [SPARK-25741] As URLs longas não são renderizadas corretamente na interface do usuário da Web.
- [SPARK-25714] Corrige a manipulação de NULL na regra do otimizador BooleanSimplification.
16 de outubro de 2018
- Corrigiu um bug que afetava a saída da execução
SHOW CREATE TABLE
em tabelas do Delta. - Corrigiu um bug que afetava a operação
Union
.
- Corrigiu um bug que afetava a saída da execução
25 de setembro de 2018
- [SPARK-25368][SQL] Inferência de restrição incorreta retorna resultado incorreto.
- [SPARK-25402][SQL] Tratamento do nulo em BooleanSimplification.
- Corrigiu
NotSerializableException
na fonte de dados Avro.
11 de setembro de 2018
- [SPARK-25214][SS] Corrige o problema da origem Kafka V2 retornar registros duplicados quando
failOnDataLoss=false
. - [SPARK-24987][SS] Corrige o vazamento do consumidor Kafka quando não há deslocamentos novos para articlePartition.
- A redução do filtro deve tratar o valor nulo corretamente.
- [SPARK-25214][SS] Corrige o problema da origem Kafka V2 retornar registros duplicados quando
28 de Agosto de 2018
- Corrigiu um bug no comando Delete do Delta Lake que excluía incorretamente as linhas em que a condição avaliava como NULL.
23 de agosto de 2018
- Corrigiu o NoClassDefError para instantâneo do Delta
- [SPARK-23935]O mapEntry gera
org.codehaus.commons.compiler.CompileException
. - [SPARK-24957][SQL] A média com decimais seguido por agregação retorna resultado incorreto. Pode retornar resultados incorretos de AVERAGE. O CAST adicionado no operador Average será ignorado se o resultado de Divide for do mesmo tipo em que é convertido.
- [SPARK-25081] Corrigiu um bug em que o ShuffleExternalSorter acessava uma página de memória liberada quando o despejo falhava ao alocar memória.
- Corrigiu uma interação entre o Databricks do Delta e o Pyspark que causava falhas de leitura transitórias.
- [SPARK-25114] Corrige o RecordBinaryComparator quando a subtração entre duas palavras é divisível por Integer.MAX_VALUE.
- [SPARK-25084]O "distribuir por" em várias colunas (entre colchetes) pode levar a um problema codegen.
- [SPARK-24934][SQL] Inclui explicitamente na lista de permitidos, tipos com suporte em limites superiores/inferiores para remoção de partição na memória. Quando tipos de dados complexos são usados em filtros de consulta em dados armazenados em cache, o Spark sempre retorna um conjunto de resultados vazio. A remoção baseada em estatísticas em memória gera resultados incorretos, porque NULL está definido para limites superiores/inferiores para tipos complexos. A correção é não usar a remoção baseada em estatísticas em memória para tipos complexos.
- Corrigiu a edição do gerenciador de segredo quando o comando funciona parcialmente.
- Corrigiu o problema do mapa com nulos no leitor do Parquet.
2 de agosto de 2018
- API writeStream.table adicionada no Python.
- Corrigiu um problema que afetava o ponto de verificação do Delta.
- [SPARK-24867][SQL] Adiciona AnalysisBarrier a DataFrameWriter. O cache do SQL não está sendo utilizado ao usar o DataFrameWriter para gravar um DataFrame com UDF. Essa é uma regressão causada pelas alterações que fizemos no AnalysisBarrier, já que nem todas as regras do analisador são idempotentes.
- Corrigiu um problema que fazia com que o comando
mergeInto
produzisse resultados incorretos. - Melhorou a estabilidade ao acessar o Azure Data Lake Storage Gen1.
- [SPARK-24809] A serialização de LongHashedRelation no executor pode resultar em erro de dados.
- [SPARK-24878][SQL] Corrige a função reversa para o tipo matriz do tipo primitivo que contém nulos.
11 de julho de 2018
- Corrigiu um bug na execução da consulta que causava agregações em colunas decimais com diferentes precisões e retornava resultados incorretos em alguns casos.
- Corrigiu o bug
NullPointerException
que era lançado durante as operações de agregação avançadas, como agrupamento de conjuntos.
Databricks Runtime 4.1 ML (EoS)
Consulte Databricks Runtime 4.1 ML (EoS).
- 31 de julho de 2018
- O Azure Synapse Analytics foi adicionado ao ML Runtime 4,1
- Corrigiu um bug que causava resultados incorretos de consulta quando o nome de uma coluna de partição usado em um predicado diferia do caso dessa coluna no esquema da tabela.
- Corrigiu um bug que afetava o mecanismo de execução do Spark SQL.
- Corrigiu um bug que afetava a geração de código.
- Corrigiu um bug (
java.lang.NoClassDefFoundError
) que afetava o Delta Lake. - Melhorou o tratamento de erro no Delta Lake.
- Corrigiu um bug que causava dados incorretos ignorando as estatísticas a serem coletadas para colunas de cadeia de caracteres de 32 caracteres ou mais.
Databricks Runtime 4.1 (EoS)
Consulte Databricks Runtime 4.1 (EoS).
8 de janeiro de 2019
- [SPARK-26366] O ReplaceExceptWithFilter deve considerar NULL como Falso.
- O Delta Lake está habilitado.
18 de dezembro de 2018
- [SPARK-25002] Avro: revisa o namespace do registro de saída.
- Corrigiu um problema que afetava determinadas consultas usando Join e Limit.
- [SPARK-26307] Corrigiu o CTAS quando se fazia INSERT em uma tabela particionada usando o SerDe do Hive.
- Ignora apenas os arquivos corrompidos após uma ou mais tentativas quando o sinalizador
spark.sql.files.ignoreCorruptFiles
ouspark.sql.files.ignoreMissingFiles
está habilitado. - Corrigiu um problema que afetava a instalação do Python Wheels em ambientes sem acesso à internet.
- Corrigiu um problema no PySpark que causava falha nas ações de DataFrame com o erro "conexão recusada".
- Corrigiu um problema que afetava determinadas consultas de autojoin.
20 de novembro de 2018
- [SPARK-17916][SPARK-25241]Corrige a cadeia de caracteres vazia que está sendo analisada como nula quando o NullValue está definido.
- Corrigiu um problema que afetava determinadas consultas de agregação com left semi/anti joins.
6 de novembro de 2018
- [SPARK-25741] As URLs longas não são renderizadas corretamente na interface do usuário da Web.
- [SPARK-25714] Corrige a manipulação de NULL na regra do otimizador BooleanSimplification.
16 de outubro de 2018
- Corrigiu um bug que afetava a saída da execução
SHOW CREATE TABLE
em tabelas do Delta. - Corrigiu um bug que afetava a operação
Union
.
- Corrigiu um bug que afetava a saída da execução
25 de setembro de 2018
- [SPARK-25368][SQL] Inferência de restrição incorreta retorna resultado incorreto.
- [SPARK-25402][SQL] Tratamento do nulo em BooleanSimplification.
- Corrigiu
NotSerializableException
na fonte de dados Avro.
11 de setembro de 2018
- [SPARK-25214][SS] Corrige o problema da origem Kafka V2 retornar registros duplicados quando
failOnDataLoss=false
. - [SPARK-24987][SS] Corrige o vazamento do consumidor Kafka quando não há deslocamentos novos para articlePartition.
- A redução do filtro deve tratar o valor nulo corretamente.
- [SPARK-25214][SS] Corrige o problema da origem Kafka V2 retornar registros duplicados quando
28 de Agosto de 2018
- Corrigiu um bug no comando Delete do Delta Lake que excluía incorretamente as linhas em que a condição avaliava como NULL.
- [SPARK-25084]O "distribuir por" em várias colunas (entre colchetes) pode levar a um problema codegen.
- [SPARK-25114] Corrige o RecordBinaryComparator quando a subtração entre duas palavras é divisível por Integer.MAX_VALUE.
23 de agosto de 2018
- Corrigiu o NoClassDefError para instantâneo do Delta.
- [SPARK-24957][SQL] A média com decimais seguido por agregação retorna resultado incorreto. Pode retornar resultados incorretos de AVERAGE. O CAST adicionado no operador Average será ignorado se o resultado de Divide for do mesmo tipo em que é convertido.
- Corrigiu o problema do mapa com nulos no leitor do Parquet.
- [SPARK-24934][SQL] Inclui explicitamente na lista de permitidos, tipos com suporte em limites superiores/inferiores para remoção de partição na memória. Quando tipos de dados complexos são usados em filtros de consulta em dados armazenados em cache, o Spark sempre retorna um conjunto de resultados vazio. A remoção baseada em estatísticas em memória gera resultados incorretos, porque NULL está definido para limites superiores/inferiores para tipos complexos. A correção é não usar a remoção baseada em estatísticas em memória para tipos complexos.
- [SPARK-25081] Corrigiu um bug em que o ShuffleExternalSorter acessava uma página de memória liberada quando o despejo falhava ao alocar memória.
- Corrigiu uma interação entre o Databricks do Delta e o Pyspark que causava falhas de leitura transitórias.
- Corrigiu a edição do gerenciador de segredo quando o comando funciona parcialmente
2 de agosto de 2018
- [SPARK-24613][SQL] O cache com UDF não pode ser encontrado com caches dependentes subsequentes. Encapsula o plano lógico com um AnalysisBarrier para compilação do plano de execução no CacheManager, a fim de evitar o plano que está sendo analisado novamente. Isso também é uma regressão do Spark 2,3.
- Corrigiu um problema do conector do Synapse Analytics que está afetando a conversão do fuso horário para gravar dados DataType.
- Corrigiu um problema que afetava o ponto de verificação do Delta.
- Corrigiu um problema que fazia com que o comando
mergeInto
produzisse resultados incorretos. - [SPARK-24867][SQL] Adiciona AnalysisBarrier a DataFrameWriter. O cache do SQL não está sendo utilizado ao usar o DataFrameWriter para gravar um DataFrame com UDF. Essa é uma regressão causada pelas alterações que fizemos no AnalysisBarrier, já que nem todas as regras do analisador são idempotentes.
- [SPARK-24809] A serialização de LongHashedRelation no executor pode resultar em erro de dados.
11 de julho de 2018
- Corrigiu um bug na execução da consulta que causava agregações em colunas decimais com diferentes precisões e retornava resultados incorretos em alguns casos.
- Corrigiu o bug
NullPointerException
que era lançado durante as operações de agregação avançadas, como agrupamento de conjuntos.
28 de junho de 2018
- Corrigiu um bug que causava resultados incorretos de consulta quando o nome de uma coluna de partição usado em um predicado diferia do caso dessa coluna no esquema da tabela.
7 de junho de 2018
- Corrigiu um bug que afetava o mecanismo de execução do Spark SQL.
- Corrigiu um bug que afetava a geração de código.
- Corrigiu um bug (
java.lang.NoClassDefFoundError
) que afetava o Delta Lake. - Melhorou o tratamento de erro no Delta Lake.
17 de maio de 2018
- Corrigiu um bug que causava dados incorretos ignorando as estatísticas a serem coletadas para colunas de cadeia de caracteres de 32 caracteres ou mais.
Databricks Runtime 4.0 (EoS)
Consulte Databricks Runtime 4.0 (EoS).
6 de novembro de 2018
- [SPARK-25714] Corrige a manipulação de NULL na regra do otimizador BooleanSimplification.
16 de outubro de 2018
- Corrigiu um bug que afetava a operação
Union
.
- Corrigiu um bug que afetava a operação
25 de setembro de 2018
- [SPARK-25368][SQL] Inferência de restrição incorreta retorna resultado incorreto.
- [SPARK-25402][SQL] Tratamento do nulo em BooleanSimplification.
- Corrigiu
NotSerializableException
na fonte de dados Avro.
11 de setembro de 2018
- A redução do filtro deve tratar o valor nulo corretamente.
28 de Agosto de 2018
- Corrigiu um bug no comando Delete do Delta Lake que excluía incorretamente as linhas em que a condição avaliava como NULL.
23 de agosto de 2018
- Corrigiu o problema do mapa com nulos no leitor do Parquet.
- Corrigiu a edição do gerenciador de segredo quando o comando funciona parcialmente
- Corrigiu uma interação entre o Databricks do Delta e o Pyspark que causava falhas de leitura transitórias.
- [SPARK-25081] Corrigiu um bug em que o ShuffleExternalSorter acessava uma página de memória liberada quando o despejo falhava ao alocar memória.
- [SPARK-25114] Corrige o RecordBinaryComparator quando a subtração entre duas palavras é divisível por Integer.MAX_VALUE.
2 de agosto de 2018
- [SPARK-24452] Evita possível estouro na adição de inteiros ou múltiplos.
- [SPARK-24588] A junção de streaming deve exigir HashClusteredPartitioning de filhos.
- Corrigiu um problema que fazia com que o comando
mergeInto
produzisse resultados incorretos. - [SPARK-24867][SQL] Adiciona AnalysisBarrier a DataFrameWriter. O cache do SQL não está sendo utilizado ao usar o DataFrameWriter para gravar um DataFrame com UDF. Essa é uma regressão causada pelas alterações que fizemos no AnalysisBarrier, já que nem todas as regras do analisador são idempotentes.
- [SPARK-24809] A serialização de LongHashedRelation no executor pode resultar em erro de dados.
28 de junho de 2018
- Corrigiu um bug que causava resultados incorretos de consulta quando o nome de uma coluna de partição usado em um predicado diferia do caso dessa coluna no esquema da tabela.
7 de junho de 2018
- Corrigiu um bug que afetava o mecanismo de execução do Spark SQL.
- Melhorou o tratamento de erro no Delta Lake.
17 de maio de 2018
- Correções de bugs para o gerenciamento de segredos do Databricks.
- Melhorou a estabilidade na leitura dos dados armazenados no Azure Data Lake Store.
- Corrigiu um bug que afetava o cache RDD.
- Corrigiu um bug que afetava o Null-safe Equal no SQL do Spark.
24 de abril de 2018
- O SKD do Azure Data Lake Store foi atualizado da versão 2.0.11 para a 2.2.8 para melhorar a estabilidade de acesso ao Azure Data Lake Store.
- Corrigiu um bug que afetava a inserção de substituições em tabelas particionadas do Hive quando
spark.databricks.io.hive.fastwriter.enabled
erafalse
. - Corrigiu um problema de falha na serialização de tarefas.
- Melhorou a estabilidade do Delta Lake.
14 de março de 2018
- Impede atualizações desnecessárias de metadados ao gravar no Delta Lake.
- Corrigiu um problema causado por uma condição de corrida que, em raras circunstâncias, levava à perda de alguns arquivos de saída.
Databricks Runtime 3.5 LTS (EoS)
Consulte Databricks Runtime 3.5 LTS (EoS).
7 de novembro de 2019
- [SPARK-29743][SQL] A amostra deverá definir needCopyResult como verdadeiro se o needCopyResult do filho for verdadeiro
8 de outubro de 2019
- Alterações no lado do servidor para permitir que o driver ODBC do Simba Apache Spark se reconecte e continue após uma falha de conexão durante a busca de resultados (requer a versão 2.6.10 do driver do ODBC do Simba Apache Spark).
10 de setembro de 2019
- [SPARK-28699][SQL] Desabilita o uso de classificação de base para ShuffleExchangeExec no caso de repartição
9 de abril de 2019
- [SPARK-26665][CORE] Corrige um bug em que o BlockTransferService.fetchBlockSync fica esperando para sempre.
12 de fevereiro de 2019
- Corrigiu um problema em que o protocolo de rede de nível inferior do Spark era violado ao enviar grandes mensagens de erro de RPC com criptografia habilitada (quando
spark.network.crypto.enabled
era definido como verdadeiro).
- Corrigiu um problema em que o protocolo de rede de nível inferior do Spark era violado ao enviar grandes mensagens de erro de RPC com criptografia habilitada (quando
30 de janeiro de 2019
- Corrigiu um problema que causava
df.rdd.count()
com o UDT retornando uma resposta incorreta para determinados casos.
- Corrigiu um problema que causava
18 de dezembro de 2018
- Ignora apenas os arquivos corrompidos após uma ou mais tentativas quando o sinalizador
spark.sql.files.ignoreCorruptFiles
ouspark.sql.files.ignoreMissingFiles
está habilitado. - Corrigiu um problema que afetava determinadas consultas de autojoin.
- Ignora apenas os arquivos corrompidos após uma ou mais tentativas quando o sinalizador
20 de novembro de 2018
- [SPARK-25816] Corrigiu a resolução de atributo em extratores aninhados.
6 de novembro de 2018
- [SPARK-25714] Corrige a manipulação de NULL na regra do otimizador BooleanSimplification.
16 de outubro de 2018
- Corrigiu um bug que afetava a operação
Union
.
- Corrigiu um bug que afetava a operação
25 de setembro de 2018
- [SPARK-25402][SQL] Tratamento do nulo em BooleanSimplification.
- Corrigiu
NotSerializableException
na fonte de dados Avro.
11 de setembro de 2018
- A redução do filtro deve tratar o valor nulo corretamente.
28 de Agosto de 2018
- Corrigiu um bug no comando Delete do Delta Lake que excluía incorretamente as linhas em que a condição avaliava como NULL.
- [SPARK-25114] Corrige o RecordBinaryComparator quando a subtração entre duas palavras é divisível por Integer.MAX_VALUE.
23 de agosto de 2018
- [SPARK-24809] A serialização de LongHashedRelation no executor pode resultar em erro de dados.
- Corrigiu o problema do mapa com nulos no leitor do Parquet.
- [SPARK-25081] Corrigiu um bug em que o ShuffleExternalSorter acessava uma página de memória liberada quando o despejo falhava ao alocar memória.
- Corrigiu uma interação entre o Databricks do Delta e o Pyspark que causava falhas de leitura transitórias.
28 de junho de 2018
- Corrigiu um bug que causava resultados incorretos de consulta quando o nome de uma coluna de partição usado em um predicado diferia do caso dessa coluna no esquema da tabela.
28 de junho de 2018
- Corrigiu um bug que causava resultados incorretos de consulta quando o nome de uma coluna de partição usado em um predicado diferia do caso dessa coluna no esquema da tabela.
7 de junho de 2018
- Corrigiu um bug que afetava o mecanismo de execução do Spark SQL.
- Melhorou o tratamento de erro no Delta Lake.
17 de maio de 2018
- Melhorou a estabilidade na leitura dos dados armazenados no Azure Data Lake Store.
- Corrigiu um bug que afetava o cache RDD.
- Corrigiu um bug que afetava o Null-safe Equal no SQL do Spark.
- Corrigiu um bug que afetava determinadas agregações em consultas de streaming.
24 de abril de 2018
- O SKD do Azure Data Lake Store foi atualizado da versão 2.0.11 para a 2.2.8 para melhorar a estabilidade de acesso ao Azure Data Lake Store.
- Corrigiu um bug que afetava a inserção de substituições em tabelas particionadas do Hive quando
spark.databricks.io.hive.fastwriter.enabled
erafalse
. - Corrigiu um problema de falha na serialização de tarefas.
09 de março de 2018
- Corrigiu um problema causado por uma condição de corrida que, em raras circunstâncias, levava à perda de alguns arquivos de saída.
1º de março de 2018
- Aprimorou a eficiência no tratamento de fluxos que levam muito tempo para parar.
- Corrigiu um problema que afetava o preenchimento automático do Python.
- Foram aplicados patches de segurança do Ubuntu.
- Corrigiu um problema que afetava determinadas consultas usando UDFs do Python e funções de janela.
- Corrigiu um problema que afetava o uso de UDFs em um cluster com o controle de acesso de tabela habilitado.
29 de janeiro de 2018
- Corrigiu um problema que afetava a manipulação de tabelas armazenadas no Blob do Azure.
- Corrigiu a agregação após o dropDuplicates em DataFrame vazio.
Databricks Runtime 3.4 (EoS)
Consulte Databricks Runtime 3.4 (EoS).
7 de junho de 2018
- Corrigiu um bug que afetava o mecanismo de execução do Spark SQL.
- Melhorou o tratamento de erro no Delta Lake.
17 de maio de 2018
- Melhorou a estabilidade na leitura dos dados armazenados no Azure Data Lake Store.
- Corrigiu um bug que afetava o cache RDD.
- Corrigiu um bug que afetava o Null-safe Equal no SQL do Spark.
24 de abril de 2018
- Corrigiu um bug que afetava a inserção de substituições em tabelas particionadas do Hive quando
spark.databricks.io.hive.fastwriter.enabled
erafalse
.
- Corrigiu um bug que afetava a inserção de substituições em tabelas particionadas do Hive quando
09 de março de 2018
- Corrigiu um problema causado por uma condição de corrida que, em raras circunstâncias, levava à perda de alguns arquivos de saída.
13 de dezembro de 2017
- Corrigiu um problema que afetava o UDFs no Scala.
- Corrigiu um problema que afetava o uso do índice para ignorar dados em tabelas de fonte de dados armazenadas em caminhos não DBFS.
7 de dezembro de 2017
- Melhorou a estabilidade de embaralhamento.
Versões do Databricks Runtime sem suporte
Para as notas sobre a versão original, clique no link abaixo do subtítulo.