Compartilhar via


Atualizações de manutenção do Databricks Runtime

Este artigo lista as atualizações de manutenção para versões do Databricks Runtime com suporte. Para adicionar uma atualização de manutenção a um cluster existente, reinicie o cluster. Para obter as atualizações de manutenção em versões do Databricks Runtime sem suporte, confira Atualizações de manutenção do Databricks Runtime (arquivado).

Observação

As versões são disponibilizadas em fases. Sua conta do Azure Databricks pode não ser atualizada por uns dias após a data de lançamento inicial.

Versões do Databricks Runtime

Atualizações de manutenção por versão:

Databricks Runtime 15.4

Consulte Databricks Runtime 15.4 LTS.

  • 24 de julho de 2024
    • A saída de uma instrução SHOW CREATE TABLE agora inclui todos os filtros de linha ou máscaras de coluna definidos em uma exibição materializada ou tabela de streaming. Veja SHOW CREATE TABLE. Para saber mais sobre filtros de linha e máscaras de coluna, consulte Filtrar dados de tabela confidenciais usando filtros de linha e máscaras de coluna.
    • Na computação configurada com o modo de acesso compartilhado, as leituras e gravações em lote do Kafka agora têm as mesmas limitações impostas que as documentadas para o Streaming Estruturado. Confira Limitações de streaming e requisitos para o modo de acesso compartilhado do Catálogo do Unity.
    • [SPARK-48941][SPARK-48970] Correções do gravador / leitor de ML do backport
    • [SPARK-49074][SQL] Corrigir variante com df.cache()
    • [SPARK-49263][CONNECT] cliente Python do Spark Connect: lidar consistentemente com as opções de leitor do Dataframe booleano
    • [SPARK-48955][SQL] Incluir alterações do ArrayCompact na versão 15.4
    • [SPARK-48937][SQL] Adicionar suporte à ordenação para as expressões de cadeia de caracteres StringToMap e Mask
    • [SPARK-48929] Corrigir erro interno de exibição e limpar o contexto de exceção do analisador
    • [SPARK-49125][SQL] Permitir nomes de coluna duplicados na gravação de CSV
    • [SPARK-48934][SS] Tipos de data e hora do Python convertidos incorretamente para definir o tempo limite em applyInPandasWithState
    • [SPARK-48843] Evitar loop infinito com BindParameters
    • [SPARK-48981] Correção do método simpleString de StringType no pyspark para ordenações
    • [SPARK-49065][SQL] A troca de base em formatadores/analisadores legados deve ser compatível com os fusos horários padrão não JVM
    • [SPARK-48896] [SPARK-48909] [SPARK-48883] Correções do gravador de ML do Spark de backport
    • [SPARK-48725][SQL] Integrar CollationAwareUTF8String.lowerCaseCodePoints em expressões de cadeia de caracteres
    • [SPARK-48978][SQL] Implementar o caminho rápido ASCII no suporte de agrupamento para UTF8_LCASE
    • [SPARK-49047][PYTHON] [CONNECT] Truncar a mensagem para registro em log
    • [SPARK-49146][SS] Mover erros de asserção relacionados à falta de marca d'água em consultas de streaming no modo de acréscimo para a estrutura de erros
    • [SPARK-48977][SQL] Otimizar a pesquisa da cadeia de caracteres na ordenação UTF8_LCASE
    • [SPARK-48889][SS] testStream para descarregar os repositórios de estado antes de terminar
    • [SPARK-48463] Fazer com que o StringIndexer dê suporte a colunas de entrada aninhadas
    • [SPARK-48954] try_mod() substitui try_remainder()
    • Atualizações de segurança do sistema operacional.

Databricks Runtime 15.3

Consulte Databricks Runtime 15.3.

  • 10 de setembro de 2024
    • [SPARK-49263][CONNECT] cliente Python do Spark Connect: lidar consistentemente com as opções de leitor do Dataframe booleano
    • [SPARK-49056][SQL] ErrorClassesJsonReader não lida com nulo corretamente
    • [SPARK-48862] [PYTHON][CONNECT] Evitar chamar _proto_to_string quando o nível INFO não estiver habilitado
    • [SPARK-49146][SS] Mover erros de declaração relacionados à falta de marca d'água em consultas de streaming no modo de acréscimo para a estrutura de erros
  • 20 de agosto de 2024
    • [SPARK-48941][SPARK-48970] Correções do gravador / leitor de ML do backport
    • [SPARK-48706][PYTHON] O UDF do Python em funções de ordem superior não deve gerar erro interno
    • [SPARK-48954] try_mod() substitui try_remainder()
    • [SPARK-48597] [SQL] Introduzir um marcador para a propriedade isStreaming na representação de texto do plano lógico
    • [SPARK-49065][SQL] A troca de base em formatadores/analisadores legados deve ser compatível com os fusos horários padrão não JVM
    • [SPARK-49047][PYTHON][CONNECT] Truncar a mensagem para registro em log
    • [SPARK-48740][SQL] Detectar o erro de especificação da janela ausente antecipadamente
  • 7 de agosto de 2024
    • [Alteração interruptiva] No Databricks Runtime 15.3 e superior, chamar qualquer função definida pelo usuário (UDF) do Python, função agregada definida pelo usuário (UDAF) ou função de tabela definida pelo usuário (UDTF) que usa um tipo VARIANT como argumento ou valor de retorno gera uma exceção. Essa alteração é feita para evitar problemas que possam ocorrer devido a um valor inválido retornado por uma dessas funções. Para saber mais sobre o tipo VARIANT, consulte usar VARIANTs para armazenar dados semiestruturados.
    • Na computação sem servidor para notebooks e trabalhos, o modo SQL ANSI é habilitado por padrão. Consulte Parâmetros de configuração do Spark com suporte.
    • Na computação configurada com o modo de acesso compartilhado, as leituras e gravações em lote do Kafka agora têm as mesmas limitações impostas que as documentadas para o Streaming Estruturado. Confira Limitações de streaming e requisitos para o modo de acesso compartilhado do Catálogo do Unity.
    • A saída de uma instrução SHOW CREATE TABLE agora inclui todos os filtros de linha ou máscaras de coluna definidos em uma exibição materializada ou em uma tabela de streaming. Veja SHOW CREATE TABLE. Para saber mais sobre filtros de linha e máscaras de coluna, consulte Filtrar dados de tabela confidenciais usando filtros de linha e máscaras de coluna.
    • [SPARK-46957][CORE] Os arquivos de ordem aleatória migrados descomissionados devem fazer a limpeza no executor
    • [SPARK-48648][PYTHON][CONNECT] Tornar SparkConnectClient.tags corretamente threadlocal
    • [SPARK-48896] [SPARK-48909] [SPARK-48883] Correções do gravador de ML do Spark de backport
    • [SPARK-48713] [SQL] Adicionar verificação de intervalo de índice para UnsafeRow.pointTo quando baseObject for uma matriz de bytes
    • [SPARK-48834] [SQL] Desabilitar a entrada/saída de variantes para UDFs, UDTFs e UDAFs escalares em python durante a compilação de consultas
    • [SPARK-48934][SS] Tipos de data e hora do Python convertidos incorretamente para definir o tempo limite em applyInPandasWithState
    • [SPARK-48705][PYTHON] Usar explicitamente worker_main quando iniciar com pyspark
    • [SPARK-48544][SQL] Reduzir a pressão de memória dos BitSets TreeNode vazios
    • [SPARK-48889][SS] testStream para descarregar os repositórios de estado antes de terminar
    • [SPARK-49054][SQL] O valor padrão da coluna deve ser compatível com as funções current_*
    • [SPARK-48653][PYTHON] Corrigir as referências de classe de erro das fonte de dados Python inválidas
    • [SPARK-48463] Tornar o StringIndexer compatível com as colunas de entrada aninhadas
    • [SPARK-48810] [CONNECT] A API Session stop() deve ser idempotente e não falhar se a sessão já tiver sido fechada pelo servidor
    • [SPARK-48873][SQL] Usar UnsafeRow no analisador JSON.
    • Atualizações de segurança do sistema operacional.
  • 11 de julho de 2024
    • (Alteração de comportamento) Os DataFrames armazenados em cache em relação às fontes da tabela Delta agora são invalidados se a tabela de origem for substituída. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use .checkpoint() para persistir um estado de tabela durante todo o tempo de vida de um DataFrame.
    • O Driver JDBC do Snowflake foi atualizado para a versão 3.16.1.
    • Esta versão inclui uma correção para um problema que impediu a exibição correta da guia Ambiente de Interface do Usuário do Spark durante a execução nos Serviços de Contêiner do Databricks.
    • Para ignorar partições inválidas ao ler dados, fontes de dados baseadas em arquivo, como Parquet, ORC, CSV ou JSON, podem definir a opção de fonte de dados ignoreInvalidPartitionPaths como true. Por exemplo: spark.read.format(“parquet”).option(“ignoreInvalidPartitionPaths”, “true”).load(…)`. Também é possível usar a configuração do SQL spark.sql.files.ignoreInvalidPartitionPaths. No entanto, a opção de fonte de dados tem precedência sobre a configuração do SQL. Essa configuração é false por padrão.
    • [SPARK-48100][SQL] Corrigir problemas ao ignorar campos de estrutura aninhada não selecionados no esquema
    • [SPARK-47463][SQL] Usar V2Predicate para encapsular a expressão com o tipo de retorno booliano
    • [SPARK-48292][CORE] Reverter [SPARK-39195][SQL] O Spark OutputCommitCoordinator deve anular o estágio quando o arquivo confirmado não for consistente com o status da tarefa
    • [SPARK-48475][PYTHON] Otimizar _get_jvm_function no PySpark.
    • [SPARK-48286] Corrigir a análise de coluna com a expressão padrão existente – Adicionar erro de usuário
    • [SPARK-48481][SQL][SS] Não aplicar OptimizeOneRowPlan em relação a um Dataset de streaming
    • Reverter “[SPARK-47406][SQL] Manipular TIMESTAMP e DATETIME no MYSQLDialect”
    • [SPARK-48383][SS] Gerar erro melhor para partições incompatíveis na opção startOffset no Kafka
    • [SPARK-48503][14.3-15.3][SQL] Corrigir subconsultas escalares inválidas com agrupar por em colunas não equivalentes que eram incorretamente permitidas
    • [SPARK-48445][SQL] Não embutir UDFs com filhos caros
    • [SPARK-48252][SQL] Atualizar CommonExpressionRef quando necessário
    • [SPARK-48273][master][SQL] Corrigir a regravação tardia de PlanWithUnresolvedIdentifier
    • [SPARK-48566][PYTHON] Corrigir bug em que os índices de partição estão incorretos quando UDTF analyze() usa tanto select quanto partitionColumns
    • [SPARK-48556][SQL] Corrigir a mensagem de erro incorreta apontando para UNSUPPORTED_GROUPING_EXPRESSION
    • Atualizações de segurança do sistema operacional.

Databricks Runtime 15.2

Consulte Databricks Runtime 15.2.

  • 10 de setembro de 2024
    • [SPARK-49056][SQL] ErrorClassesJsonReader não lida com nulo corretamente
    • [SPARK-48597][SQL] Introduzir um marcador para a propriedade isStreaming na representação de texto do plano lógico
    • [SPARK-48862] [PYTHON][CONNECT] Evitar chamar _proto_to_string quando o nível INFO não estiver habilitado
    • [SPARK-49263][CONNECT] cliente Python do Spark Connect: lidar consistentemente com as opções de leitor do Dataframe booleano
    • [SPARK-49146][SS] Mover erros de declaração relacionados à falta de marca d'água em consultas de streaming no modo de acréscimo para a estrutura de erros
  • 20 de agosto de 2024
    • [SPARK-48941][SPARK-48970] Correções do gravador / leitor de ML do backport
    • [SPARK-48050][SS] Registrar em log o plano lógico no início da consulta
    • [SPARK-48706][PYTHON] O UDF do Python em funções de ordem superior não deve gerar erro interno
    • [SPARK-48740][SQL] Detectar o erro de especificação da janela ausente antecipadamente
    • [SPARK-49065][SQL] A troca de base em formatadores/analisadores legados deve ser compatível com os fusos horários padrão não JVM
    • [SPARK-49047][PYTHON][CONNECT] Truncar a mensagem para registro em log
  • 7 de agosto de 2024
  • 11 de julho de 2024
    • (Alteração de comportamento) Os DataFrames armazenados em cache em relação às fontes da tabela Delta agora são invalidados se a tabela de origem for substituída. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use .checkpoint() para persistir um estado de tabela durante todo o tempo de vida de um DataFrame.
    • O Driver JDBC do Snowflake foi atualizado para a versão 3.16.1.
    • Esta versão inclui uma correção para um problema que impediu a exibição correta da guia Ambiente de Interface do Usuário do Spark durante a execução nos Serviços de Contêiner do Databricks.
    • Em notebooks e trabalhos sem servidor, o modo SQL ANSI será habilitado por padrão e dará suporte a nomes curtos
    • Para ignorar partições inválidas ao ler dados, fontes de dados baseadas em arquivo, como Parquet, ORC, CSV ou JSON, podem definir a opção de fonte de dados ignoreInvalidPartitionPaths como true. Por exemplo: spark.read.format(“parquet”).option(“ignoreInvalidPartitionPaths”, “true”).load(…)`. Também é possível usar a configuração do SQL spark.sql.files.ignoreInvalidPartitionPaths. No entanto, a opção de fonte de dados tem precedência sobre a configuração do SQL. Essa configuração é false por padrão.
    • [SPARK-48273][SQL] Corrigir a regravação tardia de PlanWithUnresolvedIdentifier
    • [SPARK-48292][CORE] Reverter [SPARK-39195][SQL] O Spark OutputCommitCoordinator deve anular o estágio quando o arquivo confirmado não for consistente com o status da tarefa
    • [SPARK-48100][SQL] Corrigir problemas ao ignorar campos de estrutura aninhada não selecionados no esquema
    • [SPARK-48286] Corrigir a análise de coluna com a expressão padrão existente – Adicionar erro de usuário
    • [SPARK-48294][SQL] Gerenciar as letras minúsculas em nestedTypeMissingElementTypeError
    • [SPARK-48556][SQL] Corrigir a mensagem de erro incorreta apontando para UNSUPPORTED_GROUPING_EXPRESSION
    • [SPARK-48648][PYTHON][CONNECT] Tornar SparkConnectClient.tags corretamente threadlocal
    • [SPARK-48503][SQL] Corrigir subconsultas escalares inválidas com agrupar por em colunas não equivalentes que eram incorretamente permitidas
    • [SPARK-48252][SQL] Atualizar CommonExpressionRef quando necessário
    • [SPARK-48475][PYTHON] Otimizar _get_jvm_function no PySpark.
    • [SPARK-48566][PYTHON] Corrigir bug em que os índices de partição estão incorretos quando UDTF analyze() usa tanto select quanto partitionColumns
    • [SPARK-48481][SQL][SS] Não aplicar OptimizeOneRowPlan em relação a um Dataset de streaming
    • [SPARK-47463][SQL] Usar V2Predicate para encapsular a expressão com o tipo de retorno booliano
    • [SPARK-48383][SS] Gerar erro melhor para partições incompatíveis na opção startOffset no Kafka
    • [SPARK-48445][SQL] Não embutir UDFs com filhos caros
    • Atualizações de segurança do sistema operacional.
  • 17 de junho de 2024
    • applyInPandasWithState() está disponível em clusters compartilhados.
    • Corrige um bug em que a otimização da janela de classificação usando o Photon TopK manipulava incorretamente partições com structs.
    • Correção de um bug na função try_divide() em que entradas contendo decimais resultaram em exceções inesperadas.
    • [SPARK-48197][SQL] Evitar erro de asserção para a função lambda inválida
    • [SPARK-48276][PYTHON][CONNECT] Adicionar o método __repr__ ausente para SQLExpression
    • [SPARK-48014][SQL] Alterar o erro makeFromJava em EvaluatePython para um erro voltado para o usuário
    • [SPARK-48016][SQL] Corrigir um bug na função try_divide quando tiver decimais
    • [SPARK-47986][CONNECT][PYTHON] Não é possível criar uma nova sessão quando a sessão padrão é fechada pelo servidor
    • [SPARK-48173][SQL] CheckAnalysis deve ver o plano de consulta inteiro
    • [SPARK-48056][CONNECT][PYTHON] Executar novamente o plano se um erro de SESSION_NOT_FOUND for gerado e nenhuma resposta parcial tiver sido recebida
    • [SPARK-48172][SQL] Corrigir problemas de escape em backport JDBCDialects para 15.2
    • [SPARK-48105][SS] Corrigir a condição de corrida entre o descarregamento do repositório de estado e o instantâneo
    • [SPARK-48288] Adicionar o tipo de dados de origem para a expressão de conversão do conector
    • [SPARK-48310][PYTHON][CONNECT] As propriedades armazenadas em cache devem retornar cópias
    • [SPARK-48277] Aprimorar a mensagem de erro para ErrorClassesJsonReader.getErrorMessage
    • [SPARK-47986][CONNECT][PYTHON] Não é possível criar uma nova sessão quando a sessão padrão é fechada pelo servidor
    • Reverter “[SPARK-47406][SQL] Manipular TIMESTAMP e DATETIME no MYSQLDialect”
    • [SPARK-47994][SQL] Corrigir um bug com o pushdown do filtro de coluna CASE WHEN no SQLServer
    • [SPARK-47764][CORE][SQL] Limpar dependências de embaralhamento com base em ShuffleCleanupMode
    • [SPARK-47921][CONNECT] Corrigir a criação de ExecuteJobTag no ExecuteHolder
    • [SPARK-48010][SQL] Evitar chamadas repetidas para conf.resolver em resolveExpression
    • [SPARK-48146][SQL] Corrigir a função de agregação na declaração With expression child
    • [SPARK-48180][SQL] Aprimorar o erro quando a chamada UDTF com o arg TABLE esquecer os parênteses em torno de várias exprs PARTITION/ORDER BY
    • Atualizações de segurança do sistema operacional.

Databricks Runtime 15.1

Consulte Databricks Runtime 15.1.

  • 10 de setembro de 2024
    • [SPARK-49263][CONNECT] cliente Python do Spark Connect: lidar consistentemente com as opções de leitor do Dataframe booleano
    • [SPARK-49056][SQL] ErrorClassesJsonReader não lida com nulo corretamente
    • [SPARK-48862] [PYTHON][CONNECT] Evitar chamar _proto_to_string quando o nível INFO não estiver habilitado
    • [SPARK-49146][SS] Mover erros de declaração relacionados à falta de marca d'água em consultas de streaming no modo de acréscimo para a estrutura de erros
  • 20 de agosto de 2024
    • [SPARK-48941][SPARK-48970] Correções do gravador / leitor de ML do backport
    • [SPARK-48050][SS] Registrar em log o plano lógico no início da consulta
    • [SPARK-48706][PYTHON] O UDF do Python em funções de ordem superior não deve gerar erro interno
    • [SPARK-48597][SQL] Introduzir um marcador para a propriedade isStreaming na representação de texto do plano lógico
    • [SPARK-49065][SQL] A troca de base em formatadores/analisadores legados deve ser compatível com os fusos horários padrão não JVM
    • [SPARK-49047][PYTHON][CONNECT] Truncar a mensagem para registro em log
    • [SPARK-48740][SQL] Detectar o erro de especificação da janela ausente antecipadamente
  • 7 de agosto de 2024
  • 11 de julho de 2024
    • (Alteração de comportamento) Os DataFrames armazenados em cache em relação às fontes da tabela Delta agora são invalidados se a tabela de origem for substituída. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use .checkpoint() para persistir um estado de tabela durante todo o tempo de vida de um DataFrame.
    • O Driver JDBC do Snowflake foi atualizado para a versão 3.16.1.
    • Esta versão inclui uma correção para um problema que impediu a exibição correta da guia Ambiente de Interface do Usuário do Spark durante a execução nos Serviços de Contêiner do Databricks.
    • Na computação sem servidor para notebooks e trabalhos, o modo SQL ANSI é habilitado por padrão. Consulte Parâmetros de configuração do Spark com suporte.
    • Para ignorar partições inválidas ao ler dados, fontes de dados baseadas em arquivo, como Parquet, ORC, CSV ou JSON, podem definir a opção de fonte de dados ignoreInvalidPartitionPaths como true. Por exemplo: spark.read.format(“parquet”).option(“ignoreInvalidPartitionPaths”, “true”).load(…)`. Também é possível usar a configuração do SQL spark.sql.files.ignoreInvalidPartitionPaths. No entanto, a opção de fonte de dados tem precedência sobre a configuração do SQL. Essa configuração é false por padrão.
    • [SPARK-48383][SS] Gerar erro melhor para partições incompatíveis na opção startOffset no Kafka
    • [SPARK-48481][SQL][SS] Não aplicar OptimizeOneRowPlan em relação a um Dataset de streaming
    • [SPARK-48100][SQL] Corrigir problemas ao ignorar campos de estrutura aninhada não selecionados no esquema
    • [SPARK-47463][SQL] Usar V2Predicate para encapsular a expressão com o tipo de retorno booliano
    • [SPARK-48445][SQL] Não embutir UDFs com filhos caros
    • [SPARK-48292][CORE] Reverter [SPARK-39195][SQL] O Spark OutputCommitCoordinator deve anular o estágio quando o arquivo confirmado não for consistente com o status da tarefa
    • [SPARK-48566][PYTHON] Corrigir bug em que os índices de partição estão incorretos quando UDTF analyze() usa tanto select quanto partitionColumns
    • [SPARK-48648][PYTHON][CONNECT] Tornar SparkConnectClient.tags corretamente threadlocal
    • [SPARK-48503][SQL] Corrigir subconsultas escalares inválidas com agrupar por em colunas não equivalentes que eram incorretamente permitidas
    • [SPARK-48252][SQL] Atualizar CommonExpressionRef quando necessário
    • [SPARK-48475][PYTHON] Otimizar _get_jvm_function no PySpark.
    • [SPARK-48294][SQL] Gerenciar as letras minúsculas em nestedTypeMissingElementTypeError
    • [SPARK-48286] Corrigir a análise de coluna com a expressão padrão existente – Adicionar erro de usuário
    • [SPARK-47309][SQL] XML: Adicionar testes de inferência de esquema para marcas de valor
    • [SPARK-47309][SQL][XML] Adicionar testes unitários de inferência de esquema
    • [SPARK-48273][SQL] Corrigir a regravação tardia de PlanWithUnresolvedIdentifier
    • Atualizações de segurança do sistema operacional.
  • 17 de junho de 2024
    • applyInPandasWithState() está disponível em clusters compartilhados.
    • Corrige um bug em que a otimização da janela de classificação usando o Photon TopK manipulava incorretamente partições com structs.
    • [SPARK-48310][PYTHON][CONNECT] As propriedades armazenadas em cache devem retornar cópias
    • [SPARK-48276][PYTHON][CONNECT] Adicionar o método __repr__ ausente para SQLExpression
    • [SPARK-48277] Aprimorar a mensagem de erro para ErrorClassesJsonReader.getErrorMessage
    • [SPARK-47764][CORE][SQL] Limpar dependências de embaralhamento com base em ShuffleCleanupMode
    • Atualizações de segurança do sistema operacional.
  • 21 de maio de 2024
    • Correção de um bug na função try_divide() em que entradas contendo decimais resultaram em exceções inesperadas.
    • [SPARK-48173][SQL] CheckAnalysis deve ver o plano de consulta inteiro
    • [SPARK-48016][SQL] Corrigir um bug na função try_divide quando tiver decimais
    • [SPARK-48105][SS] Corrigir a condição de corrida entre o descarregamento do repositório de estado e o instantâneo
    • [SPARK-48197][SQL] Evitar erro de asserção para a função lambda inválida
    • [SPARK-48180][SQL] Aprimorar o erro quando a chamada UDTF com o arg TABLE esquecer os parênteses em torno de várias exprs PARTITION/ORDER BY
    • [SPARK-48014][SQL] Alterar o erro makeFromJava em EvaluatePython para um erro voltado para o usuário
    • [SPARK-48056][CONNECT][PYTHON] Executar novamente o plano se um erro de SESSION_NOT_FOUND for gerado e nenhuma resposta parcial tiver sido recebida
    • [SPARK-48146][SQL] Corrigir a função de agregação na declaração With expression child
    • [SPARK-47994][SQL] Corrigir um bug com o pushdown do filtro de coluna CASE WHEN no SQLServer
    • Atualizações de segurança do sistema operacional.
  • 09 de maio de 2024
    • [SPARK-47543][CONNECT][PYTHON] Inferir dict como MapType do Pandas DataFrame para permitir a criação de DataFrame
    • [SPARK-47739][SQL] Registrar tipo de avro lógico
    • [SPARK-48044][PYTHON][CONNECT] Armazenar em cache DataFrame.isStreaming
    • [SPARK-47855][CONNECT] Adicionar spark.sql.execution.arrow.pyspark.fallback.enabled na lista sem suporte
    • [SPARK-48010][SQL] Evitar chamadas repetidas para conf.resolver em resolveExpression
    • [SPARK-47941] [SS] [Connect] Propagar erros de inicialização de trabalho de ForeachBatch para usuários do PySpark
    • [SPARK-47819][CONNECT][Cherry-pick-15.0] Usar o retorno de chamada assíncrono para limpeza de execução
    • [SPARK-47956][SQL] Verificação de sanidade para referência LCA não resolvida
    • [SPARK-47839][SQL] Corrigir bug de agregação em RewriteWithExpression
    • [SPARK-48018][SS] Corrigir groupId nulo causando erro de param ausente ao lançar KafkaException.couldNotReadOffsetRange
    • [SPARK-47371] [SQL] XML: Ignorar marcas de linha encontradas em CDATA
    • [SPARK-47907][SQL] Inserir negação sob uma configuração
    • [SPARK-47895][SQL] group by all deve ser idempotente
    • [SPARK-47973][CORE] Registrar site de chamada no SparkContext.stop() e posterior no SparkContext.assertNotStopped()
    • [SPARK-47986][CONNECT][PYTHON] Não é possível criar uma nova sessão quando a sessão padrão é fechada pelo servidor
    • Atualizações de segurança do sistema operacional.

Databricks Runtime 14.3

Confira Databricks Runtime 14.3 LTS.

  • 10 de setembro de 2024
    • [SPARK-49146][SS] Mover erros de declaração relacionados à falta de marca d'água em consultas de streaming no modo de acréscimo para a estrutura de erros
    • [SPARK-48862] [PYTHON][CONNECT] Evitar chamar _proto_to_string quando o nível INFO não estiver habilitado
    • [SPARK-49263][CONNECT] cliente Python do Spark Connect: lidar consistentemente com as opções de leitor do Dataframe booleano
  • 20 de agosto de 2024
    • [SPARK-48941][SPARK-48970] Correções do gravador / leitor de ML do backport
    • [SPARK-48706][PYTHON] O UDF do Python em funções de ordem superior não deve gerar erro interno
    • [SPARK-49056][SQL] ErrorClassesJsonReader não lida com nulo corretamente
    • [SPARK-48597][SQL] Introduzir um marcador para a propriedade isStreaming na representação de texto do plano lógico
    • [SPARK-49065][SQL] A troca de base em formatadores/analisadores legados deve ser compatível com os fusos horários padrão não JVM
    • [SPARK-48934][SS] Tipos de data e hora do Python convertidos incorretamente para definir o tempo limite em applyInPandasWithState
  • 7 de agosto de 2024
  • 11 de julho de 2024
    • (Alteração de comportamento) Os DataFrames armazenados em cache em relação às fontes da tabela Delta agora são invalidados se a tabela de origem for substituída. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use .checkpoint() para persistir um estado de tabela durante todo o tempo de vida de um DataFrame.
    • O Driver JDBC do Snowflake foi atualizado para a versão 3.16.1.
    • Esta versão inclui uma correção para um problema que impediu a exibição correta da guia Ambiente de Interface do Usuário do Spark durante a execução nos Serviços de Contêiner do Databricks.
    • Na computação sem servidor para notebooks e trabalhos, o modo SQL ANSI é habilitado por padrão. Consulte Parâmetros de configuração do Spark com suporte.
    • Para ignorar partições inválidas ao ler dados, fontes de dados baseadas em arquivo, como Parquet, ORC, CSV ou JSON, podem definir a opção de fonte de dados ignoreInvalidPartitionPaths como true. Por exemplo: spark.read.format(“parquet”).option(“ignoreInvalidPartitionPaths”, “true”).load(…). Também é possível usar a configuração do SQL spark.sql.files.ignoreInvalidPartitionPaths. No entanto, a opção de fonte de dados tem precedência sobre a configuração do SQL. Essa configuração é false por padrão.
    • [SPARK-48648][PYTHON][CONNECT] Tornar SparkConnectClient.tags corretamente threadlocal
    • [SPARK-48445][SQL] Não embutir UDFs com filhos caros
    • [SPARK-48481][SQL][SS] Não aplicar OptimizeOneRowPlan em relação a um Dataset de streaming
    • [SPARK-48383][SS] Gerar erro melhor para partições incompatíveis na opção startOffset no Kafka
    • [SPARK-48503][SQL] Corrigir subconsultas escalares inválidas com agrupar por em colunas não equivalentes que eram incorretamente permitidas
    • [SPARK-48100][SQL] Corrigir problemas ao ignorar campos de estrutura aninhada não selecionados no esquema
    • [SPARK-48273][SQL] Corrigir a regravação tardia de PlanWithUnresolvedIdentifier
    • [SPARK-48252][SQL] Atualizar CommonExpressionRef quando necessário
    • [SPARK-48475][PYTHON] Otimizar _get_jvm_function no PySpark.
    • [SPARK-48292][CORE] Reverter [SPARK-39195][SQL] O Spark OutputCommitCoordinator deve anular o estágio quando o arquivo confirmado não for consistente com o status da tarefa
    • Atualizações de segurança do sistema operacional.
  • 17 de junho de 2024
    • applyInPandasWithState() está disponível em clusters compartilhados.
    • Corrige um bug em que a otimização da janela de classificação usando o Photon TopK manipulava incorretamente partições com structs.
    • [SPARK-48310][PYTHON][CONNECT] As propriedades armazenadas em cache devem retornar cópias
    • [SPARK-48276][PYTHON][CONNECT] Adicionar o método __repr__ ausente para SQLExpression
    • [SPARK-48294][SQL] Gerenciar as letras minúsculas em nestedTypeMissingElementTypeError
    • Atualizações de segurança do sistema operacional.
  • 21 de maio de 2024
    • (Alteração de comportamento) agora há suporte para dbutils.widgets.getAll() para obter todos os valores de widget em um notebook.
    • Correção de um bug na função try_divide() em que entradas contendo decimais resultaram em exceções inesperadas.
    • [SPARK-48056][CONNECT][PYTHON] Executar novamente o plano se um erro de SESSION_NOT_FOUND for gerado e nenhuma resposta parcial tiver sido recebida
    • [SPARK-48146][SQL] Corrigir a função de agregação na declaração With expression child
    • [SPARK-47986][CONNECT][PYTHON] Não é possível criar uma nova sessão quando a sessão padrão é fechada pelo servidor
    • [SPARK-48180][SQL] Aprimorar o erro quando a chamada UDTF com o arg TABLE esquecer os parênteses em torno de várias exprs PARTITION/ORDER BY
    • [SPARK-48016][SQL] Corrigir um bug na função try_divide quando tiver decimais
    • [SPARK-48197][SQL] Evitar erro de asserção para a função lambda inválida
    • [SPARK-47994][SQL] Corrigir um bug com o pushdown do filtro de coluna CASE WHEN no SQLServer
    • [SPARK-48173][SQL] CheckAnalysis deve ver o plano de consulta inteiro
    • [SPARK-48105][SS] Corrigir a condição de corrida entre o descarregamento do repositório de estado e o instantâneo
    • Atualizações de segurança do sistema operacional.
  • 09 de maio de 2024
    • (Alteração de comportamento) os tipos UDF applyInPandas e mapInPandas agora têm suporte na computação do modo de acesso compartilhado executando o Databricks Runtime 14.3 e superior.
    • [SPARK-47739][SQL] Registrar tipo de avro lógico
    • [SPARK-47941] [SS] [Connect] Propagar erros de inicialização de trabalho de ForeachBatch para usuários do PySpark
    • [SPARK-48010][SQL] Evitar chamadas repetidas para conf.resolver em resolveExpression
    • [SPARK-48044][PYTHON][CONNECT] Armazenar em cache DataFrame.isStreaming
    • [SPARK-47956][SQL] Verificação de sanidade para referência LCA não resolvida
    • [SPARK-47543][CONNECT][PYTHON] Inferir dict como Mapype do Pandas DataFrame para permitir a criação de DataFrame
    • [SPARK-47819][CONNECT][Cherry-pick-14.3] Usar o retorno de chamada assíncrono para limpeza de execução
    • [SPARK-47764][CORE][SQL] Limpar dependências de embaralhamento com base em ShuffleCleanupMode
    • [SPARK-48018][SS] Corrigir groupId nulo causando erro de param ausente ao lançar KafkaException.couldNotReadOffsetRange
    • [SPARK-47839][SQL] Corrigir bug de agregação em RewriteWithExpression
    • [SPARK-47371] [SQL] XML: Ignorar marcas de linha encontradas em CDATA
    • [SPARK-47895][SQL] group by all deve ser idempotente
    • [SPARK-47973][CORE] Registrar site de chamada no SparkContext.stop() e posterior no SparkContext.assertNotStopped()
    • Atualizações de segurança do sistema operacional.
  • 25 de abril de 2024
    • [SPARK-47543][CONNECT] [PYTHON] Inferindo dict como MapType do DataFrame do Pandas para permitir a criação do DataFrame
    • [SPARK-47694][CONNECT] Tornar o tamanho máximo da mensagem configurável no lado do cliente
    • [SPARK-47664][PYTHON] [CONNECT] [Cherry-pick-14.3] Validar o nome da coluna com o esquema armazenado em cache
    • [SPARK-47862][PYTHON] [CONNECT] Corrigir a geração de arquivos proto
    • Reverter “[SPARK-47543][CONNECT][PYTHON] Inferindo dict como MapType do DataFrame do Pandas para permitir a criação do DataFrame”
    • [SPARK-47704][SQL] A análise JSON falha com “java.lang.ClassCastException” quando spark.sql.json.enablePartialResults está habilitado
    • [SPARK-47812][CONNECT] Suporte à serialização do SparkSession para a função de trabalho ForEachBatch
    • [SPARK-47818][CONNECT] [Cherry-pick-14.3] Introduza o cache de planos no SparkConnectPlanner para melhorar o desempenho das solicitações de Análise
    • [SPARK-47828][CONNECT] [PYTHON] DataFrameWriterV2.overwrite falha com plano inválido
    • Atualizações de segurança do sistema operacional.
  • 11 de abril de 2024
    • (Alteração do comportamento) Para garantir um comportamento consistente entre os tipos de computação, os UDFs do PySpark em clusters compartilhados agora correspondem ao comportamento dos UDFs em clusters sem isolamento e atribuídos. Esta atualização inclui as seguintes alterações que podem interromper o código existente:
      • Os UDFs com um tipo de retorno string não convertem mais implicitamente valores não string em valores string. Anteriormente, os UDFs com um tipo de retorno str encapsulavam o valor de retorno com uma função str(), independentemente do tipo de dados real do valor retornado.
      • Os UDFs com tipos de retorno timestamp não aplicam mais implicitamente uma conversão para timestamp com timezone.
      • As configurações de cluster do Spark spark.databricks.sql.externalUDF.* não se aplicam mais aos UDFs do PySpark em clusters compartilhados.
      • A configuração spark.databricks.safespark.externalUDF.plan.limit do cluster do Spark não afeta mais os UDFs do PySpark, removendo a limitação da Visualização Pública de 5 UDFs por consulta para os UDFs do PySpark.
      • A configuração de cluster do Spark spark.databricks.safespark.sandbox.size.default.mib não se aplica mais aos UDFs do PySpark em clusters compartilhados. Em vez disso, é usada a memória disponível no sistema. Para limitar a memória dos UDFs do PySpark, use spark.databricks.pyspark.udf.isolation.memoryLimit com um valor mínimo de 100m.
    • Agora há suporte para o tipo de dados TimestampNTZ como uma coluna de agrupamento com agrupamento líquido. Confira Usar clustering líquido para tabelas Delta.
    • [SPARK-47511][SQL] Canonizar expressões WITH reatribuindo IDs
    • [SPARK-47509][SQL] Bloquear expressões de subconsulta em funções lambda e de ordem superior
    • [SPARK-46990][SQL] Corrigir o carregamento de arquivos Avro vazios emitidos por hubs de eventos
    • [SPARK-47638][PS][CONNECT] Ignorar a validação do nome da coluna no PS
    • Atualizações de segurança do sistema operacional.
  • 14 de março de 2024
    • [SPARK-47135][SS] Implementar classes de erro para exceções de perda de dados do Kafka
    • [SPARK-47176][SQL] Ter uma função auxiliar ResolveAllExpressionsUpWithPruning
    • [SPARK-47145][SQL] Passar o identificador de tabela para o executável de verificação da fonte de dados de linha para a estratégia V2.
    • [SPARK-47044][SQL] Adicionar uma consulta executada para fontes de dados externas JDBC para explicar a saída
    • [SPARK-47167][SQL] Adicionar classe concreta para relação anônima JDBC
    • [SPARK-47070] Corrigir agregação inválida após uma reescrita de subconsulta
    • [SPARK-47121][CORE] Evitar RejectedExecutionExceptions durante o desligamento de StandaloneSchedulerBackend
    • Reverter “[SPARK-46861][CORE] Evitar Deadlock no DAGScheduler”
    • [SPARK-47125][SQL] Retornar nulo se Univocity nunca dispara a análise
    • [SPARK-46999][SQL] ExpressionWithUnresolvedIdentifier deve incluir outras expressões na árvore de expressão
    • [SPARK-47129][CONNECT][SQL] Fazer o cache ResolveRelations conectar ao plano corretamente
    • [SPARK-47241][SQL] Corrigir problemas de ordem de regras para o ExtractGenerator
    • [SPARK-47035][SS][CONNECT] Protocolo para ouvinte do lado do cliente
    • Atualizações de segurança do sistema operacional.
  • 29 de fevereiro de 2024
    • Correção de um problema em que o uso de uma coleção local como origem em um comando MERGE poderia resultar na métrica de operação numSourceRows informando o dobro do número correto de linhas.
    • A criação de um esquema com um local definido agora exige que o usuário tenha privilégios SELECT e MODIFY em ANY FILE.
    • [SPARK-47071][SQL] With expression embutida se contiver expressão especial
    • [SPARK-47059][SQL] Anexar contexto de erro para o comando ALTER COLUMN v1
    • [SPARK-46993][SQL] Corrigir dobragem constante para variáveis de sessão
    • Atualizações de segurança do sistema operacional.
  • 3 de janeiro de 2024
    • [SPARK-46933] Adicionar a métrica de tempo de execução da consulta aos conectores que usam JDBCRDD.
    • [SPARK-46763] Corrigir a falha de declaração em ReplaceDeduplicateWithAggregate para atributos duplicados.
    • [SPARK-46954] XML: Encapsular InputStreamReader com BufferedReader.
    • [SPARK-46655] Ignorar a captura de contexto da consulta em métodos DataFrame.
    • [SPARK-44815] Armazenar df.schema em cache para evitar RPC extra.
    • [SPARK-46952] XML: Limitar o tamanho do registro corrompido.
    • [SPARK-46794] Remover subconsultas de restrições LogicalRDD.
    • [SPARK-46736] Manter o campo de mensagem vazio no conector protobuf.
    • [SPARK-45182] Ignorar a conclusão da tarefa do estágio antigo depois de tentar novamente o estágio indeterminado pai, conforme determinado pela soma de verificação.
    • [SPARK-46414] Usar prependBaseUri para renderizar importações JavaScript.
    • [SPARK-46383] Reduzir o uso de heap do driver reduzindo o tempo de vida de TaskInfo.accumulables().
    • [SPARK-46861] Evitar deadlock no DAGScheduler.
    • [SPARK-46954] XML: Otimizar a pesquisa de índice de esquema.
    • [SPARK-46676] dropDuplicatesWithinWatermark não deve falhar na canonicalização do plano.
    • [SPARK-46644] Alterar adicionar e mesclar no SQLMetric para usar isZero.
    • [SPARK-46731] Gerenciar a instância do provedor do repositório de estado por fonte de dados de estado – leitor.
    • [SPARK-46677] Correção da resolução dataframe["*"].
    • [SPARK-46610] Criar tabela deve gerar exceção se nenhum valor para uma chave for especificado nas opções.
    • [SPARK-46941] Não é possível inserir o nó de limite do grupo de janelas para a computação top-k se contiver SizeBasedWindowFunction.
    • [SPARK-45433] Corrige a inferência de esquema CSV/JSON quando os carimbos de data/hora não correspondem ao timestampFormat especificado.
    • [SPARK-46930] Adicionar suporte para um prefixo personalizado para campos de tipo de união no Avro.
    • [SPARK-46227] Backport para 14.3.
    • [SPARK-46822] Respeitar spark.sql.legacy.charVarcharAsString ao converter o tipo jdbc para o tipo de catalisador no jdbc.
    • Atualizações de segurança do sistema operacional.

Databricks Runtime 14.2

Consulte Databricks Runtime 14.2.

  • 10 de setembro de 2024
    • [SPARK-49263][CONNECT] cliente Python do Spark Connect: lidar consistentemente com as opções de leitor do Dataframe booleano
    • [SPARK-49146][SS] Mover erros de declaração relacionados à falta de marca d'água em consultas de streaming no modo de acréscimo para a estrutura de erros
    • [SPARK-49056][SQL] ErrorClassesJsonReader não lida com nulo corretamente
  • 20 de agosto de 2024
    • [SPARK-48050][SS] Registrar em log o plano lógico no início da consulta
    • [SPARK-48597][SQL] Introduzir um marcador para a propriedade isStreaming na representação de texto do plano lógico
    • [SPARK-49065][SQL] A troca de base em formatadores/analisadores legados deve ser compatível com os fusos horários padrão não JVM
    • [SPARK-48706][PYTHON] O UDF do Python em funções de ordem superior não deve gerar erro interno
  • 7 de agosto de 2024
    • Esta versão inclui uma correção de bug para as classes ColumnVector e ColumnarArray na interface Java do Spark. Antes dessa correção, um ArrayIndexOutOfBoundsException pode ser lançado ou um dado incorreto retornado quando uma instância de uma dessas classes continha valores null.
    • A saída de uma instrução SHOW CREATE TABLE agora inclui todos os filtros de linha ou máscaras de coluna definidos em uma exibição materializada ou em uma tabela de streaming. Veja SHOW CREATE TABLE. Para saber mais sobre filtros de linha e máscaras de coluna, consulte Filtrar dados confidenciais da tabela com filtros de linha e máscaras de coluna.
    • [SPARK-47202]][PYTHON] Corrigir datetimes de quebra de digitação com tzinfo
    • [SPARK-48705][PYTHON] Usar explicitamente worker_main quando iniciar com pyspark
    • Atualizações de segurança do sistema operacional.
  • 11 de julho de 2024
    • (Alteração de comportamento) Os DataFrames armazenados em cache em relação às fontes da tabela Delta agora são invalidados se a tabela de origem for substituída. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use .checkpoint() para persistir um estado de tabela durante todo o tempo de vida de um DataFrame.
    • O Driver JDBC do Snowflake foi atualizado para a versão 3.16.1
    • Esta versão inclui uma correção para um problema que impediu a exibição correta da guia Ambiente de Interface do Usuário do Spark durante a execução nos Serviços de Contêiner do Databricks.
    • [SPARK-48292][CORE] Reverter [SPARK-39195][SQL] O Spark OutputCommitCoordinator deve anular o estágio quando o arquivo confirmado não for consistente com o status da tarefa
    • [SPARK-48273][SQL] Corrigir a regravação tardia de PlanWithUnresolvedIdentifier
    • [SPARK-48503][SQL] Corrigir subconsultas escalares inválidas com agrupar por em colunas não equivalentes que eram incorretamente permitidas
    • [SPARK-48481][SQL][SS] Não aplicar OptimizeOneRowPlan em relação a um Dataset de streaming
    • [SPARK-48475][PYTHON] Otimizar _get_jvm_function no PySpark.
    • [SPARK-48100][SQL] Corrigir problemas ao ignorar campos de estrutura aninhada não selecionados no esquema
    • [SPARK-48445][SQL] Não embutir UDFs com filhos caros
    • [SPARK-48383][SS] Gerar erro melhor para partições incompatíveis na opção startOffset no Kafka
    • Atualizações de segurança do sistema operacional.
  • 17 de junho de 2024
    • Corrige um bug em que a otimização da janela de classificação usando o Photon TopK manipulava incorretamente partições com structs.
    • [SPARK-48276][PYTHON][CONNECT] Adicionar o método __repr__ ausente para SQLExpression
    • [SPARK-48277] Aprimorar a mensagem de erro para ErrorClassesJsonReader.getErrorMessage
    • Atualizações de segurança do sistema operacional.
  • 21 de maio de 2024
    • (Alteração de comportamento) agora há suporte para dbutils.widgets.getAll() para obter todos os valores de widget em um notebook.
    • [SPARK-48173][SQL] CheckAnalysis deve ver o plano de consulta inteiro
    • [SPARK-48197][SQL] Evitar erro de asserção para a função lambda inválida
    • [SPARK-47994][SQL] Corrigir um bug com o pushdown do filtro de coluna CASE WHEN no SQLServer
    • [SPARK-48105][SS] Corrigir a condição de corrida entre o descarregamento do repositório de estado e o instantâneo
    • Atualizações de segurança do sistema operacional.
  • 09 de maio de 2024
    • [SPARK-48044][PYTHON][CONNECT] Armazenar em cache DataFrame.isStreaming
    • [SPARK-47956][SQL] Verificação de sanidade para referência LCA não resolvida
    • [SPARK-47371] [SQL] XML: Ignorar marcas de linha encontradas em CDATA
    • [SPARK-47812][CONNECT] Suporte à serialização do SparkSession para a função de trabalho ForEachBatch
    • [SPARK-47895][SQL] group by all deve ser idempotente
    • [SPARK-47973][CORE] Registrar site de chamada no SparkContext.stop() e posterior no SparkContext.assertNotStopped()
    • Atualizações de segurança do sistema operacional.
  • 25 de abril de 2024
    • [SPARK-47704][SQL] A análise JSON falha com “java.lang.ClassCastException” quando spark.sql.json.enablePartialResults está habilitado
    • [SPARK-47828][CONNECT] [PYTHON] DataFrameWriterV2.overwrite falha com plano inválido
    • Atualizações de segurança do sistema operacional.
  • 11 de abril de 2024
    • [SPARK-47309][SQL][XML] Adicionar testes unitários de inferência de esquema
    • [SPARK-46990][SQL] Corrigir o carregamento de arquivos Avro vazios emitidos por hubs de eventos
    • [SPARK-47638][PS][CONNECT] Ignorar a validação do nome da coluna no PS
    • [SPARK-47509][SQL] Bloquear expressões de subconsulta em funções lambda e de ordem superior
    • [SPARK-38708][SQL] Atualizar o cliente Metastore do Hive para a versão 3.1.3 do Hive 3.1
    • Atualizações de segurança do sistema operacional.
  • 1º de abril de 2024
    • [SPARK-47322][PYTHON][CONNECT] Tornar o tratamento de duplicação de nomes de colunas withColumnsRenamed consistente com withColumnRenamed
    • [SPARK-47385] Corrigir codificadores de tuplas com entradas de Opção.
    • [SPARK-47070] Corrigir agregação inválida após uma reescrita de subconsulta
    • [SPARK-47218] [SQL] XML: Alterado o SchemaOfXml para falhar no modo DROPMALFORMED
    • [SPARK-47305][SQL] Corrigir o PruneFilters para marcar corretamente o sinalizador isStreaming do LocalRelation quando o plano tiver lote e streaming
    • [SPARK-47218][SQL] XML: Ignorar marcas de linha comentadas no tokenizador XML
    • Reverter “[SPARK-46861][CORE] Evitar Deadlock no DAGScheduler”
    • [SPARK-47300][SQL] quoteIfNeeded deve citar o identificador que começa com dígitos
    • [SPARK-47368][SQL] Remover a verificação da configuração inferTimestampNTZ no ParquetRowConverter
    • Atualizações de segurança do sistema operacional.
  • 14 de março de 2024
    • [SPARK-47035][SS][CONNECT] Protocolo para ouvinte do lado do cliente
    • [SPARK-47121][CORE] Evitar RejectedExecutionExceptions durante o desligamento de StandaloneSchedulerBackend
    • [SPARK-47145][SQL] Passar o identificador de tabela para o executável de verificação da fonte de dados de linha para a estratégia V2.
    • [SPARK-47176][SQL] Ter uma função auxiliar ResolveAllExpressionsUpWithPruning
    • [SPARK-47167][SQL] Adicionar classe concreta para relação anônima JDBC
    • [SPARK-47129][CONNECT][SQL] Fazer o cache ResolveRelations conectar ao plano corretamente
    • [SPARK-47044][SQL] Adicionar uma consulta executada para fontes de dados externas JDBC para explicar a saída
    • Atualizações de segurança do sistema operacional.
  • 29 de fevereiro de 2024
    • Correção de um problema em que o uso de uma coleção local como origem em um comando MERGE poderia resultar na métrica de operação numSourceRows informando o dobro do número correto de linhas.
    • A criação de um esquema com um local definido agora exige que o usuário tenha privilégios SELECT e MODIFY em ANY FILE.
    • Agora, é possível ingerir arquivos XML usando Autoloader, read_files, COPY INTO, DLT e DBSQL. O suporte a arquivos XML pode inferir e evoluir automaticamente o esquema, resgatar dados com incompatibilidades de tipo, validar XML usando XSD e dar suporte a expressões SQL, como from_xml, schema_of_xml e to_xml. Consulte Suporte a arquivos XML para obter mais detalhes. Se você já estava usando o pacote externo spark-xml, consulte aqui para obter diretrizes de migração.
    • [SPARK-46954][SQL] XML: Encapsular InputStreamReader com BufferedReader
    • [SPARK-46630][SQL] XML: Validar o nome do elemento XML na gravação
    • [SPARK-46248][SQL] XML: Suporte para opções ignoreCorruptFiles e ignoreMissingFiles
    • [SPARK-46954][SQL] XML: Otimizar a pesquisa de índice de esquema
    • [SPARK-47059][SQL] Anexar contexto de erro para o comando ALTER COLUMN v1
    • [SPARK-46993][SQL] Corrigir dobragem constante para variáveis de sessão
  • 08 de fevereiro de 2024
    • Não há suporte para consultas de feed de dados alterados (CDF) em exibições materializadas do Catálogo do Unity e a tentativa de executar uma consulta CDF com uma exibição materializada do Catálogo do Unity retorna um erro. As tabelas de streaming do Catálogo do Unity dão suporte para consultas CDF em tabelas não APPLY CHANGES no Databricks Runtime 14.1 e posterior. Não há suporte para consultas CDF com tabelas de streaming do Catálogo do Unity no Databricks Runtime 14.0 e versões anteriores.
    • [SPARK-46930] Adicionar suporte para um prefixo personalizado para campos de tipo de união no Avro.
    • [SPARK-46822] Respeitar spark.sql.legacy.charVarcharAsString ao converter o tipo jdbc para o tipo de catalisador no jdbc.
    • [SPARK-46952] XML: Limitar o tamanho do registro corrompido.
    • [SPARK-46644] Alterar adicionar e mesclar no SQLMetric para usar isZero.
    • [SPARK-46861] Evitar deadlock no DAGScheduler.
    • [SPARK-46794] Remover subconsultas de restrições LogicalRDD.
    • [SPARK-46941] Não é possível inserir o nó de limite do grupo de janelas para a computação top-k se contiver SizeBasedWindowFunction.
    • [SPARK-46933] Adicionar a métrica de tempo de execução da consulta aos conectores que usam JDBCRDD.
    • Atualizações de segurança do sistema operacional.
  • 31 de janeiro de 2024
    • [SPARK-46382] XML: Atualizar documento para ignoreSurroundingSpaces.
    • [SPARK-46382] XML: Capturar valores intercalados entre elementos.
    • [SPARK-46763] Corrigir a falha de declaração em ReplaceDeduplicateWithAggregate para atributos duplicados.
    • Reverter [SPARK-46769] Refinar inferência de esquema relacionada ao carimbo de data/hora.
    • [SPARK-46677] Correção da resolução dataframe["*"].
    • [SPARK-46382] XML: ignoreSurroundingSpaces padrão como true.
    • [SPARK-46633] Corrigir o leitor do Avro para manipular blocos de comprimento zero.
    • [SPARK-45964] Remover o acessador sql privado no pacote XML e JSON no pacote do catalisador.
    • [SPARK-46581] Atualizar comentário sobre isZero no AccumulatorV2.
    • [SPARK-45912] Aprimoramento da API XSDToSchema: Alterar para a API HDFS para acessibilidade de armazenamento em nuvem.
    • [SPARK-45182] Ignorar a conclusão da tarefa do estágio antigo depois de tentar novamente o estágio indeterminado pai, conforme determinado pela soma de verificação.
    • [SPARK-46660] ReattachExecute solicita atualizações de atividade do SessionHolder.
    • [SPARK-46610] Criar tabela deve gerar exceção se nenhum valor para uma chave for especificado nas opções.
    • [SPARK-46383] Reduzir o uso de heap do driver reduzindo o tempo de vida de TaskInfo.accumulables().
    • [SPARK-46769] Refinar a inferência de esquema relacionada ao carimbo de data/hora.
    • [SPARK-46684] Corrigir CoGroup.applyInPandas/Arrow para passar argumentos corretamente.
    • [SPARK-46676] dropDuplicatesWithinWatermark não deve falhar na canonicalização do plano.
    • [SPARK-45962] Remover treatEmptyValuesAsNulls e usar a opção nullValue em XML.
    • [SPARK-46541] Corrigir a referência de coluna ambígua na autojunção.
    • [SPARK-46599] XML: Usar TypeCoercion.findTightestCommonType para verificar a compatibilidade.
    • Atualizações de segurança do sistema operacional.
  • 17 de janeiro de 2024
    • O nó shuffle do plano explicativo retornado por uma consulta do Photon é atualizado para adicionar o sinalizador causedBroadcastJoinBuildOOM=true quando ocorre um erro de falta de memória durante a operação de shuffle que faz parte de uma junção de transmissão.
    • Para evitar maior latência ao se comunicar pelo TLSv1.3, essa versão de manutenção inclui um patch para a instalação do JDK 8 para corrigir o bug JDK-8293562 do JDK.
    • [SPARK-46261] DataFrame.withColumnsRenamed deve manter a ordenação de dicionário/mapa.
    • [SPARK-46538] Corrige o problema de referência de coluna ambígua em ALSModel.transform.
    • [SPARK-46145] O spark.catalog.listTables não gera exceção quando a tabela ou exibição não é encontrada.
    • [SPARK-46484] Faz com que as funções auxiliares resolveOperators mantenham a ID do plano.
    • [SPARK-46394] Corrige problemas do spark.catalog.listDatabases() em esquemas com caracteres especiais quando spark.sql.legacy.keepCommandOutputSchema está definido como “true”.
    • [SPARK-46609] Evita a explosão exponencial em PartitioningPreservingUnaryExecNode.
    • [SPARK-46446] Desabilita as subconsultas com OFFSET correlacionado para corrigir o bug de correção.
    • [SPARK-46152] XML: Adiciona suporte a DecimalType na inferência de esquema XML.
    • [SPARK-46602] Propaga allowExisting na criação da exibição quando a exibição/tabela não existir.
    • [SPARK-45814] Faz com que ArrowConverters.createEmptyArrowBatch chame close() para evitar perda de memória.
    • [SPARK-46058] Adiciona um sinalizador separado para privateKeyPassword.
    • [SPARK-46132] Suporte a senha de chave para chaves JKS para SSL de RPC.
    • [SPARK-46600] Move o código compartilhado entre SqlConf e SqlApiConf para SqlApiConfHelper.
    • [SPARK-46478] Reverte SPARK-43049 para usar oracle varchar(255) para cadeia de caracteres.
    • [SPARK-46417] Não gera falha ao chamar hive.getTable quando throwException for false.
    • [SPARK-46153] XML: Adiciona suporte ao TimestampNTZType.
    • [SPARK-46056][BACKPORT] Corrigir NPE na leitura vetorial do Parquet com o valor padrão byteArrayDecimalType.
    • [SPARK-46466] O leitor vetorizado de Parquet nunca deve trocar base para o carimbo de data/hora ntz.
    • [SPARK-46260] DataFrame.withColumnsRenamed deve respeitar a ordem do dicionário.
    • [SPARK-46036] Remove a classe de erro da função raise_error.
    • [SPARK-46294] Limpa a semântica de inicialização versus valor zero.
    • [SPARK-46173] Ignora a chamada trimAll durante a análise de data.
    • [SPARK-46250] Estabiliza test_parity_listener.
    • [SPARK-46587] XML: Corrige a conversão de inteiros grandes XSD.
    • [SPARK-46396] A inferência do carimbo de data/hora não deve gerar exceção.
    • [SPARK-46241] Corrige a rotina de tratamento de erros para que ela não caia em recursão infinita.
    • [SPARK-46355] XML: Fecha InputStreamReader na conclusão da leitura.
    • [SPARK-46370] Corrige o bug ao consultar uma tabela depois de alterar os padrões de coluna.
    • [SPARK-46265] As declarações na RPC AddArtifact tornam o cliente de conexão incompatível com clusters mais antigos.
    • [SPARK-46308] Proibir o tratamento de erros recursivos.
    • [SPARK-46337] Faz CTESubstitution reter o PLAN_ID_TAG.
  • 14 de dezembro de 2023
    • [SPARK-46141] Altera o padrão de spark.sql.legacy.ctePrecedencePolicy para CORRECTED.
    • [SPARK-45730] Torna o ReloadingX509TrustManagerSuite menos sujeito a flutuações.
    • [SPARK-45852] Lida normalmente com o erro de recursão durante o registro em log.
    • [SPARK-45808] Melhora o tratamento de erros para exceções de SQL.
    • [SPARK-45920] “group by ordinal” deve ser idempotente.
    • Reverte "[SPARK-45649] Unifica a estrutura de preparação para OffsetWindowFunctionFrame".
    • [SPARK-45733] Suporte a várias políticas de repetição.
    • [SPARK-45509] Corrigido comportamento de referência da coluna df para o Spark Connect.
    • [SPARK-45655] Permite expressões não determinísticas dentro de AggregateFunctions em CollectMetrics.
    • [SPARK-45905] O tipo menos comum entre tipos decimais deve reter dígitos integrais primeiro.
    • [SPARK-45136] Aprimora o ClosureCleaner com suporte a Ammonite.
    • [SPARK-46255] Suporte para conversão de tipo complexo –> para cadeia de caracteres.
    • [SPARK-45859] Torna os objetos UDF em ml.functions lentos.
    • [SPARK-46028] Faz com que Column.__getitem__ aceite a coluna de entrada.
    • [SPARK-45798] ID da sessão do lado do servidor Assert.
    • [SPARK-45892] Validação do plano do otimizador de refatoração para desconectar validateSchemaOutput e validateExprIdUniqueness.
    • [SPARK-45844] Implementar a não diferenciação de maiúsculas de minúsculas para XML.
    • [SPARK-45770] Introduz o plano DataFrameDropColumns para Dataframe.drop.
    • [SPARK-44790] XML: Implementação to_xml e associações para Python, conectividade e SQL.
    • [SPARK-45851] Dá suporte a várias políticas no cliente scala.
    • Atualizações de segurança do sistema operacional.
  • 29 de novembro de 2023
    • Instalou um novo pacote pyarrow-hotfix para corrigir uma vulnerabilidade do PyArrow RCE.
    • Corrigido um problema em que os sublinhados com escape em operações de getColumns provenientes de clientes JDBC ou ODBC eram interpretados incorretamente como curingas.
    • [SPARK-45730] Restrições de tempo aprimoradas para ReloadingX509TrustManagerSuite.
    • [SPARK-45852] O cliente do Python para Spark Connect agora captura erros de recursão durante a conversão de texto.
    • [SPARK-45808] Melhor tratamento de erro para exceções SQL.
    • [SPARK-45920] O ordinal GROUP BY não substitui o ordinal.
    • Reverter [SPARK-45649].
    • [SPARK-45733] Suporte adicionado para várias políticas de repetição.
    • [SPARK-45509] Comportamento de referência da coluna df corrigido para o Spark Connect.
    • [SPARK-45655] Permitir expressões não determinísticas dentro de AggregateFunctions em CollectMetrics.
    • [SPARK-45905] O tipo menos comum entre tipos decimais agora retém dígitos integrais primeiro.
    • [SPARK-45136] Aprimorar ClosureCleaner com suporte ao Ammonite.
    • [SPARK-45859] Tornou objetos UDF em ml.functions lentos.
    • [SPARK-46028] Column.__getitem__ aceita colunas de entrada.
    • [SPARK-45798] ID da sessão do lado do servidor Assert.
    • [SPARK-45892] Validação do plano do otimizador de refatoração para desconectar validateSchemaOutput e validateExprIdUniqueness.
    • [SPARK-45844] Implementar a não diferenciação de maiúsculas de minúsculas para XML.
    • [SPARK-45770] Resolução de coluna corrigida com DataFrameDropColumns para Dataframe.drop.
    • [SPARK-44790] Associações e implementação de to_xml adicionadas para Python, Spark Connect e SQL.
    • [SPARK-45851] Suporte adicionado para várias políticas no cliente Scala.
    • Atualizações de segurança do sistema operacional.

Databricks Runtime 14.1

Consulte o Databricks Runtime 14.1.

  • 10 de setembro de 2024
    • [SPARK-49263][CONNECT] cliente Python do Spark Connect: lidar consistentemente com as opções de leitor do Dataframe booleano
    • [SPARK-49056][SQL] ErrorClassesJsonReader não lida com nulo corretamente
  • 20 de agosto de 2024
    • [SPARK-48706][PYTHON] O UDF do Python em funções de ordem superior não deve gerar erro interno
    • [SPARK-48597][SQL] Introduzir um marcador para a propriedade isStreaming na representação de texto do plano lógico
    • [SPARK-49065][SQL] A troca de base em formatadores/analisadores legados deve ser compatível com os fusos horários padrão não JVM
    • [SPARK-48050][SS] Registrar em log o plano lógico no início da consulta
  • 7 de agosto de 2024
    • Esta versão inclui uma correção de bug para as classes ColumnVector e ColumnarArray na interface Java do Spark. Antes dessa correção, um ArrayIndexOutOfBoundsException pode ser lançado ou um dado incorreto retornado quando uma instância de uma dessas classes continha valores null.
    • A saída de uma instrução SHOW CREATE TABLE agora inclui todos os filtros de linha ou máscaras de coluna definidos em uma exibição materializada ou em uma tabela de streaming. Veja SHOW CREATE TABLE. Para saber mais sobre filtros de linha e máscaras de coluna, consulte Filtrar dados confidenciais da tabela com filtros de linha e máscaras de coluna.
    • [SPARK-48705][PYTHON] Usar explicitamente worker_main quando iniciar com pyspark
    • [SPARK-47202]][PYTHON] Corrigir datetimes de quebra de digitação com tzinfo
    • Atualizações de segurança do sistema operacional.
  • 11 de julho de 2024
    • (Alteração de comportamento) Os DataFrames armazenados em cache em relação às fontes da tabela Delta agora são invalidados se a tabela de origem for substituída. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use .checkpoint() para persistir um estado de tabela durante todo o tempo de vida de um DataFrame.
    • Esta versão inclui uma correção para um problema que impediu a exibição correta da guia Ambiente de Interface do Usuário do Spark durante a execução nos Serviços de Contêiner do Databricks.
    • [SPARK-48475][PYTHON] Otimizar _get_jvm_function no PySpark.
    • [SPARK-48445][SQL] Não embutir UDFs com filhos caros
    • [SPARK-48481][SQL][SS] Não aplicar OptimizeOneRowPlan em relação a um Dataset de streaming
    • [SPARK-48292][CORE] Reverter [SPARK-39195][SQL] O Spark OutputCommitCoordinator deve anular o estágio quando o arquivo confirmado não for consistente com o status da tarefa
    • [SPARK-48503][SQL] Corrigir subconsultas escalares inválidas com agrupar por em colunas não equivalentes que eram incorretamente permitidas
    • [SPARK-48273][SQL] Corrigir a regravação tardia de PlanWithUnresolvedIdentifier
    • [SPARK-48100][SQL] Corrigir problemas ao ignorar campos de estrutura aninhada não selecionados no esquema
    • [SPARK-48383][SS] Gerar erro melhor para partições incompatíveis na opção startOffset no Kafka
    • Atualizações de segurança do sistema operacional.
  • 17 de junho de 2024
    • Corrige um bug em que a otimização da janela de classificação usando o Photon TopK manipulava incorretamente partições com structs.
    • [SPARK-48276][PYTHON][CONNECT] Adicionar o método __repr__ ausente para SQLExpression
    • [SPARK-48277] Aprimorar a mensagem de erro para ErrorClassesJsonReader.getErrorMessage
    • Atualizações de segurança do sistema operacional.
  • 21 de maio de 2024
    • (Alteração de comportamento) agora há suporte para dbutils.widgets.getAll() para obter todos os valores de widget em um notebook.
    • [SPARK-47994][SQL] Corrigir um bug com o pushdown do filtro de coluna CASE WHEN no SQLServer
    • [SPARK-48105][SS] Corrigir a condição de corrida entre o descarregamento do repositório de estado e o instantâneo
    • [SPARK-48173][SQL] CheckAnalysis deve ver o plano de consulta inteiro
    • Atualizações de segurança do sistema operacional.
  • 09 de maio de 2024
    • [SPARK-47371] [SQL] XML: Ignorar marcas de linha encontradas em CDATA
    • [SPARK-47895][SQL] group by all deve ser idempotente
    • [SPARK-47956][SQL] Verificação de sanidade para referência LCA não resolvida
    • [SPARK-48044][PYTHON][CONNECT] Armazenar em cache DataFrame.isStreaming
    • [SPARK-47973][CORE] Registrar site de chamada no SparkContext.stop() e posterior no SparkContext.assertNotStopped()
    • Atualizações de segurança do sistema operacional.
  • 25 de abril de 2024
    • [SPARK-47704][SQL] A análise JSON falha com “java.lang.ClassCastException” quando spark.sql.json.enablePartialResults está habilitado
    • [SPARK-47828][CONNECT] [PYTHON] DataFrameWriterV2.overwrite falha com plano inválido
    • Atualizações de segurança do sistema operacional.
  • 11 de abril de 2024
    • [SPARK-47638][PS][CONNECT] Ignorar a validação do nome da coluna no PS
    • [SPARK-38708][SQL] Atualizar o cliente Metastore do Hive para a versão 3.1.3 do Hive 3.1
    • [SPARK-47309][SQL][XML] Adicionar testes unitários de inferência de esquema
    • [SPARK-47509][SQL] Bloquear expressões de subconsulta em funções lambda e de ordem superior
    • [SPARK-46990][SQL] Corrigir o carregamento de arquivos Avro vazios emitidos por hubs de eventos
    • Atualizações de segurança do sistema operacional.
  • 1º de abril de 2024
    • [SPARK-47305][SQL] Corrigir o PruneFilters para marcar corretamente o sinalizador isStreaming do LocalRelation quando o plano tiver lote e streaming
    • [SPARK-47218][SQL] XML: Ignorar marcas de linha comentadas no tokenizador XML
    • [SPARK-47300][SQL] quoteIfNeeded deve citar o identificador que começa com dígitos
    • [SPARK-47368][SQL] Remover a verificação da configuração inferTimestampNTZ no ParquetRowConverter
    • [SPARK-47070] Corrigir agregação inválida após uma reescrita de subconsulta
    • [SPARK-47322][PYTHON][CONNECT] Tornar o tratamento de duplicação de nomes de colunas withColumnsRenamed consistente com withColumnRenamed
    • [SPARK-47300] Corrigir DecomposerSuite
    • [SPARK-47218] [SQL] XML: Alterado o SchemaOfXml para falhar no modo DROPMALFORMED
    • [SPARK-47385] Corrigir codificadores de tuplas com entradas de Opção.
    • Atualizações de segurança do sistema operacional.
  • 14 de março de 2024
    • [SPARK-47176][SQL] Ter uma função auxiliar ResolveAllExpressionsUpWithPruning
    • [SPARK-47145][SQL] Passar o identificador de tabela para o executável de verificação da fonte de dados de linha para a estratégia V2.
    • [SPARK-47167][SQL] Adicionar classe concreta para relação anônima JDBC
    • [SPARK-47129][CONNECT][SQL] Fazer o cache ResolveRelations conectar ao plano corretamente
    • Reverter “[SPARK-46861][CORE] Evitar Deadlock no DAGScheduler”
    • [SPARK-47044][SQL] Adicionar uma consulta executada para fontes de dados externas JDBC para explicar a saída
    • Atualizações de segurança do sistema operacional.
  • 29 de fevereiro de 2024
    • Correção de um problema em que o uso de uma coleção local como origem em um comando MERGE poderia resultar na métrica de operação numSourceRows informando o dobro do número correto de linhas.
    • A criação de um esquema com um local definido agora exige que o usuário tenha privilégios SELECT e MODIFY em ANY FILE.
    • Agora, é possível ingerir arquivos XML usando Autoloader, read_files, COPY INTO, DLT e DBSQL. O suporte a arquivos XML pode inferir e evoluir automaticamente o esquema, resgatar dados com incompatibilidades de tipo, validar XML usando XSD e dar suporte a expressões SQL, como from_xml, schema_of_xml e to_xml. Consulte Suporte a arquivos XML para obter mais detalhes. Se você já estava usando o pacote externo spark-xml, consulte aqui para obter diretrizes de migração.
    • [SPARK-46248][SQL] XML: Suporte para opções ignoreCorruptFiles e ignoreMissingFiles
    • [SPARK-47059][SQL] Anexar contexto de erro para o comando ALTER COLUMN v1
    • [SPARK-46954][SQL] XML: Encapsular InputStreamReader com BufferedReader
    • [SPARK-46954][SQL] XML: Otimizar a pesquisa de índice de esquema
    • [SPARK-46630][SQL] XML: Validar o nome do elemento XML na gravação
    • Atualizações de segurança do sistema operacional.
  • 08 de fevereiro de 2024
    • Não há suporte para consultas de feed de dados alterados (CDF) em exibições materializadas do Catálogo do Unity e a tentativa de executar uma consulta CDF com uma exibição materializada do Catálogo do Unity retorna um erro. As tabelas de streaming do Catálogo do Unity dão suporte para consultas CDF em tabelas não APPLY CHANGES no Databricks Runtime 14.1 e posterior. Não há suporte para consultas CDF com tabelas de streaming do Catálogo do Unity no Databricks Runtime 14.0 e versões anteriores.
    • [SPARK-46952] XML: Limitar o tamanho do registro corrompido.
    • [SPARK-45182] Ignorar a conclusão da tarefa do estágio antigo depois de tentar novamente o estágio indeterminado pai, conforme determinado pela soma de verificação.
    • [SPARK-46794] Remover subconsultas de restrições LogicalRDD.
    • [SPARK-46933] Adicionar a métrica de tempo de execução da consulta aos conectores que usam JDBCRDD.
    • [SPARK-46861] Evitar deadlock no DAGScheduler.
    • [SPARK-45582] Verificar se a instância do repositório não é usada após chamar a confirmação dentro da agregação de streaming do modo de saída.
    • [SPARK-46930] Adicionar suporte para um prefixo personalizado para campos de tipo de união no Avro.
    • [SPARK-46941] Não é possível inserir o nó de limite do grupo de janelas para a computação top-k se contiver SizeBasedWindowFunction.
    • [SPARK-46396] A inferência do carimbo de data/hora não deve gerar exceção.
    • [SPARK-46822] Respeitar spark.sql.legacy.charVarcharAsString ao converter o tipo jdbc para o tipo de catalisador no jdbc.
    • [SPARK-45957] Evitar gerar um plano de execução para comandos não executáveis.
    • Atualizações de segurança do sistema operacional.
  • 31 de janeiro de 2024
    • [SPARK-46684] Corrigir CoGroup.applyInPandas/Arrow para passar argumentos corretamente.
    • [SPARK-46763] Corrigir a falha de declaração em ReplaceDeduplicateWithAggregate para atributos duplicados.
    • [SPARK-45498] Acompanhamento: Ignorar a conclusão da tarefa de tentativas do estágio antigo.
    • [SPARK-46382] XML: Atualizar documento para ignoreSurroundingSpaces.
    • [SPARK-46383] Reduzir o uso de heap do driver reduzindo o tempo de vida de TaskInfo.accumulables().
    • [SPARK-46382] XML: ignoreSurroundingSpaces padrão como true.
    • [SPARK-46677] Correção da resolução dataframe["*"].
    • [SPARK-46676] dropDuplicatesWithinWatermark não deve falhar na canonicalização do plano.
    • [SPARK-46633] Corrigir o leitor do Avro para manipular blocos de comprimento zero.
    • [SPARK-45912] Aprimoramento da API XSDToSchema: Alterar para a API HDFS para acessibilidade de armazenamento em nuvem.
    • [SPARK-46599] XML: Usar TypeCoercion.findTightestCommonType para verificar a compatibilidade.
    • [SPARK-46382] XML: Capturar valores intercalados entre elementos.
    • [SPARK-46769] Refinar a inferência de esquema relacionada ao carimbo de data/hora.
    • [SPARK-46610] Criar tabela deve gerar exceção se nenhum valor para uma chave for especificado nas opções.
    • [SPARK-45964] Remover o acessador sql privado no pacote XML e JSON no pacote do catalisador.
    • Reverter [SPARK-46769] Refinar inferência de esquema relacionada ao carimbo de data/hora.
    • [SPARK-45962] Remover treatEmptyValuesAsNulls e usar a opção nullValue em XML.
    • [SPARK-46541] Corrigir a referência de coluna ambígua na autojunção.
    • Atualizações de segurança do sistema operacional.
  • 17 de janeiro de 2024
    • O nó shuffle do plano explicativo retornado por uma consulta do Photon é atualizado para adicionar o sinalizador causedBroadcastJoinBuildOOM=true quando ocorre um erro de falta de memória durante a operação de shuffle que faz parte de uma junção de transmissão.
    • Para evitar maior latência ao se comunicar pelo TLSv1.3, essa versão de manutenção inclui um patch para a instalação do JDK 8 para corrigir o bug JDK-8293562 do JDK.
    • [SPARK-46538] Corrige o problema de referência de coluna ambígua em ALSModel.transform.
    • [SPARK-46417] Não gera falha ao chamar hive.getTable quando throwException for false.
    • [SPARK-46484] Faz com que as funções auxiliares resolveOperators mantenham a ID do plano.
    • [SPARK-46153] XML: Adiciona suporte ao TimestampNTZType.
    • [SPARK-46152] XML: Adiciona suporte a DecimalType na inferência de esquema XML.
    • [SPARK-46145] O spark.catalog.listTables não gera exceção quando a tabela ou exibição não é encontrada.
    • [SPARK-46478] Reverte SPARK-43049 para usar oracle varchar(255) para cadeia de caracteres.
    • [SPARK-46394] Corrige problemas do spark.catalog.listDatabases() em esquemas com caracteres especiais quando spark.sql.legacy.keepCommandOutputSchema está definido como “true”.
    • [SPARK-46337] Faz CTESubstitution reter o PLAN_ID_TAG.
    • [SPARK-46466] O leitor vetorizado de Parquet nunca deve trocar base para o carimbo de data/hora ntz.
    • [SPARK-46587] XML: Corrige a conversão de inteiros grandes XSD.
    • [SPARK-45814] Faz com que ArrowConverters.createEmptyArrowBatch chame close() para evitar perda de memória.
    • [SPARK-46132] Suporte a senha de chave para chaves JKS para SSL de RPC.
    • [SPARK-46602] Propaga allowExisting na criação da exibição quando a exibição/tabela não existir.
    • [SPARK-46173] Ignora a chamada trimAll durante a análise de data.
    • [SPARK-46355] XML: Fecha InputStreamReader na conclusão da leitura.
    • [SPARK-46600] Move o código compartilhado entre SqlConf e SqlApiConf para SqlApiConfHelper.
    • [SPARK-46261] DataFrame.withColumnsRenamed deve manter a ordenação de dicionário/mapa.
    • [SPARK-46056] Correção do NPE de leitura vetorizada do Parquet com valor padrão byteArrayDecimalType.
    • [SPARK-46260] DataFrame.withColumnsRenamed deve respeitar a ordem do dicionário.
    • [SPARK-46250] Estabiliza test_parity_listener.
    • [SPARK-46370] Corrige o bug ao consultar uma tabela depois de alterar os padrões de coluna.
    • [SPARK-46609] Evita a explosão exponencial em PartitioningPreservingUnaryExecNode.
    • [SPARK-46058] Adiciona um sinalizador separado para privateKeyPassword.
  • 14 de dezembro de 2023
    • Correção de um problema em que os sublinhados escapados nas operações getColumns provenientes de clientes JDBC ou ODBC eram tratados incorretamente e interpretados como curingas.
    • [SPARK-45509] Corrigido comportamento de referência da coluna df para o Spark Connect.
    • [SPARK-45844] Implementar a não diferenciação de maiúsculas de minúsculas para XML.
    • [SPARK-46141] Altera o padrão de spark.sql.legacy.ctePrecedencePolicy para CORRECTED.
    • [SPARK-46028] Faz com que Column.__getitem__ aceite a coluna de entrada.
    • [SPARK-46255] Suporte para conversão de tipo complexo –> para cadeia de caracteres.
    • [SPARK-45655] Permite expressões não determinísticas dentro de AggregateFunctions em CollectMetrics.
    • [SPARK-45433] Corrige a inferência de esquema CSV/JSON quando os carimbos de data/hora não correspondem ao timestampFormat especificado.
    • [SPARK-45316] Adicionar novos parâmetros ignoreCorruptFiles/ignoreMissingFiles para HadoopRDD e NewHadoopRDD.
    • [SPARK-45852] Lida normalmente com o erro de recursão durante o registro em log.
    • [SPARK-45920] “group by ordinal” deve ser idempotente.
    • Atualizações de segurança do sistema operacional.
  • 29 de novembro de 2023
    • Instalou um novo pacote pyarrow-hotfix para corrigir uma vulnerabilidade do PyArrow RCE.
    • Corrigido um problema em que os sublinhados com escape em operações de getColumns provenientes de clientes JDBC ou ODBC eram interpretados incorretamente como curingas.
    • Ao ingerir dados CSV usando o Carregador Automático ou Tabelas de Transmissão, os arquivos CSV grandes agora são dividíveis e podem ser processados em paralelo durante a inferência de esquema e o processamento de dados.
    • [SPARK-45892] Validação do plano do otimizador de refatoração para desconectar validateSchemaOutput e validateExprIdUniqueness.
    • [SPARK-45620] As APIs relacionadas ao UDF do Python agora usam camelCase.
    • [SPARK-44790] Associações e implementação de to_xml adicionadas para Python, Spark Connect e SQL.
    • [SPARK-45770] Resolução de coluna corrigida com DataFrameDropColumns para Dataframe.drop.
    • [SPARK-45859] Tornou objetos UDF em ml.functions lentos.
    • [SPARK-45730] Restrições de tempo aprimoradas para ReloadingX509TrustManagerSuite.
    • [SPARK-44784] Tornou o teste do SBT hermético.
    • Atualizações de segurança do sistema operacional.
  • 10 de novembro de 2023
    • [SPARK-45545] SparkTransportConf herda SSLOptions na criação.
    • [SPARK-45250] Suporte adicionado para perfil de recurso de tarefa em nível de estágio para clusters de fios quando a alocação dinâmica está desabilitada.
    • [SPARK-44753] Adicionado leitor e gravador XML DataFrame para PySpark SQL.
    • [SPARK-45396] Adicionada uma entrada de documento para o módulo PySpark.ml.connect.
    • [SPARK-45584] Falha de execução corrigida de subconsulta com TakeOrderedAndProjectExec.
    • [SPARK-45541] SSLFactory adicionado.
    • [SPARK-45577] UserDefinedPythonTableFunctionAnalyzeRunner corrigido para passar valores dobrados de argumentos nomeados.
    • [SPARK-45562] Tornou 'rowTag' uma opção necessária.
    • [SPARK-45427] Configurações adicionadas de RPC SSL para SSLOptions e SparkTransportConf.
    • [SPARK-43380] Corrigida a lentidão na leitura do Avro.
    • [SPARK-45430] FramelessOffsetWindowFunction não falha mais quando IGNORE NULLS e offset > rowCount.
    • [SPARK-45429] Classes auxiliares adicionadas para comunicação SSL RPC.
    • [SPARK-45386] Corrigido um problema em que StorageLevel.NONE retornava incorretamente 0.
    • [SPARK-44219] Adicionadas verificações de validação por regra para regravações de otimização.
    • [SPARK-45543] Corrigido um problema em que InferWindowGroupLimit causava um problema se as outras funções de janela não tivessem a mesma moldura de janela que as funções de classificação.
    • Atualizações de segurança do sistema operacional.
  • 27 de setembro de 2023
    • [SPARK-44823] black atualizado para 23.9.1 e verificação incorreta corrigida.
    • [SPARK-45339] O PySpark agora registra erros de tentativas.
    • Reverter [SPARK-42946] Redigir dados confidenciais aninhados em substituições variáveis.
    • [SPARK-44551] Comentários editados para sincronizar com o OSS.
    • [SPARK-45360] Construtor de sessão do Spark dá suporte à inicialização a partir de SPARK_REMOTE.
    • [SPARK-45279] plan_id anexado a todos os planos lógicos.
    • [SPARK-45425] TINYINT mapeado para ShortType de MsSqlServerDialect.
    • [SPARK-45419] Entrada de mapa de versão de arquivo removida de versões maiores para evitar a reutilização de IDs de arquivo sst rocksdb.
    • [SPARK-45488] Adicionado suporte para valor no elemento rowTag.
    • [SPARK-42205] Registro em log removido de Accumulables em eventos de início Task/Stage nos logs de eventos JsonProtocol.
    • [SPARK-45426] Suporte adicionado para ReloadingX509TrustManager.
    • [SPARK-45256] DurationWriter falha ao gravar mais valores do que a capacidade inicial.
    • [SPARK-43380] Correção de problemas de conversão do tipo de dados Avro sem causar regressão de desempenho.
    • [SPARK-45182] Suporte adicionado para reverter o estágio do mapa aleatório para que todas as tarefas do estágio possam ser repetidas quando a saída do estágio for indeterminada.
    • [SPARK-45399] Opções de XML adicionadas usando newOption.
    • Atualizações de segurança do sistema operacional.

Databricks Runtime 13.3 LTS

Confira Databricks Runtime 13.3 LTS.

  • 10 de setembro de 2024
  • 20 de agosto de 2024
    • [SPARK-49056][SQL] ErrorClassesJsonReader não lida com nulo corretamente
    • [SPARK-49065][SQL] A troca de base em formatadores/analisadores legados deve ser compatível com os fusos horários padrão não JVM
    • [SPARK-48597][SQL] Introduzir um marcador para a propriedade isStreaming na representação de texto do plano lógico
  • 7 de agosto de 2024
    • Esta versão inclui uma correção de bug para as classes ColumnVector e ColumnarArray na interface Java do Spark. Antes dessa correção, um ArrayIndexOutOfBoundsException pode ser lançado ou um dado incorreto retornado quando uma instância de uma dessas classes continha valores null.
    • [SPARK-47202]][PYTHON] Corrigir datetimes de quebra de digitação com tzinfo
    • [SPARK-48896] [SPARK-48909] [SPARK-48883] Correções do gravador de ML do Spark de backport
    • [SPARK-48463] Tornar o StringIndexer compatível com as colunas de entrada aninhadas
    • Atualizações de segurança do sistema operacional.
  • 11 de julho de 2024
    • (Alteração de comportamento) Os DataFrames armazenados em cache em relação às fontes da tabela Delta agora são invalidados se a tabela de origem for substituída. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use .checkpoint() para persistir um estado de tabela durante todo o tempo de vida de um DataFrame.
    • Esta versão inclui uma correção para um problema que impediu a exibição correta da guia Ambiente de Interface do Usuário do Spark durante a execução nos Serviços de Contêiner do Databricks.
    • [SPARK-48383][SS] Gerar erro melhor para partições incompatíveis na opção startOffset no Kafka
    • [SPARK-48292][CORE] Reverter [SPARK-39195][SQL] O Spark OutputCommitCoordinator deve anular o estágio quando o arquivo confirmado não for consistente com o status da tarefa
    • [SPARK-48503][SQL] Corrigir subconsultas escalares inválidas com agrupar por em colunas não equivalentes que eram incorretamente permitidas
    • [SPARK-48481][SQL][SS] Não aplicar OptimizeOneRowPlan em relação a um Dataset de streaming
    • [SPARK-48475][PYTHON] Otimizar _get_jvm_function no PySpark.
    • [SPARK-48273][SQL] Corrigir a regravação tardia de PlanWithUnresolvedIdentifier
    • [SPARK-48445][SQL] Não embutir UDFs com filhos caros
    • Atualizações de segurança do sistema operacional.
  • 17 de junho de 2024
    • [SPARK-48277] Aprimorar a mensagem de erro para ErrorClassesJsonReader.getErrorMessage
    • Atualizações de segurança do sistema operacional.
  • 21 de maio de 2024
    • (Alteração de comportamento) agora há suporte para dbutils.widgets.getAll() para obter todos os valores de widget em um notebook.
    • [SPARK-48105][SS] Corrigir a condição de corrida entre o descarregamento do repositório de estado e o instantâneo
    • [SPARK-47994][SQL] Corrigir um bug com o pushdown do filtro de coluna CASE WHEN no SQLServer
    • Atualizações de segurança do sistema operacional.
  • 09 de maio de 2024
    • [SPARK-47956][SQL] Verificação de sanidade para referência LCA não resolvida
    • [SPARK-46822][SQL] Respeitar spark.sql.legacy.charVarcharAsString ao converter o tipo jdbc no tipo de catalisador no jdbc
    • [SPARK-47895][SQL] group by all deve ser idempotente
    • [SPARK-48018][SS] Corrigir groupId nulo causando erro de param ausente ao lançar KafkaException.couldNotReadOffsetRange
    • [SPARK-47973][CORE] Registrar site de chamada no SparkContext.stop() e posterior no SparkContext.assertNotStopped()
    • Atualizações de segurança do sistema operacional.
  • 25 de abril de 2024
    • [SPARK-44653][SQL] Uniões não triviais de DataFrame não devem interromper o cache
    • Diversas correções de bugs.
  • 11 de abril de 2024
    • [SPARK-47509][SQL] Bloquear expressões de subconsulta em funções lambda e de ordem superior
    • Atualizações de segurança do sistema operacional.
  • 1º de abril de 2024
    • [SPARK-47385] Corrigir codificadores de tuplas com entradas de Opção.
    • [SPARK-38708][SQL] Atualizar o cliente Metastore do Hive para a versão 3.1.3 do Hive 3.1
    • [SPARK-47200][SS] Classe de erro para o erro de função de usuário do coletor de lote Foreach
    • [SPARK-47368][SQL] Remover a verificação da configuração inferTimestampNTZ no ParquetRowConverter
    • [SPARK-44252][SS] Definir uma nova classe de erro e aplicar para o caso em que o estado de carregamento do DFS falha
    • [SPARK-47135][SS] Implementar classes de erro para exceções de perda de dados do Kafka
    • [SPARK-47300][SQL] quoteIfNeeded deve citar o identificador que começa com dígitos
    • [SPARK-47305][SQL] Corrigir o PruneFilters para marcar corretamente o sinalizador isStreaming do LocalRelation quando o plano tiver lote e streaming
    • [SPARK-47070] Corrigir agregação inválida após uma reescrita de subconsulta
    • Atualizações de segurança do sistema operacional.
  • 14 de março de 2024
    • [SPARK-47145][SQL] Passar o identificador de tabela para o executável de verificação da fonte de dados de linha para a estratégia V2.
    • [SPARK-47167][SQL] Adicionar classe concreta para relação anônima JDBC
    • [SPARK-47176][SQL] Ter uma função auxiliar ResolveAllExpressionsUpWithPruning
    • [SPARK-47044][SQL] Adicionar uma consulta executada para fontes de dados externas JDBC para explicar a saída
    • [SPARK-47125][SQL] Retornar nulo se Univocity nunca dispara a análise
    • Atualizações de segurança do sistema operacional.
  • 29 de fevereiro de 2024
    • Correção de um problema em que o uso de uma coleção local como origem em um comando MERGE poderia resultar na métrica de operação numSourceRows informando o dobro do número correto de linhas.
    • A criação de um esquema com um local definido agora exige que o usuário tenha privilégios SELECT e MODIFY em ANY FILE.
    • Atualizações de segurança do sistema operacional.
  • 08 de fevereiro de 2024
    • Não há suporte para consultas de feed de dados alterados (CDF) em exibições materializadas do Catálogo do Unity e a tentativa de executar uma consulta CDF com uma exibição materializada do Catálogo do Unity retorna um erro. As tabelas de streaming do Catálogo do Unity dão suporte para consultas CDF em tabelas não APPLY CHANGES no Databricks Runtime 14.1 e posterior. Não há suporte para consultas CDF com tabelas de streaming do Catálogo do Unity no Databricks Runtime 14.0 e versões anteriores.
    • [SPARK-46794] Remover subconsultas de restrições LogicalRDD.
    • [SPARK-46933] Adicionar a métrica de tempo de execução da consulta aos conectores que usam JDBCRDD.
    • [SPARK-45582] Verificar se a instância do repositório não é usada após chamar a confirmação dentro da agregação de streaming do modo de saída.
    • [SPARK-46396] A inferência do carimbo de data/hora não deve gerar exceção.
    • [SPARK-46861] Evitar deadlock no DAGScheduler.
    • [SPARK-46941] Não é possível inserir o nó de limite do grupo de janelas para a computação top-k se contiver SizeBasedWindowFunction.
    • Atualizações de segurança do sistema operacional.
  • 31 de janeiro de 2024
    • [SPARK-46610] Criar tabela deve gerar exceção se nenhum valor para uma chave for especificado nas opções.
    • [SPARK-46383] Reduzir o uso de heap do driver reduzindo o tempo de vida de TaskInfo.accumulables().
    • [SPARK-46600] Move o código compartilhado entre SqlConf e SqlApiConf para SqlApiConfHelper.
    • [SPARK-46676] dropDuplicatesWithinWatermark não deve falhar na canonicalização do plano.
    • [SPARK-46763] Corrigir a falha de declaração em ReplaceDeduplicateWithAggregate para atributos duplicados.
    • Atualizações de segurança do sistema operacional.
  • 17 de janeiro de 2024
    • O nó shuffle do plano explicativo retornado por uma consulta do Photon é atualizado para adicionar o sinalizador causedBroadcastJoinBuildOOM=true quando ocorre um erro de falta de memória durante a operação de shuffle que faz parte de uma junção de transmissão.
    • Para evitar maior latência ao se comunicar pelo TLSv1.3, essa versão de manutenção inclui um patch para a instalação do JDK 8 para corrigir o bug JDK-8293562 do JDK.
    • [SPARK-46058] Adiciona um sinalizador separado para privateKeyPassword.
    • [SPARK-46173] Ignora a chamada trimAll durante a análise de data.
    • [SPARK-46370] Corrige o bug ao consultar uma tabela depois de alterar os padrões de coluna.
    • [SPARK-46370] Corrige o bug ao consultar uma tabela depois de alterar os padrões de coluna.
    • [SPARK-46370] Corrige o bug ao consultar uma tabela depois de alterar os padrões de coluna.
    • [SPARK-46609] Evita a explosão exponencial em PartitioningPreservingUnaryExecNode.
    • [SPARK-46132] Suporte a senha de chave para chaves JKS para SSL de RPC.
    • [SPARK-46602] Propaga allowExisting na criação da exibição quando a exibição/tabela não existir.
    • [SPARK-46249] Exige bloqueio de instância para adquirir métricas do RocksDB, a fim de evitar conflitos com operações em segundo plano.
    • [SPARK-46417] Não gera falha ao chamar hive.getTable quando throwException for false.
    • [SPARK-46538] Corrige o problema de referência de coluna ambígua em ALSModel.transform.
    • [SPARK-46478] Reverte SPARK-43049 para usar oracle varchar(255) para cadeia de caracteres.
    • [SPARK-46250] Estabiliza test_parity_listener.
    • [SPARK-46394] Corrige problemas do spark.catalog.listDatabases() em esquemas com caracteres especiais quando spark.sql.legacy.keepCommandOutputSchema está definido como “true”.
    • [SPARK-46056] Correção do NPE de leitura vetorizada do Parquet com valor padrão byteArrayDecimalType.
    • [SPARK-46145] O spark.catalog.listTables não gera exceção quando a tabela ou exibição não é encontrada.
    • [SPARK-46466] O leitor vetorizado de Parquet nunca deve trocar base para o carimbo de data/hora ntz.
  • 14 de dezembro de 2023
    • Correção de um problema em que os sublinhados escapados nas operações getColumns provenientes de clientes JDBC ou ODBC eram tratados incorretamente e interpretados como curingas.
    • [SPARK-45920] “group by ordinal” deve ser idempotente.
    • [SPARK-44582] Ignora o iterador no SMJ se ele tiver sido limpo.
    • [SPARK-45433] Corrige a inferência de esquema CSV/JSON quando os carimbos de data/hora não correspondem ao timestampFormat especificado.
    • [SPARK-45655] Permite expressões não determinísticas dentro de AggregateFunctions em CollectMetrics.
    • Atualizações de segurança do sistema operacional.
  • 29 de novembro de 2023
    • Instalou um novo pacote pyarrow-hotfix para corrigir uma vulnerabilidade do PyArrow RCE.
    • O conector Spark-Snowflake foi atualizado para 2.12.0.
    • [SPARK-44846] Removidas expressões de agrupamento complexas após RemoveRedundantAggregates.
    • [SPARK-45544] Suporte integrado a SSL em TransportContext.
    • [SPARK-45892] Validação do plano do otimizador de refatoração para desconectar validateSchemaOutput e validateExprIdUniqueness.
    • [SPARK-45730] Restrições de tempo aprimoradas para ReloadingX509TrustManagerSuite.
    • [SPARK-45859] Tornou objetos UDF em ml.functions lentos.
    • Atualizações de segurança do sistema operacional.
  • 10 de novembro de 2023
    • Os filtros de partição nas consultas de streaming do Delta Lake são empurrados para baixo antes do limite de taxa para obter uma melhor utilização.
    • Consultas de feed de dados alteradas em Tabelas de Streaming do Catálogo Unity e Exibições Materializadas para exibir mensagens de erro.
    • [SPARK-45545] SparkTransportConf herda SSLOptions na criação.
    • [SPARK-45584] Falha de execução corrigida de subconsulta com TakeOrderedAndProjectExec.
    • [SPARK-45427] Configurações adicionadas de RPC SSL para SSLOptions e SparkTransportConf.
    • [SPARK-45541] SSLFactory adicionado.
    • [SPARK-45430] FramelessOffsetWindowFunction não falha mais quando IGNORE NULLS e offset > rowCount.
    • [SPARK-45429] Classes auxiliares adicionadas para comunicação SSL RPC.
    • [SPARK-44219] Validações extras por regra adicionadas para regravações de otimização.
    • [SPARK-45543] Corrigido um problema em que InferWindowGroupLimit causava um problema se as outras funções de janela não tivessem a mesma moldura de janela que as funções de classificação.
    • Atualizações de segurança do sistema operacional.
  • 23 de outubro de 2023
    • [SPARK-45256] Corrigido um problema em que DurationWriter falhava ao gravar mais valores do que a capacidade inicial.
    • [SPARK-45419] Evite reutilização de arquivos rocksdb sst em uma instância rocksdb diferente removendo as entradas do mapa de versão do arquivo de versões maiores.
    • [SPARK-45426] Suporte adicionado para ReloadingX509TrustManager.
    • Correções diversas.
  • 13 de outubro de 2023
    • A dependência snowflake-jdbc foi atualizada de 3.13.29 para a 3.13.33.
    • A função array_insert é baseada em 1 para índices positivos e negativos, mas antes ela era baseada em 0 para índices negativos. Agora ela insere um novo elemento no final das matrizes de entrada para o índice -1. Para restaurar o comportamento anterior, defina spark.sql.legacy.negativeIndexInArrayInsert como true.
    • Corrigido um problema em que não ignora arquivos corrompidos quando ignoreCorruptFiles estiver habilitado durante a inferência de esquema CSV com o Carregador Automático.
    • Reverter [SPARK-42946].
    • [SPARK-42205] Atualizado o protocolo JSON para remover o registro em log de acumuladores em uma tarefa ou eventos de início de estágio.
    • [SPARK-45178] Fallback para executar um lote único para Trigger.AvailableNow com fontes sem suporte em vez de usar o wrapper.
    • [SPARK-45316] Adicionar novos parâmetros ignoreCorruptFiles e ignoreMissingFiles para HadoopRDD e NewHadoopRDD.
    • [SPARK-44740] Corrigidos os valores de metadados para Artifacts.
    • [SPARK-45360] Configuração inicializada do construtor de sessão do Spark de SPARK_REMOTE.
    • [SPARK-44551] Comentários editados para sincronizar com o OSS.
    • [SPARK-45346][SQL] A inferência de esquema Parquet agora respeita sinalizadores que diferenciam maiúsculas de minúsculas ao mesclar esquema.
    • [SPARK-44658] Agora, ShuffleStatus.getMapStatus retorna None em vez de Some(null).
    • [SPARK-44840] Tornou o array_insert() baseado em 1 para índices negativos.
  • 14 de setembro de 2023
    • [SPARK-44873] Suporte adicionado para alter view com colunas aninhadas no cliente Hive.
    • [SPARK-44878] Desabilitado o limite estrito do gerenciador de gravação do RocksDB para evitar a exceção de inserção no cache concluído.
  • 30 de agosto de 2023
    • O comando dbutils cp (dbutils.fs.cp) foi otimizado para uma cópia mais rápida. Com essa melhoria, as operações de cópia podem levar até 100 vezes menos tempo, dependendo do tamanho do arquivo. O recurso está disponível em todas as nuvens e sistemas de arquivos acessíveis no Databricks, incluindo para volumes de catálogo do Unity e montagens DBFS.
    • [SPARK-44455] Identificadores de cota com backticks no resultado SHOW CREATE TABLE.
    • [SPARK-44763] Corrigido um problema que mostrava uma cadeia de caracteres como um duplo em aritmética binária com intervalo.
    • [SPARK-44871] Comportamento percentile_disc corrigido.
    • [SPARK-44714] Facilidade de restrição da resolução LCA em relação às consultas.
    • [SPARK-44818] Correção da disputa para interrupção de tarefa pendente emitida antes taskThread de ser inicializado.
    • [SPARK-44505] Substituição adicionada para suporte colunar na Verificação de DSv2.
    • [SPARK-44479] Conversão corrigida de protobuf de um tipo struct vazio.
    • [SPARK-44718] Corresponder o padrão de configuração do modo de memória ColumnVector ao valor de configuração OffHeapMemoryMode.
    • [SPARK-42941] Suporte adicionado para StreamingQueryListener no Python.
    • [SPARK-44558] Exportar o nível de log do Spark Connect do PySpark.
    • [SPARK-44464] applyInPandasWithStatePythonRunner corrigido para linhas de saída que têm Nulo como o valor da primeira coluna.
    • [SPARK-44643] Corrigido Row.__repr__ quando o campo é uma linha vazia.
    • Atualizações de segurança do sistema operacional.

Databricks Runtime 12.2 LTS

Confira Databricks Runtime 12.2 LTS.

  • 10 de setembro de 2024
    • Diversas correções de bugs.
  • 20 de agosto de 2024
    • [SPARK-48941][SPARK-48970] Correções do gravador / leitor de ML do backport
    • [SPARK-49065][SQL] A troca de base em formatadores/analisadores legados deve ser compatível com os fusos horários padrão não JVM
    • [SPARK-49056][SQL] ErrorClassesJsonReader não lida com nulo corretamente
    • [SPARK-48597][SQL] Introduzir um marcador para a propriedade isStreaming na representação de texto do plano lógico
    • [SPARK-48463][ML] Tornar o StringIndexer compatível com as colunas de entrada aninhadas
    • Atualizações de segurança do sistema operacional.
  • 7 de agosto de 2024
  • 1 de agosto de 2024
    • Para aplicar os patches de segurança necessários, a versão do Python no Databricks Runtime 12.2 LTS é atualizada de 3.9.5 para 3.9.19.
  • 11 de julho de 2024
    • (Alteração de comportamento) Os DataFrames armazenados em cache em relação às fontes da tabela Delta agora são invalidados se a tabela de origem for substituída. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use .checkpoint() para persistir um estado de tabela durante todo o tempo de vida de um DataFrame.
    • [SPARK-48481][SQL][SS] Não aplicar OptimizeOneRowPlan em relação a um Dataset de streaming
    • [SPARK-47070] Corrigir agregação inválida após uma reescrita de subconsulta
    • [SPARK-42741][SQL] Não desencapsular conversões em comparação binária quando literal for nulo
    • [SPARK-48445][SQL] Não embutir UDFs com filhos caros
    • [SPARK-48503][SQL] Corrigir subconsultas escalares inválidas com agrupar por em colunas não equivalentes que eram incorretamente permitidas
    • [SPARK-48383][SS] Gerar erro melhor para partições incompatíveis na opção startOffset no Kafka
    • Atualizações de segurança do sistema operacional.
  • 17 de junho de 2024
    • [SPARK-48277] Aprimorar a mensagem de erro para ErrorClassesJsonReader.getErrorMessage
    • Diversas correções de bugs.
  • 21 de maio de 2024
    • [SPARK-48105][SS] Corrigir a condição de corrida entre o descarregamento do repositório de estado e o instantâneo
    • Atualizações de segurança do sistema operacional.
  • 09 de maio de 2024
    • [SPARK-44251][SQL] Definir anulável corretamente na chave de junção unida na junção USING externa completa
    • [SPARK-47973][CORE] Registrar site de chamada no SparkContext.stop() e posterior no SparkContext.assertNotStopped()
    • [SPARK-47956][SQL] Verificação de sanidade para referência LCA não resolvida
    • [SPARK-48018][SS] Corrigir groupId nulo causando erro de param ausente ao lançar KafkaException.couldNotReadOffsetRange
    • Atualizações de segurança do sistema operacional.
  • 25 de abril de 2024
    • Atualizações de segurança do sistema operacional.
  • 11 de abril de 2024
    • Atualizações de segurança do sistema operacional.
  • 1º de abril de 2024
    • [SPARK-47305][SQL] Corrigir o PruneFilters para marcar corretamente o sinalizador isStreaming do LocalRelation quando o plano tiver lote e streaming
    • [SPARK-44252][SS] Definir uma nova classe de erro e aplicar para o caso em que o estado de carregamento do DFS falha
    • [SPARK-47135][SS] Implementar classes de erro para exceções de perda de dados do Kafka
    • [SPARK-47200][SS] Classe de erro para o erro de função de usuário do coletor de lote Foreach
    • Atualizações de segurança do sistema operacional.
  • 14 de março de 2024
    • [SPARK-47176][SQL] Ter uma função auxiliar ResolveAllExpressionsUpWithPruning
    • Reverter “[SPARK-46861][CORE] Evitar Deadlock no DAGScheduler”
    • [SPARK-47125][SQL] Retornar nulo se Univocity nunca dispara a análise
    • [SPARK-47167][SQL] Adicionar classe concreta para relação anônima JDBC
    • Atualizações de segurança do sistema operacional.
  • 29 de fevereiro de 2024
    • Correção de um problema em que o uso de uma coleção local como origem em um comando MERGE poderia resultar na métrica de operação numSourceRows informando o dobro do número correto de linhas.
    • A criação de um esquema com um local definido agora exige que o usuário tenha privilégios SELECT e MODIFY em ANY FILE.
    • [SPARK-45582][SS] Verificar se a instância do repositório não é usada após chamar a confirmação dentro da agregação de streaming do modo de saída
    • Atualizações de segurança do sistema operacional.
  • 13 de fevereiro de 2024
    • [SPARK-46861] Evitar deadlock no DAGScheduler.
    • [SPARK-46794] Remover subconsultas de restrições LogicalRDD.
    • Atualizações de segurança do sistema operacional.
  • 31 de janeiro de 2024
    • [SPARK-46763] Corrigir a falha de declaração em ReplaceDeduplicateWithAggregate para atributos duplicados.
    • Atualizações de segurança do sistema operacional.
  • 25 de dezembro de 2023
    • Para evitar maior latência ao se comunicar pelo TLSv1.3, essa versão de manutenção inclui um patch para a instalação do JDK 8 para corrigir o bug JDK-8293562 do JDK.
    • [SPARK-39440] Adiciona uma configuração para desabilitar a linha do tempo do evento.
    • [SPARK-46132] Suporte a senha de chave para chaves JKS para SSL de RPC.
    • [SPARK-46394] Corrige problemas do spark.catalog.listDatabases() em esquemas com caracteres especiais quando spark.sql.legacy.keepCommandOutputSchema está definido como “true”.
    • [SPARK-46417] Não gera falha ao chamar hive.getTable quando throwException for false.
    • [SPARK-43067] Corrige o local do arquivo de recurso da classe de erro no conector Kafka.
    • [SPARK-46249] Exige bloqueio de instância para adquirir métricas do RocksDB, a fim de evitar conflitos com operações em segundo plano.
    • [SPARK-46602] Propaga allowExisting na criação da exibição quando a exibição/tabela não existir.
    • [SPARK-46058] Adiciona um sinalizador separado para privateKeyPassword.
    • [SPARK-46145] O spark.catalog.listTables não gera exceção quando a tabela ou exibição não é encontrada.
    • [SPARK-46538] Corrige o problema de referência de coluna ambígua em ALSModel.transform.
    • [SPARK-42852] Reverte alterações relacionadas a NamedLambdaVariable de EquivalentExpressions.
  • 14 de dezembro de 2023
    • Correção de um problema em que os sublinhados escapados nas operações getColumns provenientes de clientes JDBC ou ODBC eram tratados incorretamente e interpretados como curingas.
    • [SPARK-44582] Ignora o iterador no SMJ se ele tiver sido limpo.
    • [SPARK-45920] “group by ordinal” deve ser idempotente.
    • [SPARK-45655] Permite expressões não determinísticas dentro de AggregateFunctions em CollectMetrics.
    • Atualizações de segurança do sistema operacional.
  • 29 de novembro de 2023
    • Instalou um novo pacote pyarrow-hotfix para corrigir uma vulnerabilidade do PyArrow RCE.
    • Corrigido um problema em que os sublinhados com escape em operações de getColumns provenientes de clientes JDBC ou ODBC eram interpretados incorretamente como curingas.
    • [SPARK-42205] Removidos os acumuladores de log nos eventos de início Stage e Task.
    • [SPARK-44846] Removidas expressões de agrupamento complexas após RemoveRedundantAggregates.
    • [SPARK-43718] Corrigida a nulidade de chaves em junções de USING.
    • [SPARK-45544] Suporte integrado a SSL em TransportContext.
    • [SPARK-43973] A interface do usuário do Fluxo Estruturado agora exibe corretamente as consultas com falha.
    • [SPARK-45730] Restrições de tempo aprimoradas para ReloadingX509TrustManagerSuite.
    • [SPARK-45859] Tornou objetos UDF em ml.functions lentos.
    • Atualizações de segurança do sistema operacional.
  • 14 de novembro de 2023
    • Os filtros de partição nas consultas de streaming do Delta Lake são empurrados para baixo antes do limite de taxa para obter uma melhor utilização.
    • [SPARK-45545] SparkTransportConf herda SSLOptions na criação.
    • [SPARK-45427] Configurações adicionadas de RPC SSL para SSLOptions e SparkTransportConf.
    • [SPARK-45584] Falha de execução corrigida de subconsulta com TakeOrderedAndProjectExec.
    • [SPARK-45541] SSLFactory adicionado.
    • [SPARK-45430] FramelessOffsetWindowFunction não falha mais quando IGNORE NULLS e offset > rowCount.
    • [SPARK-45429] Classes auxiliares adicionadas para comunicação SSL RPC.
    • Atualizações de segurança do sistema operacional.
  • 24 de outubro de 2023
    • [SPARK-45426] Suporte adicionado para ReloadingX509TrustManager.
    • Correções diversas.
  • 13 de outubro de 2023
    • A dependência snowflake-jdbc foi atualizada de 3.13.29 para a 3.13.33.
    • [SPARK-42553] Garantir pelo menos uma unidade de tempo após o intervalo.
    • [SPARK-45346] A inferência de esquema Parquet respeita o sinalizador que diferencia maiúsculas de minúsculas ao mesclar o esquema.
    • [SPARK-45178] Fallback para executar um lote único para Trigger.AvailableNow com fontes sem suporte em vez de usar o wrapper.
    • [SPARK-45084] StateOperatorProgress para usar um número de partição de ordem aleatória preciso e adequado.
  • 12 de setembro de 2023
    • [SPARK-44873] Suporte adicionado para alter view com colunas aninhadas no cliente Hive.
    • [SPARK-44718] Corresponder o padrão de configuração do modo de memória ColumnVector ao valor de configuração OffHeapMemoryMode.
    • [SPARK-43799] Adicionada a opção binária de descritor à API Protobuf do PySpark.
    • Correções diversas.
  • 30 de agosto de 2023
    • [SPARK-44485] TreeNode.generateTreeString otimizado.
    • [SPARK-44818] Correção da disputa para interrupção de tarefa pendente emitida antes taskThread de ser inicializado.
    • [SPARK-44871][11.3-13.0] Comportamento percentile_disc corrigido.
    • [SPARK-44714] Restrição facilitada da resolução LCA em relação a consultas.
    • Atualizações de segurança do sistema operacional.
  • 15 de agosto de 2023
    • [SPARK-44504] A tarefa de manutenção limpa os provedores carregados em caso de erro de parada.
    • [SPARK-44464] applyInPandasWithStatePythonRunner corrigido para linhas de saída que têm Null como o valor da primeira coluna.
    • Atualizações de segurança do sistema operacional.
  • 29 de julho de 2023
    • Foi corrigido um problema em que dbutils.fs.ls() retornava INVALID_PARAMETER_VALUE.LOCATION_OVERLAP quando chamado para um caminho de local de armazenamento que entrava em conflito com outro local de armazenamento externo ou gerenciado.
    • [SPARK-44199] CacheManager não atualiza mais o fileIndex desnecessariamente.
    • Atualizações de segurança do sistema operacional.
  • 24 de julho de 2023
    • [SPARK-44337] Corrigido um problema em que qualquer campo definido como Any.getDefaultInstance causava erros de análise.
    • [SPARK-44136] Corrigido um problema em que StateManager era materializado em um executor em vez do driver em FlatMapGroupsWithStateExec.
    • Atualizações de segurança do sistema operacional.
  • 23 de junho de 2023
    • Atualizações de segurança do sistema operacional.
  • 15 de junho de 2023
    • approx_count_distinct fotonizado.
    • A biblioteca Snowflake-jdbc foi atualizada para 3.13.29 para que fosse resolvido um problema de segurança.
    • [SPARK-43779] Agora, ParseToDate carrega EvalMode no thread principal.
    • [SPARK-43156][SPARK-43098] Teste de erro de contagem de subconsultas escalar estendida com decorrelateInnerQuery desativado.
    • Atualizações de segurança do sistema operacional.
  • 2 de junho de 2023
    • O analisador JSON no modo failOnUnknownFields descarta um registro no modo DROPMALFORMED e falha diretamente no modo FAILFAST.
    • Aprimoramento do desempenho da atualizações incrementais com Iceberg e Parquet SHALLOW CLONE.
    • Corrigido um problema no Carregador Automático em que diferentes formatos de arquivo de origem eram inconsistentes quando o esquema fornecido não incluía partições inferidas. Esse problema pode causar falhas inesperadas ao ler arquivos com colunas ausentes no esquema de partição inferido.
    • [SPARK-43404] Ignorar a reutilização do arquivo SST para a mesma versão do armazenamento de estado do RocksDB para evitar erro de incompatibilidade de ID.
    • [SPARK-43413][11.3-13.0] Corrigida a subconsulta IN da nulidade ListQuery.
    • [SPARK-43522] Corrigida a criação de nome da coluna struct com índice de matriz.
    • [SPARK-43541] Propagar todas as marcas Project na resolução de expressões e colunas ausentes.
    • [SPARK-43527] Corrigido catalog.listCatalogs no PySpark.
    • [SPARK-43123] Os metadados de campos internos não vazam mais para os catálogos.
    • [SPARK-43340] Corrigido o campo de rastreamento de pilha ausente em eventlogs.
    • [SPARK-42444] DataFrame.drop agora lida com colunas duplicadas corretamente.
    • [SPARK-42937] PlanSubqueries agora define InSubqueryExec#shouldBroadcast como true.
    • [SPARK-43286] Modo CBC aes_encrypt atualizado para gerar IVs aleatórios.
    • [SPARK-43378] Fechar corretamente os objetos de fluxo em deserializeFromChunkedBuffer.
  • 17 de maio de 2023
    • As verificações parquet agora são robustas em relação aos OOMs ao verificar arquivos excepcionalmente estruturados ajustando dinamicamente o tamanho do lote. Os metadados de arquivo são analisados para reduzir preventivamente o tamanho do lote e são reduzidos novamente em tentativas de tarefa como uma rede de segurança final.
    • Se um arquivo Avro fosse lido apenas com a opção failOnUnknownFields ou com o Carregador Automático no modo de evolução do esquema failOnNewColumns, as colunas que têm tipos de dados diferentes seriam lidas como null em vez de gerar um erro informando que o arquivo não pode ser lido. Essas leituras agora falham e recomendam que os usuários usem a opção rescuedDataColumn.
    • O Carregador Automático agora faz o seguinte.
      • Lê corretamente e não resgata mais os tipos Integer, Short, Byte se um desses tipos de dados for fornecido, mas o arquivo Avro sugere um dos outros dois tipos.
      • Impede a leitura de tipos de intervalo como tipos de data ou carimbo de data/hora para evitar a obtenção de datas corrompidas.
      • Impede tipos de leitura Decimal com precisão mais baixa.
    • [SPARK-43172] Expõe o host e o token do cliente do Spark Connect.
    • [SPARK-43293] __qualified_access_only é ignorado em colunas normais.
    • [SPARK-43098] Corrigido o bug COUNT de correção quando a subconsulta escalar é agrupada por cláusula.
    • [SPARK-43085] Suporte para atribuição de coluna DEFAULT para nomes de tabela de várias partes.
    • [SPARK-43190] ListQuery.childOutput já é consistente com a saída secundária.
    • [SPARK-43192] Removida a validação do conjunto de caracteres do agente de usuário.
    • Atualizações de segurança do sistema operacional.
  • 25 de abril de 2023
    • Se um arquivo Parquet fosse lido apenas com a opção failOnUnknownFields ou com o Carregador Automático no modo de evolução do esquema failOnNewColumns, as colunas que têm tipos de dados diferentes seriam lidas como null em vez de gerar um erro informando que o arquivo não pode ser lido. Essas leituras agora falham e recomendam que os usuários usem a opção rescuedDataColumn.
    • O Carregador Automático agora lê corretamente e não resgata mais os tipos Integer, Short, Byte se um desses tipos de dados for fornecido. O arquivo Parquet sugere um dos outros dois tipos. Quando a coluna de dados resgatados foi habilitada anteriormente, a incompatibilidade de tipo de dados faria com que as colunas fossem salvas mesmo que fossem legíveis.
    • [SPARK-43009] sql() parametrizado com constantes Any
    • [SPARK-42406] Encerrar campos recursivos do Protobuf removendo o campo
    • [SPARK-43038] Suporte ao modo GCM por aes_encrypt()/aes_decrypt()
    • [SPARK-42971] Alterar para imprimir workdir se appDirs for nulo quando o evento de identificador WorkDirCleanup de trabalho
    • [SPARK-43018] Corrigir o bug para comandos INSERT com literais de carimbo de data/hora
    • Atualizações de segurança do sistema operacional.
  • 11 de abril de 2023
    • Suporte a formatos de fonte de dados herdados no comando SYNC.
    • Corrige um problema no comportamento %autoreload em notebooks fora de um repositório.
    • Correção de um problema em que a evolução do esquema do Carregador Automático pode entrar em um loop de falha infinito quando uma nova coluna é detectada no esquema de um objeto JSON aninhado.
    • [SPARK-42928] Torna resolvePersistentFunction sincronizado.
    • [SPARK-42936] Corrige o problema de LCA quando a cláusula pode ser resolvida diretamente por sua agregação filho.
    • [SPARK-42967] Corrige SparkListenerTaskStart.stageAttemptId quando uma tarefa é iniciada após o cancelamento do estágio.
    • Atualizações de segurança do sistema operacional.
  • 29 de março de 2023
    • O Databricks SQL agora dá suporte à especificação de valores padrão para colunas de tabelas do Delta Lake, seja no momento da criação da tabela ou posteriormente. Os comandos INSERT, UPDATE, DELETE, e MERGE subsequentes podem se referir ao valor padrão de uma coluna usando a palavra-chave DEFAULT explícita. Além disso, se qualquer atribuição INSERT tiver uma lista explícita de menos colunas do que a tabela de destino, os valores padrão de coluna correspondentes serão substituídos pelas colunas restantes (ou NULL se nenhum padrão for especificado).

      Por exemplo:

      CREATE TABLE t (first INT, second DATE DEFAULT CURRENT_DATE());
      INSERT INTO t VALUES (0, DEFAULT);
      INSERT INTO t VALUES (1, DEFAULT);
      SELECT first, second FROM t;
      > 0, 2023-03-28
      1, 2023-03-28z
      
    • O Carregador Automático agora inicia pelo menos um log do RocksDB síncrono limpo para fluxos Trigger.AvailableNow para verificar se o ponto de verificação pode ser limpo regularmente para fluxos do Carregador Automático em execução rápida. Isso pode fazer com que alguns fluxos levem mais tempo antes de serem desligados, mas economizarão custos de armazenamento e aprimorarão a experiência do Carregador Automático em execuções futuras.

    • Agora você pode modificar uma tabela Delta para adicionar suporte a recursos de tabela usando DeltaTable.addFeatureSupport(feature_name).

    • [SPARK-42794] Aumentar o lockAcquireTimeoutMs para 2 minutos para adquirir o repositório de estado RocksDB no Fluxo Estruturado

    • [SPARK-42521] Adicionar NULLs para INSERTSs com listas especificadas pelo usuário de menos colunas do que a tabela de destino

    • [SPARK-42702][SPARK-42623] Suporte à consulta parametrizada em subconsulta e CTE

    • [SPARK-42668] Capturar exceção ao tentar fechar o fluxo compactado na interrupção de HDFSStateStoreProvider

    • [SPARK-42403] JsonProtocol deve lidar com cadeias de caracteres JSON nulas

  • 8 de março de 2023
    • A mensagem de erro "Falha ao inicializar a configuração" foi aprimorada para fornecer mais contexto para o cliente.
    • Há uma alteração de terminologia para adicionar recursos a uma tabela Delta usando a propriedade table. A sintaxe preferencial agora 'delta.feature.featureName'='supported' é em vez de 'delta.feature.featureName'='enabled'. Para compatibilidade com versões anteriores, o uso de 'delta.feature.featureName'='enabled' ainda funciona e continuará funcionando.
    • A partir desta versão, é possível criar/substituir uma tabela por uma propriedade delta.ignoreProtocolDefaults de tabela adicional para ignorar configurações do Spark relacionadas ao protocolo, que inclui versões de leitor e gravador padrão, bem como recursos de tabela com suporte por padrão.
    • [SPARK-42070] Alterar o valor padrão da função Mask de -1 para NULL
    • [SPARK-41793] Resultado incorreto para quadros de janela definidos por uma cláusula de intervalo em decimais significantes
    • [SPARK-42484] Mensagem de erro UnsafeRowUtils aprimorada
    • [SPARK-42516] Sempre capturar a configuração de fuso horário da sessão ao criar exibições
    • [SPARK-42635] Corrigir a expressão TimestampAdd.
    • [SPARK-42622] Substituição desativada em valores
    • [SPARK-42534] Corrigir cláusula DB2Dialect Limit
    • [SPARK-42121] Adicionar funções internas com valor de tabela posexplode, posexplode_outer, json_tuple e stack
    • [SPARK-42045] Modo ANSI SQL: Round/Bround deve retornar um erro no estouro de inteiro minúsculo/pequeno/grande
    • Atualizações de segurança do sistema operacional.

Databricks Runtime 11.3 LTS

Confira Databricks Runtime 11.3 LTS.

  • 10 de setembro de 2024
  • 20 de agosto de 2024
    • [SPARK-48941][SPARK-48970] Correções do gravador / leitor de ML do backport
    • [SPARK-49065][SQL] A troca de base em formatadores/analisadores legados deve ser compatível com os fusos horários padrão não JVM
    • [SPARK-48597][SQL] Introduzir um marcador para a propriedade isStreaming na representação de texto do plano lógico
    • [SPARK-48463][ML] Tornar o StringIndexer compatível com as colunas de entrada aninhadas
    • Atualizações de segurança do sistema operacional.
  • 7 de agosto de 2024
  • 1 de agosto de 2024
    • Para aplicar os patches de segurança necessários, a versão do Python no Databricks Runtime 11.3 LTS é atualizada de 3.9.5 para 3.9.19.
  • 11 de julho de 2024
    • [SPARK-48383][SS] Gerar erro melhor para partições incompatíveis na opção startOffset no Kafka
    • [SPARK-47070] Corrigir agregação inválida após uma reescrita de subconsulta
    • Atualizações de segurança do sistema operacional.
  • 17 de junho de 2024
    • Atualizações de segurança do sistema operacional.
  • 21 de maio de 2024
    • [SPARK-48105][SS] Corrigir a condição de corrida entre o descarregamento do repositório de estado e o instantâneo
    • Atualizações de segurança do sistema operacional.
  • 09 de maio de 2024
    • [SPARK-48018][SS] Corrigir groupId nulo causando erro de param ausente ao lançar KafkaException.couldNotReadOffsetRange
    • [SPARK-47973][CORE] Registrar site de chamada no SparkContext.stop() e posterior no SparkContext.assertNotStopped()
    • [SPARK-44251][SQL] Definir anulável corretamente na chave de junção unida na junção USING externa completa
    • Atualizações de segurança do sistema operacional.
  • 25 de abril de 2024
    • Atualizações de segurança do sistema operacional.
  • 11 de abril de 2024
    • Atualizações de segurança do sistema operacional.
  • 1º de abril de 2024
    • [SPARK-44252][SS] Definir uma nova classe de erro e aplicar para o caso em que o estado de carregamento do DFS falha
    • [SPARK-47135][SS] Implementar classes de erro para exceções de perda de dados do Kafka
    • Reverter “[SPARK-46861][CORE] Evitar Deadlock no DAGScheduler”
    • [SPARK-47200][SS] Classe de erro para o erro de função de usuário do coletor de lote Foreach
    • Atualizações de segurança do sistema operacional.
  • 14 de março de 2024
    • [SPARK-47167][SQL] Adicionar classe concreta para relação anônima JDBC
    • [SPARK-47125][SQL] Retornar nulo se Univocity nunca dispara a análise
    • Atualizações de segurança do sistema operacional.
  • 29 de fevereiro de 2024
    • Correção de um problema em que o uso de uma coleção local como origem em um comando MERGE poderia resultar na métrica de operação numSourceRows informando o dobro do número correto de linhas.
    • [SPARK-45582][SS] Verificar se a instância do repositório não é usada após chamar a confirmação dentro da agregação de streaming do modo de saída
  • 13 de fevereiro de 2024
    • [SPARK-46794] Remover subconsultas de restrições LogicalRDD.
    • [SPARK-46861] Evitar deadlock no DAGScheduler.
    • Atualizações de segurança do sistema operacional.
  • 31 de janeiro de 2024
    • Atualizações de segurança do sistema operacional.
  • 25 de dezembro de 2023
    • Para evitar maior latência ao se comunicar pelo TLSv1.3, essa versão de manutenção inclui um patch para a instalação do JDK 8 para corrigir o bug JDK-8293562 do JDK.
    • [SPARK-46058] Adiciona um sinalizador separado para privateKeyPassword.
    • [SPARK-46602] Propaga allowExisting na criação da exibição quando a exibição/tabela não existir.
    • [SPARK-46394] Corrige problemas do spark.catalog.listDatabases() em esquemas com caracteres especiais quando spark.sql.legacy.keepCommandOutputSchema está definido como “true”.
    • [SPARK-46538] Corrige o problema de referência de coluna ambígua em ALSModel.transform.
    • [SPARK-39440] Adiciona uma configuração para desabilitar a linha do tempo do evento.
    • [SPARK-46249] Exige bloqueio de instância para adquirir métricas do RocksDB, a fim de evitar conflitos com operações em segundo plano.
    • [SPARK-46132] Suporte a senha de chave para chaves JKS para SSL de RPC.
  • 14 de dezembro de 2023
    • Correção de um problema em que os sublinhados escapados nas operações getColumns provenientes de clientes JDBC ou ODBC eram tratados incorretamente e interpretados como curingas.
    • Atualizações de segurança do sistema operacional.
  • 29 de novembro de 2023
    • Instalou um novo pacote pyarrow-hotfix para corrigir uma vulnerabilidade do PyArrow RCE.
    • Corrigido um problema em que os sublinhados com escape em operações de getColumns provenientes de clientes JDBC ou ODBC eram interpretados incorretamente como curingas.
    • [SPARK-43973] A interface do usuário do Fluxo Estruturado agora exibe corretamente as consultas com falha.
    • [SPARK-45730] Restrições de tempo aprimoradas para ReloadingX509TrustManagerSuite.
    • [SPARK-45544] Suporte integrado a SSL em TransportContext.
    • [SPARK-45859] Tornou objetos UDF em ml.functions lentos.
    • [SPARK-43718] Corrigida a nulidade de chaves em junções de USING.
    • [SPARK-44846] Removidas expressões de agrupamento complexas após RemoveRedundantAggregates.
    • Atualizações de segurança do sistema operacional.
  • 14 de novembro de 2023
    • Os filtros de partição nas consultas de streaming do Delta Lake são empurrados para baixo antes do limite de taxa para obter uma melhor utilização.
    • [SPARK-42205] Removidos os acumuladores de log nos eventos de início Stage e Task.
    • [SPARK-45545] SparkTransportConf herda SSLOptions na criação.
    • Reverter [SPARK-33861].
    • [SPARK-45541] SSLFactory adicionado.
    • [SPARK-45429] Classes auxiliares adicionadas para comunicação SSL RPC.
    • [SPARK-45584] Falha de execução corrigida de subconsulta com TakeOrderedAndProjectExec.
    • [SPARK-45430] FramelessOffsetWindowFunction não falha mais quando IGNORE NULLS e offset > rowCount.
    • [SPARK-45427] Configurações adicionadas de RPC SSL para SSLOptions e SparkTransportConf.
    • Atualizações de segurança do sistema operacional.
  • 24 de outubro de 2023
    • [SPARK-45426] Suporte adicionado para ReloadingX509TrustManager.
    • Correções diversas.
  • 13 de outubro de 2023
    • A dependência snowflake-jdbc foi atualizada de 3.13.29 para a 3.13.33.
    • [SPARK-45178] Fallback para executar um lote único para Trigger.AvailableNow com fontes sem suporte em vez de usar o wrapper.
    • [SPARK-45084] StateOperatorProgress para usar um número de partição de ordem aleatória preciso e adequado.
    • [SPARK-45346] Agora, a inferência do esquema Parquet respeita o sinalizador que diferencia maiúsculas de minúsculas ao mesclar um esquema.
    • Atualizações de segurança do sistema operacional.
  • 10 de setembro de 2023
    • Correções diversas.
  • 30 de agosto de 2023
    • [SPARK-44818] Correção da disputa para interrupção de tarefa pendente emitida antes taskThread de ser inicializado.
    • [SPARK-44871][11.3-13.0] Comportamento percentile_disc corrigido.
    • Atualizações de segurança do sistema operacional.
  • 15 de agosto de 2023
    • [SPARK-44485] TreeNode.generateTreeString otimizado.
    • [SPARK-44504] A tarefa de manutenção limpa os provedores carregados em caso de erro de parada.
    • [SPARK-44464] applyInPandasWithStatePythonRunner corrigido para linhas de saída que têm Null como o valor da primeira coluna.
    • Atualizações de segurança do sistema operacional.
  • 27 de julho de 2023
    • Foi corrigido um problema em que dbutils.fs.ls() retornava INVALID_PARAMETER_VALUE.LOCATION_OVERLAP quando chamado para um caminho de local de armazenamento que entrava em conflito com outro local de armazenamento externo ou gerenciado.
    • [SPARK-44199] CacheManager não atualiza mais o fileIndex desnecessariamente.
    • Atualizações de segurança do sistema operacional.
  • 24 de julho de 2023
    • [SPARK-44136] Corrigido um problema em que o StateManager podia ser materializado no executor em vez de no driver em FlatMapGroupsWithStateExec.
    • Atualizações de segurança do sistema operacional.
  • 23 de junho de 2023
    • Atualizações de segurança do sistema operacional.
  • 15 de junho de 2023
    • approx_count_distinct fotonizado.
    • A biblioteca Snowflake-jdbc foi atualizada para 3.13.29 para que fosse resolvido um problema de segurança.
    • [SPARK-43779] Agora, ParseToDate carrega EvalMode no thread principal.
    • [SPARK-40862] Suportar subconsultas não agregadas em RewriteCorrelatedScalarSubquery
    • [SPARK-43156][SPARK-43098] Teste de bug de contagem de subconsultas escalar estendida com decorrelateInnerQuery desativado.
    • [SPARK-43098] Corrige o bug COUNT de correção quando a subconsulta escalar tiver uma cláusula group by
    • Atualizações de segurança do sistema operacional.
  • 2 de junho de 2023
    • O analisador JSON no modo failOnUnknownFields descarta um registro no modo DROPMALFORMED e falha diretamente no modo FAILFAST.
    • Aprimoramento do desempenho da atualizações incrementais com Iceberg e Parquet SHALLOW CLONE.
    • Corrigido um problema no Carregador Automático em que diferentes formatos de arquivo de origem eram inconsistentes quando o esquema fornecido não incluía partições inferidas. Esse problema pode causar falhas inesperadas ao ler arquivos com colunas ausentes no esquema de partição inferido.
    • [SPARK-43404] Ignorar a reutilização do arquivo SST para a mesma versão do armazenamento de estado do RocksDB para evitar erro de incompatibilidade de ID.
    • [SPARK-43527] Corrigido catalog.listCatalogs no PySpark.
    • [SPARK-43413][11.3-13.0] Corrigida a subconsulta IN da nulidade ListQuery.
    • [SPARK-43340] Corrigido o campo de rastreamento de pilha ausente em eventlogs.

Databricks Runtime 10.4 LTS

Consulte Databricks Runtime 10.4 LTS.

  • 10 de setembro de 2024
    • [SPARK-49065][SQL] A troca de base em formatadores/analisadores legados deve ser compatível com os fusos horários padrão não JVM
  • 20 de agosto de 2024
    • [SPARK-48597][SQL] Introduzir um marcador para a propriedade isStreaming na representação de texto do plano lógico
    • [SPARK-48941][SPARK-48970] Correções do gravador / leitor de ML do backport
    • [SPARK-48463][ML] Tornar o StringIndexer compatível com as colunas de entrada aninhadas
  • 7 de agosto de 2024
  • 11 de julho de 2024
    • [SPARK-48383][SS] Gerar erro melhor para partições incompatíveis na opção startOffset no Kafka
    • Atualizações de segurança do sistema operacional.
  • 17 de junho de 2024
    • Atualizações de segurança do sistema operacional.
  • 21 de maio de 2024
    • [SPARK-48105][SS] Corrigir a condição de corrida entre o descarregamento do repositório de estado e o instantâneo
    • Atualizações de segurança do sistema operacional.
  • 09 de maio de 2024
    • [SPARK-48018][SS] Corrigir groupId nulo causando erro de param ausente ao lançar KafkaException.couldNotReadOffsetRange
    • [SPARK-47973][CORE] Registrar site de chamada no SparkContext.stop() e posterior no SparkContext.assertNotStopped()
    • [SPARK-44251][SQL] Definir anulável corretamente na chave de junção unida na junção USING externa completa
    • Atualizações de segurança do sistema operacional.
  • 25 de abril de 2024
    • Atualizações de segurança do sistema operacional.
  • 11 de abril de 2024
    • Atualizações de segurança do sistema operacional.
  • 1º de abril de 2024
    • [SPARK-47135][SS] Implementar classes de erro para exceções de perda de dados do Kafka
    • [SPARK-44252][SS] Definir uma nova classe de erro e aplicar para o caso em que o estado de carregamento do DFS falha
    • [SPARK-47200][SS] Classe de erro para o erro de função de usuário do coletor de lote Foreach
    • Reverter “[SPARK-46861][CORE] Evitar Deadlock no DAGScheduler”
    • Atualizações de segurança do sistema operacional.
  • 14 de março de 2024
    • [SPARK-47125][SQL] Retornar nulo se Univocity nunca dispara a análise
    • Atualizações de segurança do sistema operacional.
  • 29 de fevereiro de 2024
    • Correção de um problema em que o uso de uma coleção local como origem em um comando MERGE poderia resultar na métrica de operação numSourceRows informando o dobro do número correto de linhas.
    • [SPARK-45582][SS] Verificar se a instância do repositório não é usada após chamar a confirmação dentro da agregação de streaming do modo de saída
    • Atualizações de segurança do sistema operacional.
  • 13 de fevereiro de 2024
    • [SPARK-46861] Evitar deadlock no DAGScheduler.
    • Atualizações de segurança do sistema operacional.
  • 31 de janeiro de 2024
    • Atualizações de segurança do sistema operacional.
  • 25 de dezembro de 2023
    • Para evitar maior latência ao se comunicar pelo TLSv1.3, essa versão de manutenção inclui um patch para a instalação do JDK 8 para corrigir o bug JDK-8293562 do JDK.
    • [SPARK-46058] Adiciona um sinalizador separado para privateKeyPassword.
    • [SPARK-46538] Corrige o problema de referência de coluna ambígua em ALSModel.transform.
    • [SPARK-39440] Adiciona uma configuração para desabilitar a linha do tempo do evento.
    • [SPARK-46132] Suporte a senha de chave para chaves JKS para SSL de RPC.
  • 14 de dezembro de 2023
    • Atualizações de segurança do sistema operacional.
  • 29 de novembro de 2023
    • Instalou um novo pacote pyarrow-hotfix para corrigir uma vulnerabilidade do PyArrow RCE.
    • [SPARK-45544] Suporte integrado a SSL em TransportContext.
    • [SPARK-45859] Tornou objetos UDF em ml.functions lentos.
    • [SPARK-43718] Corrigida a nulidade de chaves em junções de USING.
    • [SPARK-45730] Restrições de tempo aprimoradas para ReloadingX509TrustManagerSuite.
    • [SPARK-42205] Removidos os acumuladores de log nos eventos de início Stage e Task.
    • [SPARK-44846] Removidas expressões de agrupamento complexas após RemoveRedundantAggregates.
    • Atualizações de segurança do sistema operacional.
  • 14 de novembro de 2023
    • [SPARK-45541] SSLFactory adicionado.
    • [SPARK-45545] SparkTransportConf herda SSLOptions na criação.
    • [SPARK-45427] Configurações adicionadas de RPC SSL para SSLOptions e SparkTransportConf.
    • [SPARK-45429] Classes auxiliares adicionadas para comunicação SSL RPC.
    • [SPARK-45584] Falha de execução corrigida de subconsulta com TakeOrderedAndProjectExec.
    • Reverter [SPARK-33861].
    • Atualizações de segurança do sistema operacional.
  • 24 de outubro de 2023
    • [SPARK-45426] Suporte adicionado para ReloadingX509TrustManager.
    • Atualizações de segurança do sistema operacional.
  • 13 de outubro de 2023
    • [SPARK-45084] StateOperatorProgress para usar um número de partição de ordem aleatória preciso e adequado.
    • [SPARK-45178] Fallback para executar um lote único para Trigger.AvailableNow com fontes sem suporte em vez de usar o wrapper.
    • Atualizações de segurança do sistema operacional.
  • 10 de setembro de 2023
    • Correções diversas.
  • 30 de agosto de 2023
    • [SPARK-44818] Correção da disputa para interrupção de tarefa pendente emitida antes taskThread de ser inicializado.
    • Atualizações de segurança do sistema operacional.
  • 15 de agosto de 2023
    • [SPARK-44504] A tarefa de manutenção limpa os provedores carregados em caso de erro de parada.
    • [SPARK-43973] A interface do usuário do Fluxo Estruturado agora aparece corretamente as consultas com falha.
    • Atualizações de segurança do sistema operacional.
  • 23 de junho de 2023
    • Atualizações de segurança do sistema operacional.
  • 15 de junho de 2023
    • A biblioteca Snowflake-jdbc foi atualizada para 3.13.29 para que fosse resolvido um problema de segurança.
    • [SPARK-43098] Corrige o bug COUNT de correção quando a subconsulta escalar tiver uma cláusula group by
    • [SPARK-40862] Suportar subconsultas não agregadas em RewriteCorrelatedScalarSubquery
    • [SPARK-43156][SPARK-43098] Teste de contagem de subconsultas escalar estendida com decorrelateInnerQuery desativado.
    • Atualizações de segurança do sistema operacional.
  • 2 de junho de 2023
    • O analisador JSON no modo failOnUnknownFields descarta um registro no modo DROPMALFORMED e falha diretamente no modo FAILFAST.
    • Corrigido um problema na análise de dados resgatados JSON para evitar UnknownFieldException.
    • Corrigido um problema no Carregador Automático em que diferentes formatos de arquivo de origem eram inconsistentes quando o esquema fornecido não incluía partições inferidas. Esse problema pode causar falhas inesperadas ao ler arquivos com colunas ausentes no esquema de partição inferido.
    • [SPARK-43404] Ignorar a reutilização do arquivo SST para a mesma versão do armazenamento de estado do RocksDB para evitar erro de incompatibilidade de ID.
    • [SPARK-43413] Corrigida a subconsulta IN da nulidade ListQuery.
    • Atualizações de segurança do sistema operacional.
  • 17 de maio de 2023
    • As verificações parquet agora são robustas em relação aos OOMs ao verificar arquivos excepcionalmente estruturados ajustando dinamicamente o tamanho do lote. Os metadados de arquivo são analisados para reduzir preventivamente o tamanho do lote e são reduzidos novamente em tentativas de tarefa como uma rede de segurança final.
    • [SPARK-41520] Dividir padrão de árvore AND_OR para separar AND e OR.
    • [SPARK-43190] ListQuery.childOutput já é consistente com a saída secundária.
    • Atualizações de segurança do sistema operacional.
  • 25 de abril de 2023
    • [SPARK-42928] Tornar o resolvePersistentFunction sincronizado.
    • Atualizações de segurança do sistema operacional.
  • 11 de abril de 2023
    • Correção de um problema em que a evolução do esquema do Carregador Automático pode entrar em um loop de falha infinito quando uma nova coluna é detectada no esquema de um objeto JSON aninhado.
    • [SPARK-42937] PlanSubqueries agora define InSubqueryExec#shouldBroadcast como true.
    • [SPARK-42967] Corrigir SparkListenerTaskStart.stageAttemptId quando uma tarefa é iniciada após o cancelamento do estágio.
  • 29 de março de 2023
    • [SPARK-42668] Capturar exceção ao tentar fechar o fluxo compactado na interrupção de HDFSStateStoreProvider
    • [SPARK-42635] Corrigir o…
    • Atualizações de segurança do sistema operacional.
  • 14 de março de 2023
    • [SPARK-41162] Corrigir a junção anti e semi para autojunção com agregações
    • [SPARK-33206] Corrigir o cache de índice de cálculo de peso em ordem aleatória para arquivos de índice pequenos
    • [SPARK-42484] Aprimorou a mensagem de erro UnsafeRowUtils
    • Correções diversas.
  • 28 de fevereiro de 2023
    • Suporte à coluna gerada para yyyy-MM-dd date_format. Essa alteração dá suporte à remoção de partição para aaaa-MM-dd como um date_format em colunas geradas.
    • Os usuários agora podem ler e gravar tabelas Delta específicas que exigem o Leitor versão 3 e o Gravador versão 7, usando o Databricks Runtime 9.1 LTS ou posterior. Para ter êxito, os recursos de tabela listados no protocolo das tabelas devem ter suporte da versão atual do Databricks Runtime.
    • Suporte à coluna gerada para yyyy-MM-dd date_format. Essa alteração dá suporte à remoção de partição para aaaa-MM-dd como um date_format em colunas geradas.
    • Atualizações de segurança do sistema operacional.
  • 16 de fevereiro de 2023
    • [SPARK-30220] Habilitar o uso de subconsultas Exists/In fora do nó Filtro
    • Atualizações de segurança do sistema operacional.
  • 31 de janeiro de 2023
    • Os tipos de tabelas JDBC agora são EXTERNAL por padrão.
  • 18 de janeiro de 2023
    • O conector do Azure Synapse retorna uma mensagem de erro mais descritiva quando um nome de coluna contém caracteres inválidos, como espaços em branco ou ponto e vírgula. Nesses casos, a seguinte mensagem será retornada: Azure Synapse Analytics failed to run the JDBC query produced by the connector. Check column names do not include not valid characters such as ';' or white space.
    • [SPARK-38277] Limpar o lote de gravação após a confirmação do armazenamento de estado de RocksDB
    • [SPARK-41199] Corrigir o problema de métricas quando a fonte de transmissão DSv1 e a fonte de transmissão DSv2 são coutilizadas
    • [SPARK-41198] Corrigir métricas na consulta de transmissão com fonte de transmissão CTE e DSv1.
    • [SPARK-41339] Fechar e recriar o lote de gravação de RocksDB em vez de apenas limpar.
    • [SPARK-41732] Aplicar remoção baseada em padrão de árvore para a regra SessionWindowing.
    • Atualizações de segurança do sistema operacional.
  • 29 de novembro de 2022
    • Os usuários podem configurar o comportamento dos espaços em branco à esquerda e à direita ao escrever dados usando o conector do Redshift. As seguintes opções foram adicionadas para controlar o tratamento de espaço em branco:
      • csvignoreleadingwhitespace, quando definido como true, remove o espaço em branco à esquerda dos valores ao escrever quando tempformat é definido como CSV ou CSV GZIP. Os espaços em branco são mantidos quando a configuração é definida como false. Por padrão, o valor é true.
      • csvignoretrailingwhitespace, quando definido como true, remove o espaço em branco à direita dos valores ao escrever quando tempformat é definido como CSV ou CSV GZIP. Os espaços em branco são mantidos quando a configuração é definida como false. Por padrão, o valor é true.
    • Corrigido um problema com análise de JSON no Carregador Automático quando todas as colunas eram deixadas como cadeias de caracteres (cloudFiles.inferColumnTypes não era definido como false) e o JSON continha objetos aninhados.
    • Atualizações de segurança do sistema operacional.
  • 15 de novembro de 2022
    • Atualização do Apache commons-text para 1.10.0.
    • [SPARK-40646] A análise de JSON para structs, mapas e matrizes foi corrigida para que, quando uma parte de um registro não corresponder ao esquema, o restante do registro ainda possa ser analisado corretamente em vez de retornar nulos. Para aceitar o comportamento aprimorado, defina spark.sql.json.enablePartialResults como true. O sinalizador é desabilitado por padrão para preservar o comportamento original.
    • [SPARK-40292] Corrigir os nomes da coluna na função arrays_zip quando as matrizes forem referenciadas por structs aninhados
    • Atualizações de segurança do sistema operacional.
  • 1º de novembro de 2022
    • Corrigido um problema em que, se uma tabela Delta tivesse uma coluna definida pelo usuário chamada _change_type, mas se Alterar feed de dados estivesse desabilitado nessa tabela, os dados dessa coluna preencheriam incorretamente com valores NULL ao executar MERGE.
    • Corrigido um problema com o Carregador Automático em que um arquivo podia ser duplicado no mesmo microlote quando allowOverwrites estivesse habilitado
    • [SPARK-40697] Adicionar preenchimento de caracteres do lado da leitura para cobrir arquivos de dados externos
    • [SPARK-40596] Preencher ExecutorDecommission com mensagens em ExecutorDecommissionInfo
    • Atualizações de segurança do sistema operacional.
  • 18 de outubro de 2022
    • Atualizações de segurança do sistema operacional.
  • 5 de outubro de 2022
    • [SPARK-40468] Corrigir a remoção de coluna no CSV quando _corrupt_record estiver selecionado.
    • Atualizações de segurança do sistema operacional.
  • 22 de setembro de 2022
    • Os usuários podem definir spark.conf.set(spark.databricks.io.listKeysWithPrefix.azure.enabled, true) para reabilitar a listagem interna do Carregador Automático no ADLS Gen2. A listagem interna foi desativada anteriormente devido a problemas de desempenho, mas pode ter gerado um aumento nos custos de armazenamento para os clientes.
    • [SPARK-40315] Adicionar hashCode() para Literal de ArrayBasedMapData
    • [SPARK-40213] Suporte à conversão de valor ASCII para caracteres Latin-1
    • [SPARK-40380] Corrigir dobra constante de InvokeLike para evitar literais não serializáveis inseridos no plano
    • [SPARK-38404] Aprimorar a resolução de CTE quando uma CTE aninhada faz referência a uma CTE externa
    • [SPARK-40089] Corrigir a classificação para alguns tipos Decimais
    • [SPARK-39887] RemoveRedundantAliases deve manter os aliases que tornam a saída de nós de projeção exclusiva
  • 06 de setembro de 2022
    • SPARK-40235 Usa o bloqueio interruptível em vez de sincronizado em Executor.updateDependencies().
    • [SPARK-40218] Os GROUPING SETS devem preservar as colunas de agrupamento.
    • [SPARK-39976] O ArrayIntersect deve processar null na expressão à esquerda corretamente.
    • [SPARK-40053] Adiciona assume aos casos de cancelamento dinâmico que exigem o ambiente de runtime do Python.
    • [SPARK-35542] Correção: o classificador em buckets criado para várias colunas com os parâmetros splitsArray, inputCols e outputCols não pode ser carregado após salvá-lo.
    • [SPARK-40079] Adição da validação inputCols do imputador para o caso de entrada vazio.
  • 24 de agosto de 2022
    • [SPARK-39983] Não armazena as relações de transmissão não serializadas em cache no driver.
    • [SPARK-39775] Desabilita a validação de valores padrão ao analisar esquemas Avro.
    • [SPARK-39962] Aplicar projeção quando os atributos de grupo estiverem vazios
    • [SPARK-37643] Quando charVarcharAsString for verdadeiro, a consulta de predicado de tipo de dados char deve ignorar a regra de rpadding.
    • Atualizações de segurança do sistema operacional.
  • 9 de agosto de 2022
    • [SPARK-39847] Corrigir condição de disputa em RocksDBLoader.loadLibrary() se o thread do chamador for interrompido
    • [SPARK-39731] Corrigir problemas em fontes de dados CSV e JSON ao analisar datas no formato "yyyyMMdd" com política de analisador de tempo CORRIGIDA
    • Atualizações de segurança do sistema operacional.
  • 27 de julho de 2022
    • [SPARK-39625] Adiciona Dataset.as(StructType).
    • [SPARK-39689] Suporte a lineSep de 2 caracteres na fonte de dados CSV.
    • [SPARK-39104] InMemoryRelation#isCachedColumnBuffersLoaded deve ser thread-safe.
    • [SPARK-39570] A tabela embutida deve permitir expressões com alias.
    • [SPARK-39702] Reduz a sobrecarga de memória de TransportCipher$EncryptedMessage usando um byteRawChannel compartilhado.
    • [SPARK-39575] Adiciona ByteBuffer#rewind após ByteBuffer#get no AvroDeserializer.
    • [SPARK-39476] Desabilita a otimização de conversão de cancelamento de quebra de linha ao converter de Long para Float/Double ou de Integer para Float.
    • [SPARK-38868] Não propaga exceções do predicado de filtro ao otimizar junções externas.
    • Atualizações de segurança do sistema operacional.
  • 20 de julho de 2022
    • Torne os resultados da operação Delta MERGE consistentes quando a origem não for determinística.
    • [SPARK-39355] A coluna única usa aspas para construir UnresolvedAttribute.
    • [SPARK-39548] O comando CreateView com uma consulta de cláusula de janela aciona um problema de definição de janela incorreta não encontrada.
    • [SPARK-39419] Corrige ArraySort para lançar uma exceção quando o comparador retorna nulo.
    • Desabilitado o uso de APIs de nuvem internas do Carregador Automático para listagem de diretórios no Azure.
    • Atualizações de segurança do sistema operacional.
  • 5 de julho de 2022
    • [SPARK-39376] Ocultar colunas duplicadas na expansão em estrela do alias de subconsulta de NATURAL/USING JOIN
    • Atualizações de segurança do sistema operacional.
  • 15 de junho de 2022
    • [SPARK-39283]Corrige o deadlock entre TaskMemoryManager e UnsafeExternalSorter.SpillableIterator.
    • [SPARK-39285] O Spark não deve verificar nomes de campo ao ler arquivos.
    • [SPARK-34096] Aprimora o desempenho de nth_value e ignorar nulos durante a janela de deslocamento.
    • [SPARK-36718] Corrige a verificação isExtractOnly em CollapseProject.
  • 2 de junho de 2022
    • [SPARK-39093] Evita o erro de compilação de codegen ao dividir intervalos de ano-mês ou intervalos de dia-hora por um integral.
    • [SPARK-38990] Evita NullPointerException ao avaliar o formato date_trunc/trunc como uma referência associada.
    • Atualizações de segurança do sistema operacional.
  • 18 de maio de 2022
    • Corrige um possível vazamento de memória interna no Carregador Automático.
    • [SPARK-38918] A remoção de coluna aninhada deve filtrar atributos que não pertencem à relação atual.
    • [SPARK-37593] Reduz o tamanho da página padrão por LONG_ARRAY_OFFSET se G1GC e ON_HEAP forem usados.
    • [SPARK-39084] Corrige df.rdd.isEmpty() usando TaskContext para interromper o enumerador na conclusão da tarefa.
    • [SPARK-32268] Adiciona ColumnPruning em injectBloomFilter.
    • [SPARK-38974] Filtra funções registradas com um determinado nome de banco de dados em funções de lista.
    • [SPARK-38931] Cria um diretório dfs raiz para RocksDBFileManager com um número desconhecido de chaves no 1º ponto de verificação.
    • Atualizações de segurança do sistema operacional.
  • 19 de abril de 2022
    • SDK do Java AWS atualizado da versão 1.11.655 para 1.12.1899.
    • Corrigido um problema com bibliotecas com escopo de notebook que não funcionavam em trabalhos de streaming em lotes.
    • [SPARK-38616] Acompanhar texto de consulta SQL no Catalyst TreeNode
    • Atualizações de segurança do sistema operacional.
  • 6 de abril de 2022
    • As seguintes funções SQL do Spark agora estão disponíveis com esta versão:
      • timestampadd() e dateadd(): adicionar uma duração de tempo em uma unidade especificada a uma expressão de carimbo de data/hora.
      • timestampdiff() e datediff(): calcular a diferença de tempo entre duas expressões de carimbo de data/hora em uma unidade especificada.
    • O Parquet-MR foi atualizado para 1.12.2
    • Suporte aprimorado para esquemas abrangentes em arquivos parquet
    • [SPARK-38631] Usa a implementação baseada em Java para descompactar em Utils.unpack.
    • [SPARK-38509][SPARK-38481] Cherry-pick de três alterações de timestmapadd/diff.
    • [SPARK-38523] Correção referente à coluna de registro corrompido do CSV.
    • [SPARK-38237] Permite que ClusteredDistribution exija chaves de clustering completas.
    • [SPARK-38437] Serialização branda de datetime da fonte de dados.
    • [SPARK-38180] Permite expressões de up-cast seguras em predicados de igualdade correlacionados.
    • [SPARK-38155] Não permite agregação distinta em subconsultas laterais com predicados sem suporte.
    • Atualizações de segurança do sistema operacional.

Databricks Runtime 9.1 LTS

Consulte Databricks Runtime 9.1 LTS.

  • 10 de setembro de 2024
    • [SPARK-49065][SQL] A troca de base em formatadores/analisadores legados deve ser compatível com os fusos horários padrão não JVM
  • 20 de agosto de 2024
  • 7 de agosto de 2024
    • Atualizações de segurança do sistema operacional.
  • 11 de julho de 2024
    • Atualizações de segurança do sistema operacional.
  • 17 de junho de 2024
    • Atualizações de segurança do sistema operacional.
  • 21 de maio de 2024
    • [SPARK-48105][SS] Corrigir a condição de corrida entre o descarregamento do repositório de estado e o instantâneo
    • Atualizações de segurança do sistema operacional.
  • 09 de maio de 2024
    • [SPARK-47973][CORE] Registrar site de chamada no SparkContext.stop() e posterior no SparkContext.assertNotStopped()
    • [SPARK-44251][SQL] Definir anulável corretamente na chave de junção unida na junção USING externa completa
    • Atualizações de segurança do sistema operacional.
  • 25 de abril de 2024
    • Diversas correções de bugs.
  • 11 de abril de 2024
    • Atualizações de segurança do sistema operacional.
  • 1º de abril de 2024
    • Reverter “[SPARK-46861][CORE] Evitar Deadlock no DAGScheduler”
    • Atualizações de segurança do sistema operacional.
  • 14 de março de 2024
    • Atualizações de segurança do sistema operacional.
  • 29 de fevereiro de 2024
    • Correção de um problema em que o uso de uma coleção local como origem em um comando MERGE poderia resultar na métrica de operação numSourceRows informando o dobro do número correto de linhas.
    • Atualizações de segurança do sistema operacional.
  • 13 de fevereiro de 2024
    • [SPARK-46861] Evitar deadlock no DAGScheduler.
    • Atualizações de segurança do sistema operacional.
  • 31 de janeiro de 2024
    • Atualizações de segurança do sistema operacional.
  • 25 de dezembro de 2023
    • Para evitar maior latência ao se comunicar pelo TLSv1.3, essa versão de manutenção inclui um patch para a instalação do JDK 8 para corrigir o bug JDK-8293562 do JDK.
    • [SPARK-46058] Adiciona um sinalizador separado para privateKeyPassword.
    • [SPARK-39440] Adiciona uma configuração para desabilitar a linha do tempo do evento.
    • [SPARK-46132] Suporte a senha de chave para chaves JKS para SSL de RPC.
  • 14 de dezembro de 2023
    • Atualizações de segurança do sistema operacional.
  • 29 de novembro de 2023
    • Instalou um novo pacote pyarrow-hotfix para corrigir uma vulnerabilidade do PyArrow RCE.
    • [SPARK-45859] Tornou objetos UDF em ml.functions lentos.
    • [SPARK-45544] Suporte integrado a SSL em TransportContext.
    • [SPARK-45730] Restrições de tempo aprimoradas para ReloadingX509TrustManagerSuite.
    • Atualizações de segurança do sistema operacional.
  • 14 de novembro de 2023
    • [SPARK-45545] SparkTransportConf herda SSLOptions na criação.
    • [SPARK-45429] Classes auxiliares adicionadas para comunicação SSL RPC.
    • [SPARK-45427] Configurações adicionadas de RPC SSL para SSLOptions e SparkTransportConf.
    • [SPARK-45584] Falha de execução corrigida de subconsulta com TakeOrderedAndProjectExec.
    • [SPARK-45541] SSLFactory adicionado.
    • [SPARK-42205] Removidos os acumuladores de log nos eventos de início Stage e Task.
    • Atualizações de segurança do sistema operacional.
  • 24 de outubro de 2023
    • [SPARK-45426] Suporte adicionado para ReloadingX509TrustManager.
    • Atualizações de segurança do sistema operacional.
  • 13 de outubro de 2023
    • Atualizações de segurança do sistema operacional.
  • 10 de setembro de 2023
    • Correções diversas.
  • 30 de agosto de 2023
    • Atualizações de segurança do sistema operacional.
  • 15 de agosto de 2023
    • Atualizações de segurança do sistema operacional.
  • 23 de junho de 2023
    • A biblioteca Snowflake-jdbc foi atualizada para 3.13.29 para que fosse resolvido um problema de segurança.
    • Atualizações de segurança do sistema operacional.
  • 15 de junho de 2023
    • [SPARK-43098] Corrige o bug COUNT de correção quando a subconsulta escalar tiver uma cláusula “group by”.
    • [SPARK-43156][SPARK-43098] Teste de bug de contagem de subconsultas escalar estendida com decorrelateInnerQuery desativado.
    • [SPARK-40862] Suporte a subconsultas não agregadas em RewriteCorrelatedScalarSubquery.
    • Atualizações de segurança do sistema operacional.
  • 2 de junho de 2023
    • O analisador JSON no modo failOnUnknownFields descarta um registro no modo DROPMALFORMED e falha diretamente no modo FAILFAST.
    • Corrigido um problema na análise de dados resgatados JSON para evitar UnknownFieldException.
    • Corrigido um problema no Carregador Automático em que diferentes formatos de arquivo de origem eram inconsistentes quando o esquema fornecido não incluía partições inferidas. Esse problema pode causar falhas inesperadas ao ler arquivos com colunas ausentes no esquema de partição inferido.
    • [SPARK-37520] Adicionar as funções de cadeia de caracteres startswith() e endswith()
    • [SPARK-43413] Corrigida a subconsulta IN da nulidade ListQuery.
    • Atualizações de segurança do sistema operacional.
  • 17 de maio de 2023
    • Atualizações de segurança do sistema operacional.
  • 25 de abril de 2023
    • Atualizações de segurança do sistema operacional.
  • 11 de abril de 2023
    • Correção de um problema em que a evolução do esquema do Carregador Automático pode entrar em um loop de falha infinito quando uma nova coluna é detectada no esquema de um objeto JSON aninhado.
    • [SPARK-42967] Corrigir SparkListenerTaskStart.stageAttemptId quando uma tarefa é iniciada após o cancelamento do estágio.
  • 29 de março de 2023
    • Atualizações de segurança do sistema operacional.
  • 14 de março de 2023
    • [SPARK-42484] Aprimorou a mensagem de erro para UnsafeRowUtils.
    • Correções diversas.
  • 28 de fevereiro de 2023
    • Os usuários agora podem ler e gravar tabelas Delta específicas que exigem o Leitor versão 3 e o Gravador versão 7, usando o Databricks Runtime 9.1 LTS ou posterior. Para ter êxito, os recursos de tabela listados no protocolo das tabelas devem ter suporte da versão atual do Databricks Runtime.
    • Atualizações de segurança do sistema operacional.
  • 16 de fevereiro de 2023
    • Atualizações de segurança do sistema operacional.
  • 31 de janeiro de 2023
    • Os tipos de tabelas JDBC agora são EXTERNAL por padrão.
  • 18 de janeiro de 2023
    • Atualizações de segurança do sistema operacional.
  • 29 de novembro de 2022
    • Corrigido um problema com análise de JSON no Carregador Automático quando todas as colunas eram deixadas como cadeias de caracteres (cloudFiles.inferColumnTypes não era definido como false) e o JSON continha objetos aninhados.
    • Atualizações de segurança do sistema operacional.
  • 15 de novembro de 2022
    • Atualização do Apache commons-text para 1.10.0.
    • Atualizações de segurança do sistema operacional.
    • Correções diversas.
  • 1º de novembro de 2022
    • Corrigido um problema em que, se uma tabela Delta tivesse uma coluna definida pelo usuário chamada _change_type, mas se Alterar feed de dados estivesse desabilitado nessa tabela, os dados dessa coluna preencheriam incorretamente com valores NULL ao executar MERGE.
    • Corrigido um problema com o Carregador Automático em que um arquivo podia ser duplicado no mesmo microlote quando allowOverwrites estivesse habilitado
    • [SPARK-40596] Preencher ExecutorDecommission com mensagens em ExecutorDecommissionInfo
    • Atualizações de segurança do sistema operacional.
  • 18 de outubro de 2022
    • Atualizações de segurança do sistema operacional.
  • 5 de outubro de 2022
    • Correções diversas.
    • Atualizações de segurança do sistema operacional.
  • 22 de setembro de 2022
    • Os usuários podem definir spark.conf.set(“spark.databricks.io.listKeysWithPrefix.azure.enabled”, “true”) para reabilitar a listagem interna do Carregador Automático no ADLS Gen2. A listagem interna foi desativada anteriormente devido a problemas de desempenho, mas pode ter gerado um aumento nos custos de armazenamento para os clientes.
    • [SPARK-40315] Adicionar hashCode() para Literal de ArrayBasedMapData
    • [SPARK-40089] Corrigir a classificação para alguns tipos Decimais
    • [SPARK-39887] RemoveRedundantAliases deve manter os aliases que tornam a saída de nós de projeção exclusiva
  • 06 de setembro de 2022
    • SPARK-40235 Usar o bloqueio interruptível em vez de sincronizado em Executor.updateDependencies()
    • [SPARK-35542] Correção: o classificador em buckets criado para várias colunas com os parâmetros splitsArray, inputCols e outputCols não pode ser carregado após salvá-lo
    • [SPARK-40079] Adição da validação inputCols do imputador para o caso de entrada vazio
  • 24 de agosto de 2022
    • [SPARK-39666] Usar UnsafeProjection.create para respeitar spark.sql.codegen.factoryMode em ExpressionEncoder
    • [SPARK-39962] Aplicar projeção quando os atributos de grupo estiverem vazios
    • Atualizações de segurança do sistema operacional.
  • 9 de agosto de 2022
    • Atualizações de segurança do sistema operacional.
  • 27 de julho de 2022
    • Torne os resultados da operação Delta MERGE consistentes quando a origem não for determinística.
    • [SPARK-39689] Suporte para lineSep de 2 caracteres na fonte de dados CSV
    • [SPARK-39575] ByteBuffer#rewind adicionado após ByteBuffer#get no AvroDeserializer.
    • [SPARK-37392] Corrigido o erro de desempenho do otimizador do catalisador.
    • Atualizações de segurança do sistema operacional.
  • 13 de julho de 2022
    • [SPARK-39419] ArraySort gera uma exceção quando o comparador retorna nulo.
    • Desabilitado o uso de APIs de nuvem internas do Carregador Automático para listagem de diretórios no Azure.
    • Atualizações de segurança do sistema operacional.
  • 5 de julho de 2022
    • Atualizações de segurança do sistema operacional.
    • Correções diversas.
  • 15 de junho de 2022
    • [SPARK-39283] Corrigir o deadlock entre TaskMemoryManager e UnsafeExternalSorter.SpillableIterator.
  • 2 de junho de 2022
    • [SPARK-34554]Implementar o método copy() em ColumnarMap.
    • Atualizações de segurança do sistema operacional.
  • 18 de maio de 2022
    • Corrigido um possível vazamento de memória interna no Carregador Automático.
    • Atualize a versão do SDK do AWS da 1.11.655 para a 1.11.678.
    • [SPARK-38918] A remoção de coluna aninhada deve filtrar atributos que não pertencem à relação atual
    • [SPARK-39084] Corrigir df.rdd.isEmpty() usando TaskContext para interromper o enumerador na conclusão da tarefa
    • Atualizações de segurança do sistema operacional.
  • 19 de abril de 2022
    • Atualizações de segurança do sistema operacional.
    • Correções diversas.
  • 6 de abril de 2022
    • [SPARK-38631] Usa a implementação baseada em Java para descompactar em Utils.unpack.
    • Atualizações de segurança do sistema operacional.
  • 22 de março de 2022
    • Alteração do diretório de trabalho atual dos notebooks em clusters de simultaneidade alta com controle de acesso de tabela ou passagem de credencial habilitada para o diretório inicial do usuário. Anteriormente, o diretório ativo era /databricks/driver.
    • [SPARK-38437] Serialização branda de datetime da fonte de dados
    • [SPARK-38180] Permitir expressões de up-cast seguras em predicados de igualdade correlacionados
    • [SPARK-38155] Não permitir agregação distinta em subconsultas laterais com predicados sem suporte
    • [SPARK-27442] Removido um campo de verificação ao ler ou gravar dados em um parquet.
  • 14 de março de 2022
    • [SPARK-38236]Os caminhos absolutos de arquivo especificados na tabela criar/alterar são tratados como relativos
    • [SPARK-34069] Interromper thread da tarefa se a propriedade local SPARK_JOB_INTERRUPT_ON_CANCEL estiver definida como verdadeiro.
  • 23 de fevereiro de 2022
    • [SPARK-37859] As tabelas SQL criadas com o JDBC com Spark 3.1 não podem ser lidas com o Spark 3.2.
  • 8 de fevereiro de 2022
    • [SPARK-27442] Removido um campo de verificação ao ler ou gravar dados em um parquet.
    • Atualizações de segurança do sistema operacional.
  • 1° de fevereiro de 2022
    • Atualizações de segurança do sistema operacional.
  • 26 de janeiro de 2022
    • Corrigido um problema em que as transações simultâneas em tabelas Delta podiam ser executadas em uma ordem não serializável em determinadas condições raras.
    • Corrigido um problema em que o comando OPTIMIZE poderia falhar quando o dialeto ANSI SQL estava habilitado.
  • 19 de janeiro de 2022
    • Correções secundárias e aprimoramentos de segurança.
    • Atualizações de segurança do sistema operacional.
  • 4 de novembro de 2021
    • Corrigido um problema que fazia com que fluxos do Fluxo Estruturado falhassem com um ArrayIndexOutOfBoundsException.
    • Corrigiu uma condição de corrida que pode causar uma falha de consulta com uma IOException como java.io.IOException: No FileSystem for scheme ou que pode fazer com que as modificações em sparkContext.hadoopConfiguration não afetem as consultas.
    • O Apache Spark Conector para compartilhamento Delta foi atualizado para 0.2.0.
  • 20 de outubro de 2021
    • Conector do BigQuery atualizado de 0.18.1 para 0.22.2. Isso adiciona suporte para o tipo BigNumeric.