Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Esta página arquivada lista as atualizações de manutenção emitidas para versões do Databricks Runtime que não são mais suportadas. Para adicionar uma atualização de manutenção a um cluster existente, reinicie o cluster.
Importante
Esta documentação foi desativada e pode não ser atualizada. Os produtos, serviços ou tecnologias mencionados neste conteúdo chegaram ao fim do suporte. Consulte versões e compatibilidade das notas de lançamento do Databricks Runtime.
Nota
Este artigo contém referências ao termo whitelist, um termo que o Azure Databricks não usa. Quando o termo for removido do software, iremos removê-lo deste artigo.
Versões do Databricks Runtime
Atualizações de manutenção por versão:
- Tempo de execução do Databricks 16.0
- Tempo de execução do Databricks 15.3
- Tempo de execução do Databricks 15.2
- Tempo de execução do Databricks 15.1
- Tempo de execução do Databricks 15.0
- Tempo de execução do Databricks 14.2
- Tempo de execução do Databricks 14.1
- Tempo de execução do Databricks 14.0
- Tempo de execução do Databricks 13.1
- Tempo de execução do Databricks 12.2 LTS
- Tempo de execução do Databricks 11.3 LTS
- Tempo de execução do Databricks 10.4 LTS
- Tempo de execução do Databricks 9.1 LTS
- Tempo de execução do Databricks 13.0 (EoS)
- Tempo de execução do Databricks 12.1 (EoS)
- Tempo de execução do Databricks 12.0 (EoS)
- Tempo de execução do Databricks 11.2 (EoS)
- Tempo de execução do Databricks 11.1 (EoS)
- Databricks Runtime 11.0 (EoS)
- Tempo de execução do Databricks 10.5 (EoS)
- Tempo de execução do Databricks 10.3 (EoS)
- Tempo de execução do Databricks 10.2 (EoS)
- Tempo de execução do Databricks 10.1 (EoS)
- Tempo de execução do Databricks 10.0 (EoS)
- Tempo de execução do Databricks 9.0 (EoS)
- Tempo de execução do Databricks 8.4 (EoS)
- Tempo de execução do Databricks 8.3 (EoS)
- Tempo de execução do Databricks 8.2 (EoS)
- Tempo de execução do Databricks 8.1 (EoS)
- Tempo de execução do Databricks 8.0 (EoS)
- Tempo de execução do Databricks 7.6 (EoS)
- Tempo de execução do Databricks 7.5 (EoS)
- Tempo de execução do Databricks 7.3 LTS (EoS)
- Suporte estendido (EoS) do Databricks Runtime 6.4
- Tempo de execução do Databricks 5.5 LTS (EoS)
- Suporte estendido a Databricks Light 2.4
- Tempo de execução do Databricks 7.4 (EoS)
- Tempo de execução do Databricks 7.2 (EoS)
- Tempo de execução do Databricks 7.1 (EoS)
- Tempo de execução do Databricks 7.0 (EoS)
- Tempo de execução do Databricks 6.6 (EoS)
- Tempo de execução do Databricks 6.5 (EoS)
- Tempo de execução do Databricks 6.3 (EoS)
- Databricks Runtime 6.2 (EoS)
- Tempo de execução do Databricks 6.1 (EoS)
- Tempo de execução do Databricks 6.0 (EoS)
- Databricks Runtime 5,4 ML (EoS)
- Tempo de execução do Databricks 5.4 (EoS)
- Tempo de execução do Databricks 5.3 (EoS)
- Tempo de execução do Databricks 5.2 (EoS)
- Tempo de execução do Databricks 5.1 (EoS)
- Databricks Runtime 5.0 (EoS)
- Databricks Runtime 4.3 (EoS)
- Tempo de execução do Databricks 4.2 (EoS)
- Databricks Runtime 4.1 ML (EoS)
- Tempo de execução do Databricks 4.1 (EoS)
- Tempo de execução do Databricks 4.0 (EoS)
- Databricks Runtime 3.5 LTS (EoS)
- Tempo de execução do Databricks 3.4 (EoS)
Para obter as atualizações de manutenção em versões suportadas do Databricks Runtime, consulte Atualizações de manutenção do Databricks Runtime.
Tempo de execução do Databricks 16.0
Consulte Databricks Runtime 16.0 (EoS).
- 22 de abril de 2025
- Reverter "[SPARK-47895][SQL] agrupar por alias deve ser idempotente" nas versões 15.4, 16.0, 16.1, 16.2 e 16.3
- Atualizações de segurança do sistema operacional.
- 9 de abril de 2025
- Bibliotecas Java atualizadas:
- Removido io.starburst.openjson.openjson 1.8-e.12
- Removido io.starburst.openx.data.json-serde 1.3.9-e.12
- Removido io.starburst.openx.data.json-serde-generic-shim 1.3.9-e.12
- [SPARK-47895][SQL] agrupamento por alias deve ser idempotente
- [SPARK-51624][SQL] Propagação dos metadados GetStructField no CreateNamedStruct.dataType
- Atualizações de segurança do sistema operacional.
- Bibliotecas Java atualizadas:
- 11 de março de 2025
- O Databricks Runtime 14.3 e acima inclui uma correção para um problema que causou incompatibilidades binárias com o código que instanciou uma classe
SparkListenerApplicationEnd
e foi compilado contra o Apache Spark. Esta incompatibilidade resultou da fusão do SPARK-46399 no Apache Spark. Essa mesclagem incluiu uma alteração que adicionou um argumento padrão ao construtorSparkListenerApplicationEnd
. Para restaurar a compatibilidade binária, essa correção adiciona um único construtor de argumento para a classeSparkListenerApplicationEnd
. - [SPARK-51084][SQL] Atribua a classe de erro apropriada para negativeScaleNotAllowedError
- [SPARK-51222][SQL] Otimizar ReplaceCurrentLike
- [SPARK-50985][SS] Classificar o erro de incompatibilidade de Temporizações do Kafka em vez de afirmar e lançar erro para servidor ausente no KafkaTokenProvider
- [SPARK-50791][SQL] Corrigir NPE no tratamento de erros do State Store
- Atualizações de segurança do sistema operacional.
- O Databricks Runtime 14.3 e acima inclui uma correção para um problema que causou incompatibilidades binárias com o código que instanciou uma classe
- Fevereiro 11, 2025
- Esta versão inclui uma correção para um problema que afeta a conversão de determinados tipos de dados ao serializar colunas de dados XML resgatadas. Os tipos de dados afetados são datas, carimbos de data/hora do tipo não NTZ e decimais quando o
prefersDecimal
está ativado. Para saber mais sobre a coluna de dados resgatados, consulte O que é a coluna de dados resgatados?. -
[SPARK-50705][SQL] Tornar
QueryPlan
sem bloqueio - [SPARK-50492][SS] Corrija java.util.NoSuchElementException quando a coluna de hora do evento é descartada após dropDuplicatesWithinWatermark
- Atualizações de segurança do sistema operacional.
- Esta versão inclui uma correção para um problema que afeta a conversão de determinados tipos de dados ao serializar colunas de dados XML resgatadas. Os tipos de dados afetados são datas, carimbos de data/hora do tipo não NTZ e decimais quando o
- 4 de dezembro de 2024
- A declaração
USE CATALOG
apoia agora a cláusulaIDENTIFIER
. Com esse suporte, você pode parametrizar o catálogo atual com base em uma variável de cadeia de caracteres ou marcador de parâmetro. - Esta versão inclui uma correção para um problema que pode fazer com que a chave primária numa tabela Delta seja descartada em determinados casos extremos relacionados a compactação automática em segundo plano.
- Com esta versão, o tamanho do cache usado por um SSD em um nó de computação Databricks expande-se dinamicamente até alcançar o tamanho inicial do SSD e diminui quando necessário, até o limite de
spark.databricks.io.cache.maxDiskUsage
. Consulte Otimizar o desempenho com cache no Azure Databricks. - [SPARK-50322][SQL] Corrigir identificador parametrizado em uma subconsulta
-
[SPARK-50034][CORE] Corrigir o Reporte Incorreto de Erros Fatais como Exceções Não Detectadas em
SparkUncaughtExceptionHandler
- [SPARK-47435][SQL] Corrige problema de overflow do MySQL UNSIGNED TINYINT
- [SPARK-49757][SQL] Adicionar suporte para expressão IDENTIFIER na SETCATALOG instrução
- [SPARK-50426][PYTHON] Evite a pesquisa de fontes de dados Python estáticas ao usar fontes de dados incorporadas ou Java
- [SPARK-50338][CORE] Tornar as exceções de LazyTry menos detalhadas
- Atualizações de segurança do sistema operacional.
- A declaração
- 10 de dezembro de 2024
- (Alteração comprometedora) No Databricks Runtime 15.4 e versões posteriores, o tratamento de expressões regulares no Photon é atualizado para alinhar-se com o comportamento das expressões regulares do Apache Spark. Anteriormente, as funções de expressão regular executadas pelo Photon, como
split()
eregexp_extract()
, aceitavam algumas expressões regulares rejeitadas pelo analisador Spark. Para manter a consistência com o Apache Spark, as consultas Photon agora falharão para expressões regulares que o Spark considera não válidas. Devido a essa alteração, você poderá ver erros se o código do Spark incluir expressões regulares inválidas. Por exemplo, a expressãosplit(str_col, '{')
, que contém uma chave não correspondente e foi anteriormente aceita por Photon, agora não funciona. Para corrigir essa expressão, você pode escapar do caractere de chave:split(str_col, '\\{')
. O comportamento de Photon e Spark também diferiu na correspondência de expressões regulares de caracteres não-ASCII. Isso também é atualizado para que o Photon corresponda ao comportamento do Apache Spark. - Com esta versão, agora você pode consultar a função
vector_search
usandoquery_text
para entrada de texto ouquery_vector
para incorporar entrada. - Agora você pode definir um tempo limite para consultas do Spark Connect usando a propriedade de configuração do Spark
spark.databricks.execution.timeout
. Para notebooks executados em computação sem servidor, o valor padrão é9000
(segundos). Os trabalhos executados na computação sem servidor e na computação com modo de acesso padrão não têm um tempo limite, a menos que essa propriedade de configuração esteja definida. Uma execução que dura mais do que o tempo limite especificado resulta em um erro deQUERY_EXECUTION_TIMEOUT_EXCEEDED
. - [SPARK-49843][SQL] Corrigir comentários de alteração em colunas char/varchar
- [c0][SPARK-49924][/c0][SQL] Manter após a substituição de
containsNull
- [FAÍSCA-49782][SQL] A regra ResolveDataFrameDropColumns resolve UnresolvedAttribute com saída filho
- [SPARK-48780][SQL] Tornar genérica a gestão de erros em NamedParametersSupport para lidar com funções e procedimentos
- [SPARK-49876][CONNECT] Livre-se de bloqueios globais do Serviço Spark Connect
- [SPARK-49905] Use ShuffleOrigin dedicado para operador com estado para evitar que o shuffle seja alterado pelo AQE
- [SPARK-49615] Correção de bug: Tornar a validação do esquema de coluna ML compatível com a configuração do Spark spark.sql.caseSensitive.
- [SPARK-48782][SQL] Adicionar suporte para executar procedimentos em catálogos
- [SPARK-49863][SQL] Corrigir NormalizeFloatingNumbers para preservar a nulabilidade de estruturas aninhadas
- [SPARK-49829] Revisar a otimização na adição de entrada ao armazenamento de estado na junção entre fluxos (correção)
- Reverter "[SPARK-49002][SQL] Lidar de forma consistente com localizações inválidas em WAREHOUSE/SCHEMA/TABLE/PARTITION/DIRECTORY"
- [SPARK-50028][CONNECT] Substitua bloqueios globais no ouvinte do servidor Spark Connect por bloqueios refinados
- [SPARK-49615] [ML] Assegure que toda a validação do esquema dos datasets de transformadores de funcionalidades de ML esteja em conformidade com a configuração "spark.sql.caseSensitive".
- [SPARK-50124][SQL] LIMIT/OFFSET deve preservar a ordenação de dados
- Atualizações de segurança do sistema operacional.
- (Alteração comprometedora) No Databricks Runtime 15.4 e versões posteriores, o tratamento de expressões regulares no Photon é atualizado para alinhar-se com o comportamento das expressões regulares do Apache Spark. Anteriormente, as funções de expressão regular executadas pelo Photon, como
Tempo de execução do Databricks 15.3
Consulte Databricks Runtime 15.3 (EoS).
- 26 de novembro de 2024
- Com esta versão, agora você pode consultar a função
vector_search
usandoquery_text
para entrada de texto ouquery_vector
para incorporar entrada. - Atualizações de segurança do sistema operacional.
- Com esta versão, agora você pode consultar a função
- 5 de novembro de 2024
- [SPARK-49905] Use ShuffleOrigin dedicado para operador com estado para evitar que o shuffle seja alterado pelo AQE
- [SPARK-49867][SQL] Melhorar a mensagem de erro quando o índice está fora dos limites ao chamar GetColumnByOrdinal
- [SPARK-48843][15.3,15.2] Impedir ciclo infinito com BindParameters
- [SPARK-49829] Revisar a otimização na adição de entrada ao armazenamento de estado na junção entre fluxos (correção)
- [SPARK-49863][SQL] Corrigir NormalizeFloatingNumbers para preservar a nulabilidade de estruturas aninhadas
- [FAÍSCA-49782][SQL] A regra ResolveDataFrameDropColumns resolve UnresolvedAttribute com saída filho
- [FAÍSCA-46632][SQL] Corrigir a eliminação de subexpressões quando expressões ternárias equivalentes têm filhos diferentes
- Atualizações de segurança do sistema operacional.
- Outubro 22, 2024
- [SPARK-49905] Use ShuffleOrigin dedicado para operador com estado para evitar que o shuffle seja alterado pelo AQE
- [SPARK-49867][SQL] Melhorar a mensagem de erro quando o índice está fora dos limites ao chamar GetColumnByOrdinal
- [SPARK-48843][15.3,15.2] Impedir ciclo infinito com BindParameters
- [SPARK-49829] Revisar a otimização na adição de entrada ao armazenamento de estado na junção entre fluxos (correção)
- [SPARK-49863][SQL] Corrigir NormalizeFloatingNumbers para preservar a nulabilidade de estruturas aninhadas
- [FAÍSCA-49782][SQL] A regra ResolveDataFrameDropColumns resolve UnresolvedAttribute com saída filho
- [FAÍSCA-46632][SQL] Corrigir a eliminação de subexpressões quando expressões ternárias equivalentes têm filhos diferentes
- Atualizações de segurança do sistema operacional.
- 10 de outubro de 2024
- [SPARK-49688][CONNECT] Corrigir uma condição de concorrência entre interromper e executar o plano
- [SPARK-49743][SQL] OptimizeCsvJsonExpr não deve alterar campos de esquema ao podar GetArrayStructFields
- [BACKPORT] [SPARK-49474][SS] Classificar a classe de Erro para erros da função de utilizador FlatMapGroupsWithState
- Atualizações de segurança do sistema operacional.
- 25 de setembro de 2024
- [SPARK-49492][CONECTAR] Tentativa de reanexar em ExecutionHolder inativo
- [SPARK-49628][SQL] ConstantFolding deve copiar a expressão com estado antes de avaliar
- [SPARK-49000][SQL] Corrigir "select count(distinct 1) from t" onde t é uma tabela vazia expandindo RewriteDistinctAggregates
- [SPARK-49458][CONECTAR][PYTHON] Fornecer ID da sessão do lado do servidor via ReattachExecute
-
[SPARK-48719][SQL] Corrija o bug de cálculo do
RegrSlope
&RegrIntercept
quando o primeiro parâmetro é nulo - Atualizações de segurança do sistema operacional.
- 17 de setembro de 2024
- [SPARK-49336][CONNECT] Limitar o nível de aninhamento ao truncar uma mensagem protobuf
- [SPARK-49526][CONNECT][15.3.5] Suporte para caminhos no estilo Windows no ArtifactManager
- [SPARK-49366][CONNECT] Tratar o nó União como folha na resolução de colunas de DataFrame
- [SPARK-43242][CORE] Corrigir lançamento 'Tipo inesperado de BlockId' no diagnóstico de corrupção aleatória
- [SPARK-49409][CONNECT] Ajustar o valor padrão de CONNECT_SESSION_PLAN_CACHE_SIZE
- Atualizações de segurança do sistema operacional.
- 29 de agosto de 2024
- [SPARK-49263][CONNECT] Cliente Python do Spark Connect: tratar consistentemente as opções do leitor de Dataframe booleano
- [FAÍSCA-49056][SQL] ErrorClassesJsonReader não pode manipular valores nulos corretamente
-
[SPARK-48862][PYTHON][CONECTAR] Evite chamar
_proto_to_string
quando o nível INFO não estiver ativado - [SPARK-49146][SS] Mover erros de asserção relacionados à marca d'água ausente nas consultas de streaming do modo de adição para o framework de erros
- 14 de agosto de 2024
- [SPARK-48941][SPARK-48970] Correções de backport do writer/reader ML
- [SPARK-48706][PYTHON] UDF em Python nas funções de ordem superior não deve gerar um erro interno
- [SPARK-48954] try_mod() substitui try_remainder()
- [SPARK-48597][SQL] Introduzir um marcador para a propriedade isStreaming na representação de texto do plano lógico
- [SPARK-49065][SQL] O rebase nos formatadores/analisadores legados deve suportar fusos horários que não sejam o padrão da JVM
- [FAÍSCA-49047][PYTHON][CONECTAR] Truncar a mensagem para registro em log
- [SPARK-48740][SQL] Captar erro de especificação de janela ausente antecipadamente
- 1 de agosto de 2024
- [Mudança de rutura] No Databricks Runtime 15.3 e superior, chamar qualquer função definida pelo usuário (UDF) do Python (UDF), função de agregação definida pelo usuário (UDAF) ou função de tabela definida pelo usuário (UDTF) que usa um tipo de
VARIANT
como um argumento ou valor de retorno gera uma exceção. Essa alteração é feita para evitar problemas que podem ocorrer devido a um valor inválido retornado por uma dessas funções. Para saber mais sobre o tipo deVARIANT
, consulte para saber como usar VARIANTs para armazenar dados semiestruturados. - Na computação sem servidor para blocos de anotações e trabalhos, o modo ANSI SQL é habilitado por padrão. Consulte Parâmetros de configuração do Spark suportados.
- Na computação configurada com o modo de acesso compartilhado, as leituras e gravações em lote Kafka agora têm as mesmas limitações impostas que as documentadas para o Structured Streaming. Consulte Limitações e requisitos de streaming para o modo de acesso padrão do Unity Catalog.
- A saída de uma
SHOW CREATE TABLE
instrução agora inclui quaisquer filtros de linha ou máscaras de coluna definidos numa vista materializada ou tabela em fluxo. Ver SHOW CREATE TABLE. Para saber mais sobre filtros de linha e máscaras de coluna, consulte Filtros de linha e máscaras de coluna. - [SPARK-46957][CORE] Os arquivos shuffle migrados devem poder ser limpos pelo executor
- [SPARK-48648][PYTHON][CONNECT] Tornar SparkConnectClient.tags corretamente threadlocal
- [SPARK-48896][SPARK-48909][SPARK-48883] Retroportar correções do gravador ML do Spark
- [FAÍSCA-48713][SQL] Adicionar verificação de intervalo de índices para UnsafeRow.pointTo quando o baseObject é uma matriz de bytes
- [SPARK-48834][SQL] Desativar entrada/saída de variantes para UDFs, UDTFs, UDAFs escalares em Python durante a compilação de consultas
- [SPARK-48934][SS] Os tipos datetime do Python foram convertidos incorretamente para definir o timeout em applyInPandasWithState
- [SPARK-48705][PYTHON] Use explicitamente o worker_main quando este começa com pyspark
- [SPARK-48544][SQL] Reduzir a pressão de memória dos BitSets vazios de TreeNode
- [SPARK-48889][SS] testStream para descarregar lojas de estado antes de finalizar
- [SPARK-49054][SQL] Valor padrão da coluna deve suportar funções current_*
- [SPARK-48653][PYTHON] Corrigir referências inválidas de classes de erro de fonte de dados em Python
- [SPARK-48463] Tornar o StringIndexer compatível com colunas de entrada aninhadas
- [SPARK-48810][CONECTAR] A API Session stop() deve ser idempotente e não deve falhar se a sessão já estiver fechada pelo servidor.
- [SPARK-48873][SQL] Use UnsafeRow no analisador JSON.
- Atualizações de segurança do sistema operacional.
- [Mudança de rutura] No Databricks Runtime 15.3 e superior, chamar qualquer função definida pelo usuário (UDF) do Python (UDF), função de agregação definida pelo usuário (UDAF) ou função de tabela definida pelo usuário (UDTF) que usa um tipo de
- Julho 11, 2024
- (Alteração de comportamento) DataFrames armazenados em cache em fontes de tabela Delta agora são invalidados se a tabela de origem for sobrescrita. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use
.checkpoint()
para persistir um estado de tabela durante todo o tempo de vida de um DataFrame. - O Snowflake JDBC Driver é atualizado para a versão 3.16.1.
- Esta versão inclui uma correção para um problema que impedia que a guia Ambiente da Interface do Usuário do Spark fosse exibida corretamente ao ser executada nos Serviços de Contêiner do Databricks.
- Para ignorar partições inválidas ao ler dados, as fontes de dados baseadas em arquivo, como Parquet, ORC, CSV ou JSON, podem definir a opção de fonte de dados ignoreInvalidPartitionPaths como true. Por exemplo: spark.read.format("parquet").option("ignoreInvalidPartitionPaths", "true").load(...)`. Você também pode usar a configuração SQL spark.sql.files.ignoreInvalidPartitionPaths. No entanto, a opção de fonte de dados tem precedência sobre a configuração SQL. Essa configuração é falsa por padrão.
- [SPARK-48100][SQL] Corrigir problemas ao ignorar campos de estrutura aninhada não selecionados no esquema
- [SPARK-47463][SQL] Use V2Predicate para envolver a expressão com tipo de retorno booleano
- [SPARK-48292][CORE] Reverter [SPARK-39195][SQL] Spark OutputCommitCoordinator deve abortar o estágio quando o ficheiro confirmado não estiver consistente com o estado da tarefa
- [SPARK-48475][PYTHON] Otimize _get_jvm_function no PySpark.
- [SPARK-48286] Corrigir análise de coluna com expressão padrão existente - Adicionar mensagem de erro exibida ao utilizador
- [SPARK-48481][SQL][SS] Não aplique OptimizeOneRowPlan no streaming Dataset
- Reverter "[SPARK-47406][SQL] Manipular TIMESTAMP e DATETIME em MYSQLDialect"
- [SPARK-48383][SS] Lançar um erro mais específico para partições incompatíveis na opção startOffset em Kafka
- [SPARK-48503][14.3-15.3][SQL] Corrigir subconsultas escalares inválidas com group-by em colunas não equivalentes que foram permitidas incorretamente
- [SPARK-48445][SQL] Não inline UDFs com crianças caras
- [SPARK-48252][SQL] Atualize o CommonExpressionRef quando necessário
- [SPARK-48273][master][SQL] Corrigir reescrita tardia de PlanWithUnresolvedIdentifier
- [FAÍSCA-48566][PYTHON] Corrigir o erro onde os índices de partição estão incorretos quando o UDTF analyze() utiliza tanto select como partitionColumns
- [SPARK-48556][SQL] Corrigir a mensagem de erro incorreta que aponta para UNSUPPORTED_GROUPING_EXPRESSION
- Atualizações de segurança do sistema operacional.
- (Alteração de comportamento) DataFrames armazenados em cache em fontes de tabela Delta agora são invalidados se a tabela de origem for sobrescrita. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use
Tempo de execução do Databricks 15.2
Consulte Databricks Runtime 15.2 (EoS).
- 26 de novembro de 2024
- Atualizações de segurança do sistema operacional.
- 5 de novembro de 2024
- [SPARK-49905] Use ShuffleOrigin dedicado para operador com estado para evitar que o shuffle seja alterado pelo AQE
- [SPARK-48843][15.3,15.2] Impedir ciclo infinito com BindParameters
- [SPARK-49829] Revisar a otimização na adição de entrada ao armazenamento de estado na junção entre fluxos (correção)
- [SPARK-49863][SQL] Corrigir NormalizeFloatingNumbers para preservar a nulabilidade de estruturas aninhadas
- [FAÍSCA-49782][SQL] A regra ResolveDataFrameDropColumns resolve UnresolvedAttribute com saída filho
- [FAÍSCA-46632][SQL] Corrigir a eliminação de subexpressões quando expressões ternárias equivalentes têm filhos diferentes
- Atualizações de segurança do sistema operacional.
- Outubro 22, 2024
- [SPARK-49905] Use ShuffleOrigin dedicado para operador com estado para evitar que o shuffle seja alterado pelo AQE
- [SPARK-48843][15.3,15.2] Impedir ciclo infinito com BindParameters
- [SPARK-49829] Revisar a otimização na adição de entrada ao armazenamento de estado na junção entre fluxos (correção)
- [SPARK-49863][SQL] Corrigir NormalizeFloatingNumbers para preservar a nulabilidade de estruturas aninhadas
- [FAÍSCA-49782][SQL] A regra ResolveDataFrameDropColumns resolve UnresolvedAttribute com saída filho
- [FAÍSCA-46632][SQL] Corrigir a eliminação de subexpressões quando expressões ternárias equivalentes têm filhos diferentes
- Atualizações de segurança do sistema operacional.
- 10 de outubro de 2024
- [BACKPORT] [SPARK-49474][SS] Classificar a classe de Erro para erros da função de utilizador FlatMapGroupsWithState
- [SPARK-49743][SQL] OptimizeCsvJsonExpr não deve alterar campos de esquema ao podar GetArrayStructFields
- [SPARK-49688][CONNECT] Corrigir uma condição de concorrência entre interromper e executar o plano
- Atualizações de segurança do sistema operacional.
- 25 de setembro de 2024
- [SPARK-49000][SQL] Corrigir "select count(distinct 1) from t" onde t é uma tabela vazia expandindo RewriteDistinctAggregates
- [SPARK-48719][SQL] Corrigir o erro de cálculo de RegrSlope & RegrIntercept quando o primeiro parâmetro é nulo
- [SPARK-49458][CONECTAR][PYTHON] Fornecer ID da sessão do lado do servidor via ReattachExecute
- [SPARK-49628][SQL] ConstantFolding deve copiar a expressão com estado antes de avaliar
- [SPARK-49492][CONECTAR] Tentativa de reanexar em ExecutionHolder inativo
- Atualizações de segurança do sistema operacional.
- 17 de setembro de 2024
- [SPARK-49336][CONNECT] Limitar o nível de aninhamento ao truncar uma mensagem protobuf
- [FAÍSCA-49526][CONECTAR] Suporte a caminhos no estilo do Windows no Gestor de Artefactos
- [SPARK-49366][CONNECT] Tratar o nó União como folha na resolução de colunas de DataFrame
- [SPARK-43242][CORE] Corrigir lançamento 'Tipo inesperado de BlockId' no diagnóstico de corrupção aleatória
- [SPARK-49409][CONNECT] Ajustar o valor padrão de CONNECT_SESSION_PLAN_CACHE_SIZE
- Atualizações de segurança do sistema operacional.
- 29 de agosto de 2024
- [FAÍSCA-49056][SQL] ErrorClassesJsonReader não pode manipular valores nulos corretamente
- [SPARK-48597][SQL] Introduzir um marcador para a propriedade isStreaming na representação de texto do plano lógico
-
[SPARK-48862][PYTHON][CONECTAR] Evite chamar
_proto_to_string
quando o nível INFO não estiver ativado - [SPARK-49263][CONNECT] Cliente Python do Spark Connect: tratar consistentemente as opções do leitor de Dataframe booleano
- [SPARK-49146][SS] Mover erros de asserção relacionados à marca d'água ausente nas consultas de streaming do modo de adição para o framework de erros
- 14 de agosto de 2024
- [SPARK-48941][SPARK-48970] Correções de backport do writer/reader ML
- [SPARK-48050][SS] Registar o plano lógico no início da consulta
- [SPARK-48706][PYTHON] UDF em Python nas funções de ordem superior não deve gerar um erro interno
- [SPARK-48740][SQL] Captar erro de especificação de janela ausente antecipadamente
- [SPARK-49065][SQL] O rebase nos formatadores/analisadores legados deve suportar fusos horários que não sejam o padrão da JVM
- [FAÍSCA-49047][PYTHON][CONECTAR] Truncar a mensagem para registro em log
- 1 de agosto de 2024
- Na computação sem servidor para blocos de anotações e trabalhos, o modo ANSI SQL é habilitado por padrão. Consulte Parâmetros de configuração do Spark suportados.
- Na computação configurada com o modo de acesso compartilhado, as leituras e gravações em lote Kafka agora têm as mesmas limitações impostas que as documentadas para o Structured Streaming. Consulte Limitações e requisitos de streaming para o modo de acesso padrão do Unity Catalog.
- A saída de uma
SHOW CREATE TABLE
instrução agora inclui quaisquer filtros de linha ou máscaras de coluna definidos numa vista materializada ou tabela em fluxo. Ver SHOW CREATE TABLE. Para saber mais sobre filtros de linha e máscaras de coluna, consulte Filtros de linha e máscaras de coluna. - [SPARK-48705][PYTHON] Use explicitamente o worker_main quando este começa com pyspark
- [SPARK-48047][SQL] Reduzir a pressão de memória de tags TreeNode vazias
- [SPARK-48810][CONECTAR] A API Session stop() deve ser idempotente e não deve falhar se a sessão já estiver fechada pelo servidor.
- [SPARK-48873][SQL] Use UnsafeRow no analisador JSON.
- [SPARK-46957][CORE] Os arquivos shuffle migrados devem poder ser limpos pelo executor
- [SPARK-48889][SS] testStream para descarregar lojas de estado antes de finalizar
- [FAÍSCA-48713][SQL] Adicionar verificação de intervalo de índices para UnsafeRow.pointTo quando o baseObject é uma matriz de bytes
- [SPARK-48896][SPARK-48909][SPARK-48883] Retroportar correções do gravador ML do Spark
- [SPARK-48544][SQL] Reduzir a pressão de memória dos BitSets vazios de TreeNode
- [SPARK-48934][SS] Os tipos datetime do Python foram convertidos incorretamente para definir o timeout em applyInPandasWithState
- [SPARK-48463] Tornar o StringIndexer compatível com colunas de entrada aninhadas
- Atualizações de segurança do sistema operacional.
- Julho 11, 2024
- (Alteração de comportamento) DataFrames armazenados em cache em fontes de tabela Delta agora são invalidados se a tabela de origem for sobrescrita. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use
.checkpoint()
para persistir um estado de tabela durante todo o tempo de vida de um DataFrame. - O Snowflake JDBC Driver é atualizado para a versão 3.16.1.
- Esta versão inclui uma correção para um problema que impedia que a guia Ambiente da Interface do Usuário do Spark fosse exibida corretamente ao ser executada nos Serviços de Contêiner do Databricks.
- Em blocos de anotações e trabalhos sem servidor, o modo ANSI SQL será habilitado por padrão e suportará nomes curtos
- Para ignorar partições inválidas ao ler dados, as fontes de dados baseadas em arquivo, como Parquet, ORC, CSV ou JSON, podem definir a opção de fonte de dados ignoreInvalidPartitionPaths como true. Por exemplo: spark.read.format("parquet").option("ignoreInvalidPartitionPaths", "true").load(...)`. Você também pode usar a configuração SQL spark.sql.files.ignoreInvalidPartitionPaths. No entanto, a opção de fonte de dados tem precedência sobre a configuração SQL. Essa configuração é falsa por padrão.
- [SPARK-48273][SQL] Corrigir a reescrita tardia de PlanWithUnresolvedIdentifier
- [SPARK-48292][CORE] Reverter [SPARK-39195][SQL] Spark OutputCommitCoordinator deve abortar o estágio quando o ficheiro confirmado não estiver consistente com o estado da tarefa
- [SPARK-48100][SQL] Corrigir problemas ao ignorar campos de estrutura aninhada não selecionados no esquema
- [SPARK-48286] Corrigir análise de coluna com expressão padrão existente - Adicionar mensagem de erro exibida ao utilizador
- [SPARK-48294][SQL] Manipular minúsculas em nestedTypeMissingElementTypeError
- [SPARK-48556][SQL] Corrigir a mensagem de erro incorreta que aponta para UNSUPPORTED_GROUPING_EXPRESSION
- [SPARK-48648][PYTHON][CONNECT] Tornar SparkConnectClient.tags corretamente threadlocal
- [SPARK-48503][SQL] Corrigir subconsultas escalares inválidas com cláusulas group-by em colunas não equivalentes que foram incorretamente permitidas
- [SPARK-48252][SQL] Atualize o CommonExpressionRef quando necessário
- [SPARK-48475][PYTHON] Otimize _get_jvm_function no PySpark.
- [FAÍSCA-48566][PYTHON] Corrigir o erro onde os índices de partição estão incorretos quando o UDTF analyze() utiliza tanto select como partitionColumns
- [SPARK-48481][SQL][SS] Não aplique OptimizeOneRowPlan no streaming Dataset
- [SPARK-47463][SQL] Use V2Predicate para envolver a expressão com tipo de retorno booleano
- [SPARK-48383][SS] Lançar um erro mais específico para partições incompatíveis na opção startOffset em Kafka
- [SPARK-48445][SQL] Não inline UDFs com crianças caras
- Atualizações de segurança do sistema operacional.
- (Alteração de comportamento) DataFrames armazenados em cache em fontes de tabela Delta agora são invalidados se a tabela de origem for sobrescrita. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use
- 17 de junho de 2024
-
applyInPandasWithState()
está disponível em clusters compartilhados. - Corrige um bug em que a otimização da janela de classificação usando Photon TopK manipulava incorretamente partições com structs.
- Corrigido um bug na função try_divide() em que entradas contendo decimais resultavam em exceções inesperadas.
- [SPARK-48197][SQL] Evitar erro de asserção para função lambda inválida
-
[SPARK-48276][PYTHON][CONNECT] Adicionar o método em falta
__repr__
paraSQLExpression
- [SPARK-48014][SQL] Altere a mensagem de erro makeFromJava no EvaluatePython para uma mensagem de erro para o usuário
- [SPARK-48016][SQL] Corrigir um bug na função try_divide ao lidar com decimais
- [SPARK-47986][CONNECT][PYTHON] Não é possível criar uma nova sessão quando a sessão padrão é fechada pelo servidor
- [SPARK-48173][SQL] CheckAnalysis deve ver todo o plano de consulta
- [SPARK-48056][CONNECT][PYTHON] Execute novamente o plano se um erro de SESSION_NOT_FOUND for levantado e não for recebida nenhuma resposta parcial
- [SPARK-48172][SQL] Corrigir problemas de escapamento no backport dos JDBCDialects para a versão 15.2
- [FAÍSCA-48105][SS] Corrigir a condição de corrida entre o descarregamento ou liberação do armazenamento de estado e a criação de instantâneos
- [SPARK-48288] Adicionar tipo de dados de origem para expressão de transmissão de conector
- [SPARK-48310][PYTHON][CONNECT] As propriedades armazenadas em cache devem retornar cópias
- [SPARK-48277] Melhorar a mensagem de erro para ErrorClassesJsonReader.getErrorMessage
- [SPARK-47986][CONNECT][PYTHON] Não é possível criar uma nova sessão quando a sessão padrão é fechada pelo servidor
- Reverter "[SPARK-47406][SQL] Manipular TIMESTAMP e DATETIME em MYSQLDialect"
- [SPARK-47994][SQL] Corrigir bug com o rebaixamento do filtro de coluna CASE WHEN no SQLServer
- [FAÍSCA-47764][CORE][SQL] Limpeza de dependências aleatórias com base em ShuffleCleanupMode
- [SPARK-47921][CONNECT] Corrigir a criação de ExecuteJobTag em ExecuteHolder
- [SPARK-48010][SQL] Evite chamadas repetidas para conf.resolver em resolveExpression
- [SPARK-48146][SQL] Corrigir a função de agregação na expressão 'With' do filho
- [SPARK-48180][SQL] Melhorar o erro quando a chamada UDTF com TABLE arg esquece parênteses em torno de vários PARTITION/ORDER BY exprs
- Atualizações de segurança do sistema operacional.
-
Tempo de execução do Databricks 15.1
Consulte Databricks Runtime 15.1 (EoS).
- Outubro 22, 2024
- [SPARK-49863][SQL] Corrigir NormalizeFloatingNumbers para preservar a nulabilidade de estruturas aninhadas
- [FAÍSCA-46632][SQL] Corrigir a eliminação de subexpressões quando expressões ternárias equivalentes têm filhos diferentes
- [FAÍSCA-49782][SQL] A regra ResolveDataFrameDropColumns resolve UnresolvedAttribute com saída filho
- [SPARK-49905] Use ShuffleOrigin dedicado para operador com estado para evitar que o shuffle seja alterado pelo AQE
- [SPARK-49829] Revisar a otimização na adição de entrada ao armazenamento de estado na junção entre fluxos (correção)
- Atualizações de segurança do sistema operacional.
- 10 de outubro de 2024
- [SPARK-49688][CONNECT] Corrigir uma condição de concorrência entre interromper e executar o plano
- [SPARK-49743][SQL] OptimizeCsvJsonExpr não deve alterar campos de esquema ao podar GetArrayStructFields
- [BACKPORT] [SPARK-49474][SS] Classificar a classe de Erro para erros da função de utilizador FlatMapGroupsWithState
- Atualizações de segurança do sistema operacional.
- 25 de setembro de 2024
- [SPARK-49628][SQL] ConstantFolding deve copiar a expressão com estado antes de avaliar
- [SPARK-48719][SQL] Corrigir o erro de cálculo de RegrSlope & RegrIntercept quando o primeiro parâmetro é nulo
- [SPARK-49492][CONECTAR] Tentativa de reanexar em ExecutionHolder inativo
- [SPARK-49000][SQL] Corrigir "select count(distinct 1) from t" onde t é uma tabela vazia expandindo RewriteDistinctAggregates
- [SPARK-49458][CONECTAR][PYTHON] Fornecer ID da sessão do lado do servidor via ReattachExecute
- Atualizações de segurança do sistema operacional.
- 17 de setembro de 2024
- [SPARK-49336][CONNECT] Limitar o nível de aninhamento ao truncar uma mensagem protobuf
- [FAÍSCA-49526][CONECTAR] Suporte a caminhos no estilo do Windows no Gestor de Artefactos
- [SPARK-49409][CONNECT] Ajustar o valor padrão de CONNECT_SESSION_PLAN_CACHE_SIZE
- [SPARK-43242][CORE] Corrigir lançamento 'Tipo inesperado de BlockId' no diagnóstico de corrupção aleatória
- [SPARK-49366][CONNECT] Tratar o nó União como folha na resolução de colunas de DataFrame
- 29 de agosto de 2024
- [SPARK-49263][CONNECT] Cliente Python do Spark Connect: tratar consistentemente as opções do leitor de Dataframe booleano
- [FAÍSCA-49056][SQL] ErrorClassesJsonReader não pode manipular valores nulos corretamente
-
[SPARK-48862][PYTHON][CONECTAR] Evite chamar
_proto_to_string
quando o nível INFO não estiver ativado - [SPARK-49146][SS] Mover erros de asserção relacionados à marca d'água ausente nas consultas de streaming do modo de adição para o framework de erros
- 14 de agosto de 2024
- [SPARK-48941][SPARK-48970] Correções de backport do writer/reader ML
- [SPARK-48050][SS] Registar o plano lógico no início da consulta
- [SPARK-48706][PYTHON] UDF em Python nas funções de ordem superior não deve gerar um erro interno
- [SPARK-48597][SQL] Introduzir um marcador para a propriedade isStreaming na representação de texto do plano lógico
- [SPARK-49065][SQL] O rebase nos formatadores/analisadores legados deve suportar fusos horários que não sejam o padrão da JVM
- [FAÍSCA-49047][PYTHON][CONECTAR] Truncar a mensagem para registro em log
- [SPARK-48740][SQL] Captar erro de especificação de janela ausente antecipadamente
- 1 de agosto de 2024
- Na computação sem servidor para blocos de anotações e trabalhos, o modo ANSI SQL é habilitado por padrão. Consulte Parâmetros de configuração do Spark suportados.
- Na computação configurada com o modo de acesso compartilhado, as leituras e gravações em lote Kafka agora têm as mesmas limitações impostas que as documentadas para o Structured Streaming. Consulte Limitações e requisitos de streaming para o modo de acesso padrão do Unity Catalog.
- A saída de uma
SHOW CREATE TABLE
instrução agora inclui quaisquer filtros de linha ou máscaras de coluna definidos numa vista materializada ou tabela em fluxo. Ver SHOW CREATE TABLE. Para saber mais sobre filtros de linha e máscaras de coluna, consulte Filtros de linha e máscaras de coluna. - [SPARK-48544][SQL] Reduzir a pressão de memória dos BitSets vazios de TreeNode
- [SPARK-46957][CORE] Os arquivos shuffle migrados devem poder ser limpos pelo executor
- [FAÍSCA-47202][PYTHON] Corrigir erro de digitação que afeta datas e horas com tzinfo
- [FAÍSCA-48713][SQL] Adicionar verificação de intervalo de índices para UnsafeRow.pointTo quando o baseObject é uma matriz de bytes
- [SPARK-48896][SPARK-48909][SPARK-48883] Retroportar correções do gravador ML do Spark
- [SPARK-48810][CONECTAR] A API Session stop() deve ser idempotente e não deve falhar se a sessão já estiver fechada pelo servidor.
- [SPARK-48873][SQL] Use UnsafeRow no analisador JSON.
- [SPARK-48934][SS] Os tipos datetime do Python foram convertidos incorretamente para definir o timeout em applyInPandasWithState
- [SPARK-48705][PYTHON] Use explicitamente o worker_main quando este começa com pyspark
- [SPARK-48889][SS] testStream para descarregar lojas de estado antes de finalizar
- [SPARK-48047][SQL] Reduzir a pressão de memória de tags TreeNode vazias
- [SPARK-48463] Tornar o StringIndexer compatível com colunas de entrada aninhadas
- Atualizações de segurança do sistema operacional.
- Julho 11, 2024
- (Alteração de comportamento) DataFrames armazenados em cache em fontes de tabela Delta agora são invalidados se a tabela de origem for sobrescrita. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use
.checkpoint()
para persistir um estado de tabela durante todo o tempo de vida de um DataFrame. - O Snowflake JDBC Driver é atualizado para a versão 3.16.1.
- Esta versão inclui uma correção para um problema que impedia que a guia Ambiente da Interface do Usuário do Spark fosse exibida corretamente ao ser executada nos Serviços de Contêiner do Databricks.
- Na computação sem servidor para blocos de anotações e trabalhos, o modo ANSI SQL é habilitado por padrão. Consulte Parâmetros de configuração do Spark suportados.
- Para ignorar partições inválidas ao ler dados, as fontes de dados baseadas em arquivo, como Parquet, ORC, CSV ou JSON, podem definir a opção de fonte de dados ignoreInvalidPartitionPaths como true. Por exemplo: spark.read.format("parquet").option("ignoreInvalidPartitionPaths", "true").load(...)`. Você também pode usar a configuração SQL spark.sql.files.ignoreInvalidPartitionPaths. No entanto, a opção de fonte de dados tem precedência sobre a configuração SQL. Essa configuração é falsa por padrão.
- [SPARK-48383][SS] Lançar um erro mais específico para partições incompatíveis na opção startOffset em Kafka
- [SPARK-48481][SQL][SS] Não aplique OptimizeOneRowPlan no streaming Dataset
- [SPARK-48100][SQL] Corrigir problemas ao ignorar campos de estrutura aninhada não selecionados no esquema
- [SPARK-47463][SQL] Use V2Predicate para envolver a expressão com tipo de retorno booleano
- [SPARK-48445][SQL] Não inline UDFs com crianças caras
- [SPARK-48292][CORE] Reverter [SPARK-39195][SQL] Spark OutputCommitCoordinator deve abortar o estágio quando o ficheiro confirmado não estiver consistente com o estado da tarefa
- [FAÍSCA-48566][PYTHON] Corrigir o erro onde os índices de partição estão incorretos quando o UDTF analyze() utiliza tanto select como partitionColumns
- [SPARK-48648][PYTHON][CONNECT] Tornar SparkConnectClient.tags corretamente threadlocal
- [SPARK-48503][SQL] Corrigir subconsultas escalares inválidas com cláusulas group-by em colunas não equivalentes que foram incorretamente permitidas
- [SPARK-48252][SQL] Atualize o CommonExpressionRef quando necessário
- [SPARK-48475][PYTHON] Otimize _get_jvm_function no PySpark.
- [SPARK-48294][SQL] Manipular minúsculas em nestedTypeMissingElementTypeError
- [SPARK-48286] Corrigir análise de coluna com expressão padrão existente - Adicionar mensagem de erro exibida ao utilizador
- [SPARK-47309][SQL] XML: Adicionar testes de inferência de esquema para etiquetas de valor
- [SPARK-47309][SQL][XML] Adicionar testes de unidade de inferência de esquema
- [SPARK-48273][SQL] Corrigir a reescrita tardia de PlanWithUnresolvedIdentifier
- Atualizações de segurança do sistema operacional.
- (Alteração de comportamento) DataFrames armazenados em cache em fontes de tabela Delta agora são invalidados se a tabela de origem for sobrescrita. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use
- 17 de junho de 2024
-
applyInPandasWithState()
está disponível em clusters compartilhados. - Corrige um bug em que a otimização da janela de classificação usando Photon TopK manipulava incorretamente partições com structs.
- [SPARK-48310][PYTHON][CONNECT] As propriedades armazenadas em cache devem retornar cópias
-
[SPARK-48276][PYTHON][CONNECT] Adicionar o método em falta
__repr__
paraSQLExpression
- [SPARK-48277] Melhorar a mensagem de erro para ErrorClassesJsonReader.getErrorMessage
- [FAÍSCA-47764][CORE][SQL] Limpeza de dependências aleatórias com base em ShuffleCleanupMode
- Atualizações de segurança do sistema operacional.
-
- 21 de maio de 2024
- Corrigido um bug na função try_divide() em que entradas contendo decimais resultavam em exceções inesperadas.
- [SPARK-48173][SQL] CheckAnalysis deve ver todo o plano de consulta
- [SPARK-48016][SQL] Corrigir um bug na função try_divide ao lidar com decimais
- [FAÍSCA-48105][SS] Corrigir a condição de corrida entre o descarregamento ou liberação do armazenamento de estado e a criação de instantâneos
- [SPARK-48197][SQL] Evitar erro de asserção para função lambda inválida
- [SPARK-48180][SQL] Melhorar o erro quando a chamada UDTF com TABLE arg esquece parênteses em torno de vários PARTITION/ORDER BY exprs
- [SPARK-48014][SQL] Altere a mensagem de erro makeFromJava no EvaluatePython para uma mensagem de erro para o usuário
- [SPARK-48056][CONNECT][PYTHON] Execute novamente o plano se um erro de SESSION_NOT_FOUND for levantado e não for recebida nenhuma resposta parcial
- [SPARK-48146][SQL] Corrigir a função de agregação na expressão 'With' do filho
- [SPARK-47994][SQL] Corrigir bug com o rebaixamento do filtro de coluna CASE WHEN no SQLServer
- Atualizações de segurança do sistema operacional.
- 9 de maio de 2024
- [SPARK-47543][CONECTAR][PYTHON] Inferindo dict como MapType do Pandas DataFrame para permitir a criação de um DataFrame
- [FAÍSCA-47739][SQL] Registrar tipo avro lógico
-
[SPARK-48044][PYTHON][CONNECT] Cache
DataFrame.isStreaming
-
[SPARK-47855][CONNECT] Adicionar
spark.sql.execution.arrow.pyspark.fallback.enabled
na lista não suportada - [SPARK-48010][SQL] Evite chamadas repetidas para conf.resolver em resolveExpression
- [SPARK-47941] [SS] [Connect] Propagar erros de inicialização do processo ForeachBatch aos utilizadores para o PySpark
- [SPARK-47819][CONNECT][Cherry-pick-15.0] Usar callback assíncrono para limpeza de execução
- [FAÍSCA-47956][SQL] Verificação de sanidade para referência de LCA não resolvida
- [SPARK-47839][SQL] Corrigir erro de agregação em RewriteWithExpression
- [SPARK-48018][SS] Corrigir groupId nulo causando um erro de parâmetro ausente quando ocorre KafkaException.couldNotReadOffsetRange.
- [SPARK-47371] [SQL] XML: Ignorar etiquetas de linha encontradas no CDATA
- [FAÍSCA-47907][SQL] Coloque bang sob uma configuração
- [SPARK-47895][SQL] agrupar por todos deve ser idempotente
- [FAÍSCA-47973][CORE] Gravar o local da chamada em SparkContext.stop() e mais tarde em SparkContext.assertNotStopped()
- [SPARK-47986][CONNECT][PYTHON] Não é possível criar uma nova sessão quando a sessão padrão é fechada pelo servidor
- Atualizações de segurança do sistema operacional.
Tempo de execução do Databricks 15.0
Consulte Databricks Runtime 15.0 (EoS).
- 30 de maio de 2024
- (Mudança de comportamento) agora é suportada para obter todos os valores de widgets num notebook.
- 25 de abril de 2024
- [SPARK-47786]SELECT DISTINCT () não deve transformar-se em SELECT DISTINCT struct() (reverter para o comportamento anterior)
[SQL] Reverter de (struct) para * - [SPARK-47509][SQL] Bloquear expressões de subconsulta em funções lambda e funções de ordem superior
- [SPARK-47722] Aguarde até que o trabalho em segundo plano do RocksDB termine antes de fechar
- [SPARK-47081][CONNECT][FOLLOW] Aperfeiçoando a usabilidade do gestor de progresso
- [SPARK-47694][CONNECT] Torne o tamanho máximo da mensagem configurável no lado do cliente
-
[SPARK-47669][SQL][CONNECT][PYTHON] Adicionar
Column.try_cast
- [SPARK-47664][PYTHON][CONNECT][Cherry-pick-15.0] Validar o nome da coluna com o esquema armazenado em cache
- [SPARK-47818][CONNECT][Cherry-pick-15.0] Introduza o cache de planos no SparkConnectPlanner para melhorar o desempenho de pedidos de análise
- [SPARK-47704][SQL] A análise JSON falha com "java.lang.ClassCastException" quando spark.sql.json.enablePartialResults está ativado
- [SPARK-47755][CONECTAR] O pivô falha quando o número de valores distintos é demasiado elevado
- [SPARK-47713][SQL][CONECTAR] Corrigir uma falha de auto-junção
- [SPARK-47812][CONNECT] Suporte à serialização do SparkSession para o trabalhador ForEachBatch
-
[SPARK-47828][CONEXÃO][PYTHON]
DataFrameWriterV2.overwrite
falha devido a um plano inválido - [SPARK-47862][PYTHON][CONNECT] Corrigir a geração de arquivos proto
- [FAÍSCA-47800][SQL] Criar novo método para conversão de identificador em tableIdentifier
- Atualizações de segurança do sistema operacional.
- 3 de abril de 2024
- (Mudança de comportamento) Para garantir um comportamento consistente entre os tipos de computação, as UDFs do PySpark em clusters compartilhados agora correspondem ao comportamento das UDFs em clusters sem isolamento e atribuídos. Esta atualização inclui as seguintes alterações que podem quebrar o código existente:
- UDFs com um tipo de retorno
string
não convertem mais implicitamente não-string
valores em valoresstring
. Anteriormente, UDFs com um tipo de retorno destr
encapsulavam o valor de retorno com uma funçãostr()
, independentemente do tipo de dados real do valor retornado. - UDFs com tipos de retorno
timestamp
já não aplicam implicitamente uma conversão paratimestamp
comtimezone
. - As configurações de
spark.databricks.sql.externalUDF.*
cluster do Spark não se aplicam mais às UDFs do PySpark em clusters compartilhados. - A configuração
spark.databricks.safespark.externalUDF.plan.limit
do cluster Spark já não afeta os UDFs do PySpark, eliminando a limitação de Pré-Visualização Pública de 5 UDFs por consulta. - A configuração
spark.databricks.safespark.sandbox.size.default.mib
de cluster do Spark não se aplica mais a UDFs do PySpark em clusters compartilhados. Em vez disso, a memória disponível no sistema é usada. Para limitar a memória de UDFs do PySpark, usespark.databricks.pyspark.udf.isolation.memoryLimit
com um valor mínimo de100m
.
- UDFs com um tipo de retorno
- O
TimestampNTZ
tipo de dados agora é suportado como uma coluna de clustering com clustering líquido. Veja Utilizar clustering líquido para tabelas. - [FAÍSCA-47218][SQL] XML: Ignorar marcas de linha comentadas no tokenizador XML
- [SPARK-46990][SQL] Corrigir o carregamento de ficheiros Avro vazios emitidos por event-hubs
- [SPARK-47033][SQL] Corrigir EXECUTE IMMEDIATE USING não reconhece nomes de variáveis de sessão
- [SPARK-47368][SQL] Remover verificação da configuração inferTimestampNTZ em ParquetRowConverter
- [SPARK-47561][SQL] Corrigir problemas de ordem de regra do analisador a respeito de Alias
- [SPARK-47638][PS][CONECTAR] Ignorar validação de nome de coluna no PS
- [FAÍSCA-46906][BACKPORT][SS] Adicionar uma verificação de alteração de operador com monitoração de estado para streaming
- [FAÍSCA-47569][SQL] Não permitir a comparação de variantes.
- [SPARK-47241][SQL] Corrigir questões de ordenação de regras para ExtractGenerator
- [SPARK-47218] [SQL] XML: Alteração do SchemaOfXml para falhar no modo DROPMALFORMED
-
[FAÍSCA-47300][SQL]
quoteIfNeeded
deve citar o identificador que começa com dígitos - [FAÍSCA-47009][SQL][Colação] Habilitar a criação de suporte de tabela para agrupamento
-
[SPARK-47322][PYTHON][CONNECT] Uniformizar o tratamento da duplicação de nomes de colunas com o
withColumnsRenamed
- [SPARK-47544][PYTHON] O método builder do SparkSession é incompatível com o IntelliSense do Visual Studio Code
- [FAÍSCA-47511][SQL] Canonalizar com expressões reatribuindo IDs
- [SPARK-47385] Corrigir codificadores de tupla com entradas Option.
- [FAÍSCA-47200][SS] Classe de erro para erro de função de usuário do coletor de lote Foreach
- [SPARK-47135][SS] Implementar classes de erro para exceções de perda de dados do Kafka
- [SPARK-38708][SQL] Atualizar Hive Metastore Client para a versão 3.1.3 para o Hive 3.1
- [SPARK-47305][SQL] Corrija PruneFilters para marcar o sinalizador isStreaming de LocalRelation corretamente quando o plano tiver batch e streaming
- [SPARK-47380][CONNECT] Certifique-se no servidor de que o SparkSession é o mesmo
- Atualizações de segurança do sistema operacional.
- (Mudança de comportamento) Para garantir um comportamento consistente entre os tipos de computação, as UDFs do PySpark em clusters compartilhados agora correspondem ao comportamento das UDFs em clusters sem isolamento e atribuídos. Esta atualização inclui as seguintes alterações que podem quebrar o código existente:
Tempo de execução do Databricks 14.2
Consulte Databricks Runtime 14.2 (EoS).
- Outubro 22, 2024
- [FAÍSCA-49782][SQL] A regra ResolveDataFrameDropColumns resolve UnresolvedAttribute com saída filho
- [SPARK-49905] Use ShuffleOrigin dedicado para operador com estado para evitar que o shuffle seja alterado pelo AQE
- Atualizações de segurança do sistema operacional.
- 10 de outubro de 2024
- [SPARK-49743][SQL] OptimizeCsvJsonExpr não deve alterar campos de esquema ao podar GetArrayStructFields
- [BACKPORT] [SPARK-49474][SS] Classificar a classe de Erro para erros da função de utilizador FlatMapGroupsWithState
- 25 de setembro de 2024
- [SPARK-48719][SQL] Corrigir o bug de cálculo de “RegrS...”
- [SPARK-49628][SQL] ConstantFolding deve copiar a expressão com estado antes de avaliar
- [SPARK-49000][SQL] Corrigir "select count(distinct 1) from t" onde t é uma tabela vazia expandindo RewriteDistinctAggregates
- [SPARK-43242][CORE] Corrigir lançamento 'Tipo inesperado de BlockId' no diagnóstico de corrupção aleatória
- [SPARK-46601] [CORE] Corrigir erro de registo em handleStatusMessage
- Atualizações de segurança do sistema operacional.
- 17 de setembro de 2024
- [FAÍSCA-49526][CONECTAR] Suporte a caminhos no estilo do Windows no Gestor de Artefactos
- 29 de agosto de 2024
- [SPARK-49263][CONNECT] Cliente Python do Spark Connect: tratar consistentemente as opções do leitor de Dataframe booleano
- [SPARK-49146][SS] Mover erros de asserção relacionados à marca d'água ausente nas consultas de streaming do modo de adição para o framework de erros
- [FAÍSCA-49056][SQL] ErrorClassesJsonReader não pode manipular valores nulos corretamente
- 14 de agosto de 2024
- [SPARK-48050][SS] Registar o plano lógico no início da consulta
- [SPARK-48597][SQL] Introduzir um marcador para a propriedade isStreaming na representação de texto do plano lógico
- [SPARK-49065][SQL] O rebase nos formatadores/analisadores legados deve suportar fusos horários que não sejam o padrão da JVM
- [SPARK-48706][PYTHON] UDF em Python nas funções de ordem superior não deve gerar um erro interno
- 1 de agosto de 2024
- Esta versão inclui uma correção de bug para as
ColumnVector
classes eColumnarArray
na interface Java do Spark. Antes dessa correção, umArrayIndexOutOfBoundsException
poderia ser lançado ou dados incorretos poderiam ser retornados quando uma instância de uma dessas classes continha valoresnull
. - A saída de uma
SHOW CREATE TABLE
instrução agora inclui quaisquer filtros de linha ou máscaras de coluna definidos numa vista materializada ou tabela em fluxo. Ver SHOW CREATE TABLE. Para saber mais sobre filtros de linha e máscaras de coluna, consulte Filtros de linha e máscaras de coluna. - [FAÍSCA-47202][PYTHON] Corrigir erro de digitação que afeta datas e horas com tzinfo
- [SPARK-48705][PYTHON] Use explicitamente o worker_main quando este começa com pyspark
- Atualizações de segurança do sistema operacional.
- Esta versão inclui uma correção de bug para as
- Julho 11, 2024
- (Alteração de comportamento) DataFrames armazenados em cache em fontes de tabela Delta agora são invalidados se a tabela de origem for sobrescrita. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use
.checkpoint()
para persistir um estado de tabela durante todo o tempo de vida de um DataFrame. - O Snowflake JDBC Driver é atualizado para a versão 3.16.1
- Esta versão inclui uma correção para um problema que impedia que a guia Ambiente da Interface do Usuário do Spark fosse exibida corretamente ao ser executada nos Serviços de Contêiner do Databricks.
- [SPARK-48292][CORE] Reverter [SPARK-39195][SQL] Spark OutputCommitCoordinator deve abortar o estágio quando o ficheiro confirmado não estiver consistente com o estado da tarefa
- [SPARK-48273][SQL] Corrigir a reescrita tardia de PlanWithUnresolvedIdentifier
- [SPARK-48503][SQL] Corrigir subconsultas escalares inválidas com cláusulas group-by em colunas não equivalentes que foram incorretamente permitidas
- [SPARK-48481][SQL][SS] Não aplique OptimizeOneRowPlan no streaming Dataset
- [SPARK-48475][PYTHON] Otimize _get_jvm_function no PySpark.
- [SPARK-48100][SQL] Corrigir problemas ao ignorar campos de estrutura aninhada não selecionados no esquema
- [SPARK-48445][SQL] Não inline UDFs com crianças caras
- [SPARK-48383][SS] Lançar um erro mais específico para partições incompatíveis na opção startOffset em Kafka
- Atualizações de segurança do sistema operacional.
- (Alteração de comportamento) DataFrames armazenados em cache em fontes de tabela Delta agora são invalidados se a tabela de origem for sobrescrita. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use
- 17 de junho de 2024
- Corrige um bug em que a otimização da janela de classificação usando Photon TopK manipulava incorretamente partições com structs.
-
[SPARK-48276][PYTHON][CONNECT] Adicionar o método em falta
__repr__
paraSQLExpression
- [SPARK-48277] Melhorar a mensagem de erro para ErrorClassesJsonReader.getErrorMessage
- Atualizações de segurança do sistema operacional.
- 21 de maio de 2024
- (Mudança de comportamento) agora é suportada para obter todos os valores de widgets num notebook.
- [SPARK-48173][SQL] CheckAnalysis deve ver todo o plano de consulta
- [SPARK-48197][SQL] Evitar erro de asserção para função lambda inválida
- [SPARK-47994][SQL] Corrigir bug com o rebaixamento do filtro de coluna CASE WHEN no SQLServer
- [FAÍSCA-48105][SS] Corrigir a condição de corrida entre o descarregamento ou liberação do armazenamento de estado e a criação de instantâneos
- Atualizações de segurança do sistema operacional.
- 9 de maio de 2024
-
[SPARK-48044][PYTHON][CONNECT] Cache
DataFrame.isStreaming
- [FAÍSCA-47956][SQL] Verificação de sanidade para referência de LCA não resolvida
- [SPARK-47371] [SQL] XML: Ignorar etiquetas de linha encontradas no CDATA
- [SPARK-47812][CONNECT] Suporte à serialização do SparkSession para o trabalhador ForEachBatch
- [SPARK-47895][SQL] agrupar por todos deve ser idempotente
- [FAÍSCA-47973][CORE] Gravar o local da chamada em SparkContext.stop() e mais tarde em SparkContext.assertNotStopped()
- Atualizações de segurança do sistema operacional.
-
[SPARK-48044][PYTHON][CONNECT] Cache
- 25 de abril de 2024
- [SPARK-47704][SQL] A análise JSON falha com "java.lang.ClassCastException" quando spark.sql.json.enablePartialResults está ativado
-
[SPARK-47828][CONEXÃO][PYTHON]
DataFrameWriterV2.overwrite
falha devido a um plano inválido - Atualizações de segurança do sistema operacional.
- 11 de abril de 2024
- [SPARK-47309][SQL][XML] Adicionar testes de unidade de inferência de esquema
- [SPARK-46990][SQL] Corrigir o carregamento de ficheiros Avro vazios emitidos por event-hubs
- [SPARK-47638][PS][CONECTAR] Ignorar validação de nome de coluna no PS
- [SPARK-47509][SQL] Bloquear expressões de subconsulta em funções lambda e funções de ordem superior
- [SPARK-38708][SQL] Atualizar Hive Metastore Client para a versão 3.1.3 para o Hive 3.1
- Atualizações de segurança do sistema operacional.
- 1 de abril de 2024
-
[SPARK-47322][PYTHON][CONNECT] Uniformizar o tratamento da duplicação de nomes de colunas com o
withColumnsRenamed
- [SPARK-47385] Corrigir codificadores de tupla com entradas Option.
- [SPARK-47070] Corrigir agregação inválida após reescrevendo a subconsulta
- [SPARK-47218] [SQL] XML: Alteração do SchemaOfXml para falhar no modo DROPMALFORMED
- [SPARK-47305][SQL] Corrija PruneFilters para marcar o sinalizador isStreaming de LocalRelation corretamente quando o plano tiver batch e streaming
- [FAÍSCA-47218][SQL] XML: Ignorar marcas de linha comentadas no tokenizador XML
- Reverter "[SPARK-46861][CORE] Evitar impasse no DAGScheduler"
-
[FAÍSCA-47300][SQL]
quoteIfNeeded
deve citar o identificador que começa com dígitos - [SPARK-47368][SQL] Remover verificação da configuração inferTimestampNTZ em ParquetRowConverter
- Atualizações de segurança do sistema operacional.
-
[SPARK-47322][PYTHON][CONNECT] Uniformizar o tratamento da duplicação de nomes de colunas com o
- Março 14, 2024
- [SPARK-47035][SS][CONECTE] Protocolo para escutador do lado do cliente
- [FAÍSCA-47121][CORE] Evite RejectedExecutionExceptions durante o desligamento do StandaloneSchedulerBackend
- [SPARK-47145][SQL] Passe o identificador da tabela para a execução de varredura da fonte de dados de linha na estratégia V2.
- [SPARK-47176][SQL] Criar uma função auxiliar ResolveAllExpressionsUpWithPruning
- [SPARK-47167][SQL] Adicionar classe concreta para relação anónima JDBC
- [SPARK-47129][CONNECT][SQL] Realizar corretamente o plano de ligação ao cache
- [FAÍSCA-47044][SQL] Adicionar consulta executada para fontes de dados externas JDBC para explicar a saída
- Atualizações de segurança do sistema operacional.
- 29 de fevereiro de 2024
- Corrigido um problema em que o uso de uma coleção local como origem num comando MERGE poderia levar a que a métrica de operação numSourceRows relatasse o dobro do número correto de linhas.
- Criar um esquema com um local definido agora requer que o utilizador tenha privilégios de SELECT e MODIFICAR em QUALQUER FICHEIRO.
- Agora você pode ingerir arquivos XML usando Autoloader, read_files, COPY INTOLakeflow Declarative Pipelines e DBSQL. O suporte a arquivos XML pode inferir e evoluir automaticamente o esquema, resgatar dados com incompatibilidades de tipo, validar XML usando XSD, suportar expressões SQL como from_xml, schema_of_xml e to_xml. Consulte Suporte a arquivos XML para obter mais detalhes. Se você já estava usando o pacote spark-xml externo, consulte aqui para obter orientações sobre migração.
- [SPARK-46954][SQL] XML: Wrap InputStreamReader com BufferedReader
- [SPARK-46630][SQL] XML: Validar o nome do elemento XML na escrita
- [SPARK-46248][SQL] XML: Suporte para as opções ignoreCorruptFiles e ignoreMissingFiles
- [SPARK-46954][SQL] XML: Otimizar a pesquisa de índice de esquema
- [SPARK-47059][SQL] Anexar contexto de erro para o comando ALTER COLUMN v1
- [FAÍSCA-46993][SQL] Corrigir dobragem constante para variáveis de sessão
- 8 de fevereiro de 2024
- Não há suporte para consultas de feed de dados (CDF) de alteração em vistas materializadas do Unity Catalog, e tentar executar uma consulta CDF com uma vista materializada do Unity Catalog resulta num erro. As tabelas de Unity Catalog Streaming suportam consultas CDF em tabelas CDC não AUTO no Databricks Runtime 14.1 e versões posteriores. As consultas CDF não são suportadas com tabelas do Unity Catalog Streaming no Databricks Runtime 14.0 e anteriores.
- [FAÍSCA-46930] Adicione suporte para um prefixo personalizado para campos do tipo União no Avro.
- [SPARK-46822] Respeitar spark.sql.legacy.charVarcharAsString ao converter o tipo jdbc para tipo catalyst no jdbc.
- [SPARK-46952] XML: Limite o tamanho do registo corrompido.
- [SPARK-46644] Alterar adicionar e fundir no SQLMetric para usar isZero.
- [SPARK-46861] Evite o impasse no DAGScheduler.
- [SPARK-46794] Remova subconsultas das restrições do LogicalRDD.
- [FAÍSCA-46941] Não é possível inserir o nó de limite do grupo de janelas para computação top-k se contiver SizeBasedWindowFunction.
- [SPARK-46933] Adicionar a métrica de tempo de execução da consulta aos conectores que usam JDBCRDD.
- Atualizações de segurança do sistema operacional.
- 31 de janeiro de 2024
-
[SPARK-46382] XML: Atualizar doc para
ignoreSurroundingSpaces
. - [SPARK-46382] XML: Captura valores intercalados entre elementos.
- [SPARK-46763] Corrigir falha de asserção em ReplaceDeduplicateWithAggregate para atributos duplicados.
- Reverter [SPARK-46769] Refine a inferência de esquema relacionada com o timestamp.
-
[SPARK-46677] Corrigir
dataframe["*"]
a resolução. - [SPARK-46382] XML: Padrão ignoreSurroundingSpaces para verdadeiro.
- [SPARK-46633] Corrigir o leitor Avro para lidar com blocos de comprimento zero.
- [SPARK-45964] Remova o acesso privado ao sql nos pacotes XML e JSON dentro do pacote catalyst.
- [SPARK-46581] Atualizar comentário sobre isZero em AccumulatorV2.
- [SPARK-45912] Aprimoramento da API XSDToSchema: Alteração para a API HDFS para permitir acessibilidade ao armazenamento em nuvem.
- [SPARK-45182] Ignore a conclusão da tarefa do estágio antigo após repetir o estágio pai não determinável, de acordo com a soma de verificação.
- [SPARK-46660] ReattachExecute solicita atualizações do status de atividade do SessionHolder.
- [FAÍSCA-46610] Criar tabela deve lançar um erro quando não houver valor para uma chave nas opções.
-
[FAÍSCA-46383] Reduza o uso de memória heap do driver diminuindo a vida útil do
TaskInfo.accumulables()
. - [FAÍSCA-46769] Refine a inferência de esquema relacionada com o carimbo de data/hora.
- [SPARK-46684] Corrigir CoGroup.applyInPandas/Arrow para passar argumentos corretamente.
- [SPARK-46676] dropDuplicatesWithinWatermark não deve falhar na canonicalização do plano.
-
[FAÍSCA-45962] Remova
treatEmptyValuesAsNulls
e use a opçãonullValue
em vez disso no XML. - [FAÍSCA-46541] Corrija a referência de coluna ambígua na associação automática.
- [SPARK-46599] XML: Use TypeCoercion.findTightestCommonType para verificação de compatibilidade.
- Atualizações de segurança do sistema operacional.
-
[SPARK-46382] XML: Atualizar doc para
- 17 de janeiro de 2024
- O nó
shuffle
do plano de explicação retornado por uma consulta Photon é atualizado para adicionar o indicadorcausedBroadcastJoinBuildOOM=true
quando ocorre um erro de falta de memória durante um shuffle que faz parte de uma junção de transmissão. - Para evitar o aumento da latência ao se comunicar por TLSv1.3, esta versão de manutenção inclui um patch para a instalação do JDK 8 para corrigir o bug JDK-8293562 do JDK.
-
[SPARK-46261]
DataFrame.withColumnsRenamed
deve manter a ordem do dicionário/mapa. -
[SPARK-46538] Corrigir o problema de referência de coluna ambígua no
ALSModel.transform
. - [FAÍSCA-46145] spark.catalog.listTables não lança exceção quando a tabela ou exibição não é encontrada.
-
[FAÍSCA-46484] Faça
resolveOperators
com que as funções auxiliares mantenham a ID do plano. -
[SPARK-46394] Corrigir problemas com spark.catalog.listDatabases() em esquemas com caracteres especiais quando
spark.sql.legacy.keepCommandOutputSchema
está definido como verdadeiro. - [SPARK-46609] Evite crescimento exponencial em PartitioningPreservingUnaryExecNode.
- [SPARK-46446] Desativar subconsultas com OFFSET correlacionadas para corrigir um erro de correção.
- [SPARK-46152] XML: Adicionar suporte a DecimalType na inferência de esquema XML.
-
[SPARK-46602] Propagar
allowExisting
quando a vista/a tabela não existir na criação da vista. - [SPARK-45814] Fazer com que ArrowConverters.createEmptyArrowBatch chame close() para evitar fuga de memória.
- [SPARK-46058] Adicione um flag separado para senhaChavePrivada.
- [SPARK-46132] Suporte para senha de chave em chaves JKS para RPC SSL.
- [SPARK-46600] Mover o código partilhado entre SqlConf e SqlApiConf para SqlApiConfHelper.
- [SPARK-46478] Reverter SPARK-43049 para usar oracle varchar(255) para string.
- [SPARK-46417] Não falhe ao chamar hive.getTable quando throwException for false.
- [FAÍSCA-46153] XML: Adicionar suporte a TimestampNTZType.
- [FAÍSCA-46056][BACKPORT] Corrija o NPE de leitura vetorizado do Parquet com o valor padrão byteArrayDecimalType.
- [SPARK-46466] O leitor vetorizado de parquet nunca deve fazer rebase para carimbo de data/hora ntz.
-
[SPARK-46260]
DataFrame.withColumnsRenamed
deve respeitar a ordem do dicionário. - [SPARK-46036] Removendo a classe de erro da função raise_error.
- [SPARK-46294] Aperfeiçoar a semântica do valor inicial versus zero.
- [SPARK-46173] Ignorar a execução de trimAll durante a análise de data.
- [SPARK-46250] Estabilizar test_parity_listener.
- [SPARK-46587] XML: Corrigir a conversão de inteiro grande em XSD.
- [SPARK-46396] A inferência de timestamp não deve lançar exceção.
- [SPARK-46241] Corrigiu a rotina de tratamento de erros para que não caísse em recursão infinita.
- [SPARK-46355] XML: Fechar o InputStreamReader na conclusão da leitura.
- [FAÍSCA-46370] Corrigido o bug ao consultar a tabela após alterar os valores padrão das colunas.
- [SPARK-46265] Asserções em AddArtifact RPC tornam o cliente de conexão incompatível com clusters mais antigos.
- [FAÍSCA-46308] Proibir o tratamento de erros recursivos.
-
[FAÍSCA-46337] Faça
CTESubstitution
reter oPLAN_ID_TAG
.
- O nó
- 14 de dezembro de 2023
- [SPARK-46141] Alterar o predefinido para spark.sql.legacy.ctePrecedencePolicy para CORRIGIDO.
- [SPARK-45730] Torne o ReloadingX509TrustManagerSuite menos instável.
- [FAÍSCA-45852] Lide adequadamente com o erro de recursão durante o registo.
- [SPARK-45808] Melhor tratamento de erros para exceções SQL.
- [FAÍSCA-45920] agrupar por ordinal deve ser idempotente.
- Reverter "[SPARK-45649] Unifique a estrutura de preparação para
OffsetWindowFunctionFrame
". - [SPARK-45733] Suporte várias políticas de repetição.
- [SPARK-45509] Corrija o comportamento de referência da coluna df no Spark Connect.
- [SPARK-45655] Permitir expressões não determinísticas dentro de AggregateFunctions em CollectMetrics.
- [SPARK-45905] O tipo inferior comum entre os tipos decimais deve dar prioridade aos dígitos integrais.
- [SPARK-45136] Melhore o ClosureCleaner com suporte de Ammonite.
- [SPARK-46255] Apoiar conversão de tipo complexo para string.
- [FAÍSCA-45859] Torne os objetos UDF em ml.functions preguiçosos.
-
[SPARK-46028] Permitir que
Column.__getitem__
aceite a coluna de entrada. - [FAÍSCA-45798] Declare a ID da sessão do lado do servidor.
-
[SPARK-45892] Refatorar a validação do plano do otimizador para desacoplar
validateSchemaOutput
evalidateExprIdUniqueness
. - [SPARK-45844] Implemente a insensibilidade a maiúsculas e minúsculas para XML.
-
[FAÍSCA-45770] Introduza o plano
DataFrameDropColumns
paraDataframe.drop
. - [SPARK-44790] XML: implementação de to_xml e ligações para Python, Connect e SQL.
- [SPARK-45851] Suporte a várias políticas no cliente Scala.
- Atualizações de segurança do sistema operacional.
- 29 de novembro de 2023
- Instalado um novo pacote
pyarrow-hotfix
para corrigir uma vulnerabilidade do PyArrow RCE. - Corrigido um problema em que sublinhados protegidos em operações
getColumns
originadas de clientes JDBC ou ODBC eram erroneamente interpretados como caracteres universais. -
[SPARK-45730] Restrições de tempo melhoradas para
ReloadingX509TrustManagerSuite
. - [SPARK-45852] O cliente Python para Spark Connect agora deteta erros de recursão durante a conversão de texto.
- [SPARK-45808] Tratamento de erros melhorado para exceções SQL.
-
[FAÍSCA-45920]
GROUP BY
o ordinal não substitui o ordinal. - Reverter [SPARK-45649].
- [SPARK-45733] Suporte adicionado de várias políticas de repetição.
-
[FAÍSCA-45509] Comportamento de referência de coluna fixo
df
para o Spark Connect. -
[SPARK-45655] Permitir expressões não determinísticas dentro de
AggregateFunctions
emCollectMetrics
. - [SPARK-45905] O tipo menos comum entre os tipos decimais agora prioriza a retenção de dígitos integrais.
-
[SPARK-45136] Melhorar
ClosureCleaner
com suporte a Ammonite. -
[SPARK-45859] Tornou objetos UDF em
ml.functions
avaliados de forma preguiçosa. -
[SPARK-46028]
Column.__getitem__
aceita colunas de entrada. - [FAÍSCA-45798] Declare a ID da sessão do lado do servidor.
-
[SPARK-45892] Refatorar a validação do plano do otimizador para desacoplar
validateSchemaOutput
evalidateExprIdUniqueness
. - [SPARK-45844] Implemente a insensibilidade a maiúsculas e minúsculas para XML.
-
[SPARK-45770] Corrigida a resolução de coluna com
DataFrameDropColumns
paraDataframe.drop
. -
[SPARK-44790] Adicionada
to_xml
implementação e ligações para Python, Spark Connect e SQL. - [SPARK-45851] Adicionado suporte para várias políticas no cliente Scala.
- Atualizações de segurança do sistema operacional.
- Instalado um novo pacote
Tempo de execução do Databricks 14.1
Consulte Databricks Runtime 14.1 (EoS).
- 10 de dezembro de 2024
- Atualizações de segurança do sistema operacional.
- 26 de novembro de 2024
- Atualizações de segurança do sistema operacional.
- 5 de novembro de 2024
- [FAÍSCA-49782][SQL] A regra ResolveDataFrameDropColumns resolve UnresolvedAttribute com saída filho
- [SPARK-49905] Use ShuffleOrigin dedicado para operador com estado para evitar que o shuffle seja alterado pelo AQE
- Outubro 22, 2024
- [FAÍSCA-49782][SQL] A regra ResolveDataFrameDropColumns resolve UnresolvedAttribute com saída filho
- [SPARK-49905] Use ShuffleOrigin dedicado para operador com estado para evitar que o shuffle seja alterado pelo AQE
- 10 de outubro de 2024
- [BACKPORT] [SPARK-49474][SS] Classificar a classe de Erro para erros da função de utilizador FlatMapGroupsWithState
- [SPARK-49743][SQL] OptimizeCsvJsonExpr não deve alterar campos de esquema ao podar GetArrayStructFields
- Atualizações de segurança do sistema operacional.
- 25 de setembro de 2024
- [SPARK-49628][SQL] ConstantFolding deve copiar a expressão com estado antes de avaliar
- [SPARK-43242][CORE] Corrigir lançamento 'Tipo inesperado de BlockId' no diagnóstico de corrupção aleatória
- [SPARK-48719][SQL] Corrigir o bug de cálculo de “RegrS...”
- [SPARK-49000][SQL] Corrigir "select count(distinct 1) from t" onde t é uma tabela vazia expandindo RewriteDistinctAggregates
- [SPARK-46601] [CORE] Corrigir erro de registo em handleStatusMessage
- Atualizações de segurança do sistema operacional.
- 17 de setembro de 2024
- [FAÍSCA-49526][CONECTAR] Suporte a caminhos no estilo do Windows no Gestor de Artefactos
- Atualizações de segurança do sistema operacional.
- 29 de agosto de 2024
- [SPARK-49263][CONNECT] Cliente Python do Spark Connect: tratar consistentemente as opções do leitor de Dataframe booleano
- [FAÍSCA-49056][SQL] ErrorClassesJsonReader não pode manipular valores nulos corretamente
- 14 de agosto de 2024
- [SPARK-48706][PYTHON] UDF em Python nas funções de ordem superior não deve gerar um erro interno
- [SPARK-48597][SQL] Introduzir um marcador para a propriedade isStreaming na representação de texto do plano lógico
- [SPARK-49065][SQL] O rebase nos formatadores/analisadores legados deve suportar fusos horários que não sejam o padrão da JVM
- [SPARK-48050][SS] Registar o plano lógico no início da consulta
- 1 de agosto de 2024
- Esta versão inclui uma correção de bug para as
ColumnVector
classes eColumnarArray
na interface Java do Spark. Antes dessa correção, umArrayIndexOutOfBoundsException
poderia ser lançado ou dados incorretos poderiam ser retornados quando uma instância de uma dessas classes continha valoresnull
. - A saída de uma
SHOW CREATE TABLE
instrução agora inclui quaisquer filtros de linha ou máscaras de coluna definidos numa vista materializada ou tabela em fluxo. Ver SHOW CREATE TABLE. Para saber mais sobre filtros de linha e máscaras de coluna, consulte Filtros de linha e máscaras de coluna. - [SPARK-48705][PYTHON] Use explicitamente o worker_main quando este começa com pyspark
- [FAÍSCA-47202][PYTHON] Corrigir erro de digitação que afeta datas e horas com tzinfo
- Atualizações de segurança do sistema operacional.
- Esta versão inclui uma correção de bug para as
- Julho 11, 2024
- (Alteração de comportamento) DataFrames armazenados em cache em fontes de tabela Delta agora são invalidados se a tabela de origem for sobrescrita. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use
.checkpoint()
para persistir um estado de tabela durante todo o tempo de vida de um DataFrame. - Esta versão inclui uma correção para um problema que impedia que a guia Ambiente da Interface do Usuário do Spark fosse exibida corretamente ao ser executada nos Serviços de Contêiner do Databricks.
- [SPARK-48475][PYTHON] Otimize _get_jvm_function no PySpark.
- [SPARK-48445][SQL] Não inline UDFs com crianças caras
- [SPARK-48481][SQL][SS] Não aplique OptimizeOneRowPlan no streaming Dataset
- [SPARK-48292][CORE] Reverter [SPARK-39195][SQL] Spark OutputCommitCoordinator deve abortar o estágio quando o ficheiro confirmado não estiver consistente com o estado da tarefa
- [SPARK-48503][SQL] Corrigir subconsultas escalares inválidas com cláusulas group-by em colunas não equivalentes que foram incorretamente permitidas
- [SPARK-48273][SQL] Corrigir a reescrita tardia de PlanWithUnresolvedIdentifier
- [SPARK-48100][SQL] Corrigir problemas ao ignorar campos de estrutura aninhada não selecionados no esquema
- [SPARK-48383][SS] Lançar um erro mais específico para partições incompatíveis na opção startOffset em Kafka
- Atualizações de segurança do sistema operacional.
- (Alteração de comportamento) DataFrames armazenados em cache em fontes de tabela Delta agora são invalidados se a tabela de origem for sobrescrita. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados armazenados em cache. Use
- 17 de junho de 2024
- Corrige um bug em que a otimização da janela de classificação usando Photon TopK manipulava incorretamente partições com structs.
-
[SPARK-48276][PYTHON][CONNECT] Adicionar o método em falta
__repr__
paraSQLExpression
- [SPARK-48277] Melhorar a mensagem de erro para ErrorClassesJsonReader.getErrorMessage
- Atualizações de segurança do sistema operacional.
- 21 de maio de 2024
- (Mudança de comportamento) agora é suportada para obter todos os valores de widgets num notebook.
- [SPARK-47994][SQL] Corrigir bug com o rebaixamento do filtro de coluna CASE WHEN no SQLServer
- [FAÍSCA-48105][SS] Corrigir a condição de corrida entre o descarregamento ou liberação do armazenamento de estado e a criação de instantâneos
- [SPARK-48173][SQL] CheckAnalysis deve ver todo o plano de consulta
- Atualizações de segurança do sistema operacional.
- 9 de maio de 2024
- [SPARK-47371] [SQL] XML: Ignorar etiquetas de linha encontradas no CDATA
- [SPARK-47895][SQL] agrupar por todos deve ser idempotente
- [FAÍSCA-47956][SQL] Verificação de sanidade para referência de LCA não resolvida
-
[SPARK-48044][PYTHON][CONNECT] Cache
DataFrame.isStreaming
- [FAÍSCA-47973][CORE] Gravar o local da chamada em SparkContext.stop() e mais tarde em SparkContext.assertNotStopped()
- Atualizações de segurança do sistema operacional.
- 25 de abril de 2024
- [SPARK-47704][SQL] A análise JSON falha com "java.lang.ClassCastException" quando spark.sql.json.enablePartialResults está ativado
-
[SPARK-47828][CONEXÃO][PYTHON]
DataFrameWriterV2.overwrite
falha devido a um plano inválido - Atualizações de segurança do sistema operacional.
- 11 de abril de 2024
- [SPARK-47638][PS][CONECTAR] Ignorar validação de nome de coluna no PS
- [SPARK-38708][SQL] Atualizar Hive Metastore Client para a versão 3.1.3 para o Hive 3.1
- [SPARK-47309][SQL][XML] Adicionar testes de unidade de inferência de esquema
- [SPARK-47509][SQL] Bloquear expressões de subconsulta em funções lambda e funções de ordem superior
- [SPARK-46990][SQL] Corrigir o carregamento de ficheiros Avro vazios emitidos por event-hubs
- Atualizações de segurança do sistema operacional.
- 1 de abril de 2024
- [SPARK-47305][SQL] Corrija PruneFilters para marcar o sinalizador isStreaming de LocalRelation corretamente quando o plano tiver batch e streaming
- [FAÍSCA-47218][SQL] XML: Ignorar marcas de linha comentadas no tokenizador XML
-
[FAÍSCA-47300][SQL]
quoteIfNeeded
deve citar o identificador que começa com dígitos - [SPARK-47368][SQL] Remover verificação da configuração inferTimestampNTZ em ParquetRowConverter
- [SPARK-47070] Corrigir agregação inválida após reescrevendo a subconsulta
-
[SPARK-47322][PYTHON][CONNECT] Uniformizar o tratamento da duplicação de nomes de colunas com o
withColumnsRenamed
- [SPARK-47300] Correção para DecomposerSuite
- [SPARK-47218] [SQL] XML: Alteração do SchemaOfXml para falhar no modo DROPMALFORMED
- [SPARK-47385] Corrigir codificadores de tupla com entradas Option.
- Atualizações de segurança do sistema operacional.
- Março 14, 2024
- [SPARK-47176][SQL] Criar uma função auxiliar ResolveAllExpressionsUpWithPruning
- [SPARK-47145][SQL] Passe o identificador da tabela para a execução de varredura da fonte de dados de linha na estratégia V2.
- [SPARK-47167][SQL] Adicionar classe concreta para relação anónima JDBC
- [SPARK-47129][CONNECT][SQL] Realizar corretamente o plano de ligação ao cache
- Reverter "[SPARK-46861][CORE] Evitar impasse no DAGScheduler"
- [FAÍSCA-47044][SQL] Adicionar consulta executada para fontes de dados externas JDBC para explicar a saída
- Atualizações de segurança do sistema operacional.
- 29 de fevereiro de 2024
- Corrigido um problema em que o uso de uma coleção local como origem num comando MERGE poderia levar a que a métrica de operação numSourceRows relatasse o dobro do número correto de linhas.
- Criar um esquema com um local definido agora requer que o utilizador tenha privilégios de SELECT e MODIFICAR em QUALQUER FICHEIRO.
- Agora você pode ingerir arquivos XML usando Autoloader, read_files, COPY INTOLakeflow Declarative Pipelines e DBSQL. O suporte a arquivos XML pode inferir e evoluir automaticamente o esquema, resgatar dados com incompatibilidades de tipo, validar XML usando XSD, suportar expressões SQL como from_xml, schema_of_xml e to_xml. Consulte Suporte a arquivos XML para obter mais detalhes. Se você já estava usando o pacote spark-xml externo, consulte aqui para obter orientações sobre migração.
- [SPARK-46248][SQL] XML: Suporte para as opções ignoreCorruptFiles e ignoreMissingFiles
- [SPARK-47059][SQL] Anexar contexto de erro para o comando ALTER COLUMN v1
- [SPARK-46954][SQL] XML: Wrap InputStreamReader com BufferedReader
- [SPARK-46954][SQL] XML: Otimizar a pesquisa de índice de esquema
- [SPARK-46630][SQL] XML: Validar o nome do elemento XML na escrita
- Atualizações de segurança do sistema operacional.
- 8 de fevereiro de 2024
- Não há suporte para consultas de feed de dados (CDF) de alteração em vistas materializadas do Unity Catalog, e tentar executar uma consulta CDF com uma vista materializada do Unity Catalog resulta num erro. As tabelas de streaming do Unity Catalog suportam consultas CDF em tabelas CDC não AUTO no Databricks Runtime 14.1 e posterior. As consultas CDF não são suportadas com tabelas de streaming do Unity Catalog no Databricks Runtime 14.0 e anteriores.
- [SPARK-46952] XML: Limite o tamanho do registo corrompido.
- [SPARK-45182] Ignore a conclusão da tarefa do estágio antigo após repetir o estágio pai não determinável, de acordo com a soma de verificação.
- [SPARK-46794] Remova subconsultas das restrições do LogicalRDD.
- [SPARK-46933] Adicionar a métrica de tempo de execução da consulta aos conectores que usam JDBCRDD.
- [SPARK-46861] Evite o impasse no DAGScheduler.
- [SPARK-45582] Certifique-se de que a instância de armazenamento não seja usada depois de efetuar o commit na agregação de fluxo em modo de saída.
- [FAÍSCA-46930] Adicione suporte para um prefixo personalizado para campos do tipo União no Avro.
- [FAÍSCA-46941] Não é possível inserir o nó de limite do grupo de janelas para computação top-k se contiver SizeBasedWindowFunction.
- [SPARK-46396] A inferência de timestamp não deve lançar exceção.
- [SPARK-46822] Respeitar spark.sql.legacy.charVarcharAsString ao converter o tipo jdbc para tipo catalyst no jdbc.
- [SPARK-45957] Evite gerar plano de execução para comandos não executáveis.
- Atualizações de segurança do sistema operacional.
- 31 de janeiro de 2024
- [SPARK-46684] Corrigir CoGroup.applyInPandas/Arrow para passar argumentos corretamente.
- [SPARK-46763] Corrigir falha de asserção em ReplaceDeduplicateWithAggregate para atributos duplicados.
- [FAÍSCA-45498] Seguimento: Ignorar a conclusão de tarefas de fases antigas.
-
[SPARK-46382] XML: Atualizar doc para
ignoreSurroundingSpaces
. -
[FAÍSCA-46383] Reduza o uso de memória heap do driver diminuindo a vida útil do
TaskInfo.accumulables()
. - [SPARK-46382] XML: Padrão ignoreSurroundingSpaces para verdadeiro.
-
[SPARK-46677] Corrigir
dataframe["*"]
a resolução. - [SPARK-46676] dropDuplicatesWithinWatermark não deve falhar na canonicalização do plano.
- [SPARK-46633] Corrigir o leitor Avro para lidar com blocos de comprimento zero.
- [SPARK-45912] Aprimoramento da API XSDToSchema: Alteração para a API HDFS para permitir acessibilidade ao armazenamento em nuvem.
- [SPARK-46599] XML: Use TypeCoercion.findTightestCommonType para verificação de compatibilidade.
- [SPARK-46382] XML: Captura valores intercalados entre elementos.
- [FAÍSCA-46769] Refine a inferência de esquema relacionada com o carimbo de data/hora.
- [FAÍSCA-46610] Criar tabela deve lançar um erro quando não houver valor para uma chave nas opções.
- [SPARK-45964] Remova o acesso privado ao sql nos pacotes XML e JSON dentro do pacote catalyst.
- Reverter [SPARK-46769] Refine a inferência de esquema relacionada com o timestamp.
-
[FAÍSCA-45962] Remova
treatEmptyValuesAsNulls
e use a opçãonullValue
em vez disso no XML. - [FAÍSCA-46541] Corrija a referência de coluna ambígua na associação automática.
- Atualizações de segurança do sistema operacional.
- 17 de janeiro de 2024
- O nó
shuffle
do plano de explicação retornado por uma consulta Photon é atualizado para adicionar o indicadorcausedBroadcastJoinBuildOOM=true
quando ocorre um erro de falta de memória durante um shuffle que faz parte de uma junção de transmissão. - Para evitar o aumento da latência ao se comunicar por TLSv1.3, esta versão de manutenção inclui um patch para a instalação do JDK 8 para corrigir o bug JDK-8293562 do JDK.
-
[SPARK-46538] Corrigir o problema de referência de coluna ambígua no
ALSModel.transform
. - [SPARK-46417] Não falhe ao chamar hive.getTable quando throwException for false.
-
[FAÍSCA-46484] Faça
resolveOperators
com que as funções auxiliares mantenham a ID do plano. - [FAÍSCA-46153] XML: Adicionar suporte a TimestampNTZType.
- [SPARK-46152] XML: Adicionar suporte a DecimalType na inferência de esquema XML.
- [FAÍSCA-46145] spark.catalog.listTables não lança exceção quando a tabela ou exibição não é encontrada.
- [SPARK-46478] Reverter SPARK-43049 para usar oracle varchar(255) para string.
-
[SPARK-46394] Corrigir problemas com spark.catalog.listDatabases() em esquemas com caracteres especiais quando
spark.sql.legacy.keepCommandOutputSchema
está definido como verdadeiro. -
[FAÍSCA-46337] Faça
CTESubstitution
reter oPLAN_ID_TAG
. - [SPARK-46466] O leitor vetorizado de parquet nunca deve fazer rebase para carimbo de data/hora ntz.
- [SPARK-46587] XML: Corrigir a conversão de inteiro grande em XSD.
- [SPARK-45814] Fazer com que ArrowConverters.createEmptyArrowBatch chame close() para evitar fuga de memória.
- [SPARK-46132] Suporte para senha de chave em chaves JKS para RPC SSL.
-
[SPARK-46602] Propagar
allowExisting
quando a vista/a tabela não existir na criação da vista. - [SPARK-46173] Ignorar a execução de trimAll durante a análise de data.
- [SPARK-46355] XML: Fechar o InputStreamReader na conclusão da leitura.
- [SPARK-46600] Mover o código partilhado entre SqlConf e SqlApiConf para SqlApiConfHelper.
-
[SPARK-46261]
DataFrame.withColumnsRenamed
deve manter a ordem do dicionário/mapa. - [SPARK-46056] Corrigir o NPE de leitura vetorizado do Parquet com o valor padrão byteArrayDecimalType.
-
[SPARK-46260]
DataFrame.withColumnsRenamed
deve respeitar a ordem do dicionário. - [SPARK-46250] Estabilizar test_parity_listener.
- [FAÍSCA-46370] Corrigido o bug ao consultar a tabela após alterar os valores padrão das colunas.
- [SPARK-46609] Evite crescimento exponencial em PartitioningPreservingUnaryExecNode.
- [SPARK-46058] Adicione um flag separado para senhaChavePrivada.
- O nó
- 14 de dezembro de 2023
- Corrigido um problema em que caracteres de sublinhado com escape em operações getColumns originadas de clientes JDBC ou ODBC eram processados incorretamente e interpretados como curingas.
- [SPARK-45509] Corrija o comportamento de referência da coluna df no Spark Connect.
- [SPARK-45844] Implemente a insensibilidade a maiúsculas e minúsculas para XML.
- [SPARK-46141] Alterar o predefinido para spark.sql.legacy.ctePrecedencePolicy para CORRIGIDO.
-
[SPARK-46028] Permitir que
Column.__getitem__
aceite a coluna de entrada. - [SPARK-46255] Apoiar conversão de tipo complexo para string.
- [SPARK-45655] Permitir expressões não determinísticas dentro de AggregateFunctions em CollectMetrics.
- [SPARK-45433] Corrija a inferência do esquema CSV/JSON quando as datas e horas não corresponderem ao formato de data e hora especificado.
-
[SPARK-45316] Adicione novos parâmetros
ignoreCorruptFiles
/ignoreMissingFiles
aHadoopRDD
eNewHadoopRDD
. - [FAÍSCA-45852] Lide adequadamente com o erro de recursão durante o registo.
- [FAÍSCA-45920] agrupar por ordinal deve ser idempotente.
- Atualizações de segurança do sistema operacional.
- 29 de novembro de 2023
- Instalado um novo pacote
pyarrow-hotfix
para corrigir uma vulnerabilidade do PyArrow RCE. - Corrigido um problema em que sublinhados protegidos em operações
getColumns
originadas de clientes JDBC ou ODBC eram erroneamente interpretados como caracteres universais. - Ao ingerir dados CSV usando o Auto Loader ou tabelas de streaming, arquivos CSV grandes agora são dividiveis e podem ser processados em paralelo durante a inferência de esquema e o processamento de dados.
-
[SPARK-45892] Refatorar a validação do plano do otimizador para desacoplar
validateSchemaOutput
evalidateExprIdUniqueness
. - [SPARK-45620] APIs relacionadas com Python UDF agora usam camelCase.
-
[SPARK-44790] Adicionada
to_xml
implementação e ligações para Python, Spark Connect e SQL. -
[SPARK-45770] Corrigida a resolução de coluna com
DataFrameDropColumns
paraDataframe.drop
. -
[SPARK-45859] Tornou objetos UDF em
ml.functions
avaliados de forma preguiçosa. -
[SPARK-45730] Restrições de tempo melhoradas para
ReloadingX509TrustManagerSuite
. - [SPARK-44784] Fez com que os testes do SBT fossem herméticos.
- Atualizações de segurança do sistema operacional.
- Instalado um novo pacote
- 10 de novembro de 2023
-
[SPARK-45545]
SparkTransportConf
herda no momento daSSLOptions
criação. - [SPARK-45250] Adicionado suporte para perfil de recursos de tarefas a nível de estágio para clusters YARN quando a alocação dinâmica está desligada.
- [SPARK-44753] Adicionado gravador e leitor XML DataFrame para PySpark SQL.
-
[FAÍSCA-45396] Adicionada uma entrada de documentação para o módulo
PySpark.ml.connect
. -
[SPARK-45584] Corrigida a falha de execução da subconsulta com
TakeOrderedAndProjectExec
. - [SPARK-45541] Adicionado SSLFactory.
-
[SPARK-45577] Corrigido
UserDefinedPythonTableFunctionAnalyzeRunner
para passar valores dobrados de argumentos nomeados. - [SPARK-45562] Tornou 'rowTag' uma opção obrigatória.
-
[SPARK-45427] Adicionadas configurações de SSL RPC para
SSLOptions
eSparkTransportConf
. - [SPARK-43380] Corrigida lentidão na leitura Avro.
-
[FAÍSCA-45430]
FramelessOffsetWindowFunction
já não falha quandoIGNORE NULLS
eoffset > rowCount
. - [SPARK-45429] Foram adicionadas classes auxiliares para comunicação RPC SSL.
-
[SPARK-45386] Corrigido um problema em que
StorageLevel.NONE
retornava incorretamente 0. - [SPARK-44219] Adicionadas verificações de validação por regra para reescritas de otimização.
-
[FAÍSCA-45543] Corrigida uma questão onde
InferWindowGroupLimit
causava um conflito caso as outras funções de janela não utilizassem o mesmo quadro de janela que as funções tipo classificação. - Atualizações de segurança do sistema operacional.
-
[SPARK-45545]
- 27 de setembro de 2023
-
[SPARK-44823] Atualizado
black
para 23.9.1 e corrigida verificação errónea. - [SPARK-45339] O PySpark agora regista erros que tenta novamente.
- Reverter [SPARK-42946] Dados confidenciais editados aninhados em substituições variáveis.
- [SPARK-44551] Comentários editados para sincronizar com o OSS.
-
[SPARK-45360] O construtor de sessões do Spark suporta a inicialização a partir de
SPARK_REMOTE
. -
[SPARK-45279] Anexada
plan_id
a todos os planos lógicos. -
[FAÍSCA-45425] Mapeado
TINYINT
paraShortType
MsSqlServerDialect
. - [SPARK-45419] Removida a entrada do mapa de versão de arquivo de versões de maior tamanho para evitar a reutilização de IDs de arquivo sst.
-
[SPARK-45488] Adicionado suporte para valor no elemento
rowTag
. -
[SPARK-42205] Removido o registo de eventos de início nos registos de eventos de
Accumulables
. -
[SPARK-45426] Adicionado suporte para
ReloadingX509TrustManager
. -
[SPARK-45256]
DurationWriter
falha ao escrever mais valores do que a capacidade inicial. -
[SPARK-43380] Corrigidos
Avro
problemas de conversão de tipo de dados sem causar regressão de desempenho. - [SPARK-45182] Adicionado suporte para reverter o estágio do mapa de embaralhamento para que todas as tarefas do estágio possam ser repetidas quando a saída do estágio for indeterminada.
-
[SPARK-45399] Adicionadas opções XML usando
newOption
. - Atualizações de segurança do sistema operacional.
-
[SPARK-44823] Atualizado
Tempo de execução do Databricks 14.0
Consulte Databricks Runtime 14.0 (EoS).
- 8 de fevereiro de 2024
- [SPARK-46396] A inferência de timestamp não deve lançar exceção.
- [SPARK-46794] Remova subconsultas das restrições do LogicalRDD.
- [SPARK-45182] Ignore a conclusão da tarefa do estágio antigo após repetir o estágio pai não determinável, de acordo com a soma de verificação.
- [SPARK-46933] Adicionar a métrica de tempo de execução da consulta aos conectores que usam JDBCRDD.
- [SPARK-45957] Evite gerar plano de execução para comandos não executáveis.
- [SPARK-46861] Evite o impasse no DAGScheduler.
- [FAÍSCA-46930] Adicione suporte para um prefixo personalizado para campos do tipo União no Avro.
- [FAÍSCA-46941] Não é possível inserir o nó de limite do grupo de janelas para computação top-k se contiver SizeBasedWindowFunction.
- [SPARK-45582] Certifique-se de que a instância de armazenamento não seja usada depois de efetuar o commit na agregação de fluxo em modo de saída.
- Atualizações de segurança do sistema operacional.
- 31 de janeiro de 2024
- [FAÍSCA-46541] Corrija a referência de coluna ambígua na associação automática.
- [SPARK-46676] dropDuplicatesWithinWatermark não deve falhar na canonicalização do plano.
- [FAÍSCA-46769] Refine a inferência de esquema relacionada com o carimbo de data/hora.
- [FAÍSCA-45498] Seguimento: Ignorar a conclusão de tarefas de fases antigas.
- Reverter [SPARK-46769] Refine a inferência de esquema relacionada com o timestamp.
-
[FAÍSCA-46383] Reduza o uso de memória heap do driver diminuindo a vida útil do
TaskInfo.accumulables()
. - [SPARK-46633] Corrigir o leitor Avro para lidar com blocos de comprimento zero.
-
[SPARK-46677] Corrigir
dataframe["*"]
a resolução. - [SPARK-46684] Corrigir CoGroup.applyInPandas/Arrow para passar argumentos corretamente.
- [SPARK-46763] Corrigir falha de asserção em ReplaceDeduplicateWithAggregate para atributos duplicados.
- [FAÍSCA-46610] Criar tabela deve lançar um erro quando não houver valor para uma chave nas opções.
- Atualizações de segurança do sistema operacional.
- 17 de janeiro de 2024
- O nó
shuffle
do plano de explicação retornado por uma consulta Photon é atualizado para adicionar o indicadorcausedBroadcastJoinBuildOOM=true
quando ocorre um erro de falta de memória durante um shuffle que faz parte de uma junção de transmissão. - Para evitar o aumento da latência ao se comunicar por TLSv1.3, esta versão de manutenção inclui um patch para a instalação do JDK 8 para corrigir o bug JDK-8293562 do JDK.
-
[SPARK-46394] Corrigir problemas com spark.catalog.listDatabases() em esquemas com caracteres especiais quando
spark.sql.legacy.keepCommandOutputSchema
está definido como verdadeiro. - [SPARK-46250] Estabilizar test_parity_listener.
- [SPARK-45814] Fazer com que ArrowConverters.createEmptyArrowBatch chame close() para evitar fuga de memória.
- [SPARK-46173] Ignorar a execução de trimAll durante a análise de data.
-
[FAÍSCA-46484] Faça
resolveOperators
com que as funções auxiliares mantenham a ID do plano. - [SPARK-46466] O leitor vetorizado de parquet nunca deve fazer rebase para carimbo de data/hora ntz.
- [SPARK-46056] Corrigir o NPE de leitura vetorizado do Parquet com o valor padrão byteArrayDecimalType.
- [SPARK-46058] Adicione um flag separado para senhaChavePrivada.
- [SPARK-46478] Reverter SPARK-43049 para usar oracle varchar(255) para string.
- [SPARK-46132] Suporte para senha de chave em chaves JKS para RPC SSL.
- [SPARK-46417] Não falhe ao chamar hive.getTable quando throwException for false.
-
[SPARK-46261]
DataFrame.withColumnsRenamed
deve manter a ordem do dicionário/mapa. - [FAÍSCA-46370] Corrigido o bug ao consultar a tabela após alterar os valores padrão das colunas.
- [SPARK-46609] Evite crescimento exponencial em PartitioningPreservingUnaryExecNode.
- [SPARK-46600] Mover o código partilhado entre SqlConf e SqlApiConf para SqlApiConfHelper.
-
[SPARK-46538] Corrigir o problema de referência de coluna ambígua no
ALSModel.transform
. -
[FAÍSCA-46337] Faça
CTESubstitution
reter oPLAN_ID_TAG
. -
[SPARK-46602] Propagar
allowExisting
quando a vista/a tabela não existir na criação da vista. -
[SPARK-46260]
DataFrame.withColumnsRenamed
deve respeitar a ordem do dicionário. - [FAÍSCA-46145] spark.catalog.listTables não lança exceção quando a tabela ou exibição não é encontrada.
- O nó
- 14 de dezembro de 2023
- Corrigido um problema em que caracteres de sublinhado com escape em operações getColumns originadas de clientes JDBC ou ODBC eram processados incorretamente e interpretados como curingas.
- [SPARK-46255] Apoiar conversão de tipo complexo para string.
-
[SPARK-46028] Permitir que
Column.__getitem__
aceite a coluna de entrada. - [FAÍSCA-45920] agrupar por ordinal deve ser idempotente.
- [SPARK-45433] Corrija a inferência do esquema CSV/JSON quando as datas e horas não corresponderem ao formato de data e hora especificado.
- [SPARK-45509] Corrija o comportamento de referência da coluna df no Spark Connect.
- Atualizações de segurança do sistema operacional.
- 29 de novembro de 2023
- Instalado um novo pacote
pyarrow-hotfix
para corrigir uma vulnerabilidade do PyArrow RCE. - Corrigido um problema em que sublinhados protegidos em operações
getColumns
originadas de clientes JDBC ou ODBC eram erroneamente interpretados como caracteres universais. - Ao ingerir dados CSV usando o Auto Loader ou tabelas de streaming, arquivos CSV grandes agora são dividiveis e podem ser processados em paralelo durante a inferência de esquema e o processamento de dados.
- O conector faísca-floco de neve é atualizado para 2.12.0.
-
[SPARK-45859] Tornou objetos UDF em
ml.functions
avaliados de forma preguiçosa. - Reverter [SPARK-45592].
-
[SPARK-45892] Refatorar a validação do plano do otimizador para desacoplar
validateSchemaOutput
evalidateExprIdUniqueness
. -
[FAÍSCA-45592] Corrigido o problema de precisão no AQE com
InMemoryTableScanExec
. - [SPARK-45620] APIs relacionadas com Python UDF agora usam camelCase.
- [SPARK-44784] Fez com que os testes do SBT fossem herméticos.
-
[SPARK-45770] Corrigida a resolução de coluna com
DataFrameDropColumns
paraDataframe.drop
. -
[SPARK-45544] Suporte SSL integrado no
TransportContext
. -
[SPARK-45730] Restrições de tempo melhoradas para
ReloadingX509TrustManagerSuite
. - Atualizações de segurança do sistema operacional.
- Instalado um novo pacote
- 10 de novembro de 2023
- Consultas de alimentação de dados em tabelas de streaming do Catálogo Unity e vistas materializadas foram alteradas para exibir mensagens de erro.
-
[SPARK-45545]
SparkTransportConf
herda no momento daSSLOptions
criação. -
[SPARK-45584] Corrigida a falha de execução da subconsulta com
TakeOrderedAndProjectExec
. -
[SPARK-45427] Adicionadas configurações de SSL RPC para
SSLOptions
eSparkTransportConf
. -
[SPARK-45541] Adicionado
SSLFactory
. -
[FAÍSCA-45430]
FramelessOffsetWindowFunction
já não falha quandoIGNORE NULLS
eoffset > rowCount
. - [SPARK-45429] Foram adicionadas classes auxiliares para comunicação RPC SSL.
- [SPARK-44219] Foram adicionadas validações extras por regra para reescritas de otimização.
-
[SPARK-45543] Corrigido um problema em que
InferWindowGroupLimit
um erro era gerado se as outras funções de janela não tivessem a mesma estrutura de janela que as funções semelhantes ao rank. - Atualizações de segurança do sistema operacional.
- 23 de outubro de 2023
-
[SPARK-45426] Adicionado suporte para
ReloadingX509TrustManager
. -
[FAÍSCA-45396] Adicionada entrada de documentação para o módulo
PySpark.ml.connect
, e adicionadaEvaluator
a__all__
emml.connect
. -
[FAÍSCA-45256] Corrigido um problema em que
DurationWriter
falhava ao escrever mais valores do que a capacidade inicial. -
[SPARK-45279] Anexada
plan_id
a todos os planos lógicos. - [SPARK-45250] Adicionado suporte para perfil de recursos de tarefas a nível de estágio para clusters YARN quando a alocação dinâmica está desligada.
- [SPARK-45182] Adicionado suporte para reverter o estágio do mapa de embaralhamento para que todas as tarefas do estágio possam ser repetidas quando a saída do estágio for indeterminada.
-
[FAÍSCA-45419] Evite reutilizar
rocksdb sst
ficheiros numa instância diferenterocksdb
ao remover as entradas do mapa de versões de ficheiros de versões maiores. -
[SPARK-45386] Corrigido um problema em que
StorageLevel.NONE
retornava incorretamente 0. - Atualizações de segurança do sistema operacional.
-
[SPARK-45426] Adicionado suporte para
- 13 de outubro de 2023
- Dependência Snowflake-jdbc atualizada de 3.13.29 para 3.13.33.
- A
array_insert
função é baseada em 1 para índices positivos e negativos, enquanto antes, era baseada em 0 para índices negativos. Ele agora insere um novo elemento no final das matrizes de entrada para o índice -1. Para restaurar o comportamento anterior, definaspark.sql.legacy.negativeIndexInArrayInsert
comotrue
. - O Azure Databricks deixa de ignorar ficheiros corrompidos quando uma inferência de esquema CSV com o Auto Loader está ativada
ignoreCorruptFiles
. -
[SPARK-45227] Corrigido um problema sutil de segurança da thread com
CoarseGrainedExecutorBackend
. -
[SPARK-44658]
ShuffleStatus.getMapStatus
deve retornarNone
em vez deSome(null)
. -
[SPARK-44910]
Encoders.bean
não suporta superclasses com argumentos de tipo genéricos. - [SPARK-45346] A inferência do esquema Parquet respeita as bandeiras de sensibilidade a maiúsculas e minúsculas ao mesclar esquemas.
- Reverter [SPARK-42946].
- [SPARK-42205] Atualizado o protocolo JSON para remover o registo de acumuláveis nos eventos de início de tarefa ou de estágio.
-
[SPARK-45360] O construtor de sessões do Spark suporta a inicialização a partir de
SPARK_REMOTE
. -
[SPARK-45316] Adicione novos parâmetros
ignoreCorruptFiles
/ignoreMissingFiles
aHadoopRDD
eNewHadoopRDD
. - [FAÍSCA-44909] Ignore a execução do servidor de streaming de log do distribuidor da tocha quando ele não estiver disponível.
-
[SPARK-45084]
StateOperatorProgress
agora usa o número de partição de embaralhamento preciso. - [SPARK-45371] Corrigidos problemas de sombreamento no cliente Spark Connect Scala.
-
[FAÍSCA-45178] Fallback para executar um único lote para
Trigger.AvailableNow
com fontes não suportadas em vez de usar o wrapper. -
[FAÍSCA-44840] Alterar
array_insert()
para baseado em 1 para índices negativos. - [SPARK-44551] Comentários editados para sincronizar com o OSS.
-
[FAÍSCA-45078] A
ArrayInsert
função agora faz uma conversão explícita quando o tipo de elemento não é igual ao tipo de componente derivado. - [FAÍSCA-45339] O PySpark agora regista erros de nova tentativa.
-
[SPARK-45057] Evite adquirir bloqueio de leitura quando
keepReadLock
for falso. -
[SPARK-44908] Corrigida a funcionalidade do parâmetro do validador cruzado
foldCol
. - Atualizações de segurança do sistema operacional.
Tempo de execução do Databricks 13.1
Consulte Databricks Runtime 13.1 (EoS).
- 29 de novembro de 2023
- Corrigido um problema em que sublinhados protegidos em operações
getColumns
originadas de clientes JDBC ou ODBC eram erroneamente interpretados como caracteres universais. -
[SPARK-44846] Removidas expressões de agrupamento complexas após
RemoveRedundantAggregates
. - [SPARK-43802] Corrigido um problema em que o codegen para as expressões unhex e unbase64 falhava.
-
[SPARK-43718] Corrigida a anulabilidade para chaves em
USING
junções. - Atualizações de segurança do sistema operacional.
- Corrigido um problema em que sublinhados protegidos em operações
- 14 de novembro de 2023
- Os filtros de partição nas consultas de streaming Delta Lake são empurrados para baixo antes do limite de taxa para obter uma melhor utilização.
- Consultas de feed de dados em tabelas de Unity Catalog Streaming e vistas materializadas foram alteradas para exibir mensagens de erro.
-
[SPARK-45584] Corrigida a falha de execução da subconsulta com
TakeOrderedAndProjectExec
. -
[FAÍSCA-45430]
FramelessOffsetWindowFunction
já não falha quandoIGNORE NULLS
eoffset > rowCount
. -
[FAÍSCA-45543] Corrigida uma questão onde
InferWindowGroupLimit
causava um conflito caso as outras funções de janela não utilizassem o mesmo quadro de janela que as funções tipo classificação. - Atualizações de segurança do sistema operacional.
- 24 de outubro de 2023
-
[SPARK-43799] Adicionou a opção binária do descritor à API do PySpark
Protobuf
. - Reverter [SPARK-42946].
- [SPARK-45346] A inferência de esquema Parquet agora respeita o sinalizador de sensibilidade a maiúsculas e minúsculas ao mesclar um esquema.
- Atualizações de segurança do sistema operacional.
-
[SPARK-43799] Adicionou a opção binária do descritor à API do PySpark
- 13 de outubro de 2023
- Dependência Snowflake-jdbc atualizada de 3.13.29 para 3.13.33.
- Não ignora mais arquivos corrompidos quando
ignoreCorruptFiles
é ativado durante a inferência de esquema CSV com o Auto Loader. -
[SPARK-44658]
ShuffleStatus.getMapStatus
retornaNone
em vez deSome(null)
. -
[FAÍSCA-45178] Fallback para executar um único lote para
Trigger.AvailableNow
com fontes não suportadas em vez de usar o wrapper. - [SPARK-42205] Atualizado o protocolo JSON para remover o registo de acumuláveis nos eventos de início de tarefa ou de estágio.
- Atualizações de segurança do sistema operacional.
- 12 de setembro de 2023
-
[FAÍSCA-44718] Fazer corresponder o padrão de configuração do modo de memória ao
ColumnVector
valor de configuração. -
SPARK-44878 Desativou o limite estrito para
RocksDB
o gerente de escrita para evitar a exceção de inserção ao completar o cache. - Correções diversas.
-
[FAÍSCA-44718] Fazer corresponder o padrão de configuração do modo de memória ao
- 30 de agosto de 2023
- [SPARK-44871] Corrigido o comportamento de `percentile_disc`.
- [SPARK-44714] Aliviar a restrição da resolução de LCA em relação a consultas.
-
[FAÍSCA-44245]
PySpark.sql.dataframe sample()
Os testes de documentação são agora apenas ilustrativos. -
[FAÍSCA-44818] Corrida fixa para interrupção de tarefa pendente emitida antes
taskThread
de ser inicializada. - Atualizações de segurança do sistema operacional.
- 15 de agosto de 2023
-
[SPARK-44485] Otimizado
TreeNode.generateTreeString
. -
[FAÍSCA-44643] Corrigido
Row.__repr__
quando a linha está vazia. - [SPARK-44504] A tarefa de manutenção agora limpa os provedores carregados em caso de erro de interrupção.
-
[FAÍSCA-44479] Conversão fixa
protobuf
de um tipo struct vazio. - Foi corrigido para produzir linhas que têm
applyInPandasWithStatePythonRunner
como valor da primeira coluna. - Correções diversas.
-
[SPARK-44485] Otimizado
- 27 de julho de 2023
- Corrigido um problema em que
dbutils.fs.ls()
devolviaINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
quando chamado para um caminho de localização de armazenamento que colidia com outra localização de armazenamento externa ou gerida. -
[SPARK-44199]
CacheManager
já não atualiza ofileIndex
desnecessariamente. -
[SPARK-44448] Corrigido bug de resultados errados de
DenseRankLimitIterator
eInferWindowGroupLimit
. - Atualizações de segurança do sistema operacional.
- Corrigido um problema em que
- 24 de julho de 2023
- Reverter [SPARK-42323].
-
[FAÍSCA-41848] Corrigido o problema de excesso de agendamento de tarefas com
TaskResourceProfile
. -
[SPARK-44136] Corrigido um problema em que
StateManager
seria materializado num executor em vez de no driver emFlatMapGroupsWithStateExec
. -
[SPARK-44337] Corrigido um problema em que qualquer campo definido como
Any.getDefaultInstance
causava erros de interpretação. - Atualizações de segurança do sistema operacional.
- 27 de junho de 2023
- Atualizações de segurança do sistema operacional.
- 15 de junho de 2023
- Fotonizado
approx_count_distinct
. - O analisador JSON no
failOnUnknownFields
modo agora descarta o registro noDROPMALFORMED
modo e falha diretamente noFAILFAST
modo. - A biblioteca Snowflake-jdbc foi atualizada para 3.13.29 para resolver um problema de segurança.
- O
PubSubRecord
campo de atributos é armazenado como JSON em vez da cadeia de caracteres de um mapa Scala para serialização e desserialização mais diretas. - O
EXPLAIN EXTENDED
comando agora retorna a elegibilidade do cache de resultados da consulta. - Melhore o desempenho de atualizações incrementais com
SHALLOW CLONE
Apache Iceberg e Parquet. - [SPARK-43032] Correção de bug no Python SQM.
- [SPARK-43404]Omita a reutilização do ficheiro sst para a mesma versão do estado RocksDB para evitar o erro de desajuste de ID.
- [SPARK-43340] Gerir o campo de stack trace ausente nos registos de eventos.
-
[SPARK-43527] Corrigido
catalog.listCatalogs
no PySpark. -
[FAÍSCA-43541] Propagar todas as
Project
tags na resolução de expressões e colunas ausentes. -
[SPARK-43300]
NonFateSharingCache
wrapper para Guava Cache. -
[SPARK-43378] Encerrar corretamente os objetos de stream no
deserializeFromChunkedBuffer
. -
[SPARK-42852] Reverter
NamedLambdaVariable
alterações relacionadas deEquivalentExpressions
. -
[SPARK-43779]
ParseToDate
agora carregaEvalMode
no thread principal. -
[SPARK-43413] Corrigir a
IN
nullabilidade da subconsultaListQuery
. - [FAÍSCA-43889] Adicione uma verificação ao nome da coluna para filtrar nomes de coluna propensos a erros.
-
[SPARK-43043] Melhorou o desempenho de
MapOutputTracker
.updateMapOutput - [FAÍSCA-43522] Corrigido criando nome de coluna struct com índice de matriz.
- [FAÍSCA-43457] Melhorar o agente de utilizador com as versões do sistema operativo, Python e Spark.
-
[SPARK-43286] Modo CBC atualizado
aes_encrypt
de forma a gerar IVs aleatórios. -
[FAÍSCA-42851] Guarda
EquivalentExpressions.addExpr()
comsupportedExpression()
. - Reverter [SPARK-43183].
- Atualizações de segurança do sistema operacional.
- Fotonizado
Tempo de execução do Databricks 12.2 LTS
Consulte Databricks Runtime 12.2 LTS.
29 de novembro de 2023
- Corrigido um problema em que sublinhados protegidos em operações
getColumns
originadas de clientes JDBC ou ODBC eram erroneamente interpretados como caracteres universais. -
[FAÍSCA-42205] Removidos os acumuláveis de registo nos eventos de início de
Stage
eTask
. -
[SPARK-44846] Removidas expressões de agrupamento complexas após
RemoveRedundantAggregates
. -
[SPARK-43718] Corrigida a anulabilidade para chaves em
USING
junções. -
[SPARK-45544] Suporte SSL integrado no
TransportContext
. - [FAÍSCA-43973] A interface de utilizador do streaming estruturado agora exibe corretamente as consultas falhadas.
-
[SPARK-45730] Restrições de tempo melhoradas para
ReloadingX509TrustManagerSuite
. -
[SPARK-45859] Tornou objetos UDF em
ml.functions
avaliados de forma preguiçosa. - Atualizações de segurança do sistema operacional.
- Corrigido um problema em que sublinhados protegidos em operações
14 de novembro de 2023
- Os filtros de partição nas consultas de streaming Delta Lake são empurrados para baixo antes do limite de taxa para obter uma melhor utilização.
-
[SPARK-45545]
SparkTransportConf
herda no momento daSSLOptions
criação. -
[SPARK-45427] Adicionadas configurações de SSL RPC para
SSLOptions
eSparkTransportConf
. -
[SPARK-45584] Corrigida a falha de execução da subconsulta com
TakeOrderedAndProjectExec
. -
[SPARK-45541] Adicionado
SSLFactory
. -
[FAÍSCA-45430]
FramelessOffsetWindowFunction
já não falha quandoIGNORE NULLS
eoffset > rowCount
. - [SPARK-45429] Foram adicionadas classes auxiliares para comunicação RPC SSL.
- Atualizações de segurança do sistema operacional.
24 de outubro de 2023
-
[SPARK-45426] Adicionado suporte para
ReloadingX509TrustManager
. - Correções diversas.
-
[SPARK-45426] Adicionado suporte para
13 de outubro de 2023
- Dependência Snowflake-jdbc atualizada de 3.13.29 para 3.13.33.
- [SPARK-42553] Assegure-se de que exista pelo menos uma unidade de tempo após o intervalo.
- [FAÍSCA-45346] A inferência do esquema Parquet respeita o indicador sensível a maiúsculas ao mesclar esquemas.
-
[FAÍSCA-45178] Fallback para executar um único lote para
Trigger.AvailableNow
com fontes não suportadas em vez de usar o wrapper. -
[SPARK-45084]
StateOperatorProgress
para usar um número de partição de embaralhamento preciso e adequado.
12 de setembro de 2023
- [SPARK-44873] Adicionado suporte para colunas aninhadas no cliente Hive.
-
[FAÍSCA-44718] Fazer corresponder o padrão de configuração do modo de memória ao
ColumnVector
valor de configuração. -
[SPARK-43799] Adicionou a opção binária do descritor à API do PySpark
Protobuf
. - Correções diversas.
30 de agosto de 2023
-
[SPARK-44485] Otimizado
TreeNode.generateTreeString
. -
[FAÍSCA-44818] Corrida fixa para interrupção de tarefa pendente emitida antes
taskThread
de ser inicializada. -
[SPARK-44871][11.3-13.0] Comportamento corrigido
percentile_disc
. - [SPARK-44714] Flexibilização da restrição da resolução de LCA em consultas.
- Atualizações de segurança do sistema operacional.
-
[SPARK-44485] Otimizado
15 de agosto de 2023
- [FAÍSCA-44504] A tarefa de manutenção limpa os provedores carregados em caso de erro de interrupção.
- Foi corrigido para produzir linhas que têm
applyInPandasWithStatePythonRunner
como valor da primeira coluna. - Atualizações de segurança do sistema operacional.
29 de julho de 2023
- Corrigido um problema em que
dbutils.fs.ls()
devolviaINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
quando chamado para um caminho de localização de armazenamento que colidia com outra localização de armazenamento externa ou gerida. -
[SPARK-44199]
CacheManager
já não atualiza ofileIndex
desnecessariamente. - Atualizações de segurança do sistema operacional.
- Corrigido um problema em que
24 de julho de 2023
-
[SPARK-44337] Corrigido um problema em que qualquer campo definido como
Any.getDefaultInstance
causava erros de interpretação. -
[SPARK-44136] Corrigido um problema em que
StateManager
seria materializado num executor em vez de no driver emFlatMapGroupsWithStateExec
. - Atualizações de segurança do sistema operacional.
-
[SPARK-44337] Corrigido um problema em que qualquer campo definido como
23 de junho de 2023
- Atualizações de segurança do sistema operacional.
15 de junho de 2023
- Fotonizado
approx_count_distinct
. - A biblioteca Snowflake-jdbc foi atualizada para 3.13.29 para resolver um problema de segurança.
-
[SPARK-43779]
ParseToDate
agora carregaEvalMode
no thread principal. -
[SPARK-43156][SPARK-43098] Teste de erro de contagem de subconsulta escalar prolongada com
decorrelateInnerQuery
desativado. - Atualizações de segurança do sistema operacional.
- Fotonizado
2 de junho de 2023
- O analisador JSON no
failOnUnknownFields
modo descarta um registro noDROPMALFORMED
modo e falha diretamente noFAILFAST
modo. - Melhore o desempenho de atualizações incrementais com
SHALLOW CLONE
Iceberg e Parquet. - Corrigido um problema no Auto Loader em que diferentes formatos de arquivo de origem eram inconsistentes quando o esquema fornecido não incluía partições inferidas. Esse problema pode causar falhas inesperadas ao ler arquivos com colunas ausentes no esquema de partição inferida.
- [SPARK-43404] Evitar a reutilização do ficheiro sst para a mesma versão do armazenamento de estado RocksDB para evitar o erro de incompatibilidade de ID.
-
[SPARK-43413][11.3-13.0] Corrigida a anulabilidade da
IN
subconsultaListQuery
. - [FAÍSCA-43522] Corrigido criando nome de coluna struct com índice de matriz.
-
[FAÍSCA-43541] Propagar todas as
Project
tags na resolução de expressões e colunas ausentes. -
[SPARK-43527] Corrigido
catalog.listCatalogs
no PySpark. - [SPARK-43123] Os metadados de campo interno não vazam mais para catálogos.
- [SPARK-43340] Corrigido o campo de rastreio de pilha ausente nos registos de eventos.
-
[SPARK-42444]
DataFrame.drop
agora lida com colunas duplicadas corretamente. -
[FAÍSCA-42937]
PlanSubqueries
agora defineInSubqueryExec#shouldBroadcast
como verdadeiro. -
[SPARK-43286] Modo CBC atualizado
aes_encrypt
de forma a gerar IVs aleatórios. -
[SPARK-43378] Encerrar corretamente os objetos de stream no
deserializeFromChunkedBuffer
.
- O analisador JSON no
17 de maio de 2023
- As varreduras de parquet agora são robustas contra OOMs ao examinar arquivos excepcionalmente estruturados, ajustando dinamicamente o tamanho do lote. Os metadados do ficheiro são analisados para reduzir preventivamente o tamanho do lote e são reduzidos novamente nas repetições das tarefas como uma rede de segurança final.
- Se um arquivo Avro fosse lido apenas com a
failOnUnknownFields
opção ou com o Auto Loader no modo de evolução do esquema, asfailOnNewColumns
colunas que têm tipos de dados diferentes seriam lidas comonull
em vez de lançar um erro informando que o arquivo não pode ser lido. Essas leituras agora falham e recomendam que os usuários usem arescuedDataColumn
opção. - Auto Loader agora faz o seguinte.
-
- Lê corretamente e não resgata mais
Integer
,Short
eByte
se um desses tipos de dados for fornecido, mas o arquivo Avro sugere um dos outros dois tipos.
- Lê corretamente e não resgata mais
-
- Impede a leitura de tipos de intervalo como tipos de carimbo de data ou hora para evitar datas corrompidas.
-
- Impede a leitura de tipos
Decimal
com menor precisão.
- Impede a leitura de tipos
- [SPARK-43172] Expõe host e token do cliente Spark connect.
-
[SPARK-43293]
__qualified_access_only
é desconsiderado em colunas normais. -
[SPARK-43098] Corrigido o erro de corretude
COUNT
quando a subconsulta escalar é utilizada com uma cláusula de agrupamento. -
[SPARK-43085] Suporte para atribuição de colunas
DEFAULT
para nomes de tabelas com várias partes. -
[SPARK-43190]
ListQuery.childOutput
é agora consistente com a produção secundária. - [FAÍSCA-43192] Removida a validação do conjunto de caracteres do agente do usuário.
- Atualizações de segurança do sistema operacional.
25 de abril de 2023
- Se um arquivo Parquet fosse lido apenas com a
failOnUnknownFields
opção ou com o Auto Loader no modo de evolução do esquema, asfailOnNewColumns
colunas que tivessem diferentes tipos de dados seriam lidas comonull
em vez de lançar um erro informando que o arquivo não pode ser lido. Essas leituras agora falham e recomendam que os usuários usem arescuedDataColumn
opção. - O Auto Loader agora lê corretamente e já não lida com os tipos
Integer
,Short
eByte
se um desses tipos de dados for fornecido. O arquivo Parquet indica um dos dois outros tipos. Quando a coluna de dados resgatada estava habilitada anteriormente, a incompatibilidade de tipo de dados fazia com que as colunas fossem salvas mesmo que fossem legíveis. -
[FAÍSCA-43009] Parametrizado
sql()
comAny
constantes - [FAÍSCA-42406] Encerrar campos recursivos do Protobuf soltando o campo
-
[SPARK-43038] Suporte o modo CBC por
aes_encrypt()
/aes_decrypt()
-
[SPARK-42971] Alterar para imprimir
workdir
seappDirs
for nulo quando o trabalhador processar o eventoWorkDirCleanup
- [SPARK-43018] Corrigir bug para comandos INSERT com literais de data e hora
- Atualizações de segurança do sistema operacional.
- Se um arquivo Parquet fosse lido apenas com a
11 de abril de 2023
- Suporte formatos de fonte de dados herdados no comando
SYNC
. - Corrige um problema no comportamento do %autoreload em notebooks fora de qualquer repositório.
- Corrigido um problema em que a evolução do esquema do Auto Loader podia entrar em um loop de falha infinito quando uma nova coluna é detetada no esquema de um objeto JSON aninhado.
-
[FAÍSCA-42928] Faz
resolvePersistentFunction
sincronizado. - [SPARK-42936] Corrige o problema de LCan quando a cláusula pode ser resolvida diretamente pelo seu agregado filho.
-
[SPARK-42967] Corrige
SparkListenerTaskStart.stageAttemptId
quando uma tarefa é iniciada após o cancelamento da fase. - Atualizações de segurança do sistema operacional.
- Suporte formatos de fonte de dados herdados no comando
29 de março de 2023
O Databricks SQL agora oferece suporte à especificação de valores padrão para colunas de tabelas Delta Lake, no momento da criação da tabela ou depois. Os comandos subsequentes
INSERT
,UPDATE
,DELETE
eMERGE
podem referir-se ao valor padrão de qualquer coluna usando a palavra-chave explícitaDEFAULT
. Além disso, se qualquerINSERT
atribuição tiver uma lista explícita de menos colunas do que a tabela de destino, os valores padrão da coluna correspondente serão substituídos pelas colunas restantes (ou NULL se nenhum padrão for especificado).Por exemplo:
CREATE TABLE t (first INT, second DATE DEFAULT CURRENT_DATE()); INSERT INTO t VALUES (0, DEFAULT); INSERT INTO t VALUES (1, DEFAULT); SELECT first, second FROM t; \> 0, 2023-03-28 1, 2023-03-28z
O Auto Loader agora inicia pelo menos uma limpeza de log síncrona do RocksDB para fluxos de
Trigger.AvailableNow
para garantir que o checkpoint seja regularmente limpo para fluxos do Auto Loader que operam rapidamente. Isso pode fazer com que alguns fluxos demorem mais tempo antes de serem desligados, mas economizará custos de armazenamento e melhorará a experiência do Auto Loader em execuções futuras.Agora pode modificar uma tabela Delta para adicionar suporte às funcionalidades da tabela usando
DeltaTable.addFeatureSupport(feature_name)
.[SPARK-42794] Aumentar o lockAcquireTimeoutMs para 2 minutos para a aquisição do armazenamento de estado RocksDB no Processamento de Stream Estruturado.
[SPARK-42521] Adicionar NULLs para inserções com listas especificadas pelo utilizador de menos colunas do que a tabela de destino
[SPARK-42702][SPARK-42623] Suporte para consulta parametrizada em subconsulta e CTE
[SPARK-42668] Capturar exceção ao tentar fechar o fluxo compactado ao parar o HDFSStateStoreProvider
[SPARK-42403] JsonProtocol deve manipular cadeias de caracteres JSON nulas
8 de março de 2023
- A mensagem de erro "Falha ao inicializar a configuração" foi melhorada para fornecer mais contexto para o cliente.
- Há uma alteração de terminologia para a adição de recursos a uma tabela Delta usando a propriedade da tabela. A sintaxe preferida é agora
'delta.feature.featureName'='supported'
em vez de'delta.feature.featureName'='enabled'
. Para compatibilidade com versões anteriores, o uso'delta.feature.featureName'='enabled'
ainda funciona e continuará a funcionar. - A partir desta versão, é possível criar/substituir uma tabela por uma propriedade
delta.ignoreProtocolDefaults
de tabela adicional para ignorar as configurações do Spark relacionadas ao protocolo, que incluem versões padrão de leitor e gravador e recursos de tabela suportados por padrão. - [FAÍSCA-42070] Alterar o valor padrão do argumento da função Máscara de -1 para NULL
- [SPARK-41793] Resultado incorreto para quadros de janelas definidos por uma cláusula de intervalo em decimais significativos.
- [SPARK-42484] UnsafeRowUtils mensagem de erro melhorada
- [SPARK-42516] Sempre capture a configuração de fuso horário da sessão ao criar visualizações
- [SPARK-42635] Corrigir a expressão TimestampAdd.
- [SPARK-42622] Desativada a substituição em valores
- [SPARK-42534] Corrigir cláusula Limit do DB2Dialect
- [SPARK-42121] Adicionar funções embutidas de valor de tabela posexplode, posexplode_outer, json_tuple e stack
- [SPARK-42045] Modo ANSI SQL: Round/Bround deve gerar um erro em overflow de inteiros de tamanho reduzido/pequeno/significativo.
- Atualizações de segurança do sistema operacional.
Tempo de execução do Databricks 11.3 LTS
Consulte Databricks Runtime 11.3 LTS.
- 29 de novembro de 2023
- Corrigido um problema em que sublinhados protegidos em operações
getColumns
originadas de clientes JDBC ou ODBC eram erroneamente interpretados como caracteres universais. - [FAÍSCA-43973] A interface de utilizador do streaming estruturado agora exibe corretamente as consultas falhadas.
-
[SPARK-45730] Restrições de tempo melhoradas para
ReloadingX509TrustManagerSuite
. -
[SPARK-45544] Suporte SSL integrado no
TransportContext
. -
[SPARK-45859] Tornou objetos UDF em
ml.functions
avaliados de forma preguiçosa. -
[SPARK-43718] Corrigida a anulabilidade para chaves em
USING
junções. -
[SPARK-44846] Removidas expressões de agrupamento complexas após
RemoveRedundantAggregates
. - Atualizações de segurança do sistema operacional.
- Corrigido um problema em que sublinhados protegidos em operações
- 14 de novembro de 2023
- Os filtros de partição nas consultas de streaming Delta Lake são empurrados para baixo antes do limite de taxa para obter uma melhor utilização.
- [SPARK-42205] Foram removidos os acumuláveis de log nos eventos de início de Stage e Task.
-
[SPARK-45545]
SparkTransportConf
herda no momento daSSLOptions
criação. - Reverter [SPARK-33861].
-
[SPARK-45541] Adicionado
SSLFactory
. - [SPARK-45429] Foram adicionadas classes auxiliares para comunicação RPC SSL.
-
[SPARK-45584] Corrigida a falha de execução da subconsulta com
TakeOrderedAndProjectExec
. -
[FAÍSCA-45430]
FramelessOffsetWindowFunction
já não falha quandoIGNORE NULLS
eoffset > rowCount
. -
[SPARK-45427] Adicionadas configurações de SSL RPC para
SSLOptions
eSparkTransportConf
. - Atualizações de segurança do sistema operacional.
- 24 de outubro de 2023
-
[SPARK-45426] Adicionado suporte para
ReloadingX509TrustManager
. - Correções diversas.
-
[SPARK-45426] Adicionado suporte para
- 13 de outubro de 2023
- Dependência Snowflake-jdbc atualizada de 3.13.29 para 3.13.33.
-
[FAÍSCA-45178] Fallback para executar um único lote para
Trigger.AvailableNow
com fontes não suportadas em vez de usar o wrapper. -
[SPARK-45084]
StateOperatorProgress
para usar um número de partição de embaralhamento preciso e adequado. - [SPARK-45346] A inferência de esquema Parquet agora respeita o sinalizador de sensibilidade a maiúsculas e minúsculas ao mesclar um esquema.
- Atualizações de segurança do sistema operacional.
- 10 de setembro de 2023
- Correções diversas.
- 30 de agosto de 2023
-
[FAÍSCA-44818] Corrida fixa para interrupção de tarefa pendente emitida antes
taskThread
de ser inicializada. -
[SPARK-44871][11.3-13.0] Comportamento corrigido
percentile_disc
. - Atualizações de segurança do sistema operacional.
-
[FAÍSCA-44818] Corrida fixa para interrupção de tarefa pendente emitida antes
- 15 de agosto de 2023
-
[SPARK-44485] Otimizado
TreeNode.generateTreeString
. - [FAÍSCA-44504] A tarefa de manutenção limpa os provedores carregados em caso de erro de interrupção.
- Foi corrigido para produzir linhas que têm
applyInPandasWithStatePythonRunner
como valor da primeira coluna. - Atualizações de segurança do sistema operacional.
-
[SPARK-44485] Otimizado
- 27 de julho de 2023
- Corrigido um problema em que
dbutils.fs.ls()
devolviaINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
quando chamado para um caminho de localização de armazenamento que colidia com outra localização de armazenamento externa ou gerida. -
[SPARK-44199]
CacheManager
já não atualiza ofileIndex
desnecessariamente. - Atualizações de segurança do sistema operacional.
- Corrigido um problema em que
- 24 de julho de 2023
- [FAÍSCA-44136] Corrigido um problema em que o StateManager pode ser materializado no executor em vez de no driver em FlatMapGroupsWithStateExec.
- Atualizações de segurança do sistema operacional.
- 23 de junho de 2023
- Atualizações de segurança do sistema operacional.
- 15 de junho de 2023
- Fotonizado
approx_count_distinct
. - A biblioteca Snowflake-jdbc foi atualizada para 3.13.29 para resolver um problema de segurança.
-
[SPARK-43779]
ParseToDate
agora carregaEvalMode
no thread principal. - [SPARK-40862] Suporte a subconsultas não agregadas em RewriteCorrelatedScalarSubquery
-
[SPARK-43156][SPARK-43098] Teste de bug na contagem de subconsulta escalar ampliada com
decorrelateInnerQuery
desativado. - [SPARK-43098] Corrigir bug de precisão COUNT quando a subconsulta escalar tem uma cláusula GROUP BY
- Atualizações de segurança do sistema operacional.
- Fotonizado
- 2 de junho de 2023
- O analisador JSON no
failOnUnknownFields
modo descarta um registro noDROPMALFORMED
modo e falha diretamente noFAILFAST
modo. - Melhore o desempenho de atualizações incrementais com
SHALLOW CLONE
Iceberg e Parquet. - Corrigido um problema no Auto Loader em que diferentes formatos de arquivo de origem eram inconsistentes quando o esquema fornecido não incluía partições inferidas. Esse problema pode causar falhas inesperadas ao ler arquivos com colunas ausentes no esquema de partição inferida.
- [SPARK-43404]Omita a reutilização do ficheiro sst para a mesma versão do estado RocksDB para evitar o erro de desajuste de ID.
-
[SPARK-43527] Corrigido
catalog.listCatalogs
no PySpark. -
[SPARK-43413][11.3-13.0] Corrigida a anulabilidade da
IN
subconsultaListQuery
. - [SPARK-43340] Corrigido o campo de rastreio de pilha ausente nos registos de eventos.
- O analisador JSON no
Tempo de execução do Databricks 10.4 LTS
Consulte Databricks Runtime 10.4 LTS (EoS).
- 29 de novembro de 2023
-
[SPARK-45544] Suporte SSL integrado no
TransportContext
. -
[SPARK-45859] Tornou objetos UDF em
ml.functions
avaliados de forma preguiçosa. -
[SPARK-43718] Corrigida a anulabilidade para chaves em
USING
junções. -
[SPARK-45730] Restrições de tempo melhoradas para
ReloadingX509TrustManagerSuite
. - [SPARK-42205] Foram removidos os acumuláveis de log nos eventos de início de Stage e Task.
-
[SPARK-44846] Removidas expressões de agrupamento complexas após
RemoveRedundantAggregates
. - Atualizações de segurança do sistema operacional.
-
[SPARK-45544] Suporte SSL integrado no
- 14 de novembro de 2023
-
[SPARK-45541] Adicionado
SSLFactory
. -
[SPARK-45545]
SparkTransportConf
herda no momento daSSLOptions
criação. -
[SPARK-45427] Adicionadas configurações de SSL RPC para
SSLOptions
eSparkTransportConf
. - [SPARK-45429] Foram adicionadas classes auxiliares para comunicação RPC SSL.
-
[SPARK-45584] Corrigida a falha de execução da subconsulta com
TakeOrderedAndProjectExec
. - Reverter [SPARK-33861].
- Atualizações de segurança do sistema operacional.
-
[SPARK-45541] Adicionado
- 24 de outubro de 2023
-
[SPARK-45426] Adicionado suporte para
ReloadingX509TrustManager
. - Atualizações de segurança do sistema operacional.
-
[SPARK-45426] Adicionado suporte para
- 13 de outubro de 2023
-
[SPARK-45084]
StateOperatorProgress
para usar um número de partição de embaralhamento preciso e adequado. -
[FAÍSCA-45178] Fallback para executar um único lote para
Trigger.AvailableNow
com fontes não suportadas em vez de usar o wrapper. - Atualizações de segurança do sistema operacional.
-
[SPARK-45084]
- 10 de setembro de 2023
- Correções diversas.
- 30 de agosto de 2023
-
[FAÍSCA-44818] Corrida fixa para interrupção de tarefa pendente emitida antes
taskThread
de ser inicializada. - Atualizações de segurança do sistema operacional.
-
[FAÍSCA-44818] Corrida fixa para interrupção de tarefa pendente emitida antes
- 15 de agosto de 2023
- [FAÍSCA-44504] A tarefa de manutenção limpa os provedores carregados em caso de erro de interrupção.
- [SPARK-43973] A interface de utilizador do Streaming Estruturado agora exibe corretamente as consultas com erro.
- Atualizações de segurança do sistema operacional.
- 23 de junho de 2023
- Atualizações de segurança do sistema operacional.
- 15 de junho de 2023
- A biblioteca Snowflake-jdbc foi atualizada para 3.13.29 para resolver um problema de segurança.
- [SPARK-43098] Corrigir bug de precisão COUNT quando a subconsulta escalar tem uma cláusula GROUP BY
- [SPARK-40862] Suporte a subconsultas não agregadas em RewriteCorrelatedScalarSubquery
-
[FAÍSCA-43156][FAÍSCA-43098] Teste de contagem de subconsulta escalar estendida com
decorrelateInnerQuery
desativado. - Atualizações de segurança do sistema operacional.
- 2 de junho de 2023
- O analisador JSON no
failOnUnknownFields
modo descarta um registro noDROPMALFORMED
modo e falha diretamente noFAILFAST
modo. - Corrigido um problema na análise de dados recuperados pelo JSON para evitar
UnknownFieldException
. - Corrigido um problema no Auto Loader em que diferentes formatos de arquivo de origem eram inconsistentes quando o esquema fornecido não incluía partições inferidas. Esse problema pode causar falhas inesperadas ao ler arquivos com colunas ausentes no esquema de partição inferida.
- [SPARK-43404] Evitar a reutilização do ficheiro sst para a mesma versão do armazenamento de estado RocksDB para evitar o erro de incompatibilidade de ID.
-
[SPARK-43413] Corrigida a nulabilidade da subconsulta
IN
. - Atualizações de segurança do sistema operacional.
- O analisador JSON no
- 17 de maio de 2023
- As varreduras de parquet agora são robustas contra OOMs ao examinar arquivos excepcionalmente estruturados, ajustando dinamicamente o tamanho do lote. Os metadados do ficheiro são analisados para reduzir preventivamente o tamanho do lote e são reduzidos novamente nas repetições das tarefas como uma rede de segurança final.
-
[SPARK-41520] Dividir
AND_OR
o padrão da árvore para separarAND
eOR
. -
[SPARK-43190]
ListQuery.childOutput
é agora consistente com a produção secundária. - Atualizações de segurança do sistema operacional.
- 25 de abril de 2023
-
[SPARK-42928] Tornar
resolvePersistentFunction
sincronizado. - Atualizações de segurança do sistema operacional.
-
[SPARK-42928] Tornar
- 11 de abril de 2023
- Corrigido um problema em que a evolução do esquema do Auto Loader podia entrar em um loop de falha infinito quando uma nova coluna é detetada no esquema de um objeto JSON aninhado.
-
[FAÍSCA-42937]
PlanSubqueries
agora defineInSubqueryExec#shouldBroadcast
como verdadeiro. - [SPARK-42967] Corrige o SparkListenerTaskStart.stageAttemptId quando uma tarefa é iniciada depois que o estágio é cancelado.
- 29 de março de 2023
- [SPARK-42668] Capturar exceção ao tentar fechar o fluxo compactado ao parar o HDFSStateStoreProvider
- [SPARK-42635] Corrigir o ...
- Atualizações de segurança do sistema operacional.
- 14 de março de 2023
- [FAÍSCA-41162] Corrigir anti-join e semi-join para auto-união com agregações
- [SPARK-33206] Corrigir cálculo do peso da cache do índice de shuffle para ficheiros de índice pequenos
-
[FAÍSCA-42484] Melhorou a mensagem de erro
UnsafeRowUtils
- Correções diversas.
- 28 de fevereiro de 2023
- Suporte para coluna gerada no formato de data aaaa-MM-dd. Essa alteração oferece suporte à remoção de partição para aaaa-MM-dd como um date_format nas colunas geradas.
- Os usuários agora podem ler e escrever tabelas Delta específicas que exigem o Reader versão 3 e o Writer versão 7, usando o Databricks Runtime 9.1 LTS ou posterior. Para serem bem-sucedidos, os recursos de tabela listados no protocolo das tabelas devem ser suportados pela versão atual do Databricks Runtime.
- Suporte para coluna gerada no formato de data aaaa-MM-dd. Essa alteração oferece suporte à remoção de partição para aaaa-MM-dd como um date_format nas colunas geradas.
- Atualizações de segurança do sistema operacional.
- 16 de fevereiro de 2023
- [SPARK-30220] Habilitar o uso de subconsultas Exists/In fora do nó Filtro
- Atualizações de segurança do sistema operacional.
- 31 de janeiro de 2023
- Os tipos de tabela de tabelas JDBC agora são EXTERNOS por padrão.
- 18 de janeiro de 2023
- O conector Sinapse do Azure retorna uma mensagem de erro mais descritiva quando um nome de coluna contém caracteres não válidos, como espaços em branco ou ponto-e-vírgula. Nesses casos, a seguinte mensagem será retornada:
Azure Synapse Analytics failed to run the JDBC query produced by the connector. Check column names do not include not valid characters such as ';' or white space
. - [SPARK-38277] Limpar lote de gravação após confirmar o estado de commit do armazenamento do RocksDB
- [SPARK-41199] Corrigir problema de métricas quando a fonte de streaming DSv1 e a fonte de streaming DSv2 são co-usadas
- [FAÍSCA-41198] Corrigir métricas em consultas de streaming com origem de streaming CTE e DSv1
- [SPARK-41339] Fechar e recriar o lote de gravação do RocksDB em vez de apenas limpar
- [FAÍSCA-41732] Aplicar poda baseada em padrão de árvore para a regra SessionWindowing
- Atualizações de segurança do sistema operacional.
- O conector Sinapse do Azure retorna uma mensagem de erro mais descritiva quando um nome de coluna contém caracteres não válidos, como espaços em branco ou ponto-e-vírgula. Nesses casos, a seguinte mensagem será retornada:
- 29 de novembro de 2022
- Os usuários podem configurar o comportamento dos espaços em branco à esquerda e à direita ao gravar dados usando o conector Redshift. As seguintes opções foram adicionadas para controlar o manuseio de espaços em branco:
-
csvignoreleadingwhitespace
, quando definido comotrue
, remove o espaço em branco à esquerda dos valores durante as gravações quandotempformat
está definido comoCSV
ouCSV GZIP
. Os espaços em branco são mantidos quando a configuração é definida comofalse
. Por predefinição, o valor étrue
. -
csvignoretrailingwhitespace
, quando definido comotrue
, remove o espaço em branco à direita dos valores durante as gravações quandotempformat
está definido comoCSV
ouCSV GZIP
. Os espaços em branco são mantidos quando a configuração é definida comofalse
. Por predefinição, o valor étrue
.
-
- Corrigido um problema com a análise JSON no Auto Loader quando todas as colunas eram deixadas como strings (
cloudFiles.inferColumnTypes
não estava definido ou definido comofalse
) e o JSON continha objetos aninhados. - Atualizações de segurança do sistema operacional.
- Os usuários podem configurar o comportamento dos espaços em branco à esquerda e à direita ao gravar dados usando o conector Redshift. As seguintes opções foram adicionadas para controlar o manuseio de espaços em branco:
- 15 de novembro de 2022
- Apache commons-text atualizado para 1.10.0.
-
[SPARK-40646] O parsing JSON para structs, maps e arrays foi corrigido de modo que, quando uma parte de um registo não corresponde ao esquema, o restante do registo ainda pode ser analisado corretamente em vez de devolver nulos. Para optar pelo comportamento melhorado, defina
spark.sql.json.enablePartialResults
comotrue
. O sinalizador é desativado por padrão para preservar o comportamento original. -
[SPARK-40292] Corrigir nomes de colunas na
arrays_zip
função quando arrays são referenciadas em estruturas aninhadas - Atualizações de segurança do sistema operacional.
- 1 de novembro de 2022
- Corrigido um problema em que, se uma tabela Delta tivesse uma coluna definida pelo usuário chamada
_change_type
, mas o feed de dados Change estivesse desativado nessa tabela, os dados nessa coluna seriam preenchidos incorretamente com valores NULL durante a execuçãoMERGE
. - Corrigido um problema com o Auto Loader em que um ficheiro podia ser duplicado no mesmo microlote quando
allowOverwrites
estava ativado - [SPARK-40697] Adicionar preenchimento de caracteres na leitura para cobrir ficheiros de dados externos
- [SPARK-40596] Preencher ExecutorDecommission com mensagens em ExecutorDecommissionInfo
- Atualizações de segurança do sistema operacional.
- Corrigido um problema em que, se uma tabela Delta tivesse uma coluna definida pelo usuário chamada
- 18 de outubro de 2022
- Atualizações de segurança do sistema operacional.
- 5 de outubro de 2022
-
[SPARK-40468] Corrigir a otimização de colunas no ficheiro CSV quando
_corrupt_record
estiver selecionado. - Atualizações de segurança do sistema operacional.
-
[SPARK-40468] Corrigir a otimização de colunas no ficheiro CSV quando
- 22 de setembro de 2022
- Os usuários podem definir spark.conf.set(
spark.databricks.io.listKeysWithPrefix.azure.enabled
,true
) para reativar a listagem interna do Auto Loader no ADLS. A listagem integrada foi desativada anteriormente devido a problemas de desempenho, mas pode ter levado ao aumento dos custos de armazenamento para os clientes. - [SPARK-40315] Adicionar hashCode() para Literal de ArrayBasedMapData
- [FAÍSCA-40213] Suporta conversão de valor ASCII para caracteres latino-1
- [FAÍSCA-40380] Corrija a dobragem constante de InvokeLike para evitar literais não serializáveis incorporados no plano
- [SPARK-38404] Melhorar a resolução de CTE quando uma CTE aninhada referencia uma CTE externa
- [SPARK-40089] Corrigir a classificação para alguns tipos decimais
- [FAÍSCA-39887] RemoveRedundantAliases deve manter aliases que garantem que a saída dos nós de projeção seja única
- Os usuários podem definir spark.conf.set(
- 6 de setembro de 2022
- [FAÍSCA-40235] Utilize o bloqueio interruptível em vez de sincronizado em Executor.updateDependencies()
- [SPARK-40218] Conjuntos de agrupamento devem preservar as colunas de agrupamento
- [SPARK-39976] ArrayIntersect deve manipular null na expressão à esquerda corretamente
-
[SPARK-40053] Adicionar
assume
aos casos de cancelamento dinâmico que exigem um ambiente de execução em Python - [FAÍSCA-35542] Correção: Bucketizer criado para várias colunas com parâmetros splitsArray, inputCols e outputCols não podem ser carregados depois de salvá-lo
- [FAÍSCA-40079] Adicionar validação de inputCols do Imputer para casos de entradas vazias
- 24 de agosto de 2022
- [SPARK-39983] Não armazenar em cache relações de transmissão não serializadas no driver
- [FAÍSCA-39775] Desabilitar a validação de valores padrão ao analisar esquemas Avro
- [SPARK-39962] Aplicar projeção quando os atributos de grupo estiverem vazios
- [SPARK-37643] quando charVarcharAsString é true, na consulta de predicado de tipo de dados char deve ignorar a regra de rpadding.
- Atualizações de segurança do sistema operacional.
- 9 de agosto de 2022
- [FAÍSCA-39847] Corrigir a condição de concorrência em RocksDBLoader.loadLibrary() se o thread do chamador for interrompido
- [SPARK-39731] Corrigir problema em fontes de dados CSV e JSON ao analisar datas no formato "yyyyMMdd" com a política do analisador de tempo 'CORRECTED'
- Atualizações de segurança do sistema operacional.
- 27 de julho de 2022
- [SPARK-39625] Adicionar Dataset.as(StructType)
- [SPARK-39689]Suporte para 2 caracteres na fonte de dados CSV
- [SPARK-39104] InMemoryRelation#isCachedColumnBuffersLoaded deve ser seguro para threads
- [SPARK-39570] A tabela inline deve permitir expressões com apelidos
- [SPARK-39702] Reduzir a sobrecarga de memória de TransportCipher$EncryptedMessage usando um byteRawChannel partilhado
- [SPARK-39575] adicionar ByteBuffer#rewind após ByteBuffer#get em AvroDeserializer
- [FAÍSCA-39476] Desative a otimização do Unwrap cast ao transmitir de Long para Float/Double ou de Integer para Float
- [SPARK-38868] Não propague exceções do predicado do filtro ao otimizar junções externas
- Atualizações de segurança do sistema operacional.
- 20 de julho de 2022
- Torne os resultados da operação Delta MERGE consistentes quando a origem não for determinística.
- [FAÍSCA-39355] Uma única coluna usa aspas para construir UnresolvedAttribute
- [SPARK-39548] Comando CreateView com uma consulta que contém uma cláusula de janela causa um problema de definição de janela não encontrada.
- [SPARK-39419] Corrija ArraySort para lançar uma exceção quando o comparador retornar nulo
- Desativou o uso de APIs de nuvem internas do Auto Loader para listagem de diretórios no Azure.
- Atualizações de segurança do sistema operacional.
- 5 de julho de 2022
- [SPARK-39376] Ocultar colunas duplicadas na expansão asterisco do alias de subconsulta de NATURAL/USING JOIN
- Atualizações de segurança do sistema operacional.
- 15 de junho de 2022
- [SPARK-39283] Corrigir impasse entre TaskMemoryManager e UnsafeExternalSorter.SpillableIterator
- [SPARK-39285] O Spark não deve verificar nomes de campos ao ler ficheiros
- [FAÍSCA-34096] Melhorar o desempenho do nth_value ao ignorar nulos numa janela de desvio
-
[FAÍSCA-36718] Corrigir a
isExtractOnly
verificação no CollapseProject
- 2 de junho de 2022
- [SPARK-39093] Evitar erro de compilação de codegen ao dividir intervalos de ano-mês ou tempo de dia por um inteiro
- [SPARK-38990] Evite NullPointerException ao avaliar o formato date_trunc/trunc como uma referência vinculada
- Atualizações de segurança do sistema operacional.
- 18 de maio de 2022
- Corrige uma possível fuga de memória incorporada no Auto Loader.
- [FAÍSCA-38918] A poda de colunas aninhadas deve filtrar atributos que não são relevantes para a relação em questão
- [SPARK-37593] Reduzir o tamanho da página padrão em LONG_ARRAY_OFFSET se G1GC e ON_HEAP forem usados
- [SPARK-39084] Corrija df.rdd.isEmpty() utilizando TaskContext para interromper o iterador após a conclusão da tarefa
- [SPARK-32268] Adicionar ColumnPruning em injectBloomFilter
- [FAÍSCA-38974] Filtrar funções registadas com um determinado nome de base de dados na lista de funções
- [SPARK-38931] Crie o diretório DFS raiz para RocksDBFileManager com um número desconhecido de chaves no 1º checkpoint
- Atualizações de segurança do sistema operacional.
- 19 de abril de 2022
- Java AWS SDK atualizado da versão 1.11.655 para 1.12.1899.
- Corrigido um problema com bibliotecas de caderno que não funcionavam em trabalhos de streaming em lote.
- [SPARK-38616] Monitorize o texto da consulta SQL no Catalyst TreeNode
- Atualizações de segurança do sistema operacional.
- 6 de abril de 2022
- As seguintes funções do Spark SQL estão agora disponíveis com esta versão:
-
timestampadd()
edateadd()
: Adicione uma duração de tempo numa unidade especificada a uma expressão timestamp. -
timestampdiff()
edatediff()
: Calcule a diferença de tempo entre carimbos de data e hora em uma unidade especificada.
-
- Parquet-MR foi atualizado para 1.12.2
- Suporte melhorado para esquemas abrangentes em ficheiros Parquet
- [SPARK-38631] Usa implementação baseada em Java para descompactar em Utils.unpack
-
[SPARK-38509][SPARK-38481] Selecionar três
timestmapadd/diff
alterações. - [FAÍSCA-38523] Corrigir a referência à coluna de registo corrompido no CSV
-
[FAÍSCA-38237] Permitir
ClusteredDistribution
exigir chaves de agrupamento completas - [SPARK-38437] Serialização tolerante de data e hora a partir da fonte de dados
- [SPARK-38180] Permitir expressões de up-cast seguras em predicados de igualdade correlacionados
- [SPARK-38155] Proibir agregados distintos em subconsultas laterais com predicados não suportados.
- Atualizações de segurança do sistema operacional.
- As seguintes funções do Spark SQL estão agora disponíveis com esta versão:
Tempo de execução do Databricks 9.1 LTS
Consulte Databricks Runtime 9.1 LTS.
- 29 de novembro de 2023
-
[SPARK-45859] Tornou objetos UDF em
ml.functions
avaliados de forma preguiçosa. -
[SPARK-45544] Suporte SSL integrado no
TransportContext
. -
[SPARK-45730] Restrições de tempo melhoradas para
ReloadingX509TrustManagerSuite
. - Atualizações de segurança do sistema operacional.
-
[SPARK-45859] Tornou objetos UDF em
- 14 de novembro de 2023
-
[SPARK-45545]
SparkTransportConf
herda no momento daSSLOptions
criação. - [SPARK-45429] Foram adicionadas classes auxiliares para comunicação RPC SSL.
-
[SPARK-45427] Adicionadas configurações de SSL RPC para
SSLOptions
eSparkTransportConf
. -
[SPARK-45584] Corrigida a falha de execução da subconsulta com
TakeOrderedAndProjectExec
. -
[SPARK-45541] Adicionado
SSLFactory
. - [SPARK-42205] Foram removidos os acumuláveis de log nos eventos de início de Stage e Task.
- Atualizações de segurança do sistema operacional.
-
[SPARK-45545]
- 24 de outubro de 2023
-
[SPARK-45426] Adicionado suporte para
ReloadingX509TrustManager
. - Atualizações de segurança do sistema operacional.
-
[SPARK-45426] Adicionado suporte para
- 13 de outubro de 2023
- Atualizações de segurança do sistema operacional.
- 10 de setembro de 2023
- Correções diversas.
- 30 de agosto de 2023
- Atualizações de segurança do sistema operacional.
- 15 de agosto de 2023
- Atualizações de segurança do sistema operacional.
- 23 de junho de 2023
- A biblioteca Snowflake-jdbc foi atualizada para 3.13.29 para resolver um problema de segurança.
- Atualizações de segurança do sistema operacional.
- 15 de junho de 2023
- [SPARK-43098] Corrigir bug de precisão COUNT quando a subconsulta escalar tem uma cláusula GROUP BY
-
[SPARK-43156][SPARK-43098] Ampliar o teste de erro na contagem de subconsultas escalares com
decorrelateInnerQuery
desativado. - [SPARK-40862] Suporte a subconsultas não agregadas em RewriteCorrelatedScalarSubquery
- Atualizações de segurança do sistema operacional.
- 2 de junho de 2023
- O analisador JSON no
failOnUnknownFields
modo descarta um registro noDROPMALFORMED
modo e falha diretamente noFAILFAST
modo. - Corrigido um problema na análise de dados recuperados pelo JSON para evitar
UnknownFieldException
. - Corrigido um problema no Auto Loader em que diferentes formatos de arquivo de origem eram inconsistentes quando o esquema fornecido não incluía partições inferidas. Esse problema pode causar falhas inesperadas ao ler arquivos com colunas ausentes no esquema de partição inferida.
-
[SPARK-37520] Adicionar as funções de string
startswith()
eendswith()
-
[SPARK-43413] Corrigida a nulabilidade da subconsulta
IN
. - Atualizações de segurança do sistema operacional.
- O analisador JSON no
- 17 de maio de 2023
- Atualizações de segurança do sistema operacional.
- 25 de abril de 2023
- Atualizações de segurança do sistema operacional.
- 11 de abril de 2023
- Corrigido um problema em que a evolução do esquema do Auto Loader podia entrar em um loop de falha infinito quando uma nova coluna é detetada no esquema de um objeto JSON aninhado.
- [SPARK-42967] Corrige o SparkListenerTaskStart.stageAttemptId quando uma tarefa é iniciada depois que o estágio é cancelado.
- 29 de março de 2023
- Atualizações de segurança do sistema operacional.
- 14 de março de 2023
-
[SPARK-42484] Mensagem de erro melhorada para
UnsafeRowUtils
. - Correções diversas.
-
[SPARK-42484] Mensagem de erro melhorada para
- 28 de fevereiro de 2023
- Os usuários agora podem ler e escrever tabelas Delta específicas que exigem o Reader versão 3 e o Writer versão 7, usando o Databricks Runtime 9.1 LTS ou posterior. Para serem bem-sucedidos, os recursos de tabela listados no protocolo das tabelas devem ser suportados pela versão atual do Databricks Runtime.
- Atualizações de segurança do sistema operacional.
- 16 de fevereiro de 2023
- Atualizações de segurança do sistema operacional.
- 31 de janeiro de 2023
- Os tipos de tabela de tabelas JDBC agora são EXTERNOS por padrão.
- 18 de janeiro de 2023
- Atualizações de segurança do sistema operacional.
- 29 de novembro de 2022
- Corrigido um problema com a análise JSON no Auto Loader quando todas as colunas eram deixadas como strings (
cloudFiles.inferColumnTypes
não estava definido ou definido comofalse
) e o JSON continha objetos aninhados. - Atualizações de segurança do sistema operacional.
- Corrigido um problema com a análise JSON no Auto Loader quando todas as colunas eram deixadas como strings (
- 15 de novembro de 2022
- Apache commons-text atualizado para 1.10.0.
- Atualizações de segurança do sistema operacional.
- Correções diversas.
- 1 de novembro de 2022
- Corrigido um problema em que, se uma tabela Delta tivesse uma coluna definida pelo usuário chamada
_change_type
, mas o feed de dados Change estivesse desativado nessa tabela, os dados nessa coluna seriam preenchidos incorretamente com valores NULL durante a execuçãoMERGE
. - Corrigido um problema com o Auto Loader em que um ficheiro podia ser duplicado no mesmo microlote quando
allowOverwrites
estava ativado - [SPARK-40596] Preencher ExecutorDecommission com mensagens em ExecutorDecommissionInfo
- Atualizações de segurança do sistema operacional.
- Corrigido um problema em que, se uma tabela Delta tivesse uma coluna definida pelo usuário chamada
- 18 de outubro de 2022
- Atualizações de segurança do sistema operacional.
- 5 de outubro de 2022
- Correções diversas.
- Atualizações de segurança do sistema operacional.
- 22 de setembro de 2022
- Os usuários podem definir spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true") para reativar a listagem interna do Auto Loader no ADLS. A listagem integrada foi desativada anteriormente devido a problemas de desempenho, mas pode ter levado ao aumento dos custos de armazenamento para os clientes.
- [SPARK-40315] Adicionar hashCode() para Literal de ArrayBasedMapData
- [SPARK-40089] Corrigir a classificação para alguns tipos decimais
- [FAÍSCA-39887] RemoveRedundantAliases deve manter aliases que garantem que a saída dos nós de projeção seja única
- 6 de setembro de 2022
- [FAÍSCA-40235] Utilize o bloqueio interruptível em vez de sincronizado em Executor.updateDependencies()
- [FAÍSCA-35542] Correção: Bucketizer criado para várias colunas com parâmetros splitsArray, inputCols e outputCols não podem ser carregados depois de salvá-lo
- [FAÍSCA-40079] Adicionar validação de inputCols do Imputer para casos de entradas vazias
- 24 de agosto de 2022
-
[SPARK-39666] Use UnsafeProjection.create para respeitar
spark.sql.codegen.factoryMode
em ExpressionEncoder - [SPARK-39962] Aplicar projeção quando os atributos de grupo estiverem vazios
- Atualizações de segurança do sistema operacional.
-
[SPARK-39666] Use UnsafeProjection.create para respeitar
- 9 de agosto de 2022
- Atualizações de segurança do sistema operacional.
- 27 de julho de 2022
- Torne os resultados da operação Delta MERGE consistentes quando a origem não for determinística.
-
[SPARK-39689] Suporte para 2 caracteres na fonte de
lineSep
dados CSV -
[FAÍSCA-39575] Adicionado
ByteBuffer#rewind
depoisByteBuffer#get
emAvroDeserializer
. - [SPARK-37392] Corrigido o erro de desempenho do otimizador Catalyst.
- Atualizações de segurança do sistema operacional.
- 13 de julho de 2022
-
[FAÍSCA-39419]
ArraySort
lança uma exceção quando o comparador retorna nulo. - Desativou o uso de APIs de nuvem internas do Auto Loader para listagem de diretórios no Azure.
- Atualizações de segurança do sistema operacional.
-
[FAÍSCA-39419]
- 5 de julho de 2022
- Atualizações de segurança do sistema operacional.
- Correções diversas.
- 15 de junho de 2022
-
[SPARK-39283] Corrigir deadlock entre
TaskMemoryManager
eUnsafeExternalSorter.SpillableIterator
.
-
[SPARK-39283] Corrigir deadlock entre
- 2 de junho de 2022
-
[SPARK-34554] Implemente o
copy()
método emColumnarMap
. - Atualizações de segurança do sistema operacional.
-
[SPARK-34554] Implemente o
- 18 de maio de 2022
- Corrigido um potencial vazamento de memória embutido no Auto Loader.
- Atualize a versão do AWS SDK de 1.11.655 para 1.11.678.
- [FAÍSCA-38918] A poda de colunas aninhadas deve filtrar atributos que não são relevantes para a relação em questão
-
[SPARK-39084] Corrigir
df.rdd.isEmpty()
usandoTaskContext
para parar o iterador na conclusão da tarefa - Atualizações de segurança do sistema operacional.
- 19 de abril de 2022
- Atualizações de segurança do sistema operacional.
- Correções diversas.
- 6 de abril de 2022
- [SPARK-38631] Usa implementação baseada em Java para descompactar em Utils.unpack
- Atualizações de segurança do sistema operacional.
- 22 de março de 2022
- Alterado o diretório de trabalho atual dos notebooks em clusters de Alta Concurrência com controle de acesso a tabelas ou passagem de credenciais ativado para o diretório pessoal do usuário. Anteriormente, o diretório ativo era
/databricks/driver
. - [SPARK-38437] Serialização tolerante de data e hora a partir da fonte de dados
- [SPARK-38180] Permitir expressões de up-cast seguras em predicados de igualdade correlacionados
- [SPARK-38155] Proibir agregados distintos em subconsultas laterais com predicados não suportados.
- [FAÍSCA-27442] Removido um campo de verificação ao ler ou gravar dados em um parquet.
- Alterado o diretório de trabalho atual dos notebooks em clusters de Alta Concurrência com controle de acesso a tabelas ou passagem de credenciais ativado para o diretório pessoal do usuário. Anteriormente, o diretório ativo era
- 14 de março de 2022
- [SPARK-38236] Os caminhos absolutos dos ficheiros especificados na criação/alteração da tabela são considerados relativos.
- [SPARK-34069] Interromper a thread da tarefa se a propriedade local estiver definida como "true".
- 23 de fevereiro de 2022
- [SPARK-37859] As tabelas SQL criadas com JDBC com Spark 3.1 não são legíveis com Spark 3.2.
- 8 de fevereiro de 2022
- [FAÍSCA-27442] Removido um campo de verificação ao ler ou gravar dados em um parquet.
- Atualizações de segurança do sistema operacional.
- 1 de fevereiro de 2022
- Atualizações de segurança do sistema operacional.
- 26 de janeiro de 2022
- Corrigido um problema em que transações simultâneas em tabelas Delta podiam ser confirmadas em uma ordem não serializável sob certas condições raras.
- Corrigido um problema em que o
OPTIMIZE
comando podia falhar quando o dialeto ANSI SQL estava habilitado.
- 19 de janeiro de 2022
- Pequenas correções e melhorias de segurança.
- Atualizações de segurança do sistema operacional.
- 4 de novembro de 2021
- Corrigido um problema que podia fazer com que os fluxos de Streaming Estruturado falhassem com um
ArrayIndexOutOfBoundsException
. - Foi corrigida uma condição de corrida que poderia provocar uma falha de consulta com um IOException como
java.io.IOException: No FileSystem for scheme
, ou que poderia impedir que as modificações emsparkContext.hadoopConfiguration
surtissem efeito nas consultas. - O Apache Spark Connector for Delta Sharing foi atualizado para 0.2.0.
- Corrigido um problema que podia fazer com que os fluxos de Streaming Estruturado falhassem com um
- 20 de outubro de 2021
- Conector BigQuery atualizado de 0.18.1 para 0.22.2. Isso adiciona suporte ao tipo BigNumeric.
Tempo de execução do Databricks 13.0 (EoS)
Consulte Databricks Runtime 13.0 (EoS).
13 de outubro de 2023
- Dependência Snowflake-jdbc atualizada de 3.13.29 para 3.13.33.
- [SPARK-42553][SQL] Certifique-se de que haja pelo menos uma unidade de tempo após o intervalo.
-
[FAÍSCA-45178] Reversão para executar um único lote para
Trigger.AvailableNow
com fontes não suportadas, em vez de usar invólucro. -
[FAÍSCA-44658][CORE]
ShuffleStatus.getMapStatus
retornaNone
em vez deSome(null)
. -
[FAÍSCA-42205][CORE] Remova o registro de Acumuláveis nos eventos de início de Tarefa/Estágio em
JsonProtocol
. - Atualizações de segurança do sistema operacional.
12 de setembro de 2023
-
[SPARK-44485][SQL] Otimize
TreeNode.generateTreeString
. - [SPARK-44718][SQL] Definir o valor padrão da configuração do modo de memória para corresponder ao valor de configuração.
- Correções de bugs diversos.
-
[SPARK-44485][SQL] Otimize
30 de agosto de 2023
-
[FAÍSCA-44818][Backport] Corrida fixa para interrupção de tarefa pendente emitida antes
taskThread
de ser inicializada. - [SPARK-44714] Aliviar a restrição da resolução de LCA em relação a consultas.
-
[SPARK-44245][PYTHON]
pyspark.sql.dataframe sample()
doctests agora são apenas ilustrativos. -
[SPARK-44871][11.3-13.0][SQL] Comportamento corrigido
percentile_disc
. - Atualizações de segurança do sistema operacional.
-
[FAÍSCA-44818][Backport] Corrida fixa para interrupção de tarefa pendente emitida antes
15 de agosto de 2023
-
[SPARK-44643][SQL][PYTHON] Corrigir
Row.__repr__
quando a linha estiver vazia. - [FAÍSCA-44504][Backport] A tarefa de manutenção limpa os fornecedores carregados em caso de erro de paragem.
-
[SPARK-44479][CONECTAR][PYTHON] Corrigida a conversão
protobuf
de um tipo struct vazio. -
[FAÍSCA-44464][SS] Corrigido
applyInPandasWithStatePythonRunner
para produzir linhas que tenhamNull
como valor da primeira coluna. - Correções de bugs diversos.
-
[SPARK-44643][SQL][PYTHON] Corrigir
29 de julho de 2023
- Corrigido um bug em que
dbutils.fs.ls()
retornavaINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
quando chamado para um caminho de localização de armazenamento que entrava em conflito com outro local de armazenamento externo ou gerido. -
[SPARK-44199]
CacheManager
já não atualiza ofileIndex
desnecessariamente. - Atualizações de segurança do sistema operacional.
- Corrigido um bug em que
24 de julho de 2023
-
[SPARK-44337][PROTOBUF] Corrigido um problema em que qualquer campo definido como
Any.getDefaultInstance
causava erros de análise. -
[SPARK-44136] [SS] Corrigido um problema em que
StateManager
seria concretizado num executor em vez de num driver emFlatMapGroupsWithStateExec
. - Reverter [SPARK-42323][SQL] Atribua nome a
_LEGACY_ERROR_TEMP_2332
. - Atualizações de segurança do sistema operacional.
-
[SPARK-44337][PROTOBUF] Corrigido um problema em que qualquer campo definido como
23 de junho de 2023
- Atualizações de segurança do sistema operacional.
15 de junho de 2023
- Fotonizado
approx_count_distinct
. - A biblioteca Snowflake-jdbc foi atualizada para 3.13.29 para resolver um problema de segurança.
- [SPARK-43156][SPARK-43098][SQL] Estender o teste de bug da contagem em subconsultas escalares com decorrelateInnerQuery desabilitado
-
[SPARK-43779][SQL]
ParseToDate
agora carregaEvalMode
na thread principal. - [c0][SPARK-42937][/c0][SQL] deve definir como verdadeiro
- Atualizações de segurança do sistema operacional.
- Fotonizado
2 de junho de 2023
- O analisador JSON no
failOnUnknownFields
modo descarta um registro noDROPMALFORMED
modo e falha diretamente noFAILFAST
modo. - Melhore o desempenho da atualização incremental com
SHALLOW CLONE
o Iceberg e o Parquet. - Corrigido um problema no Auto Loader em que diferentes formatos de arquivo de origem eram inconsistentes quando o esquema fornecido não incluía partições inferidas. Esse problema pode causar falhas inesperadas ao ler arquivos com colunas ausentes no esquema de partição inferida.
- [FAÍSCA-43404][Backport] Ignore a reutilização do arquivo sst para a mesma versão do armazenamento de estado RocksDB para evitar erro de incompatibilidade de ID.
- [SPARK-43340][CORE] Corrigido o campo de rasto de execução ausente nos logs de eventos.
-
[FAÍSCA-43300][CORE]
NonFateSharingCache
wrapper para Guava Cache. -
[SPARK-43378][CORE] Feche corretamente os objetos de fluxo no
deserializeFromChunkedBuffer
. - [SPARK-16484][SQL] Use registradores de 8 bits para representar DataSketches.
- [SPARK-43522][SQL] Corrigida a criação do nome da coluna struct com índice de matriz.
-
[SPARK-43413][11.3-13.0][SQL] Corrigida a anulabilidade da subconsulta
IN
. -
[FAÍSCA-43043][CORE] Desempenho melhorado
MapOutputTracker.updateMapOutput
. - [SPARK-16484][SQL] Adicionado suporte para DataSketches HllSketch.
- [SPARK-43123][SQL] Os metadados internos de campos já não são expostos aos catálogos.
-
[SPARK-42851][SQL] Guarda
EquivalentExpressions.addExpr()
comsupportedExpression()
. -
[SPARK-43336][SQL] A conversão entre
Timestamp
eTimestampNTZ
requer fuso horário. -
[SPARK-43286][SQL] Modo CBC atualizado
aes_encrypt
para gerar IVs aleatórios. -
[SPARK-42852][SQL] Alterações relacionadas de
NamedLambdaVariable
revertidas deEquivalentExpressions
. -
[SPARK-43541][SQL] Propagar todas as
Project
tags na resolução de expressões e colunas ausentes. -
[SPARK-43527][PYTHON] Corrigido
catalog.listCatalogs
no PySpark. - Atualizações de segurança do sistema operacional.
- O analisador JSON no
31 de maio de 2023
- O suporte de escrita otimizada padrão para tabelas Delta registadas no Unity Catalog foi alargado para abranger
CTAS
instruções eINSERT
operações para tabelas particionadas. Esse comportamento se alinha aos padrões em armazéns SQL. Consulte Escritas otimizadas para Delta Lake no Azure Databricks.
- O suporte de escrita otimizada padrão para tabelas Delta registadas no Unity Catalog foi alargado para abranger
17 de maio de 2023
- Corrigida uma regressão onde
_metadata.file_path
e_metadata.file_name
retornaria cadeias de caracteres formatadas incorretamente. Por exemplo, agora um caminho com espaços é representado comos3://test-bucket/some%20directory/some%20data.csv
em vez des3://test-bucket/some directory/some data.csv
. - As varreduras de parquet agora são robustas contra OOMs ao examinar arquivos excepcionalmente estruturados, ajustando dinamicamente o tamanho do lote. Os metadados do ficheiro são analisados para reduzir preventivamente o tamanho do lote e são reduzidos novamente nas repetições das tarefas como uma rede de segurança final.
-
- Se um arquivo Avro fosse lido apenas com a
failOnUnknownFields
opção ou com o Auto Loader no modo de evolução do esquema, asfailOnNewColumns
colunas que têm tipos de dados diferentes seriam lidas comonull
em vez de lançar um erro informando que o arquivo não pode ser lido. Essas leituras agora falham e recomendam que os usuários usem arescuedDataColumn
opção.
- Se um arquivo Avro fosse lido apenas com a
- Auto Loader agora faz o seguinte.
-
- Lê corretamente e não resgata mais
Integer
,Short
,Byte
tipos se um desses tipos de dados for fornecido, mas o arquivo Avro sugere um dos outros dois tipos.
- Lê corretamente e não resgata mais
-
- Impede a interpretação de tipos de intervalo como tipos de data ou hora, para evitar datas corrompidas.
-
- Impede a leitura de tipos
Decimal
com menor precisão.
- Impede a leitura de tipos
- [SPARK-43172] [CONECTAR] Expõe host e token do cliente de conexão Spark.
-
[SPARK-43293][SQL]
__qualified_access_only
é ignorado em colunas normais. -
[SPARK-43098][SQL] Corrigido o erro de corretude
COUNT
quando a subconsulta escalar é agrupada por cláusula GROUP BY. -
[SPARK-43085][SQL] Suporte para atribuição de colunas
DEFAULT
para nomes de tabelas multipartes. -
[SPARK-43190][SQL]
ListQuery.childOutput
está agora consistente com a produção secundária. - [SPARK-43192] [CONNECT] Removida a validação da codificação do user agent.
- Corrigida uma regressão onde
25 de abril de 2023
- Você pode modificar uma tabela Delta para adicionar suporte a uma funcionalidade da tabela Delta usando
DeltaTable.addFeatureSupport(feature_name)
. - O
SYNC
comando agora suporta formatos de fonte de dados herdados. - Corrigido um bug em que usar o formatador Python antes de executar quaisquer outros comandos em um notebook Python podia resultar na ausência do caminho do notebook
sys.path.
- O Azure Databricks agora dá suporte à especificação de valores padrão para colunas de tabelas Delta.
INSERT
,UPDATE
,DELETE
, eMERGE
os comandos podem se referir ao valor padrão de uma coluna usando a palavra-chave explícitaDEFAULT
. ParaINSERT
comandos com uma lista explícita de menos colunas do que a tabela de destino, os valores padrão de coluna correspondentes são substituídos pelas colunas restantes (ouNULL
se nenhum padrão for especificado).
- Você pode modificar uma tabela Delta para adicionar suporte a uma funcionalidade da tabela Delta usando
Corrige um bug em que o terminal web não podia ser usado para aceder a arquivos em
/Workspace
para alguns usuários.- Se um arquivo Parquet fosse lido apenas com a
failOnUnknownFields
opção ou com o Auto Loader no modo de evolução do esquema, asfailOnNewColumns
colunas que tivessem diferentes tipos de dados seriam lidas comonull
em vez de lançar um erro informando que o arquivo não pode ser lido. Essas leituras agora falham e recomendam que os usuários usem arescuedDataColumn
opção. - Auto Loader agora lê corretamente e não resgata mais
Integer
,Short
,Byte
tipos se um desses tipos de dados são fornecidos. O arquivo Parquet indica um dos dois outros tipos. Quando a coluna de dados resgatados estava habilitada anteriormente, a incompatibilidade de tipo de dados fazia com que as colunas fossem resgatadas mesmo que fossem legíveis. - Corrigido um erro em que a evolução do esquema do Auto Loader pode entrar em um ciclo de falhas infinito, quando uma nova coluna é detetada no esquema de um objeto JSON aninhado.
- [FAÍSCA-42794][SS] Aumente o lockAcquireTimeoutMs para 2 minutos para adquirir o armazenamento de estado RocksDB no Structure Streaming.
- [SPARK-39221][SQL] Faça com que as informações confidenciais sejam editadas corretamente para o separador de tarefa/etapa do servidor Thrift.
-
[SPARK-42971][CORE] Alterar para imprimir
workdir
seappDirs
for nulo quando o trabalhador processar o eventoWorkDirCleanup
. - [SPARK-42936][SQL] Corrigir o bug da LCA quando a cláusula having puder ser resolvida diretamente pelo seu agregado filho.
-
[SPARK-43018][SQL] Corrija o bug para
INSERT
comandos com literais de carimbo de data/hora. - Revert [SPARK-42754][SQL][UI] Corrija o problema de compatibilidade com versões anteriores na execução do SQL aninhado.
- Reverter [SPARK-41498] Propagar metadados através do Union.
-
[SPARK-43038][SQL] Suporte o modo CBC por
aes_encrypt()
/aes_decrypt()
. -
[SPARK-42928][SQL] Torne
resolvePersistentFunction
sincronizado. -
[SPARK-42521][SQL] Adicione
NULL
valores paraINSERT
com listas de colunas especificadas pelo utilizador que contêm menos colunas do que a tabela de destino. -
[SPARK-41391][SQL] O nome da coluna de saída de
groupBy.agg(count_distinct)
era incorreto. -
[SPARK-42548][SQL] Adicionar
ReferenceAllColumns
para ignorar reescrita de atributos. - [SPARK-42423][SQL] Adicionar coluna de metadados para início e comprimento do bloco de arquivo.
-
[SPARK-42796][SQL] Suporte para o acesso a colunas em
TimestampNTZ
. - [SPARK-42266][PYTHON] Remova o diretório pai ao executar o shell.py quando o IPython é usado.
-
[SPARK-43011][SQL]
array_insert
deve falhar com o índice 0. -
[SPARK-41874][CONECTAR][PYTHON] Suporte
SameSemantics
no Spark Connect. - [SPARK-42702][SPARK-42623][SQL] Suporte para consultas parametrizadas em subconsultas e CTE.
-
[SPARK-42967][CORE] Corrigir
SparkListenerTaskStart.stageAttemptId
quando uma tarefa é iniciada depois que o estágio é cancelado. - Atualizações de segurança do sistema operacional.
- Se um arquivo Parquet fosse lido apenas com a
Tempo de execução do Databricks 12.1 (EoS)
Consulte Databricks Runtime 12.1 (EoS).
23 de junho de 2023
- Atualizações de segurança do sistema operacional.
15 de junho de 2023
- Fotonizado
approx_count_distinct
. - A biblioteca Snowflake-jdbc foi atualizada para 3.13.29 para resolver um problema de segurança.
-
[SPARK-43779][SQL]
ParseToDate
agora carregaEvalMode
na thread principal. - [SPARK-43156][SPARK-43098][SQL] Estender o teste de bug da contagem em subconsultas escalares com decorrelateInnerQuery desabilitado
- Atualizações de segurança do sistema operacional.
- Fotonizado
2 de junho de 2023
- O analisador JSON no
failOnUnknownFields
modo descarta um registro noDROPMALFORMED
modo e falha diretamente noFAILFAST
modo. - Melhore o desempenho da atualização incremental com
SHALLOW CLONE
o Iceberg e o Parquet. - Corrigido um problema no Auto Loader em que diferentes formatos de arquivo de origem eram inconsistentes quando o esquema fornecido não incluía partições inferidas. Esse problema pode causar falhas inesperadas ao ler arquivos com colunas ausentes no esquema de partição inferida.
- [FAÍSCA-43404][Backport] Ignore a reutilização do arquivo sst para a mesma versão do armazenamento de estado RocksDB para evitar erro de incompatibilidade de ID.
-
[SPARK-43413][11.3-13.0][SQL] Corrigida a anulabilidade da subconsulta
IN
. - [SPARK-43522][SQL] Corrigida a criação do nome da coluna struct com índice de matriz.
-
[SPARK-42444][PYTHON]
DataFrame.drop
agora lida corretamente com colunas duplicadas. -
[SPARK-43541][SQL] Propagar todas as
Project
tags na resolução de expressões e colunas ausentes. - [SPARK-43340][CORE] Corrigido o campo de rasto de execução ausente nos logs de eventos.
-
[SPARK-42937][SQL]
PlanSubqueries
agora defineInSubqueryExec#shouldBroadcast
como true. -
[SPARK-43527][PYTHON] Corrigido
catalog.listCatalogs
no PySpark. -
[SPARK-43378][CORE] Feche corretamente os objetos de fluxo no
deserializeFromChunkedBuffer
.
- O analisador JSON no
17 de maio de 2023
- As varreduras de parquet agora são robustas contra OOMs ao examinar arquivos excepcionalmente estruturados, ajustando dinamicamente o tamanho do lote. Os metadados do ficheiro são analisados para reduzir preventivamente o tamanho do lote e são reduzidos novamente nas repetições das tarefas como uma rede de segurança final.
- Se um arquivo Avro fosse lido apenas com a
failOnUnknownFields
opção ou com o Auto Loader no modo de evolução do esquema, asfailOnNewColumns
colunas que têm tipos de dados diferentes seriam lidas comonull
em vez de lançar um erro informando que o arquivo não pode ser lido. Essas leituras agora falham e recomendam que os usuários usem arescuedDataColumn
opção. - Auto Loader agora faz o seguinte.
-
- Lê corretamente e não resgata mais
Integer
,Short
,Byte
tipos se um desses tipos de dados for fornecido, mas o arquivo Avro sugere um dos outros dois tipos.
- Lê corretamente e não resgata mais
-
- Impede a interpretação de tipos de intervalo como tipos de data ou hora, para evitar datas corrompidas.
-
- Impede a leitura de tipos
Decimal
com menor precisão.
- Impede a leitura de tipos
-
[SPARK-43098][SQL] Corrigido o erro de corretude
COUNT
quando a subconsulta escalar é agrupada por cláusula GROUP BY. -
[SPARK-43190][SQL]
ListQuery.childOutput
está agora consistente com a produção secundária. - Atualizações de segurança do sistema operacional.
25 de abril de 2023
- Se um arquivo Parquet fosse lido apenas com a
failOnUnknownFields
opção ou com o Auto Loader no modo de evolução do esquema, asfailOnNewColumns
colunas que tivessem diferentes tipos de dados seriam lidas comonull
em vez de lançar um erro informando que o arquivo não pode ser lido. Essas leituras agora falham e recomendam que os usuários usem arescuedDataColumn
opção. - Auto Loader agora lê corretamente e não resgata mais
Integer
,Short
,Byte
tipos se um desses tipos de dados são fornecidos. O arquivo Parquet indica um dos dois outros tipos. Quando a coluna de dados resgatados estava habilitada anteriormente, a incompatibilidade de tipo de dados fazia com que as colunas fossem resgatadas mesmo que fossem legíveis. -
[SPARK-43009][SQL] Parametrizado
sql()
comAny
constantes. -
[SPARK-42971][CORE] Alterar para imprimir
workdir
seappDirs
for nulo quando o trabalhador processar o eventoWorkDirCleanup
. - Atualizações de segurança do sistema operacional.
- Se um arquivo Parquet fosse lido apenas com a
11 de abril de 2023
- Suporte a formatos de fonte de dados herdados no comando SYNC.
- Corrige um bug no comportamento do %autoreload em cadernos que estão fora de repositórios.
- Corrigido um erro em que a evolução do esquema do Auto Loader pode entrar em um ciclo de falhas infinito, quando uma nova coluna é detetada no esquema de um objeto JSON aninhado.
-
[FAÍSCA-42928][SQL] Torna
resolvePersistentFunction
sincronizado. -
[SPARK-42967][CORE] Corrige
SparkListenerTaskStart.stageAttemptId
quando uma tarefa é iniciada após a etapa ter sido cancelada. - Atualizações de segurança do sistema operacional.
29 de março de 2023
- O Auto Loader agora aciona pelo menos uma limpeza síncrona de log RocksDB para
Trigger.AvailableNow
fluxos para garantir que o ponto de verificação possa ser limpo regularmente para fluxos do Auto Loader de execução rápida. Isso pode fazer com que alguns fluxos demorem mais tempo antes de serem desligados, mas economizará custos de armazenamento e melhorará a experiência do Auto Loader em execuções futuras. - Agora pode modificar uma tabela Delta para adicionar suporte às funcionalidades da tabela usando
DeltaTable.addFeatureSupport(feature_name)
. - [SPARK-42702][SPARK-42623][SQL] Suporte a consulta parametrizada em subconsulta e CTE
- [SPARK-41162][SQL] Corrigir anti e semi-joins para auto-associação com agregações
- [SPARK-42403][CORE] JsonProtocol deve manipular cadeias de caracteres JSON nulas
- [FAÍSCA-42668][SS] Exceção de captura ao tentar fechar o fluxo compactado no HDFSStateStoreProvider abortar
- [FAÍSCA-42794][SS] Aumente o lockAcquireTimeoutMs para 2 minutos para adquirir o armazenamento de estado RocksDB no Structure Streaming
- O Auto Loader agora aciona pelo menos uma limpeza síncrona de log RocksDB para
14 de Março de 2023
- Há uma alteração de terminologia para a adição de recursos a uma tabela Delta usando a propriedade da tabela. A sintaxe preferida é agora
'delta.feature.featureName'='supported'
em vez de'delta.feature.featureName'='enabled'
. Para compatibilidade com versões anteriores, o uso'delta.feature.featureName'='enabled'
ainda funciona e continuará a funcionar. - [SPARK-42622][CORE] Desativar substituição em valores
- [SPARK-42534][SQL] Corrigir cláusula Limite do DB2Dialect
- [SPARK-42635][SQL] Corrigir a expressão TimestampAdd.
- [FAÍSCA-42516][SQL] Registar sempre a configuração do fuso horário da sessão ao criar vistas
- [SPARK-42484] [SQL] UnsafeRowUtils mensagem de erro melhorada
- [SPARK-41793][SQL] Resultado incorreto para estruturas de janela definidas por uma cláusula de intervalo em decimais extensos
- Atualizações de segurança do sistema operacional.
- Há uma alteração de terminologia para a adição de recursos a uma tabela Delta usando a propriedade da tabela. A sintaxe preferida é agora
24 de fevereiro de 2023
- Agora você pode usar um conjunto unificado de opções (
host
,port
,database
,user
,password
) para se conectar às fontes de dados suportadas na Federação de Consultas (PostgreSQL, MySQL, Synapse, Snowflake, Redshift, SQL Server). Observe queport
é opcional e usa o número de porta padrão para cada fonte de dados, se não for fornecido.
Exemplo de configuração de conexão PostgreSQL
CREATE TABLE postgresql_table USING postgresql OPTIONS ( dbtable '<table-name>', host '<host-name>', database '<database-name>', user '<user>', password secret('scope', 'key') );
Exemplo de configuração de conexão Snowflake
CREATE TABLE snowflake_table USING snowflake OPTIONS ( dbtable '<table-name>', host '<host-name>', port '<port-number>', database '<database-name>', user secret('snowflake_creds', 'my_username'), password secret('snowflake_creds', 'my_password'), schema '<schema-name>', sfWarehouse '<warehouse-name>' );
- [FAÍSCA-41989][PYTHON] Evite quebrar a configuração de registro de pyspark.pandas
- [SPARK-42346][SQL] Reescrever agregações distintas após a fusão de subconsulta
-
[FAÍSCA-41990][SQL] Use
FieldReference.column
em vez deapply
na conversão de filtro de V1 para V2 - Reverter [SPARK-41848][CORE] Corrigir excesso de agendamento de tarefas com TaskResourceProfile
- [FAÍSCA-42162] Introduzir a expressão MultiCommutativeOp como uma otimização de memória para canonicizar árvores grandes de expressões comutativas.
- Atualizações de segurança do sistema operacional.
- Agora você pode usar um conjunto unificado de opções (
16 de fevereiro de 2023
- SYNC comando suporta a sincronização de tabelas recriadas do Hive Metastore. Se uma tabela HMS tiver sido sincronizada anteriormente com o Unity Catalog, mas depois descartada e recriada, uma ressincronização subsequente funcionará em vez de retornar o código de status TABLE_ALREADY_EXISTS.
- [SPARK-41219][SQL] IntegralDivide usa decimal(1, 0) para representar 0
- [SPARK-36173][CORE] Suporte para obter o número de CPUs no TaskContext
- [SPARK-41848][CORE] Corrigindo tarefa programada em excesso com TaskResourceProfile
- [FAÍSCA-42286][SQL] Retorno para o caminho de código codegen anterior para expressão complexa com CAST
31 de janeiro de 2023
- Criar um esquema com um local definido agora requer que o utilizador tenha privilégios de SELECT e MODIFICAR em QUALQUER FICHEIRO.
- [FAÍSCA-41581][SQL] Atribuir nome a _LEGACY_ERROR_TEMP_1230
- [SPARK-41996][SQL][SS] Corrigir o teste do Kafka para verificar partições perdidas e contabilizar operações lentas do Kafka
- [SPARK-41580][SQL] Atribuir nome a _LEGACY_ERROR_TEMP_2137
-
[SPARK-41666][PYTHON] Suporte a SQL parametrizado por
sql()
- [FAÍSCA-41579][SQL] Atribuir nome a _LEGACY_ERROR_TEMP_1249
- [SPARK-41573][SQL] Atribuir nome a _LEGACY_ERROR_TEMP_2136
- [SPARK-41574][SQL] Atribuir nome a _LEGACY_ERROR_TEMP_2009
- [SPARK-41049][Seguimento] Corrigir uma regressão de sincronização do código-fonte para ConvertToLocalRelation
- [SPARK-41576][SQL] Atribuir nome a _LEGACY_ERROR_TEMP_2051
- [SPARK-41572][SQL] Atribuir nome a _LEGACY_ERROR_TEMP_2149
- [SPARK-41575][SQL] Atribuir nome a _LEGACY_ERROR_TEMP_2054
- Atualizações de segurança do sistema operacional.
Tempo de execução do Databricks 12.0 (EoS)
Consulte Databricks Runtime 12.0 (EoS).
15 de junho de 2023
- Fotonizado
approx_count_distinct
. - A biblioteca Snowflake-jdbc foi atualizada para 3.13.29 para resolver um problema de segurança.
- [SPARK-43156][SPARK-43098][SQL] Estender o teste de bug da contagem em subconsultas escalares com decorrelateInnerQuery desabilitado
-
[SPARK-43779][SQL]
ParseToDate
agora carregaEvalMode
na thread principal. - Atualizações de segurança do sistema operacional.
- Fotonizado
2 de junho de 2023
- O analisador JSON no
failOnUnknownFields
modo descarta um registro noDROPMALFORMED
modo e falha diretamente noFAILFAST
modo. - Melhore o desempenho da atualização incremental com
SHALLOW CLONE
o Iceberg e o Parquet. - Corrigido um problema no Auto Loader em que diferentes formatos de arquivo de origem eram inconsistentes quando o esquema fornecido não incluía partições inferidas. Esse problema pode causar falhas inesperadas ao ler arquivos com colunas ausentes no esquema de partição inferida.
-
[SPARK-42444][PYTHON]
DataFrame.drop
agora lida corretamente com colunas duplicadas. - [FAÍSCA-43404][Backport] Ignore a reutilização do arquivo sst para a mesma versão do armazenamento de estado RocksDB para evitar erro de incompatibilidade de ID.
-
[SPARK-43413][11.3-13.0][SQL] Corrigida a anulabilidade da subconsulta
IN
. -
[SPARK-43527][PYTHON] Corrigido
catalog.listCatalogs
no PySpark. - [SPARK-43522][SQL] Corrigida a criação do nome da coluna struct com índice de matriz.
-
[SPARK-43541][SQL] Propagar todas as
Project
tags na resolução de expressões e colunas ausentes. - [SPARK-43340][CORE] Corrigido o campo de rasto de execução ausente nos logs de eventos.
-
[FAÍSCA-42937][SQL]
PlanSubqueries
definaInSubqueryExec#shouldBroadcast
como verdadeiro.
- O analisador JSON no
17 de maio de 2023
- As varreduras de parquet agora são robustas contra OOMs ao examinar arquivos excepcionalmente estruturados, ajustando dinamicamente o tamanho do lote. Os metadados do ficheiro são analisados para reduzir preventivamente o tamanho do lote e são reduzidos novamente nas repetições das tarefas como uma rede de segurança final.
- Se um arquivo Avro fosse lido apenas com a
failOnUnknownFields
opção ou com o Auto Loader no modo de evolução do esquema, asfailOnNewColumns
colunas que têm tipos de dados diferentes seriam lidas comonull
em vez de lançar um erro informando que o arquivo não pode ser lido. Essas leituras agora falham e recomendam que os usuários usem arescuedDataColumn
opção. - Auto Loader agora faz o seguinte.
-
- Lê corretamente e não resgata mais
Integer
,Short
,Byte
tipos se um desses tipos de dados for fornecido, mas o arquivo Avro sugere um dos outros dois tipos.
- Lê corretamente e não resgata mais
-
- Impede a interpretação de tipos de intervalo como tipos de data ou hora, para evitar datas corrompidas.
-
- Impede a leitura de tipos
Decimal
com menor precisão.
- Impede a leitura de tipos
- [SPARK-43172] [CONECTAR] Expõe host e token do cliente de conexão Spark.
-
[SPARK-41520][SQL] Dividir
AND_OR
padrão de árvore para separarAND
eOR
. -
[SPARK-43098][SQL] Corrigido o erro de corretude
COUNT
quando a subconsulta escalar é agrupada por cláusula GROUP BY. -
[SPARK-43190][SQL]
ListQuery.childOutput
está agora consistente com a produção secundária. - Atualizações de segurança do sistema operacional.
25 de abril de 2023
- Se um arquivo Parquet fosse lido apenas com a
failOnUnknownFields
opção ou com o Auto Loader no modo de evolução do esquema, asfailOnNewColumns
colunas que tivessem diferentes tipos de dados seriam lidas comonull
em vez de lançar um erro informando que o arquivo não pode ser lido. Essas leituras agora falham e recomendam que os usuários usem arescuedDataColumn
opção. - Auto Loader agora lê corretamente e não resgata mais
Integer
,Short
,Byte
tipos se um desses tipos de dados são fornecidos. O arquivo Parquet indica um dos dois outros tipos. Quando a coluna de dados resgatados estava habilitada anteriormente, a incompatibilidade de tipo de dados fazia com que as colunas fossem resgatadas mesmo que fossem legíveis. -
[FAÍSCA-42971][CORE] Alterar para imprimir
workdir
seappDirs
for nulo quando o trabalhador manipularWorkDirCleanup
evento - Atualizações de segurança do sistema operacional.
- Se um arquivo Parquet fosse lido apenas com a
11 de abril de 2023
- Suporte a formatos de fonte de dados herdados no comando
SYNC
. - Corrige um bug no comportamento do %autoreload em cadernos que estão fora de um repositório.
- Corrigido um erro em que a evolução do esquema do Auto Loader pode entrar em um ciclo de falhas infinito, quando uma nova coluna é detetada no esquema de um objeto JSON aninhado.
-
[FAÍSCA-42928][SQL] Torna
resolvePersistentFunction
sincronizado. -
[SPARK-42967][CORE] Corrige
SparkListenerTaskStart.stageAttemptId
quando uma tarefa é iniciada após a etapa ter sido cancelada. - Atualizações de segurança do sistema operacional.
- Suporte a formatos de fonte de dados herdados no comando
29 de março de 2023
- [FAÍSCA-42794][SS] Aumente o lockAcquireTimeoutMs para 2 minutos para adquirir o armazenamento de estado RocksDB no Structure Streaming
- [SPARK-41162][SQL] Corrigir anti e semi-joins para auto-associação com agregações
- [SPARK-42403][CORE] JsonProtocol deve manipular cadeias de caracteres JSON nulas
- [FAÍSCA-42668][SS] Exceção de captura ao tentar fechar o fluxo compactado no HDFSStateStoreProvider abortar
- Correções de bugs diversos.
14 de Março de 2023
- [SPARK-42534][SQL] Corrigir cláusula Limite do DB2Dialect
- [SPARK-42622][CORE] Desativar substituição em valores
- [SPARK-41793][SQL] Resultado incorreto para estruturas de janela definidas por uma cláusula de intervalo em decimais extensos
- [SPARK-42484] [SQL] UnsafeRowUtils mensagem de erro melhorada
- [SPARK-42635][SQL] Corrigir a expressão TimestampAdd.
- [FAÍSCA-42516][SQL] Registar sempre a configuração do fuso horário da sessão ao criar vistas
- Atualizações de segurança do sistema operacional.
24 de fevereiro de 2023
Opções de conexão padronizadas para federação de consultas
Agora você pode usar um conjunto unificado de opções (
host
,port
,database
,user
,password
) para se conectar às fontes de dados suportadas na Federação de Consultas (PostgreSQL, MySQL, Synapse, Snowflake, Redshift, SQL Server). Observe queport
é opcional e usará o número de porta padrão para cada fonte de dados, se não for fornecido.Exemplo de configuração de conexão PostgreSQL
CREATE TABLE postgresql_table USING postgresql OPTIONS ( dbtable '<table-name>', host '<host-name>', database '<database-name>', user '<user>', password secret('scope', 'key') );
Exemplo de configuração de conexão Snowflake
CREATE TABLE snowflake_table USING snowflake OPTIONS ( dbtable '<table-name>', host '<host-name>', port '<port-number>', database '<database-name>', user secret('snowflake_creds', 'my_username'), password secret('snowflake_creds', 'my_password'), schema '<schema-name>', sfWarehouse '<warehouse-name>' );
Reverter [SPARK-41848][CORE] Corrigir excesso de agendamento de tarefas com TaskResourceProfile
[FAÍSCA-42162] Introduzir a expressão MultiCommutativeOp como uma otimização de memória para canonicizar árvores grandes de expressões comutativas.
[FAÍSCA-41990][SQL] Use
FieldReference.column
em vez deapply
na conversão de filtro de V1 para V2[SPARK-42346][SQL] Reescrever agregações distintas após a fusão de subconsulta
Atualizações de segurança do sistema operacional.
16 de fevereiro de 2023
- Os usuários agora podem ler e gravar determinadas tabelas Delta que exigem o Reader versão 3 e o Writer versão 7, usando o Databricks Runtime 9.1 ou posterior. Para serem bem-sucedidos, os recursos de tabela listados no protocolo das tabelas devem ser suportados pela versão atual do Databricks Runtime.
- SYNC comando suporta a sincronização de tabelas recriadas do Hive Metastore. Se uma tabela HMS tiver sido sincronizada anteriormente com o Unity Catalog, mas depois descartada e recriada, uma ressincronização subsequente funcionará em vez de retornar o código de status TABLE_ALREADY_EXISTS.
- [SPARK-36173][CORE] Suporte para obter o número de CPUs no TaskContext
- [FAÍSCA-42286][SQL] Retorno para o caminho de código codegen anterior para expressão complexa com CAST
- [SPARK-41848][CORE] Corrigindo tarefa programada em excesso com TaskResourceProfile
- [SPARK-41219][SQL] IntegralDivide usa decimal(1, 0) para representar 0
25 de janeiro de 2023
- [SPARK-41660][SQL] Propagar colunas de metadados somente se forem usadas
- [SPARK-41379][SS][PYTHON] Fornecer sessão Spark clonada no DataFrame na função de usuário para foreachBatch sink no PySpark
- [SPARK-41669][SQL] Redução antecipada em canCollapseExpressions
- Atualizações de segurança do sistema operacional.
18 de janeiro de 2023
-
REFRESH FUNCTION
O comando SQL agora suporta funções SQL e funções de tabela SQL. Por exemplo, o comando pode ser usado para atualizar uma função SQL persistente que foi atualizada em outra sessão SQL. - A fonte de dados Java Database Connectivity (JDBC) v1 agora suporta pushdown de cláusula LIMIT para melhorar o desempenho das consultas. Este recurso é ativado por padrão e pode ser desativado com
spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled
definido comofalse
. - Em clusters de ACLs de tabela herdada, a criação de funções que fazem referência a classes JVM agora requer o
MODIFY_CLASSPATH
privilégio. - A fonte de dados Java Database Connectivity (JDBC) v1 agora suporta pushdown de cláusula LIMIT para melhorar o desempenho das consultas. Esse recurso é habilitado por padrão e pode ser desativado com spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled definido como false.
- O conector Sinapse do Azure agora retorna uma mensagem de erro mais descritiva quando um nome de coluna contém caracteres inválidos, como espaços em branco ou ponto-e-vírgula. Nesses casos, a seguinte mensagem será retornada:
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace
. - O streaming estruturado do Spark agora funciona com format("deltasharing") em uma tabela de compartilhamento delta como fonte.
- [SPARK-38277][SS] Limpar o lote de escrita após a confirmação do armazenamento de estado do RocksDB
- [SPARK-41733][SQL][SS] Aplicar poda baseada em padrões de árvore para a regra ResolveWindowTime
- [FAÍSCA-39591][SS] Acompanhamento assíncrono do progresso
- [SPARK-41339][SQL] Fechar e recriar o lote de gravação do RocksDB em vez de apenas limpar
- [SPARK-41198][SS] Corrigir métricas em consulta de streaming com CTE e origem de streaming DSv1
- [SPARK-41539][SQL] Remapear estatísticas e restrições contra a saída no plano lógico para LogicalRDD
- [SPARK-41732][SQL][SS] Aplicar poda baseada em padrão de árvore para a regra SessionWindowing
- [SPARK-41862][SQL] Corrigir erro de precisão relacionado aos valores definidos por omissão no leitor Orc
- [SPARK-41199][SS] Corrigir problema de métricas quando a fonte de streaming DSv1 e a fonte de streaming DSv2 são co-usadas.
- [FAÍSCA-41261][PYTHON][SS] Corrija o problema de applyInPandasWithState quando as colunas de chaves de agrupamento não são colocadas em ordem desde o início
- Atualizações de segurança do sistema operacional.
-
17 de maio de 2023
- As varreduras de parquet agora são robustas contra OOMs ao examinar arquivos excepcionalmente estruturados, ajustando dinamicamente o tamanho do lote. Os metadados do ficheiro são analisados para reduzir preventivamente o tamanho do lote e são reduzidos novamente nas repetições das tarefas como uma rede de segurança final.
- Corrigida uma regressão que fazia com que os trabalhos do Azure Databricks persistissem depois de não conseguirem se conectar ao metastore durante a inicialização do cluster.
-
[SPARK-41520][SQL] Dividir
AND_OR
padrão de árvore para separarAND
eOR
. -
[SPARK-43190][SQL]
ListQuery.childOutput
está agora consistente com a produção secundária. - Atualizações de segurança do sistema operacional.
25 de abril de 2023
- Se um arquivo Parquet fosse lido apenas com a
failOnUnknownFields
opção ou com o Auto Loader no modo de evolução do esquema, asfailOnNewColumns
colunas que tivessem diferentes tipos de dados seriam lidas comonull
em vez de lançar um erro informando que o arquivo não pode ser lido. Essas leituras agora falham e recomendam que os usuários usem arescuedDataColumn
opção. - Auto Loader agora lê corretamente e não resgata mais
Integer
,Short
,Byte
tipos se um desses tipos de dados são fornecidos. O arquivo Parquet indica um dos dois outros tipos. Quando a coluna de dados resgatados estava habilitada anteriormente, a incompatibilidade de tipo de dados fazia com que as colunas fossem resgatadas mesmo que fossem legíveis. -
[SPARK-42937][SQL]
PlanSubqueries
agora defineInSubqueryExec#shouldBroadcast
como true. - Atualizações de segurança do sistema operacional.
- Se um arquivo Parquet fosse lido apenas com a
11 de abril de 2023
- Suporte a formatos de fonte de dados herdados no comando SYNC.
- Corrige um bug no comportamento do %autoreload em cadernos que estão fora de um repositório.
- Corrigido um erro em que a evolução do esquema do Auto Loader pode entrar em um ciclo de falhas infinito, quando uma nova coluna é detetada no esquema de um objeto JSON aninhado.
- [SPARK-42928][SQL] Tornar resolvePersistentFunction sincronizado.
- [SPARK-42967][CORE] Corrigir SparkListenerTaskStart.stageAttemptId quando uma tarefa é iniciada após o cancelamento da fase.
29 de março de 2023
- [FAÍSCA-42794][SS] Aumente o lockAcquireTimeoutMs para 2 minutos para adquirir o armazenamento de estado RocksDB no Structure Streaming
- [SPARK-42403][CORE] JsonProtocol deve manipular cadeias de caracteres JSON nulas
- [FAÍSCA-42668][SS] Exceção de captura ao tentar fechar o fluxo compactado no HDFSStateStoreProvider abortar
- Atualizações de segurança do sistema operacional.
14 de Março de 2023
- [SPARK-42635][SQL] Corrigir a expressão TimestampAdd.
- [SPARK-41793][SQL] Resultado incorreto para estruturas de janela definidas por uma cláusula de intervalo em decimais extensos
- [SPARK-42484] [SQL] UnsafeRowUtils mensagem de erro melhorada
- [SPARK-42534][SQL] Corrigir cláusula Limite do DB2Dialect
- [SPARK-41162][SQL] Corrigir anti e semi-joins para auto-associação com agregações
- [FAÍSCA-42516][SQL] Registar sempre a configuração do fuso horário da sessão ao criar vistas
- Correções de bugs diversos.
28 de fevereiro de 2023
Opções de conexão padronizadas para federação de consultas
Agora você pode usar um conjunto unificado de opções (
host
,port
,database
,user
,password
) para se conectar às fontes de dados suportadas na Federação de Consultas (PostgreSQL, MySQL, Synapse, Snowflake, Redshift, SQL Server). Observe queport
é opcional e usa o número de porta padrão para cada fonte de dados, se não for fornecido.Exemplo de configuração de conexão PostgreSQL
CREATE TABLE postgresql_table USING postgresql OPTIONS ( dbtable '<table-name>', host '<host-name>', database '<database-name>', user '<user>', password secret('scope', 'key') );
Exemplo de configuração de conexão Snowflake
CREATE TABLE snowflake_table USING snowflake OPTIONS ( dbtable '<table-name>', host '<host-name>', port '<port-number>', database '<database-name>', user secret('snowflake_creds', 'my_username'), password secret('snowflake_creds', 'my_password'), schema '<schema-name>', sfWarehouse '<warehouse-name>' );
[FAÍSCA-42286][SQL] Retorno para o caminho de código codegen anterior para expressão complexa com CAST
[FAÍSCA-41989][PYTHON] Evite quebrar a configuração de registro de pyspark.pandas
[SPARK-42346][SQL] Reescrever agregações distintas após a fusão de subconsulta
[SPARK-41360][CORE] Evite o re-registro do BlockManager se o executor foi perdido
[FAÍSCA-42162] Introduzir a expressão MultiCommutativeOp como uma otimização de memória para canonicizar árvores grandes de expressões comutativas.
[FAÍSCA-41990][SQL] Use
FieldReference.column
em vez deapply
na conversão de filtro de V1 para V2Atualizações de segurança do sistema operacional.
16 de fevereiro de 2023
- Os usuários agora podem ler e gravar determinadas tabelas Delta que exigem o Reader versão 3 e o Writer versão 7, usando o Databricks Runtime 9.1 ou posterior. Para serem bem-sucedidos, os recursos de tabela listados no protocolo das tabelas devem ser suportados pela versão atual do Databricks Runtime.
- SYNC comando suporta a sincronização de tabelas recriadas do Hive Metastore. Se uma tabela HMS tiver sido sincronizada anteriormente com o Unity Catalog, mas depois descartada e recriada, uma ressincronização subsequente funcionará em vez de retornar o código de status TABLE_ALREADY_EXISTS.
- [SPARK-41219][SQL] IntegralDivide usa decimal(1, 0) para representar 0
-
[SPARK-40382][SQL] Agrupar expressões agregadas distintas por elementos semanticamente equivalentes em
RewriteDistinctAggregates
- Atualizações de segurança do sistema operacional.
25 de janeiro de 2023
- [SPARK-41379][SS][PYTHON] Fornecer sessão Spark clonada no DataFrame na função de usuário para foreachBatch sink no PySpark
- [SPARK-41660][SQL] Propagar colunas de metadados somente se forem usadas
- [SPARK-41669][SQL] Redução antecipada em canCollapseExpressions
- Correções de bugs diversos.
18 de janeiro de 2023
-
REFRESH FUNCTION
O comando SQL agora suporta funções SQL e funções de tabela SQL. Por exemplo, o comando pode ser usado para atualizar uma função SQL persistente que foi atualizada em outra sessão SQL. - A fonte de dados Java Database Connectivity (JDBC) v1 agora suporta pushdown de cláusula LIMIT para melhorar o desempenho das consultas. Este recurso é ativado por padrão e pode ser desativado com
spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled
definido comofalse
. - A fonte de dados Java Database Connectivity (JDBC) v1 agora suporta pushdown de cláusula LIMIT para melhorar o desempenho das consultas. Esse recurso é habilitado por padrão e pode ser desativado com spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled definido como false.
- O conector Sinapse do Azure agora retorna uma mensagem de erro mais descritiva quando um nome de coluna contém caracteres inválidos, como espaços em branco ou ponto-e-vírgula. Nesses casos, a seguinte mensagem será retornada:
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace
. - [SPARK-41198][SS] Corrigir métricas em consulta de streaming com CTE e origem de streaming DSv1
- [SPARK-41862][SQL] Corrigir erro de precisão relacionado aos valores definidos por omissão no leitor Orc
- [SPARK-41539][SQL] Remapear estatísticas e restrições contra a saída no plano lógico para LogicalRDD
- [FAÍSCA-39591][SS] Acompanhamento assíncrono do progresso
- [SPARK-41199][SS] Corrigir problema de métricas quando a fonte de streaming DSv1 e a fonte de streaming DSv2 são co-usadas.
- [FAÍSCA-41261][PYTHON][SS] Corrija o problema de applyInPandasWithState quando as colunas de chaves de agrupamento não são colocadas em ordem desde o início
- [SPARK-41339][SQL] Fechar e recriar o lote de gravação do RocksDB em vez de apenas limpar
- [SPARK-41732][SQL][SS] Aplicar poda baseada em padrão de árvore para a regra SessionWindowing
- [SPARK-38277][SS] Limpar o lote de escrita após a confirmação do armazenamento de estado do RocksDB
- Atualizações de segurança do sistema operacional.
-
29 de novembro de 2022
- Os usuários podem configurar o comportamento dos espaços em branco à esquerda e à direita ao gravar dados usando o conector Redshift. As seguintes opções foram adicionadas para controlar o manuseio de espaços em branco:
-
csvignoreleadingwhitespace
, quando definido comotrue
, remove o espaço em branco à esquerda dos valores durante as gravações quandotempformat
está definido comoCSV
ouCSV GZIP
. Os espaços em branco são mantidos quando a configuração é definida comofalse
. Por predefinição, o valor étrue
. -
csvignoretrailingwhitespace
, quando definido comotrue
, remove o espaço em branco à direita dos valores durante as gravações quandotempformat
está definido comoCSV
ouCSV GZIP
. Os espaços em branco são mantidos quando a configuração é definida comofalse
. Por predefinição, o valor étrue
.
-
- Corrigido um bug com a análise JSON no Auto Loader quando todas as colunas eram deixadas como strings (
cloudFiles.inferColumnTypes
não estava definido ou definido comofalse
) e o JSON continha objetos aninhados. - Atualize
snowflake-jdbc
a dependência para a versão 3.13.22. - Os tipos de tabela de tabelas JDBC agora são EXTERNOS por padrão.
-
[SPARK-40906][SQL]
Mode
deve copiar as chaves antes de inserir no Map - Atualizações de segurança do sistema operacional.
- Os usuários podem configurar o comportamento dos espaços em branco à esquerda e à direita ao gravar dados usando o conector Redshift. As seguintes opções foram adicionadas para controlar o manuseio de espaços em branco:
15 de novembro de 2022
- ACLs de tabela e clusters compartilhados de UC agora permitem o método Dataset.toJSON de python.
-
[SPARK-40646] O parsing JSON para structs, maps e arrays foi corrigido de modo que, quando uma parte de um registo não corresponde ao esquema, o restante do registo ainda pode ser analisado corretamente em vez de devolver nulos. Para aderir ao comportamento melhorado definido
spark.sql.json.enablePartialResults
comotrue
. O sinalizador é desativado por padrão para preservar o comportamento original - [SPARK-40903][SQL] Impedir a reordenação da adição decimal para a canonização se o tipo de dado for alterado
- [SPARK-40618][SQL] Corrigir bug na regra MergeScalarSubqueries com subconsultas aninhadas utilizando rastreamento de referência
- [SPARK-40697][SQL] Adicionar preenchimento de caracteres de leitura para suportar arquivos de dados externos
- Atualizações de segurança do sistema operacional.
1 de novembro de 2022
- O Streaming estruturado no Unity Catalog agora suporta a atualização de tokens de acesso temporários. As cargas de trabalho de streaming executadas com clusters de todos os fins ou trabalhos do Unity Catalog não falham mais após a expiração inicial do token.
- Corrigido um problema em que, se uma tabela Delta tivesse uma coluna definida pelo usuário chamada
_change_type
, mas o feed de dados Change estivesse desabilitado nessa tabela, os dados nessa coluna seriam preenchidos incorretamente com valores NULL durante a execuçãoMERGE
. - Corrigido um problema em que a execução
MERGE
e o uso de exatamente 99 colunas da fonte na condição podiam resultar emjava.lang.ClassCastException: org.apache.spark.sql.vectorized.ColumnarBatch cannot be cast to org.apache.spark.sql.catalyst.InternalRow
. - Corrigido um problema com o Auto Loader em que um ficheiro podia ser duplicado no mesmo microlote quando
allowOverwrites
estava ativado. - Apache commons-text atualizado para 1.10.0.
- [FAÍSCA-38881][DSTREAMS][KINESIS][PYSPARK] Adicionado suporte para o CloudWatch MetricsLevel Config
- [SPARK-40596][CORE] Preencher ExecutorDecommission com mensagens em ExecutorDecommissionInfo
- [SPARK-40670][SS][PYTHON] Corrige o NPE em applyInPandasWithState quando o esquema de entrada tiver coluna(s) "não nulas"
- Atualizações de segurança do sistema operacional.
Tempo de execução do Databricks 11.2 (EoS)
Consulte Databricks Runtime 11.2 (EoS).
- 28 de fevereiro de 2023
- [FAÍSCA-42286][SQL] Retorno para o caminho de código codegen anterior para expressão complexa com CAST
- [SPARK-42346][SQL] Reescrever agregações distintas após a fusão de subconsulta
- Atualizações de segurança do sistema operacional.
- 16 de fevereiro de 2023
- Os usuários agora podem ler e gravar determinadas tabelas Delta que exigem o Reader versão 3 e o Writer versão 7, usando o Databricks Runtime 9.1 ou posterior. Para serem bem-sucedidos, os recursos de tabela listados no protocolo das tabelas devem ser suportados pela versão atual do Databricks Runtime.
- SYNC comando suporta a sincronização de tabelas recriadas do Hive Metastore. Se uma tabela HMS tiver sido sincronizada anteriormente com o Unity Catalog, mas depois descartada e recriada, uma ressincronização subsequente funcionará em vez de retornar o código de status TABLE_ALREADY_EXISTS.
- [SPARK-41219][SQL] IntegralDivide usa decimal(1, 0) para representar 0
- Atualizações de segurança do sistema operacional.
- 31 de janeiro de 2023
- Os tipos de tabela de tabelas JDBC agora são EXTERNOS por padrão.
- [SPARK-41379][SS][PYTHON] Fornecer sessão Spark clonada no DataFrame na função de usuário para foreachBatch sink no PySpark
- 18 de janeiro de 2023
- O conector Sinapse do Azure agora retorna uma mensagem de erro mais descritiva quando um nome de coluna contém caracteres inválidos, como espaços em branco ou ponto-e-vírgula. Nesses casos, a seguinte mensagem será retornada:
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace
. - [SPARK-41198][SS] Corrigir métricas em consulta de streaming com CTE e origem de streaming DSv1
- [SPARK-41862][SQL] Corrigir erro de precisão relacionado aos valores definidos por omissão no leitor Orc
- [SPARK-41539][SQL] Remapear estatísticas e restrições contra a saída no plano lógico para LogicalRDD
- [SPARK-41199][SS] Corrigir problema de métricas quando a fonte de streaming DSv1 e a fonte de streaming DSv2 são co-usadas.
- [SPARK-41339][SQL] Fechar e recriar o lote de gravação do RocksDB em vez de apenas limpar
- [SPARK-41732][SQL][SS] Aplicar poda baseada em padrão de árvore para a regra SessionWindowing
- [SPARK-38277][SS] Limpar o lote de escrita após a confirmação do armazenamento de estado do RocksDB
- Atualizações de segurança do sistema operacional.
- O conector Sinapse do Azure agora retorna uma mensagem de erro mais descritiva quando um nome de coluna contém caracteres inválidos, como espaços em branco ou ponto-e-vírgula. Nesses casos, a seguinte mensagem será retornada:
- 29 de novembro de 2022
- Os usuários podem configurar o comportamento dos espaços em branco à esquerda e à direita ao gravar dados usando o conector Redshift. As seguintes opções foram adicionadas para controlar o manuseio de espaços em branco:
-
csvignoreleadingwhitespace
, quando definido comotrue
, remove o espaço em branco à esquerda dos valores durante as gravações quandotempformat
está definido comoCSV
ouCSV GZIP
. Os espaços em branco são mantidos quando a configuração é definida comofalse
. Por predefinição, o valor étrue
. -
csvignoretrailingwhitespace
, quando definido comotrue
, remove o espaço em branco à direita dos valores durante as gravações quandotempformat
está definido comoCSV
ouCSV GZIP
. Os espaços em branco são mantidos quando a configuração é definida comofalse
. Por predefinição, o valor étrue
.
-
- Corrigido um bug com a análise JSON no Auto Loader quando todas as colunas eram deixadas como strings (
cloudFiles.inferColumnTypes
não estava definido ou definido comofalse
) e o JSON continha objetos aninhados. -
[SPARK-40906][SQL]
Mode
deve copiar as chaves antes de inserir no Map - Atualizações de segurança do sistema operacional.
- Os usuários podem configurar o comportamento dos espaços em branco à esquerda e à direita ao gravar dados usando o conector Redshift. As seguintes opções foram adicionadas para controlar o manuseio de espaços em branco:
- 15 de novembro de 2022
-
[SPARK-40646] O parsing JSON para structs, maps e arrays foi corrigido de modo que, quando uma parte de um registo não corresponde ao esquema, o restante do registo ainda pode ser analisado corretamente em vez de devolver nulos. Para optar pelo comportamento melhorado, defina
spark.sql.json.enablePartialResults
comotrue
. O sinalizador é desativado por padrão para preservar o comportamento original - [SPARK-40618][SQL] Corrigir bug na regra MergeScalarSubqueries com subconsultas aninhadas utilizando rastreamento de referência
- [SPARK-40697][SQL] Adicionar preenchimento de caracteres de leitura para suportar arquivos de dados externos
- Atualizações de segurança do sistema operacional.
-
[SPARK-40646] O parsing JSON para structs, maps e arrays foi corrigido de modo que, quando uma parte de um registo não corresponde ao esquema, o restante do registo ainda pode ser analisado corretamente em vez de devolver nulos. Para optar pelo comportamento melhorado, defina
- 1 de novembro de 2022
- Apache commons-text atualizado para 1.10.0.
- Corrigido um problema em que, se uma tabela Delta tivesse uma coluna definida pelo usuário chamada
_change_type
, mas o feed de dados Change estivesse desabilitado nessa tabela, os dados nessa coluna seriam preenchidos incorretamente com valores NULL durante a execuçãoMERGE
. - Corrigido um problema em que a execução
MERGE
e o uso de exatamente 99 colunas da fonte na condição podiam resultar emjava.lang.ClassCastException: org.apache.spark.sql.vectorized.ColumnarBatch cannot be cast to org.apache.spark.sql.catalyst.InternalRow
. - Corrigido um problema com o Auto Loader em que um ficheiro podia ser duplicado no mesmo microlote quando
allowOverwrites
estava ativado - [SPARK-40596][CORE] Preencher ExecutorDecommission com mensagens em ExecutorDecommissionInfo
- Atualizações de segurança do sistema operacional.
- 19 de outubro de 2022
- Corrigido um problema com o uso de COPY INTO com credenciais temporárias em clusters/armazéns habilitados para Unity Catalog.
- [FAÍSCA-40213][SQL] Suporta conversão de valor ASCII para caracteres latino-1
- Atualizações de segurança do sistema operacional.
- 5 de outubro de 2022
- Os usuários podem definir spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true") para reativar a listagem nativa do Auto Loader no ADLS. A listagem nativa foi desativada anteriormente devido a problemas de desempenho, mas pode ter levado a um aumento nos custos de armazenamento para os clientes. Esta alteração foi implementada para DBR 10.4 e 9.1 na atualização de manutenção anterior.
- [FAÍSCA-40315][SQL]Suporte URL encode/decode como função integrada e arrumar funções relacionadas a URLs.
-
[FAÍSCA-40156][SQL]
url_decode()
deveria retornar uma classe de erro - [SPARK-40169] Não aplique filtros Parquet sem referenciar o esquema de dados
-
[SPARK-40460][SS] Corrigir métricas de streaming ao selecionar
_metadata
- [SPARK-40468][SQL] Corrigir pruning de coluna em CSV quando _corrupt_record é selecionado
- [FAÍSCA-40055][SQL] listCatalogs também deve retornar spark_catalog mesmo quando a implementação de spark_catalog é defaultSessionCatalog
- Atualizações de segurança do sistema operacional.
- 22 de setembro de 2022
- [SPARK-40315][SQL] Adicionar hashCode() para Literal de ArrayBasedMapData
- [SPARK-40389][SQL] Os números decimais não podem ser convertidos para tipos integrais se a conversão puder transbordar
- [SPARK-40380][SQL] Corrigir a constant folding de InvokeLike para evitar literais não serializáveis incorporados no plano
- [FAÍSCA-40066][SQL][ACOMPANHAMENTO] Verifique se o ElementAt está resolvido antes de obter o seu tipo de dados
- [SPARK-40109][SQL] Nova função SQL: get()
- [SPARK-40066][SQL] Modo ANSI: sempre devolver null no acesso inválido à coluna do mapa
- [SPARK-40089][SQL] Corrigir a ordenação para alguns tipos decimais
- [SPARK-39887][SQL] RemoveRedundantAliases deve manter aliases que tornam a saída dos nós de projeção única
- [SPARK-40152][SQL] Corrigir problema de compilação de codegen em split_part
- [SPARK-40235][CORE] Use um bloqueio interruptível em vez de um bloqueio sincronizado em Executor.updateDependencies()
- [SPARK-40212][SQL] O SparkSQL castPartValue não manipula corretamente byte, inteiro curto ou float.
- [SPARK-40218][SQL] GROUPING SETS devem preservar as colunas de agrupamento
- [SPARK-35542][ML] Correção: Bucketizer criado com várias colunas e parâmetros
- [FAÍSCA-40079] Adicionar validação de inputCols do Imputer para casos de entradas vazias
- [SPARK-39912]SPARK-39828[SQL] Refinar CatalogImpl
Tempo de execução do Databricks 11.1 (EoS)
Consulte Databricks Runtime 11.1 (EoS).
31 de janeiro de 2023
- [SPARK-41379][SS][PYTHON] Fornecer sessão Spark clonada no DataFrame na função de usuário para foreachBatch sink no PySpark
- Correções de bugs diversos.
18 de janeiro de 2023
- O conector Sinapse do Azure agora retorna uma mensagem de erro mais descritiva quando um nome de coluna contém caracteres inválidos, como espaços em branco ou ponto-e-vírgula. Nesses casos, a seguinte mensagem será retornada:
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace
. - [SPARK-41198][SS] Corrigir métricas em consulta de streaming com CTE e origem de streaming DSv1
- [SPARK-41862][SQL] Corrigir erro de precisão relacionado aos valores definidos por omissão no leitor Orc
- [SPARK-41199][SS] Corrigir problema de métricas quando a fonte de streaming DSv1 e a fonte de streaming DSv2 são co-usadas.
- [SPARK-41339][SQL] Fechar e recriar o lote de gravação do RocksDB em vez de apenas limpar
- [SPARK-41732][SQL][SS] Aplicar poda baseada em padrão de árvore para a regra SessionWindowing
- [SPARK-38277][SS] Limpar o lote de escrita após a confirmação do armazenamento de estado do RocksDB
- Atualizações de segurança do sistema operacional.
- O conector Sinapse do Azure agora retorna uma mensagem de erro mais descritiva quando um nome de coluna contém caracteres inválidos, como espaços em branco ou ponto-e-vírgula. Nesses casos, a seguinte mensagem será retornada:
29 de novembro de 2022
- Os usuários podem configurar o comportamento dos espaços em branco à esquerda e à direita ao gravar dados usando o conector Redshift. As seguintes opções foram adicionadas para controlar o manuseio de espaços em branco:
-
csvignoreleadingwhitespace
, quando definido comotrue
, remove o espaço em branco à esquerda dos valores durante as gravações quandotempformat
está definido comoCSV
ouCSV GZIP
. Os espaços em branco são mantidos quando a configuração é definida comofalse
. Por predefinição, o valor étrue
. -
csvignoretrailingwhitespace
, quando definido comotrue
, remove o espaço em branco à direita dos valores durante as gravações quandotempformat
está definido comoCSV
ouCSV GZIP
. Os espaços em branco são mantidos quando a configuração é definida comofalse
. Por predefinição, o valor étrue
.
-
- Corrigido um bug com a análise JSON no Auto Loader quando todas as colunas eram deixadas como strings (
cloudFiles.inferColumnTypes
não estava definido ou definido comofalse
) e o JSON continha objetos aninhados. - [SPARK-39650][SS] Corrigir esquema incorreto de valores na desduplicação de streaming com compatibilidade com versões anteriores
- Atualizações de segurança do sistema operacional.
- Os usuários podem configurar o comportamento dos espaços em branco à esquerda e à direita ao gravar dados usando o conector Redshift. As seguintes opções foram adicionadas para controlar o manuseio de espaços em branco:
15 de novembro de 2022
-
[SPARK-40646] O processamento JSON para structs, maps e arrays foi corrigido, portanto, quando uma parte de um registo não corresponde ao esquema, o restante do registo ainda pode ser interpretado corretamente em vez de resultar em nulos. Para optar pelo comportamento melhorado, defina
spark.sql.json.enablePartialResults
comotrue
. O sinalizador é desativado por padrão para preservar o comportamento original - Atualizações de segurança do sistema operacional.
-
[SPARK-40646] O processamento JSON para structs, maps e arrays foi corrigido, portanto, quando uma parte de um registo não corresponde ao esquema, o restante do registo ainda pode ser interpretado corretamente em vez de resultar em nulos. Para optar pelo comportamento melhorado, defina
1 de novembro de 2022
- Apache commons-text atualizado para 1.10.0.
- Corrigido um problema em que, se uma tabela Delta tivesse uma coluna definida pelo usuário chamada
_change_type
, mas o feed de dados Change estivesse desabilitado nessa tabela, os dados nessa coluna seriam preenchidos incorretamente com valores NULL durante a execuçãoMERGE
. - Corrigido um problema em que a execução
MERGE
e o uso de exatamente 99 colunas da fonte na condição podiam resultar emjava.lang.ClassCastException: org.apache.spark.sql.vectorized.ColumnarBatch cannot be cast to org.apache.spark.sql.catalyst.InternalRow
. - Corrigido um problema com o Auto Loader em que um ficheiro podia ser duplicado no mesmo microlote quando
allowOverwrites
estava ativado - [SPARK-40697][SQL] Adicionar preenchimento de caracteres de leitura para suportar arquivos de dados externos
- [SPARK-40596][CORE] Preencher ExecutorDecommission com mensagens em ExecutorDecommissionInfo
- Atualizações de segurança do sistema operacional.
18 de outubro de 2022
- Corrigido um problema com o uso de COPY INTO com credenciais temporárias em clusters/armazéns habilitados para Unity Catalog.
- [FAÍSCA-40213][SQL] Suporta conversão de valor ASCII para caracteres latino-1
- Atualizações de segurança do sistema operacional.
5 de outubro de 2022
- Os usuários podem definir spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true") para reativar a listagem nativa do Auto Loader no ADLS. A listagem nativa foi desativada anteriormente devido a problemas de desempenho, mas pode ter levado a um aumento nos custos de armazenamento para os clientes. Esta alteração foi implementada para DBR 10.4 e 9.1 na atualização de manutenção anterior.
- [SPARK-40169] Não aplique filtros Parquet sem referenciar o esquema de dados
-
[SPARK-40460][SS] Corrigir métricas de streaming ao selecionar
_metadata
- [SPARK-40468][SQL] Corrigir pruning de coluna em CSV quando _corrupt_record é selecionado
- [FAÍSCA-40055][SQL] listCatalogs também deve retornar spark_catalog mesmo quando a implementação de spark_catalog é defaultSessionCatalog
- Atualizações de segurança do sistema operacional.
22 de setembro de 2022
- [SPARK-40315][SQL] Adicionar hashCode() para Literal de ArrayBasedMapData
- [SPARK-40380][SQL] Corrigir a constant folding de InvokeLike para evitar literais não serializáveis incorporados no plano
- [SPARK-40089][SQL] Corrigir a ordenação para alguns tipos decimais
- [SPARK-39887][SQL] RemoveRedundantAliases deve manter aliases que tornam a saída dos nós de projeção única
- [SPARK-40152][SQL] Corrigir problema de compilação de codegen em split_part
6 de setembro de 2022
- Atualizamos o modelo de permissão em Controles de Acesso à Tabela (ACLs de Tabela) para que somente as permissões MODIFY sejam necessárias para alterar o esquema ou as propriedades da tabela de uma tabela com ALTER TABLE. Anteriormente, essas operações exigiam que um usuário fosse o proprietário da tabela. A propriedade ainda é necessária para conceder permissões numa tabela, alterar o seu dono, mudar a sua localização ou renomeá-la. Essa alteração torna o modelo de permissão para ACLs de tabela mais consistente com o Catálogo Unity.
- [SPARK-40235][CORE] Use um bloqueio interruptível em vez de um bloqueio sincronizado em Executor.updateDependencies()
- [SPARK-40212][SQL] O SparkSQL castPartValue não manipula corretamente byte, inteiro curto ou float.
- [SPARK-40218][SQL] GROUPING SETS devem preservar as colunas de agrupamento
- [FAÍSCA-39976][SQL] O ArrayIntersect deve tratar corretamente o null na expressão à esquerda.
-
[FAÍSCA-40053][CORE][SQL][TESTES] Adicionar
assume
aos casos de cancelamento dinâmico que exigem um ambiente de execução Python - [SPARK-35542][CORE][ML] Correção: Bucketizer criado para várias colunas com parâmetros splitsArray, inputCols e outputCols não pode ser carregado após ser salvo
- [SPARK-40079][CORE] Adicionar validação de inputCols do Imputer para o caso de entrada vazio
24 de agosto de 2022
- Compartilhamentos, provedores e destinatários agora oferecem suporte a comandos SQL para alterar proprietários, comentar, renomear
- [SPARK-39983][CORE][SQL] Não guardar em cache relações de broadcasting não serializadas no driver
- [SPARK-39912][SPARK-39828][SQL] Refinar CatalogImpl
- [SPARK-39775][CORE][AVRO] Desativar a validação de valores predefinidos ao analisar esquemas Avro
- [FAÍSCA-39806] Corrigido o problema em consultas que acessam METADATA struct crash em tabelas particionadas
- [SPARK-39867][SQL] Global limit não deve herdar OrderPreservingUnaryNode
- [SPARK-39962][PYTHON][SQL] Aplicar projeção quando os atributos de grupo estiverem vazios
- [FAÍSCA-39839][SQL] Lidar com caso especial de Decimal de comprimento variável nulo com deslocamento e tamanho não-zero na verificação de integridade estrutural de UnsafeRow
- [SPARK-39713][SQL] Modo ANSI: sugerir a utilização de try_element_at para erro INVALID_ARRAY_INDEX
- [FAÍSCA-39847][SS] Corrija a condição de corrida em RocksDBLoader.loadLibrary() se o thread do chamador for interrompido
- [SPARK-39731][SQL] Corrigir problema em fontes de dados CSV e JSON ao analisar datas no formato "yyyyMMdd" com a política do analisador de tempo CORRECTED
- Atualizações de segurança do sistema operacional.
10 de agosto de 2022
- Para tabelas Delta com controle de acesso a tabelas, a evolução automática do esquema por meio de instruções DML como
INSERT
eMERGE
agora está disponível para todos os usuários que têmMODIFY
permissões nessas tabelas. Além disso, as permissões necessárias para executar a evolução do esquema comCOPY INTO
agora são reduzidas deOWNER
paraMODIFY
para manter a consistência com outros comandos. Essas alterações tornam o modelo de segurança da ACL da tabela mais consistente com o modelo de segurança do Unity Catalog, bem como com outras operações, como a substituição de uma tabela.
- [SPARK-39889] Melhorar a mensagem de erro de divisão por 0
- [SPARK-39795] [SQL] Nova função SQL: try_to_timestamp
- [SPARK-39749] Sempre use a representação simples da cadeia de caracteres ao converter decimal para cadeia de caracteres no modo ANSI
- [FAÍSCA-39625] Renomear df.as para df.to
- [SPARK-39787] [SQL] Use a classe de erro na análise do erro da função to_timestamp
- [SPARK-39625] [SQL] Adicionar Dataset.as(StructType)
- [SPARK-39689] Suporte para dois caracteres na fonte de dados CSV
- [SPARK-39579] [SQL][python][R] Tornar ListFunctions/getFunction/functionExists compatível com namespace de 3 camadas
- [SPARK-39702] [CORE] Reduza a sobrecarga de memória de TransportCipher$EncryptedMessage usando um byteRawChannel partilhado
- [SPARK-39575] [AVRO] adicionar ByteBuffer#rewind após ByteBuffer#get em AvroDeserializer
- [SPARK-39265] [SQL] Corrigir falha de teste quando SPARK_ANSI_SQL_MODE está ativado
- [FAÍSCA-39441] [SQL] Acelere a Desduplicação de Relações
- [SPARK-39497] [SQL] Melhorar a exceção de análise referente à ausência da coluna chave do mapa
- [SPARK-39476] [SQL] Desativar a otimização da conversão ao retirar encapsulamento ao converter de Long para Float/Double ou de Integer para Float
- [FAÍSCA-39434] [SQL] Fornecer contexto de consulta de erro de tempo de execução quando o índice de matriz estiver fora do limite
- Para tabelas Delta com controle de acesso a tabelas, a evolução automática do esquema por meio de instruções DML como
Databricks Runtime 11.0 (EoS)
Consulte Databricks Runtime 11.0 (EoS).
- 29 de novembro de 2022
- Os usuários podem configurar o comportamento dos espaços em branco à esquerda e à direita ao gravar dados usando o conector Redshift. As seguintes opções foram adicionadas para controlar o manuseio de espaços em branco:
-
csvignoreleadingwhitespace
, quando definido comotrue
, remove o espaço em branco à esquerda dos valores durante as gravações quandotempformat
está definido comoCSV
ouCSV GZIP
. Os espaços em branco são mantidos quando a configuração é definida comofalse
. Por predefinição, o valor étrue
. -
csvignoretrailingwhitespace
, quando definido comotrue
, remove o espaço em branco à direita dos valores durante as gravações quandotempformat
está definido comoCSV
ouCSV GZIP
. Os espaços em branco são mantidos quando a configuração é definida comofalse
. Por predefinição, o valor étrue
.
-
- Corrigido um bug com a análise JSON no Auto Loader quando todas as colunas eram deixadas como strings (
cloudFiles.inferColumnTypes
não estava definido ou definido comofalse
) e o JSON continha objetos aninhados. - [SPARK-39650][SS] Corrigir esquema incorreto de valores na desduplicação de streaming com compatibilidade com versões anteriores
- Atualizações de segurança do sistema operacional.
- Os usuários podem configurar o comportamento dos espaços em branco à esquerda e à direita ao gravar dados usando o conector Redshift. As seguintes opções foram adicionadas para controlar o manuseio de espaços em branco:
- 15 de novembro de 2022
-
[SPARK-40646] O parsing JSON para structs, maps e arrays foi corrigido de modo que, quando uma parte de um registo não corresponde ao esquema, o restante do registo ainda pode ser analisado corretamente em vez de devolver nulos. Para optar pelo comportamento melhorado, defina
spark.sql.json.enablePartialResults
comotrue
. O sinalizador é desativado por padrão para preservar o comportamento original.
-
[SPARK-40646] O parsing JSON para structs, maps e arrays foi corrigido de modo que, quando uma parte de um registo não corresponde ao esquema, o restante do registo ainda pode ser analisado corretamente em vez de devolver nulos. Para optar pelo comportamento melhorado, defina
- 1 de novembro de 2022
- Apache commons-text atualizado para 1.10.0.
- Corrigido um problema em que, se uma tabela Delta tivesse uma coluna definida pelo usuário chamada
_change_type
, mas o feed de dados Change estivesse desabilitado nessa tabela, os dados nessa coluna seriam preenchidos incorretamente com valores NULL durante a execuçãoMERGE
. - Corrigido um problema com o Auto Loader em que um ficheiro podia ser duplicado no mesmo microlote quando
allowOverwrites
estava ativado - [SPARK-40697][SQL] Adicionar preenchimento de caracteres de leitura para suportar arquivos de dados externos
- [SPARK-40596][CORE] Preencher ExecutorDecommission com mensagens em ExecutorDecommissionInfo
- Atualizações de segurança do sistema operacional.
- 18 de outubro de 2022
- [FAÍSCA-40213][SQL] Suporta conversão de valor ASCII para caracteres latino-1
- Atualizações de segurança do sistema operacional.
- 5 de outubro de 2022
- Os usuários podem definir spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true") para reativar a listagem nativa do Auto Loader no ADLS. A listagem nativa foi desativada anteriormente devido a problemas de desempenho, mas pode ter levado a um aumento nos custos de armazenamento para os clientes. Esta alteração foi implementada para DBR 10.4 e 9.1 na atualização de manutenção anterior.
- [SPARK-40169] Não aplique filtros Parquet sem referenciar o esquema de dados
-
[SPARK-40460][SS] Corrigir métricas de streaming ao selecionar
_metadata
- [SPARK-40468][SQL] Corrigir pruning de coluna em CSV quando _corrupt_record é selecionado
- Atualizações de segurança do sistema operacional.
- 22 de setembro de 2022
- [SPARK-40315][SQL] Adicionar hashCode() para Literal de ArrayBasedMapData
- [SPARK-40380][SQL] Corrigir a constant folding de InvokeLike para evitar literais não serializáveis incorporados no plano
- [SPARK-40089][SQL] Corrigir a ordenação para alguns tipos decimais
- [SPARK-39887][SQL] RemoveRedundantAliases deve manter aliases que tornam a saída dos nós de projeção única
- [SPARK-40152][SQL] Corrigir problema de compilação de codegen em split_part
- 6 de setembro de 2022
- [SPARK-40235][CORE] Use um bloqueio interruptível em vez de um bloqueio sincronizado em Executor.updateDependencies()
- [SPARK-40212][SQL] O SparkSQL castPartValue não manipula corretamente byte, inteiro curto ou float.
- [SPARK-40218][SQL] GROUPING SETS devem preservar as colunas de agrupamento
- [FAÍSCA-39976][SQL] O ArrayIntersect deve tratar corretamente o null na expressão à esquerda.
-
[FAÍSCA-40053][CORE][SQL][TESTES] Adicionar
assume
aos casos de cancelamento dinâmico que exigem um ambiente de execução Python - [SPARK-35542][CORE][ML] Correção: Bucketizer criado para várias colunas com parâmetros splitsArray, inputCols e outputCols não pode ser carregado após ser salvo
- [SPARK-40079][CORE] Adicionar validação de inputCols do Imputer para o caso de entrada vazio
- 24 de agosto de 2022
- [SPARK-39983][CORE][SQL] Não guardar em cache relações de broadcasting não serializadas no driver
- [SPARK-39775][CORE][AVRO] Desativar a validação de valores predefinidos ao analisar esquemas Avro
- [FAÍSCA-39806] Corrigido o problema em consultas que acessam METADATA struct crash em tabelas particionadas
- [SPARK-39867][SQL] Global limit não deve herdar OrderPreservingUnaryNode
- [SPARK-39962][PYTHON][SQL] Aplicar projeção quando os atributos de grupo estiverem vazios
- Atualizações de segurança do sistema operacional.
- 9 de agosto de 2022
- [SPARK-39713][SQL] Modo ANSI: sugerir a utilização de try_element_at para erro INVALID_ARRAY_INDEX
- [FAÍSCA-39847] Corrigir a condição de corrida em RocksDBLoader.loadLibrary() se o thread do chamador for interrompido
- [SPARK-39731][SQL] Corrigir problema em fontes de dados CSV e JSON ao analisar datas no formato "yyyyMMdd" com a política do analisador de tempo CORRECTED
- [SPARK-39889] Melhorar a mensagem de erro de divisão por 0
- [FAÍSCA-39795][SQL] Nova função SQL: try_to_timestamp
- [SPARK-39749] Sempre use a representação simples da cadeia de caracteres ao converter decimal para cadeia de caracteres no modo ANSI
- [SPARK-39625][SQL] Adicionar Dataset.to(StructType)
- [SPARK-39787][SQL] Use a classe de erro no erro de análise sintática da função to_timestamp
- Atualizações de segurança do sistema operacional.
- 27 de julho de 2022
- [SPARK-39689] Suporte para 2 caracteres na origem de dados CSV
- [SPARK-39104][SQL] InMemoryRelation#isCachedColumnBuffersLoaded deve ser thread-safe
- [SPARK-39702][CORE] Reduzir a sobrecarga de memória de TransportCipher$EncryptedMessage ao usar um byteRawChannel partilhado
- [SPARK-39575][AVRO] adicionar ByteBuffer#rewind após ByteBuffer#get em AvroDeserializer
- [SPARK-39497][SQL] Melhorar a mensagem de exceção na análise da ausência da coluna de chave de mapa
- [SPARK-39441][SQL] Acelerar a Remoção de Duplicações em Relações
- [SPARK-39476][SQL] Desativar a otimização de Unwrap cast ao converter de Long para Float/Double ou de Integer para Float
- [SPARK-39434][SQL] Fornecer contexto de consulta de erro de execução quando o índice da matriz estiver fora dos limites permitidos
- [SPARK-39570][SQL] A tabela inline deve permitir expressões com alias
- Atualizações de segurança do sistema operacional.
- 13 de julho de 2022
- Torne os resultados da operação Delta MERGE consistentes quando a origem não for determinística.
- Corrigimos um problema no TVF cloud_files_state ao ser executado em caminhos que não são DBFS.
- Desabilitado o uso do Auto Loader de APIs de nuvem nativas para listagem de diretórios no Azure.
- [SPARK-38796][SQL] Atualizar as funções to_number e try_to_number para permitir PR com números positivos.
- [SPARK-39272][SQL] Aumentar a posição inicial do contexto de consulta em 1
- [SPARK-39419][SQL] Corrigir ArraySort para lançar uma exceção quando o comparador retornar null
- Atualizações de segurança do sistema operacional.
- 5 de julho de 2022
- Melhoria nas mensagens de erro para uma variedade de classes de erro.
- [FAÍSCA-39451][SQL] Suporte à conversão de intervalos para tipos integrais no modo ANSI
- [FAÍSCA-39361] Não use o padrão de conversão throwable estendido do Log4J2 nas configurações de log padrão
-
[SPARK-39354][SQL] Certifique-se de mostrar
Table or view not found
mesmo que existamdataTypeMismatchError
relacionados comFilter
ao mesmo tempo - [SPARK-38675][CORE] Corrigir condição de corrida durante o desbloqueio no BlockInfoManager
- [SPARK-39392][SQL] Refinar mensagens de erro ANSI para sugestões da função try_*
- [SPARK-39214][SQL][3.3] Melhorar os erros relacionados ao CAST
- [SPARK-37939][SQL] Usar classes de erro na interpretação dos erros de propriedades
-
[FAÍSCA-39085][SQL] Mova a mensagem de erro de
INCONSISTENT_BEHAVIOR_CROSS_VERSION
para error-classes.json - [SPARK-39376][SQL] Ocultar colunas duplicadas na expansão 'star' do alias de subconsulta de NATURAL/USING JOIN
- [SPARK-39283][CORE] Corrige impasse entre TaskMemoryManager e UnsafeExternalSorter.SpillableIterator
- [FAÍSCA-39285][SQL] O Spark não deve verificar nomes de campos ao ler ficheiros
- Atualizações de segurança do sistema operacional.
Tempo de execução do Databricks 10.5 (EoS)
Consulte Databricks Runtime 10.5 (EoS).
- 1 de novembro de 2022
- Corrigido um problema em que, se uma tabela Delta tivesse uma coluna definida pelo usuário chamada
_change_type
, mas o feed de dados Change estivesse desabilitado nessa tabela, os dados nessa coluna seriam preenchidos incorretamente com valores NULL durante a execuçãoMERGE
. - [SPARK-40697][SQL] Adicionar preenchimento de caracteres de leitura para suportar arquivos de dados externos
- [SPARK-40596][CORE] Preencher ExecutorDecommission com mensagens em ExecutorDecommissionInfo
- Atualizações de segurança do sistema operacional.
- Corrigido um problema em que, se uma tabela Delta tivesse uma coluna definida pelo usuário chamada
- 18 de outubro de 2022
- Atualizações de segurança do sistema operacional.
- 5 de outubro de 2022
- Os usuários podem definir spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true") para reativar a listagem nativa do Auto Loader no ADLS. A listagem nativa foi desativada anteriormente devido a problemas de desempenho, mas pode ter levado a um aumento nos custos de armazenamento para os clientes. Esta alteração foi implementada para DBR 10.4 e 9.1 na atualização de manutenção anterior.
- reload4j foi atualizado para 1.2.19 para corrigir vulnerabilidades.
-
[SPARK-40460][SS] Corrigir métricas de streaming ao selecionar
_metadata
- [SPARK-40468][SQL] Corrigir pruning de coluna em CSV quando _corrupt_record é selecionado
- Atualizações de segurança do sistema operacional.
- 22 de setembro de 2022
- [SPARK-40315][SQL] Adicionar hashCode() para Literal de ArrayBasedMapData
- [FAÍSCA-40213][SQL] Suporta conversão de valor ASCII para caracteres latino-1
- [SPARK-40380][SQL] Corrigir a constant folding de InvokeLike para evitar literais não serializáveis incorporados no plano
- [SPARK-38404][SQL] Melhorar a resolução de CTE quando uma CTE aninhada faz referência a uma CTE externa
- [SPARK-40089][SQL] Corrigir a ordenação para alguns tipos decimais
- [SPARK-39887][SQL] RemoveRedundantAliases deve manter aliases que tornam a saída dos nós de projeção única
- Atualizações de segurança do sistema operacional.
- 6 de setembro de 2022
- [SPARK-40235][CORE] Use um bloqueio interruptível em vez de um bloqueio sincronizado em Executor.updateDependencies()
- [FAÍSCA-39976][SQL] O ArrayIntersect deve tratar corretamente o null na expressão à esquerda.
-
[FAÍSCA-40053][CORE][SQL][TESTES] Adicionar
assume
aos casos de cancelamento dinâmico que exigem um ambiente de execução Python - [SPARK-35542][CORE][ML] Correção: Bucketizer criado para várias colunas com parâmetros splitsArray, inputCols e outputCols não pode ser carregado após ser salvo
- [SPARK-40079][CORE] Adicionar validação de inputCols do Imputer para o caso de entrada vazio
- 24 de agosto de 2022
- [SPARK-39983][CORE][SQL] Não guardar em cache relações de broadcasting não serializadas no driver
- [SPARK-39775][CORE][AVRO] Desativar a validação de valores predefinidos ao analisar esquemas Avro
- [FAÍSCA-39806] Corrigido o problema em consultas que acessam METADATA struct crash em tabelas particionadas
- [SPARK-39962][PYTHON][SQL] Aplicar projeção quando os atributos de grupo estiverem vazios
- [FAÍSCA-37643][SQL] quando charVarcharAsString é true, para consulta de predicado de tipo de dados char deve ignorar a regra rpadding
- Atualizações de segurança do sistema operacional.
- 9 de agosto de 2022
- [FAÍSCA-39847] Corrigir a condição de corrida em RocksDBLoader.loadLibrary() se o thread do chamador for interrompido
- [SPARK-39731][SQL] Corrigir problema em fontes de dados CSV e JSON ao analisar datas no formato "yyyyMMdd" com a política do analisador de tempo CORRECTED
- Atualizações de segurança do sistema operacional.
- 27 de julho de 2022
- [SPARK-39625][SQL] Adicionar Dataset.as(StructType)
- [SPARK-39689] Suporte para 2 caracteres na origem de dados CSV
- [SPARK-39104][SQL] InMemoryRelation#isCachedColumnBuffersLoaded deve ser thread-safe
- [SPARK-39570][SQL] A tabela inline deve permitir expressões com alias
- [SPARK-39702][CORE] Reduzir a sobrecarga de memória de TransportCipher$EncryptedMessage ao usar um byteRawChannel partilhado
- [SPARK-39575][AVRO] adicionar ByteBuffer#rewind após ByteBuffer#get em AvroDeserializer
- [SPARK-39476][SQL] Desativar a otimização de Unwrap cast ao converter de Long para Float/Double ou de Integer para Float
- Atualizações de segurança do sistema operacional.
- 13 de julho de 2022
- Torne os resultados da operação Delta MERGE consistentes quando a origem não for determinística.
- [FAÍSCA-39355][SQL] Uma única coluna usa aspas para construir UnresolvedAttribute
- [SPARK-39548][SQL] O comando CreateView com uma consulta que inclui uma cláusula de janela enfrentou um problema de definição de janela incorreta não encontrada.
- [SPARK-39419][SQL] Corrigir ArraySort para lançar uma exceção quando o comparador retornar null
- Desabilitado o uso do Auto Loader de APIs de nuvem nativas para listagem de diretórios no Azure.
- Atualizações de segurança do sistema operacional.
- 5 de julho de 2022
- [SPARK-39376][SQL] Ocultar colunas duplicadas na expansão 'star' do alias de subconsulta de NATURAL/USING JOIN
- Atualizações de segurança do sistema operacional.
- 15 de junho de 2022
- [SPARK-39283][CORE] Corrige impasse entre TaskMemoryManager e UnsafeExternalSorter.SpillableIterator
- [FAÍSCA-39285][SQL] O Spark não deve verificar nomes de campos ao ler ficheiros
- [SPARK-34096][SQL] Melhorar o desempenho para nth_value a ignorar nulos sobre a janela de deslocamento
-
[FAÍSCA-36718][SQL][ACOMPANHAMENTO] Corrigir a
isExtractOnly
verificação em CollapseProject
- 2 de junho de 2022
- [FAÍSCA-39166][SQL] Proporcionar contexto de consulta para erros em aritmética binária durante o tempo de execução quando o WSCG está desativado
- [SPARK-39093][SQL] Evitar erro de compilação de codegen ao dividir intervalos de ano-mês ou dia-tempo por um valor inteiro
- [FAÍSCA-38990][SQL] Evite NullPointerException ao avaliar o formato de date_trunc/trunc como uma referência vinculada
- Atualizações de segurança do sistema operacional.
- 18 de maio de 2022
- Corrige uma possível fuga de memória nativa no Auto Loader.
- [SPARK-38868][SQL]Não propague exceções do predicado do filtro ao otimizar junções externas
- [SPARK-38796][SQL] Implementar as funções to_number e try_to_number SQL de acordo com uma nova especificação
- [SPARK-38918][SQL] A seleção de colunas aninhadas deve filtrar atributos que não pertencem à relação atual.
- [SPARK-38929][SQL] Melhorar mensagens de erro para falhas de conversão de tipos no ANSI
- [SPARK-38926][SQL] Tipos de saída nas mensagens de erro em estilo SQL
- [SPARK-39084][PYSPARK] Corrigir df.rdd.isEmpty() usando TaskContext para parar o iterador quando a tarefa for concluída
- [SPARK-32268][SQL] Adicionar ColumnPruning em injectBloomFilter
- [SPARK-38908][SQL] Fornecer contexto de consulta no erro de tempo de execução da conversão de String para Número/Data/Timestamp/Boolean
- [SPARK-39046][SQL] Retornar uma string de contexto vazia se TreeNode.origin estiver definido incorretamente
- [SPARK-38974][SQL] Filtrar funções registadas com um determinado nome de banco de dados na lista de funções
- [SPARK-38762][SQL] Fornecer contexto de consulta em erros de transbordo de decimais
- [SPARK-38931][SS] Crie diretório dfs raiz para RocksDBFileManager com número desconhecido de chaves no 1º ponto de verificação
- [SPARK-38992][CORE] Evite usar bash -c em ShellBasedGroupsMappingProvider
- [SPARK-38716][SQL] Fornecer contexto de consulta em erro de chave não existente no mapa
- [SPARK-38889][SQL] Compilar filtros de coluna de valores booleanos para usar o tipo bit para a fonte de dados MSSQL
- [SPARK-38698][SQL] Fornecer contexto de consulta no erro de tempo de execução de Divide/Div/Reminder/Pmod
-
[SPARK-38823][SQL] Tornar
NewInstance
não flexível para corrigir o problema de corrupção do buffer de agregação - [SPARK-38809][SS] Implementar opção para ignorar valores nulos na implementação de hash simétrico de junções entre fluxos
- [SPARK-38676][SQL] Fornecer contexto de consulta SQL na mensagem de erro de tempo de execução de Add/Subtract/Multiply
- [SPARK-38677][PYSPARK] O MonitorThread do Python deve detetar deadlock devido ao bloqueio de E/S
- Atualizações de segurança do sistema operacional.
Tempo de execução do Databricks 10.3 (EoS)
Consulte Databricks Runtime 10.3 (EoS).
- 27 de julho de 2022
- [SPARK-39689] Suporte para 2 caracteres na origem de dados CSV
- [SPARK-39104][SQL] InMemoryRelation#isCachedColumnBuffersLoaded deve ser thread-safe
- [SPARK-39702][CORE] Reduzir a sobrecarga de memória de TransportCipher$EncryptedMessage ao usar um byteRawChannel partilhado
- Atualizações de segurança do sistema operacional.
- 20 de julho de 2022
- Torne os resultados da operação Delta MERGE consistentes quando a origem não for determinística.
- [SPARK-39476][SQL] Desativar a otimização de Unwrap cast ao converter de Long para Float/Double ou de Integer para Float
- [SPARK-39548][SQL] O comando CreateView com uma consulta que inclui uma cláusula de janela enfrentou um problema de definição de janela incorreta não encontrada.
- [SPARK-39419][SQL] Corrigir ArraySort para lançar uma exceção quando o comparador retornar null
- Atualizações de segurança do sistema operacional.
- 5 de julho de 2022
- [SPARK-39376][SQL] Ocultar colunas duplicadas na expansão 'star' do alias de subconsulta de NATURAL/USING JOIN
- Atualizações de segurança do sistema operacional.
- 15 de junho de 2022
- [SPARK-39283][CORE] Corrige impasse entre TaskMemoryManager e UnsafeExternalSorter.SpillableIterator
- [FAÍSCA-39285][SQL] O Spark não deve verificar nomes de campos ao ler ficheiros
- [SPARK-34096][SQL] Melhorar o desempenho para nth_value a ignorar nulos sobre a janela de deslocamento
-
[FAÍSCA-36718][SQL][ACOMPANHAMENTO] Corrigir a
isExtractOnly
verificação em CollapseProject
- 2 de junho de 2022
- [FAÍSCA-38990][SQL] Evite NullPointerException ao avaliar o formato de date_trunc/trunc como uma referência vinculada
- Atualizações de segurança do sistema operacional.
- 18 de maio de 2022
- Corrige uma possível fuga de memória nativa no Auto Loader.
- [SPARK-38918][SQL] A seleção de colunas aninhadas deve filtrar atributos que não pertencem à relação atual.
- [SPARK-37593][CORE] Reduza o tamanho de página predefinido por LONG_ARRAY_OFFSET se G1GC e ON_HEAP forem usados
- [SPARK-39084][PYSPARK] Corrigir df.rdd.isEmpty() usando TaskContext para parar o iterador quando a tarefa for concluída
- [SPARK-32268][SQL] Adicionar ColumnPruning em injectBloomFilter
- [SPARK-38974][SQL] Filtrar funções registadas com um determinado nome de banco de dados na lista de funções
- [SPARK-38889][SQL] Compilar filtros de coluna de valores booleanos para usar o tipo bit para a fonte de dados MSSQL
- Atualizações de segurança do sistema operacional.
- 4 de maio de 2022
- Java AWS SDK atualizado da versão 1.11.655 para 1.12.1899.
- 19 de abril de 2022
- [SPARK-38616][SQL] Manter o texto da consulta SQL no TreeNode Catalyst
- Atualizações de segurança do sistema operacional.
- 6 de abril de 2022
- [FAÍSCA-38631][CORE] Usa implementação baseada em Java para extrair tar em Utils.unpack
- Atualizações de segurança do sistema operacional.
- 22 de março de 2022
- Alterado o diretório de trabalho atual dos notebooks em clusters de Alta Concurrência com controle de acesso a tabelas ou passagem de credenciais ativado para o diretório pessoal do usuário. Anteriormente, o diretório de trabalho era
/databricks/driver
. - [FAÍSCA-38437][SQL] Serialização leniente de data e hora da fonte de dados
- [SPARK-38180][SQL] Permitir expressões de up-cast seguras em predicados de igualdade correlacionados
- [SPARK-38155][SQL] Proibir agregação distinta em subconsultas laterais com predicados sem suporte
- [SPARK-38325][SQL] Modo ANSI: evitar possíveis erros de tempo de execução em HashJoin.extractKeyExprAt()
- Alterado o diretório de trabalho atual dos notebooks em clusters de Alta Concurrência com controle de acesso a tabelas ou passagem de credenciais ativado para o diretório pessoal do usuário. Anteriormente, o diretório de trabalho era
- 14 de março de 2022
- Melhoria na deteção de conflitos em transações vazias no Delta Lake.
- [SPARK-38185][SQL] Corrigir dados incorretos se a função agregada estiver vazia
- [SPARK-38318] Regressão [SQL] ao substituir uma vista de conjunto de dados
- [SPARK-38236][SQL] Os caminhos de ficheiro absolutos especificados em criar/alterar tabela são tratados como relativos
- [SPARK-35937][SQL] A extração do campo de data do timestamp deve funcionar no modo ANSI
-
[SPARK-34069][SQL] Tarefas de barreira de encerramento devem respeitar
SPARK_JOB_INTERRUPT_ON_CANCEL
- [SPARK-37707][SQL] Permitir atribuição de valores entre TimestampNTZ e Date/Timestamp
- 23 de fevereiro de 2022
- [SPARK-27442][SQL] Remover a verificação do nome do campo ao ler e gravar dados no Parquet
Tempo de execução do Databricks 10.2 (EoS)
Consulte Databricks Runtime 10.2 (EoS).
- 15 de junho de 2022
- [SPARK-39283][CORE] Corrige impasse entre TaskMemoryManager e UnsafeExternalSorter.SpillableIterator
- [FAÍSCA-39285][SQL] O Spark não deve verificar nomes de campos ao ler ficheiros
- [SPARK-34096][SQL] Melhorar o desempenho para nth_value a ignorar nulos sobre a janela de deslocamento
- 2 de junho de 2022
- [SPARK-38918][SQL] A seleção de colunas aninhadas deve filtrar atributos que não pertencem à relação atual.
- [FAÍSCA-38990][SQL] Evite NullPointerException ao avaliar o formato de date_trunc/trunc como uma referência vinculada
- Atualizações de segurança do sistema operacional.
- 18 de maio de 2022
- Corrige uma possível fuga de memória nativa no Auto Loader.
- [SPARK-39084][PYSPARK] Corrigir df.rdd.isEmpty() usando TaskContext para parar o iterador quando a tarefa for concluída
- [SPARK-38889][SQL] Compilar filtros de coluna de valores booleanos para usar o tipo bit para a fonte de dados MSSQL
- [SPARK-38931][SS] Crie diretório dfs raiz para RocksDBFileManager com número desconhecido de chaves no 1º ponto de verificação
- Atualizações de segurança do sistema operacional.
- 4 de maio de 2022
- Java AWS SDK atualizado da versão 1.11.655 para 1.12.1899.
- 19 de abril de 2022
- Atualizações de segurança do sistema operacional.
- Correções de bugs diversos.
- 6 de abril de 2022
- [FAÍSCA-38631][CORE] Usa implementação baseada em Java para extrair tar em Utils.unpack
- Atualizações de segurança do sistema operacional.
- 22 de março de 2022
- Alterado o diretório de trabalho atual dos notebooks em clusters de Alta Concurrência com controle de acesso a tabelas ou passagem de credenciais ativado para o diretório pessoal do usuário. Anteriormente, o diretório de trabalho era
/databricks/driver
. - [FAÍSCA-38437][SQL] Serialização leniente de data e hora da fonte de dados
- [SPARK-38180][SQL] Permitir expressões de up-cast seguras em predicados de igualdade correlacionados
- [SPARK-38155][SQL] Proibir agregação distinta em subconsultas laterais com predicados sem suporte
- [SPARK-38325][SQL] Modo ANSI: evitar possíveis erros de tempo de execução em HashJoin.extractKeyExprAt()
- Alterado o diretório de trabalho atual dos notebooks em clusters de Alta Concurrência com controle de acesso a tabelas ou passagem de credenciais ativado para o diretório pessoal do usuário. Anteriormente, o diretório de trabalho era
- 14 de março de 2022
- Melhoria na deteção de conflitos em transações vazias no Delta Lake.
- [SPARK-38185][SQL] Corrigir dados incorretos se a função agregada estiver vazia
- [SPARK-38318] Regressão [SQL] ao substituir uma vista de conjunto de dados
- [SPARK-38236][SQL] Os caminhos de ficheiro absolutos especificados em criar/alterar tabela são tratados como relativos
- [SPARK-35937][SQL] A extração do campo de data do timestamp deve funcionar no modo ANSI
-
[SPARK-34069][SQL] Tarefas de barreira de encerramento devem respeitar
SPARK_JOB_INTERRUPT_ON_CANCEL
- [SPARK-37707][SQL] Permitir atribuição de valores entre TimestampNTZ e Date/Timestamp
- 23 de fevereiro de 2022
- [SPARK-37577][SQL] Corrigir ClassCastException: ArrayType não pode ser convertido para StructType relacionado a Generate Pruning
- 8 de fevereiro de 2022
- [FAÍSCA-27442][SQL] Remova o nome do campo de verificação ao ler/gravar dados no parquet.
- Atualizações de segurança do sistema operacional.
- 1 de fevereiro de 2022
- Atualizações de segurança do sistema operacional.
- 26 de janeiro de 2022
- Corrigido um erro em que transações simultâneas em tabelas Delta podiam ser tornadas numa ordem não serializável sob certas situações raras.
- Corrigido um bug em que o comando OPTIMIZE podia falhar quando o dialeto ANSI SQL estava habilitado.
- 19 de janeiro de 2022
- Introduzido suporte para inserir credenciais temporárias no COPY INTO para carregar os dados de origem sem exigir permissões de ANY_FILE SQL
- Correções de bugs e melhorias de segurança.
- 20 de dezembro de 2021
- Corrigido um bug raro na filtragem com base no índice de coluna do Parquet.
Tempo de execução do Databricks 10.1 (EoS)
Consulte Databricks Runtime 10.1 (EoS).
- 15 de junho de 2022
- [SPARK-39283][CORE] Corrige impasse entre TaskMemoryManager e UnsafeExternalSorter.SpillableIterator
- [FAÍSCA-39285][SQL] O Spark não deve verificar nomes de campos ao ler ficheiros
- [SPARK-34096][SQL] Melhorar o desempenho para nth_value a ignorar nulos sobre a janela de deslocamento
- 2 de junho de 2022
- Atualizações de segurança do sistema operacional.
- 18 de maio de 2022
- Corrige uma possível fuga de memória nativa no Auto Loader.
- [SPARK-39084][PYSPARK] Corrigir df.rdd.isEmpty() usando TaskContext para parar o iterador quando a tarefa for concluída
- [SPARK-38889][SQL] Compilar filtros de coluna de valores booleanos para usar o tipo bit para a fonte de dados MSSQL
- Atualizações de segurança do sistema operacional.
- 19 de abril de 2022
- [SPARK-37270][SQL] Corrigir a inserção de foldable nas ramificações do CaseWhen se elseValue estiver vazio
- Atualizações de segurança do sistema operacional.
- 6 de abril de 2022
- [FAÍSCA-38631][CORE] Usa implementação baseada em Java para extrair tar em Utils.unpack
- Atualizações de segurança do sistema operacional.
- 22 de março de 2022
- [FAÍSCA-38437][SQL] Serialização leniente de data e hora da fonte de dados
- [SPARK-38180][SQL] Permitir expressões de up-cast seguras em predicados de igualdade correlacionados
- [SPARK-38155][SQL] Proibir agregação distinta em subconsultas laterais com predicados sem suporte
- [SPARK-38325][SQL] Modo ANSI: evitar possíveis erros de tempo de execução em HashJoin.extractKeyExprAt()
- 14 de março de 2022
- Melhoria na deteção de conflitos em transações vazias no Delta Lake.
- [SPARK-38185][SQL] Corrigir dados incorretos se a função agregada estiver vazia
- [SPARK-38318] Regressão [SQL] ao substituir uma vista de conjunto de dados
- [SPARK-38236][SQL] Os caminhos de ficheiro absolutos especificados em criar/alterar tabela são tratados como relativos
- [SPARK-35937][SQL] A extração do campo de data do timestamp deve funcionar no modo ANSI
-
[SPARK-34069][SQL] Tarefas de barreira de encerramento devem respeitar
SPARK_JOB_INTERRUPT_ON_CANCEL
- [SPARK-37707][SQL] Permitir atribuição de valores entre TimestampNTZ e Date/Timestamp
- 23 de fevereiro de 2022
- [SPARK-37577][SQL] Corrigir ClassCastException: ArrayType não pode ser convertido para StructType relacionado a Generate Pruning
- 8 de fevereiro de 2022
- [FAÍSCA-27442][SQL] Remova o nome do campo de verificação ao ler/gravar dados no parquet.
- Atualizações de segurança do sistema operacional.
- 1 de fevereiro de 2022
- Atualizações de segurança do sistema operacional.
- 26 de janeiro de 2022
- Corrigido um erro em que transações simultâneas em tabelas Delta podiam ser tornadas numa ordem não serializável sob certas situações raras.
- Corrigido um bug em que o comando OPTIMIZE podia falhar quando o dialeto ANSI SQL estava habilitado.
- 19 de janeiro de 2022
- Introduzido suporte para inserir credenciais temporárias no COPY INTO para carregar os dados de origem sem exigir permissões de ANY_FILE SQL
- Corrigido um problema de esgotamento de memória com o armazenamento em cache dos resultados da consulta sob determinadas condições.
- Corrigiu-se um problema com
USE DATABASE
quando um utilizador alterna o catálogo atual para um catálogo não padrão. - Correções de bugs e melhorias de segurança.
- Atualizações de segurança do sistema operacional.
- 20 de dezembro de 2021
- Corrigido um bug raro na filtragem com base no índice de coluna do Parquet.
Tempo de execução do Databricks 10.0 (EoS)
Consulte Databricks Runtime 10.0 (EoS).
- 19 de abril de 2022
- [SPARK-37270][SQL] Corrigir a inserção de foldable nas ramificações do CaseWhen se elseValue estiver vazio
- Atualizações de segurança do sistema operacional.
- 6 de abril de 2022
- [FAÍSCA-38631][CORE] Usa implementação baseada em Java para extrair tar em Utils.unpack
- Atualizações de segurança do sistema operacional.
- 22 de março de 2022
- [FAÍSCA-38437][SQL] Serialização leniente de data e hora da fonte de dados
- [SPARK-38180][SQL] Permitir expressões de up-cast seguras em predicados de igualdade correlacionados
- [SPARK-38155][SQL] Proibir agregação distinta em subconsultas laterais com predicados sem suporte
- [SPARK-38325][SQL] Modo ANSI: evitar possíveis erros de tempo de execução em HashJoin.extractKeyExprAt()
- 14 de março de 2022
- Melhoria na deteção de conflitos em transações vazias no Delta Lake.
- [SPARK-38185][SQL] Corrigir dados incorretos se a função agregada estiver vazia
- [SPARK-38318] Regressão [SQL] ao substituir uma vista de conjunto de dados
- [SPARK-38236][SQL] Os caminhos de ficheiro absolutos especificados em criar/alterar tabela são tratados como relativos
- [SPARK-35937][SQL] A extração do campo de data do timestamp deve funcionar no modo ANSI
-
[SPARK-34069][SQL] Tarefas de barreira de encerramento devem respeitar
SPARK_JOB_INTERRUPT_ON_CANCEL
- [SPARK-37707][SQL] Permitir atribuição de valores entre TimestampNTZ e Date/Timestamp
- 23 de fevereiro de 2022
- [SPARK-37577][SQL] Corrigir ClassCastException: ArrayType não pode ser convertido para StructType relacionado a Generate Pruning
- 8 de fevereiro de 2022
- [FAÍSCA-27442][SQL] Remova o nome do campo de verificação ao ler/gravar dados no parquet.
- [SPARK-36905][SQL] Corrigir a leitura de vistas Hive sem nomes de colunas explícitos
- [SPARK-37859][SQL] Corrigir o problema de que as tabelas SQL criadas com JDBC no Spark 3.1 não são legíveis no Spark 3.2
- Atualizações de segurança do sistema operacional.
- 1 de fevereiro de 2022
- Atualizações de segurança do sistema operacional.
- 26 de janeiro de 2022
- Corrigido um erro em que transações simultâneas em tabelas Delta podiam ser tornadas numa ordem não serializável sob certas situações raras.
- Corrigido um bug em que o comando OPTIMIZE podia falhar quando o dialeto ANSI SQL estava habilitado.
- 19 de janeiro de 2022
- Correções de bugs e melhorias de segurança.
- Atualizações de segurança do sistema operacional.
- 20 de dezembro de 2021
- Corrigido um bug raro na filtragem com base no índice de coluna do Parquet.
- 9 de novembro de 2021
- Introduziu sinalizadores de configuração adicionais para permitir o controle refinado de comportamentos ANSI.
- 4 de novembro de 2021
- Corrigido um bug que poderia fazer com que os fluxos de streaming estruturado falhassem com um ArrayIndexOutOfBoundsException
- Foi corrigida uma condição de corrida que poderia provocar uma falha de consulta com um IOException como
java.io.IOException: No FileSystem for scheme
, ou que poderia impedir que as modificações emsparkContext.hadoopConfiguration
surtissem efeito nas consultas. - O Apache Spark Connector for Delta Sharing foi atualizado para 0.2.0.
- 30 de novembro de 2021
- Corrigido um problema com a análise de timestamp em que uma cadeia de caracteres de fuso horário sem dois pontos era considerada inválida.
- Corrigido um problema de esgotamento de memória com o armazenamento em cache dos resultados da consulta sob determinadas condições.
- Corrigiu-se um problema com
USE DATABASE
quando um utilizador alterna o catálogo atual para um catálogo não padrão.
Tempo de execução do Databricks 9.0 (EoS)
Consulte Databricks Runtime 9.0 (EoS).
- 8 de fevereiro de 2022
- Atualizações de segurança do sistema operacional.
- 1 de fevereiro de 2022
- Atualizações de segurança do sistema operacional.
- 26 de janeiro de 2022
- Corrigido um bug em que o comando OPTIMIZE podia falhar quando o dialeto ANSI SQL estava habilitado.
- 19 de janeiro de 2022
- Correções de bugs e melhorias de segurança.
- Atualizações de segurança do sistema operacional.
- 4 de novembro de 2021
- Corrigido um bug que poderia fazer com que os fluxos de streaming estruturado falhassem com um ArrayIndexOutOfBoundsException
- Foi corrigida uma condição de corrida que poderia provocar uma falha de consulta com um IOException como
java.io.IOException: No FileSystem for scheme
, ou que poderia impedir que as modificações emsparkContext.hadoopConfiguration
surtissem efeito nas consultas. - O Apache Spark Connector for Delta Sharing foi atualizado para 0.2.0.
- 22 de setembro de 2021
- Corrigido um bug na conversão de array do Spark com valor nulo para string
- 15 de setembro de 2021
- Corrigida uma condição de concorrência que poderia causar uma falha de consulta com um IOException como
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
.
- Corrigida uma condição de concorrência que poderia causar uma falha de consulta com um IOException como
- 8 de setembro de 2021
- Adicionado suporte para o nome do esquema no formato
databaseName.schemaName.tableName
como o nome da tabela alvo para o Azure Synapse Connector. - Adicionado suporte a tipos JDBC de geometria e geografia para Spark SQL.
- [SPARK-33527][SQL] Ampliou a função de decode para ser consistente com os bancos de dados convencionais.
-
[SPARK-36532][CORE][3.1] Deadlock
CoarseGrainedExecutorBackend.onDisconnected
corrigido para evitarexecutorsconnected
e prevenir a suspensão do desligamento do executor.
- Adicionado suporte para o nome do esquema no formato
- 25 de agosto de 2021
- A biblioteca de drivers do SQL Server foi atualizada para 9.2.1.jre8.
- O conector Snowflake foi atualizado para 2.9.0.
- Corrigido link quebrado para o melhor caderno de teste na página de experimentos AutoML.
Tempo de execução do Databricks 8.4 (EoS)
Consulte Databricks Runtime 8.4 (EoS).
19 de janeiro de 2022
- Atualizações de segurança do sistema operacional.
4 de novembro de 2021
- Corrigido um bug que poderia fazer com que os fluxos de streaming estruturado falhassem com um ArrayIndexOutOfBoundsException
- Foi corrigida uma condição de corrida que poderia provocar uma falha de consulta com um IOException como
java.io.IOException: No FileSystem for scheme
, ou que poderia impedir que as modificações emsparkContext.hadoopConfiguration
surtissem efeito nas consultas. - O Apache Spark Connector for Delta Sharing foi atualizado para 0.2.0.
22 de setembro de 2021
- O driver JDBC Spark foi atualizado para 2.6.19.1030
- [SPARK-36734][SQL] Atualizou o ORC para 1.5.1
15 de setembro de 2021
- Corrigida uma condição de concorrência que poderia causar uma falha de consulta com um IOException como
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
. - Atualizações de segurança do sistema operacional.
- Corrigida uma condição de concorrência que poderia causar uma falha de consulta com um IOException como
8 de setembro de 2021
-
[SPARK-36532][CORE][3.1] Deadlock
CoarseGrainedExecutorBackend.onDisconnected
corrigido para evitarexecutorsconnected
e prevenir a suspensão do desligamento do executor.
-
[SPARK-36532][CORE][3.1] Deadlock
25 de agosto de 2021
- A biblioteca de drivers do SQL Server foi atualizada para 9.2.1.jre8.
- O conector Snowflake foi atualizado para 2.9.0.
- Corrige um erro na transmissão de credenciais causado pela nova otimização de pré-carregamento do Parquet, onde a credencial de transmissão do utilizador pode não ser encontrada durante o acesso ao ficheiro.
11 de agosto de 2021
- Corrige um problema de incompatibilidade do RocksDB que impede o Databricks Runtime 8.4 mais antigo. Isso corrige a compatibilidade futura para o Auto Loader
COPY INTO
e aplicações de streaming com estado. - Corrige um bug ao usar o Auto Loader para ler arquivos CSV com arquivos de cabeçalho incompatíveis. Se os nomes das colunas não corresponderem, a coluna será preenchida com nulos. Agora, se um esquema for fornecido, ele assumirá que o esquema é o mesmo e só salvará incompatibilidades de coluna se as colunas de dados resgatadas estiverem habilitadas.
- Adiciona uma nova opção chamada
externalDataSource
no conector Synapse do Azure para remover oCONTROL
requisito de permissão no banco de dados para leitura do PolyBase.
- Corrige um problema de incompatibilidade do RocksDB que impede o Databricks Runtime 8.4 mais antigo. Isso corrige a compatibilidade futura para o Auto Loader
29 de julho de 2021
- [FAÍSCA-36034][CONSTRUIR] Rebaseie a datetime em filtros empurrados para baixo para Parquet
-
[SPARK-36163][COMPILAÇÃO] Propagar propriedades JDBC corretas no provedor de conector JDBC e adicionar
connectionProvider
opção
Tempo de execução do Databricks 8.3 (EoS)
Consulte Databricks Runtime 8.3 (EoS).
19 de janeiro de 2022
- Atualizações de segurança do sistema operacional.
4 de novembro de 2021
- Corrigido um bug que poderia fazer com que os fluxos de streaming estruturado falhassem com um ArrayIndexOutOfBoundsException
- Foi corrigida uma condição de corrida que poderia provocar uma falha de consulta com um IOException como
java.io.IOException: No FileSystem for scheme
, ou que poderia impedir que as modificações emsparkContext.hadoopConfiguration
surtissem efeito nas consultas.
22 de setembro de 2021
- O driver JDBC Spark foi atualizado para 2.6.19.1030
15 de setembro de 2021
- Corrigida uma condição de concorrência que poderia causar uma falha de consulta com um IOException como
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
. - Atualizações de segurança do sistema operacional.
- Corrigida uma condição de concorrência que poderia causar uma falha de consulta com um IOException como
8 de setembro de 2021
- [FAÍSCA-35700][SQL][WARMFIX] Ler uma tabela ORC de tipo char/varchar quando criada e escrita por sistemas externos.
-
[SPARK-36532][CORE][3.1] Deadlock
CoarseGrainedExecutorBackend.onDisconnected
corrigido para evitarexecutorsconnected
e prevenir a suspensão do desligamento do executor.
25 de agosto de 2021
- A biblioteca de drivers do SQL Server foi atualizada para 9.2.1.jre8.
- O conector Snowflake foi atualizado para 2.9.0.
- Corrige um erro na transmissão de credenciais causado pela nova otimização de pré-carregamento do Parquet, onde a credencial de transmissão do utilizador pode não ser encontrada durante o acesso ao ficheiro.
11 de agosto de 2021
- Corrige um bug ao usar o Auto Loader para ler arquivos CSV com arquivos de cabeçalho incompatíveis. Se os nomes das colunas não corresponderem, a coluna será preenchida com nulos. Agora, se um esquema for fornecido, ele assumirá que o esquema é o mesmo e só salvará incompatibilidades de coluna se as colunas de dados resgatadas estiverem habilitadas.
29 de julho de 2021
- Atualize o conector Databricks Snowflake Spark para 2.9.0-spark-3.1
- [FAÍSCA-36034][CONSTRUIR] Rebaseie a datetime em filtros empurrados para baixo para Parquet
-
[SPARK-36163][COMPILAÇÃO] Propagar propriedades JDBC corretas no provedor de conector JDBC e adicionar
connectionProvider
opção
14 de julho de 2021
- Corrigido um problema ao usar nomes de coluna com pontos no conector Synapse do Azure.
- Introduzido o formato
database.schema.table
para o Synapse Connector. - Adicionado suporte para fornecer
databaseName.schemaName.tableName
formato como a tabela de destino em vez de apenasschemaName.tableName
outableName
.
15 de junho de 2021
- Corrigido um
NoSuchElementException
bug nas gravações otimizadas do Delta Lake que pode ocorrer ao escrever grandes quantidades de dados e encontrar falhas no executor. - Adiciona comandos SQL
CREATE GROUP
,DROP GROUP
,ALTER GROUP
,SHOW GROUPS
, eSHOW USERS
. Para obter detalhes, consulte Instruções de segurança e Mostrar instruções.
- Corrigido um
Tempo de execução do Databricks 8.2 (EoS)
Consulte Databricks Runtime 8.2 (EoS).
22 de setembro de 2021
- Atualizações de segurança do sistema operacional.
15 de setembro de 2021
- Corrigida uma condição de concorrência que poderia causar uma falha de consulta com um IOException como
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
.
- Corrigida uma condição de concorrência que poderia causar uma falha de consulta com um IOException como
8 de setembro de 2021
- [FAÍSCA-35700][SQL][WARMFIX] Ler uma tabela ORC de tipo char/varchar quando criada e escrita por sistemas externos.
-
[SPARK-36532][CORE][3.1] Deadlock
CoarseGrainedExecutorBackend.onDisconnected
corrigido para evitarexecutorsconnected
e prevenir a suspensão do desligamento do executor.
25 de agosto de 2021
- O conector Snowflake foi atualizado para 2.9.0.
11 de agosto de 2021
- [FAÍSCA-36034][SQL] Rebaseie a datetime em filtros empurrados para baixo para parquet.
29 de julho de 2021
- Atualize o conector Databricks Snowflake Spark para 2.9.0-spark-3.1
-
[SPARK-36163][COMPILAÇÃO] Propagar propriedades JDBC corretas no provedor de conector JDBC e adicionar
connectionProvider
opção
14 de julho de 2021
- Corrigido um problema ao usar nomes de coluna com pontos no conector Synapse do Azure.
- Introduzido o formato
database.schema.table
para o Synapse Connector. - Adicionado suporte para fornecer
databaseName.schemaName.tableName
formato como a tabela de destino em vez de apenasschemaName.tableName
outableName
. - Corrigido um bug que impedia os usuários de viajar no tempo para versões disponíveis mais antigas com tabelas Delta.
15 de junho de 2021
- Corrige um
NoSuchElementException
bug nas escritas otimizadas do Delta Lake que podem acontecer ao gravar grandes quantidades de dados e encontrar perdas de executores
- Corrige um
26 de maio de 2021
- Python atualizado com patch de segurança para corrigir a vulnerabilidade de segurança do Python (CVE-2021-3177).
30 de abril de 2021
- Atualizações de segurança do sistema operacional.
- [FAÍSCA-35227][CONSTRUIR] Atualizar o resolvedor para spark-packages no SparkSubmit
- [SPARK-34245][CORE] Assegurar que o Gestor remove os executores que não conseguiram enviar o estado concluído
- Corrigido um problema de OOM quando o Auto Loader relata métricas de progresso do Streaming Estruturado.
Tempo de execução do Databricks 8.1 (EoS)
Consulte Databricks Runtime 8.1 (EoS).
22 de setembro de 2021
- Atualizações de segurança do sistema operacional.
15 de setembro de 2021
- Corrigida uma condição de concorrência que poderia causar uma falha de consulta com um IOException como
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
.
- Corrigida uma condição de concorrência que poderia causar uma falha de consulta com um IOException como
8 de setembro de 2021
- [FAÍSCA-35700][SQL][WARMFIX] Ler uma tabela ORC de tipo char/varchar quando criada e escrita por sistemas externos.
-
[SPARK-36532][CORE][3.1] Deadlock
CoarseGrainedExecutorBackend.onDisconnected
corrigido para evitarexecutorsconnected
e prevenir a suspensão do desligamento do executor.
25 de agosto de 2021
- O conector Snowflake foi atualizado para 2.9.0.
11 de agosto de 2021
- [FAÍSCA-36034][SQL] Rebaseie a datetime em filtros empurrados para baixo para parquet.
29 de julho de 2021
- Atualize o conector Databricks Snowflake Spark para 2.9.0-spark-3.1
-
[SPARK-36163][COMPILAÇÃO] Propagar propriedades JDBC corretas no provedor de conector JDBC e adicionar
connectionProvider
opção
14 de julho de 2021
- Corrigido um problema ao usar nomes de coluna com pontos no conector Synapse do Azure.
- Corrigido um bug que impedia os usuários de viajar no tempo para versões disponíveis mais antigas com tabelas Delta.
15 de junho de 2021
- Corrige um
NoSuchElementException
bug nas escritas otimizadas do Delta Lake que podem acontecer ao gravar grandes quantidades de dados e encontrar perdas de executores
- Corrige um
26 de maio de 2021
- Python atualizado com patch de segurança para corrigir a vulnerabilidade de segurança do Python (CVE-2021-3177).
30 de abril de 2021
- Atualizações de segurança do sistema operacional.
- [FAÍSCA-35227][CONSTRUIR] Atualizar o resolvedor para spark-packages no SparkSubmit
- Corrigido um problema de OOM quando o Auto Loader relata métricas de progresso do Streaming Estruturado.
27 de abril de 2021
- [SPARK-34245][CORE] Assegurar que o Gestor remove os executores que não conseguiram enviar o estado concluído
- [FAÍSCA-34856][SQL] Modo ANSI: permite a transmissão de tipos complexos como tipo de cadeia de caracteres
- [SPARK-35014] Corrigir o padrão PhysicalAggregation para não reescrever expressões dobráveis
- [SPARK-34769][SQL] AnsiTypeCoercion: retorna o tipo conversível mais estreito entre TypeCollection
- [FAÍSCA-34614][SQL] Modo ANSI: A conversão de String para Boolean lançará exceção em caso de erro de análise
- [FAÍSCA-33794][SQL] Modo ANSI: corrigir a expressão NextDay para lançar IllegalArgumentException em tempo de execução ao receber uma entrada inválida
Tempo de execução do Databricks 8.0 (EoS)
Consulte Databricks Runtime 8.0 (EoS).
15 de setembro de 2021
- Corrigida uma condição de concorrência que poderia causar uma falha de consulta com um IOException como
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
.
- Corrigida uma condição de concorrência que poderia causar uma falha de consulta com um IOException como
25 de agosto de 2021
- O conector Snowflake foi atualizado para 2.9.0.
11 de agosto de 2021
- [FAÍSCA-36034][SQL] Rebaseie a datetime em filtros empurrados para baixo para parquet.
29 de julho de 2021
-
[SPARK-36163][COMPILAÇÃO] Propagar propriedades JDBC corretas no provedor de conector JDBC e adicionar
connectionProvider
opção
-
[SPARK-36163][COMPILAÇÃO] Propagar propriedades JDBC corretas no provedor de conector JDBC e adicionar
14 de julho de 2021
- Corrigido um problema ao usar nomes de coluna com pontos no conector Synapse do Azure.
- Corrigido um bug que impedia os usuários de viajar no tempo para versões disponíveis mais antigas com tabelas Delta.
26 de maio de 2021
- Python atualizado com patch de segurança para corrigir a vulnerabilidade de segurança do Python (CVE-2021-3177).
30 de abril de 2021
- Atualizações de segurança do sistema operacional.
- [FAÍSCA-35227][CONSTRUIR] Atualizar o resolvedor para spark-packages no SparkSubmit
- [SPARK-34245][CORE] Assegurar que o Gestor remove os executores que não conseguiram enviar o estado concluído
24 de março de 2021
- [SPARK-34681][SQL] Corrigir o erro da associação externa completa de hash aleatório ao compilar o lado esquerdo com condição não igual
- [SPARK-34534] Corrigir a ordem dos blockIds ao usar FetchShuffleBlocks para buscar blocos
- [SPARK-34613][SQL] Corrigir visualização que não captura configuração de dica desativada
9 de março de 2021
-
[FAÍSCA-34543][SQL] Respeite a configuração ao resolver especificações de
spark.sql.caseSensitive
partição na v1SET LOCATION
- [SPARK-34392][SQL] Suportar ZoneOffset +h:mm em DateTimeUtils. getZoneId
- [UI] Corrigir a hiperligação 'href' da visualização do Spark DAG
- [SPARK-34436][SQL] Suporte LIKE ANY/ALL para expressão DPP
-
[FAÍSCA-34543][SQL] Respeite a configuração ao resolver especificações de
Tempo de execução do Databricks 7.6 (EoS)
Consulte Databricks Runtime 7.6 (EoS).
11 de agosto de 2021
- [FAÍSCA-36034][SQL] Rebaseie a datetime em filtros empurrados para baixo para parquet.
29 de julho de 2021
- [SPARK-32998][BUILD] Adicionar a possibilidade de substituir os repositórios remotos padrão apenas por repositórios internos
14 de julho de 2021
- Corrigido um bug que impedia os usuários de viajar no tempo para versões disponíveis mais antigas com tabelas Delta.
26 de maio de 2021
- Python atualizado com patch de segurança para corrigir a vulnerabilidade de segurança do Python (CVE-2021-3177).
30 de abril de 2021
- Atualizações de segurança do sistema operacional.
- [FAÍSCA-35227][CONSTRUIR] Atualizar o resolvedor para spark-packages no SparkSubmit
- [SPARK-34245][CORE] Assegurar que o Gestor remove os executores que não conseguiram enviar o estado concluído
24 de março de 2021
- [SPARK-34768][SQL] Respeitar o tamanho do buffer de entrada padrão no Univocity
- [SPARK-34534] Corrigir a ordem dos blockIds ao usar FetchShuffleBlocks para buscar blocos
9 de março de 2021
- (Apenas Azure) Corrigido um bug do Auto Loader que pode causar NullPointerException ao usar o Databricks Runtime 7.6 para executar um fluxo antigo do Auto Loader criado no Databricks Runtime 7.2
- [UI] Corrigir a hiperligação 'href' da visualização do Spark DAG
- Um nó folha desconhecido do SparkPlan não é tratado corretamente no SizeInBytesOnlyStatsSparkPlanVisitor
- Restaure o esquema de saída de
SHOW DATABASES
- [Delta][8.0, 7.6] Corrigido bug de cálculo na lógica de ajuste automático do tamanho do arquivo
- Desativar a verificação de desatualização para arquivos da tabela Delta no cache de disco
- [SQL] Utilize a chave correta de criação de poda dinâmica quando a dica de junção de intervalo estiver presente
- Desabilitar o suporte a tipos de char no caminho de código não-SQL
- Evite NPE em DataFrameReader.schema
- Corrigir NPE quando a resposta EventGridClient não tem entidade
- Corrigir um bug de fluxo fechado de leitura no Azure Auto Loader
- [SQL] Não gere recomendação para o número de partição de shuffle quando o AOS estiver ativado
24 de fevereiro de 2021
- Atualizámos o conector Spark BigQuery para a v0.18, que introduziu várias correções de erros e suporte para iteradores Arrow e Avro.
- Corrigido um problema de correção que fazia com que o Spark retornasse resultados incorretos quando a precisão decimal e a escala do arquivo Parquet eram diferentes do esquema do Spark.
- Corrigido o problema de falha de leitura em tabelas do Microsoft SQL Server que contêm tipos de dados espaciais, adicionando suporte a tipos JDBC de geometria e geografia para o Spark SQL.
- Introduzida uma nova configuração
spark.databricks.hive.metastore.init.reloadFunctions.enabled
. Essa configuração controla a inicialização integrada do Hive. Quando definido como true, o Azure Databricks recarrega todas as funções de todos os bancos de dados que os usuários têm noFunctionRegistry
. Este é o comportamento padrão no Hive Metastore. Quando definido como false, o Azure Databricks desabilita esse processo para otimização. - [FAÍSCA-34212] Corrigidos problemas relacionados à leitura de dados decimais de arquivos Parquet.
- [SPARK-34260][SQL] Corrigir UnresolvedException ao criar a vista temporária duas vezes.
Tempo de execução do Databricks 7.5 (EoS)
Consulte Databricks Runtime 7.5 (EoS).
26 de maio de 2021
- Python atualizado com patch de segurança para corrigir a vulnerabilidade de segurança do Python (CVE-2021-3177).
30 de abril de 2021
- Atualizações de segurança do sistema operacional.
- [FAÍSCA-35227][CONSTRUIR] Atualizar o resolvedor para spark-packages no SparkSubmit
- [SPARK-34245][CORE] Assegurar que o Gestor remove os executores que não conseguiram enviar o estado concluído
24 de março de 2021
- [SPARK-34768][SQL] Respeitar o tamanho do buffer de entrada padrão no Univocity
- [SPARK-34534] Corrigir a ordem dos blockIds ao usar FetchShuffleBlocks para buscar blocos
9 de março de 2021
- (Apenas Azure) Corrigido um bug do Auto Loader que pode fazer com que NullPointerException ao usar o Databricks Runtime 7.5 execute um fluxo antigo do Auto Loader criado no Databricks Runtime 7.2.
- [UI] Corrigir a hiperligação 'href' da visualização do Spark DAG
- Um nó folha desconhecido do SparkPlan não é tratado corretamente no SizeInBytesOnlyStatsSparkPlanVisitor
- Restaure o esquema de saída de
SHOW DATABASES
- Desativar a verificação de desatualização para arquivos da tabela Delta no cache de disco
- [SQL] Utilize a chave correta de criação de poda dinâmica quando a dica de junção de intervalo estiver presente
- Desabilitar o suporte a tipos de char no caminho de código não-SQL
- Evite NPE em DataFrameReader.schema
- Corrigir NPE quando a resposta EventGridClient não tem entidade
- Corrigir um bug de fluxo fechado de leitura no Azure Auto Loader
24 de fevereiro de 2021
- Atualizámos o conector Spark BigQuery para a v0.18, que introduziu várias correções de erros e suporte para iteradores Arrow e Avro.
- Corrigido um problema de correção que fazia com que o Spark retornasse resultados incorretos quando a precisão decimal e a escala do arquivo Parquet eram diferentes do esquema do Spark.
- Corrigido o problema de falha de leitura em tabelas do Microsoft SQL Server que contêm tipos de dados espaciais, adicionando suporte a tipos JDBC de geometria e geografia para o Spark SQL.
- Introduzida uma nova configuração
spark.databricks.hive.metastore.init.reloadFunctions.enabled
. Essa configuração controla a inicialização integrada do Hive. Quando definido como true, o Azure Databricks recarrega todas as funções de todos os bancos de dados que os usuários têm noFunctionRegistry
. Este é o comportamento padrão no Hive Metastore. Quando definido como false, o Azure Databricks desabilita esse processo para otimização. - [FAÍSCA-34212] Corrigidos problemas relacionados à leitura de dados decimais de arquivos Parquet.
- [SPARK-34260][SQL] Corrigir UnresolvedException ao criar a vista temporária duas vezes.
4 de fevereiro de 2021
- Corrigida uma regressão que impede a execução incremental de uma consulta que define um limite global, como
SELECT * FROM table LIMIT nrows
. A regressão foi experimentada por usuários que executam consultas via ODBC/JDBC com a serialização de seta habilitada. - Introduziu verificações de tempo de escrita no cliente Hive para evitar a corrupção de metadados no metastore do Hive para as tabelas Delta.
- Corrigida uma regressão que fazia com que o DBFS FUSE falhasse ao iniciar quando as configurações de variáveis de ambiente de cluster contivessem sintaxe bash inválida.
- Corrigida uma regressão que impede a execução incremental de uma consulta que define um limite global, como
20 de janeiro de 2021
- Corrigido um erro de regressão na versão de manutenção de 12 de janeiro de 2021 que pode causar uma AnalysisException incorrecta, indicando que a coluna é ambígua numa auto junção. Essa regressão acontece quando um usuário ingressa em um DataFrame com seu DataFrame derivado (a chamada autoassociação) com as seguintes condições:
- Esses dois DataFrames têm colunas comuns, mas a saída da junção automática não tem colunas comuns. Por exemplo,
df.join(df.select($"col" as "new_col"), cond)
- O DataFrame derivado exclui algumas colunas via select, groupBy ou window.
- A condição de junção ou a seguinte transformação após o Dataframe unido refere-se às colunas não comuns. Por exemplo,
df.join(df.drop("a"), df("a") === 1)
- Esses dois DataFrames têm colunas comuns, mas a saída da junção automática não tem colunas comuns. Por exemplo,
- Corrigido um erro de regressão na versão de manutenção de 12 de janeiro de 2021 que pode causar uma AnalysisException incorrecta, indicando que a coluna é ambígua numa auto junção. Essa regressão acontece quando um usuário ingressa em um DataFrame com seu DataFrame derivado (a chamada autoassociação) com as seguintes condições:
12 de janeiro de 2021
- Atualize o SDK de Armazenamento do Azure de 2.3.8 para 2.3.9.
- [FAÍSCA-33593][SQL] Leitor vetorial obteve dados incorretos com um valor de partição binária
- [SPARK-33480][SQL] atualiza a mensagem de erro da verificação do comprimento de inserção da tabela char/varchar
Tempo de execução do Databricks 7.3 LTS (EoS)
Consulte Databricks Runtime 7.3 LTS (EoS).
10 de setembro de 2023
- Correções de bugs diversos.
30 de agosto de 2023
- Atualizações de segurança do sistema operacional.
15 de agosto de 2023
- Atualizações de segurança do sistema operacional.
23 de junho de 2023
- A biblioteca Snowflake-jdbc foi atualizada para 3.13.29 para resolver um problema de segurança.
- Atualizações de segurança do sistema operacional.
15 de junho de 2023
-
[SPARK-43413][SQL] Corrigir a nulidade da subconsulta
IN
. - Atualizações de segurança do sistema operacional.
-
[SPARK-43413][SQL] Corrigir a nulidade da subconsulta
2 de junho de 2023
- Corrigido um problema no Auto Loader em que diferentes formatos de arquivo de origem eram inconsistentes quando o esquema fornecido não incluía partições inferidas. Esse problema pode causar falhas inesperadas ao ler arquivos com colunas ausentes no esquema de partição inferida.
17 de maio de 2023
- Atualizações de segurança do sistema operacional.
25 de abril de 2023
- Atualizações de segurança do sistema operacional.
11 de abril de 2023
- [SPARK-42967][CORE] Corrigir SparkListenerTaskStart.stageAttemptId quando uma tarefa é iniciada após o cancelamento da fase.
- Correções de bugs diversos.
29 de março de 2023
- Atualizações de segurança do sistema operacional.
14 de Março de 2023
- Correções de bugs diversos.
28 de fevereiro de 2023
- Atualizações de segurança do sistema operacional.
16 de fevereiro de 2023
- Atualizações de segurança do sistema operacional.
31 de janeiro de 2023
- Os tipos de tabela de tabelas JDBC agora são EXTERNOS por padrão.
18 de janeiro de 2023
- Atualizações de segurança do sistema operacional.
29 de novembro de 2022
- Correções de bugs diversos.
15 de novembro de 2022
- Apache commons-text atualizado para 1.10.0.
- Atualizações de segurança do sistema operacional.
- Correções de bugs diversos.
1 de novembro de 2022
- [SPARK-38542][SQL] UnsafeHashedRelation deve serializar numKeys
18 de outubro de 2022
- Atualizações de segurança do sistema operacional.
5 de outubro de 2022
- Correções de bugs diversos.
- Atualizações de segurança do sistema operacional.
22 de setembro de 2022
- [SPARK-40089][SQL] Corrigir a ordenação para alguns tipos decimais
6 de setembro de 2022
- [SPARK-35542][CORE][ML] Correção: Bucketizer criado para várias colunas com parâmetros splitsArray, inputCols e outputCols não pode ser carregado após ser salvo
- [SPARK-40079][CORE] Adicionar validação de inputCols do Imputer para o caso de entrada vazio
24 de agosto de 2022
- [SPARK-39962][PYTHON][SQL] Aplicar projeção quando os atributos de grupo estiverem vazios
- Atualizações de segurança do sistema operacional.
9 de agosto de 2022
- Atualizações de segurança do sistema operacional.
27 de julho de 2022
- Torne os resultados da operação Delta MERGE consistentes quando a origem não for determinística.
- Atualizações de segurança do sistema operacional.
- Correções de bugs diversos.
13 de julho de 2022
- [SPARK-32680][SQL] Não pré-processe CTAS V2 com consulta não resolvida
- Desabilitado o uso do Auto Loader de APIs de nuvem nativas para listagem de diretórios no Azure.
- Atualizações de segurança do sistema operacional.
5 de julho de 2022
- Atualizações de segurança do sistema operacional.
- Correções de bugs diversos.
2 de junho de 2022
- [SPARK-38918][SQL] A seleção de colunas aninhadas deve filtrar atributos que não pertencem à relação atual.
- Atualizações de segurança do sistema operacional.
18 de maio de 2022
- Atualize a versão do AWS SDK de 1.11.655 para 1.11.678.
- Atualizações de segurança do sistema operacional.
- Correções de bugs diversos.
19 de abril de 2022
- Atualizações de segurança do sistema operacional.
- Correções de bugs diversos.
6 de abril de 2022
- Atualizações de segurança do sistema operacional.
- Correções de bugs diversos.
14 de março de 2022
- Remover classes vulneráveis do log4j 1.2.17 jar
- Correções de bugs diversos.
23 de fevereiro de 2022
- [SPARK-37859][SQL] Não verificar metadados durante a comparação de esquemas
8 de fevereiro de 2022
- Atualize o Ubuntu JDK para 1.8.0.312.
- Atualizações de segurança do sistema operacional.
1 de fevereiro de 2022
- Atualizações de segurança do sistema operacional.
26 de janeiro de 2022
- Corrigido um bug em que o comando OPTIMIZE podia falhar quando o dialeto ANSI SQL estava habilitado.
19 de janeiro de 2022
- O canal padrão Conda é removido do 7.3 ML LTS
- Atualizações de segurança do sistema operacional.
7 de dezembro de 2021
- Atualizações de segurança do sistema operacional.
4 de novembro de 2021
- Corrigido um bug que poderia fazer com que os fluxos de streaming estruturado falhassem com um ArrayIndexOutOfBoundsException
- Foi corrigida uma condição de corrida que poderia provocar uma falha de consulta com um IOException como
java.io.IOException: No FileSystem for scheme
, ou que poderia impedir que as modificações emsparkContext.hadoopConfiguration
surtissem efeito nas consultas.
15 de setembro de 2021
- Corrigida uma condição de concorrência que poderia causar uma falha de consulta com um IOException como
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
. - Atualizações de segurança do sistema operacional.
- Corrigida uma condição de concorrência que poderia causar uma falha de consulta com um IOException como
8 de setembro de 2021
- [FAÍSCA-35700][SQL][WARMFIX] Ler uma tabela ORC de tipo char/varchar quando criada e escrita por sistemas externos.
-
[SPARK-36532][CORE][3.1] Deadlock
CoarseGrainedExecutorBackend.onDisconnected
corrigido para evitarexecutorsconnected
e prevenir a suspensão do desligamento do executor.
25 de agosto de 2021
- O conector Snowflake foi atualizado para 2.9.0.
29 de julho de 2021
- [FAÍSCA-36034][CONSTRUIR] Rebaseie a datetime em filtros empurrados para baixo para Parquet
-
[SPARK-34508][COMPILAÇÃO] Ignorar
HiveExternalCatalogVersionsSuite
se a rede estiver indisponível
14 de julho de 2021
- Formato introduzido
database.schema.table
para o conector Synapse do Azure. - Adicionado suporte para fornecer
databaseName.schemaName.tableName
formato como a tabela de destino em vez de apenasschemaName.tableName
outableName
. - Corrigido um bug que impedia os usuários de viajar no tempo para versões disponíveis mais antigas com tabelas Delta.
- Formato introduzido
15 de junho de 2021
- Corrige um
NoSuchElementException
bug nas escritas otimizadas do Delta Lake que podem acontecer ao gravar grandes quantidades de dados e encontrar perdas de executores
- Python atualizado com patch de segurança para corrigir a vulnerabilidade de segurança do Python (CVE-2021-3177).
- Corrige um
30 de abril de 2021
- Atualizações de segurança do sistema operacional.
- [FAÍSCA-35227][CONSTRUIR] Atualizar o resolvedor para spark-packages no SparkSubmit
- [SPARK-34245][CORE] Assegurar que o Gestor remove os executores que não conseguiram enviar o estado concluído
- [SPARK-35045][SQL] Adicionar uma opção interna para controlar o buffer de entrada no Univocity
24 de março de 2021
- [SPARK-34768][SQL] Respeitar o tamanho do buffer de entrada padrão no Univocity
- [SPARK-34534] Corrigir a ordem dos blockIds ao usar FetchShuffleBlocks para buscar blocos
- [SPARK-33118][SQL]CREATE TEMPORARY TABLE falha devido à localização
9 de março de 2021
- O driver atualizado do Sistema de Arquivos de Blob do Azure para o Armazenamento do Azure Data Lake agora está habilitado por padrão. Traz várias melhorias de estabilidade.
- Corrigir separador de caminho no Windows para
databricks-connect get-jar-dir
- [UI] Corrigir a hiperligação 'href' da visualização do Spark DAG
- [DBCONNECT] Adicionar suporte para FlatMapCoGroupsInPandas no Databricks Connect 7.3
- Restaure o esquema de saída de
SHOW DATABASES
- [SQL] Utilize a chave correta de criação de poda dinâmica quando a dica de junção de intervalo estiver presente
- Desativar a verificação de desatualização para arquivos da tabela Delta no cache de disco
- [SQL] Não gere recomendações de número de partição de shuffle quando o AOS estiver ativado
24 de fevereiro de 2021
- Atualizámos o conector Spark BigQuery para a v0.18, que introduziu várias correções de erros e suporte para iteradores Arrow e Avro.
- Corrigido um problema de correção que fazia com que o Spark retornasse resultados incorretos quando a precisão decimal e a escala do arquivo Parquet eram diferentes do esquema do Spark.
- Corrigido o problema de falha de leitura em tabelas do Microsoft SQL Server que contêm tipos de dados espaciais, adicionando suporte a tipos JDBC de geometria e geografia para o Spark SQL.
- Introduzida uma nova configuração
spark.databricks.hive.metastore.init.reloadFunctions.enabled
. Essa configuração controla a inicialização integrada do Hive. Quando definido como true, o Azure Databricks recarrega todas as funções de todos os bancos de dados que os usuários têm noFunctionRegistry
. Este é o comportamento padrão no Hive Metastore. Quando definido como false, o Azure Databricks desabilita esse processo para otimização. - [FAÍSCA-34212] Corrigidos problemas relacionados à leitura de dados decimais de arquivos Parquet.
- [SPARK-33579][UI] Corrigir a página em branco do executante atrás do proxy.
- [SPARK-20044][UI] Suporte ao Spark UI atrás de um proxy reverso de frontend usando um prefixo de caminho.
- [SPARK-33277][PYSPARK][SQL] Use ContextAwareIterator para parar de consumir após o término da tarefa.
4 de fevereiro de 2021
- Corrigida uma regressão que impede a execução incremental de uma consulta que define um limite global, como
SELECT * FROM table LIMIT nrows
. A regressão foi experimentada por usuários que executam consultas via ODBC/JDBC com a serialização de seta habilitada. - Corrigida uma regressão que fazia com que o DBFS FUSE falhasse ao iniciar quando as configurações de variáveis de ambiente de cluster contivessem sintaxe bash inválida.
- Corrigida uma regressão que impede a execução incremental de uma consulta que define um limite global, como
20 de janeiro de 2021
- Corrigido um erro de regressão na versão de manutenção de 12 de janeiro de 2021 que pode causar uma AnalysisException incorrecta, indicando que a coluna é ambígua numa auto junção. Essa regressão acontece quando um usuário ingressa em um DataFrame com seu DataFrame derivado (a chamada autoassociação) com as seguintes condições:
- Esses dois DataFrames têm colunas comuns, mas a saída da junção automática não tem colunas comuns. Por exemplo,
df.join(df.select($"col" as "new_col"), cond)
- O DataFrame derivado exclui algumas colunas via select, groupBy ou window.
- A condição de junção ou a seguinte transformação após o Dataframe unido refere-se às colunas não comuns. Por exemplo,
df.join(df.drop("a"), df("a") === 1)
- Esses dois DataFrames têm colunas comuns, mas a saída da junção automática não tem colunas comuns. Por exemplo,
- Corrigido um erro de regressão na versão de manutenção de 12 de janeiro de 2021 que pode causar uma AnalysisException incorrecta, indicando que a coluna é ambígua numa auto junção. Essa regressão acontece quando um usuário ingressa em um DataFrame com seu DataFrame derivado (a chamada autoassociação) com as seguintes condições:
12 de janeiro de 2021
- Atualizações de segurança do sistema operacional.
- [FAÍSCA-33593][SQL] Leitor vetorial obteve dados incorretos com um valor de partição binária
- [SPARK-33677][SQL] Saltar a regra LikeSimplification se o padrão contiver qualquer escapeChar
- [SPARK-33592][ML][PYTHON] Os parâmetros do validador Pyspark ML nos ParamMaps do Estimador podem ser perdidos após salvar e recarregar
- [SPARK-33071][SPARK-33536][SQL] Evitar alterar dataset_id de LogicalPlan em join() para não comprometer DetectAmbiguousSelfJoin
8 de dezembro de 2020
- [SPARK-33587][CORE] Terminar o executor em erros fatais aninhados
- [SPARK-27421][SQL] Corrigir filtro para coluna int e classe de valor java.lang.String ao filtrar coluna de partição
- [SPARK-33316][SQL] Suporte ao esquema Avro anulável fornecido pelo utilizador para esquema Catalyst não anulável na escrita Avro
- Os Spark Jobs lançados usando o Databricks Connect podem travar indefinidamente com o rastreamento de pilha do executor
Executor$TaskRunner.$anonfun$copySessionState
. - Atualizações de segurança do sistema operacional.
- 1 de dezembro de 2020
-
[SPARK-33404][SQL][3.0] Corrigir resultados incorretos na
date_trunc
expressão - [FAÍSCA-33339][PYTHON] O aplicativo Pyspark travará devido a um erro que não é do tipo Exception.
- [SPARK-33183][SQL][HOTFIX] Corrigir a regra do Optimizer EliminateSorts e adicionar uma regra física para remover ordenações redundantes
- [SPARK-33371][PYTHON][3.0] Atualizar setup.py e testes para Python 3.9
- [SPARK-33391][SQL] element_at com CreateArray não respeita um índice baseado em um.
- [SPARK-33306][SQL]É necessário especificar o fuso horário ao converter uma data para uma cadeia de caracteres
- [SPARK-33260][SQL] Corrigir resultados incorretos do SortExec quando sortOrder é Stream
-
[SPARK-33404][SQL][3.0] Corrigir resultados incorretos na
5 de novembro de 2020
- Corrigir o bloqueio ABFS e WASB em relação ao
UserGroupInformation.getCurrentUser()
. - Corrija um bug de loop infinito quando o leitor Avro lê os bytes MAGIC.
- Adicione suporte ao privilégio
USAGE
. - Melhorias de desempenho para verificação de privilégios no controle de acesso à tabela.
- Corrigir o bloqueio ABFS e WASB em relação ao
13 de outubro de 2020
- Atualizações de segurança do sistema operacional.
- Você pode ler e gravar a partir do DBFS usando a montagem FUSE em /dbfs/ quando estiver em um cluster habilitado para passagem de credenciais de alta simultaneidade. Montagens regulares são suportadas, mas montagens que precisam de credenciais de passagem ainda não são suportadas.
- [SPARK-32999][SQL] Use Utils.getSimpleName para evitar encontrar um nome de classe malformado em TreeNode
- [SPARK-32585][SQL] Suporte à enumeração de Scala em ScalaReflection
- Diretórios de listagem fixos na montagem FUSE que contêm nomes de arquivo com caracteres XML inválidos
- A montagem FUSE não usa mais ListMultipartUploads
29 de setembro de 2020
- [SPARK-32718][SQL] Remover palavras-chave desnecessárias para unidades de intervalo
- [SPARK-32635][SQL] Corrigir propagação de elementos dobráveis
- Adicione uma nova configuração
spark.shuffle.io.decoder.consolidateThreshold
. Defina o valor de configuração comoLong.MAX_VALUE
para pular a consolidação dos netty FrameBuffers, o que impedejava.lang.IndexOutOfBoundsException
em casos extremos.
25 de abril de 2023
- Atualizações de segurança do sistema operacional.
11 de abril de 2023
- Correções de bugs diversos.
29 de março de 2023
- Correções de bugs diversos.
14 de Março de 2023
- Atualizações de segurança do sistema operacional.
28 de fevereiro de 2023
- Atualizações de segurança do sistema operacional.
16 de fevereiro de 2023
- Atualizações de segurança do sistema operacional.
31 de janeiro de 2023
- Correções de bugs diversos.
18 de janeiro de 2023
- Atualizações de segurança do sistema operacional.
29 de novembro de 2022
- Atualizações de segurança do sistema operacional.
15 de novembro de 2022
- Atualizações de segurança do sistema operacional.
- Correções de bugs diversos.
1 de novembro de 2022
- Atualizações de segurança do sistema operacional.
18 de outubro de 2022
- Atualizações de segurança do sistema operacional.
- 5 de outubro de 2022
- Atualizações de segurança do sistema operacional.
- 24 de agosto de 2022
- Atualizações de segurança do sistema operacional.
- 9 de agosto de 2022
- Atualizações de segurança do sistema operacional.
- 27 de julho de 2022
- Atualizações de segurança do sistema operacional.
- 5 de julho de 2022
- Atualizações de segurança do sistema operacional.
- 2 de junho de 2022
- Atualizações de segurança do sistema operacional.
- 18 de maio de 2022
- Atualizações de segurança do sistema operacional.
- 19 de abril de 2022
- Atualizações de segurança do sistema operacional.
- Correções de bugs diversos.
- 6 de abril de 2022
- Atualizações de segurança do sistema operacional.
- Correções de bugs diversos.
- 14 de março de 2022
- Correções de bugs diversos.
- 23 de fevereiro de 2022
- Correções de bugs diversos.
- 8 de fevereiro de 2022
- Atualize o Ubuntu JDK para 1.8.0.312.
- Atualizações de segurança do sistema operacional.
- 1 de fevereiro de 2022
- Atualizações de segurança do sistema operacional.
- 19 de janeiro de 2022
- Atualizações de segurança do sistema operacional.
- 22 de setembro de 2021
- Atualizações de segurança do sistema operacional.
- 30 de abril de 2021
- Atualizações de segurança do sistema operacional.
- [FAÍSCA-35227][CONSTRUIR] Atualizar o resolvedor para spark-packages no SparkSubmit
- 12 de janeiro de 2021
- Atualizações de segurança do sistema operacional.
- 8 de dezembro de 2020
- [SPARK-27421][SQL] Corrigir filtro para coluna int e classe de valor java.lang.String ao filtrar coluna de partição
- Atualizações de segurança do sistema operacional.
- 1 de dezembro de 2020
- [SPARK-33260][SQL] Corrigir resultados incorretos do SortExec quando sortOrder é Stream
- 3 de novembro de 2020
- Versão Java atualizada de 1.8.0_252 para 1.8.0_265.
- Corrija o bloqueio ABFS e WASB em relação a UserGroupInformation.getCurrentUser()
- 13 de outubro de 2020
- Atualizações de segurança do sistema operacional.
Suporte estendido (EoS) do Databricks Runtime 6.4
Consulte Databricks Runtime 6.4 (EoS) e Databricks Runtime 6.4 Extended Support (EoS).
- 5 de julho de 2022
- Atualizações de segurança do sistema operacional.
- Correções de bugs diversos.
- 2 de junho de 2022
- Atualizações de segurança do sistema operacional.
- 18 de maio de 2022
- Atualizações de segurança do sistema operacional.
- 19 de abril de 2022
- Atualizações de segurança do sistema operacional.
- Correções de bugs diversos.
- 6 de abril de 2022
- Atualizações de segurança do sistema operacional.
- Correções de bugs diversos.
- 14 de março de 2022
- Remover classes vulneráveis do log4j 1.2.17 jar
- Correções de bugs diversos.
- 23 de fevereiro de 2022
- Correções de bugs diversos.
- 8 de fevereiro de 2022
- Atualize o Ubuntu JDK para 1.8.0.312.
- Atualizações de segurança do sistema operacional.
- 1 de fevereiro de 2022
- Atualizações de segurança do sistema operacional.
- 26 de janeiro de 2022
- Corrigido um bug em que o comando OPTIMIZE podia falhar quando o dialeto ANSI SQL estava habilitado.
- 19 de janeiro de 2022
- Atualizações de segurança do sistema operacional.
- 8 de dezembro de 2021
- Atualizações de segurança do sistema operacional.
- 22 de setembro de 2021
- Atualizações de segurança do sistema operacional.
- 15 de junho de 2021
- [SPARK-35576][SQL] Redigir as informações sensíveis no resultado do comando Set
- 7 de junho de 2021
- Adicione uma nova configuração chamada
spark.sql.maven.additionalRemoteRepositories
, uma configuração de cadeia de caracteres delimitada por vírgulas do espelho maven remoto adicional opcional. O valor padrão é .https://maven-central.storage-download.googleapis.com/maven2/
- Adicione uma nova configuração chamada
- 30 de abril de 2021
- Atualizações de segurança do sistema operacional.
- [FAÍSCA-35227][CONSTRUIR] Atualizar o resolvedor para spark-packages no SparkSubmit
- 9 de março de 2021
- Porta HADOOP-17215 para o driver do Sistema de Arquivos de Blob do Azure (Suporte para substituição condicional).
- Corrigir separador de caminho no Windows para
databricks-connect get-jar-dir
- Adicionado suporte para as versões 2.3.5, 2.3.6 e 2.3.7 do Hive metastore
- Seta "totalResultsCollected" reportada incorretamente após o derrame
- 24 de fevereiro de 2021
- Introduzida uma nova configuração
spark.databricks.hive.metastore.init.reloadFunctions.enabled
. Essa configuração controla a inicialização integrada do Hive. Quando definido como true, o Azure Databricks recarrega todas as funções de todos os bancos de dados que os usuários têm noFunctionRegistry
. Este é o comportamento padrão no Hive Metastore. Quando definido como false, o Azure Databricks desabilita esse processo para otimização.
- Introduzida uma nova configuração
- 4 de fevereiro de 2021
- Corrigida uma regressão que impede a execução incremental de uma consulta que define um limite global, como
SELECT * FROM table LIMIT nrows
. A regressão foi experimentada por usuários que executam consultas via ODBC/JDBC com a serialização de seta habilitada. - Corrigida uma regressão que fazia com que o DBFS FUSE falhasse ao iniciar quando as configurações de variáveis de ambiente de cluster contivessem sintaxe bash inválida.
- Corrigida uma regressão que impede a execução incremental de uma consulta que define um limite global, como
- 12 de janeiro de 2021
- Atualizações de segurança do sistema operacional.
- 8 de dezembro de 2020
- [SPARK-27421][SQL] Corrigir filtro para coluna int e classe de valor java.lang.String ao filtrar coluna de partição
- [SPARK-33183][SQL] Corrigir a regra do otimizador EliminateSorts e adicionar uma regra física para remover ordenações redundantes
- [GPU de 6,4 ML em tempo de execução] Instalamos anteriormente uma versão incorreta (2.7.8-1+cuda11.1) do NCCL. Esta versão corrige-o para 2.4.8-1+cuda10.0 que é compatível com CUDA 10.0.
- Atualizações de segurança do sistema operacional.
- 1 de dezembro de 2020
- [SPARK-33260][SQL] Corrigir resultados incorretos do SortExec quando sortOrder é Stream
- [SPARK-32635][SQL] Corrigir propagação de elementos dobráveis
- 3 de novembro de 2020
- Versão Java atualizada de 1.8.0_252 para 1.8.0_265.
- Corrija o bloqueio ABFS e WASB em relação a UserGroupInformation.getCurrentUser()
- Corrigir um erro de loop infinito do leitor Avro ao ler os bytes MAGIC.
- 13 de outubro de 2020
- Atualizações de segurança do sistema operacional.
- [SPARK-32999][SQL][2.4] Use Utils.getSimpleName para evitar encontrar nome de classe defeituoso no TreeNode
- Diretórios de listagem fixos na montagem FUSE que contêm nomes de arquivo com caracteres XML inválidos
- A montagem FUSE não usa mais ListMultipartUploads
- 24 de setembro de 2020
- Corrigida uma limitação anterior em que a passagem no cluster padrão ainda restringia a implementação do sistema de arquivos que o usuário usa. Agora, os usuários poderiam acessar sistemas de arquivos locais sem restrições.
- Atualizações de segurança do sistema operacional.
- 8 de setembro de 2020
- Um novo parâmetro foi criado para o Azure Synapse Analytics,
maxbinlength
. Este parâmetro é usado para controlar o comprimento da coluna de colunas BinaryType e é traduzido comoVARBINARY(maxbinlength)
. Pode ser definido usando.option("maxbinlength", n)
, onde 0 < n <= 8000. - Atualize o SDK de Armazenamento do Azure para 8.6.4 e habilite o TCP keep alive em conexões feitas pelo driver WASB
- Um novo parâmetro foi criado para o Azure Synapse Analytics,
- 25 de agosto de 2020
- Resolução de atributos ambíguos fixa na automesclagem
- 18 de agosto de 2020
- [SPARK-32431][SQL] Verificar colunas aninhadas duplicadas ao ler de fontes de dados internas
- Corrigida uma condição de corrida no conector AQS ao usar Trigger.Once.
- 11 de agosto de 2020
- [SPARK-28676][CORE] Evite o log excessivo do ContextCleaner
- 3 de agosto de 2020
- Pode agora usar a função de transformação LDA num cluster com funcionalidade de passagem.
- Atualizações de segurança do sistema operacional.
- 7 de julho de 2020
- Versão Java atualizada de 1.8.0_232 para 1.8.0_252.
- 21 de abril de 2020
- [SPARK-31312][SQL] Guardar instância da classe em cache para a instância de UDF em HiveFunctionWrapper
- 7 de abril de 2020
- Para resolver um problema com pandas udf não funcionando com o PyArrow 0.15.0 e superior, adicionamos uma variável de ambiente (
ARROW_PRE_0_15_IPC_FORMAT=1
) para habilitar o suporte para essas versões do PyArrow. Consulte as instruções em [SPARK-29367].
- Para resolver um problema com pandas udf não funcionando com o PyArrow 0.15.0 e superior, adicionamos uma variável de ambiente (
- 10 de março de 2020
- O dimensionamento automático otimizado agora é usado por padrão em clusters interativos no plano de segurança.
- O conector Snowflake (
spark-snowflake_2.11
) incluído no Databricks Runtime é atualizado para a versão 2.5.9.snowflake-jdbc
é atualizado para a versão 3.12.0.
Tempo de execução do Databricks 5.5 LTS (EoS)
Consulte Databricks Runtime 5.5 LTS (EoS) e Databricks Runtime 5.5 Extended Support (EoS).
- 8 de dezembro de 2021
- Atualizações de segurança do sistema operacional.
- 22 de setembro de 2021
- Atualizações de segurança do sistema operacional.
- 25 de agosto de 2021
- Rebaixou alguns pacotes do Python atualizados anteriormente na versão de Suporte Estendido 5.5 ML para manter uma melhor paridade com 5.5 ML LTS (agora obsoleta). Consulte [_]/release-notes/runtime/5.5xml.md) para obter as diferenças atualizadas entre as duas versões.
- 15 de junho de 2021
- [SPARK-35576][SQL] Redigir as informações sensíveis no resultado do comando Set
- 7 de junho de 2021
- Adicione uma nova configuração chamada
spark.sql.maven.additionalRemoteRepositories
, uma configuração de cadeia de caracteres delimitada por vírgulas do espelho maven remoto adicional opcional. O valor padrão é .https://maven-central.storage-download.googleapis.com/maven2/
- Adicione uma nova configuração chamada
- 30 de abril de 2021
- Atualizações de segurança do sistema operacional.
- [FAÍSCA-35227][CONSTRUIR] Atualizar o resolvedor para spark-packages no SparkSubmit
- 9 de março de 2021
- Porta HADOOP-17215 para o driver do Sistema de Arquivos de Blob do Azure (Suporte para substituição condicional).
- 24 de fevereiro de 2021
- Introduzida uma nova configuração
spark.databricks.hive.metastore.init.reloadFunctions.enabled
. Essa configuração controla a inicialização integrada do Hive. Quando definido como true, o Azure Databricks recarrega todas as funções de todos os bancos de dados que os usuários têm noFunctionRegistry
. Este é o comportamento padrão no Hive Metastore. Quando definido como false, o Azure Databricks desabilita esse processo para otimização.
- Introduzida uma nova configuração
- 12 de janeiro de 2021
- Atualizações de segurança do sistema operacional.
- Correção para [HADOOP-17130].
- 8 de dezembro de 2020
- [SPARK-27421][SQL] Corrigir filtro para coluna int e classe de valor java.lang.String ao filtrar coluna de partição
- Atualizações de segurança do sistema operacional.
- 1 de dezembro de 2020
- [SPARK-33260][SQL] Corrigir resultados incorretos do SortExec quando sortOrder é Stream
- [SPARK-32635][SQL] Corrigir propagação de elementos dobráveis
29 de outubro de 2020
- Versão Java atualizada de 1.8.0_252 para 1.8.0_265.
- Corrija o bloqueio ABFS e WASB em relação a UserGroupInformation.getCurrentUser()
- Corrigir um erro de loop infinito do leitor Avro ao ler os bytes MAGIC.
13 de outubro de 2020
- Atualizações de segurança do sistema operacional.
- [SPARK-32999][SQL][2.4] Use Utils.getSimpleName para evitar encontrar nome de classe defeituoso no TreeNode
24 de setembro de 2020
- Atualizações de segurança do sistema operacional.
8 de setembro de 2020
- Um novo parâmetro foi criado para o Azure Synapse Analytics,
maxbinlength
. Este parâmetro é usado para controlar o comprimento da coluna de colunas BinaryType e é traduzido comoVARBINARY(maxbinlength)
. Pode ser definido usando.option("maxbinlength", n)
, onde 0 < n <= 8000.
- Um novo parâmetro foi criado para o Azure Synapse Analytics,
18 de agosto de 2020
- [SPARK-32431][SQL] Verificar colunas aninhadas duplicadas ao ler de fontes de dados internas
- Corrigida uma condição de corrida no conector AQS ao usar Trigger.Once.
11 de agosto de 2020
- [SPARK-28676][CORE] Evite o log excessivo do ContextCleaner
3 de agosto de 2020
- Atualizações de segurança do sistema operacional
7 de julho de 2020
- Versão Java atualizada de 1.8.0_232 para 1.8.0_252.
21 de abril de 2020
- [SPARK-31312][SQL] Guardar instância da classe em cache para a instância de UDF em HiveFunctionWrapper
7 de abril de 2020
- Para resolver um problema com pandas udf não funcionando com o PyArrow 0.15.0 e superior, adicionamos uma variável de ambiente (
ARROW_PRE_0_15_IPC_FORMAT=1
) para habilitar o suporte para essas versões do PyArrow. Consulte as instruções em [SPARK-29367].
- Para resolver um problema com pandas udf não funcionando com o PyArrow 0.15.0 e superior, adicionamos uma variável de ambiente (
25 de março de 2020
- O conector Snowflake (
spark-snowflake_2.11
) incluído no Databricks Runtime é atualizado para a versão 2.5.9.snowflake-jdbc
é atualizado para a versão 3.12.0.
- O conector Snowflake (
10 de março de 2020
- A saída do trabalho, como a saída de log emitida para stdout, está sujeita a um limite de tamanho de 20MB. Se a saída total tiver um tamanho maior, a execução será cancelada e marcada como falha. Para evitar encontrar esse limite, o utilizador pode impedir o retorno de stdout do driver ao definir a configuração do
spark.databricks.driver.disableScalaOutput
Spark comotrue
. Por padrão, o valor do sinalizador éfalse
. O sinalizador controla a saída da célula para trabalhos JAR Scala e notebooks Scala. Se o sinalizador estiver habilitado, o Spark não retornará os resultados da execução do trabalho para o cliente. O sinalizador não afeta os dados gravados nos arquivos de log do cluster. A configuração desta flag é recomendada apenas para clusters automatizados para trabalhos JAR, pois desativará os resultados do notebook.
- A saída do trabalho, como a saída de log emitida para stdout, está sujeita a um limite de tamanho de 20MB. Se a saída total tiver um tamanho maior, a execução será cancelada e marcada como falha. Para evitar encontrar esse limite, o utilizador pode impedir o retorno de stdout do driver ao definir a configuração do
18 de fevereiro de 2020
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 deveria lançar exceção
- A passagem de credenciais com o ADLS tem uma degradação de desempenho devido ao tratamento local de thread incorreto quando a pré-busca do cliente ADLS está habilitada. Esta versão desativa a pré-busca do ADLS com passagem de credenciais ativada, até que tenhamos uma solução adequada.
28 de janeiro de 2020
- [SPARK-30447][SQL] Problema de nulidade na propagação constante.
14/01/2020
- Versão Java atualizada de 1.8.0_222 para 1.8.0_232.
Novembro 19, 2019
- [SPARK-29743] [SQL] o exemplo deve definir needCopyResult como true se o needCopyResult do seu filho for true
- A versão R foi involuntariamente atualizada de 3.6.0 para 3.6.1. Nós o rebaixamos de volta para 3.6.0.
Novembro 5, 2019
- Versão Java atualizada de 1.8.0_212 para 1.8.0_222.
Outubro 23, 2019
- [SPARK-29244][CORE] Impedir que uma página já liberada em BytesToBytesMap seja liberada novamente
8 de outubro de 2019
- Alterações do lado do servidor para permitir que o driver ODBC Simba Apache Spark se reconecte e continue após uma falha de conexão durante a busca de resultados (requer o driver ODBC Simba Apache Spark versão 2.6.10).
- Corrigido um problema que afetava o uso do comando
Optimize
com clusters ativados de ACL de tabela. - Corrigido um problema em que
pyspark.ml
as bibliotecas falhavam devido ao erro proibido do Scala UDF na ACL da tabela e nos clusters habilitados para passagem de credenciais. - Métodos Allowlisted SerDe e SerDeUtil para passagem de credenciais.
- Corrigido NullPointerException ao verificar o código de erro no cliente WASB.
Setembro 24, 2019
- Melhoria da estabilidade do módulo de escrita Parquet.
- Corrigido o problema em que a consulta Thrift cancelada antes de começar a ser executada pode ficar presa no estado INICIADO.
Setembro 10, 2019
- Adicionar iterador seguro de thread a BytesToBytesMap
- [FAÍSCA-27992][FAÍSCA-28881]Permitir que o Python se junte ao thread de conexão para propagar erros
- Corrigido um bug que afetava determinadas consultas de agregação global.
- Redação de credenciais melhorada.
- [SPARK-27330][SS] suporte ao aborto de tarefas no foreach writer
- [SPARK-28642]Ocultar credenciais no SHOW CREATE TABLE
- [SPARK-28699][SQL] Desativar o uso de radix sort para ShuffleExchangeExec no caso de reparticionamento
Agosto 27, 2019
- [FAÍSCA-20906][SQL]Permitir esquema especificado pelo utilizador na API to_avro com registo de esquema
- [FAÍSCA-27838][SQL] O usuário de suporte forneceu esquema avro não anulável para esquema de catalisador anulável sem qualquer registro nulo
- Melhorias no time travel do Delta Lake
- Corrigido um problema que afetava determinadas
transform
expressões - Suporta variáveis de difusão quando o Isolamento de Processos está ativado
Agosto 13, 2019
- A fonte de streaming Delta deve verificar o protocolo mais recente de uma tabela
- [SPARK-28260]Adicionar estado FECHADO a ExecutionState
- [FAÍSCA-28489][SS]Corrigido um bug onde o KafkaOffsetRangeCalculator.getRanges pode perder offsets
Julho 30, 2019
- [FAÍSCA-28015][SQL] Verifique se o stringToDate() consome toda a entrada para os formatos de aaaa e aaaa-[m]m
- [FAÍSCA-28308][CORE] A sub-segunda parte de CalendarInterval deve ser preenchida antes da análise
- [FAÍSCA-27485]EnsureRequirements.reorder deve lidar com expressões duplicadas de forma eficiente
- [SPARK-28355][CORE][PYTHON] Use as configurações do Spark em relação ao limite no qual o UDF é compactado por broadcast
Suporte estendido a Databricks Light 2.4
Consulte Databricks Light 2.4 (EoS) e Databricks Light 2.4 Suporte Estendido (EoS).
Tempo de execução do Databricks 7.4 (EoS)
Consulte Databricks Runtime 7.4 (EoS).
30 de abril de 2021
- Atualizações de segurança do sistema operacional.
- [FAÍSCA-35227][CONSTRUIR] Atualizar o resolvedor para spark-packages no SparkSubmit
- [SPARK-34245][CORE] Assegurar que o Gestor remove os executores que não conseguiram enviar o estado concluído
- [SPARK-35045][SQL] Adicionar uma opção interna para controlar o buffer de entrada na univocity e uma configuração para o tamanho do buffer de entrada de CSV
24 de março de 2021
- [SPARK-34768][SQL] Respeitar o tamanho do buffer de entrada padrão no Univocity
- [SPARK-34534] Corrigir a ordem dos blockIds ao usar FetchShuffleBlocks para buscar blocos
9 de março de 2021
- O driver atualizado do Sistema de Arquivos de Blob do Azure para o Armazenamento do Azure Data Lake agora está habilitado por padrão. Traz várias melhorias de estabilidade.
- [ES-67926][ui] Corrigir o link href da visualização do Spark DAG
- [ES-65064] Restaure o esquema de saída de
SHOW DATABASES
- [SC-70522][SQL] Use a chave de construção de poda dinâmica correta quando a dica de junção de intervalo estiver presente
- [SC-35081] Desativar a verificação de obsolescência para ficheiros de tabelas Delta nos cache de disco
- [SC-70640] Corrigir NPE quando a resposta EventGridClient não tem entidade
- [SC-70220][SQL] Não gere recomendações para o número de partições de shuffle quando o AOS estiver ativado
24 de fevereiro de 2021
- Atualizámos o conector Spark BigQuery para a v0.18, que introduziu várias correções de erros e suporte para iteradores Arrow e Avro.
- Corrigido um problema de correção que fazia com que o Spark retornasse resultados incorretos quando a precisão decimal e a escala do arquivo Parquet eram diferentes do esquema do Spark.
- Corrigido o problema de falha de leitura em tabelas do Microsoft SQL Server que contêm tipos de dados espaciais, adicionando suporte a tipos JDBC de geometria e geografia para o Spark SQL.
- Introduzida uma nova configuração
spark.databricks.hive.metastore.init.reloadFunctions.enabled
. Essa configuração controla a inicialização integrada do Hive. Quando definido como true, o Azure Databricks recarrega todas as funções de todos os bancos de dados que os usuários têm noFunctionRegistry
. Este é o comportamento padrão no Hive Metastore. Quando definido como false, o Azure Databricks desabilita esse processo para otimização. - [FAÍSCA-34212] Corrigidos problemas relacionados à leitura de dados decimais de arquivos Parquet.
- [SPARK-33579][UI] Corrigir a página em branco do executante atrás do proxy.
- [SPARK-20044][UI] Suporte ao Spark UI atrás de um proxy reverso de frontend usando um prefixo de caminho.
- [SPARK-33277][PYSPARK][SQL] Use ContextAwareIterator para parar de consumir após o término da tarefa.
4 de fevereiro de 2021
- Corrigida uma regressão que impede a execução incremental de uma consulta que define um limite global, como
SELECT * FROM table LIMIT nrows
. A regressão foi experimentada por usuários que executam consultas via ODBC/JDBC com a serialização de seta habilitada. - Corrigida uma regressão que fazia com que o DBFS FUSE falhasse ao iniciar quando as configurações de variáveis de ambiente de cluster contivessem sintaxe bash inválida.
- Corrigida uma regressão que impede a execução incremental de uma consulta que define um limite global, como
20 de janeiro de 2021
- Corrigido um erro de regressão na versão de manutenção de 12 de janeiro de 2021 que pode causar uma AnalysisException incorrecta, indicando que a coluna é ambígua numa auto junção. Essa regressão acontece quando um usuário ingressa em um DataFrame com seu DataFrame derivado (a chamada autoassociação) com as seguintes condições:
- Esses dois DataFrames têm colunas comuns, mas a saída da junção automática não tem colunas comuns. Por exemplo,
df.join(df.select($"col" as "new_col"), cond)
- O DataFrame derivado exclui algumas colunas via select, groupBy ou window.
- A condição de junção ou a seguinte transformação após o Dataframe unido refere-se às colunas não comuns. Por exemplo,
df.join(df.drop("a"), df("a") === 1)
- Esses dois DataFrames têm colunas comuns, mas a saída da junção automática não tem colunas comuns. Por exemplo,
- Corrigido um erro de regressão na versão de manutenção de 12 de janeiro de 2021 que pode causar uma AnalysisException incorrecta, indicando que a coluna é ambígua numa auto junção. Essa regressão acontece quando um usuário ingressa em um DataFrame com seu DataFrame derivado (a chamada autoassociação) com as seguintes condições:
12 de janeiro de 2021
- Atualizações de segurança do sistema operacional.
- [FAÍSCA-33593][SQL] Leitor vetorial obteve dados incorretos com um valor de partição binária
- [SPARK-33677][SQL] Saltar a regra LikeSimplification se o padrão contiver qualquer escapeChar
- [SPARK-33071][SPARK-33536][SQL] Evitar alterar dataset_id de LogicalPlan em join() para não comprometer DetectAmbiguousSelfJoin
8 de dezembro de 2020
- [SPARK-33587][CORE] Terminar o executor em erros fatais aninhados
- [SPARK-27421][SQL] Corrigir filtro para coluna int e classe de valor java.lang.String ao filtrar coluna de partição
- [SPARK-33316][SQL] Suporte ao esquema Avro anulável fornecido pelo utilizador para esquema Catalyst não anulável na escrita Avro
- Atualizações de segurança do sistema operacional.
- 1 de dezembro de 2020
-
[SPARK-33404][SQL][3.0] Corrigir resultados incorretos na
date_trunc
expressão - [FAÍSCA-33339][PYTHON] O aplicativo Pyspark travará devido a um erro que não é do tipo Exception.
- [SPARK-33183][SQL][HOTFIX] Corrigir a regra do Optimizer EliminateSorts e adicionar uma regra física para remover ordenações redundantes
- [SPARK-33371][PYTHON][3.0] Atualizar setup.py e testes para Python 3.9
- [SPARK-33391][SQL] element_at com CreateArray não respeita um índice baseado em um.
- [SPARK-33306][SQL]É necessário especificar o fuso horário ao converter uma data para uma cadeia de caracteres
- [SPARK-33260][SQL] Corrigir resultados incorretos do SortExec quando sortOrder é Stream
- [SPARK-33272][SQL] podar o mapeamento de atributos em QueryPlan.transformUpWithNewOutput
-
[SPARK-33404][SQL][3.0] Corrigir resultados incorretos na
Tempo de execução do Databricks 7.2 (EoS)
Consulte Databricks Runtime 7.2 (EoS).
- 4 de fevereiro de 2021
- Corrigida uma regressão que impede a execução incremental de uma consulta que define um limite global, como
SELECT * FROM table LIMIT nrows
. A regressão foi experimentada por usuários que executam consultas via ODBC/JDBC com a serialização de seta habilitada. - Corrigida uma regressão que fazia com que o DBFS FUSE falhasse ao iniciar quando as configurações de variáveis de ambiente de cluster contivessem sintaxe bash inválida.
- Corrigida uma regressão que impede a execução incremental de uma consulta que define um limite global, como
- 20 de janeiro de 2021
- Corrigido um erro de regressão na versão de manutenção de 12 de janeiro de 2021 que pode causar uma AnalysisException incorrecta, indicando que a coluna é ambígua numa auto junção. Essa regressão acontece quando um usuário ingressa em um DataFrame com seu DataFrame derivado (a chamada autoassociação) com as seguintes condições:
- Esses dois DataFrames têm colunas comuns, mas a saída da junção automática não tem colunas comuns. Por exemplo,
df.join(df.select($"col" as "new_col"), cond)
- O DataFrame derivado exclui algumas colunas via select, groupBy ou window.
- A condição de junção ou a seguinte transformação após o Dataframe unido refere-se às colunas não comuns. Por exemplo,
df.join(df.drop("a"), df("a") === 1)
- Esses dois DataFrames têm colunas comuns, mas a saída da junção automática não tem colunas comuns. Por exemplo,
- Corrigido um erro de regressão na versão de manutenção de 12 de janeiro de 2021 que pode causar uma AnalysisException incorrecta, indicando que a coluna é ambígua numa auto junção. Essa regressão acontece quando um usuário ingressa em um DataFrame com seu DataFrame derivado (a chamada autoassociação) com as seguintes condições:
- 12 de janeiro de 2021
- Atualizações de segurança do sistema operacional.
- [FAÍSCA-33593][SQL] Leitor vetorial obteve dados incorretos com um valor de partição binária
- [SPARK-33677][SQL] Saltar a regra LikeSimplification se o padrão contiver qualquer escapeChar
- [SPARK-33071][SPARK-33536][SQL] Evitar alterar dataset_id de LogicalPlan em join() para não comprometer DetectAmbiguousSelfJoin
- 8 de dezembro de 2020
- [SPARK-27421][SQL] Corrigir filtro para coluna int e classe de valor java.lang.String ao filtrar coluna de partição
-
[SPARK-33404][SQL] Corrigir resultados incorretos na expressão
date_trunc
- [FAÍSCA-33339][PYTHON] O aplicativo Pyspark travará devido a um erro que não é do tipo Exception.
- [SPARK-33183][SQL] Corrigir a regra do otimizador EliminateSorts e adicionar uma regra física para remover ordenações redundantes
- [SPARK-33391][SQL] element_at com CreateArray não respeita um índice baseado em um.
- Atualizações de segurança do sistema operacional.
- 1 de dezembro de 2020
- [SPARK-33306][SQL]É necessário especificar o fuso horário ao converter uma data para uma cadeia de caracteres
- [SPARK-33260][SQL] Corrigir resultados incorretos do SortExec quando sortOrder é Stream
- 3 de novembro de 2020
- Versão Java atualizada de 1.8.0_252 para 1.8.0_265.
- Corrija o bloqueio ABFS e WASB em relação a UserGroupInformation.getCurrentUser()
- Corrigir um erro de loop infinito do leitor Avro ao ler os bytes MAGIC.
- 13 de outubro de 2020
- Atualizações de segurança do sistema operacional.
- [SPARK-32999][SQL] Use Utils.getSimpleName para evitar encontrar um nome de classe malformado em TreeNode
- Diretórios de listagem fixos na montagem FUSE que contêm nomes de arquivo com caracteres XML inválidos
- A montagem FUSE não usa mais ListMultipartUploads
- 29 de setembro de 2020
- [SPARK-28863][SQL][WARMFIX] Introduzir AlreadyOptimized para evitar a reanálise de V1FallbackWriters
- [SPARK-32635][SQL] Corrigir propagação de elementos dobráveis
- Adicione uma nova configuração
spark.shuffle.io.decoder.consolidateThreshold
. Defina o valor de configuração comoLong.MAX_VALUE
para pular a consolidação dos netty FrameBuffers, o que impedejava.lang.IndexOutOfBoundsException
em casos extremos.
- 24 de setembro de 2020
- [SPARK-32764][SQL] -0.0 deve ser igual a 0.0
- [SPARK-32753][SQL] Copiar tags apenas para o nó sem tags ao transformar planos
- [SPARK-32659][SQL] Corrigir o problema de dados na poda de partição dinâmica inserida em tipo não atômico.
- Atualizações de segurança do sistema operacional.
- 8 de setembro de 2020
- Um novo parâmetro foi criado para o Azure Synapse Analytics,
maxbinlength
. Este parâmetro é usado para controlar o comprimento da coluna de colunas BinaryType e é traduzido comoVARBINARY(maxbinlength)
. Pode ser definido usando.option("maxbinlength", n)
, onde 0 < n <= 8000.
- Um novo parâmetro foi criado para o Azure Synapse Analytics,
Tempo de execução do Databricks 7.1 (EoS)
Consulte Databricks Runtime 7.1 (EoS).
- 4 de fevereiro de 2021
- Corrigida uma regressão que fazia com que o DBFS FUSE falhasse ao iniciar quando as configurações de variáveis de ambiente de cluster contivessem sintaxe bash inválida.
- 20 de janeiro de 2021
- Corrigido um erro de regressão na versão de manutenção de 12 de janeiro de 2021 que pode causar uma AnalysisException incorrecta, indicando que a coluna é ambígua numa auto junção. Essa regressão acontece quando um usuário ingressa em um DataFrame com seu DataFrame derivado (a chamada autoassociação) com as seguintes condições:
- Esses dois DataFrames têm colunas comuns, mas a saída da junção automática não tem colunas comuns. Por exemplo,
df.join(df.select($"col" as "new_col"), cond)
- O DataFrame derivado exclui algumas colunas via select, groupBy ou window.
- A condição de junção ou a seguinte transformação após o Dataframe unido refere-se às colunas não comuns. Por exemplo,
df.join(df.drop("a"), df("a") === 1)
- Esses dois DataFrames têm colunas comuns, mas a saída da junção automática não tem colunas comuns. Por exemplo,
- Corrigido um erro de regressão na versão de manutenção de 12 de janeiro de 2021 que pode causar uma AnalysisException incorrecta, indicando que a coluna é ambígua numa auto junção. Essa regressão acontece quando um usuário ingressa em um DataFrame com seu DataFrame derivado (a chamada autoassociação) com as seguintes condições:
- 12 de janeiro de 2021
- Atualizações de segurança do sistema operacional.
- [FAÍSCA-33593][SQL] Leitor vetorial obteve dados incorretos com um valor de partição binária
- [SPARK-33677][SQL] Saltar a regra LikeSimplification se o padrão contiver qualquer escapeChar
- [SPARK-33071][SPARK-33536][SQL] Evitar alterar dataset_id de LogicalPlan em join() para não comprometer DetectAmbiguousSelfJoin
- 8 de dezembro de 2020
- [SPARK-27421][SQL] Corrigir filtro para coluna int e classe de valor java.lang.String ao filtrar coluna de partição
- Os Spark Jobs lançados usando o Databricks Connect podem travar indefinidamente com o rastreamento de pilha do executor
Executor$TaskRunner.$anonfun$copySessionState
. - Atualizações de segurança do sistema operacional.
- 1 de dezembro de 2020
-
[SPARK-33404][SQL][3.0] Corrigir resultados incorretos na
date_trunc
expressão - [FAÍSCA-33339][PYTHON] O aplicativo Pyspark travará devido a um erro que não é do tipo Exception.
- [SPARK-33183][SQL][HOTFIX] Corrigir a regra do Optimizer EliminateSorts e adicionar uma regra física para remover ordenações redundantes
- [SPARK-33371][PYTHON][3.0] Atualizar setup.py e testes para Python 3.9
- [SPARK-33391][SQL] element_at com CreateArray não respeita um índice baseado em um.
- [SPARK-33306][SQL]É necessário especificar o fuso horário ao converter uma data para uma cadeia de caracteres
-
[SPARK-33404][SQL][3.0] Corrigir resultados incorretos na
- 3 de novembro de 2020
- Versão Java atualizada de 1.8.0_252 para 1.8.0_265.
- Corrija o bloqueio ABFS e WASB em relação a UserGroupInformation.getCurrentUser()
- Corrigir um erro de loop infinito do leitor Avro ao ler os bytes MAGIC.
- 13 de outubro de 2020
- Atualizações de segurança do sistema operacional.
- [SPARK-32999][SQL] Use Utils.getSimpleName para evitar encontrar um nome de classe malformado em TreeNode
- Diretórios de listagem fixos na montagem FUSE que contêm nomes de arquivo com caracteres XML inválidos
- A montagem FUSE não usa mais ListMultipartUploads
- 29 de setembro de 2020
- [SPARK-28863][SQL][WARMFIX] Introduzir AlreadyOptimized para evitar a reanálise de V1FallbackWriters
- [SPARK-32635][SQL] Corrigir propagação de elementos dobráveis
- Adicione uma nova configuração
spark.shuffle.io.decoder.consolidateThreshold
. Defina o valor de configuração comoLong.MAX_VALUE
para pular a consolidação dos netty FrameBuffers, o que impedejava.lang.IndexOutOfBoundsException
em casos extremos.
- 24 de setembro de 2020
- [SPARK-32764][SQL] -0.0 deve ser igual a 0.0
- [SPARK-32753][SQL] Copiar tags apenas para o nó sem tags ao transformar planos
- [SPARK-32659][SQL] Corrigir o problema de dados na poda de partição dinâmica inserida em tipo não atômico.
- Atualizações de segurança do sistema operacional.
- 8 de setembro de 2020
- Um novo parâmetro foi criado para o Azure Synapse Analytics,
maxbinlength
. Este parâmetro é usado para controlar o comprimento da coluna de colunas BinaryType e é traduzido comoVARBINARY(maxbinlength)
. Pode ser definido usando.option("maxbinlength", n)
, onde 0 < n <= 8000.
- Um novo parâmetro foi criado para o Azure Synapse Analytics,
- 25 de agosto de 2020
-
[SPARK-32159][SQL] Corrigir a integração entre
Aggregator[Array[_], _, _]
eUnresolvedMapObjects
-
[SPARK-32559][SQL] Corrija a lógica de corte no
UTF8String.toInt/toLong
, que não manipulava caracteres não-ASCII corretamente -
[FAÍSCA-32543][R] Remover
arrow::as_tibble
o uso no SparkR - [SPARK-32091][CORE] Ignorar erro de tempo limite ao remover blocos no executor perdido
- Corrigido um problema que afetava o conector Synapse do Azure com credenciais MSI
- Resolução de atributos ambíguos fixa na automesclagem
-
[SPARK-32159][SQL] Corrigir a integração entre
- 18 de agosto de 2020
- [SPARK-32594][SQL] Corrigir a serialização de datas inseridas em tabelas do Hive
- [SPARK-32237][SQL] Resolver hint no CTE
- [SPARK-32431][SQL] Verificar colunas aninhadas duplicadas ao ler de fontes de dados internas
- [SPARK-32467][UI] Evitar a codificação de URL duas vezes no redirecionamento https
- Corrigida uma condição de corrida no conector AQS ao usar Trigger.Once.
- 11 de agosto de 2020
- [FAÍSCA-32280][FAÍSCA-32372][SQL] ResolveReferences.dedupRight só deve reescrever atributos para nós ancestrais do plano de conflito
- [FAÍSCA-32234][SQL] Os comandos do Spark SQL estão falhando na seleção das tabelas ORC
- 3 de agosto de 2020
- Pode agora usar a função de transformação LDA num cluster com funcionalidade de passagem.
Tempo de execução do Databricks 7.0 (EoS)
Consulte Databricks Runtime 7.0 (EoS).
- 4 de fevereiro de 2021
- Corrigida uma regressão que fazia com que o DBFS FUSE falhasse ao iniciar quando as configurações de variáveis de ambiente de cluster contivessem sintaxe bash inválida.
- 20 de janeiro de 2021
- Corrigido um erro de regressão na versão de manutenção de 12 de janeiro de 2021 que pode causar uma AnalysisException incorrecta, indicando que a coluna é ambígua numa auto junção. Essa regressão acontece quando um usuário ingressa em um DataFrame com seu DataFrame derivado (a chamada autoassociação) com as seguintes condições:
- Esses dois DataFrames têm colunas comuns, mas a saída da junção automática não tem colunas comuns. Por exemplo,
df.join(df.select($"col" as "new_col"), cond)
- O DataFrame derivado exclui algumas colunas via select, groupBy ou window.
- A condição de junção ou a seguinte transformação após o Dataframe unido refere-se às colunas não comuns. Por exemplo,
df.join(df.drop("a"), df("a") === 1)
- Esses dois DataFrames têm colunas comuns, mas a saída da junção automática não tem colunas comuns. Por exemplo,
- Corrigido um erro de regressão na versão de manutenção de 12 de janeiro de 2021 que pode causar uma AnalysisException incorrecta, indicando que a coluna é ambígua numa auto junção. Essa regressão acontece quando um usuário ingressa em um DataFrame com seu DataFrame derivado (a chamada autoassociação) com as seguintes condições:
- 12 de janeiro de 2021
- Atualizações de segurança do sistema operacional.
- [FAÍSCA-33593][SQL] Leitor vetorial obteve dados incorretos com um valor de partição binária
- [SPARK-33677][SQL] Saltar a regra LikeSimplification se o padrão contiver qualquer escapeChar
- [SPARK-33071][SPARK-33536][SQL] Evitar alterar dataset_id de LogicalPlan em join() para não comprometer DetectAmbiguousSelfJoin
- 8 de dezembro de 2020
- [SPARK-27421][SQL] Corrigir filtro para coluna int e classe de valor java.lang.String ao filtrar coluna de partição
-
[SPARK-33404][SQL] Corrigir resultados incorretos na expressão
date_trunc
- [FAÍSCA-33339][PYTHON] O aplicativo Pyspark travará devido a um erro que não é do tipo Exception.
- [SPARK-33183][SQL] Corrigir a regra do otimizador EliminateSorts e adicionar uma regra física para remover ordenações redundantes
- [SPARK-33391][SQL] element_at com CreateArray não respeita um índice baseado em um.
- Atualizações de segurança do sistema operacional.
- 1 de dezembro de 2020
- [SPARK-33306][SQL]É necessário especificar o fuso horário ao converter uma data para uma cadeia de caracteres
- 3 de novembro de 2020
- Versão Java atualizada de 1.8.0_252 para 1.8.0_265.
- Corrija o bloqueio ABFS e WASB em relação a UserGroupInformation.getCurrentUser()
- Corrigir um erro de loop infinito do leitor Avro ao ler os bytes MAGIC.
- 13 de outubro de 2020
- Atualizações de segurança do sistema operacional.
- [SPARK-32999][SQL] Use Utils.getSimpleName para evitar encontrar um nome de classe malformado em TreeNode
- Diretórios de listagem fixos na montagem FUSE que contêm nomes de arquivo com caracteres XML inválidos
- A montagem FUSE não usa mais ListMultipartUploads
- 29 de setembro de 2020
- [SPARK-28863][SQL][WARMFIX] Introduzir AlreadyOptimized para evitar a reanálise de V1FallbackWriters
- [SPARK-32635][SQL] Corrigir propagação de elementos dobráveis
- Adicione uma nova configuração
spark.shuffle.io.decoder.consolidateThreshold
. Defina o valor de configuração comoLong.MAX_VALUE
para pular a consolidação dos netty FrameBuffers, o que impedejava.lang.IndexOutOfBoundsException
em casos extremos.
- 24 de setembro de 2020
- [SPARK-32764][SQL] -0.0 deve ser igual a 0.0
- [SPARK-32753][SQL] Copiar tags apenas para o nó sem tags ao transformar planos
- [SPARK-32659][SQL] Corrigir o problema de dados na poda de partição dinâmica inserida em tipo não atômico.
- Atualizações de segurança do sistema operacional.
- 8 de setembro de 2020
- Um novo parâmetro foi criado para o Azure Synapse Analytics,
maxbinlength
. Este parâmetro é usado para controlar o comprimento da coluna de colunas BinaryType e é traduzido comoVARBINARY(maxbinlength)
. Pode ser definido usando.option("maxbinlength", n)
, onde 0 < n <= 8000.
- Um novo parâmetro foi criado para o Azure Synapse Analytics,
- 25 de agosto de 2020
-
[SPARK-32159][SQL] Corrigir a integração entre
Aggregator[Array[_], _, _]
eUnresolvedMapObjects
-
[SPARK-32559][SQL] Corrija a lógica de corte no
UTF8String.toInt/toLong
, que não manipulava caracteres não-ASCII corretamente -
[FAÍSCA-32543][R] Remover
arrow::as_tibble
o uso no SparkR - [SPARK-32091][CORE] Ignorar erro de tempo limite ao remover blocos no executor perdido
- Corrigido um problema que afetava o conector Synapse do Azure com credenciais MSI
- Resolução de atributos ambíguos fixa na automesclagem
-
[SPARK-32159][SQL] Corrigir a integração entre
- 18 de agosto de 2020
- [SPARK-32594][SQL] Corrigir a serialização de datas inseridas em tabelas do Hive
- [SPARK-32237][SQL] Resolver hint no CTE
- [SPARK-32431][SQL] Verificar colunas aninhadas duplicadas ao ler de fontes de dados internas
- [SPARK-32467][UI] Evitar a codificação de URL duas vezes no redirecionamento https
- Corrigida uma condição de corrida no conector AQS ao usar Trigger.Once.
- 11 de agosto de 2020
- [FAÍSCA-32280][FAÍSCA-32372][SQL] ResolveReferences.dedupRight só deve reescrever atributos para nós ancestrais do plano de conflito
- [FAÍSCA-32234][SQL] Os comandos do Spark SQL estão falhando na seleção das tabelas ORC
- Pode agora usar a função de transformação LDA num cluster com funcionalidade de passagem.
Tempo de execução do Databricks 6.6 (EoS)
Consulte Databricks Runtime 6.6 (EoS).
- 1 de dezembro de 2020
- [SPARK-33260][SQL] Corrigir resultados incorretos do SortExec quando sortOrder é Stream
- [SPARK-32635][SQL] Corrigir propagação de elementos dobráveis
- 3 de novembro de 2020
- Versão Java atualizada de 1.8.0_252 para 1.8.0_265.
- Corrija o bloqueio ABFS e WASB em relação a UserGroupInformation.getCurrentUser()
- Corrigir um erro de loop infinito do leitor Avro ao ler os bytes MAGIC.
- 13 de outubro de 2020
- Atualizações de segurança do sistema operacional.
- [SPARK-32999][SQL][2.4] Use Utils.getSimpleName para evitar encontrar nome de classe defeituoso no TreeNode
- Diretórios de listagem fixos na montagem FUSE que contêm nomes de arquivo com caracteres XML inválidos
- A montagem FUSE não usa mais ListMultipartUploads
- 24 de setembro de 2020
- Atualizações de segurança do sistema operacional.
- 8 de setembro de 2020
- Um novo parâmetro foi criado para o Azure Synapse Analytics,
maxbinlength
. Este parâmetro é usado para controlar o comprimento da coluna de colunas BinaryType e é traduzido comoVARBINARY(maxbinlength)
. Pode ser definido usando.option("maxbinlength", n)
, onde 0 < n <= 8000. - Atualize o SDK de Armazenamento do Azure para 8.6.4 e habilite o TCP keep alive em conexões feitas pelo driver WASB
- Um novo parâmetro foi criado para o Azure Synapse Analytics,
- 25 de agosto de 2020
- Resolução de atributos ambíguos fixa na automesclagem
- 18 de agosto de 2020
- [SPARK-32431][SQL] Verificar colunas aninhadas duplicadas ao ler de fontes de dados internas
- Corrigida uma condição de corrida no conector AQS ao usar Trigger.Once.
- 11 de agosto de 2020
- [SPARK-28676][CORE] Evite o log excessivo do ContextCleaner
- [FAÍSCA-31967][UI] Fazer downgrade para vis.js 4.21.0 para corrigir a regressão no tempo de carregamento da UI de Jobs
- 3 de agosto de 2020
- Pode agora usar a função de transformação LDA num cluster com funcionalidade de passagem.
- Atualizações de segurança do sistema operacional.
Tempo de execução do Databricks 6.5 (EoS)
Consulte Databricks Runtime 6.5 (EoS).
- 24 de setembro de 2020
- Corrigida uma limitação anterior em que a passagem no cluster padrão ainda restringia a implementação do sistema de arquivos que o usuário usa. Agora, os usuários poderiam acessar sistemas de arquivos locais sem restrições.
- Atualizações de segurança do sistema operacional.
- 8 de setembro de 2020
- Um novo parâmetro foi criado para o Azure Synapse Analytics,
maxbinlength
. Este parâmetro é usado para controlar o comprimento da coluna de colunas BinaryType e é traduzido comoVARBINARY(maxbinlength)
. Pode ser definido usando.option("maxbinlength", n)
, onde 0 < n <= 8000. - Atualize o SDK de Armazenamento do Azure para 8.6.4 e habilite o TCP keep alive em conexões feitas pelo driver WASB
- Um novo parâmetro foi criado para o Azure Synapse Analytics,
- 25 de agosto de 2020
- Resolução de atributos ambíguos fixa na automesclagem
- 18 de agosto de 2020
- [SPARK-32431][SQL] Verificar colunas aninhadas duplicadas ao ler de fontes de dados internas
- Corrigida uma condição de corrida no conector AQS ao usar Trigger.Once.
- 11 de agosto de 2020
- [SPARK-28676][CORE] Evite o log excessivo do ContextCleaner
- 3 de agosto de 2020
- Pode agora usar a função de transformação LDA num cluster com funcionalidade de passagem.
- Atualizações de segurança do sistema operacional.
- 7 de julho de 2020
- Versão Java atualizada de 1.8.0_242 para 1.8.0_252.
- 21 de abril de 2020
- [SPARK-31312][SQL] Guardar instância da classe em cache para a instância de UDF em HiveFunctionWrapper
Tempo de execução do Databricks 6.3 (EoS)
Consulte Databricks Runtime 6.3 (EoS).
7 de julho de 2020
- Versão Java atualizada de 1.8.0_232 para 1.8.0_252.
21 de abril de 2020
- [SPARK-31312][SQL] Guardar instância da classe em cache para a instância de UDF em HiveFunctionWrapper
7 de abril de 2020
- Para resolver um problema com pandas udf não funcionando com o PyArrow 0.15.0 e superior, adicionamos uma variável de ambiente (
ARROW_PRE_0_15_IPC_FORMAT=1
) para habilitar o suporte para essas versões do PyArrow. Consulte as instruções em [SPARK-29367].
- Para resolver um problema com pandas udf não funcionando com o PyArrow 0.15.0 e superior, adicionamos uma variável de ambiente (
10 de março de 2020
- O conector Snowflake (
spark-snowflake_2.11
) incluído no Databricks Runtime é atualizado para a versão 2.5.9.snowflake-jdbc
é atualizado para a versão 3.12.0.
- O conector Snowflake (
18 de fevereiro de 2020
- A passagem de credenciais com o ADLS tem uma degradação de desempenho devido ao tratamento local de thread incorreto quando a pré-busca do cliente ADLS está habilitada. Esta versão desativa a pré-busca do ADLS com passagem de credenciais ativada, até que tenhamos uma solução adequada.
11 de fevereiro de 2020
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 deveria lançar exceção
- [SPARK-30447][SQL] Problema de nulabilidade na propagação de constantes
- [SPARK-28152][SQL] Adicione uma configuração de legado para mapeamento numérico do dialeto antigo do MsSqlServer
- Permitiu na lista a função overwrite para que o MLModels, que estende MLWriter, pudesse chamar a função.
Databricks Runtime 6.2 (EoS)
Consulte Databricks Runtime 6.2 (EoS).
21 de abril de 2020
- [SPARK-31312][SQL] Guardar instância da classe em cache para a instância de UDF em HiveFunctionWrapper
7 de abril de 2020
- Para resolver um problema com pandas udf não funcionando com o PyArrow 0.15.0 e superior, adicionamos uma variável de ambiente (
ARROW_PRE_0_15_IPC_FORMAT=1
) para habilitar o suporte para essas versões do PyArrow. Consulte as instruções em [SPARK-29367].
- Para resolver um problema com pandas udf não funcionando com o PyArrow 0.15.0 e superior, adicionamos uma variável de ambiente (
25 de março de 2020
- A saída do trabalho, como a saída de log emitida para stdout, está sujeita a um limite de tamanho de 20MB. Se a saída total tiver um tamanho maior, a execução será cancelada e marcada como falha. Para evitar encontrar esse limite, o utilizador pode impedir o retorno de stdout do driver ao definir a configuração do
spark.databricks.driver.disableScalaOutput
Spark comotrue
. Por padrão, o valor do sinalizador éfalse
. O sinalizador controla a saída da célula para trabalhos JAR Scala e notebooks Scala. Se o sinalizador estiver habilitado, o Spark não retornará os resultados da execução do trabalho para o cliente. O sinalizador não afeta os dados gravados nos arquivos de log do cluster. A configuração desta flag é recomendada apenas para clusters automatizados para trabalhos JAR, pois desativará os resultados do notebook.
- A saída do trabalho, como a saída de log emitida para stdout, está sujeita a um limite de tamanho de 20MB. Se a saída total tiver um tamanho maior, a execução será cancelada e marcada como falha. Para evitar encontrar esse limite, o utilizador pode impedir o retorno de stdout do driver ao definir a configuração do
10 de março de 2020
- O conector Snowflake (
spark-snowflake_2.11
) incluído no Databricks Runtime é atualizado para a versão 2.5.9.snowflake-jdbc
é atualizado para a versão 3.12.0.
- O conector Snowflake (
18 de fevereiro de 2020
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 deveria lançar exceção
- A passagem de credenciais com o ADLS tem uma degradação de desempenho devido ao tratamento local de thread incorreto quando a pré-busca do cliente ADLS está habilitada. Esta versão desativa a pré-busca do ADLS com passagem de credenciais ativada, até que tenhamos uma solução adequada.
28 de janeiro de 2020
- Função de sobrescrever dos gravadores de modelo de ML autorizados para clusters habilitados para transmissão de credenciais, para que o salvamento de modelo possa usar o modo de sobrescrever em clusters de transmissão de credenciais.
- [SPARK-30447][SQL] Problema de nulidade na propagação constante.
- [FAÍSCA-28152][SQL] Adicione um conf herdado para mapeamento numérico MsSqlServerDialect antigo.
14/01/2020
- Versão Java atualizada de 1.8.0_222 para 1.8.0_232.
Dezembro 10, 2019
- [SPARK-29904][SQL] Analise carimbos de data/hora com precisão de microssegundos nas fontes de dados JSON/CSV.
Tempo de execução do Databricks 6.1 (EoS)
Consulte Databricks Runtime 6.1 (EoS).
7 de abril de 2020
- Para resolver um problema com pandas udf não funcionando com o PyArrow 0.15.0 e superior, adicionamos uma variável de ambiente (
ARROW_PRE_0_15_IPC_FORMAT=1
) para habilitar o suporte para essas versões do PyArrow. Consulte as instruções em [SPARK-29367].
- Para resolver um problema com pandas udf não funcionando com o PyArrow 0.15.0 e superior, adicionamos uma variável de ambiente (
25 de março de 2020
- A saída do trabalho, como a saída de log emitida para stdout, está sujeita a um limite de tamanho de 20MB. Se a saída total tiver um tamanho maior, a execução será cancelada e marcada como falha. Para evitar encontrar esse limite, o utilizador pode impedir o retorno de stdout do driver ao definir a configuração do
spark.databricks.driver.disableScalaOutput
Spark comotrue
. Por padrão, o valor do sinalizador éfalse
. O sinalizador controla a saída da célula para trabalhos JAR Scala e notebooks Scala. Se o sinalizador estiver habilitado, o Spark não retornará os resultados da execução do trabalho para o cliente. O sinalizador não afeta os dados gravados nos arquivos de log do cluster. A configuração desta flag é recomendada apenas para clusters automatizados para trabalhos JAR, pois desativará os resultados do notebook.
- A saída do trabalho, como a saída de log emitida para stdout, está sujeita a um limite de tamanho de 20MB. Se a saída total tiver um tamanho maior, a execução será cancelada e marcada como falha. Para evitar encontrar esse limite, o utilizador pode impedir o retorno de stdout do driver ao definir a configuração do
10 de março de 2020
- O conector Snowflake (
spark-snowflake_2.11
) incluído no Databricks Runtime é atualizado para a versão 2.5.9.snowflake-jdbc
é atualizado para a versão 3.12.0.
- O conector Snowflake (
18 de fevereiro de 2020
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 deveria lançar exceção
- A passagem de credenciais com o ADLS tem uma degradação de desempenho devido ao tratamento local de thread incorreto quando a pré-busca do cliente ADLS está habilitada. Esta versão desativa a pré-busca do ADLS com passagem de credenciais ativada, até que tenhamos uma solução adequada.
28 de janeiro de 2020
- [SPARK-30447][SQL] Problema de nulidade na propagação constante.
- [FAÍSCA-28152][SQL] Adicione um conf herdado para mapeamento numérico MsSqlServerDialect antigo.
14/01/2020
- Versão Java atualizada de 1.8.0_222 para 1.8.0_232.
Novembro 7, 2019
- [SPARK-29743][SQL] exemplo deve definir needCopyResult como true se needCopyResult de seu filho for true.
- Segredos referenciados a partir de propriedades de configuração do Spark e variáveis de ambiente na Pré-visualização Pública. Consulte Usar um segredo numa propriedade de configuração do Spark ou numa variável de ambiente.
Novembro 5, 2019
- Corrigido um bug no DBFS FUSE para lidar com pontos de montagem que tinham
//
em seu caminho. - [SPARK-29081] Substituir chamadas para SerializationUtils.clone em propriedades por uma implementação mais rápida
- [SPARK-29244][CORE] Impedir que uma página já liberada em BytesToBytesMap seja liberada novamente
- (6,1 ML) Library mkl versão 2019.4 foi instalado sem intenção. Nós o rebaixamos para a versão mkl 2019.3 para corresponder ao Anaconda Distribution 2019.03.
- Corrigido um bug no DBFS FUSE para lidar com pontos de montagem que tinham
Tempo de execução do Databricks 6.0 (EoS)
Consulte Databricks Runtime 6.0 (EoS).
25 de março de 2020
- A saída do trabalho, como a saída de log emitida para stdout, está sujeita a um limite de tamanho de 20MB. Se a saída total tiver um tamanho maior, a execução será cancelada e marcada como falha. Para evitar encontrar esse limite, o utilizador pode impedir o retorno de stdout do driver ao definir a configuração do
spark.databricks.driver.disableScalaOutput
Spark comotrue
. Por padrão, o valor do sinalizador éfalse
. O sinalizador controla a saída da célula para trabalhos JAR Scala e notebooks Scala. Se o sinalizador estiver habilitado, o Spark não retornará os resultados da execução do trabalho para o cliente. O sinalizador não afeta os dados gravados nos arquivos de log do cluster. A configuração desta flag é recomendada apenas para clusters automatizados para trabalhos JAR, pois desativará os resultados do notebook.
- A saída do trabalho, como a saída de log emitida para stdout, está sujeita a um limite de tamanho de 20MB. Se a saída total tiver um tamanho maior, a execução será cancelada e marcada como falha. Para evitar encontrar esse limite, o utilizador pode impedir o retorno de stdout do driver ao definir a configuração do
18 de fevereiro de 2020
- A passagem de credenciais com o ADLS tem uma degradação de desempenho devido ao tratamento local de thread incorreto quando a pré-busca do cliente ADLS está habilitada. Esta versão desativa a pré-busca do ADLS com passagem de credenciais ativada, até que tenhamos uma solução adequada.
11 de fevereiro de 2020
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 deveria lançar exceção
28 de janeiro de 2020
- [SPARK-30447][SQL] Problema de nulidade na propagação constante.
- [FAÍSCA-28152][SQL] Adicione um conf herdado para mapeamento numérico MsSqlServerDialect antigo.
14/01/2020
- Versão Java atualizada de 1.8.0_222 para 1.8.0_232.
Novembro 19, 2019
- [SPARK-29743] [SQL] o exemplo deve definir needCopyResult como true se o needCopyResult do seu filho for true
Novembro 5, 2019
-
dbutils.tensorboard.start()
agora suporta TensorBoard 2.0 (se instalado manualmente). - Corrigido um bug no DBFS FUSE para lidar com pontos de montagem que tinham
//
em seu caminho. - [SPARK-29081] Substituir chamadas a SerializationUtils.clone nas propriedades por uma implementação mais rápida
-
Outubro 23, 2019
- [SPARK-29244][CORE] Impedir que uma página já liberada em BytesToBytesMap seja liberada novamente
8 de outubro de 2019
- Alterações do lado do servidor para permitir que o driver ODBC Simba Apache Spark se reconecte e continue após uma falha de conexão durante a busca de resultados (requer o driver ODBC Simba Apache Spark versão 2.6.10).
- Corrigido um problema que afetava o uso do comando
Optimize
com clusters ativados de ACL de tabela. - Corrigido um problema em que
pyspark.ml
as bibliotecas falhavam devido ao erro proibido do Scala UDF na ACL da tabela e nos clusters habilitados para passagem de credenciais. - Métodos Allowlisted SerDe/SerDeUtil para passagem de credenciais.
- Corrigido NullPointerException ao verificar o código de erro no cliente WASB.
- Corrigido o problema em que as credenciais do usuário não eram encaminhadas para trabalhos criados pelo
dbutils.notebook.run()
.
Databricks Runtime 5,4 ML (EoS)
Consulte Databricks Runtime 5.4 para ML (EoS).
- Junho 18, 2019
- Tratamento aprimorado de execuções ativas do MLflow na integração do Hyperopt
- Mensagens melhoradas no Hyperopt
- Pacote
Marchkdown
atualizado de 3.1 para 3.1.1
Tempo de execução do Databricks 5.4 (EoS)
Consulte Databricks Runtime 5.4 (EoS).
- Novembro 19, 2019
- [SPARK-29743] [SQL] o exemplo deve definir needCopyResult como true se o needCopyResult do seu filho for true
- Outubro 8, 2019
- Alterações no lado do servidor para permitir que o driver Simba Apache Spark ODBC se reconecte e continue após uma falha de conexão durante a busca de resultados (requer a atualização do driver Simba Apache Spark ODBC para a versão 2.6.10).
- Corrigido NullPointerException ao verificar o código de erro no cliente WASB.
- Setembro 10, 2019
- Adicionar iterador seguro de thread a BytesToBytesMap
- Corrigido um bug que afetava determinadas consultas de agregação global.
- [SPARK-27330][SS] suporte ao aborto de tarefas no foreach writer
- [SPARK-28642]Ocultar credenciais no SHOW CREATE TABLE
- [SPARK-28699][SQL] Desativar o uso de radix sort para ShuffleExchangeExec no caso de reparticionamento
- [FAÍSCA-28699][CORE] Corrigir um caso específico de abortar estágio indeterminado
- Agosto 27, 2019
- Corrigido um problema que afetava determinadas
transform
expressões
- Corrigido um problema que afetava determinadas
- Agosto 13, 2019
- A fonte de streaming Delta deve verificar o protocolo mais recente de uma tabela
- [FAÍSCA-28489][SS]Corrigido um bug onde o KafkaOffsetRangeCalculator.getRanges pode perder offsets
- Julho 30, 2019
- [FAÍSCA-28015][SQL] Verifique se o stringToDate() consome toda a entrada para os formatos de aaaa e aaaa-[m]m
- [FAÍSCA-28308][CORE] A sub-segunda parte de CalendarInterval deve ser preenchida antes da análise
- [FAÍSCA-27485]EnsureRequirements.reorder deve lidar com expressões duplicadas de forma eficiente
- Julho 2, 2019
- Atualizado snappy-java de 1.1.7.1 para 1.1.7.3.
- Junho 18, 2019
- Tratamento aprimorado de execuções ativas do MLflow na integração MLlib
- Mensagem melhorada do Databricks Advisor relacionada com a utilização de cache de disco
- Corrigido um bug que afetava o uso de funções de ordem superior
- Corrigido um bug que afetava as consultas de metadados Delta
Tempo de execução do Databricks 5.3 (EoS)
Consulte Databricks Runtime 5.3 (EoS).
Novembro 7, 2019
- [SPARK-29743][SQL] o componente 'sample' deve definir 'needCopyResult' como verdadeiro se 'needCopyResult' do seu filho for verdadeiro
8 de outubro de 2019
- Alterações no lado do servidor para permitir que o driver Simba Apache Spark ODBC se reconecte e continue após uma falha de conexão durante a busca de resultados (requer a atualização do driver Simba Apache Spark ODBC para a versão 2.6.10).
- Corrigido NullPointerException ao verificar o código de erro no cliente WASB.
Setembro 10, 2019
- Adicionar iterador seguro de thread a BytesToBytesMap
- Corrigido um bug que afetava determinadas consultas de agregação global.
- [SPARK-27330][SS] suporte ao aborto de tarefas no foreach writer
- [SPARK-28642]Ocultar credenciais no SHOW CREATE TABLE
- [SPARK-28699][SQL] Desativar o uso de radix sort para ShuffleExchangeExec no caso de reparticionamento
- [FAÍSCA-28699][CORE] Corrigir um caso específico de abortar estágio indeterminado
Agosto 27, 2019
- Corrigido um problema que afetava determinadas
transform
expressões
- Corrigido um problema que afetava determinadas
Agosto 13, 2019
- A fonte de streaming Delta deve verificar o protocolo mais recente de uma tabela
- [FAÍSCA-28489][SS]Corrigido um bug onde o KafkaOffsetRangeCalculator.getRanges pode perder offsets
Julho 30, 2019
- [FAÍSCA-28015][SQL] Verifique se o stringToDate() consome toda a entrada para os formatos de aaaa e aaaa-[m]m
- [FAÍSCA-28308][CORE] A sub-segunda parte de CalendarInterval deve ser preenchida antes da análise
- [FAÍSCA-27485]EnsureRequirements.reorder deve lidar com expressões duplicadas de forma eficiente
Junho 18, 2019
- Mensagem melhorada do Databricks Advisor relacionada com a utilização de cache de disco
- Corrigido um bug que afetava o uso de funções de ordem superior
- Corrigido um bug que afetava as consultas de metadados Delta
28 de maio de 2019
- Melhoria da estabilidade da Delta
- Tolerar IOExceptions ao ler o arquivo Delta LAST_CHECKPOINT
- Recuperação adicionada à instalação da biblioteca com falha
Maio 7, 2019
- Portar o HADOOP-15778 (ABFS: corrigir a limitação do lado do cliente para leitura) para o conector de Armazenamento do Azure Data Lake
- Portar HADOOP-16040 (ABFS: correção de erro para a configuração tolerateOobAppends) para o conector do Azure Data Lake Storage
- Corrigido um bug que afetava as ACLs da tabela
- Corrigida uma condição de corrida ao carregar um arquivo de soma de verificação de log Delta
- Corrigida a lógica de deteção de conflitos Delta para não identificar "inserir + sobrescrever" como uma operação de "acrescentar" pura.
- Verifique se o cache de disco não está desativado quando as ACLs de tabela estão habilitadas
- [SPARK-27494][ss] Chaves/valores nulos não funcionam na fonte Kafka v2
- [SPARK-27446][r] Use o spark conf existente, se disponível.
- [SPARK-27454][spark-27454][ML][SQL] A fonte de dados de imagem do Spark falha quando encontra algumas imagens inválidas
- [SPARK-27160][SQL] Corrigir DecimalType ao criar filtros ORC
- [SPARK-27338][core] Corrigir deadlock entre UnsafeExternalSorter e TaskMemoryManager
Tempo de execução do Databricks 5.2 (EoS)
Consulte Databricks Runtime 5.2 (EoS).
Setembro 10, 2019
- Adicionar iterador seguro de thread a BytesToBytesMap
- Corrigido um bug que afetava determinadas consultas de agregação global.
- [SPARK-27330][SS] suporte ao aborto de tarefas no foreach writer
- [SPARK-28642]Ocultar credenciais no SHOW CREATE TABLE
- [SPARK-28699][SQL] Desativar o uso de radix sort para ShuffleExchangeExec no caso de reparticionamento
- [FAÍSCA-28699][CORE] Corrigir um caso específico de abortar estágio indeterminado
Agosto 27, 2019
- Corrigido um problema que afetava determinadas
transform
expressões
- Corrigido um problema que afetava determinadas
Agosto 13, 2019
- A fonte de streaming Delta deve verificar o protocolo mais recente de uma tabela
- [FAÍSCA-28489][SS]Corrigido um bug onde o KafkaOffsetRangeCalculator.getRanges pode perder offsets
Julho 30, 2019
- [FAÍSCA-28015][SQL] Verifique se o stringToDate() consome toda a entrada para os formatos de aaaa e aaaa-[m]m
- [FAÍSCA-28308][CORE] A sub-segunda parte de CalendarInterval deve ser preenchida antes da análise
- [FAÍSCA-27485]EnsureRequirements.reorder deve lidar com expressões duplicadas de forma eficiente
2 de julho de 2019
- Tolerar IOExceptions ao ler o arquivo Delta LAST_CHECKPOINT
Junho 18, 2019
- Mensagem melhorada do Databricks Advisor relacionada com a utilização da cache de disco
- Corrigido um bug que afetava o uso de funções de ordem superior
- Corrigido um bug que afetava as consultas de metadados Delta
28 de maio de 2019
- Recuperação adicionada à instalação da biblioteca com falha
Maio 7, 2019
- Portar o HADOOP-15778 (ABFS: corrigir a limitação do lado do cliente para leitura) para o conector de Armazenamento do Azure Data Lake
- Portar HADOOP-16040 (ABFS: correção de erro para a configuração tolerateOobAppends) para o conector do Azure Data Lake Storage
- Corrigida uma condição de corrida ao carregar um arquivo de soma de verificação de log Delta
- Corrigida a lógica de deteção de conflitos Delta para não identificar "inserir + sobrescrever" como uma operação de "acrescentar" pura.
- Verifique se o cache de disco não está desativado quando as ACLs de tabela estão habilitadas
- [SPARK-27494][ss] Chaves/valores nulos não funcionam na fonte Kafka v2
- [SPARK-27454][spark-27454][ML][SQL] A fonte de dados de imagem do Spark falha quando encontra algumas imagens inválidas
- [SPARK-27160][SQL] Corrigir DecimalType ao criar filtros ORC
- [SPARK-27338][core] Corrigir deadlock entre UnsafeExternalSorter e TaskMemoryManager
Março 26, 2019
- Evite incorporar deslocamentos dependentes da plataforma literalmente em código gerado ao longo de todo o estágio.
- [SPARK-26665][CORE] Corrigir um bug que BlockTransferService.fetchBlockSync pode travar para sempre.
- [SPARK-27134][SQL] a função array_distinct não funciona corretamente com colunas contendo arrays de arrays.
- [SPARK-24669][SQL] Invalidar tabelas em caso de DROP DATABASE CASCADE.
- [SPARK-26572][SQL] corrige a avaliação dos resultados agregados do codegen.
- Corrigido um bug que afetava determinados PythonUDFs.
Fevereiro 26, 2019
- [FAÍSCA-26864][SQL] A consulta pode retornar um resultado incorreto quando python udf é usado como uma condição de junção semi-esquerda.
- [SPARK-26887][PYTHON] Crie datetime.date diretamente em vez de criar datetime64 como dados intermediários.
- Corrigido um bug que afetava o servidor JDBC/ODBC.
- Corrigido um bug que afetava o PySpark.
- Exclua os arquivos ocultos ao criar o HadoopRDD.
- Corrigido um bug no Delta que causava problemas de serialização.
Fevereiro 12, 2019
- Corrigido um problema que afetava o uso do Delta com pontos de montagem do Azure ADLS.
- Corrigido um problema que fazia com que o protocolo de rede de baixo nível do Spark pudesse ser quebrado ao enviar mensagens de erro RPC grandes com a criptografia habilitada (quando
spark.network.crypto.enabled
definido como true).
30 de janeiro de 2019
- Corrigido o StackOverflowError ao colocar a dica de junção inclinada na relação em cache.
- Corrigida a inconsistência entre o RDD armazenado em cache de um cache SQL e seu plano físico, que causa resultados incorretos.
-
[SPARK-26706][SQL] Corrigir
illegalNumericPrecedence
para ByteType. - [SPARK-26709][SQL] OptimizeMetadataOnlyQuery não manipula registros vazios corretamente.
- As fontes de dados CSV/JSON devem evitar caminhos de globbing ao inferir o esquema.
- Inferência de restrição fixa no operador Window.
- Corrigido um problema que afetava a instalação de bibliotecas de ovos com clusters com ACL de tabela habilitada.
Tempo de execução do Databricks 5.1 (EoS)
Consulte Databricks Runtime 5.1 (EoS).
Agosto 13, 2019
- A fonte de streaming Delta deve verificar o protocolo mais recente de uma tabela
- [FAÍSCA-28489][SS]Corrigido um bug onde o KafkaOffsetRangeCalculator.getRanges pode perder offsets
Julho 30, 2019
- [FAÍSCA-28015][SQL] Verifique se o stringToDate() consome toda a entrada para os formatos de aaaa e aaaa-[m]m
- [FAÍSCA-28308][CORE] A sub-segunda parte de CalendarInterval deve ser preenchida antes da análise
- [FAÍSCA-27485]EnsureRequirements.reorder deve lidar com expressões duplicadas de forma eficiente
2 de julho de 2019
- Tolerar IOExceptions ao ler o arquivo Delta LAST_CHECKPOINT
Junho 18, 2019
- Corrigido um bug que afetava o uso de funções de ordem superior
- Corrigido um bug que afetava as consultas de metadados Delta
28 de maio de 2019
- Recuperação adicionada à instalação da biblioteca com falha
Maio 7, 2019
- Portar o HADOOP-15778 (ABFS: corrigir a limitação do lado do cliente para leitura) para o conector de Armazenamento do Azure Data Lake
- Portar HADOOP-16040 (ABFS: correção de erro para a configuração tolerateOobAppends) para o conector do Azure Data Lake Storage
- Corrigida uma condição de corrida ao carregar um arquivo de soma de verificação de log Delta
- Corrigida a lógica de deteção de conflitos Delta para não identificar "inserir + sobrescrever" como uma operação de "acrescentar" pura.
- [SPARK-27494][ss] Chaves/valores nulos não funcionam na fonte Kafka v2
- [SPARK-27454][spark-27454][ML][SQL] A fonte de dados de imagem do Spark falha quando encontra algumas imagens inválidas
- [SPARK-27160][SQL] Corrigir DecimalType ao criar filtros ORC
- [SPARK-27338][core] Corrigir deadlock entre UnsafeExternalSorter e TaskMemoryManager
Março 26, 2019
- Evite incorporar deslocamentos dependentes da plataforma literalmente em código gerado ao longo de todo o estágio.
- Corrigido um bug que afetava determinados PythonUDFs.
Fevereiro 26, 2019
- [FAÍSCA-26864][SQL] A consulta pode retornar um resultado incorreto quando python udf é usado como uma condição de junção semi-esquerda.
- Corrigido um bug que afetava o servidor JDBC/ODBC.
- Exclua os arquivos ocultos ao criar o HadoopRDD.
Fevereiro 12, 2019
- Corrigido um problema que afetava a instalação de bibliotecas de ovos com clusters com ACL de tabela habilitada.
- Corrigida a inconsistência entre o RDD armazenado em cache de um cache SQL e seu plano físico, que causa resultados incorretos.
-
[SPARK-26706][SQL] Corrigir
illegalNumericPrecedence
para ByteType. - [SPARK-26709][SQL] OptimizeMetadataOnlyQuery não manipula registros vazios corretamente.
- Inferência de restrição fixa no operador Window.
- Corrigido um problema que fazia com que o protocolo de rede de baixo nível do Spark pudesse ser quebrado ao enviar mensagens de erro RPC grandes com a criptografia habilitada (quando
spark.network.crypto.enabled
definido como true).
30 de janeiro de 2019
- Corrigido um problema que podia fazer com que
df.rdd.count()
com o UDT retornasse uma resposta incorreta para determinados casos. - Corrigido um problema que afetava a instalação de abrigos de rodas.
- [SPARK-26267]Repetir a tentativa ao detetar offsets incorretos de Kafka.
- Corrigido um bug que afetava várias fontes de fluxo de arquivos em uma consulta de streaming.
- Corrigido o StackOverflowError ao colocar a dica de junção inclinada na relação em cache.
- Corrigida a inconsistência entre o RDD armazenado em cache de um cache SQL e seu plano físico, que causa resultados incorretos.
- Corrigido um problema que podia fazer com que
8 de janeiro de 2019
- Corrigido o problema que causa o erro
org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
. - [FAÍSCA-26352]A reordenação de junção não deve alterar a ordem dos atributos de saída.
- [SPARK-26366]ReplaceExceptWithFilter deve considerar NULL como Falso (False).
- Melhoria da estabilidade do Lago Delta.
- O Delta Lake está ativado.
- Corrigido o problema que causava falha no acesso ao Armazenamento do Azure Data Lake quando a Passagem de Credenciais do Microsoft Entra ID está habilitada para o Azure Data Lake Storage Gen1.
- O Cache de E/S do Databricks agora está habilitado para tipos de instâncias de trabalho da série Ls em todas as camadas de preços.
- Corrigido o problema que causa o erro
Databricks Runtime 5.0 (EoS)
Consulte Databricks Runtime 5.0 (EoS).
Junho 18, 2019
- Corrigido um bug que afetava o uso de funções de ordem superior
Maio 7, 2019
- Corrigida uma condição de corrida ao carregar um arquivo de soma de verificação de log Delta
- Corrigida a lógica de deteção de conflitos Delta para não identificar "inserir + sobrescrever" como uma operação de "acrescentar" pura.
- [SPARK-27494][ss] Chaves/valores nulos não funcionam na fonte Kafka v2
- [SPARK-27454][spark-27454][ML][SQL] A fonte de dados de imagem do Spark falha quando encontra algumas imagens inválidas
- [SPARK-27160][sql] Corrigir DecimalType ao criar filtros orc
- [SPARK-27338][core] Corrigir deadlock entre UnsafeExternalSorter e TaskMemoryManager
Março 26, 2019
- Evite incorporar deslocamentos dependentes da plataforma literalmente em código gerado ao longo de todo o estágio.
- Corrigido um bug que afetava determinados PythonUDFs.
Março 12, 2019
- [FAÍSCA-26864][SQL] A consulta pode retornar um resultado incorreto quando python udf é usado como uma condição de junção semi-esquerda.
Fevereiro 26, 2019
- Corrigido um bug que afetava o servidor JDBC/ODBC.
- Exclua os arquivos ocultos ao criar o HadoopRDD.
Fevereiro 12, 2019
- Corrigida a inconsistência entre o RDD armazenado em cache de um cache SQL e seu plano físico, que causa resultados incorretos.
-
[SPARK-26706][SQL] Corrigir
illegalNumericPrecedence
para ByteType. - [SPARK-26709][SQL] OptimizeMetadataOnlyQuery não manipula registros vazios corretamente.
- Inferência de restrição fixa no operador Window.
- Corrigido um problema que fazia com que o protocolo de rede de baixo nível do Spark pudesse ser quebrado ao enviar mensagens de erro RPC grandes com a criptografia habilitada (quando
spark.network.crypto.enabled
definido como true).
30 de janeiro de 2019
- Corrigido um problema que podia fazer com que
df.rdd.count()
com o UDT retornasse uma resposta incorreta para determinados casos. - [SPARK-26267]Repetir a tentativa ao detetar offsets incorretos de Kafka.
- Corrigido um bug que afetava várias fontes de fluxo de arquivos em uma consulta de streaming.
- Corrigido o StackOverflowError ao colocar a dica de junção inclinada na relação em cache.
- Corrigida a inconsistência entre o RDD armazenado em cache de um cache SQL e seu plano físico, que causa resultados incorretos.
- Corrigido um problema que podia fazer com que
8 de janeiro de 2019
- Corrigido o problema que causava o erro
org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
. - [FAÍSCA-26352]A reordenação de junção não deve alterar a ordem dos atributos de saída.
- [SPARK-26366]ReplaceExceptWithFilter deve considerar NULL como Falso (False).
- Melhoria da estabilidade do Lago Delta.
- O Delta Lake está ativado.
- O Cache de E/S do Databricks agora está habilitado para tipos de instâncias de trabalho da série Ls em todas as camadas de preços.
- Corrigido o problema que causava o erro
Dezembro 18, 2018
- [SPARK-26293]Exceção de conversão ao usar Python UDF em subconsulta
- Corrigido um problema que afetava determinadas consultas usando Join e Limit.
- Credenciais editadas de nomes RDD na interface do usuário do Spark
Dezembro 6, 2018
- Corrigido um problema que causava um resultado de consulta incorreto ao usar orderBy seguido imediatamente por groupBy com a chave group-by como a parte principal da chave sort-by.
- Conector Snowflake para Spark atualizado da versão 2.4.9.2-spark_2.4_pre_release para a versão 2.4.10.
- Ignore apenas arquivos corrompidos após uma ou mais tentativas quando o sinalizador
spark.sql.files.ignoreCorruptFiles
ouspark.sql.files.ignoreMissingFiles
estiver ativado. - Corrigido um problema que afetava determinadas consultas de auto-união.
- Corrigido um bug com o servidor thrift onde as sessões às vezes são vazadas quando canceladas.
- [SPARK-26307]Corrigido o CTAS ao INSERT uma tabela particionada usando o Hive SerDe.
- [SPARK-26147]UDFs Python na condição de junção falham mesmo ao usar colunas de apenas um lado do join
- [SPARK-26211]Corrigir InSet para binário, estrutura e array com nulo.
-
[SPARK-26181]o
hasMinMaxStats
método deColumnStatsMap
não está correto. - Corrigido um problema que afetava a instalação do Python Wheels em ambientes sem acesso à Internet.
20 de novembro de 2018
- Corrigido um problema que fazia com que um bloco de notas não pudesse ser utilizado depois de cancelar uma consulta de streaming.
- Corrigido um problema que afetava determinadas consultas usando funções de janela.
- Corrigiu-se um problema que afetava um fluxo de dados do Delta com várias alterações no esquema.
- Corrigido um problema que afetava determinadas consultas de agregação com junções Esquerdas Semi/Anti.
Databricks Runtime 4.3 (EoS)
Consulte Databricks Runtime 4.3 (EoS).
9 de abril de 2019
- [SPARK-26665][CORE] Corrija um bug que pode fazer com que BlockTransferService.fetchBlockSync fique eternamente suspenso.
- [SPARK-24669][SQL] Invalidar tabelas em caso de DROP DATABASE CASCADE.
Março 12, 2019
- Corrigido um bug que afetava a geração de código.
- Corrigido um bug que afetava a Delta.
Fevereiro 26, 2019
- Corrigido um bug que afetava o servidor JDBC/ODBC.
Fevereiro 12, 2019
- [SPARK-26709][SQL] OptimizeMetadataOnlyQuery não manipula registros vazios corretamente.
- Excluindo os arquivos ocultos ao criar o HadoopRDD.
- Conversão de filtro de parquet fixo para predicado IN quando seu valor está vazio.
- Corrigido um problema que fazia com que o protocolo de rede de baixo nível do Spark pudesse ser quebrado ao enviar mensagens de erro RPC grandes com a criptografia habilitada (quando
spark.network.crypto.enabled
definido como true).
30 de janeiro de 2019
- Corrigido um problema que podia fazer com que
df.rdd.count()
com o UDT retornasse uma resposta incorreta para determinados casos. - Corrigida a inconsistência entre o RDD armazenado em cache de um cache SQL e seu plano físico, que causa resultados incorretos.
- Corrigido um problema que podia fazer com que
8 de janeiro de 2019
- Corrigido o problema que causava o erro
org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
. - Credenciais editadas de nomes RDD na interface do usuário do Spark
- [FAÍSCA-26352]A reordenação de junção não deve alterar a ordem dos atributos de saída.
- [SPARK-26366]ReplaceExceptWithFilter deve considerar NULL como Falso (False).
- O Delta Lake está ativado.
- O Cache de E/S do Databricks agora está habilitado para tipos de instâncias de trabalho da série Ls em todas as camadas de preços.
- Corrigido o problema que causava o erro
Dezembro 18, 2018
- [SPARK-25002]Avro: revise o namespace do registo de saída.
- Corrigido um problema que afetava determinadas consultas usando Join e Limit.
- [SPARK-26307]Corrigido o CTAS ao INSERT uma tabela particionada usando o Hive SerDe.
- Ignore apenas arquivos corrompidos após uma ou mais tentativas quando o sinalizador
spark.sql.files.ignoreCorruptFiles
ouspark.sql.files.ignoreMissingFiles
estiver ativado. -
[SPARK-26181]o
hasMinMaxStats
método deColumnStatsMap
não está correto. - Corrigido um problema que afetava a instalação do Python Wheels em ambientes sem acesso à Internet.
- Corrigido um problema de desempenho no analisador de consultas.
- Corrigido um problema no PySpark que fazia com que as ações do DataFrame falhassem com o erro "conexão recusada".
- Corrigido um problema que afetava determinadas consultas de auto-união.
20 de novembro de 2018
- [SPARK-17916][SPARK-25241]Corrigir a string vazia que está a ser analisada como nulo quando nullValue está definido.
- [FAÍSCA-25387]Correção para NPE causado por entrada CSV incorreta.
- Corrigido um problema que afetava determinadas consultas de agregação com junções Esquerdas Semi/Anti.
Novembro 6, 2018
- [SPARK-25741]URLs longos não são renderizados corretamente na interface web.
- [SPARK-25714]Corrigir a manipulação de valores nulos na regra do otimizador BooleanSimplification.
- Corrigido um problema que afetava a limpeza de objetos temporários no conector Synapse Analytics.
- [SPARK-25816] Corrigir a resolução de atributos em extratores aninhados.
- Outubro 16, 2018
- Corrigido um bug que afetava a saída da execução
SHOW CREATE TABLE
em tabelas Delta. - Corrigido um bug que afetava a
Union
operação.
- Corrigido um bug que afetava a saída da execução
- Setembro 25, 2018
- [SPARK-25368][SQL] A inferência de restrições incorreta retorna um resultado errado.
- [SPARK-25402][SQL] Tratamento de valores nulos em BooleanSimplification.
- Corrigido
NotSerializableException
na fonte de dados Avro.
- Setembro 11, 2018
-
[SPARK-25214][SS] Corrige o problema em que a fonte Kafka v2 pode retornar registos duplicados quando
failOnDataLoss=false
. - [SPARK-24987][SS] Corrigir o vazamento do consumidor Kafka quando não houver novos deslocamentos para articlePartition.
- A redução de filtro deve manipular o valor nulo corretamente.
- Maior estabilidade do motor de execução.
-
[SPARK-25214][SS] Corrige o problema em que a fonte Kafka v2 pode retornar registos duplicados quando
- Agosto 28, 2018
- Corrigido um bug no comando Delta Lake Delete que excluía incorretamente as linhas em que a condição é avaliada como nula.
-
[SPARK-25142]Adicione mensagens de erro quando o processo de trabalho Python não pôde abrir o socket no
_load_from_socket
.
- Agosto 23, 2018
-
[SPARK-23935]mapEntry lança
org.codehaus.commons.compiler.CompileException
. - Corrigido o problema de mapa anulável no leitor Parquet.
- [SPARK-25051][SQL] FixNullability não deve parar em AnalysisBarrier.
- [SPARK-25081] Foi corrigido um bug em que o ShuffleExternalSorter pode aceder a uma página de memória libertada quando o processo de alocação de memória falha.
- Corrigida uma interação entre Databricks Delta e Pyspark que poderia causar falhas de leitura transitórias.
- [FAÍSCA-25084]"distribute by" em várias colunas (entre parênteses) pode levar a um problema de geração de código.
- [FAÍSCA-25096]Afrouxe a nulabilidade se a conversão for anulável à força.
- Reduziu o número padrão de threads usados pelo comando Delta Lake Otimize, reduzindo a sobrecarga de memória e confirmando dados mais rapidamente.
- [FAÍSCA-25114]Corrigir o RecordBinaryComparator sempre que a subtração entre duas palavras resultar em um valor divisível por Integer.MAX_VALUE.
- Corrigida a redação do gerenciador de segredos quando o comando é parcialmente bem-sucedido.
-
[SPARK-23935]mapEntry lança
Tempo de execução do Databricks 4.2 (EoS)
Consulte Databricks Runtime 4.2 (EoS).
Fevereiro 26, 2019
- Corrigido um bug que afetava o servidor JDBC/ODBC.
Fevereiro 12, 2019
- [SPARK-26709][SQL] OptimizeMetadataOnlyQuery não manipula registros vazios corretamente.
- Excluindo os arquivos ocultos ao criar o HadoopRDD.
- Conversão de filtro de parquet fixo para predicado IN quando seu valor está vazio.
- Corrigido um problema que fazia com que o protocolo de rede de baixo nível do Spark pudesse ser quebrado ao enviar mensagens de erro RPC grandes com a criptografia habilitada (quando
spark.network.crypto.enabled
definido como true).
30 de janeiro de 2019
- Corrigido um problema que podia fazer com que
df.rdd.count()
com o UDT retornasse uma resposta incorreta para determinados casos.
- Corrigido um problema que podia fazer com que
8 de janeiro de 2019
- Corrigido o problema que causa o erro
org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
. - Credenciais editadas de nomes RDD na interface do usuário do Spark
- [FAÍSCA-26352]A reordenação de junção não deve alterar a ordem dos atributos de saída.
- [SPARK-26366]ReplaceExceptWithFilter deve considerar NULL como Falso (False).
- O Delta Lake está ativado.
- O Cache de E/S do Databricks agora está habilitado para tipos de instâncias de trabalho da série Ls em todas as camadas de preços.
- Corrigido o problema que causa o erro
Dezembro 18, 2018
- [SPARK-25002]Avro: revise o namespace do registo de saída.
- Corrigido um problema que afetava determinadas consultas usando Join e Limit.
- [SPARK-26307]Corrigido o CTAS ao INSERT uma tabela particionada usando o Hive SerDe.
- Ignore apenas arquivos corrompidos após uma ou mais tentativas quando o sinalizador
spark.sql.files.ignoreCorruptFiles
ouspark.sql.files.ignoreMissingFiles
estiver ativado. -
[SPARK-26181]o
hasMinMaxStats
método deColumnStatsMap
não está correto. - Corrigido um problema que afetava a instalação do Python Wheels em ambientes sem acesso à Internet.
- Corrigido um problema de desempenho no analisador de consultas.
- Corrigido um problema no PySpark que fazia com que as ações do DataFrame falhassem com o erro "conexão recusada".
- Corrigido um problema que afetava determinadas consultas de auto-união.
20 de novembro de 2018
- [SPARK-17916][SPARK-25241]Corrigir a string vazia que está a ser analisada como nulo quando nullValue está definido.
- Corrigido um problema que afetava determinadas consultas de agregação com junções Esquerdas Semi/Anti.
Novembro 6, 2018
- [SPARK-25741]URLs longos não são renderizados corretamente na interface web.
- [SPARK-25714]Corrigir a manipulação de valores nulos na regra do otimizador BooleanSimplification.
- Outubro 16, 2018
- Corrigido um bug que afetava a saída da execução
SHOW CREATE TABLE
em tabelas Delta. - Corrigido um bug que afetava a
Union
operação.
- Corrigido um bug que afetava a saída da execução
- Setembro 25, 2018
- [SPARK-25368][SQL] A inferência de restrições incorreta retorna um resultado errado.
- [SPARK-25402][SQL] Tratamento de valores nulos em BooleanSimplification.
- Corrigido
NotSerializableException
na fonte de dados Avro.
- Setembro 11, 2018
-
[SPARK-25214][SS] Corrige o problema em que a fonte Kafka v2 pode retornar registos duplicados quando
failOnDataLoss=false
. - [SPARK-24987][SS] Corrigir o vazamento do consumidor Kafka quando não houver novos deslocamentos para articlePartition.
- A redução de filtro deve manipular o valor nulo corretamente.
-
[SPARK-25214][SS] Corrige o problema em que a fonte Kafka v2 pode retornar registos duplicados quando
- Agosto 28, 2018
- Corrigido um bug no comando Delta Lake Delete que excluía incorretamente as linhas em que a condição é avaliada como nula.
- Agosto 23, 2018
- Erro de NoClassDef corrigido para Instantâneo Delta
-
[SPARK-23935]mapEntry lança
org.codehaus.commons.compiler.CompileException
. - [SPARK-24957][SQL] Média com decimal seguida de agregação retorna resultado errado. Os resultados incorretos de AVERAGE podem ser retornados. O CAST adicionado no operador Average será ignorado se o resultado de Divide for do mesmo tipo para o qual ele é moldado.
- [SPARK-25081] Foi corrigido um bug em que o ShuffleExternalSorter pode aceder a uma página de memória libertada quando o processo de alocação de memória falha.
- Corrigida uma interação entre Databricks Delta e Pyspark que poderia causar falhas de leitura transitórias.
- [FAÍSCA-25114]Corrigir o RecordBinaryComparator sempre que a subtração entre duas palavras resultar em um valor divisível por Integer.MAX_VALUE.
- [FAÍSCA-25084]"distribute by" em várias colunas (entre parênteses) pode levar a um problema de geração de código.
- [SPARK-24934][SQL] Lista explicitamente de tipos suportados em limites superiores/inferiores para a poda de partições em memória. Quando tipos de dados complexos são usados em filtros de consulta em dados armazenados em cache, o Spark sempre retorna um conjunto de resultados vazio. A poda baseada em estatísticas na memória gera resultados incorretos, porque o valor null é atribuído aos limites superior/inferior para tipos complexos. A correção é não usar a remoção baseada em estatísticas na memória para tipos complexos.
- Corrigida a redação do gerenciador de segredos quando o comando é parcialmente bem-sucedido.
- Corrigido o problema de mapa anulável no leitor Parquet.
- Agosto 2, 2018
- Foi adicionada a API writeStream.table em Python.
- Corrigido um problema que afetava o ponto de verificação Delta.
- [SPARK-24867][SQL] Adicionar AnalysisBarrier a DataFrameWriter. O cache SQL não está sendo usado ao usar DataFrameWriter para gravar um DataFrame com UDF. Esta é uma regressão causada pelas alterações que fizemos no AnalysisBarrier, uma vez que nem todas as regras do Analyzer são idempotentes.
- Corrigido um problema que podia causar que o comando
mergeInto
produzisse resultados incorretos. - Estabilidade melhorada ao aceder ao Azure Data Lake Storage Gen1.
- [SPARK-24809] Serializar LongHashedRelation no executor pode resultar num erro de dados.
- [SPARK-24878][SQL] Corrija a função de reversão para o array do tipo primitivo que contém null.
- Julho 11, 2018
- Corrigido um bug na execução da consulta que fazia com que agregações em colunas decimais com diferentes precisões retornassem resultados incorretos em alguns casos.
- Corrigido um erro
NullPointerException
que era lançado durante operações avançadas de agregação, como conjuntos de agrupamento.
Databricks Runtime 4.1 ML (EoS)
Consulte Databricks Runtime 4.1 ML (EoS).
- Julho 31, 2018
- Adicionado o Azure Synapse Analytics ao ML Runtime 4.1
- Corrigido um bug que poderia causar resultados de consulta incorretos quando o nome de uma coluna de partição usada em um predicado difere do caso dessa coluna no esquema da tabela.
- Corrigido um bug que afetava o mecanismo de execução do Spark SQL.
- Corrigido um bug que afetava a geração de código.
- Corrigido um bug (
java.lang.NoClassDefFoundError
) que afetava o Delta Lake. - Tratamento de erros melhorado no Delta Lake.
- Corrigido um erro que causava a coleta de estatísticas incorretas de omissão de dados para colunas de texto com 32 ou mais caracteres.
Tempo de execução do Databricks 4.1 (EoS)
Consulte Databricks Runtime 4.1 (EoS).
- Janeiro 8, 2019
- [SPARK-26366]ReplaceExceptWithFilter deve considerar NULL como Falso (False).
- O Delta Lake está ativado.
- Dezembro 18, 2018
- [SPARK-25002]Avro: revise o namespace do registo de saída.
- Corrigido um problema que afetava determinadas consultas usando Join e Limit.
- [SPARK-26307]Corrigido o CTAS ao INSERT uma tabela particionada usando o Hive SerDe.
- Ignore apenas arquivos corrompidos após uma ou mais tentativas quando o sinalizador
spark.sql.files.ignoreCorruptFiles
ouspark.sql.files.ignoreMissingFiles
estiver ativado. - Corrigido um problema que afetava a instalação do Python Wheels em ambientes sem acesso à Internet.
- Corrigido um problema no PySpark que fazia com que as ações do DataFrame falhassem com o erro "conexão recusada".
- Corrigido um problema que afetava determinadas consultas de auto-união.
- Novembro 20, 2018
- [SPARK-17916][SPARK-25241]Corrigir a string vazia que está a ser analisada como nulo quando nullValue está definido.
- Corrigido um problema que afetava determinadas consultas de agregação com junções Esquerdas Semi/Anti.
- Novembro 6, 2018
- [SPARK-25741]URLs longos não são renderizados corretamente na interface web.
- [SPARK-25714]Corrigir a manipulação de valores nulos na regra do otimizador BooleanSimplification.
- Outubro 16, 2018
- Corrigido um bug que afetava a saída da execução
SHOW CREATE TABLE
em tabelas Delta. - Corrigido um bug que afetava a
Union
operação.
- Corrigido um bug que afetava a saída da execução
- Setembro 25, 2018
- [SPARK-25368][SQL] A inferência de restrições incorreta retorna um resultado errado.
- [SPARK-25402][SQL] Tratamento de valores nulos em BooleanSimplification.
- Corrigido
NotSerializableException
na fonte de dados Avro.
- Setembro 11, 2018
-
[SPARK-25214][SS] Corrige o problema em que a fonte Kafka v2 pode retornar registos duplicados quando
failOnDataLoss=false
. - [SPARK-24987][SS] Corrigir o vazamento do consumidor Kafka quando não houver novos deslocamentos para articlePartition.
- A redução de filtro deve manipular o valor nulo corretamente.
-
[SPARK-25214][SS] Corrige o problema em que a fonte Kafka v2 pode retornar registos duplicados quando
- Agosto 28, 2018
- Corrigido um bug no comando Delta Lake Delete que excluía incorretamente as linhas em que a condição é avaliada como nula.
- [FAÍSCA-25084]"distribute by" em várias colunas (entre parênteses) pode levar a um problema de geração de código.
- [FAÍSCA-25114]Corrigir o RecordBinaryComparator sempre que a subtração entre duas palavras resultar em um valor divisível por Integer.MAX_VALUE.
- Agosto 23, 2018
- Corrigido NoClassDefError para Delta Snapshot.
- [SPARK-24957][SQL] Média com decimal seguida de agregação retorna resultado errado. Os resultados incorretos de AVERAGE podem ser retornados. O CAST adicionado no operador Average será ignorado se o resultado de Divide for do mesmo tipo para o qual ele é moldado.
- Corrigido o problema de mapa anulável no leitor Parquet.
- [SPARK-24934][SQL] Lista explicitamente de tipos suportados em limites superiores/inferiores para a poda de partições em memória. Quando tipos de dados complexos são usados em filtros de consulta em dados armazenados em cache, o Spark sempre retorna um conjunto de resultados vazio. A poda baseada em estatísticas na memória gera resultados incorretos, porque o valor null é atribuído aos limites superior/inferior para tipos complexos. A correção é não usar a remoção baseada em estatísticas na memória para tipos complexos.
- [SPARK-25081] Foi corrigido um bug em que o ShuffleExternalSorter pode aceder a uma página de memória libertada quando o processo de alocação de memória falha.
- Corrigida uma interação entre Databricks Delta e Pyspark que poderia causar falhas de leitura transitórias.
- Corrigida a redação do gerenciador de segredos quando o comando é parcialmente bem-sucedido
- Agosto 2, 2018
- [SPARK-24613][SQL] O cache com UDF não pôde ser correspondido com os caches subsequentes dependentes. Encapsula o plano lógico com um AnalysisBarrier para compilação do plano de execução no CacheManager, a fim de evitar que o plano seja analisado novamente. Esta é também uma regressão do Spark 2.3.
- Corrigido um problema do conector do Synapse Analytics que afetava a conversão de fuso horário para gravar dados DateType.
- Corrigido um problema que afetava o ponto de verificação Delta.
- Corrigido um problema que podia causar que o comando
mergeInto
produzisse resultados incorretos. - [SPARK-24867][SQL] Adicionar AnalysisBarrier a DataFrameWriter. O cache SQL não está sendo usado ao usar DataFrameWriter para gravar um DataFrame com UDF. Esta é uma regressão causada pelas alterações que fizemos no AnalysisBarrier, uma vez que nem todas as regras do Analyzer são idempotentes.
- [SPARK-24809] Serializar LongHashedRelation no executor pode resultar num erro de dados.
- Julho 11, 2018
- Corrigido um bug na execução da consulta que fazia com que agregações em colunas decimais com diferentes precisões retornassem resultados incorretos em alguns casos.
- Corrigido um erro
NullPointerException
que era lançado durante operações avançadas de agregação, como conjuntos de agrupamento.
- Junho 28, 2018
- Corrigido um bug que poderia causar resultados de consulta incorretos quando o nome de uma coluna de partição usada em um predicado difere do caso dessa coluna no esquema da tabela.
- Junho 7, 2018
- Corrigido um bug que afetava o mecanismo de execução do Spark SQL.
- Corrigido um bug que afetava a geração de código.
- Corrigido um bug (
java.lang.NoClassDefFoundError
) que afetava o Delta Lake. - Tratamento de erros melhorado no Delta Lake.
- Maio 17, 2018
- Corrigido um erro que causava a coleta de estatísticas incorretas de omissão de dados para colunas de texto com 32 ou mais caracteres.
Tempo de execução do Databricks 4.0 (EoS)
Consulte Databricks Runtime 4.0 (EoS).
- Novembro 6, 2018
- [SPARK-25714]Corrigir a manipulação de valores nulos na regra do otimizador BooleanSimplification.
- Outubro 16, 2018
- Corrigido um bug que afetava a
Union
operação.
- Corrigido um bug que afetava a
- Setembro 25, 2018
- [SPARK-25368][SQL] A inferência de restrições incorreta retorna um resultado errado.
- [SPARK-25402][SQL] Tratamento de valores nulos em BooleanSimplification.
- Corrigido
NotSerializableException
na fonte de dados Avro.
- Setembro 11, 2018
- A redução de filtro deve manipular o valor nulo corretamente.
- Agosto 28, 2018
- Corrigido um bug no comando Delta Lake Delete que excluía incorretamente as linhas em que a condição é avaliada como nula.
- Agosto 23, 2018
- Corrigido o problema de mapa anulável no leitor Parquet.
- Corrigida a redação do gerenciador de segredos quando o comando é parcialmente bem-sucedido
- Corrigida uma interação entre Databricks Delta e Pyspark que poderia causar falhas de leitura transitórias.
- [SPARK-25081] Foi corrigido um bug em que o ShuffleExternalSorter pode aceder a uma página de memória libertada quando o processo de alocação de memória falha.
- [FAÍSCA-25114]Corrigir o RecordBinaryComparator sempre que a subtração entre duas palavras resultar em um valor divisível por Integer.MAX_VALUE.
- Agosto 2, 2018
- [SPARK-24452] Evite possível transbordo em int adicionar ou multiplicar.
- [SPARK-24588]A associação de transmissão deve exigir HashClusteredPartitioning nos seus nodos filhos.
- Corrigido um problema que podia causar que o comando
mergeInto
produzisse resultados incorretos. - [SPARK-24867][SQL] Adicionar AnalysisBarrier a DataFrameWriter. O cache SQL não está sendo usado ao usar DataFrameWriter para gravar um DataFrame com UDF. Esta é uma regressão causada pelas alterações que fizemos no AnalysisBarrier, uma vez que nem todas as regras do Analyzer são idempotentes.
- [SPARK-24809] Serializar LongHashedRelation no executor pode resultar num erro de dados.
- Junho 28, 2018
- Corrigido um bug que poderia causar resultados de consulta incorretos quando o nome de uma coluna de partição usada em um predicado difere do caso dessa coluna no esquema da tabela.
- Junho 7, 2018
- Corrigido um bug que afetava o mecanismo de execução do Spark SQL.
- Tratamento de erros melhorado no Delta Lake.
- Maio 17, 2018
- Correções de bugs para o gerenciamento secreto do Databricks.
- Estabilidade melhorada na leitura de dados armazenados no Azure Data Lake Store.
- Corrigido um bug que afetava o cache RDD.
- Corrigido um bug que afetava Null-safe Equal no Spark SQL.
- Abril 24, 2018
- SDK do Azure Data Lake Store atualizado de 2.0.11 para 2.2.8 para melhorar a estabilidade do acesso ao Azure Data Lake Store.
- Corrigido um bug que afetava a inserção de substituições em tabelas particionadas do Hive quando
spark.databricks.io.hive.fastwriter.enabled
éfalse
. - Corrigido um problema que falhava na serialização de tarefas.
- Estabilidade melhorada do Lago Delta.
- Março 14, 2018
- Evite atualizações desnecessárias de metadados ao gravar no Delta Lake.
- Corrigido um problema causado por uma condição de corrida que poderia, em circunstâncias raras, levar à perda de alguns arquivos de saída.
Databricks Runtime 3.5 LTS (EoS)
Consulte Databricks Runtime 3.5 LTS (EoS).
Novembro 7, 2019
- [SPARK-29743][SQL] o componente 'sample' deve definir 'needCopyResult' como verdadeiro se 'needCopyResult' do seu filho for verdadeiro
8 de outubro de 2019
- Alterações no lado do servidor para permitir que o driver Simba Apache Spark ODBC se reconecte e continue após uma falha de conexão durante a busca de resultados (requer a atualização do driver Simba Apache Spark ODBC para a versão 2.6.10).
Setembro 10, 2019
- [SPARK-28699][SQL] Desativar o uso de radix sort para ShuffleExchangeExec no caso de reparticionamento
9 de abril de 2019
- [SPARK-26665][CORE] Corrija um bug que pode fazer com que BlockTransferService.fetchBlockSync fique eternamente suspenso.
Fevereiro 12, 2019
- Corrigido um problema que fazia com que o protocolo de rede de baixo nível do Spark pudesse ser quebrado ao enviar mensagens de erro RPC grandes com a criptografia habilitada (quando
spark.network.crypto.enabled
definido como true).
- Corrigido um problema que fazia com que o protocolo de rede de baixo nível do Spark pudesse ser quebrado ao enviar mensagens de erro RPC grandes com a criptografia habilitada (quando
30 de janeiro de 2019
- Corrigido um problema que podia fazer com que
df.rdd.count()
com o UDT retornasse uma resposta incorreta para determinados casos.
- Corrigido um problema que podia fazer com que
Dezembro 18, 2018
- Ignore apenas arquivos corrompidos após uma ou mais tentativas quando o sinalizador
spark.sql.files.ignoreCorruptFiles
ouspark.sql.files.ignoreMissingFiles
estiver ativado. - Corrigido um problema que afetava determinadas consultas de auto-união.
- Ignore apenas arquivos corrompidos após uma ou mais tentativas quando o sinalizador
20 de novembro de 2018
- [SPARK-25816]Resolução de atributos corrigida em extratores aninhados.
Novembro 6, 2018
- [SPARK-25714]Corrigir a manipulação de valores nulos na regra do otimizador BooleanSimplification.
- Outubro 16, 2018
- Corrigido um bug que afetava a
Union
operação.
- Corrigido um bug que afetava a
- Setembro 25, 2018
- [SPARK-25402][SQL] Tratamento de valores nulos em BooleanSimplification.
- Corrigido
NotSerializableException
na fonte de dados Avro.
- Setembro 11, 2018
- A redução de filtro deve manipular o valor nulo corretamente.
- Agosto 28, 2018
- Corrigido um bug no comando Delta Lake Delete que excluía incorretamente as linhas em que a condição é avaliada como nula.
- [FAÍSCA-25114]Corrigir o RecordBinaryComparator sempre que a subtração entre duas palavras resultar em um valor divisível por Integer.MAX_VALUE.
- Agosto 23, 2018
- [SPARK-24809] Serializar LongHashedRelation no executor pode resultar num erro de dados.
- Corrigido o problema de mapa anulável no leitor Parquet.
- [SPARK-25081] Foi corrigido um bug em que o ShuffleExternalSorter pode aceder a uma página de memória libertada quando o processo de alocação de memória falha.
- Corrigida uma interação entre Databricks Delta e Pyspark que poderia causar falhas de leitura transitórias.
- Junho 28, 2018
- Corrigido um bug que poderia causar resultados de consulta incorretos quando o nome de uma coluna de partição usada em um predicado difere do caso dessa coluna no esquema da tabela.
- Junho 28, 2018
- Corrigido um bug que poderia causar resultados de consulta incorretos quando o nome de uma coluna de partição usada em um predicado difere do caso dessa coluna no esquema da tabela.
- Junho 7, 2018
- Corrigido um bug que afetava o mecanismo de execução do Spark SQL.
- Tratamento de erros melhorado no Delta Lake.
- Maio 17, 2018
- Estabilidade melhorada na leitura de dados armazenados no Azure Data Lake Store.
- Corrigido um bug que afetava o cache RDD.
- Corrigido um bug que afetava Null-safe Equal no Spark SQL.
- Corrigido um bug que afetava determinadas agregações em consultas de streaming.
- Abril 24, 2018
- SDK do Azure Data Lake Store atualizado de 2.0.11 para 2.2.8 para melhorar a estabilidade do acesso ao Azure Data Lake Store.
- Corrigido um bug que afetava a inserção de substituições em tabelas particionadas do Hive quando
spark.databricks.io.hive.fastwriter.enabled
éfalse
. - Corrigido um problema que falhava na serialização de tarefas.
- Março 09, 2018
- Corrigido um problema causado por uma condição de corrida que poderia, em circunstâncias raras, levar à perda de alguns arquivos de saída.
- Março 01, 2018
- Melhorou a eficiência no tratamento de fluxos que demoram muito tempo a parar.
- Corrigido um problema que afetava o preenchimento automático do Python.
- Patches de segurança do Ubuntu aplicados.
- Corrigido um problema que afetava determinadas consultas usando UDFs Python e funções de janela.
- Corrigido um problema que afetava o uso de UDFs em um cluster com o controle de acesso à tabela habilitado.
- Janeiro 29, 2018
- Corrigido um problema que afetava a manipulação de tabelas armazenadas no armazenamento de Blob do Azure.
- Agregação fixa após dropDuplicates em DataFrame vazio.
Tempo de execução do Databricks 3.4 (EoS)
Consulte Databricks Runtime 3.4 (EoS).
- Junho 7, 2018
- Corrigido um bug que afetava o mecanismo de execução do Spark SQL.
- Tratamento de erros melhorado no Delta Lake.
- Maio 17, 2018
- Estabilidade melhorada na leitura de dados armazenados no Azure Data Lake Store.
- Corrigido um bug que afetava o cache RDD.
- Corrigido um bug que afetava Null-safe Equal no Spark SQL.
- Abril 24, 2018
- Corrigido um bug que afetava a inserção de substituições em tabelas particionadas do Hive quando
spark.databricks.io.hive.fastwriter.enabled
éfalse
.
- Corrigido um bug que afetava a inserção de substituições em tabelas particionadas do Hive quando
- Março 09, 2018
- Corrigido um problema causado por uma condição de corrida que poderia, em circunstâncias raras, levar à perda de alguns arquivos de saída.
- Dezembro 13, 2017
- Corrigido um problema que afetava as Funções Definidas pelo Utilizador (UDFs) no Scala.
- Corrigido um problema que afetava o uso do Índice de Pulo de Dados em tabelas de fonte de dados armazenadas em percursos não DBFS.
- Dezembro 07, 2017
- Estabilidade de embaralhamento melhorada.
Versões não suportadas do Databricks Runtime
Para obter as notas de versão originais, siga o link abaixo do subtítulo.