Mises à jour de maintenance pour Databricks Runtime (archivées)

Cette page archivée répertorie les mises à jour de maintenance publiées pour les versions de Databricks Runtime qui ne sont plus prises en charge. Pour ajouter une mise à jour de maintenance à un cluster existant, redémarrez le cluster.

Pour migrer vers une version de Databricks Runtime prise en charge, consultez le Guide de migration de Databricks Runtime.

Important

Cette documentation a été mise hors service et peut ne pas être mise à jour. Les produits, services ou technologies mentionnés dans ce contenu ne sont plus pris en charge. Consultez Notes de publication, versions et compatibilité de Databricks Runtime.

Remarque

Cet article contient des références au terme liste blanche, un terme qu’Azure Databricks n’utilise pas. Lorsque le terme sera supprimé du logiciel, nous le supprimerons de cet article.

Versions de Databricks Runtime

Mises à jour de maintenance par version :

Pour voir les mises à jour de maintenance sur les versions de Databricks Runtime prises en charge, consultez Mises à jour de maintenance de Databricks Runtime.

Databricks Runtime 14.0

Consultez Databricks Runtime 14.0 (non pris en charge).

  • 8 février 2024
    • [SPARK-46396] L’inférence de l’horodatage ne doit pas lever d’exception.
    • [SPARK-46794] Supprimer les sous-requêtes des contraintes LogicalRDD.
    • [SPARK-45182] Ignorer l’achèvement de la tâche de l’ancienne étape après avoir réessayé l’étape parentale indéterminée telle que déterminée par la somme de contrôle.
    • [SPARK-46933] Ajouter une mesure du temps d’exécution des requêtes pour les connecteurs qui utilisent JDBCRDD.
    • [SPARK-45957] Éviter de générer un plan d’exécution pour les commandes non exécutables.
    • [SPARK-46861] Éviter l’interblocage dans DAGScheduler.
    • [SPARK-46930] Ajouter la prise en charge d’un préfixe personnalisé pour les champs de type union dans Avro.
    • [SPARK-46941] Impossible d’insérer un nœud de limite de groupe de fenêtres pour le calcul top-k s’il contient SizeBasedWindowFunction.
    • [SPARK-45582] Impossibilité d’utiliser l’instance de magasin après un appel de commit dans l’agrégation de streaming en mode sortie.
    • Mises à jour de sécurité du système d’exploitation
  • 31 janvier 2024
    • [SPARK-46541] Correction de l’ambiguïté de la référence à une colonne dans la jointure automatique.
    • [SPARK-46676] dropDuplicatesWithinWatermark ne doit pas échouer lors de la canonisation du plan.
    • [SPARK-46769] Affiner l’inférence de schéma associée au timestamp.
    • [SPARK-45498] Suivi : Ignorer l’achèvement des tâches des anciennes tentatives d’étapes.
    • Rétablir [SPARK-46769] Affiner l’inférence de schéma associée au timestamp.
    • [SPARK-46383] Réduire l’utilisation du tas de pilotes en réduisant la durée de vie de TaskInfo.accumulables().
    • [SPARK-46633] Correction du lecteur Avro pour la gestion des blocs de longueur nulle.
    • [SPARK-46677] Résoudre la résolution de dataframe["*"].
    • [SPARK-46684] Correction de CoGroup.applyInPandas/Arrow pour passer les arguments correctement.
    • [SPARK-46763] Corriger l’échec d’assertion dans ReplaceDeduplicateWithAggregate pour les attributs dupliqués.
    • [SPARK-46610] Créer une table doit lever une exception lorsqu’aucune valeur pour une clé dans les options n’est levée.
    • Mises à jour de sécurité du système d’exploitation
  • 17 janvier 2024
    • Le nœud shuffle du plan d’explication retourné par une requête Photon est mis à jour pour ajouter l’indicateur causedBroadcastJoinBuildOOM=true quand une erreur de mémoire insuffisante se produit pendant une lecture aléatoire qui fait partie d’une jointure de diffusion.
    • Pour éviter une latence accrue lors de la communication sur TLSv1.3, cette version de maintenance inclut un correctif pour l’installation du JDK 8 visant à corriger le bogue JDK JDK-8293562.
    • [SPARK-46394] Résolution des problèmes de spark.catalog.listDatabases() sur les schémas avec des caractères spéciaux quand spark.sql.legacy.keepCommandOutputSchema est défini sur true.
    • [SPARK-46250] Réalisation d’une opération « deflake » sur test_parity_listener.
    • [SPARK-45814] ArrowConverters.createEmptyArrowBatch appelle close() pour éviter une fuite de mémoire.
    • [SPARK-46173] Appel de trimAll ignoré lors de l’analyse des dates.
    • [SPARK-46484] Les fonctions d’assistance resolveOperators conservent l’ID de plan.
    • [SPARK-46466] Le lecteur Parquet vectorisé ne doit jamais rebaser pour timestamp ntz.
    • [SPARK-46056] Correction du NPE de la lecture vectorisée Parquet avec la valeur par défaut byteArrayDecimalType.
    • [SPARK-46058] Ajout d’un indicateur distinct pour privateKeyPassword.
    • [SPARK-46478] Inversion de SPARK-43049 pour utiliser varchar(255) d’Oracle pour la chaîne.
    • [SPARK-46132] Prise en charge du mot de passe de clé pour les clés JKS pour RPC SSL.
    • [SPARK-46417] Plus d’échec lors de l’appel de hive.getTable et quand throwException a la valeur false.
    • [SPARK-46261]DataFrame.withColumnsRenamed doit conserver l’ordre dict/map.
    • [SPARK-46370] Correction du bogue lors de l’interrogation d’une table après la modification des valeurs par défaut des colonnes.
    • [SPARK-46609] Explosion exponentielle évitée dans PartitioningPreservingUnaryExecNode.
    • [SPARK-46600] Déplacement du code partagé entre SqlConf et SqlApiConf vers SqlApiConfHelper.
    • [SPARK-46538] Résolution du problème de référence de colonne ambiguë dans ALSModel.transform.
    • [SPARK-46337]CTESubstitution doit conserver le PLAN_ID_TAG.
    • [SPARK-46602] Propagation de allowExisting lors de la création d’une vue quand la vue/la table n’existe pas.
    • [SPARK-46260]DataFrame.withColumnsRenamed doit respecter l’ordre de dict.
    • [SPARK-46145] spark.catalog.listTables ne lève pas d’exception quand la table ou la vue est introuvable.
  • 14 décembre 2023
    • Correction d’un problème où les traits de soulignement en échappement dans les opérations getColumns provenant de clients JDBC ou ODBC étaient gérés incorrectement et interprétés comme des caractères génériques.
    • [SPARK-46255] Prise en charge de la conversion de type complexe -> chaîne.
    • [SPARK-46028] Acceptation de la colonne d’entrée par Column.__getitem__.
    • [SPARK-45920] Le regroupement par un ordinal doit être idempotent.
    • [SPARK-45433] Correction de l’inférence de schéma CSV/JSON quand les horodatages ne correspondent pas au timestampFormat spécifié.
    • [SPARK-45509] Correction du comportement de référence de la colonne df pour Spark Connect.
    • Mises à jour de sécurité du système d’exploitation
  • 29 novembre 2023
    • Nouveau package installé, pyarrow-hotfix pour corriger une vulnérabilité PyArrow RCE.
    • Correction d’un problème à cause duquel les traits de soulignement d’échappement dans les opérations getColumns provenant de clients JDBC ou ODBC n’étaient pas interprétés comme des caractères génériques.
    • Lors de l’ingestion de données CSV à l’aide du chargeur automatique ou de tables de streaming, les fichiers CSV volumineux sont désormais fractionnables et peuvent être traités en parallèle pendant l’inférence de schéma et le traitement des données à la fois.
    • Le connecteur Spark-snowflake a été mis à niveau vers la version 2.12.0.
    • [SPARK-45859] Objets UDF rendus différés ml.functions.
    • Rétablissez [SPARK-45592].
    • [SPARK-45892] Validation du plan d’optimiseur de refactorisation pour dissocier validateSchemaOutput et validateExprIdUniqueness.
    • [SPARK-45592] Correction du problème d’exactitude dans AQE avec InMemoryTableScanExec.
    • [SPARK-45620] Les API liées à l’UDF Python utilisent désormais camelCase.
    • [SPARK-44784] Le test SBT est désormais hermétique.
    • [SPARK-45770] Correction de la résolution de colonne avec DataFrameDropColumns pour Dataframe.drop.
    • [SPARK-45544] Prise en charge SSL intégrée dans TransportContext.
    • [SPARK-45730] Contraintes de temps améliorées pour ReloadingX509TrustManagerSuite.
    • Mises à jour de sécurité du système d’exploitation
  • 10 novembre 2023
    • Requêtes de flux de données modifiées sur les tables de streaming du catalogue Unity et les vues matérialisées pour afficher les messages d’erreur.
    • [SPARK-45545]SparkTransportConf hérite de SSLOptions lors de la création.
    • [SPARK-45584]Correction de l’échec de l’exécution de la sous-requête avec TakeOrderedAndProjectExec.
    • [SPARK-45427] Ajout de paramètres SSL RPC à SSLOptions et SparkTransportConf.
    • [SPARK-45541] Ajout de SSLFactory.
    • [SPARK-45430]FramelessOffsetWindowFunction ne échoue plus quand IGNORE NULLS et offset > rowCount.
    • [SPARK-45429] Ajout de classes d’assistance pour la communication RPC SSL.
    • [SPARK-44219] Ajout de validations par règle supplémentaires pour les réécritures d’optimisation.
    • [SPARK-45543] Correction d’un problème à cause duquel InferWindowGroupLimit générait une erreur si les autres fonctions de fenêtre n’ont pas le même cadre de fenêtre que les fonctions de classement.
    • Mises à jour de sécurité du système d’exploitation
  • 23 octobre 2023
    • [SPARK-45426] Ajout de la prise en charge de ReloadingX509TrustManager.
    • [SPARK-45396] Ajout d’une entrée de document pour le module PySpark.ml.connect, et ajout de Evaluator à __all__ pour ml.connect.
    • [SPARK-45256] Correction d’un problème à cause duquel DurationWriter échouait lors de l’écriture de plus de valeurs que la capacité initiale.
    • [SPARK-45279]plan_id est joint à tous les plans logiques.
    • [SPARK-45250] Profil de ressource de tâche de niveau de support ajouté pour le cluster yarn lorsque l’allocation dynamique est désactivée.
    • [SPARK-45182] Ajout de la prise en charge de la restauration de l’étape de mappage aléatoire afin que toutes les tâches intermédiaires puissent être retentées lorsque la sortie de l’étape est indéterminée.
    • [SPARK-45419] Évitez de réutiliser les fichiers rocksdb sst dans une autre instance rocksdb en supprimant les entrées de carte de version de versions plus volumineuses.
    • [SPARK-45386] Correction d’un problème à cause duquel StorageLevel.NONE retournerait incorrectement 0.
    • Mises à jour de sécurité du système d’exploitation
  • 13 octobre 2023
    • La dépendance Snowflake-jdbc a été mise à niveau de 3.13.29 à 3.13.33.
    • La fonction array_insert est basée sur 1 pour les index positifs et négatifs, alors qu’avant, elle était basée sur 0 pour les index négatifs. Il insère désormais un nouvel élément à la fin des tableaux d'entrée pour l'index -1. Pour restaurer le comportement précédent, affectez à spark.sql.legacy.negativeIndexInArrayInsert la valeur true.
    • Azure Databricks n’ignore plus ignorer les fichiers endommagés lorsque qu’une inférence de schéma CSV avec le chargeur automatique a activé ignoreCorruptFiles.
    • [SPARK-45227] Correction d’un problème de sécurité de thread subtil avec CoarseGrainedExecutorBackend.
    • [SPARK-44658]ShuffleStatus.getMapStatus doit retourner None au lieu de Some(null).
    • [SPARK-44910]Encoders.bean ne prend pas en charge les superclasses avec des arguments de type générique.
    • [SPARK-45346] L’inférence de schéma Parquet respecte les indicateurs respectant la casse lors de la fusion du schéma.
    • Rétablissez [SPARK-42946].
    • [SPARK-42205] Mise à jour du protocole JSON pour supprimer la journalisation des accumulables dans une tâche ou des événements de démarrage d’étape.
    • [SPARK-45360] Le générateur de sessions Spark prend en charge l’initialisation à partir de SPARK_REMOTE.
    • [SPARK-45316] Ajout de nouveaux paramètres ignoreCorruptFiles/ignoreMissingFiles à HadoopRDD et NewHadoopRDD.
    • [SPARK-44909] Ignorez l’exécution du serveur de streaming de journaux du distributeur torch quand il n’est pas disponible.
    • [SPARK-45084]StateOperatorProgress utilise désormais un numéro de partition aléatoire précis.
    • [SPARK-45371] Correction des problèmes d’ombrage dans le client Scala Spark Connect.
    • [SPARK-45178] Retournez pour exécuter un lot unique pour Trigger.AvailableNow avec des sources non prises en charge plutôt que d’utiliser le wrapper.
    • [SPARK-44840] Définition de array_insert() 1 pour les index négatifs.
    • [SPARK-44551] commentaires modifiés à synchroniser avec OSS.
    • [SPARK-45078] La fonction ArrayInsert effectue désormais un cast explicite lorsque le type d’élément n’est pas égal au type de composant dérivé.
    • [SPARK-45339] Pyspark enregistre désormais les erreurs de nouvelle tentative.
    • [SPARK-45057] Évite d’acquérir un verrou de lecture quand la valeur keepReadLock est false.
    • [SPARK-44908][ML] [CONNECT] Correction de la fonctionnalité de param foldCol du validateur croisé.
    • Mises à jour de sécurité du système d’exploitation

Databricks Runtime 13.1

Consultez Databricks Runtime 13.1 (non pris en charge).

  • 29 novembre 2023
    • Correction d’un problème à cause duquel les traits de soulignement d’échappement dans les opérations getColumns provenant de clients JDBC ou ODBC n’étaient pas interprétés comme des caractères génériques.
    • [SPARK-44846] Suppression d’expressions de regroupement complexes après RemoveRedundantAggregates.
    • [SPARK-43802] Correction d’un problème à cause duquel le codegen d’expressions unhex et unbase64 échouait.
    • [SPARK-43718] Correction de la possibilité de valeurs Null pour les clés dans les jointures USING.
    • Mises à jour de sécurité du système d’exploitation
  • 14 novembre 2023
    • Les filtres de partition sur les requêtes de streaming de Delta Lake font désormais l’objet d’un pushdown avant la limitation de débit pour avoir une meilleure utilisation.
    • Requêtes de flux de données modifiées sur les tables de streaming du catalogue Unity et les vues matérialisées pour afficher les messages d’erreur.
    • [SPARK-45584]Correction de l’échec de l’exécution de la sous-requête avec TakeOrderedAndProjectExec.
    • [SPARK-45430]FramelessOffsetWindowFunction ne échoue plus quand IGNORE NULLS et offset > rowCount.
    • [SPARK-45543] Correction d’un problème à cause duquel InferWindowGroupLimit provoquait un problème si les autres fonctions de fenêtre n’avaient pas le même cadre de fenêtre que les fonctions de classement.
    • Mises à jour de sécurité du système d’exploitation
  • 24 octobre 2023
    • [SPARK-43799] Ajout de l’option binaire du descripteur à l’API Protobuf PySpark.
    • Rétablissez [SPARK-42946].
    • [SPARK-45346] L’inférence de schéma Parquet respecte désormais l’indicateur respectant la casse lors de la fusion d’un schéma.
    • Mises à jour de sécurité du système d’exploitation
  • 13 octobre 2023
    • La dépendance Snowflake-jdbc a été mise à niveau de 3.13.29 à 3.13.33.
    • Ne plus ignorer les fichiers endommagés lorsque ignoreCorruptFiles est activé pendant l’inférence de schéma CSV avec le chargeur automatique.
    • [SPARK-44658]ShuffleStatus.getMapStatus retourne None au lieu de Some(null).
    • [SPARK-45178] Retournez pour exécuter un lot unique pour Trigger.AvailableNow avec des sources non prises en charge plutôt que d’utiliser le wrapper.
    • [SPARK-42205] Mise à jour du protocole JSON pour supprimer la journalisation des accumulables dans une tâche ou des événements de démarrage d’étape.
    • Mises à jour de sécurité du système d’exploitation
  • 12 septembre 2023
    • [SPARK-44718] Faites correspondre la configuration en mode mémoire par défaut ColumnVector avec la valeur de configuration OffHeapMemoryMode.
    • SPARK-44878 Désactivation de la limite stricte pour le gestionnaire d’écritures RocksDB afin d’éviter l’exception d’insertion sur le cache complet.
    • Correctifs divers.
  • 30 août 2023
    • [SPARK-44871] Correction du comportement « percentile_disc ».
    • [SPARK-44714] Réduit les restrictions de la résolution LCA concernant les requêtes.
    • [SPARK-44245] Les tests de documents PySpark.sql.dataframe sample() sont désormais uniquement illustratifs.
    • [SPARK-44818] Correction de la course pour l’interruption de tâche en attente émise avant l’initialisation de taskThread.
    • Mises à jour de sécurité du système d’exploitation
  • 15 août 2023
    • [SPARK-44485] Optimisation de TreeNode.generateTreeString.
    • [SPARK-44643] Correction de Row.__repr__ lorsque la ligne est vide.
    • [SPARK-44504] La tâche de maintenance nettoie désormais les fournisseurs chargés en cas d'erreur d'arrêt.
    • [SPARK-44479] Correction de la conversion de protobuf à partir d'un type de structure vide.
    • [SPARK-44464] Correction de applyInPandasWithStatePythonRunner pour les lignes de sortie qui présentent Null comme première valeur de colonne.
    • Correctifs divers.
  • 27 juillet 2023
    • Correction d’un problème à cause duquel dbutils.fs.ls() renvoyait INVALID_PARAMETER_VALUE.LOCATION_OVERLAP lorsqu’il était appelé pour un chemin d’accès à un emplacement de stockage qui entrait en conflit avec un autre emplacement de stockage externe ou managé.
    • [SPARK-44199]CacheManager n’actualise plus le fichier fileIndex inutilement.
    • [SPARK-44448] Correction d’un bogue de résultats incorrects avec DenseRankLimitIterator et InferWindowGroupLimit.
    • Mises à jour de sécurité du système d’exploitation
  • 24 juillet 2023
    • Rétablissez [SPARK-42323].
    • [SPARK-41848] Correction d’un problème de sur-planification de tâche avec TaskResourceProfile.
    • [SPARK-44136] Correction d’un problème à cause duquel StateManager se matérialisait dans un exécuteur au lieu du pilote dans FlatMapGroupsWithStateExec.
    • [SPARK-44337] Correction d’un problème à cause duquel tout champ défini sur Any.getDefaultInstance provoquait une erreur d’analyse.
    • Mises à jour de sécurité du système d’exploitation
  • 27 juin 2023
    • Mises à jour de sécurité du système d’exploitation
  • 15 juin 2023
    • Photonized approx_count_distinct.
    • L’analyseur JSON en mode failOnUnknownFields supprime un enregistrement en mode DROPMALFORMED et échoue directement en mode FAILFAST.
    • La bibliothèque Snowflake-jdbc est mise à niveau vers la version 3.13.29 pour résoudre un problème de sécurité.
    • Le champs d’attributs PubSubRecord est stocké au format JSON au lieu de la chaîne provenant d’une carte Scala pour une sérialisation et une désérialisation plus simples.
    • La commande EXPLAIN EXTENDED retourne maintenant l’éligibilité au cache de résultats de la requête.
    • Améliorez les performances des mises à jour incrémentielles avec Iceberg et Parquet SHALLOW CLONE.
    • [SPARK-43032] Correctif de bogue Python SQM.
    • [SPARK-43404]Ignorez la réutilisation du fichier SST pour la même version du magasin d’état RocksDB afin d’éviter une erreur de non-correspondance d’ID.
    • [SPARK-43340] Gestion du champ de trace de pile manquant dans des journaux d’événements.
    • [SPARK-43527] Résolution de catalog.listCatalogs dans PySpark.
    • [SPARK-43541] Propagation de toutes les balises Project dans la résolution des expressions et des colonnes manquantes.
    • [SPARK-43300] Wrapper NonFateSharingCache pour le cache Guava.
    • [SPARK-43378] Ferme correctement les objets de flux dans deserializeFromChunkedBuffer.
    • [SPARK-42852] Rétablissement des modifications associées à NamedLambdaVariable à partir de EquivalentExpressions.
    • [SPARK-43779]ParseToDate charge désormais EvalMode dans le thread principal.
    • [SPARK-43413] Correction de la sous-requête IN de la possibilité de valeurs nulles de ListQuery.
    • [SPARK-43889] Ajout d’une vérification pour le nom de colonne pour __dir__() afin de filtrer les noms de colonnes sujets aux erreurs.
    • [SPARK-43043] Amélioration des performances de MapOutputTracker.updateMapOutput
    • [SPARK-43522] Correction de la création d’un nom de colonne struct avec un index du tableau.
    • [SPARK-43457] Augmentation de l’agent utilisateur d’authentification avec des versions de système d’exploitation, Python et Spark.
    • [SPARK-43286] Mise à jour du mode CBC aes_encrypt pour générer des images virtuelles aléatoires.
    • [SPARK-42851] Protégection de EquivalentExpressions.addExpr() avec supportedExpression().
    • Rétablissez [SPARK-43183].
    • Mises à jour de sécurité du système d’exploitation

Databricks Runtime 12.2 LTS

Voir Databricks Runtime 12.2 LTS.

  • 29 novembre 2023
    • Correction d’un problème à cause duquel les traits de soulignement d’échappement dans les opérations getColumns provenant de clients JDBC ou ODBC n’étaient pas interprétés comme des caractères génériques.
    • [SPARK-42205] Suppression des cumulables de journalisation dans les événements de démarrage Stage et Task.
    • [SPARK-44846] Suppression d’expressions de regroupement complexes après RemoveRedundantAggregates.
    • [SPARK-43718] Correction de la possibilité de valeurs Null pour les clés dans les jointures USING.
    • [SPARK-45544] Prise en charge SSL intégrée dans TransportContext.
    • [SPARK-43973] L'interface utilisateur de flux structuré affiche désormais correctement les requêtes ayant échoué.
    • [SPARK-45730] Contraintes de temps améliorées pour ReloadingX509TrustManagerSuite.
    • [SPARK-45859] Objets UDF rendus différés ml.functions.
    • Mises à jour de sécurité du système d’exploitation
  • 14 novembre 2023
    • Les filtres de partition sur les requêtes de streaming de Delta Lake font désormais l’objet d’un pushdown avant la limitation de débit pour avoir une meilleure utilisation.
    • [SPARK-45545]SparkTransportConf hérite de SSLOptions lors de la création.
    • [SPARK-45427] Ajout de paramètres SSL RPC à SSLOptions et SparkTransportConf.
    • [SPARK-45584]Correction de l’échec de l’exécution de la sous-requête avec TakeOrderedAndProjectExec.
    • [SPARK-45541] Ajout de SSLFactory.
    • [SPARK-45430]FramelessOffsetWindowFunction ne échoue plus quand IGNORE NULLS et offset > rowCount.
    • [SPARK-45429] Ajout de classes d’assistance pour la communication RPC SSL.
    • Mises à jour de sécurité du système d’exploitation
  • 24 octobre 2023
    • [SPARK-45426] Ajout de la prise en charge de ReloadingX509TrustManager.
    • Correctifs divers.
  • 13 octobre 2023
    • La dépendance Snowflake-jdbc a été mise à niveau de 3.13.29 à 3.13.33.
    • [SPARK-42553] Vérifiez qu’il y a au moins une unité de temps après l’intervalle.
    • [SPARK-45346] L’inférence de schéma Parquet respecte l’indicateur respectant la casse lors de la fusion du schéma.
    • [SPARK-45178] Retournez pour exécuter un lot unique pour Trigger.AvailableNow avec des sources non prises en charge plutôt que d’utiliser le wrapper.
    • [SPARK-45084]StateOperatorProgress pour utiliser un numéro de partition aléatoire adéquat.
  • 12 septembre 2023
    • [SPARK-44873] Ajout de la prise en charge de alter view avec des colonnes imbriquées dans le client Hive.
    • [SPARK-44718] Faites correspondre la configuration en mode mémoire par défaut ColumnVector avec la valeur de configuration OffHeapMemoryMode.
    • [SPARK-43799] Ajout de l’option binaire du descripteur à l’API Protobuf PySpark.
    • Correctifs divers.
  • 30 août 2023
    • [SPARK-44485] Optimisation de TreeNode.generateTreeString.
    • [SPARK-44818] Correction de la course pour l’interruption de tâche en attente émise avant l’initialisation de taskThread.
    • [11.3-13.0][[SPARK-44871]]https://issues.apache.org/jira/browse/SPARK-44871) Correction du comportement de percentile_disc.
    • [SPARK-44714] Réduit les restrictions de la résolution LCA concernant les requêtes.
    • Mises à jour de sécurité du système d’exploitation
  • 15 août 2023
    • [SPARK-44504] La tâche de maintenance nettoie les fournisseurs chargés en cas d'erreur d'arrêt.
    • [SPARK-44464] Correction de applyInPandasWithStatePythonRunner pour les lignes de sortie qui présentent Null comme première valeur de colonne.
    • Mises à jour de sécurité du système d’exploitation
  • 29 juillet 2023
    • Correction d’un problème à cause duquel dbutils.fs.ls() renvoyait INVALID_PARAMETER_VALUE.LOCATION_OVERLAP lorsqu’il était appelé pour un chemin d’accès à un emplacement de stockage qui entrait en conflit avec un autre emplacement de stockage externe ou managé.
    • [SPARK-44199]CacheManager n’actualise plus le fichier fileIndex inutilement.
    • Mises à jour de sécurité du système d’exploitation
  • 24 juillet 2023
    • [SPARK-44337] Correction d’un problème à cause duquel tout champ défini sur Any.getDefaultInstance provoquait une erreur d’analyse.
    • [SPARK-44136] Correction d’un problème à cause duquel StateManager se matérialisait dans un exécuteur au lieu du pilote dans FlatMapGroupsWithStateExec.
    • Mises à jour de sécurité du système d’exploitation
  • 23 juin 2023
    • Mises à jour de sécurité du système d’exploitation
  • 15 juin 2023
    • Photonized approx_count_distinct.
    • La bibliothèque Snowflake-jdbc est mise à niveau vers la version 3.13.29 pour résoudre un problème de sécurité.
    • [SPARK-43779]ParseToDate charge désormais EvalMode dans le thread principal.
    • [SPARK-43156][SPARK-43098] Test d’erreur de nombre de sous-requêtes scalaire étendu avec decorrelateInnerQuery désactivé.
    • Mises à jour de sécurité du système d’exploitation
  • 2 juin 2023
    • L’analyseur JSON en mode failOnUnknownFields supprime un enregistrement en mode DROPMALFORMED et échoue directement en mode FAILFAST.
    • Améliorez les performances des mises à jour incrémentielles avec Iceberg et Parquet SHALLOW CLONE.
    • Correction d’un problème dans Auto Loader où différents formats de fichier source étaient incohérents lorsque le schéma fourni n’incluait aucune partition déduite. Ce problème peut entraîner des échecs inattendus lors de la lecture de fichiers avec des colonnes manquantes dans le schéma de partition déduite.
    • [SPARK-43404] Ignorez la réutilisation du fichier SST pour la même version du magasin d’état RocksDB afin d’éviter une erreur de non-correspondance d’ID.
    • [SPARK-43413][11.3-13.0] Correction de la sous-requête IN de possibilité de valeurs nulles de ListQuery.
    • [SPARK-43522] Correction de la création d’un nom de colonne struct avec un index du tableau.
    • [SPARK-43541] Propagation de toutes les balises Project dans la résolution des expressions et des colonnes manquantes.
    • [SPARK-43527] Résolution de catalog.listCatalogs dans PySpark.
    • [SPARK-43123] Les métadonnées de champ interne ne fuient plus vers des catalogues.
    • [SPARK-43340] Correction du champ de trace de pile manquant dans des journaux d’événements.
    • [SPARK-42444]DataFrame.drop gère désormais correctement des colonnes dupliquées.
    • [SPARK-42937]PlanSubqueries définit désormais la valeur InSubqueryExec#shouldBroadcast sur true.
    • [SPARK-43286] Mise à jour du mode CBC aes_encrypt pour générer des images virtuelles aléatoires.
    • [SPARK-43378] Ferme correctement les objets de flux dans deserializeFromChunkedBuffer.
  • 17 mai 2023
    • Les analyses Parquet sont désormais robustes contre les OOMs lors de l’analyse de fichiers exceptionnellement structurés en ajustant dynamiquement la taille des lots. Les métadonnées de fichier sont analysées pour réduire la taille du lot de manière préventive et sont à nouveau réduites lors des nouvelles tentatives de tâche en tant que filet de sécurité final.
    • Si un fichier Avro a été lu uniquement avec l’option failOnUnknownFields\ ou avec Auto Loader en mode d’évolution de failOnNewColumns\ schéma, les colonnes qui ont différents types de données sont lues comme null\ au lieu de générer une erreur indiquant que le fichier ne peut pas être lu. Ces lectures échouent maintenant et recommandent aux utilisateurs d’utiliser l’option rescuedDataColumn\ .
    • Auto Loader effectue maintenant les opérations suivantes.
      • Lit correctement et ne sauve plus les types Integer, Short et Byte si l’un de ces types de données est fourni, mais le fichier Avro suggère l’un des deux autres types.
      • Empêche la lecture des types d’intervalles en tant que types date ou horodatage pour éviter d’obtenir des dates endommagées.
      • Empêche la lecture Decimal des types avec une précision inférieure.
    • [SPARK-43172] Expose l’hôte et le jeton du client Spark Connect.
    • [SPARK-43293]__qualified_access_only est ignoré dans les colonnes normales.
    • [SPARK-43098] Correction d’un bogue d’exactitude lorsque la COUNT sous-requête scalaire est regroupée par clause.
    • [SPARK-43085] Prise en charge de l’attribution de colonnes DEFAULT pour les noms de tables en plusieurs parties.
    • [SPARK-43190]ListQuery.childOutput est désormais cohérent avec la sortie secondaire.
    • [SPARK-43192] Suppression de la validation de l’ensemble de caractères de l’agent utilisateur.
    • Mises à jour de sécurité du système d’exploitation
  • 25 avril 2023
    • Si un fichier Parquet a été lu uniquement avec l’option failOnUnknownFields ou avec Auto Loader en mode d’évolution de failOnNewColumns schéma, les colonnes qui avaient différents types de données sont lues comme null au lieu de générer une erreur indiquant que le fichier ne peut pas être lu. Ces lectures échouent maintenant et recommandent aux utilisateurs d’utiliser l’option rescuedDataColumn .
    • Désormais, le chargeur automatique lit et ne sauve plus correctement les types Integer, Short et Byte si l’un de ces types de données est fourni. Le fichier Parquet suggère l’un des deux autres types. Lorsque la colonne de données sauvée était précédemment activée, l’incompatibilité du type de données entraînait le sauvetage des colonnes même si elles étaient lisibles.
    • [SPARK-43009] Paramétrisation de sql() avec des constantes Any
    • [SPARK-42406] Arrêter les champs récursifs Protobuf en supprimant le champ
    • [SPARK-43038] Prise en charge du mode GCM par aes_encrypt()/aes_decrypt()
    • [SPARK-42971] Modification pour imprimer workdir si appDirs est Null lors de l’événement de handle de worker WorkDirCleanup
    • [SPARK-43018] Correction d’un bogue pour INSERT des commandes avec des littéraux d’horodatage
    • Mises à jour de sécurité du système d’exploitation
  • 11 avril 2023
    • Prise en charge des formats de source de données hérités dans la commande SYNC.
    • Corrige un problème dans le comportement %autoreload dans les notebooks en dehors d’un dépôt.
    • Correction d’un problème à cause duquel l’évolution du schéma du chargeur automatique peut passer dans une boucle d’échec infinie, lorsqu’une nouvelle colonne est détectée dans le schéma d’un objet JSON imbriqué.
    • [SPARK-42928] Rend resolvePersistentFunction synchronisé.
    • [SPARK-42936] Corrige un problème LC lorsque la clause peut être résolue directement par son agrégat enfant.
    • [SPARK-42967] Corrige SparkListenerTaskStart.stageAttemptId lorsqu’une tâche démarre après l’annulation de la phase.
    • Mises à jour de sécurité du système d’exploitation
  • 29 mars 2023
    • Databricks SQL prend désormais en charge la spécification de valeurs par défaut pour les colonnes des tables Delta Lake, au moment de la création de la table ou après. Les commandes suivantes INSERT, UPDATE, DELETE et MERGE peuvent faire référence à n’importe quelle valeur par défaut d’une colonne à l’aide de la mot clé explicite DEFAULT. De plus, si des affectations INSERT ont une liste explicite de moins de colonnes que la table cible, les valeurs de colonne par défaut correspondantes sont remplacées par les colonnes restantes (ou NULL si aucune valeur par défaut n’est spécifiée).

      Par exemple :

      CREATE TABLE t (first INT, second DATE DEFAULT CURRENT_DATE()) USING delta;
      INSERT INTO t VALUES (0, DEFAULT);
      INSERT INTO t VALUES (1, DEFAULT);
      SELECT first, second FROM t;
      \> 0, 2023-03-28
      1, 2023-03-28z
      
    • Le chargeur automatique lance désormais au moins un journal RocksDB synchrone propre pour les flux Trigger.AvailableNow afin de s’assurer que le point de contrôle peut être nettoyé régulièrement pour les flux du chargeur automatique à exécution rapide. Certains flux peuvent mettre plus longtemps à s’arrêter, mais vous économiserez des coûts de stockage et améliorerez l’expérience du chargeur automatique dans les exécutions futures.

    • Vous pouvez maintenant modifier une table Delta pour ajouter la prise en charge des fonctionnalités de table à l’aide de DeltaTable.addFeatureSupport(feature_name).

    • [SPARK-42794] Augmentation de lockAcquireTimeoutMs à 2 minutes pour l’acquisition du magasin d’état RocksDB dans Structure Streaming

    • [SPARK-42521] Ajout des valeurs NULL pour INSERT avec des listes spécifiées par l’utilisateur de moins de colonnes que la table cible

    • [SPARK-42702][SPARK-42623] Prise en charge de la requête paramétrable dans la sous-requête et la CTE

    • [SPARK-42668] Intercepter une exception lors de la tentative de fermeture du flux compressé dans l’arrêt HDFSStateStoreProvider

    • [SPARK-42403] JsonProtocol doit gérer les chaînes JSON Null

  • 8 mars 2023
    • Le message d’erreur « Échec de l’initialisation de la configuration » a été amélioré pour fournir plus de contexte au client.
    • Il existe un changement de terminologie pour l’ajout de fonctionnalités à une table Delta à l’aide de la propriété table. La syntaxe préférée est maintenant 'delta.feature.featureName'='supported' au lieu de 'delta.feature.featureName'='enabled'. Pour la compatibilité descendante, l’utilisation de 'delta.feature.featureName'='enabled' fonctionne toujours et continuera de fonctionner.
    • À partir de cette version, il est possible de créer ou de remplacer une table par une propriété de table delta.ignoreProtocolDefaults supplémentaire pour ignorer les configurations Spark liées au protocole, ce qui inclue les versions de lecteur et d’enregistreur par défaut, et les fonctionnalités de table prises en charge par défaut.
    • [SPARK-42070] Modifier la valeur par défaut de l’argument de la fonction Mask de -1 à NULL
    • [SPARK-41793] Résultat incorrect pour les cadres de fenêtre définis par une clause de plage sur les décimales importantes
    • [SPARK-42484] Meilleur message d’erreur UnsafeRowUtils
    • [SPARK-42516] Capturez toujours la configuration du fuseau horaire de session lors de la création de vues
    • [SPARK-42635] Correction de l’expression TimestampAdd.
    • [SPARK-42622] Désactivation de la substitution dans les valeurs
    • [SPARK-42534] Correction de la clause de limite DB2Dialect
    • [SPARK-42121] Ajouter des fonctions table intégrées posexplode, posexplode_outer, json_tuple et pile
    • [SPARK-42045] Mode SQL ANSI : Round/Bround doit retourner une erreur sur un dépassement de capacité d’entier minuscule, petit ou important
    • Mises à jour de sécurité du système d’exploitation

Databricks Runtime 11.3 LTS

Voir Databricks Runtime 11.3 LTS.

  • 29 novembre 2023
    • Correction d’un problème à cause duquel les traits de soulignement d’échappement dans les opérations getColumns provenant de clients JDBC ou ODBC n’étaient pas interprétés comme des caractères génériques.
    • [SPARK-43973] L'interface utilisateur de flux structuré affiche désormais correctement les requêtes ayant échoué.
    • [SPARK-45730] Contraintes de temps améliorées pour ReloadingX509TrustManagerSuite.
    • [SPARK-45544] Prise en charge SSL intégrée dans TransportContext.
    • [SPARK-45859] Objets UDF rendus différés ml.functions.
    • [SPARK-43718] Correction de la possibilité de valeurs Null pour les clés dans les jointures USING.
    • [SPARK-44846] Suppression d’expressions de regroupement complexes après RemoveRedundantAggregates.
    • Mises à jour de sécurité du système d’exploitation
  • 14 novembre 2023
    • Les filtres de partition sur les requêtes de streaming de Delta Lake font désormais l’objet d’un pushdown avant la limitation de débit pour avoir une meilleure utilisation.
    • [SPARK-42205] Suppression des cumulables de journalisation dans les événements de démarrage de phase et de tâche.
    • [SPARK-45545]SparkTransportConf hérite de SSLOptions lors de la création.
    • Rétablissez [SPARK-33861].
    • [SPARK-45541] Ajout de SSLFactory.
    • [SPARK-45429] Ajout de classes d’assistance pour la communication RPC SSL.
    • [SPARK-45584]Correction de l’échec de l’exécution de la sous-requête avec TakeOrderedAndProjectExec.
    • [SPARK-45430]FramelessOffsetWindowFunction ne échoue plus quand IGNORE NULLS et offset > rowCount.
    • [SPARK-45427] Ajout de paramètres SSL RPC à SSLOptions et SparkTransportConf.
    • Mises à jour de sécurité du système d’exploitation
  • 24 octobre 2023
    • [SPARK-45426] Ajout de la prise en charge de ReloadingX509TrustManager.
    • Correctifs divers.
  • 13 octobre 2023
    • La dépendance Snowflake-jdbc a été mise à niveau de 3.13.29 à 3.13.33.
    • [SPARK-45178] Retournez pour exécuter un lot unique pour Trigger.AvailableNow avec des sources non prises en charge plutôt que d’utiliser le wrapper.
    • [SPARK-45084]StateOperatorProgress pour utiliser un numéro de partition aléatoire adéquat.
    • [SPARK-45346] L’inférence de schéma Parquet respecte désormais l’indicateur respectant la casse lors de la fusion d’un schéma.
    • Mises à jour de sécurité du système d’exploitation
  • 10 septembre 2023
    • Correctifs divers.
  • 30 août 2023
    • [SPARK-44818] Correction de la course pour l’interruption de tâche en attente émise avant l’initialisation de taskThread.
    • [SPARK-44871][11.3-13.0] Correction du comportement de percentile_disc.
    • Mises à jour de sécurité du système d’exploitation
  • 15 août 2023
    • [SPARK-44485] Optimisation de TreeNode.generateTreeString.
    • [SPARK-44504] La tâche de maintenance nettoie les fournisseurs chargés en cas d'erreur d'arrêt.
    • [SPARK-44464] Correction de applyInPandasWithStatePythonRunner pour les lignes de sortie qui présentent Null comme première valeur de colonne.
    • Mises à jour de sécurité du système d’exploitation
  • 27 juillet 2023
    • Correction d’un problème à cause duquel dbutils.fs.ls() renvoyait INVALID_PARAMETER_VALUE.LOCATION_OVERLAP lorsqu’il était appelé pour un chemin d’accès à un emplacement de stockage qui entrait en conflit avec un autre emplacement de stockage externe ou managé.
    • [SPARK-44199]CacheManager n’actualise plus le fichier fileIndex inutilement.
    • Mises à jour de sécurité du système d’exploitation
  • 24 juillet 2023
    • [SPARK-44136] [SS] Correction d’un problème à cause duquel StateManager pouvait être matérialisé dans l’exécuteur au lieu du pilote dans FlatMapGroupsWithStateExec.
    • Mises à jour de sécurité du système d’exploitation
  • 23 juin 2023
    • Mises à jour de sécurité du système d’exploitation
  • 15 juin 2023
    • Photonized approx_count_distinct.
    • La bibliothèque Snowflake-jdbc est mise à niveau vers la version 3.13.29 pour résoudre un problème de sécurité.
    • [SPARK-43779]ParseToDate charge désormais EvalMode dans le thread principal.
    • [SPARK-40862] Prise en charge des sous-requêtes non agrégées dans RewriteCorrelatedScalarSubquery
    • [SPARK-43156][SPARK-43098] Test de bogue de nombre de sous-requêtes scalaire étendu avec decorrelateInnerQuery désactivé.
    • [SPARK-43098] Correction du bogue COUNT lorsque la sous-requête scalaire dispose d’une clause group by
    • Mises à jour de sécurité du système d’exploitation
  • 2 juin 2023
    • L’analyseur JSON en mode failOnUnknownFields supprime un enregistrement en mode DROPMALFORMED et échoue directement en mode FAILFAST.
    • Améliorez les performances des mises à jour incrémentielles avec Iceberg et Parquet SHALLOW CLONE.
    • Correction d’un problème dans Auto Loader où différents formats de fichier source étaient incohérents lorsque le schéma fourni n’incluait aucune partition déduite. Ce problème peut entraîner des échecs inattendus lors de la lecture de fichiers avec des colonnes manquantes dans le schéma de partition déduite.
    • [SPARK-43404]Ignorez la réutilisation du fichier SST pour la même version du magasin d’état RocksDB afin d’éviter une erreur de non-correspondance d’ID.
    • [SPARK-43527] Résolution de catalog.listCatalogs dans PySpark.
    • [SPARK-43413][11.3-13.0] Correction de la sous-requête IN de possibilité de valeurs nulles de ListQuery.
    • [SPARK-43340] Correction du champ de trace de pile manquant dans des journaux d’événements.

Databricks Runtime 10.4 LTS

Consultez Databricks Runtime 10.4 LTS.

  • 29 novembre 2023
    • [SPARK-45544] Prise en charge SSL intégrée dans TransportContext.
    • [SPARK-45859] Objets UDF rendus différés ml.functions.
    • [SPARK-43718] Correction de la possibilité de valeurs Null pour les clés dans les jointures USING.
    • [SPARK-45730] Contraintes de temps améliorées pour ReloadingX509TrustManagerSuite.
    • [SPARK-42205] Suppression des cumulables de journalisation dans les événements de démarrage de phase et de tâche.
    • [SPARK-44846] Suppression d’expressions de regroupement complexes après RemoveRedundantAggregates.
    • Mises à jour de sécurité du système d’exploitation
  • 14 novembre 2023
    • [SPARK-45541] Ajout de SSLFactory.
    • [SPARK-45545]SparkTransportConf hérite de SSLOptions lors de la création.
    • [SPARK-45427] Ajout de paramètres SSL RPC à SSLOptions et SparkTransportConf.
    • [SPARK-45429] Ajout de classes d’assistance pour la communication RPC SSL.
    • [SPARK-45584]Correction de l’échec de l’exécution de la sous-requête avec TakeOrderedAndProjectExec.
    • Rétablissez [SPARK-33861].
    • Mises à jour de sécurité du système d’exploitation
  • 24 octobre 2023
    • [SPARK-45426] Ajout de la prise en charge de ReloadingX509TrustManager.
    • Mises à jour de sécurité du système d’exploitation
  • 13 octobre 2023
    • [SPARK-45084]StateOperatorProgress pour utiliser un numéro de partition aléatoire adéquat.
    • [SPARK-45178] Retournez pour exécuter un lot unique pour Trigger.AvailableNow avec des sources non prises en charge plutôt que d’utiliser le wrapper.
    • Mises à jour de sécurité du système d’exploitation
  • 10 septembre 2023
    • Correctifs divers.
  • 30 août 2023
    • [SPARK-44818] Correction de la course pour l’interruption de tâche en attente émise avant l’initialisation de taskThread.
    • Mises à jour de sécurité du système d’exploitation
  • 15 août 2023
    • [SPARK-44504] La tâche de maintenance nettoie les fournisseurs chargés en cas d'erreur d'arrêt.
    • [SPARK-43973] L'interface utilisateur de flux structuré affiche désormais correctement les requêtes ayant échoué.
    • Mises à jour de sécurité du système d’exploitation
  • 23 juin 2023
    • Mises à jour de sécurité du système d’exploitation
  • 15 juin 2023
    • La bibliothèque Snowflake-jdbc est mise à niveau vers la version 3.13.29 pour résoudre un problème de sécurité.
    • [SPARK-43098] Correction du bogue COUNT lorsque la sous-requête scalaire dispose d’une clause group by
    • [SPARK-40862] Prise en charge des sous-requêtes non agrégées dans RewriteCorrelatedScalarSubquery
    • [SPARK-43156][SPARK-43098] Test de nombre de sous-requêtes scalaire étendu avec decorrelateInnerQuery désactivé.
    • Mises à jour de sécurité du système d’exploitation
  • 2 juin 2023
    • L’analyseur JSON en mode failOnUnknownFields supprime un enregistrement en mode DROPMALFORMED et échoue directement en mode FAILFAST.
    • Correction d’un problème dans l’analyse de données sauvées JSON pour empêcher UnknownFieldException.
    • Correction d’un problème dans Auto Loader où différents formats de fichier source étaient incohérents lorsque le schéma fourni n’incluait aucune partition déduite. Ce problème peut entraîner des échecs inattendus lors de la lecture de fichiers avec des colonnes manquantes dans le schéma de partition déduite.
    • [SPARK-43404] Ignorez la réutilisation du fichier SST pour la même version du magasin d’état RocksDB afin d’éviter une erreur de non-correspondance d’ID.
    • [SPARK-43413] Correction de la possibilité de valeurs nulles de ListQuery de la sous-requête IN.
    • Mises à jour de sécurité du système d’exploitation
  • 17 mai 2023
    • Les analyses Parquet sont désormais robustes contre les OOMs lors de l’analyse de fichiers exceptionnellement structurés en ajustant dynamiquement la taille des lots. Les métadonnées de fichier sont analysées pour réduire la taille du lot de manière préventive et sont à nouveau réduites lors des nouvelles tentatives de tâche en tant que filet de sécurité final.
    • [SPARK-41520] Fractionnez le modèle d’arborescence AND_OR pour séparer AND et OR.
    • [SPARK-43190]ListQuery.childOutput est désormais cohérent avec la sortie secondaire.
    • Mises à jour de sécurité du système d’exploitation
  • 25 avril 2023
    • [SPARK-42928] Rend resolvePersistentFunction synchronisé.
    • Mises à jour de sécurité du système d’exploitation
  • 11 avril 2023
    • Correction d’un problème à cause duquel l’évolution du schéma du chargeur automatique peut passer dans une boucle d’échec infinie, lorsqu’une nouvelle colonne est détectée dans le schéma d’un objet JSON imbriqué.
    • [SPARK-42937]PlanSubqueries définit désormais la valeur InSubqueryExec#shouldBroadcast sur true.
    • [SPARK-42967] Correction de SparkListenerTaskStart.stageAttemptId lorsqu’une tâche est démarrée après l’annulation de la phase.
  • 29 mars 2023
    • [SPARK-42668] Intercepter une exception lors de la tentative de fermeture du flux compressé dans l’arrêt HDFSStateStoreProvider
    • [SPARK-42635] Correction de …
    • Mises à jour de sécurité du système d’exploitation
  • 14 mars 2023
    • [SPARK-41162] Correction de la jointure anti-jointure et de la semi-jointure pour la jointure automatique avec agrégations
    • [SPARK-33206] Correction du calcul de poids du cache d’index aléatoire pour les petits fichiers d’index
    • [SPARK-42484] Amélioration du message d’erreur UnsafeRowUtils
    • Correctifs divers.
  • 28 février 2023
    • Prise en charge de la colonne générée pour les date_format aaaa-MM-jj. Cette modification prend en charge l’élagage de partition pour les aaaa-MM-jj en tant que date_format dans les colonnes générées.
    • Les utilisateurs peuvent désormais lire et écrire certaines tables Delta qui nécessitent Reader version 3 et Writer version 7, à l’aide de Databricks Runtime 9.1 LTS ou version ultérieure. Pour réussir, les fonctionnalités de table répertoriées dans le protocole des tables doivent être prises en charge par la version actuelle de Databricks Runtime.
    • Prise en charge de la colonne générée pour les date_format aaaa-MM-jj. Cette modification prend en charge l’élagage de partition pour les aaaa-MM-jj en tant que date_format dans les colonnes générées.
    • Mises à jour de sécurité du système d’exploitation
  • 16 février 2023
    • [SPARK-30220] Activer l’utilisation des sous-requêtes Exists/In en dehors du nœud Filtre
    • Mises à jour de sécurité du système d’exploitation
  • 31 janvier 2023
    • Les types de tables JDBC sont désormais EXTERNAL par défaut.
  • 18 janvier 2023
    • Le connecteur Azure Synapse retourne un message d’erreur plus descriptif quand un nom de colonne contient des caractères non valides comme des espaces ou des points-virgules. Dans ce cas, le message suivant est retourné : Azure Synapse Analytics failed to run the JDBC query produced by the connector. Check column names do not include not valid characters such as ';' or white space.
    • [SPARK-38277] Nettoyage du lot d’écriture après le commit du magasin d’états RocksDB
    • [SPARK-41199] Correction du problème de métriques quand la source de streaming DSv1 et la source de streaming DSv2 sont utilisées ensemble
    • [SPARK-41198] Correction de métriques dans les requêtes de streaming ayant une source de streaming CTE et DSv1
    • [SPARK-41339] Fermez et recréez le lot d’écriture RocksDB au lieu de simplement l’effacer
    • [SPARK-41732] Appliquer l’élagage basé sur un modèle d’arborescence pour la règle SessionWindowing
    • Mises à jour de sécurité du système d’exploitation
  • 29 novembre 2022
    • Les utilisateurs peuvent configurer le comportement des espaces blancs de début et de fin lors de l’écriture de données à l’aide du connecteur Redshift. Les options suivantes ont été ajoutées pour contrôler la gestion des espaces blancs :
      • Quand csvignoreleadingwhitespace est défini sur true, il supprime l’espace blanc de début des valeurs pendant les écritures lorsque tempformat est défini sur CSV ou CSV GZIP. Les espaces blancs sont conservés lorsque la configuration est définie sur false. Par défaut, la valeur est true.
      • Quand csvignoretrailingwhitespace est défini sur true, il supprime l’espace blanc de fin des valeurs pendant les écritures lorsque tempformat est défini sur CSV ou CSV GZIP. Les espaces blancs sont conservés lorsque la configuration est définie sur false. Par défaut, la valeur est true.
    • Correction d’un problème avec l’analyse JSON dans Auto Loader quand toutes les colonnes étaient laissées en tant que chaînes (cloudFiles.inferColumnTypes n’a pas été définie ou défini sur false) et que le JSON contenait des objets imbriqués.
    • Mises à jour de sécurité du système d’exploitation
  • 15 novembre 2022
    • Mise à niveau d’Apache commons-text vers 1.10.0.
    • [SPARK-40646] L’analyse JSON pour les structs, les mappages et les tableaux a été corrigée de sorte que lorsqu’une partie d’un enregistrement ne correspond pas au schéma, le reste de l’enregistrement peut toujours être analysé correctement au lieu de retourner des valeurs Null. Pour opter pour l’amélioration du comportement, définissez spark.sql.json.enablePartialResults surtrue. L’indicateur est désactivé par défaut pour conserver le comportement d’origine.
    • [SPARK-40292] Correction des noms de colonnes dans la fonction arrays_zip lorsque des tableaux sont référencés à partir de structs imbriqués
    • Mises à jour de sécurité du système d’exploitation
  • 1er novembre 2022
    • Correction d’un problème à cause duquel, si une table Delta avait une colonne définie par l’utilisateur nommée _change_type, mais que le flux de données modifiées était désactivé sur cette table, les données de cette colonne se remplissaient incorrectement avec des valeurs NULL lors de l’exécution de MERGE.
    • Correction d’un problème avec Auto Loader où un fichier peut être dupliqué dans le même micro-lot quand allowOverwrites est activé
    • [SPARK-40697] Ajoutez un remplissage de caractères côté lecture pour couvrir les fichiers de données externes
    • [SPARK-40596] Remplissez ExecutorDecommission avec des messages dans ExecutorDecommissionInfo
    • Mises à jour de sécurité du système d’exploitation
  • 18 octobre 2022
    • Mises à jour de sécurité du système d’exploitation
  • 5 octobre 2022
    • [SPARK-40468] Correction de la taille des colonnes au format CSV lorsque _corrupt_record est sélectionné.
    • Mises à jour de sécurité du système d’exploitation
  • 22 septembre 2022
    • Les utilisateurs peuvent définir spark.conf.set(spark.databricks.io.listKeysWithPrefix.azure.enabled, true) pour réactiver la liste intégrée du chargeur automatique sur ADLS Gen2. La liste intégrée a été précédemment désactivée en raison de problèmes de performances, mais peut avoir entraîné une augmentation des coûts de stockage pour les clients.
    • [SPARK-40315] Ajout de hashCode() pour Literal d’ArrayBasedMapData
    • [SPARK-40213] Prise en charge de la conversion de valeurs ASCII pour les caractères Latin-1
    • [SPARK-40380] Correction du pliage constant de InvokeLike pour éviter un littéral non sérialisable incorporé dans le plan
    • [SPARK-38404] Amélioration de la résolution CTE lorsqu’un CTE imbriqué fait référence à un CTE externe
    • [SPARK-40089] Correction du tri pour certains types décimaux
    • [SPARK-39887] RemoveRedundantAliases doit conserver les alias qui rendent la sortie des nœuds de projection uniques
  • 6 septembre 2022
    • [SPARK-40235] Utilisation d’un verrou interruptible au lieu d’une synchronisation dans Executor.updateDependencies()
    • [SPARK-40218] GROUPING SETS devrait conserver les colonnes de regroupement
    • [SPARK-39976] ArrayIntersect devrait correctement gérer la valeur Null dans l’expression de gauche
    • [SPARK-40053] Ajout de assume aux cas d’annulation dynamique nécessitant un environnement de runtime Python
    • [SPARK-35542] Correctif : un bucketizer créé pour plusieurs colonnes avec des paramètres splitsArray, inputCols et outputCols ne peut pas être chargé après son enregistrement
    • [SPARK-40079] Ajout d’une validation d’Imputer inputCols en cas d’entrée vide
  • 24 août 2022
    • SPARK-39983 Plus de mise en cache des relations de diffusion non sérialisées sur le pilote
    • [SPARK-39775] Désactivation des valeurs par défaut lors de l’analyse des schémas Avro
    • [SPARK-39962] Application d’une projection lorsque les attributs de groupe sont vides
    • [SPARK-37643] Lorsque charVarcharAsString a la valeur true, la requête de prédicat de type de données char ignore la règle rpadding
    • Mises à jour de sécurité du système d’exploitation
  • 9 août 2022
    • [SPARK-39847] Correction de la condition de concurrence dans RocksDBLoader.loadLibrary() si le thread de l’appelant est interrompu
    • [SPARK-39731] Correction du problème dans les sources de données CSV et JSON lors de l’analyse des dates au format “aaaaMMjj” avec une stratégie d’analyseur de temps CORRIGÉE
    • Mises à jour de sécurité du système d’exploitation
  • 27 juillet 2022
    • [SPARK-39625] Ajout de Dataset.as(StructType)
    • [SPARK-39689] Prise en charge du lineSep de 2 caractères dans la source de données CSV
    • [SPARK-39104] InMemoryRelation#isCachedColumnBuffersLoaded devrait être thread-safe
    • [SPARK-39570] La table incluse devrait autoriser les expressions avec alias
    • [SPARK-39702] Réduction de la surcharge de mémoire de TransportCipher$EncryptedMessage à l’aide d’un byteRawChannel partagé
    • [SPARK-39575] Ajout de ByteBuffer#rewind après ByteBuffer#get dans AvroDeserializer
    • [SPARK-39476] Désactivation de l’optimisation du cast de désenveloppement lors de la conversion de Long en Float/Double ou d’Entier en Float
    • [SPARK-38868] Pas de propagation d’exceptions à partir du prédicat de filtre lors de l’optimisation des jointures externes
    • Mises à jour de sécurité du système d’exploitation
  • 20 juillet 2022
    • Les résultats de l’opération Delta MERGE sont cohérents lorsque la source n’est pas déterministe.
    • [SPARK-39355] Une colonne unique utilise des guillemets pour construire UnresolvedAttribute
    • [SPARK-39548] La commande CreateView avec une requête de clause de fenêtre provoque un problème de définition de fenêtre introuvable incorrect
    • [SPARK-39419] Correction d’ArraySort pour lever une exception lorsque le comparateur retourne Null
    • Désactivation de l’utilisation par le chargeur automatique des API cloud intégrées pour dresser la liste des répertoires sur Azure.
    • Mises à jour de sécurité du système d’exploitation
  • 5 juillet 2022
    • [SPARK-39376] Masquage des colonnes dupliquées dans l’extension en étoile de l’alias de sous-requête de NATURAL/USING JOIN
    • Mises à jour de sécurité du système d’exploitation
  • 15 juin 2022
    • [SPARK-39283] Correction d’un interblocage entre TaskMemoryManager et UnsafeExternalSorter.SpillableIteratou
    • [SPARK-39285] Spark ne doit pas vérifier les noms de champs lors de la lecture des fichiers
    • [SPARK-34096] Amélioration des performances pour que nth_value ignore les valeurs Null sur une fenêtre de décalage
    • [SPARK-36718] Correction de la vérification isExtractOnly dans CollapseProject
  • 2 juin 2022
    • [SPARK-39093] Contournement d’une erreur de compilation codegen lors de la division des intervalles d’année-mois ou des intervalles de jours-heures par un intégral
    • [SPARK-38990] Contournement de NullPointerException lors de l’évaluation du format date_trunc/trunc comme référence liée
    • Mises à jour de sécurité du système d’exploitation
  • 18 mai 2022
    • Corrige une fuite de mémoire intégrée potentielle dans Auto Loader.
    • [SPARK-38918] Le nettoyage de colonne imbriquée doit filtrer les attributs qui n’appartiennent pas à la relation actuelle
    • [SPARK-37593] Réduction de la taille de page par défaut selon LONG_ARRAY_OFFSET si G1GC et ON_HEAP sont utilisés
    • [SPARK-39084] Correction de df.rdd.isEmpty() en utilisant TaskContext pour arrêter l’itérateur à la fin de la tâche
    • [SPARK-32268] Ajout de ColumnPruning dans injectBloomFilter
    • [SPARK-38974] Filtrage des fonctions inscrites avec un nom de base de données indiqué dans les fonctions de liste
    • [SPARK-38931] Création d’un répertoire DFS racine pour RocksDBFileManager avec un nombre inconnu de clés au premier point de contrôle
    • Mises à jour de sécurité du système d’exploitation
  • 19 avril 2022
    • Mise à niveau du Kit de développement logiciel (SDK) Java AWS de la version 1.11.655 vers la version 1.12.1899.
    • Correction d’un problème lié aux bibliothèques délimitées aux notebooks qui ne fonctionnaient pas dans les travaux de streaming par lots.
    • [SPARK-38616] Suivi du texte de requête SQL dans Catalyst TreeNode
    • Mises à jour de sécurité du système d’exploitation
  • 6 avril 2022
    • Les fonctions Spark SQL suivantes sont désormais disponibles avec cette version :
      • timestampadd() et dateadd() : Ajout d’une durée dans une unité spécifiée à une expression d’horodatage.
      • timestampdiff() et datediff() : Calcule de la différence de temps entre deux expressions d’horodatage d’une unité spécifiée.
    • Parquet-MR a été mis à niveau vers la version 1.12.2
    • Prise en charge améliorée des schémas complets dans les fichiers Parquet
    • [SPARK-38631] Utilise une implémentation basée sur Java à des fins de désarchivage tar sur Utils.unpack
    • [SPARK-38509][SPARK-38481] Cherry-picking de trois modifications timestmapadd/diff.
    • [SPARK-38523] Correction lors de la référence à la colonne d’enregistrement endommagé du CSV
    • [SPARK-38237] Autorisation de ClusteredDistribution à exiger des clés de clustering complètes
    • [SPARK-38437] Sérialisation indulgente de la date et heure à partir de la source de données
    • [SPARK-38180] Autorisation des expressions up-cast sécurisées dans les prédicats d’égalité corrélés
    • [SPARK-38155] Interdiction de tout agrégat distinct dans les sous-requêtes latérales avec des prédicats non pris en charge
    • Mises à jour de sécurité du système d’exploitation

Databricks Runtime 9.1 LTS

Voir Databricks Runtime 9.1 LTS.

  • 29 novembre 2023
    • [SPARK-45859] Objets UDF rendus différés ml.functions.
    • [SPARK-45544] Prise en charge SSL intégrée dans TransportContext.
    • [SPARK-45730] Contraintes de temps améliorées pour ReloadingX509TrustManagerSuite.
    • Mises à jour de sécurité du système d’exploitation
  • 14 novembre 2023
    • [SPARK-45545]SparkTransportConf hérite de SSLOptions lors de la création.
    • [SPARK-45429] Ajout de classes d’assistance pour la communication RPC SSL.
    • [SPARK-45427] Ajout de paramètres SSL RPC à SSLOptions et SparkTransportConf.
    • [SPARK-45584]Correction de l’échec de l’exécution de la sous-requête avec TakeOrderedAndProjectExec.
    • [SPARK-45541] Ajout de SSLFactory.
    • [SPARK-42205] Suppression des cumulables de journalisation dans les événements de démarrage de phase et de tâche.
    • Mises à jour de sécurité du système d’exploitation
  • 24 octobre 2023
    • [SPARK-45426] Ajout de la prise en charge de ReloadingX509TrustManager.
    • Mises à jour de sécurité du système d’exploitation
  • 13 octobre 2023
    • Mises à jour de sécurité du système d’exploitation
  • 10 septembre 2023
    • Correctifs divers.
  • 30 août 2023
    • Mises à jour de sécurité du système d’exploitation
  • 15 août 2023
    • Mises à jour de sécurité du système d’exploitation
  • 23 juin 2023
    • La bibliothèque Snowflake-jdbc est mise à niveau vers la version 3.13.29 pour résoudre un problème de sécurité.
    • Mises à jour de sécurité du système d’exploitation
  • 15 juin 2023
    • [SPARK-43098] Correction du bogue COUNT lorsque la sous-requête scalaire dispose d’une clause group by
    • [SPARK-43156][SPARK-43098] Test de bogue de nombre de sous-requêtes scalaire étendu avec decorrelateInnerQuery désactivé.
    • [SPARK-40862] Prise en charge des sous-requêtes non agrégées dans RewriteCorrelatedScalarSubquery
    • Mises à jour de sécurité du système d’exploitation
  • 2 juin 2023
    • L’analyseur JSON en mode failOnUnknownFields supprime un enregistrement en mode DROPMALFORMED et échoue directement en mode FAILFAST.
    • Correction d’un problème dans l’analyse de données sauvées JSON pour empêcher UnknownFieldException.
    • Correction d’un problème dans Auto Loader où différents formats de fichier source étaient incohérents lorsque le schéma fourni n’incluait aucune partition déduite. Ce problème peut entraîner des échecs inattendus lors de la lecture de fichiers avec des colonnes manquantes dans le schéma de partition déduite.
    • [SPARK-37520] Ajout des fonctions de chaîne startswith() et endswith()
    • [SPARK-43413] Correction de la possibilité de valeurs nulles de ListQuery de la sous-requête IN.
    • Mises à jour de sécurité du système d’exploitation
  • 17 mai 2023
    • Mises à jour de sécurité du système d’exploitation
  • 25 avril 2023
    • Mises à jour de sécurité du système d’exploitation
  • 11 avril 2023
    • Correction d’un problème à cause duquel l’évolution du schéma du chargeur automatique peut passer dans une boucle d’échec infinie, lorsqu’une nouvelle colonne est détectée dans le schéma d’un objet JSON imbriqué.
    • [SPARK-42967] Correction de SparkListenerTaskStart.stageAttemptId lorsqu’une tâche est démarrée après l’annulation de la phase.
  • 29 mars 2023
    • Mises à jour de sécurité du système d’exploitation
  • 14 mars 2023
    • [SPARK-42484] Amélioration du message d’erreur pour UnsafeRowUtils.
    • Correctifs divers.
  • 28 février 2023
    • Les utilisateurs peuvent désormais lire et écrire certaines tables Delta qui nécessitent Reader version 3 et Writer version 7, à l’aide de Databricks Runtime 9.1 LTS ou version ultérieure. Pour réussir, les fonctionnalités de table répertoriées dans le protocole des tables doivent être prises en charge par la version actuelle de Databricks Runtime.
    • Mises à jour de sécurité du système d’exploitation
  • 16 février 2023
    • Mises à jour de sécurité du système d’exploitation
  • 31 janvier 2023
    • Les types de tables JDBC sont désormais EXTERNAL par défaut.
  • 18 janvier 2023
    • Mises à jour de sécurité du système d’exploitation
  • 29 novembre 2022
    • Correction d’un problème avec l’analyse JSON dans Auto Loader quand toutes les colonnes étaient laissées en tant que chaînes (cloudFiles.inferColumnTypes n’a pas été définie ou défini sur false) et que le JSON contenait des objets imbriqués.
    • Mises à jour de sécurité du système d’exploitation
  • 15 novembre 2022
    • Mise à niveau d’Apache commons-text vers 1.10.0.
    • Mises à jour de sécurité du système d’exploitation
    • Correctifs divers.
  • 1er novembre 2022
    • Correction d’un problème à cause duquel, si une table Delta avait une colonne définie par l’utilisateur nommée _change_type, mais que le flux de données modifiées était désactivé sur cette table, les données de cette colonne se remplissaient incorrectement avec des valeurs NULL lors de l’exécution de MERGE.
    • Correction d’un problème avec Auto Loader où un fichier peut être dupliqué dans le même micro-lot quand allowOverwrites est activé
    • [SPARK-40596] Remplissez ExecutorDecommission avec des messages dans ExecutorDecommissionInfo
    • Mises à jour de sécurité du système d’exploitation
  • 18 octobre 2022
    • Mises à jour de sécurité du système d’exploitation
  • 5 octobre 2022
    • Correctifs divers.
    • Mises à jour de sécurité du système d’exploitation
  • 22 septembre 2022
    • Les utilisateurs peuvent définir spark.conf.set(“spark.databricks.io.listKeysWithPrefix.azure.enabled”, “true”) pour réactiver la liste intégrée pour Auto Loader sur ADLS Gen2. La liste intégrée a été précédemment désactivée en raison de problèmes de performances, mais peut avoir entraîné une augmentation des coûts de stockage pour les clients.
    • [SPARK-40315] Ajout de hashCode() pour Literal d’ArrayBasedMapData
    • [SPARK-40089] Correction du tri pour certains types décimaux
    • [SPARK-39887] RemoveRedundantAliases doit conserver les alias qui rendent la sortie des nœuds de projection uniques
  • 6 septembre 2022
    • [SPARK-40235] Utilisation d’un verrou interruptible au lieu d’une synchronisation dans Executor.updateDependencies()
    • [SPARK-35542] Correctif : un bucketizer créé pour plusieurs colonnes avec des paramètres splitsArray, inputCols et outputCols ne peut pas être chargé après son enregistrement
    • [SPARK-40079] Ajout d’une validation d’Imputer inputCols en cas d’entrée vide
  • 24 août 2022
    • [SPARK-39666] Utilisation de UnsafeProjection.create pour respecter spark.sql.codegen.factoryMode dans ExpressionEncoder
    • [SPARK-39962] Application d’une projection lorsque les attributs de groupe sont vides
    • Mises à jour de sécurité du système d’exploitation
  • 9 août 2022
    • Mises à jour de sécurité du système d’exploitation
  • 27 juillet 2022
    • Les résultats de l’opération Delta MERGE sont cohérents lorsque la source n’est pas déterministe.
    • [SPARK-39689] Prise en charge pour le lineSep de 2 caractères dans la source de données CSV
    • [SPARK-39575] Ajout de ByteBuffer#rewind après ByteBuffer#get dans AvroDeserializer.
    • [SPARK-37392] Correction de l’erreur de performances pour l’optimiseur de catalyseur.
    • Mises à jour de sécurité du système d’exploitation
  • 13 juillet 2022
    • [SPARK-39419]ArraySort lève une exception lorsque le comparateur retourne Null.
    • Désactivation de l’utilisation par le chargeur automatique des API cloud intégrées pour dresser la liste des répertoires sur Azure.
    • Mises à jour de sécurité du système d’exploitation
  • 5 juillet 2022
    • Mises à jour de sécurité du système d’exploitation
    • Correctifs divers.
  • 15 juin 2022
    • [SPARK-39283] Correction du blocage entre TaskMemoryManager et UnsafeExternalSorter.SpillableIterator.
  • 2 juin 2022
    • [SPARK-34554] Implémentez la méthode copy() dans ColumnarMap.
    • Mises à jour de sécurité du système d’exploitation
  • 18 mai 2022
    • Correction d’une fuite de mémoire intégrée potentielle dans Auto Loader.
    • Mise à niveau la version du kit SDK AWS de la version 1.11.655 vers la version 1.11.678.
    • [SPARK-38918] Le nettoyage de colonne imbriquée doit filtrer les attributs qui n’appartiennent pas à la relation actuelle
    • [SPARK-39084] Correction df.rdd.isEmpty() à l’aide de TaskContext pour arrêter l’itérateur lors de l’achèvement de la tâche
    • Mises à jour de sécurité du système d’exploitation
  • 19 avril 2022
    • Mises à jour de sécurité du système d’exploitation
    • Correctifs divers.
  • 6 avril 2022
    • [SPARK-38631] Utilise une implémentation basée sur Java à des fins de désarchivage tar sur Utils.unpack
    • Mises à jour de sécurité du système d’exploitation
  • 22 mars 2022
    • Remplacement du répertoire de travail en cours des notebooks sur les clusters à forte concurrence avec le contrôle d’accès à la table ou l’activation du passage des informations d’identification par le répertoire d’accueil de l’utilisateur. Auparavant, le répertoire actif était /databricks/driver.
    • [SPARK-38437] Sérialisation indulgente de la date et heure à partir de la source de données
    • [SPARK-38180] Autorisation des expressions up-cast sécurisées dans les prédicats d’égalité corrélés
    • [SPARK-38155] Interdiction de tout agrégat distinct dans les sous-requêtes latérales avec des prédicats non pris en charge
    • [SPARK-27442] Suppression d’un champ de vérification lors de la lecture ou de l’écriture de données dans un parquet.
  • 14 mars 2022
    • [SPARK-38236][SQL] Les chemins d’accès absolus des fichiers spécifiés dans la table Créer/Modifier sont traités comme relatifs
    • [SPARK-34069] Interruption du thread de tâche si la propriété locale SPARK_JOB_INTERRUPT_ON_CANCEL a la valeur true.
  • 23 février 2022
    • [SPARK-37859] Les tables SQL créées avec JDBC avec Spark 3.1 ne sont pas lisibles avec la version Spark 3.2.
  • 8 février 2022
    • [SPARK-27442] Suppression d’un champ de vérification lors de la lecture ou de l’écriture de données dans un parquet.
    • Mises à jour de sécurité du système d’exploitation
  • 1er février 2022
    • Mises à jour de sécurité du système d’exploitation
  • 26 janvier 2022
    • Correction d’un problème à cause duquel les transactions concurrentes sur les tables Delta pouvaient être validées dans un ordre non sérialisable dans certaines conditions rares.
    • Correction d’un problème à cause duquel la commande OPTIMIZE pouvait échouer lors de l’activation du dialecte SQL ANSI.
  • 19 janvier 2022
    • Correctifs mineurs et améliorations de la sécurité.
    • Mises à jour de sécurité du système d’exploitation
  • 4 novembre 2021
    • Correction d’un problème qui pouvait entraîner l’échec des flux Structured Streaming avec ArrayIndexOutOfBoundsException.
    • Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que java.io.IOException: No FileSystem for scheme ou qui pouvait faire que les modifications apportées à sparkContext.hadoopConfiguration n’entrent pas en vigueur dans les requêtes.
    • Le connecteur Apache Spark pour Delta Sharing a été mis à niveau vers la version 0.2.0.
  • 20 octobre 2021
    • Mise à niveau du connecteur BigQuery de la version 0.18.1 à la version 0.22.2. Cela ajoute la prise en charge du type BigNumeric.

Databricks Runtime 13.0 (non pris en charge)

Consultez Databricks Runtime 13.0 (non pris en charge).

  • 13 octobre 2023

    • La dépendance Snowflake-jdbc a été mise à niveau de 3.13.29 à 3.13.33.
    • [SPARK-42553][SQL] Vérifiez au moins une unité de temps après l’intervalle.
    • [SPARK-45178] Secours pour exécuter un lot unique pour Trigger.AvailableNow avec des sources non prises en charge plutôt que d’utiliser wrapper.
    • [SPARK-44658][CORE] ShuffleStatus.getMapStatus retourne None au lieu de Some(null).
    • [SPARK-42205][CORE] Supprimez la journalisation des cumulables dans des événements de démarrage de tâche/phase dans JsonProtocol.
    • Mises à jour de sécurité du système d’exploitation
  • 12 septembre 2023

    • [SPARK-44485][SQL] Optimise TreeNode.generateTreeString.
    • [SPARK-44718][SQL] Fait correspondre la configuration en mode mémoire par défaut ColumnVector à la valeur de configuration OffHeapMemoryMode.
    • Divers correctifs de bogues.
  • 30 août 2023

    • [SPARK-44818][Backport] Corrige la course pour l’interruption de tâche en attente émise avant l’initialisation de taskThread.
    • [SPARK-44714] Réduit les restrictions de la résolution LCA concernant les requêtes.
    • [SPARK-44245][PYTHON] Les doctests pyspark.sql.dataframe sample() sont désormais uniquement illustratifs.
    • [11.3-13.0][[SPARK-44871]]https://issues.apache.org/jira/browse/SPARK-44871)[SQL] Corrige le comportement de percentile_disc.
    • Mises à jour de sécurité du système d’exploitation
  • 15 août 2023

    • [SPARK-44643][SQL][PYTHON] Correction Row.__repr__ lorsque la ligne est vide.
    • [SPARK-44504][Backport] La tâche de maintenance nettoie les fournisseurs chargés en cas d'erreur d'arrêt.
    • [SPARK-44479][CONNECT][PYTHON] Correction protobuf de la conversion à partir d'un type de structure vide.
    • [SPARK-44464][SS] Correction applyInPandasWithStatePythonRunner des lignes de sortie qui ont Null comme première valeur de colonne.
    • Divers correctifs de bogues.
  • 29 juillet 2023

    • Correction d’un bogue où dbutils.fs.ls() renvoyait INVALID_PARAMETER_VALUE.LOCATION_OVERLAP lorsqu’il était appelé pour un chemin d’accès à un emplacement de stockage qui entrait en conflit avec un autre emplacement de stockage externe ou managé.
    • [SPARK-44199]CacheManager n’actualise plus le fichier fileIndex inutilement.
    • Mises à jour de sécurité du système d’exploitation
  • 24 juillet 2023

    • [SPARK-44337][PROTOBUF] Correction d’un problème au cours duquel tout champ défini sur Any.getDefaultInstance provoquait une erreur d’analyse.
    • [SPARK-44136] [SS] Correction d’un problème au cours duquel StateManager se matérialisait dans un exécuteur au lieu d’un pilote dans FlatMapGroupsWithStateExec.
    • Rétablir [SPARK-42323][SQL] Attribuer le nom à _LEGACY_ERROR_TEMP_2332.
    • Mises à jour de sécurité du système d’exploitation
  • 23 juin 2023

    • Mises à jour de sécurité du système d’exploitation
  • 15 juin 2023

    • Photonized approx_count_distinct.
    • La bibliothèque Snowflake-jdbc est mise à niveau vers la version 3.13.29 pour résoudre un problème de sécurité.
    • [SPARK-43156][SPARK-43098][SQL] Étendre le test de bogues du nombre de sous-requêtes scalaires avec decorrelateInnerQuery désactivé
    • [SPARK-43779][SQL] ParseToDate charge EvalMode dans le thread principal.
    • [SPARK-42937][SQL] PlanSubqueries doit avoir la valeur InSubqueryExec#shouldBroadcast sur true
    • Mises à jour de sécurité du système d’exploitation
  • 2 juin 2023

    • L’analyseur JSON en mode failOnUnknownFields supprime un enregistrement en mode DROPMALFORMED et échoue directement en mode FAILFAST.
    • Améliorez les performances de la mise à jour incrémentielle avec SHALLOW CLONE Iceberg et Parquet.
    • Correction d’un problème dans Auto Loader où différents formats de fichier source étaient incohérents lorsque le schéma fourni n’incluait aucune partition déduite. Ce problème peut entraîner des échecs inattendus lors de la lecture de fichiers avec des colonnes manquantes dans le schéma de partition déduite.
    • [SPARK-43404][Rétroportage] Ignorer la réutilisation du fichier sst pour la même version du magasin d’état RocksDB afin d’éviter une erreur de non-correspondance d’ID.
    • [SPARK-43340][COEUR] Correction du champ de trace de pile manquant dans des journaux d’événements.
    • [SPARK-43300][COEUR] Wrapper NonFateSharingCache pour le cache Guava.
    • [SPARK-43378][COEUR] Fermez correctement les objets de flux dans deserializeFromChunkedBuffer.
    • [SPARK-16484][SQL] Utilisez des registres 8 bits pour représenter des DataSketches.
    • [SPARK-43522][SQL] Correction de la création d’un nom de colonne struct avec un index du tableau.
    • [SPARK-43413][11.3-13.0][SQL] Corrige la sous-requête IN de possibilité de valeurs nulles de ListQuery.
    • [SPARK-43043][COEUR] Performances MapOutputTracker.updateMapOutput améliorées.
    • [SPARK-16484][SQL] Ajout de la prise en charge de DataSketches HllSketch.
    • [SPARK-43123][SQL] Les métadonnées de champ interne ne fuient plus vers des catalogues.
    • [SPARK-42851][SQL] Protection EquivalentExpressions.addExpr() avec supportedExpression().
    • [SPARK-43336][SQL] Le cast entre Timestamp et TimestampNTZ nécessite un fuseau horaire.
    • [SPARK-43286][SQL] Mise à jour du mode CBC aes_encrypt pour générer des images virtuelles aléatoires.
    • [SPARK-42852][SQL] Restauration des modifications associées à NamedLambdaVariable à partir de EquivalentExpressions.
    • [SPARK-43541][SQL] Propagation de toutes les balises Project dans la résolution des expressions et des colonnes manquantes.
    • [SPARK-43527][PYTHON] Résolution de catalog.listCatalogs dans PySpark.
    • Mises à jour de sécurité du système d’exploitation
  • 31 mai 2023

    • La prise en charge de l’écriture optimisée par défaut pour des tables Delta inscrites dans Unity Catalog a été développée pour inclure des instructions CTAS et des opérations INSERT pour des tables partitionnés. Ce comportement s’aligne sur des valeurs par défaut sur des entrepôts SQL. Consultez Écritures optimisées pour Delta Lake sur Azure Databricks.
  • 17 mai 2023

    • Correction d’une régression où _metadata.file_path et _metadata.file_name retournerait des chaînes au format incorrect. Par exemple, un chemin d’accès avec des espaces est désormais représenté comme s3://test-bucket/some%20directory/some%20data.csv étant au lieu de s3://test-bucket/some directory/some data.csv.
    • Les analyses Parquet sont désormais robustes contre les OOMs lors de l’analyse de fichiers exceptionnellement structurés en ajustant dynamiquement la taille des lots. Les métadonnées de fichier sont analysées pour réduire la taille du lot de manière préventive et sont à nouveau réduites lors des nouvelles tentatives de tâche en tant que filet de sécurité final.
      • Si un fichier Avro a été lu uniquement avec l’option failOnUnknownFields\ ou avec Auto Loader en mode d’évolution de failOnNewColumns\ schéma, les colonnes qui ont différents types de données sont lues comme null\ au lieu de générer une erreur indiquant que le fichier ne peut pas être lu. Ces lectures échouent maintenant et recommandent aux utilisateurs d’utiliser l’option rescuedDataColumn\ .
    • Auto Loader effectue maintenant les opérations suivantes.
      • Lit correctement et ne sauve plus les Integertypes , si ShortByte l’un de ces types de données est fourni, mais le fichier Avro suggère l’un des deux autres types.
      • Empêche la lecture des types d’intervalles en tant que types date ou timestamp pour éviter d’obtenir des dates endommagées.
      • Empêche la lecture Decimal des types avec une précision inférieure.
    • [SPARK-43172] [CONNECT] Expose l’hôte et le jeton du client Spark Connect.
    • [SPARK-43293][SQL] __qualified_access_only est ignoré dans les colonnes normales.
    • [SPARK-43098][SQL] Correction d’un bogue d’exactitude lorsque la COUNT sous-requête scalaire est regroupée par clause.
    • [SPARK-43085][SQL] Prise en charge de l’attribution de colonnes DEFAULT pour les noms de tables en plusieurs parties.
    • [SPARK-43190][SQL] ListQuery.childOutput est désormais cohérent avec la sortie secondaire.
    • [SPARK-43192] [CONNECT] Suppression de la validation de l’ensemble de caractères de l’agent utilisateur.
  • 25 avril 2023

    • Vous pouvez modifier une table Delta pour ajouter la prise en charge d’une fonctionnalité de table Delta à l’aide de DeltaTable.addFeatureSupport(feature_name).
    • La SYNC commande prend désormais en charge les formats de source de données hérités.
    • Correction d’un bogue dans lequel l’utilisation du formateur Python avant d’exécuter d’autres commandes dans un bloc-notes Python pouvait entraîner l’absence du chemin du bloc-notes dans sys.path.
    • Azure Databricks prend désormais en charge la spécification de valeurs par défaut pour les colonnes de tables Delta. INSERTLes commandes , UPDATE, DELETEet MERGE peuvent faire référence à la valeur par défaut d’une colonne à l’aide de la mot clé explicite DEFAULT. Pour INSERT les commandes avec une liste explicite de moins de colonnes que la table cible, les valeurs de colonne par défaut correspondantes sont remplacées par les colonnes restantes (ou NULL si aucune valeur par défaut n’est spécifiée).
  • Corrige un bogue dans lequel le terminal web ne pouvait pas être utilisé pour accéder aux fichiers dans /Workspace pour certains utilisateurs.

    • Si un fichier Parquet a été lu uniquement avec l’option failOnUnknownFields ou avec Auto Loader en mode d’évolution de failOnNewColumns schéma, les colonnes qui avaient différents types de données sont lues comme null au lieu de générer une erreur indiquant que le fichier ne peut pas être lu. Ces lectures échouent maintenant et recommandent aux utilisateurs d’utiliser l’option rescuedDataColumn .
    • Auto Loader lit et ne sauve Integerplus correctement les types , si ShortByte l’un de ces types de données est fourni. Le fichier Parquet suggère l’un des deux autres types. Lorsque la colonne de données sauvée était précédemment activée, l’incompatibilité du type de données entraînait le sauvetage des colonnes même si elles étaient lisibles.
    • Correction d’un bogue dans lequel l’évolution du schéma Auto Loader peut passer dans une boucle d’échec infinie, lorsqu’une nouvelle colonne est détectée dans le schéma d’un objet JSON imbriqué.
    • [SPARK-42794][SS] Augmentez les lockAcquireTimeoutMs à 2 minutes pour l’acquisition du magasin d’état RocksDB dans Structure Streaming.
    • [SPARK-39221][SQL] Faire en sorte que les informations sensibles soient expurgées correctement pour l’onglet tâche/étape du serveur thrift.
    • [SPARK-42971][CORE] Changez pour imprimer workdir si appDirs est null lors de l’événement worker handle WorkDirCleanup .
    • [SPARK-42936][SQL] Corrige le bogue LCA lorsque le fait d’avoir une clause peut être résolue directement par son agrégat enfant.
    • [SPARK-43018][SQL] Correction d’un bogue pour INSERT les commandes avec des littéraux d’horodatage.
    • Rétablir[SPARK-42754][SQL][UI] Correction du problème de compatibilité descendante dans une exécution SQL imbriquée.
    • Rétablir [SPARK-41498] [SC-119018] Propager des métadonnées via Union.
    • [SPARK-43038] [SQL] prend en charge le mode GCM paraes_encrypt()/aes_decrypt().
    • [SPARK-42928][SQL] Rendre resolvePersistentFunction synchronisé.
    • [SPARK-42521][SQL] Ajoutez des NULL valeurs pour INSERT avec des listes spécifiées par l’utilisateur de moins de colonnes que la table cible.
    • [SPARK-41391][SQL] Le nom de la colonne de sortie de groupBy.agg(count_distinct) était incorrect.
    • [SPARK-42548][SQL] Ajouter ReferenceAllColumns pour ignorer les attributs de réécriture.
    • [SPARK-42423][SQL] Ajouter le début et la longueur du bloc de fichiers de colonne de métadonnées.
    • [SPARK-42796][SQL] Prise en charge de l’accès aux TimestampNTZ colonnes dans CachedBatch.
    • [SPARK-42266][PYTHON] Supprimer le répertoire parent dans shell.py exécuter quand IPython est utilisé.
    • [SPARK-43011][SQL] array_insert doit échouer avec 0 index.
    • [SPARK-41874][CONNECT][PYTHON] Prise en charge SameSemantics dans Spark Connect.
    • [SPARK-42702][SPARK-42623][SQL] Prise en charge de la requête paramétrable dans la sous-requête et la CTE.
    • [SPARK-42967][CORE] Correction SparkListenerTaskStart.stageAttemptId quand une tâche est démarrée après l’annulation de la phase.
    • Mises à jour de sécurité du système d’exploitation

Databricks Runtime 12.1 (non pris en charge)

Consultez Databricks Runtime 12.1 (non pris en charge).

  • 23 juin 2023

    • Mises à jour de sécurité du système d’exploitation
  • 15 juin 2023

    • Photonized approx_count_distinct.
    • La bibliothèque Snowflake-jdbc est mise à niveau vers la version 3.13.29 pour résoudre un problème de sécurité.
    • [SPARK-43779][SQL] ParseToDate charge EvalMode dans le thread principal.
    • [SPARK-43156][SPARK-43098][SQL] Étendre le test de bogues du nombre de sous-requêtes scalaires avec decorrelateInnerQuery désactivé
    • Mises à jour de sécurité du système d’exploitation
  • 2 juin 2023

    • L’analyseur JSON en mode failOnUnknownFields supprime un enregistrement en mode DROPMALFORMED et échoue directement en mode FAILFAST.
    • Améliorez les performances de la mise à jour incrémentielle avec SHALLOW CLONE Iceberg et Parquet.
    • Correction d’un problème dans Auto Loader où différents formats de fichier source étaient incohérents lorsque le schéma fourni n’incluait aucune partition déduite. Ce problème peut entraîner des échecs inattendus lors de la lecture de fichiers avec des colonnes manquantes dans le schéma de partition déduite.
    • [SPARK-43404][Rétroportage] Ignorer la réutilisation du fichier sst pour la même version du magasin d’état RocksDB afin d’éviter une erreur de non-correspondance d’ID.
    • [SPARK-43413][11.3-13.0][SQL] Corrige la sous-requête IN de possibilité de valeurs nulles de ListQuery.
    • [SPARK-43522][SQL] Correction de la création d’un nom de colonne struct avec un index du tableau.
    • [SPARK-42444][PYTHON] DataFrame.drop gère désormais correctement des colonnes dupliquées.
    • [SPARK-43541][SQL] Propagation de toutes les balises Project dans la résolution des expressions et des colonnes manquantes.
    • [SPARK-43340][COEUR] Correction du champ de trace de pile manquant dans des journaux d’événements.
    • [SPARK-42937][SQL] PlanSubqueries définit maintenant la valeur InSubqueryExec#shouldBroadcast sur true.
    • [SPARK-43527][PYTHON] Résolution de catalog.listCatalogs dans PySpark.
    • [SPARK-43378][COEUR] Fermez correctement les objets de flux dans deserializeFromChunkedBuffer.
  • 17 mai 2023

    • Les analyses Parquet sont désormais robustes contre les OOMs lors de l’analyse de fichiers exceptionnellement structurés en ajustant dynamiquement la taille des lots. Les métadonnées de fichier sont analysées pour réduire la taille du lot de manière préventive et sont à nouveau réduites lors des nouvelles tentatives de tâche en tant que filet de sécurité final.
    • Si un fichier Avro a été lu uniquement avec l’option failOnUnknownFields\ ou avec Auto Loader en mode d’évolution de failOnNewColumns\ schéma, les colonnes qui ont différents types de données sont lues comme null\ au lieu de générer une erreur indiquant que le fichier ne peut pas être lu. Ces lectures échouent maintenant et recommandent aux utilisateurs d’utiliser l’option rescuedDataColumn\ .
    • Auto Loader effectue maintenant les opérations suivantes.
      • Lit correctement et ne sauve plus les Integertypes , si ShortByte l’un de ces types de données est fourni, mais le fichier Avro suggère l’un des deux autres types.
      • Empêche la lecture des types d’intervalles en tant que types date ou timestamp pour éviter d’obtenir des dates endommagées.
      • Empêche la lecture Decimal des types avec une précision inférieure.
    • [SPARK-43098][SQL] Correction d’un bogue d’exactitude lorsque la COUNT sous-requête scalaire est regroupée par clause.
    • [SPARK-43190][SQL] ListQuery.childOutput est désormais cohérent avec la sortie secondaire.
    • Mises à jour de sécurité du système d’exploitation
  • 25 avril 2023

    • Si un fichier Parquet a été lu uniquement avec l’option failOnUnknownFields ou avec Auto Loader en mode d’évolution de failOnNewColumns schéma, les colonnes qui avaient différents types de données sont lues comme null au lieu de générer une erreur indiquant que le fichier ne peut pas être lu. Ces lectures échouent maintenant et recommandent aux utilisateurs d’utiliser l’option rescuedDataColumn .
    • Auto Loader lit et ne sauve Integerplus correctement les types , si ShortByte l’un de ces types de données est fourni. Le fichier Parquet suggère l’un des deux autres types. Lorsque la colonne de données sauvée était précédemment activée, l’incompatibilité du type de données entraînait le sauvetage des colonnes même si elles étaient lisibles.
    • [SPARK-43009][SQL] Paramétré sql() avec Any des constantes.
    • [SPARK-42971][CORE] Changez pour imprimer workdir si appDirs est null lors de l’événement worker handle WorkDirCleanup .
    • Mises à jour de sécurité du système d’exploitation
  • 11 avril 2023

    • Prise en charge des formats de source de données hérités dans la commande SYNC.
    • Corrige un bogue dans le comportement %autoreload dans les notebooks qui se trouvent en dehors d’un dépôt.
    • Correction d’un bogue dans lequel l’évolution du schéma Auto Loader peut passer dans une boucle d’échec infinie, lorsqu’une nouvelle colonne est détectée dans le schéma d’un objet JSON imbriqué.
    • [SPARK-42928][SQL] Rendre resolvePersistentFunction synchronisé.
    • [SPARK-42967][CORE] Correctifs SparkListenerTaskStart.stageAttemptId lorsqu’une tâche démarre après l’annulation de la phase.
    • Mises à jour de sécurité du système d’exploitation
  • 29 mars 2023

    • Auto Loader déclenche désormais au moins un journal RocksDB synchrone propre pour les flux afin Trigger.AvailableNow de s’assurer que le point de contrôle peut être nettoyé régulièrement pour les flux Auto Loader à exécution rapide. Cela peut prendre plus de temps pour que certains flux ne s’arrêtent, mais vous économiserez des coûts de stockage et améliorerez l’expérience Auto Loader dans les exécutions futures.
    • Vous pouvez maintenant modifier une table Delta pour ajouter la prise en charge des fonctionnalités de table à l’aide de DeltaTable.addFeatureSupport(feature_name).
    • [SPARK-42702][SPARK-42623][SQL] Prise en charge de la requête paramétrable dans la sous-requête et la CTE
    • [SPARK-41162][SQL] Correction de la jointure anti-jointure et de la semi-jointure pour la jointure automatique avec agrégations
    • [SPARK-42403][CORE] JsonProtocol doit gérer les chaînes JSON null
    • [SPARK-42668][SS] Intercepter une exception lors de la tentative de fermeture du flux compressé dans HDFSStateStoreProvider abandon
    • [SPARK-42794][SS] Augmentez les lockAcquireTimeoutMs à 2 minutes pour l’acquisition du magasin d’état RocksDB dans Structure Streaming
  • 14 mars 2023

    • Il existe un changement de terminologie pour l’ajout de fonctionnalités à une table Delta à l’aide de la propriété table. La syntaxe préférée est maintenant 'delta.feature.featureName'='supported' au lieu de 'delta.feature.featureName'='enabled'. Pour la compatibilité descendante, l’utilisation 'delta.feature.featureName'='enabled' fonctionne toujours et continuera de fonctionner.
    • [SPARK-42622][CORE] Désactiver la substitution dans les valeurs
    • [SPARK-42534][SQL] Correction de la clause de limite DB2Dialect
    • [SPARK-42635][SQL] Correction de l’expression TimestampAdd.
    • [SPARK-42516][SQL] Capturez toujours la configuration du fuseau horaire de session lors de la création de vues
    • [SPARK-42484] [SQL] Message d’erreur better UnsafeRowUtils
    • [SPARK-41793][SQL] Résultat incorrect pour les cadres de fenêtre définis par une clause de plage sur les décimales volumineuses
    • Mises à jour de sécurité du système d’exploitation
  • 24 février 2023

    • Vous pouvez maintenant utiliser un ensemble unifié d’options (host, , portdatabase, user, password) pour vous connecter aux sources de données prises en charge dans la fédération des requêtes (PostgreSQL, MySQL, Synapse, Snowflake, Redshift, SQL Server). Notez que port est facultatif et utilise le numéro de port par défaut pour chaque source de données s’il n’est pas fourni.

    Exemple de configuration de connexion PostgreSQL

    CREATE TABLE postgresql_table
    USING postgresql
    OPTIONS (
      dbtable '<table-name>',
      host '<host-name>',
      database '<database-name>',
      user '<user>',
      password secret('scope', 'key')
    );
    

    Exemple de configuration de connexion Snowflake

    CREATE TABLE snowflake_table
    USING snowflake
    OPTIONS (
      dbtable '<table-name>',
      host '<host-name>',
      port '<port-number>',
      database '<database-name>',
      user secret('snowflake_creds', 'my_username'),
      password secret('snowflake_creds', 'my_password'),
      schema '<schema-name>',
      sfWarehouse '<warehouse-name>'
    );
    
    • [SPARK-41989][PYTHON] Éviter d’interrompre la configuration de journalisation de pyspark.pandas
    • [SPARK-42346][SQL] Réécrire des agrégats distincts après la fusion de sous-requête
    • [SPARK-41990][SQL] Utiliser FieldReference.column au lieu de dans la conversion de apply filtre v1 en V2
    • Rétablir [SPARK-41848][CORE] Correction de la tâche sur-planifiée avec TaskResourceProfile
    • [SPARK-42162] Introduire l’expression MultiCommutativeOp comme optimisation de la mémoire pour canoniser de grandes arborescences d’expressions commutatives
    • Mises à jour de sécurité du système d’exploitation
  • 16 février 2023

    • La commande SYNC prend en charge la synchronisation des tables de metastore Hive recréées. Si une table HMS a été précédemment synchronisé dans Unity Catalog, puis supprimée et recréée, une resynchronisation ultérieure fonctionne au lieu de lever le code statut TABLE_ALREADY_EXISTS.
    • [SPARK-41219][SQL] IntegralDivide use decimal(1, 0) pour représenter 0
    • [SPARK-36173][CORE] Prise en charge de l’obtention du numéro d’UC dans TaskContext
    • [SPARK-41848][CORE] Correction de la tâche sur-planifiée avec TaskResourceProfile
    • [SPARK-42286][SQL] Secours vers le chemin de code codegen précédent pour l’expr complexe avec CAST
  • 31 janvier 2023

    • La création d’un schéma avec un emplacement défini nécessite désormais que l’utilisateur dispose des privilèges SELECT et MODIFY sur ANY FILE.
    • [SPARK-41581][SQL] Attribuer un nom à _LEGACY_ERROR_TEMP_1230
    • [SPARK-41996][SQL][SS] Correction du test Kafka pour vérifier les partitions perdues afin de prendre en compte les opérations Kafka lentes
    • [SPARK-41580][SQL] Attribuer un nom à _LEGACY_ERROR_TEMP_2137
    • [SPARK-41666][PYTHON] Prise en charge de SQL paramétré par sql()
    • [SPARK-41579][SQL] Attribuer un nom à _LEGACY_ERROR_TEMP_1249
    • [SPARK-41573][SQL] Attribuer un nom à _LEGACY_ERROR_TEMP_2136
    • [SPARK-41574][SQL] Attribuer un nom à _LEGACY_ERROR_TEMP_2009
    • [SPARK-41049][Suivi] Correction d’une régression de synchronisation de code pour ConvertToLocalRelation
    • [SPARK-41576][SQL] Attribuer un nom à _LEGACY_ERROR_TEMP_2051
    • [SPARK-41572][SQL] Attribuer un nom à _LEGACY_ERROR_TEMP_2149
    • [SPARK-41575][SQL] Attribuer un nom à _LEGACY_ERROR_TEMP_2054
    • Mises à jour de sécurité du système d’exploitation

Databricks Runtime 12.0 (non pris en charge)

Consultez Databricks Runtime 12.0 (non pris en charge).

  • 15 juin 2023

    • Photonized approx_count_distinct.
    • La bibliothèque Snowflake-jdbc est mise à niveau vers la version 3.13.29 pour résoudre un problème de sécurité.
    • [SPARK-43156][SPARK-43098][SQL] Étendre le test de bogues du nombre de sous-requêtes scalaires avec decorrelateInnerQuery désactivé
    • [SPARK-43779][SQL] ParseToDate charge EvalMode dans le thread principal.
    • Mises à jour de sécurité du système d’exploitation
  • 2 juin 2023

    • L’analyseur JSON en mode failOnUnknownFields supprime un enregistrement en mode DROPMALFORMED et échoue directement en mode FAILFAST.
    • Améliorez les performances de la mise à jour incrémentielle avec SHALLOW CLONE Iceberg et Parquet.
    • Correction d’un problème dans Auto Loader où différents formats de fichier source étaient incohérents lorsque le schéma fourni n’incluait aucune partition déduite. Ce problème peut entraîner des échecs inattendus lors de la lecture de fichiers avec des colonnes manquantes dans le schéma de partition déduite.
    • [SPARK-42444][PYTHON] DataFrame.drop gère désormais correctement des colonnes dupliquées.
    • [SPARK-43404][Rétroportage] Ignorer la réutilisation du fichier sst pour la même version du magasin d’état RocksDB afin d’éviter une erreur de non-correspondance d’ID.
    • [11.3-13.0][[SPARK-43413]]https://issues.apache.org/jira/browse/SPARK-43413)[SQL] Correction de la sous-requête IN de possibilité de valeurs nulles de ListQuery.
    • [SPARK-43527][PYTHON] Résolution de catalog.listCatalogs dans PySpark.
    • [SPARK-43522][SQL] Correction de la création d’un nom de colonne struct avec un index du tableau.
    • [SPARK-43541][SQL] Propagation de toutes les balises Project dans la résolution des expressions et des colonnes manquantes.
    • [SPARK-43340][COEUR] Correction du champ de trace de pile manquant dans des journaux d’événements.
    • [SPARK-42937][SQL] PlanSubqueries doit avoir la valeur InSubqueryExec#shouldBroadcast définie sur true.
  • 17 mai 2023

    • Les analyses Parquet sont désormais robustes contre les OOMs lors de l’analyse de fichiers exceptionnellement structurés en ajustant dynamiquement la taille des lots. Les métadonnées de fichier sont analysées pour réduire la taille du lot de manière préventive et sont à nouveau réduites lors des nouvelles tentatives de tâche en tant que filet de sécurité final.
    • Si un fichier Avro a été lu uniquement avec l’option failOnUnknownFields\ ou avec Auto Loader en mode d’évolution de failOnNewColumns\ schéma, les colonnes qui ont différents types de données sont lues comme null\ au lieu de générer une erreur indiquant que le fichier ne peut pas être lu. Ces lectures échouent maintenant et recommandent aux utilisateurs d’utiliser l’option rescuedDataColumn\ .
    • Auto Loader effectue maintenant les opérations suivantes.
      • Lit correctement et ne sauve plus les Integertypes , si ShortByte l’un de ces types de données est fourni, mais le fichier Avro suggère l’un des deux autres types.
      • Empêche la lecture des types d’intervalles en tant que types date ou timestamp pour éviter d’obtenir des dates endommagées.
      • Empêche la lecture Decimal des types avec une précision inférieure.
    • [SPARK-43172] [CONNECT] Expose l’hôte et le jeton du client Spark Connect.
    • [SPARK-41520][SQL] Fractionner AND_OR le modèle d’arborescence pour séparer AND et OR.
    • [SPARK-43098][SQL] Correction d’un bogue d’exactitude lorsque la COUNT sous-requête scalaire est regroupée par clause.
    • [SPARK-43190][SQL] ListQuery.childOutput est désormais cohérent avec la sortie secondaire.
    • Mises à jour de sécurité du système d’exploitation
  • 25 avril 2023

    • Si un fichier Parquet a été lu uniquement avec l’option failOnUnknownFields ou avec Auto Loader en mode d’évolution de failOnNewColumns schéma, les colonnes qui avaient différents types de données sont lues comme null au lieu de générer une erreur indiquant que le fichier ne peut pas être lu. Ces lectures échouent maintenant et recommandent aux utilisateurs d’utiliser l’option rescuedDataColumn .
    • Auto Loader lit et ne sauve Integerplus correctement les types , si ShortByte l’un de ces types de données est fourni. Le fichier Parquet suggère l’un des deux autres types. Lorsque la colonne de données sauvée était précédemment activée, l’incompatibilité du type de données entraînait le sauvetage des colonnes même si elles étaient lisibles.
    • [SPARK-42971][CORE] Changez pour imprimer workdir si appDirs est null lors de l’événement worker handle WorkDirCleanup
    • Mises à jour de sécurité du système d’exploitation
  • 11 avril 2023

    • Prise en charge des formats de source de données hérités dans la SYNC commande.
    • Corrige un bogue dans le comportement %autoreload dans les notebooks qui se trouvent en dehors d’un dépôt.
    • Correction d’un bogue dans lequel l’évolution du schéma Auto Loader peut passer dans une boucle d’échec infinie, lorsqu’une nouvelle colonne est détectée dans le schéma d’un objet JSON imbriqué.
    • [SPARK-42928][SQL] Rendre resolvePersistentFunction synchronisé.
    • [SPARK-42967][CORE] Correctifs SparkListenerTaskStart.stageAttemptId lorsqu’une tâche démarre après l’annulation de la phase.
    • Mises à jour de sécurité du système d’exploitation
  • 29 mars 2023

    • [SPARK-42794][SS] Augmentez les lockAcquireTimeoutMs à 2 minutes pour l’acquisition du magasin d’état RocksDB dans Structure Streaming
    • [SPARK-41162][SQL] Correction de la jointure anti-jointure et de la semi-jointure pour la jointure automatique avec agrégations
    • [SPARK-42403][CORE] JsonProtocol doit gérer les chaînes JSON null
    • [SPARK-42668][SS] Intercepter une exception lors de la tentative de fermeture du flux compressé dans HDFSStateStoreProvider abandon
    • Divers correctifs de bogues.
  • 14 mars 2023

    • [SPARK-42534][SQL] Correction de la clause de limite DB2Dialect
    • [SPARK-42622][CORE] Désactiver la substitution dans les valeurs
    • [SPARK-41793][SQL] Résultat incorrect pour les cadres de fenêtre définis par une clause de plage sur les décimales volumineuses
    • [SPARK-42484] [SQL] Message d’erreur better UnsafeRowUtils
    • [SPARK-42635][SQL] Correction de l’expression TimestampAdd.
    • [SPARK-42516][SQL] Capturez toujours la configuration du fuseau horaire de session lors de la création de vues
    • Mises à jour de sécurité du système d’exploitation
  • 24 février 2023

    • Options de connexion standardisées pour la fédération des requêtes

      Vous pouvez maintenant utiliser un ensemble unifié d’options (host, , portdatabase, user, password) pour vous connecter aux sources de données prises en charge dans la fédération des requêtes (PostgreSQL, MySQL, Synapse, Snowflake, Redshift, SQL Server). Notez que port est facultatif et utilise le numéro de port par défaut pour chaque source de données s’il n’est pas fourni.

      Exemple de configuration de connexion PostgreSQL

      CREATE TABLE postgresql_table
      USING postgresql
      OPTIONS (
        dbtable '<table-name>',
        host '<host-name>',
        database '<database-name>',
        user '<user>',
        password secret('scope', 'key')
      );
      

      Exemple de configuration de connexion Snowflake

      CREATE TABLE snowflake_table
      USING snowflake
      OPTIONS (
        dbtable '<table-name>',
        host '<host-name>',
        port '<port-number>',
        database '<database-name>',
        user secret('snowflake_creds', 'my_username'),
        password secret('snowflake_creds', 'my_password'),
        schema '<schema-name>',
        sfWarehouse '<warehouse-name>'
      );
      
    • Rétablir [SPARK-41848][CORE] Correction de la tâche sur-planifiée avec TaskResourceProfile

    • [SPARK-42162] Introduire l’expression MultiCommutativeOp comme optimisation de la mémoire pour canoniser de grandes arborescences d’expressions commutatives

    • [SPARK-41990][SQL] Utiliser FieldReference.column au lieu de dans la conversion de apply filtre v1 en V2

    • [SPARK-42346][SQL] Réécrire des agrégats distincts après la fusion de sous-requête

    • Mises à jour de sécurité du système d’exploitation

  • 16 février 2023

    • Les utilisateurs peuvent désormais lire et écrire certaines tables Delta qui nécessitent Reader version 3 et Writer version 7, à l’aide de Databricks Runtime 9.1 ou version ultérieure. Pour réussir, les fonctionnalités de table répertoriées dans le protocole des tables doivent être prises en charge par la version actuelle de Databricks Runtime.
    • La commande SYNC prend en charge la synchronisation des tables de metastore Hive recréées. Si une table HMS a été précédemment synchronisé dans Unity Catalog, puis supprimée et recréée, une resynchronisation ultérieure fonctionne au lieu de lever le code statut TABLE_ALREADY_EXISTS.
    • [SPARK-36173][CORE] Prise en charge de l’obtention du numéro d’UC dans TaskContext
    • [SPARK-42286][SQL] Secours vers le chemin de code codegen précédent pour l’expr complexe avec CAST
    • [SPARK-41848][CORE] Correction de la tâche sur-planifiée avec TaskResourceProfile
    • [SPARK-41219][SQL] IntegralDivide use decimal(1, 0) pour représenter 0
  • 25 janvier 2023

    • [SPARK-41660][SQL] Propager uniquement les colonnes de métadonnées si elles sont utilisées
    • [SPARK-41379][SS][PYTHON] Fournir une session Spark cloné dans DataFrame dans la fonction utilisateur pour le récepteur foreachBatch dans PySpark
    • [SPARK-41669][SQL] Taille précoce dans canCollapseExpressions
    • Mises à jour de sécurité du système d’exploitation
  • 18 janvier 2023

    • La commande SQL REFRESH FUNCTION prend désormais en charge les fonctions SQL et les fonctions table SQL. Par exemple, la commande peut être utilisée pour actualiser une fonction SQL persistante qui a été mise à jour dans une autre session SQL.
    • La source de données JDBC (Java Database Connectivity) v1 prend désormais en charge le pushdown de clause LIMIT pour améliorer les performances dans les requêtes. Cette fonctionnalité est activée par défaut et peut être désactivée en définissant spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled sur false.
    • Dans les clusters d’ACL de table héritées, la création de fonctions qui référencent des classes JVM nécessite désormais le privilège MODIFY_CLASSPATH.
    • La source de données JDBC (Java Database Connectivity) v1 prend désormais en charge le pushdown de clause LIMIT pour améliorer les performances dans les requêtes. Cette fonctionnalité est activée par défaut et peut être désactivée en définissant spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled sur false.
    • Le connecteur Azure Synapse retourne désormais un message d’erreur plus descriptif quand un nom de colonne contient des caractères non valides comme des espaces ou des points-virgules. Dans ce cas, le message suivant est retourné : Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace.
    • Le streaming structuré Spark fonctionne désormais avec format(“deltasharing”) comme source sur une table de partage delta.
    • [SPARK-38277] [SS] Effacer le lot d’écriture après le commit du magasin d’états RocksDB
    • [SPARK-41733] [SQL][SS] Appliquer l’élagage basé sur un modèle d’arborescence pour la règle ResolveWindowTime
    • [SPARK-39591] [SS] Suivi de progression asynchrone
    • [SPARK-41339] [SQL] Fermer et recréer le lot d’écriture RocksDB au lieu de simplement l’effacer
    • [SPARK-41198] [SS] Correction de métriques dans les requêtes de streaming ayant une source de streaming CTE et DSv1
    • [SPARK-41539] [SQL] Remapper les statistiques et les contraintes par rapport à la sortie dans le plan logique de LogicalRDD
    • [SPARK-41732] [SQL][SS] Appliquer l’élagage basé sur un modèle d’arborescence pour la règle SessionWindowing
    • [SPARK-41862][SQL] Correction d’un bogue d’exactitude lié aux valeurs DEFAULT dans le lecteur Orc
    • [SPARK-41199] [SS] Correction du problème de métriques quand la source de streaming DSv1 et la source de streaming DSv2 sont utilisées ensemble
    • [SPARK-41261] [PYTHON][SS] Correction du problème pour applyInPandasWithState quand les colonnes de clés de regroupement ne sont pas placées dans l’ordre à partir du plus vieux
    • Mises à jour de sécurité du système d’exploitation
  • 17 mai 2023

    • Les analyses Parquet sont désormais robustes contre les OOMs lors de l’analyse de fichiers exceptionnellement structurés en ajustant dynamiquement la taille des lots. Les métadonnées de fichier sont analysées pour réduire la taille du lot de manière préventive et sont à nouveau réduites lors des nouvelles tentatives de tâche en tant que filet de sécurité final.
    • Correction d’une régression qui provoquait la persistance des travaux Azure Databricks après l’échec de la connexion au metastore pendant l’initialisation du cluster.
    • [SPARK-41520][SQL] Fractionner AND_OR le modèle d’arborescence pour séparer AND et OR.
    • [SPARK-43190][SQL] ListQuery.childOutput est désormais cohérent avec la sortie secondaire.
    • Mises à jour de sécurité du système d’exploitation
  • 25 avril 2023

    • Si un fichier Parquet a été lu uniquement avec l’option failOnUnknownFields ou avec Auto Loader en mode d’évolution de failOnNewColumns schéma, les colonnes qui avaient différents types de données sont lues comme null au lieu de générer une erreur indiquant que le fichier ne peut pas être lu. Ces lectures échouent maintenant et recommandent aux utilisateurs d’utiliser l’option rescuedDataColumn .
    • Auto Loader lit et ne sauve Integerplus correctement les types , si ShortByte l’un de ces types de données est fourni. Le fichier Parquet suggère l’un des deux autres types. Lorsque la colonne de données sauvée était précédemment activée, l’incompatibilité du type de données entraînait le sauvetage des colonnes même si elles étaient lisibles.
    • [SPARK-42937][SQL] PlanSubqueries définit maintenant la valeur InSubqueryExec#shouldBroadcast sur true.
    • Mises à jour de sécurité du système d’exploitation
  • 11 avril 2023

    • Prise en charge des formats de source de données hérités dans la commande SYNC.
    • Corrige un bogue dans le comportement %autoreload dans les notebooks qui se trouvent en dehors d’un dépôt.
    • Correction d’un bogue dans lequel l’évolution du schéma Auto Loader peut passer dans une boucle d’échec infinie, lorsqu’une nouvelle colonne est détectée dans le schéma d’un objet JSON imbriqué.
    • [SPARK-42928][SQL] Synchroniser resolvePersistentFunction.
    • [SPARK-42967][CORE] Correction de SparkListenerTaskStart.stageAttemptId lorsqu’une tâche est démarrée après l’annulation de la phase.
  • 29 mars 2023

    • [SPARK-42794][SS] Augmentez les lockAcquireTimeoutMs à 2 minutes pour l’acquisition du magasin d’état RocksDB dans Structure Streaming
    • [SPARK-42403][CORE] JsonProtocol doit gérer les chaînes JSON null
    • [SPARK-42668][SS] Intercepter une exception lors de la tentative de fermeture du flux compressé dans HDFSStateStoreProvider abandon
    • Mises à jour de sécurité du système d’exploitation
  • 14 mars 2023

    • [SPARK-42635][SQL] Correction de l’expression TimestampAdd.
    • [SPARK-41793][SQL] Résultat incorrect pour les cadres de fenêtre définis par une clause de plage sur les décimales volumineuses
    • [SPARK-42484] [SQL] Message d’erreur better UnsafeRowUtils
    • [SPARK-42534][SQL] Correction de la clause de limite DB2Dialect
    • [SPARK-41162][SQL] Correction de la jointure anti-jointure et de la semi-jointure pour la jointure automatique avec agrégations
    • [SPARK-42516][SQL] Capturez toujours la configuration du fuseau horaire de session lors de la création de vues
    • Divers correctifs de bogues.
  • Février 28, 2023

    • Options de connexion standardisées pour la fédération des requêtes

      Vous pouvez maintenant utiliser un ensemble unifié d’options (host, , portdatabase, user, password) pour vous connecter aux sources de données prises en charge dans la fédération des requêtes (PostgreSQL, MySQL, Synapse, Snowflake, Redshift, SQL Server). Notez que port est facultatif et utilise le numéro de port par défaut pour chaque source de données s’il n’est pas fourni.

      Exemple de configuration de connexion PostgreSQL

      CREATE TABLE postgresql_table
      USING postgresql
      OPTIONS (
        dbtable '<table-name>',
        host '<host-name>',
        database '<database-name>',
        user '<user>',
        password secret('scope', 'key')
      );
      

      Exemple de configuration de connexion Snowflake

      CREATE TABLE snowflake_table
      USING snowflake
      OPTIONS (
        dbtable '<table-name>',
        host '<host-name>',
        port '<port-number>',
        database '<database-name>',
        user secret('snowflake_creds', 'my_username'),
        password secret('snowflake_creds', 'my_password'),
        schema '<schema-name>',
        sfWarehouse '<warehouse-name>'
      );
      
    • [SPARK-42286][SQL] Secours vers le chemin de code codegen précédent pour l’expr complexe avec CAST

    • [SPARK-41989][PYTHON] Éviter d’interrompre la configuration de journalisation de pyspark.pandas

    • [SPARK-42346][SQL] Réécrire des agrégats distincts après la fusion de sous-requête

    • [SPARK-41360][CORE] Éviter la réinscription de BlockManager si l’exécuteur a été perdu

    • [SPARK-42162] Introduire l’expression MultiCommutativeOp comme optimisation de la mémoire pour canoniser de grandes arborescences d’expressions commutatives

    • [SPARK-41990][SQL] Utiliser FieldReference.column au lieu de dans la conversion de apply filtre v1 en V2

    • Mises à jour de sécurité du système d’exploitation

  • 16 février 2023

    • Les utilisateurs peuvent désormais lire et écrire certaines tables Delta qui nécessitent Reader version 3 et Writer version 7, à l’aide de Databricks Runtime 9.1 ou version ultérieure. Pour réussir, les fonctionnalités de table répertoriées dans le protocole des tables doivent être prises en charge par la version actuelle de Databricks Runtime.
    • La commande SYNC prend en charge la synchronisation des tables de metastore Hive recréées. Si une table HMS a été précédemment synchronisé dans Unity Catalog, puis supprimée et recréée, une resynchronisation ultérieure fonctionne au lieu de lever le code statut TABLE_ALREADY_EXISTS.
    • [SPARK-41219][SQL] IntegralDivide use decimal(1, 0) pour représenter 0
    • [SPARK-40382][SQL] Regrouper des expressions d’agrégation distinctes par enfants sémantiquement équivalents dans RewriteDistinctAggregates
    • Mises à jour de sécurité du système d’exploitation
  • 25 janvier 2023

    • [SPARK-41379][SS][PYTHON] Fournir une session Spark cloné dans DataFrame dans la fonction utilisateur pour le récepteur foreachBatch dans PySpark
    • [SPARK-41660][SQL] Propager uniquement les colonnes de métadonnées si elles sont utilisées
    • [SPARK-41669][SQL] Taille précoce dans canCollapseExpressions
    • Divers correctifs de bogues.
  • 18 janvier 2023

    • La commande SQL REFRESH FUNCTION prend désormais en charge les fonctions SQL et les fonctions table SQL. Par exemple, la commande peut être utilisée pour actualiser une fonction SQL persistante qui a été mise à jour dans une autre session SQL.
    • La source de données JDBC (Java Database Connectivity) v1 prend désormais en charge le pushdown de clause LIMIT pour améliorer les performances dans les requêtes. Cette fonctionnalité est activée par défaut et peut être désactivée en définissant spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled sur false.
    • La source de données JDBC (Java Database Connectivity) v1 prend désormais en charge le pushdown de clause LIMIT pour améliorer les performances dans les requêtes. Cette fonctionnalité est activée par défaut et peut être désactivée en définissant spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled sur false.
    • Le connecteur Azure Synapse retourne désormais un message d’erreur plus descriptif quand un nom de colonne contient des caractères non valides comme des espaces ou des points-virgules. Dans ce cas, le message suivant est retourné : Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace.
    • [SPARK-41198] [SS] Correction de métriques dans les requêtes de streaming ayant une source de streaming CTE et DSv1
    • [SPARK-41862][SQL] Correction d’un bogue d’exactitude lié aux valeurs DEFAULT dans le lecteur Orc
    • [SPARK-41539] [SQL] Remapper les statistiques et les contraintes par rapport à la sortie dans le plan logique de LogicalRDD
    • [SPARK-39591] [SS] Suivi de progression asynchrone
    • [SPARK-41199] [SS] Correction du problème de métriques quand la source de streaming DSv1 et la source de streaming DSv2 sont utilisées ensemble
    • [SPARK-41261] [PYTHON][SS] Correction du problème pour applyInPandasWithState quand les colonnes de clés de regroupement ne sont pas placées dans l’ordre à partir du plus vieux
    • [SPARK-41339] [SQL] Fermer et recréer le lot d’écriture RocksDB au lieu de simplement l’effacer
    • [SPARK-41732] [SQL][SS] Appliquer l’élagage basé sur un modèle d’arborescence pour la règle SessionWindowing
    • [SPARK-38277] [SS] Effacer le lot d’écriture après le commit du magasin d’états RocksDB
    • Mises à jour de sécurité du système d’exploitation
  • 29 novembre 2022

    • Les utilisateurs peuvent configurer le comportement des espaces blancs de début et de fin lors de l’écriture de données à l’aide du connecteur Redshift. Les options suivantes ont été ajoutées pour contrôler la gestion des espaces blancs :
      • csvignoreleadingwhitespace, quand est défini sur true, supprime l’espace blanc de début des valeurs pendant les écritures lorsque tempformat est défini sur CSV ou CSV GZIP. Les espaces blancs sont conservés lorsque la configuration est définie sur false. Par défaut, la valeur est true.
      • csvignoretrailingwhitespace, quand est défini sur true, supprime l’espace blanc de fin des valeurs pendant les écritures lorsque tempformat est défini sur CSV ou CSV GZIP. Les espaces blancs sont conservés lorsque la configuration est définie sur false. Par défaut, la valeur est true.
    • Correction d’un bogue avec l’analyse JSON dans Auto Loader lorsque toutes les colonnes étaient laissées en tant que chaînes (cloudFiles.inferColumnTypes n’a pas été définie ou définie sur false) et que le JSON contenait des objets imbriqués.
    • Mettez à niveau la dépendance snowflake-jdbcvers la version 3.13.22.
    • Les types de tables JDBC sont désormais EXTERNAL par défaut.
    • [SPARK-40906][SQL] Mode doit copier les clés avant l’insertion dans Map
    • Mises à jour de sécurité du système d’exploitation
  • 15 novembre 2022

    • Les ACL de table et les clusters partagés UC autorisent désormais la méthode Dataset.toJSON à partir de Python.
    • [SPARK-40646] L’analyse JSON pour les structs, les mappages et les tableaux a été corrigée de sorte que lorsqu’une partie d’un enregistrement ne correspond pas au schéma, le reste de l’enregistrement peut toujours être analysé correctement au lieu de retourner des valeurs Null. Pour vous inscrire à l’amélioration du comportement, définissez spark.sql.json.enablePartialResults surtrue. L’indicateur est désactivé par défaut pour conserver le comportement d’origine
    • [SPARK-40903][SQL] Éviter de réorganiser l’ajout décimal pour la canonicalisation si le type de données est modifié
    • [SPARK-40618] [SQL] Correction d’un bogue dans la règle MergeScalarSubqueries avec des sous-requêtes imbriquées à l’aide du suivi des références
    • [SPARK-40697] [SQL] Ajouter un remplissage de caractères côté lecture pour couvrir les fichiers de données externes
    • Mises à jour de sécurité du système d’exploitation
  • 1er novembre 2022

    • Flux structuré dans Unity Catalog prend désormais en charge l’actualisation des jetons d’accès temporaires. Les charges de travail de streaming qui s’exécutent avec Unity Catalog tous les clusters d’usage ou de travaux n’échouent plus après l’expiration du jeton initial.
    • Correction d’un problème où si une table Delta avait une colonne définie par l’utilisateur nommée _change_type, mais que le flux de données modifiées était désactivé sur cette table, les données de cette colonne se remplissaient incorrectement avec des valeurs NULL lors de l’exécution de MERGE.
    • Correction d’un problème où l’exécution MERGE et l’utilisation exacte de 99 colonnes de la source dans la condition pouvaient entraîner l’exécution de java.lang.ClassCastException: org.apache.spark.sql.vectorized.ColumnarBatch cannot be cast to org.apache.spark.sql.catalyst.InternalRow.
    • Correction d’un problème avec Auto Loader où un fichier peut être dupliqué dans le même micro-lot quand allowOverwrites est activé.
    • Mise à niveau d’Apache commons-text vers 1.10.0.
    • [SPARK-38881][DSTREAMS][KINESIS][PYSPARK] Ajout de la prise en charge de la configuration de MetricsLevel CloudWatch
    • [SPARK-40596][CORE] Remplir ExecutorDecommission avec des messages dans ExecutorDecommissionInfo
    • [SPARK-40670][SS][PYTHON] Correction de NPE dans applyInPandasWithState lorsque le schéma d’entrée a des colonnes « non nullables »
    • Mises à jour de sécurité du système d’exploitation

Databricks Runtime 11.2 (non pris en charge)

Consultez Databricks Runtime 11.2 (non pris en charge).

  • 28 février 2023
    • [SPARK-42286][SQL] Secours vers le chemin de code codegen précédent pour l’expr complexe avec CAST
    • [SPARK-42346][SQL] Réécrire des agrégats distincts après la fusion de sous-requête
    • Mises à jour de sécurité du système d’exploitation
  • 16 février 2023
    • Les utilisateurs peuvent désormais lire et écrire certaines tables Delta qui nécessitent Reader version 3 et Writer version 7, à l’aide de Databricks Runtime 9.1 ou version ultérieure. Pour réussir, les fonctionnalités de table répertoriées dans le protocole des tables doivent être prises en charge par la version actuelle de Databricks Runtime.
    • La commande SYNC prend en charge la synchronisation des tables de metastore Hive recréées. Si une table HMS a été précédemment synchronisé dans Unity Catalog, puis supprimée et recréée, une resynchronisation ultérieure fonctionne au lieu de lever le code statut TABLE_ALREADY_EXISTS.
    • [SPARK-41219][SQL] IntegralDivide use decimal(1, 0) pour représenter 0
    • Mises à jour de sécurité du système d’exploitation
  • 31 janvier 2023
    • Les types de tables JDBC sont désormais EXTERNAL par défaut.
    • [SPARK-41379][SS][PYTHON] Fournir une session Spark cloné dans DataFrame dans la fonction utilisateur pour le récepteur foreachBatch dans PySpark
  • 18 janvier 2023
    • Le connecteur Azure Synapse retourne désormais un message d’erreur plus descriptif quand un nom de colonne contient des caractères non valides comme des espaces ou des points-virgules. Dans ce cas, le message suivant est retourné : Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace.
    • [SPARK-41198] [SS] Correction de métriques dans les requêtes de streaming ayant une source de streaming CTE et DSv1
    • [SPARK-41862][SQL] Correction d’un bogue d’exactitude lié aux valeurs DEFAULT dans le lecteur Orc
    • [SPARK-41539] [SQL] Remapper les statistiques et les contraintes par rapport à la sortie dans le plan logique de LogicalRDD
    • [SPARK-41199] [SS] Correction du problème de métriques quand la source de streaming DSv1 et la source de streaming DSv2 sont utilisées ensemble
    • [SPARK-41339] [SQL] Fermer et recréer le lot d’écriture RocksDB au lieu de simplement l’effacer
    • [SPARK-41732] [SQL][SS] Appliquer l’élagage basé sur un modèle d’arborescence pour la règle SessionWindowing
    • [SPARK-38277] [SS] Effacer le lot d’écriture après le commit du magasin d’états RocksDB
    • Mises à jour de sécurité du système d’exploitation
  • 29 novembre 2022
    • Les utilisateurs peuvent configurer le comportement des espaces blancs de début et de fin lors de l’écriture de données à l’aide du connecteur Redshift. Les options suivantes ont été ajoutées pour contrôler la gestion des espaces blancs :
      • csvignoreleadingwhitespace, quand est défini sur true, supprime l’espace blanc de début des valeurs pendant les écritures lorsque tempformat est défini sur CSV ou CSV GZIP. Les espaces blancs sont conservés lorsque la configuration est définie sur false. Par défaut, la valeur est true.
      • csvignoretrailingwhitespace, quand est défini sur true, supprime l’espace blanc de fin des valeurs pendant les écritures lorsque tempformat est défini sur CSV ou CSV GZIP. Les espaces blancs sont conservés lorsque la configuration est définie sur false. Par défaut, la valeur est true.
    • Correction d’un bogue avec l’analyse JSON dans Auto Loader lorsque toutes les colonnes étaient laissées en tant que chaînes (cloudFiles.inferColumnTypes n’a pas été définie ou définie sur false) et que le JSON contenait des objets imbriqués.
    • [SPARK-40906][SQL] Mode doit copier les clés avant l’insertion dans Map
    • Mises à jour de sécurité du système d’exploitation
  • 15 novembre 2022
    • [SPARK-40646] L’analyse JSON pour les structs, les mappages et les tableaux a été corrigée de sorte que lorsqu’une partie d’un enregistrement ne correspond pas au schéma, le reste de l’enregistrement peut toujours être analysé correctement au lieu de retourner des valeurs Null. Pour opter pour l’amélioration du comportement, définissez spark.sql.json.enablePartialResults surtrue. L’indicateur est désactivé par défaut pour conserver le comportement d’origine
    • [SPARK-40618] [SQL] Correction d’un bogue dans la règle MergeScalarSubqueries avec des sous-requêtes imbriquées à l’aide du suivi des références
    • [SPARK-40697] [SQL] Ajouter un remplissage de caractères côté lecture pour couvrir les fichiers de données externes
    • Mises à jour de sécurité du système d’exploitation
  • 1er novembre 2022
    • Mise à niveau d’Apache commons-text vers 1.10.0.
    • Correction d’un problème où si une table Delta avait une colonne définie par l’utilisateur nommée _change_type, mais que le flux de données modifiées était désactivé sur cette table, les données de cette colonne se remplissaient incorrectement avec des valeurs NULL lors de l’exécution de MERGE.
    • Correction d’un problème où l’exécution MERGE et l’utilisation exacte de 99 colonnes de la source dans la condition pouvaient entraîner l’exécution de java.lang.ClassCastException: org.apache.spark.sql.vectorized.ColumnarBatch cannot be cast to org.apache.spark.sql.catalyst.InternalRow.
    • Correction d’un problème avec Auto Loader où un fichier peut être dupliqué dans le même micro-lot quand allowOverwrites est activé
    • [SPARK-40596][CORE] Remplir ExecutorDecommission avec des messages dans ExecutorDecommissionInfo
    • Mises à jour de sécurité du système d’exploitation
  • 19 octobre 2022
    • Correction d’un problème lié à l’utilisation de COPY INTO avec des informations d’identification temporaires sur des clusters/entrepôts avec Unity Catalog.
    • [SPARK-40213][SQL] Prise en charge de la conversion de valeurs ASCII pour les caractères Latin-1
    • Mises à jour de sécurité du système d’exploitation
  • 5 octobre 2022
    • Les utilisateurs peuvent définir spark.conf.set(“spark.databricks.io.listKeysWithPrefix.azure.enabled”, “true”) pour réactiver la liste native pour Auto Loader sur ADLS Gen2. La liste native a été précédemment désactivée en raison de problèmes de performances, mais elle a peut-être entraîné une augmentation des coûts de stockage pour les clients. Cette modification a été déployée sur DBR 10.4 et 9.1 dans la mise à jour de maintenance précédente.
    • [SPARK-40315][SQL] Prise en charge de l’URL encode/décodage en tant que fonction intégrée et fonctions liées à l’URL de nettoyage
    • [SPARK-40156][SQL]url_decode() doit retourner une classe d’erreur
    • [SPARK-40169] Ne pas envoyer de filtre Parquet pushdown sans référence au schéma de données
    • [SPARK-40460][SS] Correction des métriques de streaming lors de la sélection de _metadata
    • [SPARK-40468][SQL] Correction de la taille des colonnes au format CSV lorsque _corrupt_record est sélectionné
    • [SPARK-40055][SQL] listCatalogs doit également retourner spark_catalog même quand l’implémentation de spark_catalog est defaultSessionCatalog
    • Mises à jour de sécurité du système d’exploitation
  • 22 septembre 2022
    • [SPARK-40315][SQL] Ajout de hashCode() pour Literal d’ArrayBasedMapData
    • [SPARK-40389][SQL] Les décimales ne peuvent pas effectuer un upcast en tant que types intégraux si le cast peut dépasser
    • [SPARK-40380][SQL] Correction du pliage constant de InvokeLike pour éviter un littéral non sérialisable incorporé dans le plan
    • [SPARK-40066][SQL][FOLLOW-UP] Vérification si ElementAt est résolu avant d’obtenir son dataType
    • [SPARK-40109][SQL] Nouvelle fonction SQL : get()
    • [SPARK-40066][SQL] Mode ANSI : retourne toujours null sur l’accès non valide à la colonne mappée
    • [SPARK-40089][SQL] Correction du tri pour certains types décimaux
    • [SPARK-39887][SQL] RemoveRedundantAliases doit conserver les alias qui rendent la sortie des nœuds de projection uniques
    • [SPARK-40152][SQL] Correction split_part du problème de compilation codegen
    • [SPARK-40235][CORE] Utiliser un verrou interruptible au lieu d’une synchronisation dans Executor.updateDependencies()
    • [SPARK-40212][SQL] SparkSQL castPartValue ne gère pas correctement byte, short ou float
    • [SPARK-40218][SQL] GROUPING SETS devrait conserver les colonnes de regroupement
    • [SPARK-35542][ML] Correctif : Bucketizer créé pour plusieurs colonnes avec des paramètres
    • [SPARK-40079] Ajout d’une validation d’Imputer inputCols en cas d’entrée vide
    • [SPARK-39912]SPARK-39828[SQL] Affinage CatalogImpl

Databricks Runtime 11.1 (non pris en charge)

Consultez Databricks Runtime 11.1 (non pris en charge).

  • 31 janvier 2023

    • [SPARK-41379][SS][PYTHON] Fournir une session Spark cloné dans DataFrame dans la fonction utilisateur pour le récepteur foreachBatch dans PySpark
    • Divers correctifs de bogues.
  • 18 janvier 2023

    • Le connecteur Azure Synapse retourne désormais un message d’erreur plus descriptif quand un nom de colonne contient des caractères non valides comme des espaces ou des points-virgules. Dans ce cas, le message suivant est retourné : Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace.
    • [SPARK-41198] [SS] Correction de métriques dans les requêtes de streaming ayant une source de streaming CTE et DSv1
    • [SPARK-41862][SQL] Correction d’un bogue d’exactitude lié aux valeurs DEFAULT dans le lecteur Orc
    • [SPARK-41199] [SS] Correction du problème de métriques quand la source de streaming DSv1 et la source de streaming DSv2 sont utilisées ensemble
    • [SPARK-41339] [SQL] Fermer et recréer le lot d’écriture RocksDB au lieu de simplement l’effacer
    • [SPARK-41732] [SQL][SS] Appliquer l’élagage basé sur un modèle d’arborescence pour la règle SessionWindowing
    • [SPARK-38277] [SS] Effacer le lot d’écriture après le commit du magasin d’états RocksDB
    • Mises à jour de sécurité du système d’exploitation
  • 29 novembre 2022

    • Les utilisateurs peuvent configurer le comportement des espaces blancs de début et de fin lors de l’écriture de données à l’aide du connecteur Redshift. Les options suivantes ont été ajoutées pour contrôler la gestion des espaces blancs :
      • csvignoreleadingwhitespace, quand est défini sur true, supprime l’espace blanc de début des valeurs pendant les écritures lorsque tempformat est défini sur CSV ou CSV GZIP. Les espaces blancs sont conservés lorsque la configuration est définie sur false. Par défaut, la valeur est true.
      • csvignoretrailingwhitespace, quand est défini sur true, supprime l’espace blanc de fin des valeurs pendant les écritures lorsque tempformat est défini sur CSV ou CSV GZIP. Les espaces blancs sont conservés lorsque la configuration est définie sur false. Par défaut, la valeur est true.
    • Correction d’un bogue avec l’analyse JSON dans Auto Loader lorsque toutes les colonnes étaient laissées en tant que chaînes (cloudFiles.inferColumnTypes n’a pas été définie ou définie sur false) et que le JSON contenait des objets imbriqués.
    • [SPARK-39650] [SS] Correction d’un schéma de valeur incorrect dans la déduplication de streaming avec compatibilité descendante
    • Mises à jour de sécurité du système d’exploitation
  • 15 novembre 2022

    • [SPARK-40646] L’analyse JSON pour les structs, les mappages et les tableaux a été corrigée. Lorsqu’une partie d’un enregistrement ne correspond ainsi pas au schéma, le reste de l’enregistrement peut toujours être analysé correctement au lieu de retourner des valeurs Null. Pour vous inscrire à l’amélioration du comportement, définissez spark.sql.json.enablePartialResults sur true. L’indicateur est désactivé par défaut pour conserver le comportement d’origine
    • Mises à jour de sécurité du système d’exploitation
  • 1er novembre 2022

    • Mise à niveau d’Apache commons-text vers 1.10.0.
    • Correction d’un problème où si une table Delta avait une colonne définie par l’utilisateur nommée _change_type, mais que le flux de données modifiées était désactivé sur cette table, les données de cette colonne se remplissaient incorrectement avec des valeurs NULL lors de l’exécution de MERGE.
    • Correction d’un problème où l’exécution MERGE et l’utilisation exacte de 99 colonnes de la source dans la condition pouvaient entraîner l’exécution de java.lang.ClassCastException: org.apache.spark.sql.vectorized.ColumnarBatch cannot be cast to org.apache.spark.sql.catalyst.InternalRow.
    • Correction d’un problème avec Auto Loader où un fichier peut être dupliqué dans le même micro-lot quand allowOverwrites est activé
    • [SPARK-40697] [SQL] Ajouter un remplissage de caractères côté lecture pour couvrir les fichiers de données externes
    • [SPARK-40596][CORE] Remplir ExecutorDecommission avec des messages dans ExecutorDecommissionInfo
    • Mises à jour de sécurité du système d’exploitation
  • 18 octobre 2022

    • Correction d’un problème lié à l’utilisation de COPY INTO avec des informations d’identification temporaires sur des clusters/entrepôts avec Unity Catalog.
    • [SPARK-40213][SQL] Prise en charge de la conversion de valeurs ASCII pour les caractères Latin-1
    • Mises à jour de sécurité du système d’exploitation
  • 5 octobre 2022

    • Les utilisateurs peuvent définir spark.conf.set(“spark.databricks.io.listKeysWithPrefix.azure.enabled”, “true”) pour réactiver la liste native pour Auto Loader sur ADLS Gen2. La liste native a été précédemment désactivée en raison de problèmes de performances, mais elle a peut-être entraîné une augmentation des coûts de stockage pour les clients. Cette modification a été déployée sur DBR 10.4 et 9.1 dans la mise à jour de maintenance précédente.
    • [SPARK-40169] Absence d’envoi de filtre Parquet pushdown sans référence au schéma de données
    • [SPARK-40460][SS] Correction des métriques de streaming lors de la sélection de _metadata
    • [SPARK-40468][SQL] Correction de la taille des colonnes au format CSV lorsque _corrupt_record est sélectionné
    • [SPARK-40055][SQL] listCatalogs doit également retourner spark_catalog même quand l’implémentation de spark_catalog est defaultSessionCatalog
    • Mises à jour de sécurité du système d’exploitation
  • 22 septembre 2022

    • [SPARK-40315][SQL] Ajout de hashCode() pour Literal d’ArrayBasedMapData
    • [SPARK-40380][SQL] Correction du pliage constant de InvokeLike pour éviter un littéral non sérialisable incorporé dans le plan
    • [SPARK-40089][SQL] Correction du tri pour certains types décimaux
    • [SPARK-39887][SQL] RemoveRedundantAliases doit conserver les alias qui rendent la sortie des nœuds de projection uniques
    • [SPARK-40152][SQL] Correction split_part du problème de compilation codegen
  • 6 septembre 2022

    • Nous avons mis à jour le modèle d’autorisation dans les contrôles d’accès aux tables afin que seules des autorisations MODIFY soient nécessaires pour modifier le schéma ou les propriétés d’une table avec ALTER TABLE. Auparavant, ces opérations exigeaient qu’un utilisateur soit propriétaire de la table. La propriété est toujours requise pour accorder des autorisations sur une table, et modifier son propriétaire, son emplacement ou son nom. Cette modification rend le modèle d’autorisation pour les listes de contrôle d’accès à la table plus cohérent avec Unity Catalog.
    • [SPARK-40235][CORE] Utiliser un verrou interruptible au lieu d’une synchronisation dans Executor.updateDependencies()
    • [SPARK-40212][SQL] SparkSQL castPartValue ne gère pas correctement byte, short ou float
    • [SPARK-40218][SQL] GROUPING SETS devrait conserver les colonnes de regroupement
    • [SPARK-39976][SQL] ArrayIntersect devrait correctement gérer la valeur null dans l’expression de gauche
    • [SPARK-40053][CORE][SQL][TESTS] Ajouter assume aux cas d’annulation dynamique nécessitant un environnement de runtime Python
    • [SPARK-35542][CORE][ML] Correctif : un bucketizer créé pour plusieurs colonnes avec des paramètres splitsArray, inputCols et outputCols ne peut pas être chargé après son enregistrement
    • [SPARK-40079][CORE] Ajouter une validation d’inputCols en cas d’entrée vide
  • 24 août 2022

    • Les partages, les fournisseurs et les destinataires prennent désormais en charge les commandes SQL pour modifier les propriétaires, les commentaires, renommer
    • [SPARK-39983] [CORE][SQL] Non mises en cache des relations de diffusion non sérialisées sur le pilote
    • [SPARK-39912][SPARK-39828][SQL] Affiner CatalogImpl
    • [SPARK-39775] [CORE][AVRO] Désactiver les valeurs par défaut lors de l’analyse des schémas Avro
    • [SPARK-39806] Correction du problème lié aux requêtes qui accèdent à l’incident du struct METADATA sur les tables partitionnées
    • [SPARK-39867][SQL] La limite globale ne doit pas hériter de OrderPreservingUnaryNode
    • [SPARK-39962][PYTHON][SQL] Application de la projection lorsque les attributs de groupe sont vides
    • [SPARK-39839][SQL] Gestion du cas spécial de la décimale de longueur de variable null avec offsetAndSize autre que zéro dans la vérification d’intégrité structurelle UnsafeRow
    • [SPARK-39713] [SQL] Mode ANSI : ajouter une suggestion d’utilisation de try_element_at pour l’erreur INVALID_ARRAY_INDEX
    • [SPARK-39847] Correction de la condition de concurrence dans RocksDBLoader.loadLibrary() si le thread de l’appelant est interrompu
    • [SPARK-39731] [SQL] Correction du problème dans les sources de données CSV et JSON lors de l’analyse des dates au format « aaaaMMjj » avec une stratégie d’analyseur de temps CORRIGÉE
    • Mises à jour de sécurité du système d’exploitation
  • 10 août 2022

    • Pour des tables Delta avec contrôle d’accès, une évolution automatique du schéma via des instructions DML telles que INSERT et MERGE est désormais disponible pour tous les utilisateurs disposant d’autorisations MODIFY sur ces tables. En outre, les autorisations requises pour opérer l’évolution du schéma avec COPY INTO sont désormais réduites de OWNER à MODIFY pour la cohérence avec d’autres commandes. Ces modifications rendent le modèle de sécurité d’ACL de table plus cohérent avec le modèle de sécurité de Unity Catalog, ainsi qu’avec d’autres opérations telles que le remplacement de table.
    • [SPARK-39889] Améliorer le message d’erreur de division par 0
    • [SPARK-39795] [SQL] Nouvelle fonction SQL : try_to_timestamp
    • [SPARK-39749] Toujours utiliser une représentation sous forme de chaîne simple lors du forçage de type de la chaîne décimale en mode ANSI
    • [SPARK-39625] Renommer df.as en df.to
    • [SPARK-39787] [SQL] Utilisation de la classe d’erreur dans l’erreur d’analyse de la fonction to_timestamp
    • [SPARK-39625][SQL] Ajouter Dataset.as(StructType)
    • [SPARK-39689]Prise en charge de 2 caractères lineSep dans la source de données CSV
    • [SPARK-39579] [SQL][PYTHON][R] Rendre ListFunctions/getFunctions/functionExists compatible avec l’espace de noms de couche 3
    • [SPARK-39702] [CORE] Réduire la surcharge mémoire de TransportCipher$EncryptedMessage à l’aide d’un byteRawChannel partagé
    • [SPARK-39575] [AVRO] Ajouter ByteBuffer#rewind après ByteBuffer#get dans AvroDeserializer
    • [SPARK-39265] [SQL] Corriger l’échec du test lorsque SPARK_ANSI_SQL_MODE est activé
    • [SPARK-39441] [SQL] Accélérer DeduplicateRelations
    • [SPARK-39497] [SQL] Améliorer l’exception d’analyse de la colonne clé de carte manquante
    • [SPARK-39476] [SQL] Désactiver l’optimisation du cast de désenveloppement lors de la conversion de Long à Float/Double ou d’Entier à Float
    • [SPARK-39434] [SQL] Fournir le contexte de requête d’erreur du runtime lorsque l’index de tableau est hors limite

Databricks Runtime 11.0 (non pris en charge)

Consultez Databricks Runtime 11.0 (non pris en charge).

  • 29 novembre 2022
    • Les utilisateurs peuvent configurer le comportement des espaces blancs de début et de fin lors de l’écriture de données à l’aide du connecteur Redshift. Les options suivantes ont été ajoutées pour contrôler la gestion des espaces blancs :
      • csvignoreleadingwhitespace, quand est défini sur true, supprime l’espace blanc de début des valeurs pendant les écritures lorsque tempformat est défini sur CSV ou CSV GZIP. Les espaces blancs sont conservés lorsque la configuration est définie sur false. Par défaut, la valeur est true.
      • csvignoretrailingwhitespace, quand est défini sur true, supprime l’espace blanc de fin des valeurs pendant les écritures lorsque tempformat est défini sur CSV ou CSV GZIP. Les espaces blancs sont conservés lorsque la configuration est définie sur false. Par défaut, la valeur est true.
    • Correction d’un bogue avec l’analyse JSON dans Auto Loader lorsque toutes les colonnes étaient laissées en tant que chaînes (cloudFiles.inferColumnTypes n’a pas été définie ou définie sur false) et que le JSON contenait des objets imbriqués.
    • [SPARK-39650] [SS] Correction d’un schéma de valeur incorrect dans la déduplication de streaming avec compatibilité descendante
    • Mises à jour de sécurité du système d’exploitation
  • 15 novembre 2022
    • [SPARK-40646] L’analyse JSON pour les structs, les mappages et les tableaux a été corrigée de sorte que lorsqu’une partie d’un enregistrement ne correspond pas au schéma, le reste de l’enregistrement peut toujours être analysé correctement au lieu de retourner des valeurs Null. Pour opter pour l’amélioration du comportement, définissez spark.sql.json.enablePartialResults surtrue. L’indicateur est désactivé par défaut pour conserver le comportement d’origine.
  • 1er novembre 2022
    • Mise à niveau d’Apache commons-text vers 1.10.0.
    • Correction d’un problème où si une table Delta avait une colonne définie par l’utilisateur nommée _change_type, mais que le flux de données modifiées était désactivé sur cette table, les données de cette colonne se remplissaient incorrectement avec des valeurs NULL lors de l’exécution de MERGE.
    • Correction d’un problème avec Auto Loader où un fichier peut être dupliqué dans le même micro-lot quand allowOverwrites est activé
    • [SPARK-40697] [SQL] Ajouter un remplissage de caractères côté lecture pour couvrir les fichiers de données externes
    • [SPARK-40596][CORE] Remplir ExecutorDecommission avec des messages dans ExecutorDecommissionInfo
    • Mises à jour de sécurité du système d’exploitation
  • 18 octobre 2022
    • [SPARK-40213][SQL] Prise en charge de la conversion de valeurs ASCII pour les caractères Latin-1
    • Mises à jour de sécurité du système d’exploitation
  • 5 octobre 2022
    • Les utilisateurs peuvent définir spark.conf.set(“spark.databricks.io.listKeysWithPrefix.azure.enabled”, “true”) pour réactiver la liste native pour Auto Loader sur ADLS Gen2. La liste native a été précédemment désactivée en raison de problèmes de performances, mais elle a peut-être entraîné une augmentation des coûts de stockage pour les clients. Cette modification a été déployée sur DBR 10.4 et 9.1 dans la mise à jour de maintenance précédente.
    • [SPARK-40169] Absence d’envoi de filtre Parquet pushdown sans référence au schéma de données
    • [SPARK-40460][SS] Correction des métriques de streaming lors de la sélection de _metadata
    • [SPARK-40468][SQL] Correction de la taille des colonnes au format CSV lorsque _corrupt_record est sélectionné
    • Mises à jour de sécurité du système d’exploitation
  • 22 septembre 2022
    • [SPARK-40315][SQL] Ajout de hashCode() pour Literal d’ArrayBasedMapData
    • [SPARK-40380][SQL] Correction du pliage constant de InvokeLike pour éviter un littéral non sérialisable incorporé dans le plan
    • [SPARK-40089][SQL] Correction du tri pour certains types décimaux
    • [SPARK-39887][SQL] RemoveRedundantAliases doit conserver les alias qui rendent la sortie des nœuds de projection uniques
    • [SPARK-40152][SQL] Correction split_part du problème de compilation codegen
  • 6 septembre 2022
    • [SPARK-40235][CORE] Utiliser un verrou interruptible au lieu d’une synchronisation dans Executor.updateDependencies()
    • [SPARK-40212][SQL] SparkSQL castPartValue ne gère pas correctement byte, short ou float
    • [SPARK-40218][SQL] GROUPING SETS devrait conserver les colonnes de regroupement
    • [SPARK-39976][SQL] ArrayIntersect devrait correctement gérer la valeur null dans l’expression de gauche
    • [SPARK-40053][CORE][SQL][TESTS] Ajouter assume aux cas d’annulation dynamique nécessitant un environnement de runtime Python
    • [SPARK-35542][CORE][ML] Correctif : un bucketizer créé pour plusieurs colonnes avec des paramètres splitsArray, inputCols et outputCols ne peut pas être chargé après son enregistrement
    • [SPARK-40079][CORE] Ajouter une validation d’inputCols en cas d’entrée vide
  • 24 août 2022
    • [SPARK-39983] [CORE][SQL] Non mises en cache des relations de diffusion non sérialisées sur le pilote
    • [SPARK-39775] [CORE][AVRO] Désactiver les valeurs par défaut lors de l’analyse des schémas Avro
    • [SPARK-39806] Correction du problème lié aux requêtes qui accèdent à l’incident du struct METADATA sur les tables partitionnées
    • [SPARK-39867][SQL] La limite globale ne doit pas hériter de OrderPreservingUnaryNode
    • [SPARK-39962][PYTHON][SQL] Application de la projection lorsque les attributs de groupe sont vides
    • Mises à jour de sécurité du système d’exploitation
  • 9 août 2022
    • [SPARK-39713] [SQL] Mode ANSI : ajouter une suggestion d’utilisation de try_element_at pour l’erreur INVALID_ARRAY_INDEX
    • [SPARK-39847] Corriger la condition de concurrence dans RocksDBLoader.loadLibrary() si le thread de l’appelant est interrompu
    • [SPARK-39731] [SQL] Correction du problème dans les sources de données CSV et JSON lors de l’analyse des dates au format « aaaaMMjj » avec une stratégie d’analyseur de temps CORRIGÉE
    • [SPARK-39889] Améliorer le message d’erreur de division par 0
    • [SPARK-39795] [SQL] Nouvelle fonction SQL : try_to_timestamp
    • [SPARK-39749] Toujours utiliser une représentation sous forme de chaîne simple lors du forçage de type de la chaîne décimale en mode ANSI
    • [SPARK-39625] [SQL] Ajouter Dataset.to(StructType)
    • [SPARK-39787] [SQL] Utiliser la classe d’erreur dans l’erreur d’analyse de la fonction to_timestamp
    • Mises à jour de sécurité du système d’exploitation
  • 27 juillet 2022
    • [SPARK-39689]Prise en charge de 2 caractères lineSep dans la source de données CSV
    • [SPARK-39104] [SQL] InMemoryRelation#isCachedColumnBuffersLoaded devrait être thread-safe
    • [SPARK-39702][CORE] Réduire la surcharge mémoire de TransportCipher$EncryptedMessage à l’aide d’un byteRawChannel partagé
    • [SPARK-39575][AVRO] ajouter ByteBuffer#rewind après ByteBuffer#get dans AvroDeserializer
    • [SPARK-39497][SQL] Améliorer l’exception d’analyse de la colonne clé de carte manquante
    • [SPARK-39441][SQL] Accélérer la dédupliquéeRelations
    • [SPARK-39476][SQL] Désactiver l’optimisation du cast d’unwrap lors de la conversion de Long à Float/ Double ou d’Entier à Float
    • [SPARK-39434][SQL] Fournir le contexte de requête d’erreur du runtime lorsque l’index de tableau est hors limite
    • [SPARK-39570] [WARMFIX][SQL] La table incluse devrait autoriser les expressions avec alias
    • Mises à jour de sécurité du système d’exploitation
  • 13 juillet 2022
    • Les résultats de l’opération Delta MERGE sont cohérents lorsque la source n’est pas déterministe.
    • Correction d’un problème pour la fonction table (TVF) cloud_files_state lors de l’exécution sur des chemins autres que DBFS.
    • Désactivation de l’utilisation par le chargeur automatique des API cloud natives pour dresser la liste des répertoires sur Azure.
    • [SPARK-38796][SQL] Mise à jour des fonctions to_number et try_to_number pour autoriser une demande de tirage (PR) avec des nombres positifs
    • [SPARK-39272][SQL] Augmentation de la position de début du contexte de requête de 1
    • [SPARK-39419][SQL] Correction d’ArraySort pour lever une exception lorsque le comparateur retourne null
    • Mises à jour de sécurité du système d’exploitation
  • 5 juillet 2022
    • Amélioration des messages d’erreur pour une série de classes d’erreurs.
    • [SPARK-39451][SQL] Prise en charge du cast des intervalles en entiers en mode ANSI
    • [SPARK-39361] Non-utilisation du modèle de conversion extensible de Log4J2 dans les configurations de journalisation par défaut
    • [SPARK-39354][SQL] Affichage de Table or view not found même s’il y a des dataTypeMismatchError relatives à Filter en même temps
    • [SPARK-38675][CORE] Correction de la compétition pendant le déverrouillage dans BlockInfoManager
    • [SPARK-39392] [SQL] Gestion plus fine des messages d’erreur ANSI pour les conseils de la fonction try_*
    • [SPARK-39214] [SQL][3.3] Amélioration des erreurs liées à CAST
    • [SPARK-37939] [SQL] Utilisation de classes d’erreurs dans les erreurs d’analyse des propriétés
    • [SPARK-39085][SQL] Déplacer le message d’erreur de INCONSISTENT_BEHAVIOR_CROSS_VERSION vers error-classes.json
    • [SPARK-39376][SQL] Masquage des colonnes dupliquées dans l’extension en étoile de l’alias de sous-requête de NATURAL/USING JOIN
    • [SPARK-39283][CORE] Corriger un interblocage entre TaskMemoryManager et UnsafeExternalSorter.SpillableIterator
    • [SPARK-39285][SQL] Spark ne doit pas vérifier les noms de champs lors de la lecture des fichiers
    • Mises à jour de sécurité du système d’exploitation

Databricks Runtime 10.5 (non pris en charge)

Consultez Databricks Runtime 10.5 (non pris en charge).

  • 1er novembre 2022
    • Correction d’un problème où si une table Delta avait une colonne définie par l’utilisateur nommée _change_type, mais que le flux de données modifiées était désactivé sur cette table, les données de cette colonne se remplissaient incorrectement avec des valeurs NULL lors de l’exécution de MERGE.
    • [SPARK-40697] [SQL] Ajouter un remplissage de caractères côté lecture pour couvrir les fichiers de données externes
    • [SPARK-40596][CORE] Remplir ExecutorDecommission avec des messages dans ExecutorDecommissionInfo
    • Mises à jour de sécurité du système d’exploitation
  • 18 octobre 2022
    • Mises à jour de sécurité du système d’exploitation
  • 5 octobre 2022
    • Les utilisateurs peuvent définir spark.conf.set(“spark.databricks.io.listKeysWithPrefix.azure.enabled”, “true”) pour réactiver la liste native pour Auto Loader sur ADLS Gen2. La liste native a été précédemment désactivée en raison de problèmes de performances, mais elle a peut-être entraîné une augmentation des coûts de stockage pour les clients. Cette modification a été déployée sur DBR 10.4 et 9.1 dans la mise à jour de maintenance précédente.
    • reload4j a été mis à niveau vers la version 1.2.19 pour corriger les vulnérabilités.
    • [SPARK-40460][SS] Correction des métriques de streaming lors de la sélection de _metadata
    • [SPARK-40468][SQL] Correction de la taille des colonnes au format CSV lorsque _corrupt_record est sélectionné
    • Mises à jour de sécurité du système d’exploitation
  • 22 septembre 2022
    • [SPARK-40315][SQL] Ajout de hashCode() pour Literal d’ArrayBasedMapData
    • [SPARK-40213][SQL] Prise en charge de la conversion de valeurs ASCII pour les caractères Latin-1
    • [SPARK-40380][SQL] Correction du pliage constant de InvokeLike pour éviter un littéral non sérialisable incorporé dans le plan
    • [SPARK-38404][SQL] Amélioration de la résolution CTE lorsqu’un CTE imbriqué fait référence à un CTE externe
    • [SPARK-40089][SQL] Correction du tri pour certains types décimaux
    • [SPARK-39887][SQL] RemoveRedundantAliases doit conserver les alias qui rendent la sortie des nœuds de projection uniques
    • Mises à jour de sécurité du système d’exploitation
  • 6 septembre 2022
    • [SPARK-40235][CORE] Utiliser un verrou interruptible au lieu d’une synchronisation dans Executor.updateDependencies()
    • [SPARK-39976][SQL] ArrayIntersect devrait correctement gérer la valeur null dans l’expression de gauche
    • [SPARK-40053][CORE][SQL][TESTS] Ajouter assume aux cas d’annulation dynamique nécessitant un environnement de runtime Python
    • [SPARK-35542][CORE][ML] Correctif : un bucketizer créé pour plusieurs colonnes avec des paramètres splitsArray, inputCols et outputCols ne peut pas être chargé après son enregistrement
    • [SPARK-40079][CORE] Ajouter une validation d’inputCols en cas d’entrée vide
  • 24 août 2022
    • [SPARK-39983] [CORE][SQL] Non mises en cache des relations de diffusion non sérialisées sur le pilote
    • [SPARK-39775] [CORE][AVRO] Désactiver les valeurs par défaut lors de l’analyse des schémas Avro
    • [SPARK-39806] Correction du problème lié aux requêtes qui accèdent à l’incident du struct METADATA sur les tables partitionnées
    • [SPARK-39962][PYTHON][SQL] Application de la projection lorsque les attributs de groupe sont vides
    • [SPARK-37643][SQL] Lorsque charVarcharAsString a la valeur true, pour que la requête de prédicat de type de données char ignore la règle rpadding
    • Mises à jour de sécurité du système d’exploitation
  • 9 août 2022
    • [SPARK-39847] Corriger la condition de concurrence dans RocksDBLoader.loadLibrary() si le thread de l’appelant est interrompu
    • [SPARK-39731] [SQL] Correction du problème dans les sources de données CSV et JSON lors de l’analyse des dates au format « aaaaMMjj » avec une stratégie d’analyseur de temps CORRIGÉE
    • Mises à jour de sécurité du système d’exploitation
  • 27 juillet 2022
    • [SPARK-39625][SQL] Ajouter Dataset.as(StructType)
    • [SPARK-39689]Prise en charge de 2 caractères lineSep dans la source de données CSV
    • [SPARK-39104] [SQL] InMemoryRelation#isCachedColumnBuffersLoaded devrait être thread-safe
    • [SPARK-39570] [WARMFIX][SQL] La table incluse devrait autoriser les expressions avec alias
    • [SPARK-39702][CORE] Réduire la surcharge mémoire de TransportCipher$EncryptedMessage à l’aide d’un byteRawChannel partagé
    • [SPARK-39575][AVRO] ajouter ByteBuffer#rewind après ByteBuffer#get dans AvroDeserializer
    • [SPARK-39476][SQL] Désactiver l’optimisation du cast d’unwrap lors de la conversion de Long à Float/ Double ou d’Entier à Float
    • Mises à jour de sécurité du système d’exploitation
  • 13 juillet 2022
    • Les résultats de l’opération Delta MERGE sont cohérents lorsque la source n’est pas déterministe.
    • [SPARK-39355][SQL] Une colonne unique utilise des guillemets pour construire UnresolvedAttribute
    • [SPARK-39548][SQL] La commande CreateView avec une requête de clause de fenêtre a rencontré un problème introuvable de définition de fenêtre incorrecte
    • [SPARK-39419][SQL] Correction d’ArraySort pour lever une exception lorsque le comparateur retourne null
    • Désactivation de l’utilisation par le chargeur automatique des API cloud natives pour dresser la liste des répertoires sur Azure.
    • Mises à jour de sécurité du système d’exploitation
  • 5 juillet 2022
    • [SPARK-39376][SQL] Masquage des colonnes dupliquées dans l’extension en étoile de l’alias de sous-requête de NATURAL/USING JOIN
    • Mises à jour de sécurité du système d’exploitation
  • 15 juin 2022
    • [SPARK-39283][CORE] Corriger un interblocage entre TaskMemoryManager et UnsafeExternalSorter.SpillableIterator
    • [SPARK-39285][SQL] Spark ne doit pas vérifier les noms de champs lors de la lecture des fichiers
    • [SPARK-34096][SQL] Améliorer les performances pour que nth_value ignore les valeurs Null sur une fenêtre de décalage
    • [SPARK-36718][SQL][FOLLOWUP] Corriger la vérification isExtractOnly dans CollapseProject
  • 2 juin 2022
    • [SPARK-39166][SQL] Fournir le contexte de requête d’erreur d’exécution pour l’arithmétique binaire lorsque WSCG est désactivé
    • [SPARK-39093][SQL] Éviter une erreur de compilation codegen lors de la division des intervalles d’année-mois ou des intervalles de jours-heures par une intégrale
    • [SPARK-38990][SQL] Éviter NullPointerException lors de l’évaluation du format date_trunc/trunc comme référence liée
    • Mises à jour de sécurité du système d’exploitation
  • 18 mai 2022
    • Corrige une fuite de mémoire native potentielle dans Auto Loader.
    • [SPARK-38868][SQL]Pas de propagation d’exceptions à partir du prédicat de filtre lors de l’optimisation des jointures externes
    • [SPARK-38796][SQL] Implémentation des fonctions SQL to_number et try_to_number selon une nouvelle spécification
    • [SPARK-38918][SQL] Le nettoyage de colonne imbriquée doit filtrer les attributs qui n’appartiennent pas à la relation actuelle
    • [SPARK-38929] [SQL] Amélioration des messages d’erreur pour les échecs de cast en ANSI
    • [SPARK-38926][SQL] Types de sortie dans les messages d’erreur dans le style SQL
    • [SPARK-39084][PYSPARK] Correction de df.rdd.isEmpty() en utilisant TaskContext pour arrêter l’itérateur à la fin de la tâche
    • [SPARK-32268][SQL] Ajout de ColumnPruning dans injectBloomFilter
    • [SPARK-38908][SQL] Contexte de requête fourni dans l’erreur d’exécution du cast du type String vers Number/Date/Timestamp/Boolean
    • [SPARK-39046][SQL] Retour d’une chaîne de contexte vide si TreeNode.origin est mal défini
    • [SPARK-38974][SQL] Filtrage des fonctions inscrites avec un nom de base de données indiqué dans les fonctions de liste
    • [SPARK-38762][SQL] Contexte de requête fourni dans les erreurs de dépassement Decimal
    • [SPARK-38931][SS] Création d’un répertoire dfs racine pour RocksDBFileManager avec un nombre inconnu de clés au premier point de contrôle
    • [SPARK-38992][CORE] Non utilisation de bash -c dans ShellBasedGroupsMappingProvider
    • [SPARK-38716][SQL]Contexte de requête fourni dans l’erreur indiquant que la clé de carte n’existe pas
    • [SPARK-38889][SQL] Compilation des filtres de colonne booléenne pour utiliser le type bit pour la source de données MSSQL
    • [SPARK-38698][SQL] Contexte de requête fourni dans l’erreur d’exécution de Divide/Div/Reminder/Pmod
    • [SPARK-38823][SQL] Fait en sorte que NewInstance ne peut pas être plié pour corriger le problème de corruption de tampon d’agrégation
    • [SPARK-38809][SS] Implémentation de l’option pour ignorer les valeurs Null dans l’implémentation du hachage symétrique des jointures de flux
    • [SPARK-38676][SQL] Contexte de requête SQL fourni dans le message d’erreur d’exécution de Add/Substract/Multiply
    • [SPARK-38677][PYSPARK] Python MonitorThread doit détecter le blocage en raison des E/S bloquantes
    • Mises à jour de sécurité du système d’exploitation

Databricks Runtime 10.3 (non pris en charge)

Consultez Databricks Runtime 10.3 (non pris en charge).

  • 27 juillet 2022
    • [SPARK-39689]Prise en charge de 2 caractères lineSep dans la source de données CSV
    • [SPARK-39104] [SQL] InMemoryRelation#isCachedColumnBuffersLoaded devrait être thread-safe
    • [SPARK-39702][CORE] Réduire la surcharge mémoire de TransportCipher$EncryptedMessage à l’aide d’un byteRawChannel partagé
    • Mises à jour de sécurité du système d’exploitation
  • 20 juillet 2022
    • Les résultats de l’opération Delta MERGE sont cohérents lorsque la source n’est pas déterministe.
    • [SPARK-39476][SQL] Désactiver l’optimisation du cast d’unwrap lors de la conversion de Long à Float/ Double ou d’Entier à Float
    • [SPARK-39548][SQL] La commande CreateView avec une requête de clause de fenêtre a rencontré un problème introuvable de définition de fenêtre incorrecte
    • [SPARK-39419][SQL] Correction d’ArraySort pour lever une exception lorsque le comparateur retourne null
    • Mises à jour de sécurité du système d’exploitation
  • 5 juillet 2022
    • [SPARK-39376][SQL] Masquage des colonnes dupliquées dans l’extension en étoile de l’alias de sous-requête de NATURAL/USING JOIN
    • Mises à jour de sécurité du système d’exploitation
  • 15 juin 2022
    • [SPARK-39283][CORE] Corriger un interblocage entre TaskMemoryManager et UnsafeExternalSorter.SpillableIterator
    • [SPARK-39285][SQL] Spark ne doit pas vérifier les noms de champs lors de la lecture des fichiers
    • [SPARK-34096][SQL] Améliorer les performances pour que nth_value ignore les valeurs Null sur une fenêtre de décalage
    • [SPARK-36718][SQL][FOLLOWUP] Corriger la vérification isExtractOnly dans CollapseProject
  • 2 juin 2022
    • [SPARK-38990][SQL] Éviter NullPointerException lors de l’évaluation du format date_trunc/trunc comme référence liée
    • Mises à jour de sécurité du système d’exploitation
  • 18 mai 2022
    • Corrige une fuite de mémoire native potentielle dans Auto Loader.
    • [SPARK-38918][SQL] Le nettoyage de colonne imbriquée doit filtrer les attributs qui n’appartiennent pas à la relation actuelle
    • [SPARK-37593][CORE] Réduction de la taille de page par défaut selon LONG_ARRAY_OFFSET si G1GC et ON_HEAP sont utilisés
    • [SPARK-39084][PYSPARK] Correction de df.rdd.isEmpty() en utilisant TaskContext pour arrêter l’itérateur à la fin de la tâche
    • [SPARK-32268][SQL] Ajout de ColumnPruning dans injectBloomFilter
    • [SPARK-38974][SQL] Filtrage des fonctions inscrites avec un nom de base de données indiqué dans les fonctions de liste
    • [SPARK-38889][SQL] Compilation des filtres de colonne booléenne pour utiliser le type bit pour la source de données MSSQL
    • Mises à jour de sécurité du système d’exploitation
  • 4 mai 2022
    • Mise à niveau du Kit de développement logiciel (SDK) Java AWS de la version 1.11.655 vers la version 1.12.1899.
  • 19 avril 2022
    • [SPARK-38616][SQL] Suivi du texte de requête SQL dans Catalyst TreeNode
    • Mises à jour de sécurité du système d’exploitation
  • 6 avril 2022
    • [SPARK-38631][CORE] Utilise une implémentation basée sur Java à des fins de désarchivage tar sur Utils.unpack
    • Mises à jour de sécurité du système d’exploitation
  • 22 mars 2022
    • Remplacement du répertoire de travail en cours des notebooks sur les clusters à forte concurrence avec le contrôle d’accès à la table ou l’activation du passage des informations d’identification par le répertoire d’accueil de l’utilisateur. Auparavant, le répertoire de travail était /databricks/driver.
    • [SPARK-38437][SQL] Sérialisation indulgente de la date et heure à partir de la source de données
    • [SPARK-38180][SQL] Autoriser les expressions up-cast sécurisées dans les prédicats d’égalité corrélés
    • [SPARK-38155][SQL] Interdire tout agrégat distinct dans les sous-requêtes latérales avec des prédicats non pris en charge
    • [SPARK-38325][SQL] Mode ANSI : éviter une erreur d’exécution potentielle dans HashJoin.extractKeyExprAt()
  • 14 mars 2022
    • Amélioration de la détection des conflits de transaction pour les transactions vides dans Delta Lake
    • [SPARK-38185][SQL] Correction des données incorrectes si la fonction d’agrégation est vide
    • [SPARK-38318][SQL] Régression lors du remplacement d’une vue de jeu de données
    • [SPARK-38236][SQL] Les chemins d’accès absolus des fichiers spécifiés dans la table create/alter sont traités comme relatifs
    • [SPARK-35937][SQL] L’extraction du champ de date du timestamp doit fonctionner en mode ANSI
    • [SPARK-34069][SQL] Tuer des tâches de cloisonnement doit respecter SPARK_JOB_INTERRUPT_ON_CANCEL
    • [SPARK-37707][SQL] Autorisation de l’affectation de magasin entre TimestampNTZ et Date/Timestamp
  • 23 février 2022
    • [SPARK-27442][SQL] Suppression de la vérification du nom du champ lors de la lecture/écriture de données en Parquet

Databricks Runtime 10.2 (non pris en charge)

Consultez Databricks Runtime 10.2 (non pris en charge).

  • 15 juin 2022
    • [SPARK-39283][CORE] Corriger un interblocage entre TaskMemoryManager et UnsafeExternalSorter.SpillableIterator
    • [SPARK-39285][SQL] Spark ne doit pas vérifier les noms de champs lors de la lecture des fichiers
    • [SPARK-34096][SQL] Améliorer les performances pour que nth_value ignore les valeurs Null sur une fenêtre de décalage
  • 2 juin 2022
    • [SPARK-38918][SQL] Le nettoyage de colonne imbriquée doit filtrer les attributs qui n’appartiennent pas à la relation actuelle
    • [SPARK-38990][SQL] Éviter NullPointerException lors de l’évaluation du format date_trunc/trunc comme référence liée
    • Mises à jour de sécurité du système d’exploitation
  • 18 mai 2022
    • Corrige une fuite de mémoire native potentielle dans Auto Loader.
    • [SPARK-39084][PYSPARK] Correction de df.rdd.isEmpty() en utilisant TaskContext pour arrêter l’itérateur à la fin de la tâche
    • [SPARK-38889][SQL] Compilation des filtres de colonne booléenne pour utiliser le type bit pour la source de données MSSQL
    • [SPARK-38931][SS] Création d’un répertoire dfs racine pour RocksDBFileManager avec un nombre inconnu de clés au premier point de contrôle
    • Mises à jour de sécurité du système d’exploitation
  • 4 mai 2022
    • Mise à niveau du Kit de développement logiciel (SDK) Java AWS de la version 1.11.655 vers la version 1.12.1899.
  • 19 avril 2022
    • Mises à jour de sécurité du système d’exploitation
    • Divers correctifs de bogues.
  • 6 avril 2022
    • [SPARK-38631][CORE] Utilise une implémentation basée sur Java à des fins de désarchivage tar sur Utils.unpack
    • Mises à jour de sécurité du système d’exploitation
  • 22 mars 2022
    • Remplacement du répertoire de travail en cours des notebooks sur les clusters à forte concurrence avec le contrôle d’accès à la table ou l’activation du passage des informations d’identification par le répertoire d’accueil de l’utilisateur. Auparavant, le répertoire de travail était /databricks/driver.
    • [SPARK-38437][SQL] Sérialisation indulgente de la date et heure à partir de la source de données
    • [SPARK-38180][SQL] Autoriser les expressions up-cast sécurisées dans les prédicats d’égalité corrélés
    • [SPARK-38155][SQL] Interdire tout agrégat distinct dans les sous-requêtes latérales avec des prédicats non pris en charge
    • [SPARK-38325][SQL] Mode ANSI : éviter une erreur d’exécution potentielle dans HashJoin.extractKeyExprAt()
  • 14 mars 2022
    • Amélioration de la détection des conflits de transaction pour les transactions vides dans Delta Lake
    • [SPARK-38185][SQL] Correction des données incorrectes si la fonction d’agrégation est vide
    • [SPARK-38318][SQL] Régression lors du remplacement d’une vue de jeu de données
    • [SPARK-38236][SQL] Les chemins d’accès absolus des fichiers spécifiés dans la table create/alter sont traités comme relatifs
    • [SPARK-35937][SQL] L’extraction du champ de date du timestamp doit fonctionner en mode ANSI
    • [SPARK-34069][SQL] Tuer des tâches de cloisonnement doit respecter SPARK_JOB_INTERRUPT_ON_CANCEL
    • [SPARK-37707][SQL] Autorisation de l’affectation de magasin entre TimestampNTZ et Date/Timestamp
  • 23 février 2022
    • [SPARK-37577][SQL] Correction de ClassCastException : ArrayType ne peut pas être converti en StructType pour Générer le nettoyage
  • 8 février 2022
    • [SPARK-27442][SQL] Suppression de la vérification du nom du champ lors de la lecture/écriture de données en Parquet
    • Mises à jour de sécurité du système d’exploitation
  • 1er février 2022
    • Mises à jour de sécurité du système d’exploitation
  • 26 janvier 2022
    • Correction d’un bogue dans lequel les transactions concurrentes sur les tables Delta pouvaient être validées dans un ordre non sérialisable dans certaines conditions rares
    • Correction d’un bogue à cause duquel la commande OPTIMIZE pouvait échouer lors de l’activation du dialecte SQL ANSI
  • 19 janvier 2022
    • Introduction de la prise en charge de l’insertion d’informations d’identification temporaires dans COPY INTO pour le chargement des données sources sans nécessiter les autorisations SQL ANY_FILE
    • Correctifs de bogues et améliorations de la sécurité
  • 20 décembre 2021
    • Correction d’un bogue rare avec le filtrage basé sur les index de colonne Parquet.

Databricks Runtime 10.1 (non pris en charge)

Consultez Databricks Runtime 10.1 (non pris en charge).

  • 15 juin 2022
    • [SPARK-39283][CORE] Corriger un interblocage entre TaskMemoryManager et UnsafeExternalSorter.SpillableIterator
    • [SPARK-39285][SQL] Spark ne doit pas vérifier les noms de champs lors de la lecture des fichiers
    • [SPARK-34096][SQL] Améliorer les performances pour que nth_value ignore les valeurs Null sur une fenêtre de décalage
  • 2 juin 2022
    • Mises à jour de sécurité du système d’exploitation
  • 18 mai 2022
    • Corrige une fuite de mémoire native potentielle dans Auto Loader.
    • [SPARK-39084][PYSPARK] Correction de df.rdd.isEmpty() en utilisant TaskContext pour arrêter l’itérateur à la fin de la tâche
    • [SPARK-38889][SQL] Compilation des filtres de colonne booléenne pour utiliser le type bit pour la source de données MSSQL
    • Mises à jour de sécurité du système d’exploitation
  • 19 avril 2022
    • [SPARK-37270][SQL] Correction d’envoi pliable dans des branches CaseWhen si elseValue est vide
    • Mises à jour de sécurité du système d’exploitation
  • 6 avril 2022
    • [SPARK-38631][CORE] Utilise une implémentation basée sur Java à des fins de désarchivage tar sur Utils.unpack
    • Mises à jour de sécurité du système d’exploitation
  • 22 mars 2022
    • [SPARK-38437][SQL] Sérialisation indulgente de la date et heure à partir de la source de données
    • [SPARK-38180][SQL] Autoriser les expressions up-cast sécurisées dans les prédicats d’égalité corrélés
    • [SPARK-38155][SQL] Interdire tout agrégat distinct dans les sous-requêtes latérales avec des prédicats non pris en charge
    • [SPARK-38325][SQL] Mode ANSI : éviter une erreur d’exécution potentielle dans HashJoin.extractKeyExprAt()
  • 14 mars 2022
    • Amélioration de la détection des conflits de transaction pour les transactions vides dans Delta Lake
    • [SPARK-38185][SQL] Correction des données incorrectes si la fonction d’agrégation est vide
    • [SPARK-38318][SQL] Régression lors du remplacement d’une vue de jeu de données
    • [SPARK-38236][SQL] Les chemins d’accès absolus des fichiers spécifiés dans la table create/alter sont traités comme relatifs
    • [SPARK-35937][SQL] L’extraction du champ de date du timestamp doit fonctionner en mode ANSI
    • [SPARK-34069][SQL] Tuer des tâches de cloisonnement doit respecter SPARK_JOB_INTERRUPT_ON_CANCEL
    • [SPARK-37707][SQL] Autorisation de l’affectation de magasin entre TimestampNTZ et Date/Timestamp
  • 23 février 2022
    • [SPARK-37577][SQL] Correction de ClassCastException : ArrayType ne peut pas être converti en StructType pour Générer le nettoyage
  • 8 février 2022
    • [SPARK-27442][SQL] Suppression de la vérification du nom du champ lors de la lecture/écriture de données en Parquet
    • Mises à jour de sécurité du système d’exploitation
  • 1er février 2022
    • Mises à jour de sécurité du système d’exploitation
  • 26 janvier 2022
    • Correction d’un bogue dans lequel les transactions concurrentes sur les tables Delta pouvaient être validées dans un ordre non sérialisable dans certaines conditions rares
    • Correction d’un bogue à cause duquel la commande OPTIMIZE pouvait échouer lors de l’activation du dialecte SQL ANSI
  • 19 janvier 2022
    • Introduction de la prise en charge de l’insertion d’informations d’identification temporaires dans COPY INTO pour le chargement des données sources sans nécessiter les autorisations SQL ANY_FILE
    • Correction d’un problème de mémoire insuffisante avec la mise en cache des résultats des requêtes dans certaines conditions
    • Correction d’un problème avec USE DATABASE lorsqu’un utilisateur change le catalogue actuel pour un catalogue non défini par défaut
    • Correctifs de bogues et améliorations de la sécurité
    • Mises à jour de sécurité du système d’exploitation
  • 20 décembre 2021
    • Correction d’un bogue rare avec le filtrage basé sur les index de colonne Parquet.

Databricks Runtime 10.0 (non pris en charge)

Consultez Databricks Runtime 10.0 (non pris en charge).

  • 19 avril 2022
    • [SPARK-37270][SQL] Correction d’envoi pliable dans des branches CaseWhen si elseValue est vide
    • Mises à jour de sécurité du système d’exploitation
  • 6 avril 2022
    • [SPARK-38631][CORE] Utilise une implémentation basée sur Java à des fins de désarchivage tar sur Utils.unpack
    • Mises à jour de sécurité du système d’exploitation
  • 22 mars 2022
    • [SPARK-38437][SQL] Sérialisation indulgente de la date et heure à partir de la source de données
    • [SPARK-38180][SQL] Autoriser les expressions up-cast sécurisées dans les prédicats d’égalité corrélés
    • [SPARK-38155][SQL] Interdire tout agrégat distinct dans les sous-requêtes latérales avec des prédicats non pris en charge
    • [SPARK-38325][SQL] Mode ANSI : éviter une erreur d’exécution potentielle dans HashJoin.extractKeyExprAt()
  • 14 mars 2022
    • Amélioration de la détection des conflits de transaction pour les transactions vides dans Delta Lake
    • [SPARK-38185][SQL] Correction des données incorrectes si la fonction d’agrégation est vide
    • [SPARK-38318][SQL] Régression lors du remplacement d’une vue de jeu de données
    • [SPARK-38236][SQL] Les chemins d’accès absolus des fichiers spécifiés dans la table create/alter sont traités comme relatifs
    • [SPARK-35937][SQL] L’extraction du champ de date du timestamp doit fonctionner en mode ANSI
    • [SPARK-34069][SQL] Tuer des tâches de cloisonnement doit respecter SPARK_JOB_INTERRUPT_ON_CANCEL
    • [SPARK-37707][SQL] Autorisation de l’affectation de magasin entre TimestampNTZ et Date/Timestamp
  • 23 février 2022
    • [SPARK-37577][SQL] Correction de ClassCastException : ArrayType ne peut pas être converti en StructType pour Générer le nettoyage
  • 8 février 2022
    • [SPARK-27442][SQL] Suppression de la vérification du nom du champ lors de la lecture/écriture de données en Parquet
    • [SPARK-36905][SQL] Correction de la lecture des vues d’une ruche sans nom de colonne explicite
    • [SPARK-37859][SQL] Correction du problème selon lequel les tables SQL créées avec JDBC avec Spark 3.1 ne sont pas lisibles avec la version 3.2
    • Mises à jour de sécurité du système d’exploitation
  • 1er février 2022
    • Mises à jour de sécurité du système d’exploitation
  • 26 janvier 2022
    • Correction d’un bogue dans lequel les transactions concurrentes sur les tables Delta pouvaient être validées dans un ordre non sérialisable dans certaines conditions rares
    • Correction d’un bogue à cause duquel la commande OPTIMIZE pouvait échouer lors de l’activation du dialecte SQL ANSI
  • 19 janvier 2022
    • Correctifs de bogues et améliorations de la sécurité
    • Mises à jour de sécurité du système d’exploitation
  • 20 décembre 2021
    • Correction d’un bogue rare avec le filtrage basé sur les index de colonne Parquet.
  • 9 novembre 2021
    • Introduction d’indicateurs de configuration supplémentaires pour permettre un contrôle affiné des comportements ANSI
  • 4 novembre 2021
    • Correction d’un bogue qui pouvait entraîner l’échec des flux Structured Streaming avec une exception ArrayIndexOutOfBoundsException
    • Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que java.io.IOException: No FileSystem for scheme ou qui pouvait faire que les modifications apportées à sparkContext.hadoopConfiguration n’entrent pas en vigueur dans les requêtes.
    • Le connecteur Apache Spark pour Delta Sharing a été mis à niveau vers la version 0.2.0.
  • 30 novembre 2021
    • Correction d’un problème avec l’analyse des timestamps où une chaîne de fuseau horaire sans deux-points était considérée comme non valide
    • Correction d’un problème de mémoire insuffisante avec la mise en cache des résultats des requêtes dans certaines conditions
    • Correction d’un problème avec USE DATABASE lorsqu’un utilisateur change le catalogue actuel pour un catalogue non défini par défaut

Databricks Runtime 9.0 (non pris en charge)

Consultez Databricks Runtime 9.0 (non pris en charge).

  • 8 février 2022
    • Mises à jour de sécurité du système d’exploitation
  • 1er février 2022
    • Mises à jour de sécurité du système d’exploitation
  • 26 janvier 2022
    • Correction d’un bogue à cause duquel la commande OPTIMIZE pouvait échouer lors de l’activation du dialecte SQL ANSI
  • 19 janvier 2022
    • Correctifs de bogues et améliorations de la sécurité
    • Mises à jour de sécurité du système d’exploitation
  • 4 novembre 2021
    • Correction d’un bogue qui pouvait entraîner l’échec des flux Structured Streaming avec une exception ArrayIndexOutOfBoundsException
    • Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que java.io.IOException: No FileSystem for scheme ou qui pouvait faire que les modifications apportées à sparkContext.hadoopConfiguration n’entrent pas en vigueur dans les requêtes.
    • Le connecteur Apache Spark pour Delta Sharing a été mis à niveau vers la version 0.2.0.
  • 22 septembre 2021
    • Correction d’un bogue dans le tableau Spark de conversion avec NULL en chaîne
  • 15 septembre 2021
    • Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
  • 8 septembre 2021
    • Ajout de la prise en charge du nom de schéma (format databaseName.schemaName.tableName) comme nom de table cible pour le connecteur Azure Synapse
    • Ajout de la prise en charge des types JDBC de géométrie et de géographie pour Spark SQL
    • [SPARK-33527][SQL] Extension de la fonction de décodage pour être cohérent avec les bases de données classiques
    • [SPARK-36532][CORE][3.1] Correction du blocage dans CoarseGrainedExecutorBackend.onDisconnected pour éviter executorsconnected afin de ne pas bloquer l’arrêt des exécuteurs
  • 25 août 2021
    • La bibliothèque de pilotes SQL Server a été mise à niveau vers la version 9.2.1.jre8
    • Le connecteur Snowflake a été mis à niveau vers la version 2.9.0
    • Correction du lien rompu vers le meilleur notebook d’essai sur la page d’expérience AutoML

Databricks Runtime 8.4 (non pris en charge)

Consultez Databricks Runtime 8.4 (non pris en charge).

  • 19 janvier 2022
    • Mises à jour de sécurité du système d’exploitation
  • 4 novembre 2021
    • Correction d’un bogue qui pouvait entraîner l’échec des flux Structured Streaming avec une exception ArrayIndexOutOfBoundsException
    • Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que java.io.IOException: No FileSystem for scheme ou qui pouvait faire que les modifications apportées à sparkContext.hadoopConfiguration n’entrent pas en vigueur dans les requêtes.
    • Le connecteur Apache Spark pour Delta Sharing a été mis à niveau vers la version 0.2.0.
  • 22 septembre 2021
    • Le pilote JDBC de Spark a été mis à niveau vers la version 2.6.19.1030
    • [SPARK-36734][SQL] Mise à niveau d’ORC vers la version 1.5.1
  • 15 septembre 2021
    • Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
    • Mises à jour de sécurité du système d’exploitation
  • 8 septembre 2021
    • [SPARK-36532][CORE][3.1] Correction du blocage dans CoarseGrainedExecutorBackend.onDisconnected pour éviter executorsconnected afin de ne pas bloquer l’arrêt des exécuteurs
  • 25 août 2021
    • La bibliothèque de pilotes SQL Server a été mise à niveau vers la version 9.2.1.jre8
    • Le connecteur Snowflake a été mis à niveau vers la version 2.9.0
    • Correction d’un bogue dans le passage des informations d’identification causé par la nouvelle optimisation des prérécupérations de Parquet, où les informations d’identification directes de l’utilisateur peuvent ne pas être trouvées pendant l’accès au fichier
  • 11 août 2021
    • Corrige un problème d’incompatibilité avec RocksDB qui empêchait l’utilisation de l’ancienne version Databricks Runtime 8.4. Cela corrige la compatibilité ascendante pour les applications Auto Loader, COPY INTO et de streaming avec état
    • Corrige un bogue lors de l’utilisation d’Auto Loader pour lire des fichiers CSV dont les fichiers d’en-tête ne correspondent pas. Si les noms des colonnes ne correspondent pas, la colonne est remplie de valeurs NULL. Désormais, si un schéma est fourni, il suppose que le schéma est le même et n’enregistre les différences de colonnes que si les colonnes de données récupérées sont activées
    • Ajoute une nouvelle option appelée externalDataSource dans le connecteur Azure Synapse pour supprimer l’exigence d’autorisation CONTROL sur la base de données pour la lecture de PolyBase
  • 29 juillet 2021
    • [SPARK-36034][BUILD] Rebase DateHeure dans les filtres faisant l’objet d’un pushdown en Parquet
    • [SPARK-36163][BUILD] Propage les propriétés JDBC correctes dans le fournisseur du connecteur JDBC et ajoute l’option connectionProvider

Databricks Runtime 8.3 (non pris en charge)

Consultez Databricks Runtime 8.3 (non pris en charge).

  • 19 janvier 2022
    • Mises à jour de sécurité du système d’exploitation
  • 4 novembre 2021
    • Correction d’un bogue qui pouvait entraîner l’échec des flux Structured Streaming avec une exception ArrayIndexOutOfBoundsException
    • Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que java.io.IOException: No FileSystem for scheme ou qui pouvait faire que les modifications apportées à sparkContext.hadoopConfiguration n’entrent pas en vigueur dans les requêtes.
  • 22 septembre 2021
    • Le pilote JDBC de Spark a été mis à niveau vers la version 2.6.19.1030
  • 15 septembre 2021
    • Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
    • Mises à jour de sécurité du système d’exploitation
  • 8 septembre 2021
    • [SPARK-35700][SQL][WARMFIX] Lecture de la table orc char/varchar lorsque créée et écrite par des systèmes externes
    • [SPARK-36532][CORE][3.1] Correction du blocage dans CoarseGrainedExecutorBackend.onDisconnected pour éviter executorsconnected afin de ne pas bloquer l’arrêt des exécuteurs
  • 25 août 2021
    • La bibliothèque de pilotes SQL Server a été mise à niveau vers la version 9.2.1.jre8
    • Le connecteur Snowflake a été mis à niveau vers la version 2.9.0
    • Correction d’un bogue dans le passage des informations d’identification causé par la nouvelle optimisation des prérécupérations de Parquet, où les informations d’identification directes de l’utilisateur peuvent ne pas être trouvées pendant l’accès au fichier
  • 11 août 2021
    • Corrige un bogue lors de l’utilisation d’Auto Loader pour lire des fichiers CSV dont les fichiers d’en-tête ne correspondent pas. Si les noms des colonnes ne correspondent pas, la colonne est remplie de valeurs NULL. Désormais, si un schéma est fourni, il suppose que le schéma est le même et n’enregistre les différences de colonnes que si les colonnes de données récupérées sont activées
  • 29 juillet 2021
    • Mise à jour du connecteur Databricks Snowflake Spark vers la version 2.9.0-spark-3.1
    • [SPARK-36034][BUILD] Rebase DateHeure dans les filtres faisant l’objet d’un pushdown en Parquet
    • [SPARK-36163][BUILD] Propage les propriétés JDBC correctes dans le fournisseur du connecteur JDBC et ajoute l’option connectionProvider
  • 14 juillet 2021
    • Correction d’un problème lors de l’utilisation de noms de colonnes avec des points dans le connecteur Azure Synapse
    • Introduction du format database.schema.table pour le connecteur Synapse
    • Ajout d’une prise en charge pour fournir le format databaseName.schemaName.tableName comme table cible au lieu de seulement schemaName.tableName ou tableName
  • 15 juin 2021
    • Correction d’un bogue NoSuchElementException dans les écritures optimisées de Delta Lake qui peut se produire lors de l’écriture de grandes quantités de données et lors de pertes d’exécuteurs
    • Ajoute les commandes SQL CREATE GROUP, DROP GROUP, ALTER GROUP, SHOW GROUPS et SHOW USERS Pour plus d’informations, consultez Instructions de sécurité et Instructions d’affichage.

Databricks Runtime 8.2 (non pris en charge)

Consultez Databricks Runtime 8.2 (non pris en charge).

  • 22 septembre 2021

    • Mises à jour de sécurité du système d’exploitation
  • 15 septembre 2021

    • Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
  • 8 septembre 2021

    • [SPARK-35700][SQL][WARMFIX] Lecture de la table orc char/varchar lorsque créée et écrite par des systèmes externes
    • [SPARK-36532][CORE][3.1] Correction du blocage dans CoarseGrainedExecutorBackend.onDisconnected pour éviter executorsconnected afin de ne pas bloquer l’arrêt des exécuteurs
  • 25 août 2021

    • Le connecteur Snowflake a été mis à niveau vers la version 2.9.0
  • 11 août 2021

    • [SPARK-36034][SQL] Rebase DateHeure dans les filtres faisant l’objet d’un pushdown en Parquet
  • 29 juillet 2021

    • Mise à jour du connecteur Databricks Snowflake Spark vers la version 2.9.0-spark-3.1
    • [SPARK-36163][BUILD] Propage les propriétés JDBC correctes dans le fournisseur du connecteur JDBC et ajoute l’option connectionProvider
  • 14 juillet 2021

    • Correction d’un problème lors de l’utilisation de noms de colonnes avec des points dans le connecteur Azure Synapse
    • Introduction du format database.schema.table pour le connecteur Synapse
    • Ajout d’une prise en charge pour fournir le format databaseName.schemaName.tableName comme table cible au lieu de seulement schemaName.tableName ou tableName
    • Correction d’un bogue qui empêchait les utilisateurs de passer aux anciennes versions disponibles avec les tables Delta
  • 15 juin 2021

    • Corrige un bogue NoSuchElementException dans les écritures optimisées de Delta Lake qui peut se produire lors de l’écriture de grandes quantités de données et lors de pertes d’exécuteurs
  • 26 mai 2021

    • Mise à jour de Python avec correctif de sécurité pour corriger la vulnérabilité de sécurité Python (CVE-2021-3177)
  • 30 avril 2021

    • Mises à jour de sécurité du système d’exploitation
    • [SPARK-35227][BUILD] Mise à jour du programme de résolution pour spark-packages dans SparkSubmit
    • [SPARK-34245][CORE] Vérifie que le maître supprime les exécuteurs qui n’ont pas réussi à envoyer l’état terminé
    • Correction d’un problème de mémoire insuffisante lorsqu’Auto Loader rapporte les métriques de progression de Structured Streaming

Databricks Runtime 8.1 (non pris en charge)

Consultez Databricks Runtime 8.1 (non pris en charge).

  • 22 septembre 2021

    • Mises à jour de sécurité du système d’exploitation
  • 15 septembre 2021

    • Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
  • 8 septembre 2021

    • [SPARK-35700][SQL][WARMFIX] Lecture de la table orc char/varchar lorsque créée et écrite par des systèmes externes
    • [SPARK-36532][CORE][3.1] Correction du blocage dans CoarseGrainedExecutorBackend.onDisconnected pour éviter executorsconnected afin de ne pas bloquer l’arrêt des exécuteurs
  • 25 août 2021

    • Le connecteur Snowflake a été mis à niveau vers la version 2.9.0
  • 11 août 2021

    • [SPARK-36034][SQL] Rebase DateHeure dans les filtres faisant l’objet d’un pushdown en Parquet
  • 29 juillet 2021

    • Mise à jour du connecteur Databricks Snowflake Spark vers la version 2.9.0-spark-3.1
    • [SPARK-36163][BUILD] Propage les propriétés JDBC correctes dans le fournisseur du connecteur JDBC et ajoute l’option connectionProvider
  • 14 juillet 2021

    • Correction d’un problème lors de l’utilisation de noms de colonnes avec des points dans le connecteur Azure Synapse
    • Correction d’un bogue qui empêchait les utilisateurs de passer aux anciennes versions disponibles avec les tables Delta
  • 15 juin 2021

    • Corrige un bogue NoSuchElementException dans les écritures optimisées de Delta Lake qui peut se produire lors de l’écriture de grandes quantités de données et lors de pertes d’exécuteurs
  • 26 mai 2021

    • Mise à jour de Python avec correctif de sécurité pour corriger la vulnérabilité de sécurité Python (CVE-2021-3177)
  • 30 avril 2021

    • Mises à jour de sécurité du système d’exploitation
    • [SPARK-35227][BUILD] Mise à jour du programme de résolution pour spark-packages dans SparkSubmit
    • Correction d’un problème de mémoire insuffisante lorsqu’Auto Loader rapporte les métriques de progression de Structured Streaming
  • 27 avril 2021

    • [SPARK-34245][CORE] Vérifie que le maître supprime les exécuteurs qui n’ont pas réussi à envoyer l’état terminé
    • [SPARK-34856][SQL] Mode ANSI : Autorise le cast de types complexes en type de chaîne
    • [SPARK-35014] Corriger le modèle PhysicalAggregation pour ne pas réécrire les expressions pliables
    • [SPARK-34769][SQL] AnsiTypeCoercion : renvoie le type convertible le plus étroit parmi TypeCollection
    • [SPARK-34614][SQL] Mode ANSI : Le cast d’une valeur Chaîne en Booléenne déclenche une exception en cas d’erreur d’analyse
    • [SPARK-33794][SQL] Mode ANSI : Corrige l’expression NextDay pour qu’elle lève l’exception IllegalArgumentException lors de la réception d’une entrée non valide dans le cadre de l’exécution

Databricks Runtime 8.0 (non pris en charge)

Consultez Databricks Runtime 8.0 (non pris en charge).

  • 15 septembre 2021

    • Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
  • 25 août 2021

    • Le connecteur Snowflake a été mis à niveau vers la version 2.9.0
  • 11 août 2021

    • [SPARK-36034][SQL] Rebase DateHeure dans les filtres faisant l’objet d’un pushdown en Parquet
  • 29 juillet 2021

    • [SPARK-36163][BUILD] Propage les propriétés JDBC correctes dans le fournisseur du connecteur JDBC et ajoute l’option connectionProvider
  • 14 juillet 2021

    • Correction d’un problème lors de l’utilisation de noms de colonnes avec des points dans le connecteur Azure Synapse
    • Correction d’un bogue qui empêchait les utilisateurs de passer aux anciennes versions disponibles avec les tables Delta
  • 26 mai 2021

    • Mise à jour de Python avec correctif de sécurité pour corriger la vulnérabilité de sécurité Python (CVE-2021-3177)
  • 30 avril 2021

    • Mises à jour de sécurité du système d’exploitation
    • [SPARK-35227][BUILD] Mise à jour du programme de résolution pour spark-packages dans SparkSubmit
    • [SPARK-34245][CORE] Vérifie que le maître supprime les exécuteurs qui n’ont pas réussi à envoyer l’état terminé
  • 24 mars 2021

    • [SPARK-34681][SQL] Corrige le bogue lié à une jointure hachée aléatoire externe complète lors de la création du côté gauche avec une condition non égale
    • [SPARK-34534] Correction de l’ordre des blockIds lors de l’utilisation de FetchShuffleBlocks pour extraire des blocs
    • [SPARK-34613][SQL] Corrige la vue ne capturant pas la configuration du conseil de désactivation
  • 9 mars 2021

    • [SPARK-34543][SQL] Respect de la configuration spark.sql.caseSensitive lors de la résolution des spécifications de partition dans SET LOCATION version 1
    • [SPARK-34392][SQL] Prise en charge de ZoneOffset +h:mm dans DateTimeUtils. getZoneId
    • [UI] Corrige le lien href de la visualisation DAG de Spark
    • [SPARK-34436][SQL] DPP prend en charge l’expression LIKE ANY/ALL

Databricks Runtime 7.6 (non pris en charge)

Consultez Databricks Runtime 7.6 (non pris en charge).

  • 11 août 2021
    • [SPARK-36034][SQL] Rebase DateHeure dans les filtres faisant l’objet d’un pushdown en Parquet
  • 29 juillet 2021
    • [SPARK-32998][BUILD] Ajout de la possibilité de remplacer les référentiels distants par défaut par des référentiels internes uniquement
  • 14 juillet 2021
    • Correction d’un bogue qui empêchait les utilisateurs de passer aux anciennes versions disponibles avec les tables Delta
  • 26 mai 2021
    • Mise à jour de Python avec correctif de sécurité pour corriger la vulnérabilité de sécurité Python (CVE-2021-3177)
  • 30 avril 2021
    • Mises à jour de sécurité du système d’exploitation
    • [SPARK-35227][BUILD] Mise à jour du programme de résolution pour spark-packages dans SparkSubmit
    • [SPARK-34245][CORE] Vérifie que le maître supprime les exécuteurs qui n’ont pas réussi à envoyer l’état terminé
  • 24 mars 2021
    • [SPARK-34768][SQL] Respecte la taille par défaut de la mémoire tampon d’entrée dans Univocity
    • [SPARK-34534] Correction de l’ordre des blockIds lors de l’utilisation de FetchShuffleBlocks pour extraire des blocs
  • 9 mars 2021
    • (Azure uniquement) Correction d’un bogue lié à Auto Loader pouvant entraîner une exception NullPointerException lors de l’utilisation de Databricks Runtime 7.6 pour exécuter un ancien flux Auto Loader créé dans Databricks Runtime 7.2
    • [UI] Corrige le lien href de la visualisation DAG de Spark
    • Le SparkPlan de nœud terminal inconnu n’est pas traité correctement dans SizeInBytesOnlyStatsSparkPlanVisitor
    • Restaure le schéma de sortie de SHOW DATABASES
    • [Delta] [8.0, 7.6] Correction d’un bogue de calcul dans la logique de réglage automatique de la taille des fichiers
    • Désactive la vérification de l’obsolescence des fichiers de tables Delta dans le cache du disque
    • [SQL] Utilise la clé de build correcte du nettoyage dynamique lorsque le conseil de jointure RANGE est présent
    • Désactive la prise en charge du type char dans les chemins de code non SQL
    • Évite un NPE dans DataFrameReader.schema
    • Corrige le NPE lorsque la réponse EventGridClient n’a pas d’entité
    • Corrige un bogue de lecture de flux fermé dans Azure Auto Loader
    • [SQL] Ne génère pas de conseils sur la lecture aléatoire du numéro de partition lorsque AOS est activé
  • 24 février 2021
    • Mise à niveau du connecteur Spark BigQuery vers la version 0.18, qui introduit divers correctifs de bogues et la prise en charge des itérateurs Arrow et Avro
    • Correction d’un problème d’exactitude qui faisait que Spark renvoyait des résultats incorrects lorsque la précision décimale et l’échelle du fichier Parquet sont différentes du schéma Spark
    • Correction d’un problème d’échec de lecture sur les tables Microsoft SQL Server qui contiennent des types de données spatiales, en ajoutant la prise en charge des types JDBC de géométrie et de géographie pour Spark SQL
    • Introduction d’une nouvelle configuration spark.databricks.hive.metastore.init.reloadFunctions.enabled. Cette configuration contrôle l’initialisation intégrée de Hive. Lorsqu’elle est définie sur true, Azure Databricks recharge toutes les fonctions de toutes les bases de données que les utilisateurs ont dans FunctionRegistry. Il s’agit du comportement par défaut dans le metastore Hive. Lorsqu’elle est définie sur false, Azure Databricks désactive ce processus pour l’optimiser
    • [SPARK-34212] Correction des problèmes liés à la lecture des données décimales des fichiers Parquet
    • [SPARK-34260][SQL] Correction de UnresolvedException lors de la création d’une vue temporaire à deux reprises

Databricks Runtime 7.5 (non pris en charge)

Consultez Databricks Runtime 7.5 (non pris en charge).

  • 26 mai 2021
    • Mise à jour de Python avec correctif de sécurité pour corriger la vulnérabilité de sécurité Python (CVE-2021-3177)
  • 30 avril 2021
    • Mises à jour de sécurité du système d’exploitation
    • [SPARK-35227][BUILD] Mise à jour du programme de résolution pour spark-packages dans SparkSubmit
    • [SPARK-34245][CORE] Vérifie que le maître supprime les exécuteurs qui n’ont pas réussi à envoyer l’état terminé
  • 24 mars 2021
    • [SPARK-34768][SQL] Respecte la taille par défaut de la mémoire tampon d’entrée dans Univocity
    • [SPARK-34534] Correction de l’ordre des blockIds lors de l’utilisation de FetchShuffleBlocks pour extraire des blocs
  • 9 mars 2021
    • (Azure uniquement) Correction d’un bogue lié à Auto Loader pouvant entraîner une exception NullPointerException lors de l’utilisation de Databricks Runtime 7.5 pour exécuter un ancien flux Auto Loader créé dans Databricks Runtime 7.2
    • [UI] Corrige le lien href de la visualisation DAG de Spark
    • Le SparkPlan de nœud terminal inconnu n’est pas traité correctement dans SizeInBytesOnlyStatsSparkPlanVisitor
    • Restaure le schéma de sortie de SHOW DATABASES
    • Désactive la vérification de l’obsolescence des fichiers de tables Delta dans le cache du disque
    • [SQL] Utilise la clé de build correcte du nettoyage dynamique lorsque le conseil de jointure RANGE est présent
    • Désactive la prise en charge du type char dans les chemins de code non SQL
    • Évite un NPE dans DataFrameReader.schema
    • Corrige le NPE lorsque la réponse EventGridClient n’a pas d’entité
    • Corrige un bogue de lecture de flux fermé dans Azure Auto Loader
  • 24 février 2021
    • Mise à niveau du connecteur Spark BigQuery vers la version 0.18, qui introduit divers correctifs de bogues et la prise en charge des itérateurs Arrow et Avro
    • Correction d’un problème d’exactitude qui faisait que Spark renvoyait des résultats incorrects lorsque la précision décimale et l’échelle du fichier Parquet sont différentes du schéma Spark
    • Correction d’un problème d’échec de lecture sur les tables Microsoft SQL Server qui contiennent des types de données spatiales, en ajoutant la prise en charge des types JDBC de géométrie et de géographie pour Spark SQL
    • Introduction d’une nouvelle configuration spark.databricks.hive.metastore.init.reloadFunctions.enabled. Cette configuration contrôle l’initialisation intégrée de Hive. Lorsqu’elle est définie sur true, Azure Databricks recharge toutes les fonctions de toutes les bases de données que les utilisateurs ont dans FunctionRegistry. Il s’agit du comportement par défaut dans le metastore Hive. Lorsqu’elle est définie sur false, Azure Databricks désactive ce processus pour l’optimiser
    • [SPARK-34212] Correction des problèmes liés à la lecture des données décimales des fichiers Parquet
    • [SPARK-34260][SQL] Correction de UnresolvedException lors de la création d’une vue temporaire à deux reprises
  • 4 février 2021
    • Correction d’une régression qui empêche l’exécution incrémentielle d’une requête qui définit une limite globale telle que SELECT * FROM table LIMIT nrows. Cette régression a été constatée par les utilisateurs qui exécutent des requêtes via ODBC/JDBC avec la sérialisation Arrow activée
    • Introduction de vérifications du temps d’écriture dans le client Hive pour empêcher l’endommagement des métadonnées dans le metastore Hive pour les tables Delta
    • Correction d’une régression qui provoquait l’échec du démarrage de DBFS FUSE lorsque les configurations des variables d’environnement du cluster contiennent une syntaxe Bash non valide.
  • 20 janvier 2021
    • Correction d’une régression dans la version de maintenance du 12 janvier 2021 qui peut provoquer une AnalysisException incorrecte et indiquer que la colonne est ambiguë dans une jointure réflexive. Cette régression se produit lorsqu’un utilisateur joint un DataFrame à son DataFrame dérivé (une soi-disant jointure réflexive) avec les conditions suivantes :
      • Ces deux DataFrames ont des colonnes communes, mais la sortie de la jointure réflexive n’a pas de colonnes communes. Par exemple : df.join(df.select($"col" as "new_col"), cond)
      • Le DataFrame dérivé exclut certaines colonnes via select, groupBy ou window
      • La condition de jointure ou la transformation suivante après le Dataframe joint fait référence aux colonnes non communes. Par exemple : df.join(df.drop("a"), df("a") === 1)
  • 12 janvier 2021
    • Mise à niveau du Kit de développement logiciel (SDK) Stockage Azure de la version 2.3.8 à la version 2.3.9
    • [SPARK-33593][SQL] Le lecteur de vecteurs a reçu des données incorrectes avec une valeur de partition binaire
    • [SPARK-33480][SQL] Mise à jour du message d’erreur de la vérification de la longueur d’insertion des tables char/varchar

Databricks Runtime 7.3 LTS (non pris en charge)

Consultez Databricks Runtime 7.3 LTS (non pris en charge).

  • 10 septembre 2023

    • Divers correctifs de bogues.
  • 30 août 2023

    • Mises à jour de sécurité du système d’exploitation
  • 15 août 2023

    • Mises à jour de sécurité du système d’exploitation
  • 23 juin 2023

    • La bibliothèque Snowflake-jdbc est mise à niveau vers la version 3.13.29 pour résoudre un problème de sécurité.
    • Mises à jour de sécurité du système d’exploitation
  • 15 juin 2023

    • [SPARK-43413][SQL] Correction de la sous-requête IN de la possibilité de valeurs nulles de ListQuery.
    • Mises à jour de sécurité du système d’exploitation
  • 2 juin 2023

    • Correction d’un problème dans Auto Loader où différents formats de fichier source étaient incohérents lorsque le schéma fourni n’incluait aucune partition déduite. Ce problème peut entraîner des échecs inattendus lors de la lecture de fichiers avec des colonnes manquantes dans le schéma de partition déduite.
  • 17 mai 2023

    • Mises à jour de sécurité du système d’exploitation
  • 25 avril 2023

    • Mises à jour de sécurité du système d’exploitation
  • 11 avril 2023

    • [SPARK-42967][CORE] Correction de SparkListenerTaskStart.stageAttemptId lorsqu’une tâche est démarrée après l’annulation de la phase.
    • Divers correctifs de bogues.
  • 29 mars 2023

    • Mises à jour de sécurité du système d’exploitation
  • 14 mars 2023

    • Divers correctifs de bogues.
  • Février 28, 2023

    • Mises à jour de sécurité du système d’exploitation
  • 16 février 2023

    • Mises à jour de sécurité du système d’exploitation
  • 31 janvier 2023

    • Les types de tables JDBC sont désormais EXTERNAL par défaut.
  • 18 janvier 2023

    • Mises à jour de sécurité du système d’exploitation
  • 29 novembre 2022

    • Divers correctifs de bogues.
  • 15 novembre 2022

    • Mise à niveau d’Apache commons-text vers 1.10.0.
    • Mises à jour de sécurité du système d’exploitation
    • Divers correctifs de bogues.
  • 1er novembre 2022

    • [SPARK-38542][SQL] UnsafeHashedRelation doit sérialiser numKeys
  • 18 octobre 2022

    • Mises à jour de sécurité du système d’exploitation
  • 5 octobre 2022

    • Divers correctifs de bogues.
    • Mises à jour de sécurité du système d’exploitation
  • 22 septembre 2022

    • [SPARK-40089][SQL] Correction du tri pour certains types décimaux
  • 6 septembre 2022

    • [SPARK-35542][CORE][ML] Correctif : un bucketizer créé pour plusieurs colonnes avec des paramètres splitsArray, inputCols et outputCols ne peut pas être chargé après son enregistrement
    • [SPARK-40079][CORE] Ajouter une validation d’inputCols en cas d’entrée vide
  • 24 août 2022

    • [SPARK-39962][PYTHON][SQL] Application de la projection lorsque les attributs de groupe sont vides
    • Mises à jour de sécurité du système d’exploitation
  • 9 août 2022

    • Mises à jour de sécurité du système d’exploitation
  • 27 juillet 2022

    • Les résultats de l’opération Delta MERGE sont cohérents lorsque la source n’est pas déterministe.
    • Mises à jour de sécurité du système d’exploitation
    • Divers correctifs de bogues.
  • 13 juillet 2022

    • [SPARK-32680][SQL] Ne pas prétraiter CTAS V2 avec une requête non résolue
    • Désactivation de l’utilisation par le chargeur automatique des API cloud natives pour dresser la liste des répertoires sur Azure.
    • Mises à jour de sécurité du système d’exploitation
  • 5 juillet 2022

    • Mises à jour de sécurité du système d’exploitation
    • Divers correctifs de bogues.
  • 2 juin 2022

    • [SPARK-38918][SQL] Le nettoyage de colonne imbriquée doit filtrer les attributs qui n’appartiennent pas à la relation actuelle
    • Mises à jour de sécurité du système d’exploitation
  • 18 mai 2022

    • Mise à niveau la version du kit SDK AWS de la version 1.11.655 vers la version 1.11.678.
    • Mises à jour de sécurité du système d’exploitation
    • Divers correctifs de bogues.
  • 19 avril 2022

    • Mises à jour de sécurité du système d’exploitation
    • Divers correctifs de bogues.
  • 6 avril 2022

    • Mises à jour de sécurité du système d’exploitation
    • Divers correctifs de bogues.
  • 14 mars 2022

    • Suppression des classes vulnérables du jar de log4j 1.2.17
    • Divers correctifs de bogues.
  • 23 février 2022

    • [SPARK-37859][SQL] Ne vérifie pas les métadonnées pendant la comparaison des schémas
  • 8 février 2022

    • Mise à niveau du JDK Ubuntu vers la version 1.8.0.312
    • Mises à jour de sécurité du système d’exploitation
  • 1er février 2022

    • Mises à jour de sécurité du système d’exploitation
  • 26 janvier 2022

    • Correction d’un bogue à cause duquel la commande OPTIMIZE pouvait échouer lors de l’activation du dialecte SQL ANSI
  • 19 janvier 2022

    • Le canal Conda par défaut est supprimé de la version 7.3 ML LTS
    • Mises à jour de sécurité du système d’exploitation
  • 7 décembre 2021

    • Mises à jour de sécurité du système d’exploitation
  • 4 novembre 2021

    • Correction d’un bogue qui pouvait entraîner l’échec des flux Structured Streaming avec une exception ArrayIndexOutOfBoundsException
    • Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que java.io.IOException: No FileSystem for scheme ou qui pouvait faire que les modifications apportées à sparkContext.hadoopConfiguration n’entrent pas en vigueur dans les requêtes.
  • 15 septembre 2021

    • Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
    • Mises à jour de sécurité du système d’exploitation
  • 8 septembre 2021

    • [SPARK-35700][SQL][WARMFIX] Lecture de la table orc char/varchar lorsque créée et écrite par des systèmes externes
    • [SPARK-36532][CORE][3.1] Correction du blocage dans CoarseGrainedExecutorBackend.onDisconnected pour éviter executorsconnected afin de ne pas bloquer l’arrêt des exécuteurs
  • 25 août 2021

    • Le connecteur Snowflake a été mis à niveau vers la version 2.9.0
  • 29 juillet 2021

    • [SPARK-36034][BUILD] Rebase DateHeure dans les filtres faisant l’objet d’un pushdown en Parquet
    • [SPARK-34508][BUILD] Ignore HiveExternalCatalogVersionsSuite si le réseau est en panne
  • 14 juillet 2021

    • Introduction du format database.schema.table pour le connecteur Azure Synapse
    • Ajout d’une prise en charge pour fournir le format databaseName.schemaName.tableName comme table cible au lieu de seulement schemaName.tableName ou tableName
    • Correction d’un bogue qui empêchait les utilisateurs de passer aux anciennes versions disponibles avec les tables Delta
  • 15 juin 2021

    • Corrige un bogue NoSuchElementException dans les écritures optimisées de Delta Lake qui peut se produire lors de l’écriture de grandes quantités de données et lors de pertes d’exécuteurs
    • Mise à jour de Python avec correctif de sécurité pour corriger la vulnérabilité de sécurité Python (CVE-2021-3177)
  • 30 avril 2021

    • Mises à jour de sécurité du système d’exploitation
    • [SPARK-35227][BUILD] Mise à jour du programme de résolution pour spark-packages dans SparkSubmit
    • [SPARK-34245][CORE] Vérifie que le maître supprime les exécuteurs qui n’ont pas réussi à envoyer l’état terminé
    • [SPARK-35045][SQL] Ajoute une option interne pour contrôler la mémoire tampon d’entrée dans univocity
  • 24 mars 2021

    • [SPARK-34768][SQL] Respecte la taille par défaut de la mémoire tampon d’entrée dans Univocity
    • [SPARK-34534] Correction de l’ordre des blockIds lors de l’utilisation de FetchShuffleBlocks pour extraire des blocs
    • [SPARK-33118][SQL] CREATE TEMPORARY TABLE échoue avec la localisation
  • 9 mars 2021

    • Le pilote Azure Blob File System mis à jour pour Azure Data Lake Storage Gen2 est désormais activé par défaut. Il apporte plusieurs améliorations en matière de stabilité
    • Correction du séparateur de chemin sous Windows pour databricks-connect get-jar-dir
    • [UI] Corrige le lien href de la visualisation DAG de Spark
    • [DBCONNECT] Ajout de la prise en charge de FlatMapCoGroupsInPandas dans Databricks Connect 7.3
    • Restaure le schéma de sortie de SHOW DATABASES
    • [SQL] Utilise la clé de build correcte du nettoyage dynamique lorsque le conseil de jointure RANGE est présent
    • Désactive la vérification de l’obsolescence des fichiers de tables Delta dans le cache du disque
    • [SQL] Ne génère pas de conseils sur la lecture aléatoire du numéro de partition lorsque AOS est activé
  • 24 février 2021

    • Mise à niveau du connecteur Spark BigQuery vers la version 0.18, qui introduit divers correctifs de bogues et la prise en charge des itérateurs Arrow et Avro
    • Correction d’un problème d’exactitude qui faisait que Spark renvoyait des résultats incorrects lorsque la précision décimale et l’échelle du fichier Parquet sont différentes du schéma Spark
    • Correction d’un problème d’échec de lecture sur les tables Microsoft SQL Server qui contiennent des types de données spatiales, en ajoutant la prise en charge des types JDBC de géométrie et de géographie pour Spark SQL
    • Introduction d’une nouvelle configuration spark.databricks.hive.metastore.init.reloadFunctions.enabled. Cette configuration contrôle l’initialisation intégrée de Hive. Lorsqu’elle est définie sur true, Azure Databricks recharge toutes les fonctions de toutes les bases de données que les utilisateurs ont dans FunctionRegistry. Il s’agit du comportement par défaut dans le metastore Hive. Lorsqu’elle est définie sur false, Azure Databricks désactive ce processus pour l’optimiser
    • [SPARK-34212] Correction des problèmes liés à la lecture des données décimales des fichiers Parquet
    • [SPARK-33579][UI] Correction de la page blanche de l’exécuteur derrière un proxy
    • [SPARK-20044][UI] Prise en charge de l’interface utilisateur Spark derrière le proxy inverse frontal à l’aide d’un préfixe de chemin d’accès
    • [SPARK-33277][PYSPARK][SQL] Utilise ContextAwareIterator pour arrêter la consommation après la fin de la tâche
  • 4 février 2021

    • Correction d’une régression qui empêche l’exécution incrémentielle d’une requête qui définit une limite globale telle que SELECT * FROM table LIMIT nrows. Cette régression a été constatée par les utilisateurs qui exécutent des requêtes via ODBC/JDBC avec la sérialisation Arrow activée
    • Correction d’une régression qui provoquait l’échec du démarrage de DBFS FUSE lorsque les configurations des variables d’environnement du cluster contiennent une syntaxe Bash non valide.
  • 20 janvier 2021

    • Correction d’une régression dans la version de maintenance du 12 janvier 2021 qui peut provoquer une AnalysisException incorrecte et indiquer que la colonne est ambiguë dans une jointure réflexive. Cette régression se produit lorsqu’un utilisateur joint un DataFrame à son DataFrame dérivé (une soi-disant jointure réflexive) avec les conditions suivantes :
      • Ces deux DataFrames ont des colonnes communes, mais la sortie de la jointure réflexive n’a pas de colonnes communes. Par exemple : df.join(df.select($"col" as "new_col"), cond)
      • Le DataFrame dérivé exclut certaines colonnes via select, groupBy ou window
      • La condition de jointure ou la transformation suivante après le Dataframe joint fait référence aux colonnes non communes. Par exemple : df.join(df.drop("a"), df("a") === 1)
  • 12 janvier 2021

    • Mises à jour de sécurité du système d’exploitation
    • [SPARK-33593][SQL] Le lecteur de vecteurs a reçu des données incorrectes avec une valeur de partition binaire
    • [SPARK-33677][SQL] Ignore la règle LikeSimplification si le modèle contient un escapeChar
    • [SPARK-33592][ML][PYTHON] Les paramètres du validateur ML de Pyspark dans estimatorParamMaps peuvent être perdus après enregistrement et rechargement
    • [SPARK-33071][SPARK-33536][SQL] Évite de modifier le dataset_id de LogicalPlan dans join() pour ne pas arrêter DetectAmbiguousSelfJoin
  • 8 décembre 2020

    • [SPARK-33587][CORE] Tuer l’exécuteur en cas d’erreurs irrécupérables imbriquées
    • [SPARK-27421][SQL] Correction du filtre pour la colonne int et la classe de valeur java.lang.String lors du nettoyage de la colonne de partition
    • [SPARK-33316][SQL] Prise en charge du schéma Avro pouvant accepter la valeur Null et fourni par l’utilisateur pour le schéma catalytique ne pouvant pas accepter la valeur Null dans l’écriture Avro
    • Les travaux Spark lancés à l’aide de Databricks Connecter peuvent se bloquer indéfiniment avec Executor$TaskRunner.$anonfun$copySessionState dans la trace de l’exécuteur
    • Mises à jour de sécurité du système d’exploitation
  • 1 décembre 2020

    • [SPARK-33404][SQL][3.0] Correction des résultats incorrects dans l’expression date_trunc
    • [SPARK-33339][PYTHON] L’application Pyspark se bloque en raison d’une erreur de non-exception
    • [SPARK-33183][SQL][HOTFIX] Correction de la règle d’optimiseur EliminateSorts et ajout d’une règle physique pour supprimer les tris redondants
    • [SPARK-33371][PYTHON][3.0] Mise à jour de setup.py et des tests pour Python 3.9
    • [SPARK-33391][SQL] element_at avec CreateArray ne respecte pas un index de base
    • [SPARK-33306][SQL] Le fuseau horaire est nécessaire pour convertir une date en chaîne
    • [SPARK-33260][SQL] Correction des résultats incorrects de SortExec lorsque la valeur de sortOrder est Stream
  • 5 novembre 2020

    • Correction du verrouillage d’ABFS et de WASB en ce qui concerne UserGroupInformation.getCurrentUser()
    • Correction d’un bogue de boucle infinie lorsque le lecteur Avro lit les octets MAGIC
    • Ajout de la prise en charge du privilège USAGE
    • Amélioration des performances pour la vérification des privilèges dans le contrôle d’accès aux tables
  • 13 octobre 2020

    • Mises à jour de sécurité du système d’exploitation
    • Vous pouvez lire et écrire à partir de DBFS à l’aide du montage FUSE au niveau de /dbfs/ lorsque vous êtes sur un cluster à forte concurrence et dont le passage des informations d’identification est activé. Les montages ordinaires sont pris en charge, mais les montages nécessitant des informations d’identification directes ne le sont pas encore
    • [SPARK-32999][SQL] Utilise Utils.getSimpleName pour éviter de rencontrer un nom de classe Malformé dans TreeNode
    • [SPARK-32585][SQL] Prise en charge de l’énumération scala dans ScalaReflection
    • Correction de l’énumération des répertoires dans le montage FUSE qui contiennent des noms de fichiers avec des caractères XML non valides
    • Le montage FUSE n’utilise plus ListMultipartUploads
  • 29 septembre 2020

    • [SPARK-32718][SQL] Suppression des mots clés inutiles pour les unités d’intervalle
    • [SPARK-32635][SQL] Correction de la propagation pliable
    • Ajout d’une nouvelle configuration spark.shuffle.io.decoder.consolidateThreshold. Définissez la valeur de configuration sur Long.MAX_VALUE pour ignorer la consolidation des FrameBufferss de réseau, ce qui empêche java.lang.IndexOutOfBoundsException dans les cas particuliers
  • 25 avril 2023

    • Mises à jour de sécurité du système d’exploitation
  • 11 avril 2023

    • Divers correctifs de bogues.
  • 29 mars 2023

    • Divers correctifs de bogues.
  • 14 mars 2023

    • Mises à jour de sécurité du système d’exploitation
  • Février 28, 2023

    • Mises à jour de sécurité du système d’exploitation
  • 16 février 2023

    • Mises à jour de sécurité du système d’exploitation
  • 31 janvier 2023

    • Divers correctifs de bogues.
  • 18 janvier 2023

    • Mises à jour de sécurité du système d’exploitation
  • 29 novembre 2022

    • Mises à jour de sécurité du système d’exploitation
  • 15 novembre 2022

    • Mises à jour de sécurité du système d’exploitation
    • Divers correctifs de bogues.
  • 1er novembre 2022

    • Mises à jour de sécurité du système d’exploitation
  • 18 octobre 2022

    • Mises à jour de sécurité du système d’exploitation
    • 5 octobre 2022
      • Mises à jour de sécurité du système d’exploitation
    • 24 août 2022
      • Mises à jour de sécurité du système d’exploitation
    • 9 août 2022
      • Mises à jour de sécurité du système d’exploitation
    • 27 juillet 2022
      • Mises à jour de sécurité du système d’exploitation
    • 5 juillet 2022
      • Mises à jour de sécurité du système d’exploitation
    • 2 juin 2022
      • Mises à jour de sécurité du système d’exploitation
    • 18 mai 2022
      • Mises à jour de sécurité du système d’exploitation
    • 19 avril 2022
      • Mises à jour de sécurité du système d’exploitation
      • Divers correctifs de bogues.
    • 6 avril 2022
      • Mises à jour de sécurité du système d’exploitation
      • Divers correctifs de bogues.
    • 14 mars 2022
      • Divers correctifs de bogues.
    • 23 février 2022
      • Divers correctifs de bogues.
    • 8 février 2022
      • Mise à niveau du JDK Ubuntu vers la version 1.8.0.312
      • Mises à jour de sécurité du système d’exploitation
    • 1er février 2022
      • Mises à jour de sécurité du système d’exploitation
    • 19 janvier 2022
      • Mises à jour de sécurité du système d’exploitation
    • 22 septembre 2021
      • Mises à jour de sécurité du système d’exploitation
    • 30 avril 2021
      • Mises à jour de sécurité du système d’exploitation
      • [SPARK-35227][BUILD] Mise à jour du programme de résolution pour spark-packages dans SparkSubmit
    • 12 janvier 2021
      • Mises à jour de sécurité du système d’exploitation
    • 8 décembre 2020
      • [SPARK-27421][SQL] Correction du filtre pour la colonne int et la classe de valeur java.lang.String lors du nettoyage de la colonne de partition
      • Mises à jour de sécurité du système d’exploitation
    • 1 décembre 2020
    • [SPARK-33260][SQL] Correction des résultats incorrects de SortExec lorsque la valeur de sortOrder est Stream
    • 3 novembre 2020
      • Mise à jour de Java de la version 1.8.0_252 vers la version 1.8.0_265
      • Correction du verrouillage d’ABFS et de WASB en ce qui concerne UserGroupInformation.getCurrentUser()
    • 13 octobre 2020
      • Mises à jour de sécurité du système d’exploitation

Support étendu de Databricks Runtime 6.4 (non pris en charge)

Voir Databricks Runtime 6.4 (sans support) et Databricks Runtime 6.4 Support étendu (sans support).

  • 5 juillet 2022

    • Mises à jour de sécurité du système d’exploitation
    • Divers correctifs de bogues.
  • 2 juin 2022

    • Mises à jour de sécurité du système d’exploitation
  • 18 mai 2022

    • Mises à jour de sécurité du système d’exploitation
  • 19 avril 2022

    • Mises à jour de sécurité du système d’exploitation
    • Divers correctifs de bogues.
  • 6 avril 2022

    • Mises à jour de sécurité du système d’exploitation
    • Divers correctifs de bogues.
  • 14 mars 2022

    • Suppression des classes vulnérables du jar de log4j 1.2.17
    • Divers correctifs de bogues.
  • 23 février 2022

    • Divers correctifs de bogues.
  • 8 février 2022

    • Mise à niveau du JDK Ubuntu vers la version 1.8.0.312
    • Mises à jour de sécurité du système d’exploitation
  • 1er février 2022

    • Mises à jour de sécurité du système d’exploitation
  • 26 janvier 2022

    • Correction d’un bogue à cause duquel la commande OPTIMIZE pouvait échouer lors de l’activation du dialecte SQL ANSI
  • 19 janvier 2022

    • Mises à jour de sécurité du système d’exploitation
  • 8 décembre 2021

    • Mises à jour de sécurité du système d’exploitation
  • 22 septembre 2021

    • Mises à jour de sécurité du système d’exploitation
  • 15 juin 2021

    • [SPARK-35576][SQL] Suppression des informations sensibles dans le résultat de la commande Set
  • 7 juin 2021

    • Ajout d’une nouvelle configuration appelée spark.sql.maven.additionalRemoteRepositories, une configuration de chaîne délimitée par des virgules du miroir Maven distant supplémentaire facultatif. La valeur est https://maven-central.storage-download.googleapis.com/maven2/ par défaut
  • 30 avril 2021

    • Mises à jour de sécurité du système d’exploitation
    • [SPARK-35227][BUILD] Mise à jour du programme de résolution pour spark-packages dans SparkSubmit
  • 9 mars 2021

    • Portage de HADOOP-17215 au pilote Azure Blob File System (prise en charge du remplacement conditionnel)
    • Correction du séparateur de chemin sous Windows pour databricks-connect get-jar-dir
    • Ajout de la prise en charge des versions 2.3.5, 2.3.6 et 2.3.7 du metastore Hive
    • La flèche « totalResultsCollected » a été signalée de manière incorrecte après le déversement
  • 24 février 2021

    • Introduction d’une nouvelle configuration spark.databricks.hive.metastore.init.reloadFunctions.enabled. Cette configuration contrôle l’initialisation intégrée de Hive. Lorsqu’elle est définie sur true, Azure Databricks recharge toutes les fonctions de toutes les bases de données que les utilisateurs ont dans FunctionRegistry. Il s’agit du comportement par défaut dans le metastore Hive. Lorsqu’elle est définie sur false, Azure Databricks désactive ce processus pour l’optimiser
  • 4 février 2021

    • Correction d’une régression qui empêche l’exécution incrémentielle d’une requête qui définit une limite globale telle que SELECT * FROM table LIMIT nrows. Cette régression a été constatée par les utilisateurs qui exécutent des requêtes via ODBC/JDBC avec la sérialisation Arrow activée
    • Correction d’une régression qui provoquait l’échec du démarrage de DBFS FUSE lorsque les configurations des variables d’environnement du cluster contiennent une syntaxe Bash non valide.
  • 12 janvier 2021

    • Mises à jour de sécurité du système d’exploitation
  • 8 décembre 2020

    • [SPARK-27421][SQL] Correction du filtre pour la colonne int et la classe de valeur java.lang.String lors du nettoyage de la colonne de partition
    • [SPARK-33183][SQL] Correction de la règle d’optimiseur EliminateSorts et ajout d’une règle physique pour supprimer les tris redondants
    • [Runtime 6.4 ML GPU] Nous avons précédemment installé une version incorrecte (2.7.8-1+cuda11.1) de NCCL. Cette version la corrige en 2.4.8-1+cuda10.0 qui est compatible avec CUDA 10.0
    • Mises à jour de sécurité du système d’exploitation
  • 1 décembre 2020

    • [SPARK-33260][SQL] Correction des résultats incorrects de SortExec lorsque la valeur de sortOrder est Stream
    • [SPARK-32635][SQL] Correction de la propagation pliable
  • 3 novembre 2020

    • Mise à jour de Java de la version 1.8.0_252 vers la version 1.8.0_265
    • Correction du verrouillage d’ABFS et de WASB en ce qui concerne UserGroupInformation.getCurrentUser()
    • Correction d’un bogue de boucle infinie du lecteur Avro lors de la lecture des octets MAGIC
  • 13 octobre 2020

    • Mises à jour de sécurité du système d’exploitation
    • [SPARK-32999][SQL][2.4] Utilise Utils.getSimpleName pour éviter de rencontrer un nom de classe Malformé dans TreeNode
    • Correction de l’énumération des répertoires dans le montage FUSE qui contiennent des noms de fichiers avec des caractères XML non valides
    • Le montage FUSE n’utilise plus ListMultipartUploads
  • 24 septembre 2020

    • Correction d’une limitation précédente où la connexion directe sur un cluster standard restreignait toujours l’utilisation de l’implémentation du système de fichiers. Désormais, les utilisateurs peuvent accéder aux systèmes de fichiers locaux sans aucune restriction.
    • Mises à jour de sécurité du système d’exploitation
  • 8 septembre 2020

    • Un nouveau paramètre a été créé pour Azure Synapse Analytics, maxbinlength. Ce paramètre est utilisé pour contrôler la longueur des colonnes de type binaire et se traduit par VARBINARY(maxbinlength). Il peut être défini en utilisant .option("maxbinlength", n), où 0 < n <= 8000
    • Mise à jour du Kit de développement logiciel (SDK) Stockage Azure vers la version 8.6.4 et activation de la métrique Keep Alive TCP sur les connexions effectuées par le pilote WASB
  • 25 août 2020

    • Correction de la résolution des attributs ambigus dans l’auto-fusion
  • 18 août 2020

    • [SPARK-32431][SQL] Vérifie les colonnes imbriquées en double dans la lecture des sources de données intégrées
    • Correction d’une condition de concurrence dans le connecteur AQS lors de l’utilisation de Trigger.Once
  • 11 août 2020

    • [SPARK-28676][CORE] Évite une journalisation excessive de ContextCleaner
  • 3 août 2020

    • Vous pouvez désormais utiliser la fonction de transformation LDA sur un cluster avec accès direct.
    • Mises à jour de sécurité du système d’exploitation
  • 7 juillet 2020

    • Mise à jour de Java de la version 1.8.0_232 vers la version 1.8.0_252
  • 21 avril 2020

    • [SPARK-31312][SQL] Met en cache l’instance de classe pour l’instance UDF dans HiveFunctionWrapper
  • 7 avril 2020

    • Pour résoudre un problème lié aux UDF pandas qui ne fonctionnent pas avec PyArrow 0.15.0 et versions ultérieures, nous avons ajouté une variable d’environnement (ARROW_PRE_0_15_IPC_FORMAT=1) pour activer la prise en charge de ces versions de PyArrow. Voir les instructions dans [SPARK-29367]
  • 10 mars 2020

    • La mise à l’échelle automatique optimisée est désormais utilisée par défaut sur les clusters interactifs du plan de sécurité.
    • Le connecteur Snowflake (spark-snowflake_2.11) inclus dans Databricks Runtime est mis à jour vers la version 2.5.9. snowflake-jdbc est mis à jour vers la version 3.12.0

Databricks Runtime 5.5 LTS (non pris en charge)

Voir Databricks Runtime 5.5 LTS (sans support) et Databricks Runtime 5.5 Support étendu (sans support).

  • 8 décembre 2021

    • Mises à jour de sécurité du système d’exploitation
  • 22 septembre 2021

    • Mises à jour de sécurité du système d’exploitation
  • 25 août 2021

    • Passage à une version antérieure de certains packages Python précédemment mis à niveau dans la version 5.5 ML Support étendu afin de maintenir une meilleure parité avec la version 5.5 ML LTS (désormais déconseillée). Voir [_]/release-notes/runtime/5.5xml.md) pour connaître les différences mises à jour entre les deux versions
  • 15 juin 2021

    • [SPARK-35576][SQL] Suppression des informations sensibles dans le résultat de la commande Set
  • 7 juin 2021

    • Ajout d’une nouvelle configuration appelée spark.sql.maven.additionalRemoteRepositories, une configuration de chaîne délimitée par des virgules du miroir Maven distant supplémentaire facultatif. La valeur est https://maven-central.storage-download.googleapis.com/maven2/ par défaut
  • 30 avril 2021

    • Mises à jour de sécurité du système d’exploitation
    • [SPARK-35227][BUILD] Mise à jour du programme de résolution pour spark-packages dans SparkSubmit
  • 9 mars 2021

    • Portage de HADOOP-17215 au pilote Azure Blob File System (prise en charge du remplacement conditionnel)
  • 24 février 2021

    • Introduction d’une nouvelle configuration spark.databricks.hive.metastore.init.reloadFunctions.enabled. Cette configuration contrôle l’initialisation intégrée de Hive. Lorsqu’elle est définie sur true, Azure Databricks recharge toutes les fonctions de toutes les bases de données que les utilisateurs ont dans FunctionRegistry. Il s’agit du comportement par défaut dans le metastore Hive. Lorsqu’elle est définie sur false, Azure Databricks désactive ce processus pour l’optimiser
  • 12 janvier 2021

    • Mises à jour de sécurité du système d’exploitation
    • Correctif pour [HADOOP-17130]
  • 8 décembre 2020

    • [SPARK-27421][SQL] Correction du filtre pour la colonne int et la classe de valeur java.lang.String lors du nettoyage de la colonne de partition
    • Mises à jour de sécurité du système d’exploitation
  • 1 décembre 2020

    • [SPARK-33260][SQL] Correction des résultats incorrects de SortExec lorsque la valeur de sortOrder est Stream
    • [SPARK-32635][SQL] Correction de la propagation pliable
  • 29 octobre 2020

    • Mise à jour de Java de la version 1.8.0_252 vers la version 1.8.0_265
    • Correction du verrouillage d’ABFS et de WASB en ce qui concerne UserGroupInformation.getCurrentUser()
    • Correction d’un bogue de boucle infinie du lecteur Avro lors de la lecture des octets MAGIC
  • 13 octobre 2020

    • Mises à jour de sécurité du système d’exploitation
    • [SPARK-32999][SQL][2.4] Utilise Utils.getSimpleName pour éviter de rencontrer un nom de classe Malformé dans TreeNode
  • 24 septembre 2020

    • Mises à jour de sécurité du système d’exploitation
  • 8 septembre 2020

    • Un nouveau paramètre a été créé pour Azure Synapse Analytics, maxbinlength. Ce paramètre est utilisé pour contrôler la longueur des colonnes de type binaire et se traduit par VARBINARY(maxbinlength). Il peut être défini en utilisant .option("maxbinlength", n), où 0 < n <= 8000
  • 18 août 2020

    • [SPARK-32431][SQL] Vérifie les colonnes imbriquées en double dans la lecture des sources de données intégrées
    • Correction d’une condition de concurrence dans le connecteur AQS lors de l’utilisation de Trigger.Once
  • 11 août 2020

    • [SPARK-28676][CORE] Évite une journalisation excessive de ContextCleaner
  • 3 août 2020

    • Mises à jour de sécurité du système d’exploitation
  • 7 juillet 2020

    • Mise à jour de Java de la version 1.8.0_232 vers la version 1.8.0_252
  • 21 avril 2020

    • [SPARK-31312][SQL] Met en cache l’instance de classe pour l’instance UDF dans HiveFunctionWrapper
  • 7 avril 2020

    • Pour résoudre un problème lié aux UDF pandas qui ne fonctionnent pas avec PyArrow 0.15.0 et versions ultérieures, nous avons ajouté une variable d’environnement (ARROW_PRE_0_15_IPC_FORMAT=1) pour activer la prise en charge de ces versions de PyArrow. Voir les instructions dans [SPARK-29367]
  • 25 mars 2020

    • Le connecteur Snowflake (spark-snowflake_2.11) inclus dans Databricks Runtime est mis à jour vers la version 2.5.9. snowflake-jdbc est mis à jour vers la version 3.12.0
  • 10 mars 2020

    • La sortie des travaux, telle que la sortie de journal émise vers stdout, est soumise à une limite de taille de 20 Mo. Si la sortie totale a une taille supérieure, l’exécution est annulée et marquée comme ayant échoué. Pour éviter de rencontrer cette limite, vous pouvez empêcher le renvoi de stdout du pilote en définissant la configuration Spark spark.databricks.driver.disableScalaOutput sur true. Par défaut, la valeur de l’indicateur est false. L’indicateur contrôle la sortie des cellules pour les travaux JAR Scala et les notebooks Scala. Si l’indicateur est activé, Spark ne renvoie pas les résultats de l’exécution du travail au client. L’indicateur n’affecte pas les données qui sont écrites dans les fichiers journaux du cluster. Définir cet indicateur est recommandé uniquement pour les clusters automatisés pour les travaux JAR, car il désactive les résultats du notebook
  • 18 février 2020

    • [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 doit lever une exception
    • Le passage des informations d’identification avec ADLS Gen2 connaît une détérioration des performances en raison d’une gestion locale incorrecte des threads lorsque la pré-extraction du client ADLS est activée. Cette version désactive la pré-extraction d’ADLS Gen2 lorsque le passage des informations d’identification est activé jusqu’à ce que nous ayons un correctif approprié
  • 28 janvier 2020

    • [SPARK-30447][SQL] Problème constant de la possibilité de valeurs NULL dans la propagation
  • 14 janvier 2020

    • Mise à jour de Java de la version 1.8.0_222 vers la version 1.8.0_232
  • 19 novembre 2019

    • [SPARK-29743] [SQL] L’échantillon doit définir needCopyResult sur true si le needCopyResult de son enfant est true
    • La version de R a involontairement été mise à niveau de la version 3.6.0 vers la version 3.6.1. Nous l’avons rétablie à la version 3.6.0.
  • 5 novembre 2019

    • Mise à jour de Java de la version 1.8.0_212 vers la version 1.8.0_222
  • 23 octobre 2019

    • [SPARK-29244][CORE] Empêche la page libérée dans BytesToBytesMap de se libérer à nouveau
  • 8 octobre 2019

    • Changements côté serveur pour permettre au pilote ODBC Apache Spark de Simba de se reconnecter et de continuer après un échec de connexion pendant l’extraction des résultats (nécessite la version 2.6.10 du pilote ODBC Apache Spark de Simba)
    • Correction d’un problème concernant l’utilisation de la commande Optimize avec des clusters dont la liste de contrôle d’accès des tables est activée.
    • Correction d’un problème où les bibliothèques pyspark.ml échouaient en raison d’une erreur UDF Scala interdite sur les clusters dont la liste de contrôle d’accès des tables et le passage des informations d’identification sont activés
    • Les méthodes SerDe et SerDeUtil ont été ajoutées à une liste d’autorisation pour le passage des informations d’identification
    • Correction de l’exception NullPointerException lors de la vérification du code d’erreur dans le client WASB
  • 24 septembre 2019

    • Amélioration de la stabilité de l’enregistreur Parquet
    • Correction du problème où la requête Thrift annulée avant qu’elle ne commence à s’exécuter peut rester bloquée à l’état DÉMARRÉ
  • 10 septembre 2019

    • Ajout d’un itérateur sécurisé de threads à BytesToBytesMap
    • [SPARK-27992][SPARK-28881] Permet à Python de se joindre au thread de connexion pour propager les erreurs
    • Correction d’un bogue touchant certaines requêtes d’agrégation globale
    • Amélioration de la suppression des informations d’identification
    • [SPARK-27330][SS] Prend en charge l’abandon de tâche dans l’enregistreur foreach
    • [SPARK-28642] Masque les informations d’identification dans SHOW CREATE TABLE
    • [SPARK-28699][SQL] Désactive l’utilisation du tri de base pour ShuffleExchangeExec dans le cas d’un repartitionnement
  • 27 août 2019

    • [SPARK-20906][SQL] Autorise le schéma spécifié par l’utilisateur dans l’API to_avro avec le registre de schémas
    • [SPARK-27838][SQL] Prise en charge d’un schéma Avro ne pouvant pas accepter la valeur Null et fourni par l’utilisateur pour le schéma catalytique pouvant accepter la valeur Null sans enregistrement Null
    • Amélioration apportée au voyage dans le temps Delta Lake
    • Correction d’un problème concernant certaines expressions transform
    • Prend en charge les variables de diffusion lorsque l’isolement des processus est activé
  • 13 août 2019

    • La source de streaming Delta doit vérifier le protocole le plus récent d’une table
    • [SPARK-28260] Ajout de l’état FERMÉ à ExecutionState
    • [SPARK-28489][SS] Correction d’un bogue où KafkaOffsetRangeCalculator.getRanges peut supprimer des décalages
  • 30 juillet 2019

    • [SPARK-28015][SQL] Vérifie que stringToDate() consomme une entrée entière pour les formats aaaa et aaaa-[m]m
    • [SPARK-28308][CORE] La partie de CalendarInterval inférieure à une seconde doit être complétée avant l’analyse
    • [SPARK-27485] EnsureRequirements.reorder doit gérer les expressions dupliquées correctement
    • [SPARK-28355][CORE][PYTHON] Utilise la configuration Spark pour le seuil auquel l’UDF est compressée par diffusion

Databricks Light 2.4 Support étendu

Voir Databricks Light 2.4 (sans support) et Databricks Light 2.4 Support étendu (non pris en charge).

Databricks Runtime 7.4 (non pris en charge)

Consultez Databricks Runtime 7.4 (non pris en charge).

  • 30 avril 2021

    • Mises à jour de sécurité du système d’exploitation
    • [SPARK-35227][BUILD] Mise à jour du programme de résolution pour spark-packages dans SparkSubmit
    • [SPARK-34245][CORE] Vérifie que le maître supprime les exécuteurs qui n’ont pas réussi à envoyer l’état terminé
    • [SPARK-35045][SQL] Ajoute une option interne pour contrôler la mémoire tampon d’entrée dans univocity et une configuration pour la taille de la mémoire tampon d’entrée CSV
  • 24 mars 2021

    • [SPARK-34768][SQL] Respecte la taille par défaut de la mémoire tampon d’entrée dans Univocity
    • [SPARK-34534] Correction de l’ordre des blockIds lors de l’utilisation de FetchShuffleBlocks pour extraire des blocs
  • 9 mars 2021

    • Le pilote Azure Blob File System mis à jour pour Azure Data Lake Storage Gen2 est désormais activé par défaut. Il apporte plusieurs améliorations en matière de stabilité
    • [ES-67926][UI] Corrige le lien href de la visualisation DAG de Spark
    • [ES-65064] Restaure le schéma de sortie de SHOW DATABASES
    • [SC-70522][SQL] Utilise la clé de build correcte du nettoyage dynamique lorsque le conseil de jointure RANGE est présent
    • [SC-35081] Désactive la vérification de l’obsolescence des fichiers de tables Delta dans le cache du disque
    • [SC-70640] Corrige le NPE lorsque la réponse EventGridClient n’a pas d’entité
    • [SC-70220][SQL] Ne génère pas de conseils sur la lecture aléatoire du numéro de partition lorsque AOS est activé
  • 24 février 2021

    • Mise à niveau du connecteur Spark BigQuery vers la version 0.18, qui introduit divers correctifs de bogues et la prise en charge des itérateurs Arrow et Avro
    • Correction d’un problème d’exactitude qui faisait que Spark renvoyait des résultats incorrects lorsque la précision décimale et l’échelle du fichier Parquet sont différentes du schéma Spark
    • Correction d’un problème d’échec de lecture sur les tables Microsoft SQL Server qui contiennent des types de données spatiales, en ajoutant la prise en charge des types JDBC de géométrie et de géographie pour Spark SQL
    • Introduction d’une nouvelle configuration spark.databricks.hive.metastore.init.reloadFunctions.enabled. Cette configuration contrôle l’initialisation intégrée de Hive. Lorsqu’elle est définie sur true, Azure Databricks recharge toutes les fonctions de toutes les bases de données que les utilisateurs ont dans FunctionRegistry. Il s’agit du comportement par défaut dans le metastore Hive. Lorsqu’elle est définie sur false, Azure Databricks désactive ce processus pour l’optimiser
    • [SPARK-34212] Correction des problèmes liés à la lecture des données décimales des fichiers Parquet
    • [SPARK-33579][UI] Correction de la page blanche de l’exécuteur derrière un proxy
    • [SPARK-20044][UI] Prise en charge de l’interface utilisateur Spark derrière le proxy inverse frontal à l’aide d’un préfixe de chemin d’accès
    • [SPARK-33277][PYSPARK][SQL] Utilise ContextAwareIterator pour arrêter la consommation après la fin de la tâche
  • 4 février 2021

    • Correction d’une régression qui empêche l’exécution incrémentielle d’une requête qui définit une limite globale telle que SELECT * FROM table LIMIT nrows. Cette régression a été constatée par les utilisateurs qui exécutent des requêtes via ODBC/JDBC avec la sérialisation Arrow activée
    • Correction d’une régression qui provoquait l’échec du démarrage de DBFS FUSE lorsque les configurations des variables d’environnement du cluster contiennent une syntaxe Bash non valide.
  • 20 janvier 2021

    • Correction d’une régression dans la version de maintenance du 12 janvier 2021 qui peut provoquer une AnalysisException incorrecte et indiquer que la colonne est ambiguë dans une jointure réflexive. Cette régression se produit lorsqu’un utilisateur joint un DataFrame à son DataFrame dérivé (une soi-disant jointure réflexive) avec les conditions suivantes :
      • Ces deux DataFrames ont des colonnes communes, mais la sortie de la jointure réflexive n’a pas de colonnes communes. Par exemple : df.join(df.select($"col" as "new_col"), cond)
      • Le DataFrame dérivé exclut certaines colonnes via select, groupBy ou window
      • La condition de jointure ou la transformation suivante après le Dataframe joint fait référence aux colonnes non communes. Par exemple : df.join(df.drop("a"), df("a") === 1)
  • 12 janvier 2021

    • Mises à jour de sécurité du système d’exploitation
    • [SPARK-33593][SQL] Le lecteur de vecteurs a reçu des données incorrectes avec une valeur de partition binaire
    • [SPARK-33677][SQL] Ignore la règle LikeSimplification si le modèle contient un escapeChar
    • [SPARK-33071][SPARK-33536][SQL] Évite de modifier le dataset_id de LogicalPlan dans join() pour ne pas arrêter DetectAmbiguousSelfJoin
  • 8 décembre 2020

    • [SPARK-33587][CORE] Tuer l’exécuteur en cas d’erreurs irrécupérables imbriquées
    • [SPARK-27421][SQL] Correction du filtre pour la colonne int et la classe de valeur java.lang.String lors du nettoyage de la colonne de partition
    • [SPARK-33316][SQL] Prise en charge du schéma Avro pouvant accepter la valeur Null et fourni par l’utilisateur pour le schéma catalytique ne pouvant pas accepter la valeur Null dans l’écriture Avro
    • Mises à jour de sécurité du système d’exploitation
  • 1 décembre 2020

    • [SPARK-33404][SQL][3.0] Correction des résultats incorrects dans l’expression date_trunc
    • [SPARK-33339][PYTHON] L’application Pyspark se bloque en raison d’une erreur de non-exception
    • [SPARK-33183][SQL][HOTFIX] Correction de la règle d’optimiseur EliminateSorts et ajout d’une règle physique pour supprimer les tris redondants
    • [SPARK-33371][PYTHON][3.0] Mise à jour de setup.py et des tests pour Python 3.9
    • [SPARK-33391][SQL] element_at avec CreateArray ne respecte pas un index de base
    • [SPARK-33306][SQL] Le fuseau horaire est nécessaire pour convertir une date en chaîne
    • [SPARK-33260][SQL] Correction des résultats incorrects de SortExec lorsque la valeur de sortOrder est Stream
    • [SPARK-33272][SQL] Nettoie le mappage des attributs dans QueryPlan.transformUpWithNewOutput

Databricks Runtime 7.2 (non pris en charge)

Consultez Databricks Runtime 7.2 (non pris en charge).

  • 4 février 2021

    • Correction d’une régression qui empêche l’exécution incrémentielle d’une requête qui définit une limite globale telle que SELECT * FROM table LIMIT nrows. Cette régression a été constatée par les utilisateurs qui exécutent des requêtes via ODBC/JDBC avec la sérialisation Arrow activée
    • Correction d’une régression qui provoquait l’échec du démarrage de DBFS FUSE lorsque les configurations des variables d’environnement du cluster contiennent une syntaxe Bash non valide.
  • 20 janvier 2021

    • Correction d’une régression dans la version de maintenance du 12 janvier 2021 qui peut provoquer une AnalysisException incorrecte et indiquer que la colonne est ambiguë dans une jointure réflexive. Cette régression se produit lorsqu’un utilisateur joint un DataFrame à son DataFrame dérivé (une soi-disant jointure réflexive) avec les conditions suivantes :
      • Ces deux DataFrames ont des colonnes communes, mais la sortie de la jointure réflexive n’a pas de colonnes communes. Par exemple : df.join(df.select($"col" as "new_col"), cond)
      • Le DataFrame dérivé exclut certaines colonnes via select, groupBy ou window
      • La condition de jointure ou la transformation suivante après le Dataframe joint fait référence aux colonnes non communes. Par exemple : df.join(df.drop("a"), df("a") === 1)
  • 12 janvier 2021

    • Mises à jour de sécurité du système d’exploitation
    • [SPARK-33593][SQL] Le lecteur de vecteurs a reçu des données incorrectes avec une valeur de partition binaire
    • [SPARK-33677][SQL] Ignore la règle LikeSimplification si le modèle contient un escapeChar
    • [SPARK-33071][SPARK-33536][SQL] Évite de modifier le dataset_id de LogicalPlan dans join() pour ne pas arrêter DetectAmbiguousSelfJoin
  • 8 décembre 2020

    • [SPARK-27421][SQL] Correction du filtre pour la colonne int et la classe de valeur java.lang.String lors du nettoyage de la colonne de partition
    • [SPARK-33404][SQL] Correction des résultats incorrects dans l’expression date_trunc
    • [SPARK-33339][PYTHON] L’application Pyspark se bloque en raison d’une erreur de non-exception
    • [SPARK-33183][SQL] Correction de la règle d’optimiseur EliminateSorts et ajout d’une règle physique pour supprimer les tris redondants
    • [SPARK-33391][SQL] element_at avec CreateArray ne respecte pas un index de base
    • Mises à jour de sécurité du système d’exploitation
  • 1 décembre 2020

    • [SPARK-33306][SQL] Le fuseau horaire est nécessaire pour convertir une date en chaîne
    • [SPARK-33260][SQL] Correction des résultats incorrects de SortExec lorsque la valeur de sortOrder est Stream
  • 3 novembre 2020

    • Mise à jour de Java de la version 1.8.0_252 vers la version 1.8.0_265
    • Correction du verrouillage d’ABFS et de WASB en ce qui concerne UserGroupInformation.getCurrentUser()
    • Correction d’un bogue de boucle infinie du lecteur Avro lors de la lecture des octets MAGIC
  • 13 octobre 2020

    • Mises à jour de sécurité du système d’exploitation
    • [SPARK-32999][SQL] Utilise Utils.getSimpleName pour éviter de rencontrer un nom de classe Malformé dans TreeNode
    • Correction de l’énumération des répertoires dans le montage FUSE qui contiennent des noms de fichiers avec des caractères XML non valides
    • Le montage FUSE n’utilise plus ListMultipartUploads
  • 29 septembre 2020

    • [SPARK-28863][SQL][WARMFIX] Introduction d’AlreadyOptimized pour empêcher la réanalyse de V1FallbackWriters
    • [SPARK-32635][SQL] Correction de la propagation pliable
    • Ajout d’une nouvelle configuration spark.shuffle.io.decoder.consolidateThreshold. Définissez la valeur de configuration sur Long.MAX_VALUE pour ignorer la consolidation des FrameBufferss de réseau, ce qui empêche java.lang.IndexOutOfBoundsException dans les cas particuliers
  • 24 septembre 2020

    • [SPARK-32764][SQL] -0,0 doit être égal à 0,0
    • [SPARK-32753][SQL] Copie uniquement les balises vers les nœuds sans balises lors de la transformation des plans
    • [SPARK-32659][SQL] Correction d’un problème de données lors de l’insertion du nettoyage dynamique des partitions sur un type non atomique
    • Mises à jour de sécurité du système d’exploitation
  • 8 septembre 2020

    • Un nouveau paramètre a été créé pour Azure Synapse Analytics, maxbinlength. Ce paramètre est utilisé pour contrôler la longueur des colonnes de type binaire et se traduit par VARBINARY(maxbinlength). Il peut être défini en utilisant .option("maxbinlength", n), où 0 < n <= 8000

Databricks Runtime 7.1 (non pris en charge)

Consultez Databricks Runtime 7.1 (non pris en charge).

  • 4 février 2021

    • Correction d’une régression qui provoquait l’échec du démarrage de DBFS FUSE lorsque les configurations des variables d’environnement du cluster contiennent une syntaxe Bash non valide.
  • 20 janvier 2021

    • Correction d’une régression dans la version de maintenance du 12 janvier 2021 qui peut provoquer une AnalysisException incorrecte et indiquer que la colonne est ambiguë dans une jointure réflexive. Cette régression se produit lorsqu’un utilisateur joint un DataFrame à son DataFrame dérivé (une soi-disant jointure réflexive) avec les conditions suivantes :
      • Ces deux DataFrames ont des colonnes communes, mais la sortie de la jointure réflexive n’a pas de colonnes communes. Par exemple : df.join(df.select($"col" as "new_col"), cond)
      • Le DataFrame dérivé exclut certaines colonnes via select, groupBy ou window
      • La condition de jointure ou la transformation suivante après le Dataframe joint fait référence aux colonnes non communes. Par exemple : df.join(df.drop("a"), df("a") === 1)
  • 12 janvier 2021

    • Mises à jour de sécurité du système d’exploitation
    • [SPARK-33593][SQL] Le lecteur de vecteurs a reçu des données incorrectes avec une valeur de partition binaire
    • [SPARK-33677][SQL] Ignore la règle LikeSimplification si le modèle contient un escapeChar
    • [SPARK-33071][SPARK-33536][SQL] Évite de modifier le dataset_id de LogicalPlan dans join() pour ne pas arrêter DetectAmbiguousSelfJoin
  • 8 décembre 2020

    • [SPARK-27421][SQL] Correction du filtre pour la colonne int et la classe de valeur java.lang.String lors du nettoyage de la colonne de partition
    • Les travaux Spark lancés à l’aide de Databricks Connecter peuvent se bloquer indéfiniment avec Executor$TaskRunner.$anonfun$copySessionState dans la trace de l’exécuteur
    • Mises à jour de sécurité du système d’exploitation
  • 1 décembre 2020

    • [SPARK-33404][SQL][3.0] Correction des résultats incorrects dans l’expression date_trunc
    • [SPARK-33339][PYTHON] L’application Pyspark se bloque en raison d’une erreur de non-exception
    • [SPARK-33183][SQL][HOTFIX] Correction de la règle d’optimiseur EliminateSorts et ajout d’une règle physique pour supprimer les tris redondants
    • [SPARK-33371][PYTHON][3.0] Mise à jour de setup.py et des tests pour Python 3.9
    • [SPARK-33391][SQL] element_at avec CreateArray ne respecte pas un index de base
    • [SPARK-33306][SQL] Le fuseau horaire est nécessaire pour convertir une date en chaîne
  • 3 novembre 2020

    • Mise à jour de Java de la version 1.8.0_252 vers la version 1.8.0_265
    • Correction du verrouillage d’ABFS et de WASB en ce qui concerne UserGroupInformation.getCurrentUser()
    • Correction d’un bogue de boucle infinie du lecteur Avro lors de la lecture des octets MAGIC
  • 13 octobre 2020

    • Mises à jour de sécurité du système d’exploitation
    • [SPARK-32999][SQL] Utilise Utils.getSimpleName pour éviter de rencontrer un nom de classe Malformé dans TreeNode
    • Correction de l’énumération des répertoires dans le montage FUSE qui contiennent des noms de fichiers avec des caractères XML non valides
    • Le montage FUSE n’utilise plus ListMultipartUploads
  • 29 septembre 2020

    • [SPARK-28863][SQL][WARMFIX] Introduction d’AlreadyOptimized pour empêcher la réanalyse de V1FallbackWriters
    • [SPARK-32635][SQL] Correction de la propagation pliable
    • Ajout d’une nouvelle configuration spark.shuffle.io.decoder.consolidateThreshold. Définissez la valeur de configuration sur Long.MAX_VALUE pour ignorer la consolidation des FrameBufferss de réseau, ce qui empêche java.lang.IndexOutOfBoundsException dans les cas particuliers
  • 24 septembre 2020

    • [SPARK-32764][SQL] -0,0 doit être égal à 0,0
    • [SPARK-32753][SQL] Copie uniquement les balises vers les nœuds sans balises lors de la transformation des plans
    • [SPARK-32659][SQL] Correction d’un problème de données lors de l’insertion du nettoyage dynamique des partitions sur un type non atomique
    • Mises à jour de sécurité du système d’exploitation
  • 8 septembre 2020

    • Un nouveau paramètre a été créé pour Azure Synapse Analytics, maxbinlength. Ce paramètre est utilisé pour contrôler la longueur des colonnes de type binaire et se traduit par VARBINARY(maxbinlength). Il peut être défini en utilisant .option("maxbinlength", n), où 0 < n <= 8000
  • 25 août 2020

    • [SPARK-32159][SQL] Correction de l’intégration entre Aggregator[Array[_], _, _] et UnresolvedMapObjects
    • [SPARK-32559][SQL] Correction de la logique de découpage dans UTF8String.toInt/toLong, qui ne gérait pas correctement les caractères autres qu’ASCII
    • [SPARK-32543][R] Supprime l’utilisation de arrow::as_tibble dans SparkR
    • [SPARK-32091][CORE] Ignore l’erreur de dépassement de délai lors de la suppression de blocs sur l’exécuteur perdu
    • Correction d’un problème concernant le connecteur Azure Synapse avec les informations d’identification MSI
    • Correction de la résolution des attributs ambigus dans l’auto-fusion
  • 18 août 2020

    • [SPARK-32594][SQL] Correction de la sérialisation des dates insérées dans les tables Hive
    • [SPARK-32237][SQL] Résout le conseil dans une expression de table commune
    • [SPARK-32431][SQL] Vérifie les colonnes imbriquées en double dans la lecture des sources de données intégrées
    • [SPARK-32467][UI] Évite d’encoder deux fois l’URL lors d’une redirection HTTPS
    • Correction d’une condition de concurrence dans le connecteur AQS lors de l’utilisation de Trigger.Once
  • 11 août 2020

    • [SPARK-32280][SPARK-32372][SQL] ResolveReferences.dedupRight doit uniquement réécrire les attributs des nœuds ancêtres du plan en conflit
    • [SPARK-32234][SQL] Les commandes SQL Spark échouent lors de la sélection des tables ORC
  • 3 août 2020

    • Vous pouvez désormais utiliser la fonction de transformation LDA sur un cluster avec accès direct.

Databricks Runtime 7.0 (non pris en charge)

Consultez Databricks Runtime 7.0 (non pris en charge).

  • 4 février 2021

    • Correction d’une régression qui provoquait l’échec du démarrage de DBFS FUSE lorsque les configurations des variables d’environnement du cluster contiennent une syntaxe Bash non valide.
  • 20 janvier 2021

    • Correction d’une régression dans la version de maintenance du 12 janvier 2021 qui peut provoquer une AnalysisException incorrecte et indiquer que la colonne est ambiguë dans une jointure réflexive. Cette régression se produit lorsqu’un utilisateur joint un DataFrame à son DataFrame dérivé (une soi-disant jointure réflexive) avec les conditions suivantes :
      • Ces deux DataFrames ont des colonnes communes, mais la sortie de la jointure réflexive n’a pas de colonnes communes. Par exemple : df.join(df.select($"col" as "new_col"), cond)
      • Le DataFrame dérivé exclut certaines colonnes via select, groupBy ou window
      • La condition de jointure ou la transformation suivante après le Dataframe joint fait référence aux colonnes non communes. Par exemple : df.join(df.drop("a"), df("a") === 1)
  • 12 janvier 2021

    • Mises à jour de sécurité du système d’exploitation
    • [SPARK-33593][SQL] Le lecteur de vecteurs a reçu des données incorrectes avec une valeur de partition binaire
    • [SPARK-33677][SQL] Ignore la règle LikeSimplification si le modèle contient un escapeChar
    • [SPARK-33071][SPARK-33536][SQL] Évite de modifier le dataset_id de LogicalPlan dans join() pour ne pas arrêter DetectAmbiguousSelfJoin
  • 8 décembre 2020

    • [SPARK-27421][SQL] Correction du filtre pour la colonne int et la classe de valeur java.lang.String lors du nettoyage de la colonne de partition
    • [SPARK-33404][SQL] Correction des résultats incorrects dans l’expression date_trunc
    • [SPARK-33339][PYTHON] L’application Pyspark se bloque en raison d’une erreur de non-exception
    • [SPARK-33183][SQL] Correction de la règle d’optimiseur EliminateSorts et ajout d’une règle physique pour supprimer les tris redondants
    • [SPARK-33391][SQL] element_at avec CreateArray ne respecte pas un index de base
    • Mises à jour de sécurité du système d’exploitation
  • 1 décembre 2020

    • [SPARK-33306][SQL] Le fuseau horaire est nécessaire pour convertir une date en chaîne
  • 3 novembre 2020

    • Mise à jour de Java de la version 1.8.0_252 vers la version 1.8.0_265
    • Correction du verrouillage d’ABFS et de WASB en ce qui concerne UserGroupInformation.getCurrentUser()
    • Correction d’un bogue de boucle infinie du lecteur Avro lors de la lecture des octets MAGIC
  • 13 octobre 2020

    • Mises à jour de sécurité du système d’exploitation
    • [SPARK-32999][SQL] Utilise Utils.getSimpleName pour éviter de rencontrer un nom de classe Malformé dans TreeNode
    • Correction de l’énumération des répertoires dans le montage FUSE qui contiennent des noms de fichiers avec des caractères XML non valides
    • Le montage FUSE n’utilise plus ListMultipartUploads
  • 29 septembre 2020

    • [SPARK-28863][SQL][WARMFIX] Introduction d’AlreadyOptimized pour empêcher la réanalyse de V1FallbackWriters
    • [SPARK-32635][SQL] Correction de la propagation pliable
    • Ajout d’une nouvelle configuration spark.shuffle.io.decoder.consolidateThreshold. Définissez la valeur de configuration sur Long.MAX_VALUE pour ignorer la consolidation des FrameBufferss de réseau, ce qui empêche java.lang.IndexOutOfBoundsException dans les cas particuliers
  • 24 septembre 2020

    • [SPARK-32764][SQL] -0,0 doit être égal à 0,0
    • [SPARK-32753][SQL] Copie uniquement les balises vers les nœuds sans balises lors de la transformation des plans
    • [SPARK-32659][SQL] Correction d’un problème de données lors de l’insertion du nettoyage dynamique des partitions sur un type non atomique
    • Mises à jour de sécurité du système d’exploitation
  • 8 septembre 2020

    • Un nouveau paramètre a été créé pour Azure Synapse Analytics, maxbinlength. Ce paramètre est utilisé pour contrôler la longueur des colonnes de type binaire et se traduit par VARBINARY(maxbinlength). Il peut être défini en utilisant .option("maxbinlength", n), où 0 < n <= 8000
  • 25 août 2020

    • [SPARK-32159][SQL] Correction de l’intégration entre Aggregator[Array[_], _, _] et UnresolvedMapObjects
    • [SPARK-32559][SQL] Correction de la logique de découpage dans UTF8String.toInt/toLong, qui ne gérait pas correctement les caractères autres qu’ASCII
    • [SPARK-32543][R] Supprime l’utilisation de arrow::as_tibble dans SparkR
    • [SPARK-32091][CORE] Ignore l’erreur de dépassement de délai lors de la suppression de blocs sur l’exécuteur perdu
    • Correction d’un problème concernant le connecteur Azure Synapse avec les informations d’identification MSI
    • Correction de la résolution des attributs ambigus dans l’auto-fusion
  • 18 août 2020

    • [SPARK-32594][SQL] Correction de la sérialisation des dates insérées dans les tables Hive
    • [SPARK-32237][SQL] Résout le conseil dans une expression de table commune
    • [SPARK-32431][SQL] Vérifie les colonnes imbriquées en double dans la lecture des sources de données intégrées
    • [SPARK-32467][UI] Évite d’encoder deux fois l’URL lors d’une redirection HTTPS
    • Correction d’une condition de concurrence dans le connecteur AQS lors de l’utilisation de Trigger.Once
  • 11 août 2020

    • [SPARK-32280][SPARK-32372][SQL] ResolveReferences.dedupRight doit uniquement réécrire les attributs des nœuds ancêtres du plan en conflit
    • [SPARK-32234][SQL] Les commandes SQL Spark échouent lors de la sélection des tables ORC
    • Vous pouvez désormais utiliser la fonction de transformation LDA sur un cluster avec accès direct.

Databricks Runtime 6.6 (non pris en charge)

Consultez Databricks Runtime 6.6 (non pris en charge).

  • 1 décembre 2020

    • [SPARK-33260][SQL] Correction des résultats incorrects de SortExec lorsque la valeur de sortOrder est Stream
    • [SPARK-32635][SQL] Correction de la propagation pliable
  • 3 novembre 2020

    • Mise à jour de Java de la version 1.8.0_252 vers la version 1.8.0_265
    • Correction du verrouillage d’ABFS et de WASB en ce qui concerne UserGroupInformation.getCurrentUser()
    • Correction d’un bogue de boucle infinie du lecteur Avro lors de la lecture des octets MAGIC
  • 13 octobre 2020

    • Mises à jour de sécurité du système d’exploitation
    • [SPARK-32999][SQL][2.4] Utilise Utils.getSimpleName pour éviter de rencontrer un nom de classe Malformé dans TreeNode
    • Correction de l’énumération des répertoires dans le montage FUSE qui contiennent des noms de fichiers avec des caractères XML non valides
    • Le montage FUSE n’utilise plus ListMultipartUploads
  • 24 septembre 2020

    • Mises à jour de sécurité du système d’exploitation
  • 8 septembre 2020

    • Un nouveau paramètre a été créé pour Azure Synapse Analytics, maxbinlength. Ce paramètre est utilisé pour contrôler la longueur des colonnes de type binaire et se traduit par VARBINARY(maxbinlength). Il peut être défini en utilisant .option("maxbinlength", n), où 0 < n <= 8000
    • Mise à jour du Kit de développement logiciel (SDK) Stockage Azure vers la version 8.6.4 et activation de la métrique Keep Alive TCP sur les connexions effectuées par le pilote WASB
  • 25 août 2020

    • Correction de la résolution des attributs ambigus dans l’auto-fusion
  • 18 août 2020

    • [SPARK-32431][SQL] Vérifie les colonnes imbriquées en double dans la lecture des sources de données intégrées
    • Correction d’une condition de concurrence dans le connecteur AQS lors de l’utilisation de Trigger.Once
  • 11 août 2020

    • [SPARK-28676][CORE] Évite une journalisation excessive de ContextCleaner
    • [SPARK-31967][UI] Rétablit la version 4.21.0 de vis.js pour corriger la régression du temps de chargement de l’interface utilisateur Travaux
  • 3 août 2020

    • Vous pouvez désormais utiliser la fonction de transformation LDA sur un cluster avec accès direct.
    • Mises à jour de sécurité du système d’exploitation

Databricks Runtime 6.5 (non pris en charge)

Consultez Databricks Runtime 6.5 (non pris en charge).

  • 24 septembre 2020
    • Correction d’une limitation précédente où la connexion directe sur un cluster standard restreignait toujours l’utilisation de l’implémentation du système de fichiers. Désormais, les utilisateurs peuvent accéder aux systèmes de fichiers locaux sans aucune restriction.
    • Mises à jour de sécurité du système d’exploitation
  • 8 septembre 2020
    • Un nouveau paramètre a été créé pour Azure Synapse Analytics, maxbinlength. Ce paramètre est utilisé pour contrôler la longueur des colonnes de type binaire et se traduit par VARBINARY(maxbinlength). Il peut être défini en utilisant .option("maxbinlength", n), où 0 < n <= 8000
    • Mise à jour du Kit de développement logiciel (SDK) Stockage Azure vers la version 8.6.4 et activation de la métrique Keep Alive TCP sur les connexions effectuées par le pilote WASB
  • 25 août 2020
    • Correction de la résolution des attributs ambigus dans l’auto-fusion
  • 18 août 2020
    • [SPARK-32431][SQL] Vérifie les colonnes imbriquées en double dans la lecture des sources de données intégrées
    • Correction d’une condition de concurrence dans le connecteur AQS lors de l’utilisation de Trigger.Once
  • 11 août 2020
    • [SPARK-28676][CORE] Évite une journalisation excessive de ContextCleaner
  • 3 août 2020
    • Vous pouvez désormais utiliser la fonction de transformation LDA sur un cluster avec accès direct.
    • Mises à jour de sécurité du système d’exploitation
  • 7 juillet 2020
    • Mise à jour de Java de la version 1.8.0_242 vers la version 1.8.0_252
  • 21 avril 2020
    • [SPARK-31312][SQL] Met en cache l’instance de classe pour l’instance UDF dans HiveFunctionWrapper

Databricks Runtime 6.3 (non pris en charge)

Consultez Databricks Runtime 6.3 (non pris en charge).

  • 7 juillet 2020
    • Mise à jour de Java de la version 1.8.0_232 vers la version 1.8.0_252
  • 21 avril 2020
    • [SPARK-31312][SQL] Met en cache l’instance de classe pour l’instance UDF dans HiveFunctionWrapper
  • 7 avril 2020
    • Pour résoudre un problème lié aux UDF pandas qui ne fonctionnent pas avec PyArrow 0.15.0 et versions ultérieures, nous avons ajouté une variable d’environnement (ARROW_PRE_0_15_IPC_FORMAT=1) pour activer la prise en charge de ces versions de PyArrow. Voir les instructions dans [SPARK-29367]
  • 10 mars 2020
    • Le connecteur Snowflake (spark-snowflake_2.11) inclus dans Databricks Runtime est mis à jour vers la version 2.5.9. snowflake-jdbc est mis à jour vers la version 3.12.0
  • 18 février 2020
    • Le passage des informations d’identification avec ADLS Gen2 connaît une détérioration des performances en raison d’une gestion locale incorrecte des threads lorsque la pré-extraction du client ADLS est activée. Cette version désactive la pré-extraction d’ADLS Gen2 lorsque le passage des informations d’identification est activé jusqu’à ce que nous ayons un correctif approprié
  • 11 février 2020
    • [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 doit lever une exception
    • [SPARK-30447][SQL] Problème constant de possibilité de valeur NULL dans la propagation
    • [SPARK-28152][SQL] Ajouter une configuration héritée pour l’ancien mappage numérique MsSqlServerDialect
    • Ajout de la fonction overwrite à une liste d’autorisation afin que l’élément « MLModels étend MLWriter » puisse appeler la fonction

Databricks Runtime 6.2 (non pris en charge)

Consultez Databricks Runtime 6.2 (non pris en charge).

  • 21 avril 2020
    • [SPARK-31312][SQL] Met en cache l’instance de classe pour l’instance UDF dans HiveFunctionWrapper
  • 7 avril 2020
    • Pour résoudre un problème lié aux UDF pandas qui ne fonctionnent pas avec PyArrow 0.15.0 et versions ultérieures, nous avons ajouté une variable d’environnement (ARROW_PRE_0_15_IPC_FORMAT=1) pour activer la prise en charge de ces versions de PyArrow. Voir les instructions dans [SPARK-29367]
  • 25 mars 2020
    • La sortie des travaux, telle que la sortie de journal émise vers stdout, est soumise à une limite de taille de 20 Mo. Si la sortie totale a une taille supérieure, l’exécution est annulée et marquée comme ayant échoué. Pour éviter de rencontrer cette limite, vous pouvez empêcher le renvoi de stdout du pilote en définissant la configuration Spark spark.databricks.driver.disableScalaOutput sur true. Par défaut, la valeur de l’indicateur est false. L’indicateur contrôle la sortie des cellules pour les travaux JAR Scala et les notebooks Scala. Si l’indicateur est activé, Spark ne renvoie pas les résultats de l’exécution du travail au client. L’indicateur n’affecte pas les données qui sont écrites dans les fichiers journaux du cluster. Définir cet indicateur est recommandé uniquement pour les clusters automatisés pour les travaux JAR, car il désactive les résultats du notebook
  • 10 mars 2020
    • Le connecteur Snowflake (spark-snowflake_2.11) inclus dans Databricks Runtime est mis à jour vers la version 2.5.9. snowflake-jdbc est mis à jour vers la version 3.12.0
  • 18 février 2020
    • [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 doit lever une exception
    • Le passage des informations d’identification avec ADLS Gen2 connaît une détérioration des performances en raison d’une gestion locale incorrecte des threads lorsque la pré-extraction du client ADLS est activée. Cette version désactive la pré-extraction d’ADLS Gen2 lorsque le passage des informations d’identification est activé jusqu’à ce que nous ayons un correctif approprié
  • 28 janvier 2020
    • Ajout de la fonction overwrite de ML Model Writers pour les clusters activés pour le passage des informations d’identification, afin que la sauvegarde des modèles puisse utiliser le mode de remplacement sur les clusters avec passage des informations d’identification
    • [SPARK-30447][SQL] Problème constant de la possibilité de valeurs NULL dans la propagation
    • [SPARK-28152][SQL] Ajout d’une configuration héritée pour l’ancien mappage numérique MsSqlServerDialect
  • 14 janvier 2020
    • Mise à jour de Java de la version 1.8.0_222 vers la version 1.8.0_232
  • 10 décembre 2019
    • [SPARK-29904][SQL] Analyse des timestamps avec une précision de l’ordre de la microseconde par des sources de données JSON/CSV

Databricks Runtime 6.1 (non pris en charge)

Consultez Databricks Runtime 6.1 (non pris en charge).

  • 7 avril 2020
    • Pour résoudre un problème lié aux UDF pandas qui ne fonctionnent pas avec PyArrow 0.15.0 et versions ultérieures, nous avons ajouté une variable d’environnement (ARROW_PRE_0_15_IPC_FORMAT=1) pour activer la prise en charge de ces versions de PyArrow. Voir les instructions dans [SPARK-29367]
  • 25 mars 2020
    • La sortie des travaux, telle que la sortie de journal émise vers stdout, est soumise à une limite de taille de 20 Mo. Si la sortie totale a une taille supérieure, l’exécution est annulée et marquée comme ayant échoué. Pour éviter de rencontrer cette limite, vous pouvez empêcher le renvoi de stdout du pilote en définissant la configuration Spark spark.databricks.driver.disableScalaOutput sur true. Par défaut, la valeur de l’indicateur est false. L’indicateur contrôle la sortie des cellules pour les travaux JAR Scala et les notebooks Scala. Si l’indicateur est activé, Spark ne renvoie pas les résultats de l’exécution du travail au client. L’indicateur n’affecte pas les données qui sont écrites dans les fichiers journaux du cluster. Définir cet indicateur est recommandé uniquement pour les clusters automatisés pour les travaux JAR, car il désactive les résultats du notebook
  • 10 mars 2020
    • Le connecteur Snowflake (spark-snowflake_2.11) inclus dans Databricks Runtime est mis à jour vers la version 2.5.9. snowflake-jdbc est mis à jour vers la version 3.12.0
  • 18 février 2020
    • [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 doit lever une exception
    • Le passage des informations d’identification avec ADLS Gen2 connaît une détérioration des performances en raison d’une gestion locale incorrecte des threads lorsque la pré-extraction du client ADLS est activée. Cette version désactive la pré-extraction d’ADLS Gen2 lorsque le passage des informations d’identification est activé jusqu’à ce que nous ayons un correctif approprié
  • 28 janvier 2020
    • [SPARK-30447][SQL] Problème constant de la possibilité de valeurs NULL dans la propagation
    • [SPARK-28152][SQL] Ajout d’une configuration héritée pour l’ancien mappage numérique MsSqlServerDialect
  • 14 janvier 2020
    • Mise à jour de Java de la version 1.8.0_222 vers la version 1.8.0_232
  • 7 novembre 2019
  • 5 novembre 2019
    • Correction d’un bogue dans DBFS FUSE pour gérer les points de montage ayant // dans son chemin
    • [SPARK-29081] Remplace les appels à SerializationUtils.clone sur les propriétés par une implémentation plus rapide
    • [SPARK-29244][CORE] Empêche la page libérée dans BytesToBytesMap de se libérer à nouveau
    • (6.1 ML) La bibliothèque mkl version 2019.4 a été installée par inadvertance. Nous l’avons rétablie à la version 2019.3 de mkl pour qu’elle corresponde à Anaconda Distribution 2019.03

Databricks Runtime 6.0 (non pris en charge)

Consultez Databricks Runtime 6.0 (non pris en charge).

  • 25 mars 2020
    • La sortie des travaux, telle que la sortie de journal émise vers stdout, est soumise à une limite de taille de 20 Mo. Si la sortie totale a une taille supérieure, l’exécution est annulée et marquée comme ayant échoué. Pour éviter de rencontrer cette limite, vous pouvez empêcher le renvoi de stdout du pilote en définissant la configuration Spark spark.databricks.driver.disableScalaOutput sur true. Par défaut, la valeur de l’indicateur est false. L’indicateur contrôle la sortie des cellules pour les travaux JAR Scala et les notebooks Scala. Si l’indicateur est activé, Spark ne renvoie pas les résultats de l’exécution du travail au client. L’indicateur n’affecte pas les données qui sont écrites dans les fichiers journaux du cluster. Définir cet indicateur est recommandé uniquement pour les clusters automatisés pour les travaux JAR, car il désactive les résultats du notebook
  • 18 février 2020
    • Le passage des informations d’identification avec ADLS Gen2 connaît une détérioration des performances en raison d’une gestion locale incorrecte des threads lorsque la pré-extraction du client ADLS est activée. Cette version désactive la pré-extraction d’ADLS Gen2 lorsque le passage des informations d’identification est activé jusqu’à ce que nous ayons un correctif approprié
  • 11 février 2020
    • [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 doit lever une exception
  • 28 janvier 2020
    • [SPARK-30447][SQL] Problème constant de la possibilité de valeurs NULL dans la propagation
    • [SPARK-28152][SQL] Ajout d’une configuration héritée pour l’ancien mappage numérique MsSqlServerDialect
  • 14 janvier 2020
    • Mise à jour de Java de la version 1.8.0_222 vers la version 1.8.0_232
  • 19 novembre 2019
    • [SPARK-29743] [SQL] L’échantillon doit définir needCopyResult sur true si le needCopyResult de son enfant est true
  • 5 novembre 2019
    • dbutils.tensorboard.start() prend désormais en charge TensorBoard 2.0 (s’il est installé manuellement).
    • Correction d’un bogue dans DBFS FUSE pour gérer les points de montage ayant // dans son chemin
    • [SPARK-29081] Remplace les appels à SerializationUtils.clone sur les propriétés par une implémentation plus rapide
  • 23 octobre 2019
    • [SPARK-29244][CORE] Empêche la page libérée dans BytesToBytesMap de se libérer à nouveau
  • 8 octobre 2019
    • Changements côté serveur pour permettre au pilote ODBC Apache Spark de Simba de se reconnecter et de continuer après un échec de connexion pendant l’extraction des résultats (nécessite la version 2.6.10 du pilote ODBC Apache Spark de Simba)
    • Correction d’un problème concernant l’utilisation de la commande Optimize avec des clusters dont la liste de contrôle d’accès des tables est activée.
    • Correction d’un problème où les bibliothèques pyspark.ml échouaient en raison d’une erreur UDF Scala interdite sur les clusters dont la liste de contrôle d’accès des tables et le passage des informations d’identification sont activés
    • Les méthodes SerDe/SerDeUtil ont été ajoutées à une liste d’autorisation pour le passage des informations d’identification
    • Correction de l’exception NullPointerException lors de la vérification du code d’erreur dans le client WASB
    • Correction du problème où les informations d’identification de l’utilisateur n’étaient pas transférées aux travaux créés par dbutils.notebook.run()

Databricks Runtime 5.4 ML (non pris en charge)

Voir Databricks Runtime 5.4 pour ML (non pris en charge).

  • 18 juin 2019
    • Amélioration de la gestion des exécutions actives de MLflow dans l’intégration de Hyperopt
    • Amélioration des messages dans Hyperopt
    • Mise à jour du package Marchkdown de la version 3.1 vers la version 3.1.1

Databricks Runtime 5.4 (non pris en charge)

Consultez Databricks Runtime 5.4 (non pris en charge).

  • 19 novembre 2019
    • [SPARK-29743] [SQL] L’échantillon doit définir needCopyResult sur true si le needCopyResult de son enfant est true
  • 8 octobre 2019
    • Changements côté serveur pour permettre au pilote ODBC Apache Spark de Simba de se reconnecter et de continuer après un échec de connexion pendant l’extraction des résultats (nécessite la mise à jour du pilote ODBC Apache Spark de Simba vers la version 2.6.10)
    • Correction de l’exception NullPointerException lors de la vérification du code d’erreur dans le client WASB
  • 10 septembre 2019
    • Ajout d’un itérateur sécurisé de threads à BytesToBytesMap
    • Correction d’un bogue touchant certaines requêtes d’agrégation globale
    • [SPARK-27330][SS] Prend en charge l’abandon de tâche dans l’enregistreur foreach
    • [SPARK-28642] Masque les informations d’identification dans SHOW CREATE TABLE
    • [SPARK-28699][SQL] Désactive l’utilisation du tri de base pour ShuffleExchangeExec dans le cas d’un repartitionnement
    • [SPARK-28699][CORE] Correction d’un cas particulier pour l’abandon d’une étape indéterminée
  • 27 août 2019
    • Correction d’un problème concernant certaines expressions transform
  • 13 août 2019
    • La source de streaming Delta doit vérifier le protocole le plus récent d’une table
    • [SPARK-28489][SS] Correction d’un bogue où KafkaOffsetRangeCalculator.getRanges peut supprimer des décalages
  • 30 juillet 2019
    • [SPARK-28015][SQL] Vérifie que stringToDate() consomme une entrée entière pour les formats aaaa et aaaa-[m]m
    • [SPARK-28308][CORE] La partie de CalendarInterval inférieure à une seconde doit être complétée avant l’analyse
    • [SPARK-27485] EnsureRequirements.reorder doit gérer les expressions dupliquées correctement
  • 2 juillet 2019
    • Mise à jour de snappy-java de la version 1.1.7.1 vers la version 1.1.7.3
  • 18 juin 2019
    • Amélioration de la gestion des exécutions actives de MLflow dans l’intégration de MLlib
    • Amélioration du message Databricks Advisor lié à l’utilisation de la mise en cache du disque
    • Correction d’un bogue touchant l’utilisation des fonctions d’ordre supérieur
    • Correction d’un bogue touchant les requêtes de métadonnées Delta

Databricks Runtime 5.3 (non pris en charge)

Consultez Databricks Runtime 5.3 (non pris en charge).

  • 7 novembre 2019
    • [SPARK-29743][SQL] L’échantillon doit définir needCopyResult sur true si le needCopyResult de son enfant est true
  • 8 octobre 2019
    • Changements côté serveur pour permettre au pilote ODBC Apache Spark de Simba de se reconnecter et de continuer après un échec de connexion pendant l’extraction des résultats (nécessite la mise à jour du pilote ODBC Apache Spark de Simba vers la version 2.6.10)
    • Correction de l’exception NullPointerException lors de la vérification du code d’erreur dans le client WASB
  • 10 septembre 2019
    • Ajout d’un itérateur sécurisé de threads à BytesToBytesMap
    • Correction d’un bogue touchant certaines requêtes d’agrégation globale
    • [SPARK-27330][SS] Prend en charge l’abandon de tâche dans l’enregistreur foreach
    • [SPARK-28642] Masque les informations d’identification dans SHOW CREATE TABLE
    • [SPARK-28699][SQL] Désactive l’utilisation du tri de base pour ShuffleExchangeExec dans le cas d’un repartitionnement
    • [SPARK-28699][CORE] Correction d’un cas particulier pour l’abandon d’une étape indéterminée
  • 27 août 2019
    • Correction d’un problème concernant certaines expressions transform
  • 13 août 2019
    • La source de streaming Delta doit vérifier le protocole le plus récent d’une table
    • [SPARK-28489][SS] Correction d’un bogue où KafkaOffsetRangeCalculator.getRanges peut supprimer des décalages
  • 30 juillet 2019
    • [SPARK-28015][SQL] Vérifie que stringToDate() consomme une entrée entière pour les formats aaaa et aaaa-[m]m
    • [SPARK-28308][CORE] La partie de CalendarInterval inférieure à une seconde doit être complétée avant l’analyse
    • [SPARK-27485] EnsureRequirements.reorder doit gérer les expressions dupliquées correctement
  • 18 juin 2019
    • Amélioration du message Databricks Advisor lié à l’utilisation de la mise en cache du disque
    • Correction d’un bogue touchant l’utilisation des fonctions d’ordre supérieur
    • Correction d’un bogue touchant les requêtes de métadonnées Delta
  • 28 mai 2019
    • Amélioration de la stabilité de Delta
    • Tolère les IOExceptions lors de la lecture du fichier Delta LAST_CHECKPOINT
      • Ajout de la récupération en cas d’échec de l’installation de la bibliothèque
  • 7 mai 2019
    • Portage de HADOOP-15778 (ABFS : Correction de la limitation de la lecture côté client) au connecteur Azure Data Lake Storage Gen2
    • Portage de HADOOP-16040 (ABFS : Correction d’un bogue dans la configuration de tolerateOobAppends) au connecteur Azure Data Lake Storage Gen2
    • Correction d’un bogue concernant les listes de contrôle d’accès des tables
    • Correction d’une condition de concurrence lors du chargement d’un fichier de somme de contrôle du journal Delta
    • Correction de la logique de détection de conflit Delta pour ne pas identifier l’opération « insérer + remplacer » comme une pure opération « ajouter »
    • S’assure que la mise en cache n’est pas désactivée lorsque les listes de contrôle d’accès des tables sont activées
    • [SPARK-27494][SS] Les clés/valeurs NULL ne fonctionnent pas dans une source Kafka v2
    • [SPARK-27446][R] Utilise la configuration Spark existante si elle est disponible
    • [SPARK-27454][SPARK-27454][ML][SQL] Échec de la source de données d’images Spark lors de la rencontre de certaines images illégales
    • [SPARK-27160][SQL] Correction de DecimalType lors de la création de filtres orc
    • [SPARK-27338][CORE] Correction d’un blocage entre UnsafeExternalSorter et TaskMemoryManager

Databricks Runtime 5.2 (non pris en charge)

Consultez Databricks Runtime 5.2 (non pris en charge).

  • 10 septembre 2019
    • Ajout d’un itérateur sécurisé de threads à BytesToBytesMap
    • Correction d’un bogue touchant certaines requêtes d’agrégation globale
    • [SPARK-27330][SS] Prend en charge l’abandon de tâche dans l’enregistreur foreach
    • [SPARK-28642] Masque les informations d’identification dans SHOW CREATE TABLE
    • [SPARK-28699][SQL] Désactive l’utilisation du tri de base pour ShuffleExchangeExec dans le cas d’un repartitionnement
    • [SPARK-28699][CORE] Correction d’un cas particulier pour l’abandon d’une étape indéterminée
  • 27 août 2019
    • Correction d’un problème concernant certaines expressions transform
  • 13 août 2019
    • La source de streaming Delta doit vérifier le protocole le plus récent d’une table
    • [SPARK-28489][SS] Correction d’un bogue où KafkaOffsetRangeCalculator.getRanges peut supprimer des décalages
  • 30 juillet 2019
    • [SPARK-28015][SQL] Vérifie que stringToDate() consomme une entrée entière pour les formats aaaa et aaaa-[m]m
    • [SPARK-28308][CORE] La partie de CalendarInterval inférieure à une seconde doit être complétée avant l’analyse
    • [SPARK-27485] EnsureRequirements.reorder doit gérer les expressions dupliquées correctement
  • 2 juillet 2019
    • Tolère les IOExceptions lors de la lecture du fichier Delta LAST_CHECKPOINT
  • 18 juin 2019
    • Amélioration du message Databricks Advisor lié à l’utilisation de la mise en cache du disque
    • Correction d’un bogue touchant l’utilisation des fonctions d’ordre supérieur
    • Correction d’un bogue touchant les requêtes de métadonnées Delta
  • 28 mai 2019
    • Ajout de la récupération en cas d’échec de l’installation de la bibliothèque
  • 7 mai 2019
    • Portage de HADOOP-15778 (ABFS : Correction de la limitation de la lecture côté client) au connecteur Azure Data Lake Storage Gen2
    • Portage de HADOOP-16040 (ABFS : Correction d’un bogue dans la configuration de tolerateOobAppends) au connecteur Azure Data Lake Storage Gen2
    • Correction d’une condition de concurrence lors du chargement d’un fichier de somme de contrôle du journal Delta
    • Correction de la logique de détection de conflit Delta pour ne pas identifier l’opération « insérer + remplacer » comme une pure opération « ajouter »
    • S’assure que la mise en cache n’est pas désactivée lorsque les listes de contrôle d’accès des tables sont activées
    • [SPARK-27494][SS] Les clés/valeurs NULL ne fonctionnent pas dans une source Kafka v2
    • [SPARK-27454][SPARK-27454][ML][SQL] Échec de la source de données d’images Spark lors de la rencontre de certaines images illégales
    • [SPARK-27160][SQL] Correction de DecimalType lors de la création de filtres orc
    • [SPARK-27338][CORE] Correction d’un blocage entre UnsafeExternalSorter et TaskMemoryManager
  • 26 mars 2019
    • Évite d’incorporer des décalages dépendant de la plateforme littéralement dans le code généré par l’ensemble de l’étape
    • [SPARK-26665][CORE] Correction d’un bogue qui fait que BlockTransferService.fetchBlockSync peut se bloquer indéfiniment
    • [SPARK-27134][SQL] La fonction array_distinct ne fonctionne pas correctement avec des colonnes contenant un tableau de tableau
    • [SPARK-24669][SQL] Invalide les tables en cas de DROP DATABASE CASCADE
    • [SPARK-26572][SQL] Correction de l’évaluation des résultats de l’agrégat de codegen
    • Correction d’un bogue touchant certaines UDF Python
  • 26 février 2019
    • [SPARK-26864][SQL] La requête peut renvoyer un résultat incorrect lorsque l’UDF Python est utilisée comme condition de semi-jointure gauche
    • [SPARK-26887][PYTHON] Crée datetime.date directement au lieu de créer datetime64 comme donnée intermédiaire
    • Correction d’un bogue touchant le serveur JDBC/ODBC
    • Correction d’un bogue touchant PySpark
    • Exclut les fichiers cachés lors de la génération de HadoopRDD
    • Correction d’un bogue dans Delta qui causait des problèmes de sérialisation
  • 12 février 2019
    • Correction d’un problème concernant l’utilisation de Delta avec des points de montage Azure ADLS Gen2
    • Correction d’un problème pouvant entraîner l’arrêt du protocole réseau de bas niveau de Spark lors de l’envoi de messages d’erreur RPC volumineux avec le chiffrement activé (lorsque spark.network.crypto.enabled est défini sur true)
  • 30 janvier 2019
    • Correction de l’erreur StackOverflowError lors de la mise en place du conseil de jointure asymétrique sur la relation mise en cache
    • Correction de l’incohérence entre le RDD mis en cache d’un cache SQL et son plan physique, ce qui génère un résultat incorrect
    • [SPARK-26706][SQL] Correction de illegalNumericPrecedence pour ByteType
    • [SPARK-26709][SQL] OptimizeMetadataOnlyQuery ne gère pas correctement les enregistrements vides
    • Les sources de données CSV/JSON doivent éviter les chemins d’accès de globbing lors de l’inférence du schéma
    • Correction de l’inférence de contrainte sur l’opérateur Window
    • Correction d’un problème concernant l’installation de bibliothèques egg avec des clusters dont la liste de contrôle d’accès des tables est activée

Databricks Runtime 5.1 (non pris en charge)

Consultez Databricks Runtime 5.1 (non pris en charge).

  • 13 août 2019
    • La source de streaming Delta doit vérifier le protocole le plus récent d’une table
    • [SPARK-28489][SS] Correction d’un bogue où KafkaOffsetRangeCalculator.getRanges peut supprimer des décalages
  • 30 juillet 2019
    • [SPARK-28015][SQL] Vérifie que stringToDate() consomme une entrée entière pour les formats aaaa et aaaa-[m]m
    • [SPARK-28308][CORE] La partie de CalendarInterval inférieure à une seconde doit être complétée avant l’analyse
    • [SPARK-27485] EnsureRequirements.reorder doit gérer les expressions dupliquées correctement
  • 2 juillet 2019
    • Tolère les IOExceptions lors de la lecture du fichier Delta LAST_CHECKPOINT
  • 18 juin 2019
    • Correction d’un bogue touchant l’utilisation des fonctions d’ordre supérieur
    • Correction d’un bogue touchant les requêtes de métadonnées Delta
  • 28 mai 2019
    • Ajout de la récupération en cas d’échec de l’installation de la bibliothèque
  • 7 mai 2019
    • Portage de HADOOP-15778 (ABFS : Correction de la limitation de la lecture côté client) au connecteur Azure Data Lake Storage Gen2
    • Portage de HADOOP-16040 (ABFS : Correction d’un bogue dans la configuration de tolerateOobAppends) au connecteur Azure Data Lake Storage Gen2
    • Correction d’une condition de concurrence lors du chargement d’un fichier de somme de contrôle du journal Delta
    • Correction de la logique de détection de conflit Delta pour ne pas identifier l’opération « insérer + remplacer » comme une pure opération « ajouter »
    • [SPARK-27494][SS] Les clés/valeurs NULL ne fonctionnent pas dans une source Kafka v2
    • [SPARK-27454][SPARK-27454][ML][SQL] Échec de la source de données d’images Spark lors de la rencontre de certaines images illégales
    • [SPARK-27160][SQL] Correction de DecimalType lors de la création de filtres orc
    • [SPARK-27338][CORE] Correction d’un blocage entre UnsafeExternalSorter et TaskMemoryManager
  • 26 mars 2019
    • Évite d’incorporer des décalages dépendant de la plateforme littéralement dans le code généré par l’ensemble de l’étape
    • Correction d’un bogue touchant certaines UDF Python
  • 26 février 2019
    • [SPARK-26864][SQL] La requête peut renvoyer un résultat incorrect lorsque l’UDF Python est utilisée comme condition de semi-jointure gauche
    • Correction d’un bogue touchant le serveur JDBC/ODBC
    • Exclut les fichiers cachés lors de la génération de HadoopRDD
  • 12 février 2019
    • Correction d’un problème concernant l’installation de bibliothèques egg avec des clusters dont la liste de contrôle d’accès des tables est activée
    • Correction de l’incohérence entre le RDD mis en cache d’un cache SQL et son plan physique, ce qui génère un résultat incorrect
    • [SPARK-26706][SQL] Correction de illegalNumericPrecedence pour ByteType
    • [SPARK-26709][SQL] OptimizeMetadataOnlyQuery ne gère pas correctement les enregistrements vides
    • Correction de l’inférence de contrainte sur l’opérateur Window
    • Correction d’un problème pouvant entraîner l’arrêt du protocole réseau de bas niveau de Spark lors de l’envoi de messages d’erreur RPC volumineux avec le chiffrement activé (lorsque spark.network.crypto.enabled est défini sur true)
  • 30 janvier 2019
    • Correction d’un problème pouvant amener df.rdd.count() avec UDT à renvoyer une réponse incorrecte dans certains cas
    • Correction d’un problème concernant l’installation de répertoires wheelhouse
    • [SPARK-26267] Nouvelle tentative lors de la détection de décalages incorrects provenant de Kafka
    • Correction d’un bogue concernant plusieurs sources de flux de fichiers dans une requête de streaming
    • Correction de l’erreur StackOverflowError lors de la mise en place du conseil de jointure asymétrique sur la relation mise en cache
    • Correction de l’incohérence entre le RDD mis en cache d’un cache SQL et son plan physique, ce qui génère un résultat incorrect
  • 8 janvier 2019
    • Correction du problème à l’origine de l’erreur org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
    • [SPARK-26352] La réorganisation des jointures ne doit pas modifier l’ordre des attributs de sortie
    • [SPARK-26366] ReplaceExceptWithFilter doit considérer la valeur NULL comme une valeur False.
    • Amélioration de la stabilité de Delta Lake
    • Delta Lake est activé
    • Correction du problème qui provoquait l’échec de l’accès à Azure Data Lake Storage Gen2 lorsque le transfert direct des informations d’identification de Microsoft Entra ID est activé pour Azure Data Lake Storage Gen1.
    • Cache d’E/S Databricks est maintenant activé pour les types d’instance de travail de la série LS pour tous les niveaux tarifaires

Databricks Runtime 5.0 (non pris en charge)

Consultez Databricks Runtime 5.0 (non pris en charge).

  • 18 juin 2019
    • Correction d’un bogue touchant l’utilisation des fonctions d’ordre supérieur
  • 7 mai 2019
    • Correction d’une condition de concurrence lors du chargement d’un fichier de somme de contrôle du journal Delta
    • Correction de la logique de détection de conflit Delta pour ne pas identifier l’opération « insérer + remplacer » comme une pure opération « ajouter »
    • [SPARK-27494][SS] Les clés/valeurs NULL ne fonctionnent pas dans une source Kafka v2
    • [SPARK-27454][SPARK-27454][ML][SQL] Échec de la source de données d’images Spark lors de la rencontre de certaines images illégales
    • [SPARK-27160][SQL] Correction de DecimalType lors de la création de filtres orc
      • [SPARK-27338][CORE] Correction d’un blocage entre UnsafeExternalSorter et TaskMemoryManager
  • 26 mars 2019
    • Évite d’incorporer des décalages dépendant de la plateforme littéralement dans le code généré par l’ensemble de l’étape
    • Correction d’un bogue touchant certaines UDF Python
  • 12 mars 2019
    • [SPARK-26864][SQL] La requête peut renvoyer un résultat incorrect lorsque l’UDF Python est utilisée comme condition de semi-jointure gauche
  • 26 février 2019
    • Correction d’un bogue touchant le serveur JDBC/ODBC
    • Exclut les fichiers cachés lors de la génération de HadoopRDD
  • 12 février 2019
    • Correction de l’incohérence entre le RDD mis en cache d’un cache SQL et son plan physique, ce qui génère un résultat incorrect
    • [SPARK-26706][SQL] Correction de illegalNumericPrecedence pour ByteType
    • [SPARK-26709][SQL] OptimizeMetadataOnlyQuery ne gère pas correctement les enregistrements vides
    • Correction de l’inférence de contrainte sur l’opérateur Window
    • Correction d’un problème pouvant entraîner l’arrêt du protocole réseau de bas niveau de Spark lors de l’envoi de messages d’erreur RPC volumineux avec le chiffrement activé (lorsque spark.network.crypto.enabled est défini sur true)
  • 30 janvier 2019
    • Correction d’un problème pouvant amener df.rdd.count() avec UDT à renvoyer une réponse incorrecte dans certains cas
    • [SPARK-26267] Nouvelle tentative lors de la détection de décalages incorrects provenant de Kafka
    • Correction d’un bogue concernant plusieurs sources de flux de fichiers dans une requête de streaming
    • Correction de l’erreur StackOverflowError lors de la mise en place du conseil de jointure asymétrique sur la relation mise en cache
    • Correction de l’incohérence entre le RDD mis en cache d’un cache SQL et son plan physique, ce qui génère un résultat incorrect
  • 8 janvier 2019
    • Correction du problème à l’origine de l’erreur org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
    • [SPARK-26352] La réorganisation des jointures ne doit pas modifier l’ordre des attributs de sortie
    • [SPARK-26366] ReplaceExceptWithFilter doit considérer la valeur NULL comme une valeur False.
    • Amélioration de la stabilité de Delta Lake
    • Delta Lake est activé
    • Cache d’E/S Databricks est maintenant activé pour les types d’instance de travail de la série LS pour tous les niveaux tarifaires
  • 18 décembre 2018
    • [SPARK-26293] Exception de cast lors de la présence d’une UDF Python dans une sous-requête
    • Correction d’un problème touchant certaines requêtes qui utilisent Join et Limit
    • Informations d’identification supprimées des noms de RDD dans l’interface utilisateur de Spark
  • 6 décembre 2018
    • Correction d’un problème qui provoquait un résultat de requête incorrect lors de l’utilisation d’orderBy, suivi immédiatement de groupBy avec la clé group-by comme partie de début de la clé sort-by
    • Mise à niveau du connecteur Snowflake pour Spark de la version 2.4.9.2-spark_2.4_pre_release vers la version 2.4.10
    • Ignore uniquement les fichiers endommagés après une ou plusieurs nouvelles tentatives lorsque l’indicateur spark.sql.files.ignoreCorruptFiles ou spark.sql.files.ignoreMissingFiles est activé
    • Correction d’un problème touchant certaines requêtes d’auto-union
    • Correction d’un bogue avec le serveur thrift où les sessions sont parfois divulguées lorsqu’elles sont annulées
    • [SPARK-26307] Correction de CTAS lors de l’instruction INSERT d’une table partitionnée en utilisant Hive SerDe
    • [SPARK-26147] Les UDF Python dans les conditions de jointure échouent même en utilisant les colonnes d’un seul côté de la jointure
    • [SPARK-26211] Correction de InSet pour les binaires et struct et array avec Null
    • [SPARK-26181] La méthode hasMinMaxStats de ColumnStatsMap n’est pas correcte
    • Correction d’un problème concernant l’installation de roues Python dans des environnements sans accès à Internet
  • 20 novembre 2018
    • Correction d’un problème qui rendait impossible l’utilisation d’un notebook après l’annulation d’une requête de streaming
    • Correction d’un problème touchant certaines requêtes qui utilisent des fonctions de fenêtre
    • Correction d’un problème touchant un flux provenant de Delta avec plusieurs modifications de schéma
    • Correction d’un problème concernant certaines requêtes d’agrégation avec des jointures semi/anti gauches

Databricks Runtime 4.3 (non pris en charge)

Consultez Databricks Runtime 4.3 (non pris en charge).

  • 9 avril 2019

    • [SPARK-26665][CORE] Correction d’un bogue pouvant entraîner le blocage permanent de BlockTransferService.fetchBlockSync
    • [SPARK-24669][SQL] Invalide les tables en cas de DROP DATABASE CASCADE
  • 12 mars 2019

    • Correction d’un bogue touchant la génération de code
    • Correction d’un bogue touchant Delta
  • 26 février 2019

    • Correction d’un bogue touchant le serveur JDBC/ODBC
  • 12 février 2019

    • [SPARK-26709][SQL] OptimizeMetadataOnlyQuery ne gère pas correctement les enregistrements vides
    • Exclusion des fichiers cachés lors de la génération de HadoopRDD
    • Correction de la conversion du filtre Parquet pour le prédicat IN lorsque sa valeur est vide
    • Correction d’un problème pouvant entraîner l’arrêt du protocole réseau de bas niveau de Spark lors de l’envoi de messages d’erreur RPC volumineux avec le chiffrement activé (lorsque spark.network.crypto.enabled est défini sur true)
  • 30 janvier 2019

    • Correction d’un problème pouvant amener df.rdd.count() avec UDT à renvoyer une réponse incorrecte dans certains cas
    • Correction de l’incohérence entre le RDD mis en cache d’un cache SQL et son plan physique, ce qui génère un résultat incorrect
  • 8 janvier 2019

    • Correction du problème à l’origine de l’erreur org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
    • Informations d’identification supprimées des noms de RDD dans l’interface utilisateur de Spark
    • [SPARK-26352] La réorganisation des jointures ne doit pas modifier l’ordre des attributs de sortie
    • [SPARK-26366] ReplaceExceptWithFilter doit considérer la valeur NULL comme une valeur False.
    • Delta Lake est activé
    • Cache d’E/S Databricks est maintenant activé pour les types d’instance de travail de la série LS pour tous les niveaux tarifaires
  • 18 décembre 2018

    • [SPARK-25002]Avro : Révision de l’espace de noms des enregistrements de sortie
    • Correction d’un problème touchant certaines requêtes qui utilisent Join et Limit
    • [SPARK-26307] Correction de CTAS lors de l’instruction INSERT d’une table partitionnée en utilisant Hive SerDe
    • Ignore uniquement les fichiers endommagés après une ou plusieurs nouvelles tentatives lorsque l’indicateur spark.sql.files.ignoreCorruptFiles ou spark.sql.files.ignoreMissingFiles est activé
    • [SPARK-26181] La méthode hasMinMaxStats de ColumnStatsMap n’est pas correcte
    • Correction d’un problème concernant l’installation de roues Python dans des environnements sans accès à Internet
    • Correction d’un problème de performances dans l’analyseur de requêtes
    • Correction d’un problème dans PySpark qui entraînait l’échec des actions DataFrame avec l’erreur « connexion refusée »
    • Correction d’un problème touchant certaines requêtes d’auto-union
  • 20 novembre 2018

    • [SPARK-17916][SPARK-25241] Correction de la chaîne vide étant analysée comme Null lorsque nullValue est défini
    • [SPARK-25387] Correction d’un bogue NPE causé par une entrée CSV incorrecte
    • Correction d’un problème concernant certaines requêtes d’agrégation avec des jointures semi/anti gauches
  • 6 novembre 2018

    • [SPARK-25741] Les URL longues ne sont pas rendues correctement dans l’interface utilisateur web
    • [SPARK-25714] Corrige la gestion des valeurs Null dans la règle BooleanSimplification de l’optimiseur
    • Correction d’un problème concernant le nettoyage des objets temporaires dans le connecteur Synapse Analytics
    • [SPARK-25816] Correction de la résolution des attributs dans les extracteurs imbriqués
  • 16 octobre 2018

    • Correction d’un bogue touchant la sortie de l’exécution de SHOW CREATE TABLE sur les tables Delta
    • Correction d’un bogue touchant l’opération Union
  • 25 septembre 2018

    • [SPARK-25368][SQL] Une inférence de contrainte incorrecte renvoie un résultat erroné
    • [SPARK-25402][SQL] Gestion des valeurs Null dans BooleanSimplification
    • Correction de NotSerializableException dans la source de données Avro
  • 11 septembre 2018

    • [SPARK-25214][SS] Correction du problème où la source Kafka v2 peut renvoyer des enregistrements dupliqués lorsque failOnDataLoss=false
    • [SPARK-24987][SS] Correction de la fuite des consommateurs Kafka en l’absence de nouveaux décalages pour articlePartition
    • La réduction du filtre doit gérer correctement la valeur Null
    • Amélioration de la stabilité du moteur d’exécution
  • 28 Août 2018

    • Correction d’un bogue dans la commande Delta Lake Delete qui supprimait incorrectement les lignes où la condition a la valeur Null
    • [SPARK-25142] Ajout de messages d’erreur lorsque le Worker Python ne pouvait pas ouvrir de socket dans _load_from_socket
  • 23 août 2018

    • [SPARK-23935] mapEntry lève l’exception org.codehaus.commons.compiler.CompileException
    • Correction du problème de mappage pouvant accepter la valeur Null dans le lecteur Parquet
    • [SPARK-25051][SQL] FixNullability ne doit pas s’arrêter sur AnalysisBarrier
    • [SPARK-25081] Correction d’un bogue où ShuffleExternalSorter peut accéder à une page de mémoire libérée lorsque le déversement ne parvient pas à allouer de la mémoire
    • Correction d’une interaction entre Databricks Delta et Pyspark, ce qui pouvait entraîner des échecs de lecture temporaires
    • [SPARK-25084] « distribuer par » sur plusieurs colonnes (mise entre crochets) peut entraîner un problème de codegen
    • [SPARK-25096] Assouplissement de la possibilité d’accepter la valeur Null si le cast est forcé à accepter la valeur Null
    • Diminution du nombre de threads par défaut utilisés par la commande Delta Lake Optimize, ce qui réduit la surcharge de mémoire et accélère la validation des données
    • [SPARK-25114] Correction de RecordBinaryComparator lorsque la soustraction entre deux mots est divisible par Integer.MAX_VALUE
    • Correction de la révision du gestionnaire de secrets lorsque la commande réussit partiellement

Databricks Runtime 4.2 (non pris en charge)

Consultez Databricks Runtime 4.2 (non pris en charge).

  • 26 février 2019

    • Correction d’un bogue touchant le serveur JDBC/ODBC
  • 12 février 2019

    • [SPARK-26709][SQL] OptimizeMetadataOnlyQuery ne gère pas correctement les enregistrements vides
    • Exclusion des fichiers cachés lors de la génération de HadoopRDD
    • Correction de la conversion du filtre Parquet pour le prédicat IN lorsque sa valeur est vide
    • Correction d’un problème pouvant entraîner l’arrêt du protocole réseau de bas niveau de Spark lors de l’envoi de messages d’erreur RPC volumineux avec le chiffrement activé (lorsque spark.network.crypto.enabled est défini sur true)
  • 30 janvier 2019

    • Correction d’un problème pouvant amener df.rdd.count() avec UDT à renvoyer une réponse incorrecte dans certains cas
  • 8 janvier 2019

    • Correction du problème à l’origine de l’erreur org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
    • Informations d’identification supprimées des noms de RDD dans l’interface utilisateur de Spark
    • [SPARK-26352] La réorganisation des jointures ne doit pas modifier l’ordre des attributs de sortie
    • [SPARK-26366] ReplaceExceptWithFilter doit considérer la valeur NULL comme une valeur False.
    • Delta Lake est activé
    • Cache d’E/S Databricks est maintenant activé pour les types d’instance de travail de la série LS pour tous les niveaux tarifaires
  • 18 décembre 2018

    • [SPARK-25002]Avro : Révision de l’espace de noms des enregistrements de sortie
    • Correction d’un problème touchant certaines requêtes qui utilisent Join et Limit
    • [SPARK-26307] Correction de CTAS lors de l’instruction INSERT d’une table partitionnée en utilisant Hive SerDe
    • Ignore uniquement les fichiers endommagés après une ou plusieurs nouvelles tentatives lorsque l’indicateur spark.sql.files.ignoreCorruptFiles ou spark.sql.files.ignoreMissingFiles est activé
    • [SPARK-26181] La méthode hasMinMaxStats de ColumnStatsMap n’est pas correcte
    • Correction d’un problème concernant l’installation de roues Python dans des environnements sans accès à Internet
    • Correction d’un problème de performances dans l’analyseur de requêtes
    • Correction d’un problème dans PySpark qui entraînait l’échec des actions DataFrame avec l’erreur « connexion refusée »
    • Correction d’un problème touchant certaines requêtes d’auto-union
  • 20 novembre 2018

    • [SPARK-17916][SPARK-25241] Correction de la chaîne vide étant analysée comme Null lorsque nullValue est défini
    • Correction d’un problème concernant certaines requêtes d’agrégation avec des jointures semi/anti gauches
  • 6 novembre 2018

    • [SPARK-25741] Les URL longues ne sont pas rendues correctement dans l’interface utilisateur web
    • [SPARK-25714] Corrige la gestion des valeurs Null dans la règle BooleanSimplification de l’optimiseur
  • 16 octobre 2018

    • Correction d’un bogue touchant la sortie de l’exécution de SHOW CREATE TABLE sur les tables Delta
    • Correction d’un bogue touchant l’opération Union
  • 25 septembre 2018

    • [SPARK-25368][SQL] Une inférence de contrainte incorrecte renvoie un résultat erroné
    • [SPARK-25402][SQL] Gestion des valeurs Null dans BooleanSimplification
    • Correction de NotSerializableException dans la source de données Avro
  • 11 septembre 2018

    • [SPARK-25214][SS] Correction du problème où la source Kafka v2 peut renvoyer des enregistrements dupliqués lorsque failOnDataLoss=false
    • [SPARK-24987][SS] Correction de la fuite des consommateurs Kafka en l’absence de nouveaux décalages pour articlePartition
    • La réduction du filtre doit gérer correctement la valeur Null
  • 28 Août 2018

    • Correction d’un bogue dans la commande Delta Lake Delete qui supprimait incorrectement les lignes où la condition a la valeur Null
  • 23 août 2018

    • Correction de l’erreur NoClassDefError pour l’instantané Delta
    • [SPARK-23935] mapEntry lève l’exception org.codehaus.commons.compiler.CompileException
    • [SPARK-24957][SQL] La moyenne avec décimale suivie d’une agrégation renvoie un résultat incorrect. Les résultats incorrects de AVERAGE peuvent être renvoyés. Le CAST ajouté dans l’opérateur Average sera contourné si le résultat de Divide est du même type que celui vers lequel il est casté.
    • [SPARK-25081] Correction d’un bogue où ShuffleExternalSorter peut accéder à une page de mémoire libérée lorsque le déversement ne parvient pas à allouer de la mémoire
    • Correction d’une interaction entre Databricks Delta et Pyspark, ce qui pouvait entraîner des échecs de lecture temporaires
    • [SPARK-25114] Correction de RecordBinaryComparator lorsque la soustraction entre deux mots est divisible par Integer.MAX_VALUE
    • [SPARK-25084] « distribuer par » sur plusieurs colonnes (mise entre crochets) peut entraîner un problème de codegen
    • [SPARK-24934][SQL] Ajoute explicitement sur une liste d’autorisation les types pris en charge dans les limites supérieures/inférieures pour le nettoyage des partitions en mémoire. Lorsque des types de données complexes sont utilisés dans des filtres de requête sur des données en cache, Spark renvoie toujours un jeu de résultats vide. Le nettoyage basé sur les statistiques en mémoire génère des résultats incorrects, car la valeur Null est définie comme limites supérieure/inférieure pour les types complexes. La correction consiste à ne pas utiliser le nettoyage basé sur les statistiques en mémoire pour les types complexes
    • Correction de la révision du gestionnaire de secrets lorsque la commande réussit partiellement
    • Correction du problème de mappage pouvant accepter la valeur Null dans le lecteur Parquet
  • 2 août 2018

    • Ajout de l’API writeStream.table en Python
    • Correction d’un problème touchant les points de contrôle Delta
    • [SPARK-24867][SQL] Ajout de AnalysisBarrier à DataFrameWriter. Le cache SQL n’est pas utilisé lors de l’utilisation de DataFrameWriter pour écrire un DataFrame avec UDF. Il s’agit d’une régression causée par les modifications que nous avons apportées à AnalysisBarrier, car les règles de l’analyseur ne sont pas toutes idempotentes
    • Correction d’un problème qui pouvait amener la commande mergeInto à produire des résultats incorrects
    • Amélioration de la stabilité lors de l’accès à Azure Data Lake Storage Gen1
    • [SPARK-24809] La sérialisation de LongHashedRelation dans l’exécuteur peut entraîner une erreur de données
    • [SPARK-24878][SQL] Correction de la fonction inverse pour le type de tableau de type primitif contenant la valeur Null.
  • 11 juillet 2018

    • Correction d’un bogue dans l’exécution des requêtes qui faisait que les agrégations sur des colonnes décimales avec des précisions différentes renvoyaient des résultats incorrects dans certains cas
    • Correction d’un bogue NullPointerException qui était lancé lors d’opérations d’agrégation avancées comme le regroupement d’ensembles

Databricks Runtime 4.1 ML (non pris en charge)

Consultez Databricks Runtime 4.1 ML (non pris en charge).

  • 31 juillet 2018
    • Ajout d’Azure Synapse Analytics à ML Runtime 4.1
    • Correction d’un bogue qui pouvait entraîner des résultats de requête incorrects lorsque le nom d’une colonne de partition utilisée dans un prédicat diffère de la casse de cette colonne dans le schéma de la table
    • Correction d’un bogue concernant le moteur d’exécution Spark SQL
    • Correction d’un bogue touchant la génération de code
    • Correction d’un bogue (java.lang.NoClassDefFoundError) touchant Delta Lake
    • Amélioration de la gestion des erreurs dans Delta Lake
    • Correction d’un bogue qui entraînait la collecte de statistiques incorrectes relatives au saut de données pour les colonnes de chaîne de 32 caractères ou plus

Databricks Runtime 4.1 (non pris en charge)

Consultez Databricks Runtime 4.1 (non pris en charge).

  • 8 janvier 2019

    • [SPARK-26366] ReplaceExceptWithFilter doit considérer la valeur NULL comme une valeur False.
    • Delta Lake est activé
  • 18 décembre 2018

    • [SPARK-25002]Avro : Révision de l’espace de noms des enregistrements de sortie
    • Correction d’un problème touchant certaines requêtes qui utilisent Join et Limit
    • [SPARK-26307] Correction de CTAS lors de l’instruction INSERT d’une table partitionnée en utilisant Hive SerDe
    • Ignore uniquement les fichiers endommagés après une ou plusieurs nouvelles tentatives lorsque l’indicateur spark.sql.files.ignoreCorruptFiles ou spark.sql.files.ignoreMissingFiles est activé
    • Correction d’un problème concernant l’installation de roues Python dans des environnements sans accès à Internet
    • Correction d’un problème dans PySpark qui entraînait l’échec des actions DataFrame avec l’erreur « connexion refusée »
    • Correction d’un problème touchant certaines requêtes d’auto-union
  • 20 novembre 2018

    • [SPARK-17916][SPARK-25241] Correction de la chaîne vide étant analysée comme Null lorsque nullValue est défini
    • Correction d’un problème concernant certaines requêtes d’agrégation avec des jointures semi/anti gauches
  • 6 novembre 2018

    • [SPARK-25741] Les URL longues ne sont pas rendues correctement dans l’interface utilisateur web
    • [SPARK-25714] Corrige la gestion des valeurs Null dans la règle BooleanSimplification de l’optimiseur
  • 16 octobre 2018

    • Correction d’un bogue touchant la sortie de l’exécution de SHOW CREATE TABLE sur les tables Delta
    • Correction d’un bogue touchant l’opération Union
  • 25 septembre 2018

    • [SPARK-25368][SQL] Une inférence de contrainte incorrecte renvoie un résultat erroné
    • [SPARK-25402][SQL] Gestion des valeurs Null dans BooleanSimplification
    • Correction de NotSerializableException dans la source de données Avro
  • 11 septembre 2018

    • [SPARK-25214][SS] Correction du problème où la source Kafka v2 peut renvoyer des enregistrements dupliqués lorsque failOnDataLoss=false
    • [SPARK-24987][SS] Correction de la fuite des consommateurs Kafka en l’absence de nouveaux décalages pour articlePartition
    • La réduction du filtre doit gérer correctement la valeur Null
  • 28 Août 2018

    • Correction d’un bogue dans la commande Delta Lake Delete qui supprimait incorrectement les lignes où la condition a la valeur Null
    • [SPARK-25084] « distribuer par » sur plusieurs colonnes (mise entre crochets) peut entraîner un problème de codegen
    • [SPARK-25114] Correction de RecordBinaryComparator lorsque la soustraction entre deux mots est divisible par Integer.MAX_VALUE
  • 23 août 2018

    • Correction de l’erreur NoClassDefError pour l’instantané Delta
    • [SPARK-24957][SQL] La moyenne avec décimale suivie d’une agrégation renvoie un résultat incorrect. Les résultats incorrects de AVERAGE peuvent être renvoyés. Le CAST ajouté dans l’opérateur Average sera contourné si le résultat de Divide est du même type que celui vers lequel il est casté
    • Correction du problème de mappage pouvant accepter la valeur Null dans le lecteur Parquet
    • [SPARK-24934][SQL] Ajoute explicitement sur une liste d’autorisation les types pris en charge dans les limites supérieures/inférieures pour le nettoyage des partitions en mémoire. Lorsque des types de données complexes sont utilisés dans des filtres de requête sur des données en cache, Spark renvoie toujours un jeu de résultats vide. Le nettoyage basé sur les statistiques en mémoire génère des résultats incorrects, car la valeur Null est définie comme limites supérieure/inférieure pour les types complexes. La solution consiste à ne pas utiliser l'élagage basé sur les statistiques en mémoire pour les types complexes.
    • [SPARK-25081] Correction d’un bogue où ShuffleExternalSorter peut accéder à une page de mémoire libérée lorsque le déversement ne parvient pas à allouer de la mémoire
    • Correction d’une interaction entre Databricks Delta et Pyspark, ce qui pouvait entraîner des échecs de lecture temporaires
    • Correction de la rédaction du gestionnaire de secrets lorsque la commande réussit partiellement
  • 2 août 2018

    • [SPARK-24613][SQL] Le cache avec UDF n’a pas pu être mis en correspondance avec les caches dépendants suivants. Enveloppe le plan logique dans un élément AnalysisBarrier pour la compilation du plan d’exécution dans CacheManager, afin d’éviter que le plan soit à nouveau analysé. Il s’agit également d’une régression de Spark 2.3
    • Correction d’un problème de connecteur Synapse Analytics touchant la conversion du fuseau horaire pour l’écriture de données DateType
    • Correction d’un problème touchant les points de contrôle Delta
    • Correction d’un problème qui pouvait amener la commande mergeInto à produire des résultats incorrects
    • [SPARK-24867][SQL] Ajout de AnalysisBarrier à DataFrameWriter. Le cache SQL n’est pas utilisé lors de l’utilisation de DataFrameWriter pour écrire un DataFrame avec UDF. Il s’agit d’une régression causée par les modifications que nous avons apportées à AnalysisBarrier, car les règles de l’analyseur ne sont pas toutes idempotentes.
    • [SPARK-24809] La sérialisation de LongHashedRelation dans l’exécuteur peut entraîner une erreur de données
  • 11 juillet 2018

    • Correction d’un bogue dans l’exécution des requêtes qui faisait que les agrégations sur des colonnes décimales avec des précisions différentes renvoyaient des résultats incorrects dans certains cas
    • Correction d’un bogue NullPointerException qui était lancé lors d’opérations d’agrégation avancées comme le regroupement d’ensembles
  • 28 juin 2018

    • Correction d’un bogue qui pouvait entraîner des résultats de requête incorrects lorsque le nom d’une colonne de partition utilisée dans un prédicat diffère de la casse de cette colonne dans le schéma de la table
  • 7 juin 2018

    • Correction d’un bogue concernant le moteur d’exécution Spark SQL
    • Correction d’un bogue touchant la génération de code
    • Correction d’un bogue (java.lang.NoClassDefFoundError) touchant Delta Lake
    • Amélioration de la gestion des erreurs dans Delta Lake
  • 17 mai 2018

    • Correction d’un bogue qui entraînait la collecte de statistiques incorrectes relatives au saut de données pour les colonnes de chaîne de 32 caractères ou plus

Databricks Runtime 4.0 (non pris en charge)

Consultez Databricks Runtime 4.0 (non pris en charge).

  • 6 novembre 2018

    • [SPARK-25714] Corrige la gestion des valeurs Null dans la règle BooleanSimplification de l’optimiseur
  • 16 octobre 2018

    • Correction d’un bogue touchant l’opération Union
  • 25 septembre 2018

    • [SPARK-25368][SQL] Une inférence de contrainte incorrecte renvoie un résultat erroné
    • [SPARK-25402][SQL] Gestion des valeurs Null dans BooleanSimplification
    • Correction de NotSerializableException dans la source de données Avro
  • 11 septembre 2018

    • La réduction du filtre doit gérer correctement la valeur Null
  • 28 Août 2018

    • Correction d’un bogue dans la commande Delta Lake Delete qui supprimait incorrectement les lignes où la condition a la valeur Null
  • 23 août 2018

    • Correction du problème de mappage pouvant accepter la valeur Null dans le lecteur Parquet
    • Correction de la rédaction du gestionnaire de secrets lorsque la commande réussit partiellement
    • Correction d’une interaction entre Databricks Delta et Pyspark, ce qui pouvait entraîner des échecs de lecture temporaires
    • [SPARK-25081] Correction d’un bogue où ShuffleExternalSorter peut accéder à une page de mémoire libérée lorsque le déversement ne parvient pas à allouer de la mémoire
    • [SPARK-25114] Correction de RecordBinaryComparator lorsque la soustraction entre deux mots est divisible par Integer.MAX_VALUE
  • 2 août 2018

    • [SPARK-24452] Évite tout dépassement possible dans int add ou multiple
    • [SPARK-24588] La jointure en continu doit nécessiter HashClusteredPartitioning des enfants
    • Correction d’un problème qui pouvait amener la commande mergeInto à produire des résultats incorrects
    • [SPARK-24867][SQL] Ajout de AnalysisBarrier à DataFrameWriter. Le cache SQL n’est pas utilisé lors de l’utilisation de DataFrameWriter pour écrire un DataFrame avec UDF. Il s’agit d’une régression causée par les modifications que nous avons apportées à AnalysisBarrier, car les règles de l’analyseur ne sont pas toutes idempotentes.
    • [SPARK-24809] La sérialisation de LongHashedRelation dans l’exécuteur peut entraîner une erreur de données
  • 28 juin 2018

    • Correction d’un bogue qui pouvait entraîner des résultats de requête incorrects lorsque le nom d’une colonne de partition utilisée dans un prédicat diffère de la casse de cette colonne dans le schéma de la table
  • 7 juin 2018

    • Correction d’un bogue concernant le moteur d’exécution Spark SQL
    • Amélioration de la gestion des erreurs dans Delta Lake
  • 17 mai 2018

    • Correction de bogues pour la gestion des secrets Databricks
    • Amélioration de la stabilité lors de la lecture des données stockées dans Azure Data Lake Store
    • Correction d’un bogue concernant la mise en cache des RDD
    • Correction d’un bogue concernant l’opérateur Null-safe Equal dans Spark SQL
  • 24 avril 2018

    • Mise à niveau du Kit de développement logiciel (SDK) Azure Data Lake Store de la version 2.0.11 vers la version 2.2.8 pour améliorer la stabilité de l’accès à Azure Data Lake Store
    • Correction d’un bogue concernant l’insertion de remplacements dans les tables Hive partitionnées lorsque spark.databricks.io.hive.fastwriter.enabled a la valeur false
    • Correction d’un problème qui faisait échouer la sérialisation des tâches
    • Amélioration de la stabilité de Delta Lake
  • 14 mars 2018

    • Empêche les mises à jour inutiles des métadonnées lors de l’écriture dans Delta Lake
    • Correction d’un problème causé par une condition de concurrence qui pouvait, dans de rares circonstances, entraîner la perte de certains fichiers de sortie

Databricks Runtime 3.5 LTS (non pris en charge)

Consultez Databricks Runtime 3.5 LTS (non pris en charge).

  • 7 novembre 2019

    • [SPARK-29743][SQL] L’échantillon doit définir needCopyResult sur true si le needCopyResult de son enfant est true
  • 8 octobre 2019

    • Changements côté serveur pour permettre au pilote ODBC Apache Spark de Simba de se reconnecter et de continuer après un échec de connexion pendant l’extraction des résultats (nécessite la mise à jour du pilote ODBC Apache Spark de Simba vers la version 2.6.10)
  • 10 septembre 2019

    • [SPARK-28699][SQL] Désactive l’utilisation du tri de base pour ShuffleExchangeExec dans le cas d’un repartitionnement
  • 9 avril 2019

    • [SPARK-26665][CORE] Correction d’un bogue pouvant entraîner le blocage permanent de BlockTransferService.fetchBlockSync
  • 12 février 2019

    • Correction d’un problème pouvant entraîner l’arrêt du protocole réseau de bas niveau de Spark lors de l’envoi de messages d’erreur RPC volumineux avec le chiffrement activé (lorsque spark.network.crypto.enabled est défini sur true)
  • 30 janvier 2019

    • Correction d’un problème pouvant amener df.rdd.count() avec UDT à renvoyer une réponse incorrecte dans certains cas
  • 18 décembre 2018

    • Ignore uniquement les fichiers endommagés après une ou plusieurs nouvelles tentatives lorsque l’indicateur spark.sql.files.ignoreCorruptFiles ou spark.sql.files.ignoreMissingFiles est activé
    • Correction d’un problème touchant certaines requêtes d’auto-union
  • 20 novembre 2018

    • [SPARK-25816] Correction de la résolution des attributs dans les extracteurs imbriqués
  • 6 novembre 2018

    • [SPARK-25714] Corrige la gestion des valeurs Null dans la règle BooleanSimplification de l’optimiseur
  • 16 octobre 2018

    • Correction d’un bogue touchant l’opération Union
  • 25 septembre 2018

    • [SPARK-25402][SQL] Gestion des valeurs Null dans BooleanSimplification
    • Correction de NotSerializableException dans la source de données Avro
  • 11 septembre 2018

    • La réduction du filtre doit gérer correctement la valeur Null
  • 28 Août 2018

    • Correction d’un bogue dans la commande Delta Lake Delete qui supprimait incorrectement les lignes où la condition a la valeur Null
    • [SPARK-25114] Correction de RecordBinaryComparator lorsque la soustraction entre deux mots est divisible par Integer.MAX_VALUE
  • 23 août 2018

    • [SPARK-24809] La sérialisation de LongHashedRelation dans l’exécuteur peut entraîner une erreur de données
    • Correction du problème de mappage pouvant accepter la valeur Null dans le lecteur Parquet
    • [SPARK-25081] Correction d’un bogue où ShuffleExternalSorter peut accéder à une page de mémoire libérée lorsque le déversement ne parvient pas à allouer de la mémoire
    • Correction d’une interaction entre Databricks Delta et Pyspark, ce qui pouvait entraîner des échecs de lecture temporaires
  • 28 juin 2018

    • Correction d’un bogue qui pouvait entraîner des résultats de requête incorrects lorsque le nom d’une colonne de partition utilisée dans un prédicat diffère de la casse de cette colonne dans le schéma de la table
  • 28 juin 2018

    • Correction d’un bogue qui pouvait entraîner des résultats de requête incorrects lorsque le nom d’une colonne de partition utilisée dans un prédicat diffère de la casse de cette colonne dans le schéma de la table
  • 7 juin 2018

    • Correction d’un bogue concernant le moteur d’exécution Spark SQL
    • Amélioration de la gestion des erreurs dans Delta Lake
  • 17 mai 2018

    • Amélioration de la stabilité lors de la lecture des données stockées dans Azure Data Lake Store
    • Correction d’un bogue concernant la mise en cache des RDD
    • Correction d’un bogue concernant l’opérateur Null-safe Equal dans Spark SQL
    • Correction d’un bogue touchant certaines agrégations dans les requêtes de streaming
  • 24 avril 2018

    • Mise à niveau du Kit de développement logiciel (SDK) Azure Data Lake Store de la version 2.0.11 vers la version 2.2.8 pour améliorer la stabilité de l’accès à Azure Data Lake Store
    • Correction d’un bogue concernant l’insertion de remplacements dans les tables Hive partitionnées lorsque spark.databricks.io.hive.fastwriter.enabled a la valeur false
    • Correction d’un problème qui faisait échouer la sérialisation des tâches
  • 09 mars 2018

    • Correction d’un problème causé par une condition de concurrence qui pouvait, dans de rares circonstances, entraîner la perte de certains fichiers de sortie
  • 1er mars 2018

    • Amélioration de l’efficacité de la gestion des flux dont l’arrêt peut prendre beaucoup de temps
    • Correction d’un problème concernant l’autocomplétion en Python
    • Application des correctifs de sécurité Ubuntu
    • Correction d’un problème touchant certaines requêtes qui utilisent des UDF Python et des fonctions de fenêtre
    • Correction d’un problème concernant l’utilisation des UDF sur un cluster dont le contrôle d’accès aux tables est activé
  • 29 janvier 2018

    • Correction d’un problème concernant la manipulation de tables stockées dans Stockage Blob Azure
    • Correction de l’agrégation après l’opération dropDuplicates sur un DataFrame vide

Databricks Runtime 3.4 (non pris en charge)

Consultez Databricks Runtime 3.4 (non pris en charge).

  • 7 juin 2018

    • Correction d’un bogue concernant le moteur d’exécution Spark SQL
    • Amélioration de la gestion des erreurs dans Delta Lake
  • 17 mai 2018

    • Amélioration de la stabilité lors de la lecture des données stockées dans Azure Data Lake Store
    • Correction d’un bogue concernant la mise en cache des RDD
    • Correction d’un bogue concernant l’opérateur Null-safe Equal dans Spark SQL
  • 24 avril 2018

    • Correction d’un bogue concernant l’insertion de remplacements dans les tables Hive partitionnées lorsque spark.databricks.io.hive.fastwriter.enabled a la valeur false
  • 09 mars 2018

    • Correction d’un problème causé par une condition de concurrence qui pouvait, dans de rares circonstances, entraîner la perte de certains fichiers de sortie
  • 13 décembre 2017

    • Correction d’un problème concernant les UDF en Scala
    • Correction d’un problème concernant l’utilisation d’un index de saut de données sur les tables de sources de données stockées sous des chemins non DBFS
  • 7 décembre 2017

    • Amélioration de la stabilité de la lecture aléatoire

Versions non prises en charge de Databricks Runtime

Pour les notes de publication d’origine, suivez le lien situé sous le sous-titre.