Runtime 1.1

Microsoft Fabric Runtime est une plateforme intégrée à Azure basée sur Apache Spark qui permet l'exécution et la gestion des expériences d'engineering données et de Science des données dans Fabric. Ce document couvre les composants et versions de Fabric Runtime 1.1.

Microsoft Fabric Runtime 1.1 est l’un des runtimes proposés dans la plateforme Microsoft Fabric. Les principaux composants runtime 1.1 sont les suivants :

  • Apache Spark 3.3
  • Système d’exploitation : Ubuntu 18.04
  • Java : 1.8.0_282
  • Scala : 2.12.15
  • Python : 3.10
  • Delta Lake : 2.2
  • R: 4.2.2

Microsoft Fabric Runtime 1.1 est fourni avec une collection de packages de niveau par défaut, y compris une installation Complète d’Anaconda et des bibliothèques couramment utilisées pour Java/Scala, Python et R. Ces bibliothèques sont automatiquement incluses lors de l’utilisation de notebooks ou de travaux dans la plateforme Microsoft Fabric. Reportez-vous à la documentation pour obtenir la liste complète des bibliothèques.

Microsoft Fabric publie régulièrement des mises à jour de maintenance pour Runtime 1.1, fournissant des correctifs de bogues, des améliorations du niveau de performance et des correctifs de sécurité. Veiller à rester à jour garantit des performances et une fiabilité optimales pour vos tâches de traitement des données. Si vous utilisez actuellement Runtime 1.1, vous pouvez mettre à niveau vers Runtime 1.2 en accédant à Paramètres de l’espace de travail > Engineering données / Science > Paramètres Spark.

Capture d'écran montrant où sélectionner la version du runtime.

Voici les améliorations et nouvelles fonctionnalités : Apache Spark 3.3.1

Le résumé détaillé suivant décrit les principales nouvelles fonctionnalités liées à Apache Spark versions 3.3.0 et 3.3.1 :

  • Filtrage au niveau des lignes : améliorez les performances des jointures en pré-filtrant un côté tant qu’il n’y a pas d’impact de dépréciation ou de régression quant à l’utilisation d’un filtre Bloom et d’un prédicat IN générés à partir des valeurs de l’autre côté de la jointure. (SPARK-32268)

  • Améliorez la compatibilité de Spark avec les améliorations SQL standard :améliorations ANSI. (SPARK-38860)

  • Améliorations du message d’erreur pour identifier des problèmes plus rapidement et prendre les mesures nécessaires pour les résoudre. (SPARK-38781)

  • Prenez en charge des types complexes pour le lecteur vectorisé Parquet. Auparavant, le lecteur vectorisé Parquet ne prenait pas en charge les types de colonnes imbriquées telles que struct, array et map. Apache Spark 3.3 contient une implémentation de lecteur vectorisé de colonnes imbriquées pour FB-ORC dans notre fork interne de Spark. Il affecte les améliorations des performances par rapport à un lecteur non vectorisé lors de la lecture des colonnes imbriquées. En outre, cette implémentation peut permettre d’améliorer les performances de colonnes non imbriquées lors de la lecture de colonnes non imbriquées et imbriquées ensemble dans une requêt. (SPARK-34863)

  • Permet aux utilisateurs d’interroger les métadonnées des fichiers d’entrée pour tous les formats de fichier, de les exposer sous forme de colonnes masquées intégrées, ce qui signifie que les utilisateurs ne peuvent les voir que lorsqu’ils les référencent explicitement (par exemple, chemin d’accès du fichier et nom de fichier). (SPARK-37273)

  • Fournissez un profileur pour les fonctions définies par l’utilisateur Python/Pandas. (SPARK-37443)

  • Auparavant, nous exécutions des requêtes de diffusion en continu avec Trigger qui charge toutes les données disponibles dans un seul lot. Par conséquent, la quantité de données que les requêtes pouvaient traiter était limitée ou le pilote Spark n’avait plus de mémoire. Aujourd’hui, nous utilisons Trigger.AvailableNow pour l’exécution de requêtes de diffusion en continu comme Trigger une fois dans plusieurs lots. (SPARK-36533)

  • Fonctionnalités du pushdown DS V2 plus complètes. (SPARK-38788)

  • Environnement d’exécuteur de Propagation dans Kubernetes. (SPARK-37810)

  • Prenez en charge des planificateurs Kubernetes personnalisés. ( SPARK-36057)

  • Migration de log4j 1 to log4j 2 (SPARK-37814) pour gagner en :

    • Performances : Log4j 2 est plus rapide que Log4j 1. Log4j 2 utilise la journalisation asynchrone par défaut, ce qui peut améliorer considérablement les performances.

    • Flexibilité : Log4j 2 offre plus de flexibilité en termes de configuration. Il prend en charge plusieurs formats de configuration, notamment XML, JSON et YAML.

    • Extensibilité : Log4j 2 est conçu pour être extensible. Il permet aux développeurs de créer des plug-ins et des ajouts personnalisés pour étendre les fonctionnalités de l’infrastructure de journalisation.

    • Sécurité : Log4j 2 offre de meilleures fonctionnalités de sécurité que Log4j 1. Il prend en charge le chiffrement et les couches de socket sécurisées pour une communication sécurisée entre les applications.

    • Simplicité : Log4j 2 est plus simple à utiliser que Log4j 1. Il dispose d’une API plus intuitive et d’un processus de configuration plus simple.

  • Introduisez la lecture aléatoire sur SinglePartition pour améliorer le parallélisme et corriger la régression des performances pour des jointures dans Spark 3.3 vs Spark 3.2. (SPARK-40703)

  • Optimisez la règle TransposeWindow pour étendre les cas applicables et optimiser la complexité du temps. (SPARK-38034)

  • Pour avoir une parité dans l’exécution de TimeTravel via SQL et l’option Dataframe, prenez en charge l’horodatage en secondes pour TimeTravel en utilisant des options Dataframe. (SPARK-39633])

  • Optimisez le Tri global sur RepartitionByExpression pour enregistrer un tri local. (SPARK-39911)

  • Vérifiez que le partitionnement desortie est spécifié par l’utilisateur dans AQE. (SPARK-39915)

  • Mettez à jour de la vérification des colonnes Parquet V2 pour des champs imbriqués. (SPARK-39951)

  • Lecture dans un fichier parquet partitionné sur disque par une colonne de type « Byte ». (SPARK-40212)

  • Correction de la taille des colonnes au format CSV lorsque _corrupt_record est sélectionné. (SPARK-40468)

Améliorations et nouvelles fonctionnalités : Delta Lake 2.2

Les principales fonctionnalités de cette version sont les suivantes :

  • LIMIT pushdown dans l’analyse Delta. Améliorez les performances des requêtes contenant des clauses LIMIT en poussant le LIMIT vers le bas dans l’analyse Delta pendant la planification des requêtes. L’analyse delta utilise le LIMIT et le nombre de lignes au niveau du fichier et pour réduire le nombre de fichiers analysés, ce qui aide les requêtes à lire beaucoup moins de fichiers et peut accélérer les requêtes LIMIT de 10 à 100x en fonction de la taille de la table.

  • Pushdown d’agrégation dans l’analyse Delta pour SELECT COUNT(*). Les requêtes d’agrégation telles que SELECT COUNT(*) sur les tables Delta sont satisfaites à l’aide du nombre de lignes au niveau des fichiers dans les métadonnées de table Delta plutôt que de compter les lignes dans les fichiers de données sous-jacents. Cela réduit considérablement le temps de requête, car la requête a simplement besoin de lire les métadonnées de table et peut accélérer le nombre de requêtes de tables complètes de 10 à 100x.

  • Prise en charge de la collecte de statistiques au niveau des fichiers dans le cadre de la commande CONVERT TO DELTA. Ces statistiques permettent potentiellement d’accélérer les requêtes sur la table Delta. Par défaut, les statistiques sont collectées maintenant dans le cadre de la commande CONVERT TO DELTA. Pour désactiver la collecte de statistiques, spécifiez la clause NO STATISTICS dans la commande. Exemple : CONVERT TO DELTA table_name NO STATISTICS.

  • Améliorez les performances de la commande DELETE en élaguant les colonnes à lire lors de la recherche de fichiers à réécrire.

  • Correction d’un bogue dans la configuration du mode multi cluster S3 basé sur DynamoDB. La version précédente a écrit un horodatage incorrect, qui a été utilisé par la fonctionnalité TTL de DynamoDB pour nettoyer les éléments arrivés à expiration. Cette valeur d’horodatage a été corrigée et l’attribut de table a été renommé de commitTime en expireTime. Si la durée de vie est déjà activée, suivez les étapes de migration pour Delta Lake 1.2.1, 2.0.0 ou 2.1.0 vers Delta Lake 2.0.1, 2.1.1 ou version ultérieure.

  • Corrigez le comportement non déterministe pendant MERGE lors de l’utilisation de sources non déterministes.

  • Supprimez les restrictions d’utilisation de tables Delta avec mappage de colonnes dans certains cas Streaming + CDF. Auparavant, nous avions l’habitude de bloquer streaming+CDF si le mappage de colonnes de la table Delta est activé même s’il ne contient pas de colonnes RENAME ou DROP.

  • Améliorez la surveillance des requêtes de construction d’état Delta (d’autres requêtes s’exécutent dans le cadre de la planification) en les rendant visibles dans l’interface utilisateur Spark.

  • Prenez en charge plusieurs appels where() dans Optimiser l’API scala/python.

  • Prenez en charge la transmission de configurations Hadoop via l’API DeltaTable.

  • Prise en charge des noms de colonnes de partition commençant par . ou _ dans la commande CONVERT TO DELTA.

  • Améliorations des métriques dans l'historique des tables :

  • Correction des rétrogradations accidentelles de protocole avec la commande RESTORE . Jusqu'à présent, RESTORE TABLE pouvait rétrograder la version protocolaire de la table, ce qui aurait pu entraîner des lectures incohérentes avec le voyage dans le temps. Avec ce correctif, la version du protocole n’est jamais rétrogradée de la version actuelle.

  • Correction d’un bogue dans MERGE INTO lorsqu’il existe plusieurs UPDATE clauses et qu’une des UPDATEs est avec une évolution de schéma.

  • Correction d'un bug où parfois l'objet SparkSession actif n'est pas trouvé lors de l'utilisation des API Delta.

  • Correction d’un problème où le schéma de partition ne pouvait pas être défini lors de la validation initiale.

  • Interception des exceptions en cas d’échec de l’écriture last_checkpoint du fichier.

  • Correction d’un problème lors du redémarrage d’une requête de streaming avec un déclencheur AvailableNow sur une table Delta.

  • Correction d’un problème avec CDF et Streaming où le décalage n'est pas correctement mis à jour lorsqu'il n'y a aucune modification de données.

Consultez les notes de publication sources et complètes sur GitHub sur delta-io/delta.

Packages de niveau par défaut pour Java/Scala

Le tableau ci-dessous répertorie tous les packages de niveau par défaut pour Java/Scala et leurs versions respectives.

GroupId ArtifactId Version
com.aliyun aliyun-java-sdk-core 4.5.10
com.aliyun aliyun-java-sdk-kms 2.11.0
com.aliyun aliyun-java-sdk-ram 3.1.0
com.aliyun aliyun-sdk-oss 3.13.0
com.amazonaws aws-java-sdk-bundle 1.11.1026
com.chuusai shapeless_2.12 2.3.7
com.esotericsoftware kryo-shaded 4.0.2
com.esotericsoftware minlog 1.3.0
com.fasterxml.jackson jackson-annotations-2.13.4.jar
com.fasterxml.jackson jackson-core 2.13.4
com.fasterxml.jackson jackson-core-asl 1.9.13
com.fasterxml.jackson jackson-databind 2.13.4.1
com.fasterxml.jackson jackson-dataformat-cbor 2.13.4
com.fasterxml.jackson jackson-mapper-asl 1.9.13
com.fasterxml.jackson jackson-module-scala_2.12 2.13.4
com.github.joshelser dropwizard-metrics-hadoop-metrics2-reporter 0.1.2
com.github.wendykierp JTransforms 3.1
com.google.code.findbugs jsr305 3.0.0
com.google.code.gson gson 2.8.6
com.google.flatbuffers flatbuffers-java 1.12.0
com.google.guava guava 14.0.1
com.google.protobuf protobuf-java 2.5.0
com.googlecode.json-simple json-simple 1.1.1
com.jcraft jsch 0.1.54
com.jolbox bonecp 0.8.0.RELEASE
com.linkedin.isolation-forest isolation-forest_3.2.0_2.12 2.0.8
com.ning compress-lzf 1.1
com.qcloud cos_api-bundle 5.6.19
com.sun.istack istack-commons-runtime 3.0.8
com.tdunning json 1.8
com.thoughtworks.paranamer paranamer 2.8
com.twitter chill-java 0.10.0
com.twitter chill_2.12 0.10.0
com.typesafe config 1.3.4
com.zaxxer HikariCP 2.5.1
commons-cli commons-cli 1.5.0
commons-codec commons-codec 1.15
commons-collections commons-collections 3.2.2
commons-dbcp commons-dbcp 1.4
commons-io commons-io 2.11.0
commons-lang commons-lang 2.6
commons-logging commons-logging 1.1.3
commons-pool commons-pool 1.5.4.jar
dev.ludovic.netlib arpack 2.2.1
dev.ludovic.netlib blas 2.2.1
dev.ludovic.netlib lapack 2.2.1
io.airlift aircompressor 0,21
io.dropwizard.metrics metrics-core 4.2.7
io.dropwizard.metrics metrics-graphite 4.2.7
io.dropwizard.metrics metrics-jmx 4.2.7
io.dropwizard.metrics metrics-json 4.2.7
io.dropwizard.metrics metrics-jvm 4.2.7
io.netty netty-all 4.1.74.Final
io.netty netty-buffer 4.1.74.Final
io.netty netty-codec 4.1.74.Final
io.netty netty-common 4.1.74.Final
io.netty netty-handler 4.1.74.Final
io.netty netty-resolver 4.1.74.Final
io.netty netty-tcnative-classes 2.0.48.Final
io.netty netty-transport 4.1.74.Final
io.netty netty-transport-classes-epoll 4.1.74.Final
io.netty netty-transport-classes-kqueue 4.1.74.Final
io.netty netty-transport-native-epoll 4.1.74.Final-linux-aarch_64
io.netty netty-transport-native-epoll 4.1.74.Final-linux-x86_64
io.netty netty-transport-native-kqueue 4.1.74.Final-osx-aarch_64
io.netty netty-transport-native-kqueue 4.1.74.Final-osx-x86_64
io.netty netty-transport-native-unix-common 4.1.74.Final
io.opentracing opentracing-api 0.33.0
io.opentracing opentracing-noop 0.33.0
io.opentracing opentracing-util 0.33.0
jakarta.annotation jakarta.annotation-api 1.3.5
jakarta.inject jakarta.inject 2.6.1
jakarta.servlet jakarta.servlet-api 4.0.3
jakarta.validation-api 2.0.2
jakarta.ws.rs jakarta.ws.rs-api 2.1.6
jakarta.xml.bind jakarta.xml.bind-api 2.3.2
javax.activation activation 1.1.1
javax.jdo jdo-api 3.0.1
javax.transaction jta 1.1
javax.xml.bind jaxb-api 2.2.11
javolution javolution 5.5.1
jline jline 2.14.6
joda-time joda-time 2.10.13
net.razorvine pickle 1.2
net.sf.jpam jpam 1.1
net.sf.opencsv opencsv 2.3
net.sf.py4j py4j 0.10.9.5
net.sourceforge.f2j arpack_combined_all 0.1
org.antlr ST4 4.0.4
org.antlr antlr-runtime 3.5.2
org.antlr antlr4-runtime 4.8
org.apache.arrow arrow-format 7.0.0
org.apache.arrow arrow-memory-core 7.0.0
org.apache.arrow arrow-memory-netty 7.0.0
org.apache.arrow arrow-vector 7.0.0
org.apache.avro avro 1.11.0
org.apache.avro avro-ipc 1.11.0
org.apache.avro avro-mapred 1.11.0
org.apache.commons commons-collections4 4.4
org.apache.commons commons-compress 1.21
org.apache.commons commons-crypto 1.1.0
org.apache.commons commons-lang3 3.12.0
org.apache.commons commons-math3 3.6.1
org.apache.commons commons-pool2 2.11.1
org.apache.commons commons-text 1.10.0
org.apache.curator curator-client 2.13.0
org.apache.curator curator-framework 2.13.0
org.apache.curator curator-recipes 2.13.0
org.apache.derby derby 10.14.2.0
org.apache.hadoop hadoop-aliyun 3.3.3.5.2-90111858
org.apache.hadoop hadoop-annotations 3.3.3.5.2-90111858
org.apache.hadoop hadoop-aws 3.3.3.5.2-90111858
org.apache.hadoop hadoop-azure 3.3.3.5.2-90111858
org.apache.hadoop hadoop-azure-datalake 3.3.3.5.2-90111858
org.apache.hadoop hadoop-client-api 3.3.3.5.2-90111858
org.apache.hadoop hadoop-client-runtime 3.3.3.5.2-90111858
org.apache.hadoop hadoop-cloud-storage 3.3.3.5.2-90111858
org.apache.hadoop hadoop-cos 3.3.3.5.2-90111858
org.apache.hadoop hadoop-openstack 3.3.3.5.2-90111858
org.apache.hadoop hadoop-shaded-guava 1.1.1
org.apache.hadoop hadoop-yarn-server-web-proxy 3.3.3.5.2-90111858
org.apache.hive hive-beeline 2.3.9
org.apache.hive hive-cli 2.3.9
org.apache.hive hive-common 2.3.9
org.apache.hive hive-exec 2.3.9
org.apache.hive hive-jdbc 2.3.9
org.apache.hive hive-llap-common 2.3.9
org.apache.hive hive-metastore 2.3.9
org.apache.hive hive-serde 2.3.9
org.apache.hive hive-service-rpc 3.1.2
org.apache.hive hive-shims-0.23 2.3.9
org.apache.hive hive-shims 2.3.9
org.apache.hive hive-shims-common 2.3.9
org.apache.hive hive-shims-scheduler 2.3.9
org.apache.hive hive-storage-api 2.7.2
org.apache.hive hive-vector-code-gen 2.3.9
org.apache.httpcomponents httpclient 4.5.13
org.apache.httpcomponents httpcore 4.4.14
org.apache.httpcomponents httpmime 4.5.13
org.apache.httpcomponents.client5 httpclient5 5.1.3
org.apache.ivy ivy 2.5.1
org.apache.kafka kafka-clients 2.8.1
org.apache.logging.log4j log4j-1.2-api 2.17.2
org.apache.logging.log4j log4j-api 2.17.2
org.apache.logging.log4j log4j-core 2.17.2
org.apache.logging.log4j log4j-slf4j-impl 2.17.2
org.apache.orc orc-core 1.7.6
org.apache.orc orc-mapreduce 1.7.6
org.apache.orc orc-shims 1.7.6
org.apache.parquet parquet-column 1.12.3
org.apache.parquet parquet-common 1.12.3
org.apache.parquet parquet-encoding 1.12.3
org.apache.parquet parquet-format-structures 1.12.3
org.apache.parquet parquet-hadoop 1.12.3
org.apache.parquet parquet-jackson 1.12.3
org.apache.qpid proton-j 0.33.8
org.apache.thrift libfb303 0.9.3
org.apache.thrift libthrift 0.12.0
org.apache.yetus audience-annotations 0.5.0
org.apiguardian apiguardian-api 1.1.0
org.codehaus.janino commons-compiler 3.0.16
org.codehaus.janino janino 3.0.16
org.codehaus.jettison jettison 1.1
org.datanucleus datanucleus-api-jdo 4.2.4
org.datanucleus datanucleus-core 4.1.17
org.datanucleus datanucleus-rdbms 4.1.19
org.datanucleusjavax.jdo 3.2.0-m3
org.eclipse.jdt core 1.1.2
org.eclipse.jetty jetty-util 9.4.48.v20220622
org.eclipse.jetty jetty-util-ajax 9.4.48.v20220622
org.fusesource.leveldbjni leveldbjni-all 1.8
org.glassfish.hk2 hk2-api 2.6.1
org.glassfish.hk2 hk2-locator 2.6.1
org.glassfish.hk2 hk2-utils 2.6.1
org.glassfish.hk2 osgi-resource-locator 1.0.3
org.glassfish.hk2.external aopalliance-repackaged 2.6.1
org.glassfish.jaxb jaxb-runtime 2.3.2
org.glassfish.jersey.containers jersey-container-servlet 2,36
org.glassfish.jersey.containers jersey-container-servlet-core 2,36
org.glassfish.jersey.core jersey-client 2,36
org.glassfish.jersey.core jersey-common 2,36
org.glassfish.jersey.core jersey-server 2,36
org.glassfish.jersey.inject jersey-hk2 2,36
org.ini4j ini4j 0.5.4
org.javassist javassist 3.25.0-GA
org.javatuples javatuples 1.2
org.jdom jdom2 2.0.6
org.jetbrains annotations 17.0.0
org.jodd jodd-core 3.5.2
org.json4s json4s-ast_2.12 3.7.0-M11
org.json4s json4s-core_2.12 3.7.0-M11
org.json4s json4s-jackson_2.12 3.7.0-M11
org.json4s json4s-scalap_2.12 3.7.0-M11
org.junit.jupiter junit-jupiter 5.5.2
org.junit.jupiter junit-jupiter-api 5.5.2
org.junit.jupiter junit-jupiter-engine 5.5.2
org.junit.jupiter junit-jupiter-params 5.5.2
org.junit.platform junit-platform-commons 1.5.2
org.junit.platform junit-platform-engine 1.5.2
org.lz4 lz4-java 1.8.0
org.objenesis objenesis 3.2
org.openpnp opencv 3.2.0-1
org.opentest4j opentest4j 1.2.0
org.postgresql postgresql 42.2.9
org.roaringbitmap RoaringBitmap 0.9.25
org.roaringbitmap shims 0.9.25
org.rocksdb rocksdbjni 6.20.3
org.scala-lang scala-compiler 2.12.15
org.scala-lang scala-library 2.12.15
org.scala-lang scala-reflect 2.12.15
org.scala-lang.modules scala-collection-compat_2.12 2.1.1
org.scala-lang.modules scala-java8-compat_2.12 0.9.0
org.scala-lang.modules scala-parser-combinators_2.12 1.1.2
org.scala-lang.modules scala-xml_2.12 1.2.0
org.scalactic scalactic_2.12 3.2.14
org.scalanlp breeze-macros_2.12 1.2
org.scalanlp breeze_2.12 1.2
org.slf4j jcl-over-slf4j 1.7.32
org.slf4j jul-to-slf4j 1.7.32
org.slf4j slf4j-api 1.7.32
org.typelevel algebra_2.12 2.0.1
org.typelevel cats-kernel_2.12 2.1.1
org.typelevel spire-macros_2.12 0.17.0
org.typelevel spire-platform_2.12 0.17.0
org.typelevel spire-util_2.12 0.17.0
org.xerial.snappy snappy-java 1.1.8.4
oro oro 2.0.8
pl.edu.icm JLargeArrays 1.5

Packages de niveau par défaut pour Python

Le tableau ci-dessous répertorie tous les packages de niveau par défaut pour Python et leurs versions respectives.

Bibliothèque Version Bibliothèque Version Bibliothèque Version
_libgcc_mutex 0.1 ipykernel 6.22.0 pickleshare 0.7.5
_openmp_mutex 4.5 ipython 8.9.0 pillow 9.4.0
_py-xgboost-mutex 2.0 ipywidgets 8.0.4 pip 23.0.1
absl-py 1.4.0 isodate 0.6.1 pixman 0.40.0
adal 1.2.7 itsdangerous 2.1.2 pkginfo 1.9.6
adlfs 2023.1.0 jack 1.9.22 pkgutil-resolve-name 1.3.10
aiohttp 3.8.4 jedi 0.18.2 platformdirs 3.2.0
aiosignal 1.3.1 jeepney 0.8.0 plotly 5.13.0
alsa-lib 1.2.8 jinja2 3.1.2 ply 3.11
anyio 3.6.2 jmespath 1.0.1 pooch 1.7.0
argcomplete 2.1.2 joblib 1.2.0 portalocker 2.7.0
argon2-cffi 21.3.0 jpeg 9e pox 0.3.2
argon2-cffi-bindings 21.2.0 jsonpickle 2.2.0 ppft 1.7.6.6
arrow-cpp 11.0.0 jsonschema 4.17.3 prettytable 3.6.0
asttokens 2.2.1 jupyter_client 8.1.0 prometheus_client 0.16.0
astunparse 1.6.3 jupyter_core 5.3.0 prompt-toolkit 3.0.38
async-timeout 4.0.2 jupyter_events 0.6.3 protobuf 4.21.12
atk-1.0 2.38.0 jupyter_server 2.2.1 psutil 5.9.4
attr 2.5.1 jupyter_server_terminals 0.4.4 pthread-stubs 0,4
attrs 22.2.0 jupyterlab_pygments 0.2.2 ptyprocess 0.7.0
aws-c-auth 0.6.24 jupyterlab_widgets 3.0.7 pulseaudio 16,1
aws-c-cal 0.5.20 keras 2.11.0 pulseaudio-client 16,1
aws-c-common 0.8.11 keras-preprocessing 1.1.2 pulseaudio-daemon 16,1
aws-c-compression 0.2.16 keyutils 1.6.1 pure_eval 0.2.2
aws-c-event-stream 0.2.18 kiwisolver 1.4.4 py-xgboost 1.7.1
aws-c-http 0.7.4 knack 0.10.1 py4j 0.10.9.5
aws-c-io 0.13.17 krb5 1.20.1 pyarrow 11.0.0
aws-c-mqtt 0.8.6 lame=3.100 3.100 pyasn1 0.4.8
aws-c-s3 0.2.4 lcms2 2.15 pyasn1-modules 0.2.7
aws-c-sdkutils 0.1.7 ld_impl_linux-64 2.40 pycosat 0.6.4
aws-checksums 0.1.14 lerc 4.0.0 pycparser 2.21
aws-crt-cpp 0.19.7 liac-arff 2.5.0 pygments 2.14.0
aws-sdk-cpp 1.10.57 libabseil 20220623.0 pyjwt 2.6.0
azure-common 1.1.28 libaec 1.0.6 pynacl 1.5.0
azure-core 1.26.4 libarrow 11.0.0 pyodbc 4.0.35
azure-datalake-store 0.0.51 libblas 3.9.0 pyopenssl 23.1.1
azure-graphrbac 0.61.1 libbrotlicommon 1.0.9 pyparsing 3.0.9
azure-identity 1.12.0 libbrotlidec 1.0.9 pyperclip 1.8.2
azure-mgmt-authorization 3.0.0 libbrotlienc 1.0.9 pyqt 5.15.7
azure-mgmt-containerregistry 10.1.0 libcap 2.67 pyqt5-sip 12.11.0
azure-mgmt-core 1.4.0 libcblas 3.9.0 pyrsistent 0.19.3
azure-mgmt-keyvault 10.2.1 libclang 15.0.7 pysocks 1.7.1
azure-mgmt-resource 21.2.1 libclang13 15.0.7 pyspark 3.3.1
azure-mgmt-storage 20.1.0 libcrc32c 1.1.2 python 3.10.10
azure-storage-blob 12.15.0 libcups 2.3.3 python_abi 3.10
azure-storage-file-datalake 12.9.1 libcurl 7.88.1 python-dateutil 2.8.2
azureml-core 1.49.0 libdb 6.2.32 python-fastjsonschema 2.16.3
backcall 0.2.0 libdeflate 1.17 python-flatbuffers 23.1.21
backports 1.0 libebm 0.3.1 python-graphviz 0.20.1
backports-tempfile 1.0 libedit 3.1.20191231 python-json-logger 2.0.7
backports-weakref 1.0.post1 libev 4.33 pytorch 1.13.1
backports.functools_lru_cache 1.6.4 libevent 2.1.10 pytz 2022.7.1
bcrypt 3.2.2 libexpat 2.5.0 pyu2f 0.1.5
beautifulsoup4 4.11.2 libffi 3.4.2 pywin32-on-windows 0.1.0
bleach 6.0.0 libflac 1.4.2 pyyaml 6.0
blinker 1.6.1 libgcc-ng 12.2.0 pyzmq 25.0.2
brotli 1.0.9 libgcrypt 1.10.1 qt-main 5.15.8
brotli-bin 1.0.9 libgd 2.3.3 re2 2023.02.01
brotli-python 1.0.9 libgfortran-ng 12.2.0 readline 8,2
brotlipy 0.7.0 libgfortran5 12.2.0 regex 2022.10.31
bzip2 1.0.8 libglib 2.74.1 requests 2.28.2
c-ares 1.18.1 libgoogle-cloud 2.7.0 requests-oauthlib 1.3.1
ca-certificates 2022.12.7 libgpg-error 1,46 rfc3339-validator 0.1.4
cached_property 1.5.2 libgrpc 1.51.1 rfc3986-validator 0.1.1
cached-property 1.5.2 libhwloc 2.9.0 rsa 4,9
cachetools 5.3.0 libiconv 1.17 ruamel_yaml 0.15.80
cairo 1.16.0 liblapack 3.9.0 ruamel_yaml 0.17.21
certifi 2022.12.7 libllvm11 11.1.0 ruamel.yaml.clib 0.2.7
cffi 1.15.1 libllvm15 15.0.7 s2n 1.3.37
charset-normalizer 2.1.1 libnghttp2 1.52.0 salib 1.4.7
click 8.1.3 libnsl 2.0.0 scikit-learn 1.2.0
cloudpickle 2.2.1 libogg 1.3.4 scipy 1.10.1
colorama 0.4.6 libopenblas=0.3.12 0.3.21 seaborn 0.12.2
comm 0.1.3 libopus 1.3.1 seaborn-base 0.12.2
conda-package-handling 2.0.2 libpng 1.6.39 secretstorage 3.3.3
conda-package-streaming 0.7.0 libpq 15.2 send2trash 1.8.0
configparser 5.3.0 libprotobuf 3.21.12 setuptools 67.6.1
contextlib2 21.6.0 librsvg 2.54.4 shap 0.41.0
contourpy 1.0.7 libsndfile 1.2.0 sip 6.7.7
chiffrement 40.0.1 libsodium 1.0.18 six 1.16.0
cycler 0.11.0 libsqlite 3.40.0 sleef 3.5.1
tiret 2.9.2 libssh2 1.10.0 segment 0.0.7
dash_cytoscape 0.2.0 libstdcxx-ng 12.2.0 smmap 3.0.5
dash-core-components 2.0.0 libsystemd0 253 snappy 1.1.10
dash-html-components 2.0.0 libthrift 0.18.0 sniffio 1.3.0
dash-table 5.0.0 libtiff 4.5.0 soupsieve 2.3.2.post1
databricks-cli 0.17.6 libtool==2.4.2 2.4.7 sqlalchemy 2.0.9
dbus 1.13.6 libudev1 253 sqlparse 0.4.3
debugpy 1.6.7 libutf8proc 2.8.0 stack_data 0.6.2
decorator 5.1.1 libuuid 2.38.1 statsmodels 0.13.5
defusedxml 0.7.1 libuv 1.44.2 synapseml-mlflow 1.0.14
dill 0.3.6 libvorbis 1.3.7 synapseml-utils 1.0.7
distlib 0.3.6 libwebp 1.2.4 tabulate 0.9.0
docker-py 6.0.0 libwebp-base 1.2.4 tbb 2021.8.0
entrypoints 0,4 libxcb 1.13 tenacity 8.2.2
et_xmlfile 1.1.0 libxgboost 1.7.1 tensorboard 2.11.2
exécuter 1.2.0 libxkbcommon 1.5.0 tensorboard-data-server 0.6.1
expat 2.5.0 libxml2 2.10.3 tensorboard-plugin-wit 1.8.1
Fftw 3.3.10 libxslt 1.1.37 tensorflow 2.11.0
filelock 3.11.0 libzlib 1.2.13 tensorflow-base 2.11.0
flask 2.2.3 lightgbm 3.3.3 tensorflow-estimator 2.11.0
flask-compress 1.13 lime 0.2.0.1 termcolor 2.2.0
flatbuffers 22.12.06 llvm-openmp 16.0.1 terminado 0.17.1
flit-core 3.8.0 llvmlite 0.39.1 threadpoolctl 3.1.0
fluent-logger 0.10.0 lxml 4.9.2 tinycss2 1.2.1
font-ttf-dejavu-sans-mono 2,37 lz4-c 1.9.4 tk 8.6.12
font-ttf-inconsolata 3.000 markdown 3.4.1 toml 0.10.2
font-ttf-source-code-pro 2.038 markupsafe 2.1.2 toolz 0.12.0
font-ttf-ubuntu 0.83 matplotlib 3.6.3 tornado 6.2
fontconfig 2.14.2 matplotlib-base 3.6.3 tqdm 4.65.0
fonts-conda-ecosystem 1 matplotlib-inline 0.1.6 traitlets 5.9.0
fonts-conda-forge 1 mistune 2.0.5 treeinterpreter 0.2.2
fonttools 4.39.3 mkl 2022.2.1 typed-ast 1.4.3
freetype 2.12.1 mlflow-skinny 2.1.1 typing_extensions 4.5.0
fribidi 1.0.10 mpg123 1.31.3 typing-extensions 4.5.0
frozenlist 1.3.3 msal 1.21.0 tzdata 2023c
fsspec 2023.4.0 msal_extensions 1.0.0 unicodedata2 15.0.0
gast 0.4.0 msgpack 1.0.5 unixodbc 2.3.10
gdk-pixbuf 2.42.10 msrest 0.7.1 urllib3 1.26.14
geographiclib 1,52 msrestazure 0.6.4 virtualenv 20.19.0
geopy 2.3.0 multidict 6.0.4 wcwidth 0.2.6
gettext 0.21.1 multiprocess 0.70.14 webencodings 0.5.1
gevent 22.10.2 munkres 1.1.4 websocket-client 1.5.1
gflags 2.2.2 mypy 0.780 werkzeug 2.2.3
giflib 5.2.1 mypy-extensions 0.4.4 wheel 0.40.0
gitdb 4.0.10 mysql-common 8.0.32 widgetsnbextension 4.0.7
gitpython 3.1.31 mysql-libs 8.0.32 wrapt 1.15.0
glib 2.74.1 nbclient 0.7.3 xcb-util 0.4.0
glib-tools 2.74.1 nbconvert-core 7.3.0 xcb-util-image 0.4.0
glog 0.6.0 nbformat 5.8.0 xcb-util-keysyms 0.4.0
google-auth 2.17.2 ncurses 6.3 xcb-util-renderutil 0.3.9
google-auth-oauthlib 0.4.6 ndg-httpsclient 0.5.1 xcb-util-wm 0.4.1
google-pasta 0.2.0 nest-asyncio 1.5.6 xgboost 1.7.1
graphite2 1.3.13 nspr 4.35 xkeyboard-config 2,38
graphviz 2.50.0 nss 3.89 xorg-kbproto 1.0.7
greenlet 2.0.2 numba 0.56.4 xorg-libice 1.0.10
grpcio 1.51.1 numpy 1.23.5 xorg-libsm 1.2.3
gson 0.0.3 oauthlib 3.2.2 xorg-libx11 1.8.4
gst-plugins-base 1.22.0 openjpeg 2.5.0 xorg-libxau 1.0.9
gstreamer 1.22.0 openpyxl 3.1.0 xorg-libxdmcp 1.1.3
gstreamer-orc 0.4.33 openssl 3.1.0 xorg-libxext 1.3.4
gtk2 2.24.33 opt_einsum 3.3.0 xorg-libxrender 0.9.10
gts 0.7.6 orc 1.8.2 xorg-renderproto 0.11.1
h5py 3.8.0 empaquetage 21,3 xorg-xextproto 7.3.0
harfbuzz 6.0.0 pandas 1.5.3 xorg-xproto 7.0.31
hdf5 1.14.0 pandasql 0.7.3 xz 5.2.6
html5lib 1.1 pandocfilters 1.5.0 yaml 0.2.5
humanfriendly 10.0 pango 1.50.14 yarl 1.8.2
icu 70.1 paramiko 2.12.0 zeromq 4.3.4
idna 3.4 parquet-cpp 1.5.1 zipp 3.15.0
imageio 2.25.0 parso 0.8.3 zlib 1.2.13
importlib_metadata 5.2.0 pathos 0.3.0 zope.event 4.6
importlib_resources 5.12.0 pathspec 0.11.1 zope.interface 6.0
importlib-metadata 5.2.0 patsy 0.5.3 zstandard 0.19.0
interpret 0.3.1 pcre2 10.40 zstd 1.5.2
interpret-core 0.3.1 pexpect 4.8.0

Packages de niveau par défaut pour R

Le tableau ci-dessous répertorie tous les packages de niveau par défaut pour R et leurs versions respectives.

Bibliothèque Version Bibliothèque Version Bibliothèque Version
askpass 1.1 highcharter 0.9.4 readr 2.1.3
assertthat 0.2.1 highr 0.9 readxl 1.4.1
backports 1.4.1 hms 1.1.2 recipes 1.0.3
base64enc 0.1-3 htmltools 0.5.3 rematch 1.0.1
bit 4.0.5 htmlwidgets 1.5.4 rematch2 2.1.2
bit64 4.0.5 httpcode 0.3.0 remotes 2.4.2
objet BLOB 1.2.3 httpuv 1.6.6 reprex 2.0.2
brew 1,0-8 httr 1.4.4 reshape2 1.4.4
brio 1.1.3 ids 1.0.1 rjson 0.2.21
broom 1.0.1 igraph 1.3.5 rlang 1.0.6
bslib 0.4.1 infer 1.0.3 rlist 0.4.6.2
cachem 1.0.6 ini 0.3.1 rmarkdown 2.18
callr 3.7.3 ipred 0.9-13 RODBC 1.3-19
caret 6.0-93 isoband 0.2.6 roxygen2 7.2.2
cellranger 1.1.0 iterators 1.0.14 rprojroot 2.0.3
cli 3.4.1 jquerylib 0.1.4 rsample 1.1.0
clipr 0.8.0 jsonlite 1.8.3 rstudioapi 0.14
horloge 0.6.1 knitr 1,41 rversions 2.1.2
colorspace 2.0-3 labeling 0.4.2 rvest 1.0.3
commonmark 1.8.1 later 1.3.0 sass 0.4.4
config 0.3.1 lava 1.7.0 scales 1.2.1
conflicted 1.1.0 lazyeval 0.2.2 selectr 0.4-2
coro 1.0.3 lhs 1.1.5 sessioninfo 1.2.2
cpp11 0.4.3 cycle de vie 1.0.3 shiny 1.7.3
crayon 1.5.2 lightgbm 3.3.3 curseur 0.3.0
credentials 1.3.2 listenv 0.8.0 sourcetools 0.1.7
crosstalk 1.2.0 lobstr 1.1.2 sparklyr 1.7.8
crul 1.3 lubridate 1.9.0 SQUAREM 2021.1
curl 4.3.3 magrittr 2.0.3 stringi 1.7.8
data.table 1.14.6 maps 3.4.1 stringr 1.4.1
DBI 1.1.3 memoise 2.0.1 sys 3.4.1
dbplyr 2.2.1 mime 0,12 systemfonts 1.0.4
desc 1.4.2 miniUI 0.1.1.1 testthat 3.1.5
devtools 2.4.5 modeldata 1.0.1 textshaping 0.3.6
dials 1.1.0 modelenv 0.1.0 tibble 3.1.8
DiceDesign 1,9 ModelMetrics 1.2.2.2 tidymodels 1.0.0
diffobj 0.3.5 modelr 0.1.10 tidyr 1.2.1
digest 0.6.30 munsell 0.5.0 tidyselect 1.2.0
downlit 0.4.2 numDeriv 2016.8-1.1 tidyverse 1.3.2
dplyr 1.0.10 openssl 2.0.4 timechange 0.1.1
dtplyr 1.2.2 parallelly 1.32.1 timeDate 4021.106
e1071 1.7-12 parsnip 1.0.3 tinytex 0.42
ellipsis 0.3.2 patchwork 1.1.2 torch 0.9.0
evaluate 0,18 pillar 1.8.1 triebeard 0.3.0
fansi 1.0.3 pkgbuild 1.4.0 TTR 0.24.3
farver 2.1.1 pkgconfig 2.0.3 tune 1.0.1
fastmap 1.1.0 pkgdown 2.0.6 tzdb 0.3.0
fontawesome 0.4.0 pkgload 1.3.2 urlchecker 1.0.1
forcats 0.5.2 plotly 4.10.1 urltools 1.7.3
foreach 1.5.2 plyr 1.8.8 usethis 2.1.6
forge 0.2.0 praise 1.0.0 utf8 1.2.2
fs 1.5.2 prettyunits 1.1.1 uuid 1.1-0
furrr 0.3.1 pROC 1.18.0 vctrs 0.5.1
future 1.29.0 processx 3.8.0 viridisLite 0.4.1
future.apply 1.10.0 prodlim 2019.11.13 vroom 1.6.0
gargle 1.2.1 profvis 0.3.7 waldo 0.4.0
generics 0.1.3 progress 1.2.2 warp 0.2.0
gert 1.9.1 progressr 0.11.0 whisker 0,4
ggplot2 3.4.0 promises 1.2.0.1 withr 2.5.0
gh 1.3.1 proxy 0.4-27 workflows 1.1.2
gistr 0.9.0 pryr 0.1.5 workflowsets 1.0.0
gitcreds 0.1.2 ps 1.7.2 xfun 0,35
globals 0.16.2 purrr 0.3.5 xgboost 1.6.0.1
glue 1.6.2 quantmod 0.4.20 XML 3.99-0.12
googledrive 2.0.0 r2d3 0.2.6 xml2 1.3.3
googlesheets4 1.0.1 R6 2.5.1 xopen 1.0.0
gower 1.0.0 ragg 1.2.4 xtable 1.8-4
GPfit 1,0-8 rappdirs 0.3.3 xts 0.12.2
gtable 0.3.1 rbokeh 0.5.2 yaml 2.3.6
hardhat 1.2.0 rcmdcheck 1.4.0 yardstick 1.1.0
haven 2.5.1 RColorBrewer 1.1-3 zip 2.2.2
hexbin 1.28.2 Rcpp 1.0.9 zoo 1.8-11

Migration entre différentes versions d’Apache Spark

La migration de vos charges de travail vers Fabric Runtime 1.1 (Apache Spark 3.3) à partir d’une version antérieure d’Apache Spark implique une série d’étapes pour garantir une migration fluide. Ce guide décrit les étapes nécessaires pour vous aider à migrer efficacement.

  1. Passez en revue les notes de publication de Fabric Runtime 1.1, y compris la vérification des composants et des packages au niveau par défaut inclus dans le runtime, pour comprendre les nouvelles fonctionnalités et les améliorations.

  2. Vérifiez la compatibilité de votre configuration actuelle et de toutes les bibliothèques associées, y compris les dépendances et les intégrations. Passez en revue les guides de migration pour identifier les changements cassants potentiels :

  3. Déplacez vos charges de travail vers Fabric et assurez-vous que vous disposez de sauvegardes de vos fichiers de données et de configuration au cas où vous deviez revenir à la version précédente.

  4. Mettez à jour toutes les dépendances que la nouvelle version d'Apache Spark ou d'autres composants liés à Fabric Runtime 1.1 pourraient avoir un impact, y compris les bibliothèques ou connecteurs tiers. Assurez-vous de tester les dépendances mises à jour dans un environnement intermédiaire avant de les déployer en production.

  5. Mettez à jour la configuration d'Apache Spark sur votre charge de travail, notamment en mettant à jour les paramètres de configuration, en ajustant les allocations de mémoire et en modifiant les configurations obsolètes.

  6. Modifiez vos applications Apache Spark (ordinateurs portables et définitions de tâches Apache Spark) pour utiliser les nouvelles API et fonctionnalités introduites dans Fabric Runtime 1.1 et Apache Spark 3.3. Vous devrez peut-être mettre à jour votre code pour prendre en charge les API obsolètes ou supprimées, et refactoriser vos applications pour profiter des améliorations de performances et des nouvelles fonctionnalités.

  7. Testez minutieusement vos applications mises à jour dans un environnement intermédiaire pour garantir la compatibilité et la stabilité avec Apache Spark 3.3. Effectuez des tests de performances, des tests fonctionnels et des tests de régression pour identifier et résoudre tout problème pouvant survenir pendant le processus de migration.

  8. Après avoir validé vos applications dans un environnement intermédiaire, déployez les applications mises à jour dans votre environnement de production. Surveillez les performances et la stabilité de vos applications après la migration pour identifier les problèmes qui doivent être résolus.

  9. Mettez à jour votre documentation interne et vos supports de formation pour refléter les modifications introduites dans Fabric Runtime 1.1. Assurez-vous que les membres de votre équipe sont familiarisés avec les nouvelles fonctionnalités et les améliorations pour optimiser les avantages de la migration.