Runtime Apache Spark dans Fabric

Microsoft Fabric Runtime est une plateforme intégrée à Azure basée sur Apache Spark qui permet l’exécution et la gestion des expériences d’ingénierie des données et de science des données. Il combine des composants clés provenant de sources internes et open source, offrant ainsi aux clients une solution complète. Par souci de simplicité, nous faisons référence à Microsoft Fabric Runtime optimisé par Apache Spark en tant que Runtime Fabric.

Important

Microsoft Fabric est en préversion.

Principaux composants du runtime Fabric :

  • Apache Spark : une bibliothèque d’informatique distribuée open source puissante pour permettre le traitement des données et les tâches d’analyse à grande échelle. Apache Spark fournit une plateforme polyvalente et hautes performances pour les expériences d’ingénierie des données et de science des données.

  • Delta Lake : couche de stockage open source qui apporte des transactions ACID et d’autres fonctionnalités de fiabilité des données à Apache Spark. Intégré au runtime Microsoft Fabric, Delta Lake améliore les fonctionnalités de traitement des données et garantit la cohérence des données entre plusieurs opérations simultanées.

  • Packages de niveau par défaut pour Java/Scala, Python et R afin de prendre en charge divers langages et environnements de programmation. Ces packages sont automatiquement installés et configurés, ce qui permet aux développeurs d’appliquer leurs langages de programmation préférés pour les tâches de traitement des données.

  • Le runtime Microsoft Fabric repose sur un système d’exploitation open source (Ubuntu) robuste, garantissant ainsi la compatibilité avec diverses configurations matérielles et configurations système requises.

Runtime 1.1

Microsoft Fabric Runtime 1.1 est le runtime par défaut et actuellement le seul runtime proposé dans la plateforme Microsoft Fabric. Les composants principaux runtime 1.1 sont les suivants :

  • Système d’exploitation : Ubuntu 18.04
  • Java : 1.8.0_282
  • Scala : 2.12.15
  • Python : 3.10
  • Delta Lake : 2.2
  • R: 4.2.2

Capture d’écran montrant où sélectionner la version du runtime.

Microsoft Fabric Runtime 1.1 est fourni avec une collection de packages de niveau par défaut, notamment une installation complète d’Anaconda et des bibliothèques couramment utilisées pour Java/Scala, Python et R. Ces bibliothèques sont automatiquement incluses lors de l’utilisation de notebooks ou de travaux dans la plateforme Microsoft Fabric. Reportez-vous à la documentation pour obtenir la liste complète des bibliothèques.

Microsoft Fabric déploie régulièrement des mises à jour de maintenance pour Runtime 1.1, fournissant des correctifs de bogues, des améliorations des performances et des correctifs de sécurité. Rester à jour garantit des performances et une fiabilité optimales pour vos tâches de traitement des données.

Améliorations et nouvelles fonctionnalités

Apache Spark 3.3.1

Voici un résumé étendu des principales nouvelles fonctionnalités liées à Apache Spark version 3.3.0 et 3.3.1 :

  • Filtrage au niveau des lignes : améliorez les performances des jointures en préfiltrant un côté tant qu’il n’y a pas d’impact sur la dépréciation ou la régression.oin à l’aide d’un filtre Bloom et d’un prédicat IN générés à partir des valeurs de l’autre côté de la jointure (SPARK-32268)

  • Améliorer la compatibilité de Spark avec les améliorations sql standard:ANSI (SPARK-38860)

  • Améliorations des messages d’erreur pour identifier les problèmes plus rapidement et prendre les mesures nécessaires pour les résoudre (SPARK-38781)

  • Prend en charge les types complexes pour le lecteur vectorisé Parquet. Auparavant, le lecteur vectorisé Parquet ne prenait pas en charge le type de colonne imbriquée (struct, array et map). Apache Spark 3.3 contient une implémentation de lecteur vectorisé de colonnes imbriquées pour FB-ORC dans notre duplication interne de Spark. Elle a un impact sur l’amélioration des performances par rapport au lecteur non surveillé lors de la lecture des colonnes imbriquées. En outre, cette implémentation peut également aider à améliorer les performances des colonnes non imbriquées lors de la lecture de colonnes non imbriquées et imbriquées ensemble dans une requête (SPARK-34863)

  • Permet aux utilisateurs d’interroger les métadonnées des fichiers d’entrée pour tous les formats de fichier, de les exposer en tant que colonnes masquées intégrées , ce qui signifie que les utilisateurs ne peuvent les voir que lorsqu’ils les référencent explicitement (par exemple, chemin d’accès et nom de fichier) (SPARK-37273)

  • Mise à disposition d’un profileur pour les fonctions définies par l’utilisateur Python/Pandas (SPARK-37443)

  • Auparavant, les requêtes de diffusion en continu avec Trigger, qui chargeait toutes les données disponibles dans un seul lot. Pour cette raison, la quantité de données que les requêtes pouvaient traiter était limitée, ou le pilote Spark serait en mémoire insuffisante. À présent, présentation de Trigger.AvailableNow pour l’exécution de requêtes de diffusion en continu comme Déclencher une fois dans plusieurs lots (SPARK-36533)

  • Fonctionnalités push down DS V2 plus complètes (SPARK-38788)

  • Exécution propagée dans un environnement Kubernetes (SPARK-37810)

  • Prise en charge des planificateurs Kubernetes personnalisés ( SPARK-36057)

  • Migration de log4j 1 vers log4j 2 (SPARK-37814) pour obtenir :

    • Performances : Log4j 2 est plus rapide que Log4j 1. Log4j 2 utilise la journalisation asynchrone par défaut, ce qui peut améliorer considérablement les performances.

    • Flexibilité : Log4j 2 offre plus de flexibilité en termes de configuration. Il prend en charge plusieurs formats de configuration, notamment XML, JSON et YAML.

    • Extensibilité : Log4j 2 est conçu pour être extensible. Il permet aux développeurs de créer des plug-ins et des appenders personnalisés pour étendre les fonctionnalités de l’infrastructure de journalisation.

    • Sécurité : Log4j 2 offre de meilleures fonctionnalités de sécurité que Log4j 1. Il prend en charge le chiffrement et les couches de socket sécurisées pour une communication sécurisée entre les applications.

    • Simplicité : Log4j 2 est plus simple à utiliser que Log4j 1. Il dispose d’une API plus intuitive et d’un processus de configuration plus simple.

  • Introduire la lecture aléatoire sur SinglePartition pour améliorer le parallélisme et corriger la régression des performances pour les jointures dans Spark 3.3 et Spark 3.2 (SPARK-40703)

  • Optimiser la règle TransposeWindow pour étendre les cas applicables et optimiser la complexité temporelle (SPARK-38034)

  • Pour avoir une parité dans l’exécution de TimeTravel via SQL et l’option Dataframe, prenez en chargetimestamp en secondes pour TimeTravel à l’aide des options Dataframe (SPARK-39633])

  • Optimiser le triglobal sur RepartitionByExpression pour enregistrer un tri local (SPARK-39911)

  • Vérifiez que le partitionnement desortie est spécifié par l’utilisateur dans AQE (SPARK-39915)

  • Mettre à jour les case activée en colonnes Parquet V2 pour les champs imbriqués (SPARK-39951)

  • Lecture dans un fichier Parquet partitionné sur disque par une colonne de type « Octet » (SPARK-40212)

  • Correction de l’élagage des colonnes dans CSV lorsque _corrupt_record est sélectionné (SPARK-40468)

Delta Lake 2.2

Les principales fonctionnalités de cette version sont les suivantes :

  • LIMIT pushdown dans l’analyse Delta. Améliorez les performances des requêtes contenant LIMIT des clauses en poussant le vers le bas dans l’analyse Delta pendant la LIMIT planification des requêtes. L’analyse delta utilise le LIMIT nombre de lignes au niveau du fichier et pour réduire le nombre de fichiers analysés, ce qui permet aux requêtes de lire beaucoup moins de fichiers et peut accélérer LIMIT les requêtes de 10 à 100 fois en fonction de la taille de la table.

  • Pushdown d’agrégation dans l’analyse Delta pour SELECT COUNT(*). Les requêtes d’agrégation telles que SELECT COUNT(*) sur les tables Delta sont satisfaites à l’aide du nombre de lignes au niveau du fichier dans les métadonnées de table Delta plutôt que de compter les lignes dans les fichiers de données sous-jacents. Cela réduit considérablement le temps de requête, car la requête doit simplement lire les métadonnées de la table et peut accélérer les requêtes de nombre de tables complètes de 10 à 100 fois.

  • Prise en charge de la collecte de statistiques au niveau du fichier dans le cadre de la commande CONVERT TO DELTA. Ces statistiques permettent potentiellement d’accélérer les requêtes sur la table Delta. Par défaut, les statistiques sont collectées maintenant dans le cadre de la commande CONVERT TO DELTA. Pour désactiver la collecte de statistiques, spécifiez NO STATISTICS la clause dans la commande . Exemple : CONVERT TO DELTA table_name NO STATISTICS

  • Améliorez les performances de la commande DELETE en élagant les colonnes à lire lors de la recherche de fichiers à réécrire.

  • Correction d’un bogue dans la configuration du mode multi-cluster S3 basé sur DynamoDB. La version précédente a écrit un horodatage incorrect, qui a été utilisé par la fonctionnalité TTL de DynamoDB pour propre éléments expirés. Cette valeur d’horodatage a été corrigée et l’attribut de table renommé en commitTimeexpireTime. Si la durée de vie est déjà activée, suivez les étapes de migration ici.

  • Corrigez le comportement non déterministe pendant MERGE lors de l’utilisation de sources non déterministes.

  • Supprimez les restrictions d’utilisation des tables Delta avec le mappage de colonnes dans certains cas streaming + CDF. Précédemment, nous avons utilisé pour bloquer Streaming+CDF si le mappage de colonnes de la table Delta est activé même s’il ne contient pas de colonnes RENAME ou DROP.

  • Améliorez la surveillance des requêtes de construction d’état Delta (d’autres requêtes s’exécutent dans le cadre de la planification) en les rendant visibles dans l’interface utilisateur Spark.

  • Prise en charge de plusieurs where() appels dans Optimiser l’API Scala/Python

  • Prise en charge du passage de configurations Hadoop via l’API DeltaTable

  • Prendre en charge les noms de colonnes de partition commençant par . ou _ dans la commande CONVERT TO DELTA.

  • Améliorations apportées aux métriques dans l’historique des tables

  • Correctif pour les rétrogradations accidentelles de protocole avec la commande RESTORE . Jusqu’à présent, RESTORE TABLE pouvait passer à une version antérieure de la version du protocole de la table, ce qui pouvait entraîner des lectures incohérentes avec un voyage dans le temps. Avec ce correctif, la version du protocole n’est jamais rétrogradée de la version actuelle.

  • Correction d’un bogue dans MERGE INTO lorsqu’il existe plusieurs UPDATE clauses et qu’une des UPDATEs est avec une évolution de schéma.

  • Correction d’un bogue dans lequel un objet parfois actif SparkSession est introuvable lors de l’utilisation des API Delta

  • Correction d’un problème où le schéma de partition ne pouvait pas être défini lors de la validation initiale.

  • Interceptez les exceptions en cas d’échec de l’écriture last_checkpoint du fichier.

  • Correction d’un problème lors du redémarrage d’une requête de streaming avec AvailableNow un déclencheur sur une table Delta.

  • Correction d’un problème avec CDF et streaming où le décalage n’est pas correctement mis à jour en l’absence de modifications de données

Consultez la source et les notes de publication complètes ici.

Packages de niveau par défaut pour les bibliothèques Java/Scala

Vous trouverez ci-dessous le tableau répertoriant tous les packages de niveau par défaut pour Java/Scala et leurs versions respectives.

Groupid ArtifactId Version
com.aliyun aliyun-java-sdk-core 4.5.10
com.aliyun aliyun-java-sdk-kms 2.11.0
com.aliyun aliyun-java-sdk-ram 3.1.0
com.aliyun aliyun-sdk-oss 3.13.0
com.amazonaws aws-java-sdk-bundle 1.11.1026
com.chuusai shapeless_2.12 2.3.7
com.esotericsoftware kryo-shaded 4.0.2
com.esotericsoftware minlog 1.3.0
com.fasterxml.jackson jackson-annotations-2.13.4.jar
com.fasterxml.jackson jackson-core 2.13.4
com.fasterxml.jackson jackson-core-asl 1.9.13
com.fasterxml.jackson jackson-databind 2.13.4.1
com.fasterxml.jackson jackson-dataformat-cbor 2.13.4
com.fasterxml.jackson jackson-mapper-asl 1.9.13
com.fasterxml.jackson jackson-module-scala_2.12 2.13.4
com.github.joshelser dropwizard-metrics-hadoop-metrics2-reporter 0.1.2
com.github.wendykierp JTransforms 3.1
com.google.code.findbugs jsr305 3.0.0
com.google.code.gson gson 2.8.6
com.google.flatbuffers flatbuffers-java 1.12.0
com.google.guava guava 14.0.1
com.google.protobuf protobuf-java 2.5.0
com.googlecode.json-simple json-simple 1.1.1
com.jcraft jsch 0.1.54
com.jolbox bonecp 0.8.0.RELEASE
com.linkedin.isolation-forest isolation-forest_3.2.0_2.12 2.0.8
com.ning compress-lzf 1.1
com.qcloud cos_api-bundle 5.6.19
com.sun.istack istack-commons-runtime 3.0.8
com.tdunning json 1.8
com.thoughtworks.paranamer paranamer 2.8
com.twitter chill-java 0.10.0
com.twitter chill_2.12 0.10.0
com.typesafe config 1.3.4
com.zaxxer HikariCP 2.5.1
commons-cli commons-cli 1.5.0
commons-codec commons-codec 1.15
commons-collections commons-collections 3.2.2
commons-dbcp commons-dbcp 1.4
commons-io commons-io 2.11.0
commons-lang commons-lang 2.6
commons-logging commons-logging 1.1.3
commons-pool commons-pool 1.5.4.jar
dev.ludovic.netlib arpack 2.2.1
dev.ludovic.netlib blas 2.2.1
dev.ludovic.netlib lapack 2.2.1
io.airlift aircompressor 0,21
io.dropwizard.metrics metrics-core 4.2.7
io.dropwizard.metrics metrics-graphite 4.2.7
io.dropwizard.metrics metrics-jmx 4.2.7
io.dropwizard.metrics metrics-json 4.2.7
io.dropwizard.metrics metrics-jvm 4.2.7
io.netty netty-all 4.1.74.Final
io.netty netty-buffer 4.1.74.Final
io.netty netty-codec 4.1.74.Final
io.netty netty-common 4.1.74.Final
io.netty netty-handler 4.1.74.Final
io.netty netty-resolver 4.1.74.Final
io.netty netty-tcnative-classes 2.0.48.Final
io.netty netty-transport 4.1.74.Final
io.netty netty-transport-classes-epoll 4.1.74.Final
io.netty netty-transport-classes-kqueue 4.1.74.Final
io.netty netty-transport-native-epoll 4.1.74.Final-linux-aarch_64
io.netty netty-transport-native-epoll 4.1.74.Final-linux-x86_64
io.netty netty-transport-native-kqueue 4.1.74.Final-osx-aarch_64
io.netty netty-transport-native-kqueue 4.1.74.Final-osx-x86_64
io.netty netty-transport-native-unix-common 4.1.74.Final
io.opentracing opentracing-api 0.33.0
io.opentracing opentracing-noop 0.33.0
io.opentracing opentracing-util 0.33.0
jakarta.annotation jakarta.annotation-api 1.3.5
jakarta.inject jakarta.inject 2.6.1
jakarta.servlet jakarta.servlet-api 4.0.3
jakarta.validation-api 2.0.2
jakarta.ws.rs jakarta.ws.rs-api 2.1.6
jakarta.xml.bind jakarta.xml.bind-api 2.3.2
javax.activation activation 1.1.1
javax.jdo jdo-api 3.0.1
javax.transaction jta 1.1
javax.xml.bind jaxb-api 2.2.11
javolution javolution 5.5.1
jline jline 2.14.6
joda-time joda-time 2.10.13
net.razorvine pickle 1.2
net.sf.jpam jpam 1.1
net.sf.opencsv opencsv 2.3
net.sf.py4j py4j 0.10.9.5
net.sourceforge.f2j arpack_combined_all 0.1
org.antlr ST4 4.0.4
org.antlr antlr-runtime 3.5.2
org.antlr antlr4-runtime 4.8
org.apache.arrow arrow-format 7.0.0
org.apache.arrow arrow-memory-core 7.0.0
org.apache.arrow arrow-memory-netty 7.0.0
org.apache.arrow arrow-vector 7.0.0
org.apache.avro avro 1.11.0
org.apache.avro avro-ipc 1.11.0
org.apache.avro avro-mapred 1.11.0
org.apache.commons commons-collections4 4.4
org.apache.commons commons-compress 1.21
org.apache.commons commons-crypto 1.1.0
org.apache.commons commons-lang3 3.12.0
org.apache.commons commons-math3 3.6.1
org.apache.commons commons-pool2 2.11.1
org.apache.commons commons-text 1.10.0
org.apache.curator curator-client 2.13.0
org.apache.curator curator-framework 2.13.0
org.apache.curator curator-recipes 2.13.0
org.apache.derby derby 10.14.2.0
org.apache.hadoop hadoop-aliyun 3.3.3.5.2-90111858
org.apache.hadoop hadoop-annotations 3.3.3.5.2-90111858
org.apache.hadoop hadoop-aws 3.3.3.5.2-90111858
org.apache.hadoop hadoop-azure 3.3.3.5.2-90111858
org.apache.hadoop hadoop-azure-datalake 3.3.3.5.2-90111858
org.apache.hadoop hadoop-client-api 3.3.3.5.2-90111858
org.apache.hadoop hadoop-client-runtime 3.3.3.5.2-90111858
org.apache.hadoop hadoop-cloud-storage 3.3.3.5.2-90111858
org.apache.hadoop hadoop-cos 3.3.3.5.2-90111858
org.apache.hadoop hadoop-openstack 3.3.3.5.2-90111858
org.apache.hadoop hadoop-shaded-guava 1.1.1
org.apache.hadoop hadoop-yarn-server-web-proxy 3.3.3.5.2-90111858
org.apache.hive hive-beeline 2.3.9
org.apache.hive hive-cli 2.3.9
org.apache.hive hive-common 2.3.9
org.apache.hive hive-exec 2.3.9
org.apache.hive hive-jdbc 2.3.9
org.apache.hive hive-llap-common 2.3.9
org.apache.hive hive-metastore 2.3.9
org.apache.hive hive-serde 2.3.9
org.apache.hive hive-service-rpc 3.1.2
org.apache.hive hive-shims-0.23 2.3.9
org.apache.hive hive-shims 2.3.9
org.apache.hive hive-shims-common 2.3.9
org.apache.hive hive-shims-scheduler 2.3.9
org.apache.hive hive-storage-api 2.7.2
org.apache.hive hive-vector-code-gen 2.3.9
org.apache.httpcomponents httpclient 4.5.13
org.apache.httpcomponents httpcore 4.4.14
org.apache.httpcomponents httpmime 4.5.13
org.apache.httpcomponents.client5 httpclient5 5.1.3
org.apache.ivy ivy 2.5.1
org.apache.kafka kafka-clients 2.8.1
org.apache.logging.log4j log4j-1.2-api 2.17.2
org.apache.logging.log4j log4j-api 2.17.2
org.apache.logging.log4j log4j-core 2.17.2
org.apache.logging.log4j log4j-slf4j-impl 2.17.2
org.apache.orc orc-core 1.7.6
org.apache.orc orc-mapreduce 1.7.6
org.apache.orc orc-shims 1.7.6
org.apache.parquet parquet-column 1.12.3
org.apache.parquet parquet-common 1.12.3
org.apache.parquet parquet-encoding 1.12.3
org.apache.parquet parquet-format-structures 1.12.3
org.apache.parquet parquet-hadoop 1.12.3
org.apache.parquet parquet-jackson 1.12.3
org.apache.qpid proton-j 0.33.8
org.apache.thrift libfb303 0.9.3
org.apache.thrift libthrift 0.12.0
org.apache.yetus audience-annotations 0.5.0
org.apiguardian apiguardian-api 1.1.0
org.codehaus.janino commons-compiler 3.0.16
org.codehaus.janino janino 3.0.16
org.codehaus.jettison jettison 1.1
org.datanucleus datanucleus-api-jdo 4.2.4
org.datanucleus datanucleus-core 4.1.17
org.datanucleus datanucleus-rdbms 4.1.19
org.datanucleusjavax.jdo 3.2.0-m3
org.eclipse.jdt core 1.1.2
org.eclipse.jetty jetty-util 9.4.48.v20220622
org.eclipse.jetty jetty-util-ajax 9.4.48.v20220622
org.fusesource.leveldbjni leveldbjni-all 1.8
org.glassfish.hk2 hk2-api 2.6.1
org.glassfish.hk2 hk2-locator 2.6.1
org.glassfish.hk2 hk2-utils 2.6.1
org.glassfish.hk2 osgi-resource-locator 1.0.3
org.glassfish.hk2.external aopalliance-repackaged 2.6.1
org.glassfish.jaxb jaxb-runtime 2.3.2
org.glassfish.jersey.containers jersey-container-servlet 2,36
org.glassfish.jersey.containers jersey-container-servlet-core 2,36
org.glassfish.jersey.core jersey-client 2,36
org.glassfish.jersey.core jersey-common 2,36
org.glassfish.jersey.core jersey-server 2,36
org.glassfish.jersey.inject jersey-hk2 2,36
org.ini4j ini4j 0.5.4
org.javassist javassist 3.25.0-GA
org.javatuples javatuples 1,2
org.jdom jdom2 2.0.6
org.jetbrains annotations 17.0.0
org.jodd jodd-core 3.5.2
org.json4s json4s-ast_2.12 3.7.0-M11
org.json4s json4s-core_2.12 3.7.0-M11
org.json4s json4s-jackson_2.12 3.7.0-M11
org.json4s json4s-scalap_2.12 3.7.0-M11
org.junit.jupiter junit-jupiter 5.5.2
org.junit.jupiter junit-jupiter-api 5.5.2
org.junit.jupiter junit-jupiter-engine 5.5.2
org.junit.jupiter junit-jupiter-params 5.5.2
org.junit.platform junit-platform-commons 1.5.2
org.junit.platform junit-platform-engine 1.5.2
org.lz4 lz4-java 1.8.0
org.objenesis objenesis 3.2
org.openpnp opencv 3.2.0-1
org.opentest4j opentest4j 1.2.0
org.postgresql postgresql 42.2.9
org.roaringbitmap RoaringBitmap 0.9.25
org.roaringbitmap shims 0.9.25
org.rocksdb rocksdbjni 6.20.3
org.scala-lang scala-compiler 2.12.15
org.scala-lang scala-library 2.12.15
org.scala-lang scala-reflect 2.12.15
org.scala-lang.modules scala-collection-compat_2.12 2.1.1
org.scala-lang.modules scala-java8-compat_2.12 0.9.0
org.scala-lang.modules scala-parser-combinators_2.12 1.1.2
org.scala-lang.modules scala-xml_2.12 1.2.0
org.scalactic scalactic_2.12 3.2.14
org.scalanlp breeze-macros_2.12 1.2
org.scalanlp breeze_2.12 1.2
org.slf4j jcl-over-slf4j 1.7.32
org.slf4j jul-to-slf4j 1.7.32
org.slf4j slf4j-api 1.7.32
org.typelevel algebra_2.12 2.0.1
org.typelevel cats-kernel_2.12 2.1.1
org.typelevel spire-macros_2.12 0.17.0
org.typelevel spire-platform_2.12 0.17.0
org.typelevel spire-util_2.12 0.17.0
org.xerial.snappy snappy-java 1.1.8.4
oro oro 2.0.8
pl.edu.icm JLargeArrays 1.5

Packages de niveau par défaut pour les bibliothèques Python

Vous trouverez ci-dessous le tableau avec la liste de tous les packages de niveau par défaut pour Python et leurs versions respectives.

Bibliothèque Version Bibliothèque Version Bibliothèque Version
_libgcc_mutex 0.1 ipykernel 6.22.0 pickleshare 0.7.5
_openmp_mutex 4.5 ipython 8.9.0 pillow 9.4.0
_py-xgboost-mutex 2.0 ipywidgets 8.0.4 pip 23.0.1
absl-py 1.4.0 isodate 0.6.1 pixman 0.40.0
adal 1.2.7 itsdangerous 2.1.2 pkginfo 1.9.6
adlfs 2023.1.0 Jack 1.9.22 pkgutil-resolve-name 1.3.10
aiohttp 3.8.4 jedi 0.18.2 platformdirs 3.2.0
aiosignal 1.3.1 jeepney 0.8.0 plotly 5.13.0
alsa-lib 1.2.8 jinja2 3.1.2 ply 3.11
anyio 3.6.2 jmespath 1.0.1 pooch 1.7.0
argcomplete 2.1.2 joblib 1.2.0 portalocker 2.7.0
argon2-cffi 21.3.0 jpeg 9e pox 0.3.2
argon2-cffi-bindings 21.2.0 jsonpickle 2.2.0 ppft 1.7.6.6
arrow-cpp 11.0.0 jsonschema 4.17.3 prettytable 3.6.0
asttokens 2.2.1 jupyter_client 8.1.0 prometheus_client 0.16.0
astunparse 1.6.3 jupyter_core 5.3.0 prompt-toolkit 3.0.38
async-timeout 4.0.2 jupyter_events 0.6.3 protobuf 4.21.12
atk-1.0 2.38.0 jupyter_server 2.2.1 psutil 5.9.4
Attr 2.5.1 jupyter_server_terminals 0.4.4 pthread-stubs 0,4
attrs 22.2.0 jupyterlab_pygments 0.2.2 ptyprocess 0.7.0
aws-c-auth 0.6.24 jupyterlab_widgets 3.0.7 Pulseaudio 16,1
aws-c-cal 0.5.20 keras 2.11.0 pulseaudio-client 16,1
aws-c-common 0.8.11 keras-preprocessing 1.1.2 pulseaudio-daemon 16,1
aws-c-compression 0.2.16 keyutils 1.6.1 pure_eval 0.2.2
aws-c-event-stream 0.2.18 kiwisolver 1.4.4 py-xgboost 1.7.1
aws-c-http 0.7.4 knack 0.10.1 py4j 0.10.9.5
aws-c-io 0.13.17 krb5 1.20.1 pyarrow 11.0.0
aws-c-mqtt 0.8.6 Boiteux 3.100 pyasn1 0.4.8
aws-c-s3 0.2.4 lcms2 2.15 pyasn1-modules 0.2.7
aws-c-sdkutils 0.1.7 ld_impl_linux-64 2.40 pycosat 0.6.4
aws-checksums 0.1.14 lerc 4.0.0 pycparser 2.21
aws-crt-cpp 0.19.7 liac-arff 2.5.0 pygments 2.14.0
aws-sdk-cpp 1.10.57 libabseil 20220623.0 pyjwt 2.6.0
azure-common 1.1.28 libaec 1.0.6 pynacl 1.5.0
azure-core 1.26.4 libarrow 11.0.0 pyodbc 4.0.35
azure-datalake-store 0.0.51 libblas 3.9.0 pyopenssl 23.1.1
azure-graphrbac 0.61.1 libbrotlicommon 1.0.9 pyparsing 3.0.9
azure-identity 1.12.0 libbrotlidec 1.0.9 pyperclip 1.8.2
azure-mgmt-authorization 3.0.0 libbrotlienc 1.0.9 pyqt 5.15.7
azure-mgmt-containerregistry 10.1.0 Libcap 2.67 pyqt5-sip 12.11.0
azure-mgmt-core 1.4.0 libcblas 3.9.0 pyrsistent 0.19.3
azure-mgmt-keyvault 10.2.1 libclang 15.0.7 pysocks 1.7.1
azure-mgmt-resource 21.2.1 libclang13 15.0.7 pyspark 3.3.1
azure-mgmt-storage 20.1.0 libcrc32c 1.1.2 python 3.10.10
azure-storage-blob 12.15.0 libcups 2.3.3 python_abi 3.10
azure-storage-file-datalake 12.9.1 libcurl 7.88.1 python-dateutil 2.8.2
azureml-core 1.49.0 Libdb 6.2.32 python-fastjsonschema 2.16.3
backcall 0.2.0 libdeflate 1.17 python-flatbuffers 23.1.21
backports 1.0 libebm 0.3.1 python-graphviz 0.20.1
backports-tempfile 1.0 libedit 3.1.20191231 python-json-logger 2.0.7
backports-weakref 1.0.post1 libev 4.33 pytorch 1.13.1
backports.functools_lru_cache 1.6.4 libevent 2.1.10 pytz 2022.7.1
bcrypt 3.2.2 Libexpat 2.5.0 pyu2f 0.1.5
beautifulsoup4 4.11.2 libffi 3.4.2 pywin32-on-windows 0.1.0
bleach 6.0.0 Libflac 1.4.2 pyyaml 6.0
blinker 1.6.1 libgcc-ng 12.2.0 pyzmq 25.0.2
brotli 1.0.9 Libgcrypt 1.10.1 qt-main 5.15.8
brotli-bin 1.0.9 Libgd 2.3.3 re2 2023.02.01
brotli-python 1.0.9 libgfortran-ng 12.2.0 readline 8,2
brotlipy 0.7.0 libgfortran5 12.2.0 regex 2022.10.31
bzip2 1.0.8 libglib 2.74.1 requêtes 2.28.2
c-ares 1.18.1 libgoogle-cloud 2.7.0 requests-oauthlib 1.3.1
ca-certificates 2022.12.7 libgpg-error 1,46 rfc3339-validateur 0.1.4
cached_property 1.5.2 libgrpc 1.51.1 rfc3986-validateur 0.1.1
cached-property 1.5.2 libhwloc 2.9.0 rsa 4,9
cachetools 5.3.0 libiconv 1.17 ruamel_yaml 0.15.80
cairo 1.16.0 liblapack 3.9.0 ruamel.yaml 0.17.21
certifi 2022.12.7 libllvm11 11.1.0 ruamel.yaml.clib 0.2.7
cffi 1.15.1 libllvm15 15.0.7 s2n 1.3.37
charset-normalizer 2.1.1 libnghttp2 1.52.0 salib 1.4.7
click 8.1.3 libnsl 2.0.0 scikit-learn 1.2.0
cloudpickle 2.2.1 libogg 1.3.4 scipy 1.10.1
colorama 0.4.6 libopenblas 0.3.21 seaborn 0.12.2
Comm 0.1.3 libopus 1.3.1 seaborn-base 0.12.2
conda-package-handling 2.0.2 libpng 1.6.39 secretstorage 3.3.3
conda-package-streaming 0.7.0 libpq 15.2 send2trash 1.8.0
configparser 5.3.0 libprotobuf 3.21.12 setuptools 67.6.1
contextlib2 21.6.0 Librsvg 2.54.4 shap 0.41.0
contourpy 1.0.7 Libsndfile 1.2.0 sip 6.7.7
chiffrement 40.0.1 libsodium 1.0.18 six 1.16.0
cycler 0.11.0 libsqlite 3.40.0 sleef 3.5.1
tiret 2.9.2 libssh2 1.10.0 segment 0.0.7
dash_cytoscape 0.2.0 libstdcxx-ng 12.2.0 smmap 3.0.5
dash-core-components 2.0.0 libsystemd0 253 snappy 1.1.10
dash-html-components 2.0.0 libthrift 0.18.0 sniffio 1.3.0
dash-table 5.0.0 libtiff 4.5.0 soupsieve 2.3.2.post1
databricks-cli 0.17.6 Libtool 2.4.7 sqlalchemy 2.0.9
dbus 1.13.6 libudev1 253 sqlparse 0.4.3
debugpy 1.6.7 libutf8proc 2.8.0 stack_data 0.6.2
decorator 5.1.1 libuuid 2.38.1 statsmodels 0.13.5
defusedxml 0.7.1 libuv 1.44.2 synapseml-mlflow 1.0.14
dill 0.3.6 libvorbis 1.3.7 synapseml-utils 1.0.7
distlib 0.3.6 libwebp 1.2.4 tabulate 0.9.0
docker-py 6.0.0 libwebp-base 1.2.4 tbb 2021.8.0
entrypoints 0,4 libxcb 1.13 tenacity 8.2.2
et_xmlfile 1.1.0 libxgboost 1.7.1 tensorboard 2.11.2
exécuter 1.2.0 libxkbcommon 1.5.0 tensorboard-data-server 0.6.1
expat 2.5.0 libxml2 2.10.3 tensorboard-plugin-wit 1.8.1
Fftw 3.3.10 Libxslt 1.1.37 tensorflow 2.11.0
filelock 3.11.0 libzlib 1.2.13 tensorflow-base 2.11.0
flask 2.2.3 lightgbm 3.3.3 tensorflow-estimator 2.11.0
flask-compress 1.13 lime 0.2.0.1 termcolor 2.2.0
flatbuffers 22.12.06 llvm-openmp 16.0.1 terminado 0.17.1
flit-core 3.8.0 llvmlite 0.39.1 threadpoolctl 3.1.0
fluent-logger 0.10.0 lxml 4.9.2 tinycss2 1.2.1
font-ttf-dejavu-sans-mono 2,37 lz4-c 1.9.4 tk 8.6.12
font-ttf-inconsolata 3.000 markdown 3.4.1 toml 0.10.2
font-ttf-source-code-pro 2.038 markupsafe 2.1.2 toolz 0.12.0
font-ttf-ubuntu 0,83 matplotlib 3.6.3 tornado 6.2
fontconfig 2.14.2 matplotlib-base 3.6.3 tqdm 4.65.0
fonts-conda-ecosystem 1 matplotlib-inline 0.1.6 traitlets 5.9.0
polices-conda-forge 1 mistune 2.0.5 treeinterpreter 0.2.2
fonttools 4.39.3 mkl 2022.2.1 typed-ast 1.4.3
freetype 2.12.1 mlflow-skinny 2.1.1 typing_extensions 4.5.0
fribidi 1.0.10 mpg123 1.31.3 typing-extensions 4.5.0
frozenlist 1.3.3 msal 1.21.0 tzdata 2023c
fsspec 2023.4.0 msal_extensions 1.0.0 unicodedata2 15.0.0
gast 0.4.0 msgpack 1.0.5 unixodbc 2.3.10
gdk-pixbuf 2.42.10 msrest 0.7.1 urllib3 1.26.14
geographiclib 1,52 msrestazure 0.6.4 virtualenv 20.19.0
geopy 2.3.0 multidict 6.0.4 wcwidth 0.2.6
gettext 0.21.1 multiprocess 0.70.14 webencodings 0.5.1
gevent 22.10.2 munkres 1.1.4 websocket-client 1.5.1
gflags 2.2.2 mypy 0.780 werkzeug 2.2.3
giflib 5.2.1 mypy-extensions 0.4.4 wheel 0.40.0
gitdb 4.0.10 mysql-common 8.0.32 widgetsnbextension 4.0.7
gitpython 3.1.31 mysql-libs 8.0.32 wrapt 1.15.0
glib 2.74.1 nbclient 0.7.3 xcb-util 0.4.0
glib-tools 2.74.1 nbconvert-core 7.3.0 xcb-util-image 0.4.0
glog 0.6.0 nbformat 5.8.0 xcb-util-keysyms 0.4.0
google-auth 2.17.2 ncurses 6.3 xcb-util-renderutil 0.3.9
google-auth-oauthlib 0.4.6 ndg-httpsclient 0.5.1 xcb-util-wm 0.4.1
google-pasta 0.2.0 nest-asyncio 1.5.6 xgboost 1.7.1
graphite2 1.3.13 nspr 4.35 xkeyboard-config 2,38
Graphviz 2.50.0 nss 3.89 xorg-kbproto 1.0.7
greenlet 2.0.2 numba 0.56.4 xorg-libice 1.0.10
grpcio 1.51.1 numpy 1.23.5 xorg-libsm 1.2.3
gson 0.0.3 oauthlib 3.2.2 xorg-libx11 1.8.4
gst-plugins-base 1.22.0 openjpeg 2.5.0 xorg-libxau 1.0.9
gstreamer 1.22.0 openpyxl 3.1.0 xorg-libxdmcp 1.1.3
gstreamer-orc 0.4.33 openssl 3.1.0 xorg-libxext 1.3.4
gtk2 2.24.33 opt_einsum 3.3.0 xorg-libxrender 0.9.10
Gts 0.7.6 orc 1.8.2 xorg-renderproto 0.11.1
h5py 3.8.0 empaquetage 21,3 xorg-xextproto 7.3.0
harfbuzz 6.0.0 pandas 1.5.3 xorg-xproto 7.0.31
hdf5 1.14.0 pandasql 0.7.3 xz 5.2.6
html5lib 1.1 pandocfilters 1.5.0 yaml 0.2.5
humanfriendly 10.0 Pango 1.50.14 yarl 1.8.2
icu 70.1 paramiko 2.12.0 zeromq 4.3.4
idna 3.4 parquet-cpp 1.5.1 zipp 3.15.0
imageio 2.25.0 parso 0.8.3 zlib 1.2.13
importlib_metadata 5.2.0 pathos 0.3.0 zope.event 4.6
importlib_resources 5.12.0 pathspec 0.11.1 zope.interface 6.0
importlib-metadata 5.2.0 patsy 0.5.3 zstandard 0.19.0
interpret 0.3.1 pcre2 10.40 zstd 1.5.2
interpret-core 0.3.1 pexpect 4.8.0

Packages de niveau par défaut pour les bibliothèques R

Vous trouverez ci-dessous le tableau qui répertorie tous les packages de niveau par défaut pour R et leurs versions respectives.

Bibliothèque Version Bibliothèque Version Bibliothèque Version
askpass 1.1 highcharter 0.9.4 readr 2.1.3
assertthat 0.2.1 highr 0.9 readxl 1.4.1
backports 1.4.1 hms 1.1.2 recipes 1.0.3
base64enc 0.1-3 htmltools 0.5.3 rematch 1.0.1
bit 4.0.5 htmlwidgets 1.5.4 rematch2 2.1.2
bit64 4.0.5 httpcode 0.3.0 remotes 2.4.2
objet BLOB 1.2.3 httpuv 1.6.6 reprex 2.0.2
brew 1,0-8 httr 1.4.4 reshape2 1.4.4
brio 1.1.3 ids 1.0.1 rjson 0.2.21
broom 1.0.1 igraph 1.3.5 rlang 1.0.6
bslib 0.4.1 infer 1.0.3 rlist 0.4.6.2
cachem 1.0.6 ini 0.3.1 rmarkdown 2.18
callr 3.7.3 ipred 0.9-13 RODBC 1.3-19
caret 6.0-93 isoband 0.2.6 roxygen2 7.2.2
cellranger 1.1.0 iterators 1.0.14 rprojroot 2.0.3
cli 3.4.1 jquerylib 0.1.4 rsample 1.1.0
clipr 0.8.0 jsonlite 1.8.3 rstudioapi 0.14
horloge 0.6.1 knitr 1,41 rversions 2.1.2
colorspace 2.0-3 labeling 0.4.2 rvest 1.0.3
commonmark 1.8.1 later 1.3.0 sass 0.4.4
config 0.3.1 lava 1.7.0 scales 1.2.1
conflicted 1.1.0 lazyeval 0.2.2 selectr 0.4-2
coro 1.0.3 lhs 1.1.5 sessioninfo 1.2.2
cpp11 0.4.3 cycle de vie 1.0.3 shiny 1.7.3
crayon 1.5.2 lightgbm 3.3.3 curseur 0.3.0
credentials 1.3.2 listenv 0.8.0 sourcetools 0.1.7
crosstalk 1.2.0 lobstr 1.1.2 sparklyr 1.7.8
crul 1.3 lubridate 1.9.0 SQUAREM 2021.1
curl 4.3.3 magrittr 2.0.3 stringi 1.7.8
data.table 1.14.6 maps 3.4.1 stringr 1.4.1
DBI 1.1.3 memoise 2.0.1 sys 3.4.1
dbplyr 2.2.1 mime 0,12 systemfonts 1.0.4
desc 1.4.2 miniUI 0.1.1.1 testthat 3.1.5
devtools 2.4.5 modeldata 1.0.1 textshaping 0.3.6
dials 1.1.0 modelenv 0.1.0 tibble 3.1.8
DiceDesign 1,9 ModelMetrics 1.2.2.2 tidymodels 1.0.0
diffobj 0.3.5 modelr 0.1.10 tidyr 1.2.1
digest 0.6.30 munsell 0.5.0 tidyselect 1.2.0
downlit 0.4.2 numDeriv 2016.8-1.1 tidyverse 1.3.2
dplyr 1.0.10 openssl 2.0.4 timechange 0.1.1
dtplyr 1.2.2 parallelly 1.32.1 timeDate 4021.106
e1071 1.7-12 parsnip 1.0.3 tinytex 0.42
ellipsis 0.3.2 patchwork 1.1.2 torch 0.9.0
evaluate 0,18 pillar 1.8.1 triebeard 0.3.0
fansi 1.0.3 pkgbuild 1.4.0 TTR 0.24.3
farver 2.1.1 pkgconfig 2.0.3 tune 1.0.1
fastmap 1.1.0 pkgdown 2.0.6 tzdb 0.3.0
fontawesome 0.4.0 pkgload 1.3.2 urlchecker 1.0.1
forcats 0.5.2 plotly 4.10.1 urltools 1.7.3
foreach 1.5.2 plyr 1.8.8 usethis 2.1.6
forge 0.2.0 praise 1.0.0 utf8 1.2.2
fs 1.5.2 prettyunits 1.1.1 uuid 1.1-0
furrr 0.3.1 pROC 1.18.0 vctrs 0.5.1
future 1.29.0 processx 3.8.0 viridisLite 0.4.1
future.apply 1.10.0 prodlim 2019.11.13 vroom 1.6.0
gargle 1.2.1 profvis 0.3.7 waldo 0.4.0
generics 0.1.3 progress 1.2.2 warp 0.2.0
gert 1.9.1 progressr 0.11.0 whisker 0,4
ggplot2 3.4.0 promises 1.2.0.1 withr 2.5.0
gh 1.3.1 proxy 0.4-27 workflows 1.1.2
gistr 0.9.0 pryr 0.1.5 workflowsets 1.0.0
gitcreds 0.1.2 ps 1.7.2 xfun 0,35
globals 0.16.2 purrr 0.3.5 xgboost 1.6.0.1
glue 1.6.2 quantmod 0.4.20 XML 3.99-0.12
googledrive 2.0.0 r2d3 0.2.6 xml2 1.3.3
googlesheets4 1.0.1 R6 2.5.1 xopen 1.0.0
gower 1.0.0 ragg 1.2.4 xtable 1.8-4
GPfit 1,0-8 rappdirs 0.3.3 xts 0.12.2
gtable 0.3.1 rbokeh 0.5.2 yaml 2.3.6
hardhat 1.2.0 rcmdcheck 1.4.0 yardstick 1.1.0
haven 2.5.1 RColorBrewer 1.1-3 zip 2.2.2
hexbin 1.28.2 Rcpp 1.0.9 zoo 1.8-11

Migration entre différentes versions d’Apache Spark

La migration de vos charges de travail vers Fabric Runtime 1.1 (Apache Spark 3.3) à partir d’une version antérieure d’Apache Spark implique une série d’étapes pour garantir une migration fluide. Ce guide décrit les étapes nécessaires pour vous aider à migrer efficacement.

  1. Passez en revue les notes de publication de Fabric Runtime 1.1, y compris la vérification des composants et des packages de niveau par défaut inclus dans le runtime, pour comprendre les nouvelles fonctionnalités et les améliorations.

  2. Vérifiez la compatibilité de votre configuration actuelle et de toutes les bibliothèques associées, y compris les dépendances et les intégrations. Passez en revue les guides de migration pour identifier les changements cassants potentiels :

  3. Déplacez vos charges de travail vers Fabric et assurez-vous que vous disposez de sauvegardes de vos fichiers de données et de configuration au cas où vous deviez revenir à la version précédente.

  4. Mettez à jour toutes les dépendances susceptibles d’être affectées par la nouvelle version d’Apache Spark ou d’autres composants liés à Fabric Runtime 1.1. Cela peut inclure des bibliothèques ou des connecteurs tiers. Veillez à tester les dépendances mises à jour dans un environnement intermédiaire avant le déploiement en production

  5. Mettez à jour la configuration Apache Spark sur votre charge de travail. Cela peut inclure la mise à jour des paramètres de configuration, l’ajustement des allocations de mémoire et la modification de toutes les configurations déconseillées.

  6. Modifiez vos applications Apache Spark (notebooks et définitions de travaux Apache Spark) pour utiliser les nouvelles API et fonctionnalités introduites dans Fabric Runtime 1.1 et Apache Spark 3.3. Cela peut impliquer la mise à jour de votre code pour prendre en charge toutes les API dépréciées ou supprimées, et la refactorisation de vos applications pour tirer parti des améliorations des performances et de nouvelles fonctionnalités.

  7. Testez minutieusement vos applications mises à jour dans un environnement intermédiaire pour garantir la compatibilité et la stabilité avec Apache Spark 3.3. Effectuez des tests de performances, des tests fonctionnels et des tests de régression pour identifier et résoudre les problèmes qui peuvent survenir pendant le processus de migration.

  8. Après avoir validé vos applications dans un environnement intermédiaire, déployez les applications mises à jour dans votre environnement de production. Surveillez les performances et la stabilité de vos applications après la migration pour identifier les problèmes qui doivent être résolus.

  9. Mettez à jour votre documentation interne et vos supports de formation pour refléter les modifications introduites dans Fabric Runtime 1.1. Assurez-vous que les membres de votre équipe sont familiarisés avec les nouvelles fonctionnalités et les améliorations pour optimiser les avantages de la migration.