Runtime Apache Spark dans Fabric
Microsoft Fabric Runtime est une plateforme intégrée à Azure basée sur Apache Spark qui permet l’exécution et la gestion des expériences d’ingénierie des données et de science des données. Il combine des composants clés provenant de sources internes et open source, offrant ainsi aux clients une solution complète. Par souci de simplicité, nous faisons référence à Microsoft Fabric Runtime optimisé par Apache Spark en tant que Runtime Fabric.
Important
Microsoft Fabric est en préversion.
Principaux composants du runtime Fabric :
Apache Spark : une bibliothèque d’informatique distribuée open source puissante pour permettre le traitement des données et les tâches d’analyse à grande échelle. Apache Spark fournit une plateforme polyvalente et hautes performances pour les expériences d’ingénierie des données et de science des données.
Delta Lake : couche de stockage open source qui apporte des transactions ACID et d’autres fonctionnalités de fiabilité des données à Apache Spark. Intégré au runtime Microsoft Fabric, Delta Lake améliore les fonctionnalités de traitement des données et garantit la cohérence des données entre plusieurs opérations simultanées.
Packages de niveau par défaut pour Java/Scala, Python et R afin de prendre en charge divers langages et environnements de programmation. Ces packages sont automatiquement installés et configurés, ce qui permet aux développeurs d’appliquer leurs langages de programmation préférés pour les tâches de traitement des données.
Le runtime Microsoft Fabric repose sur un système d’exploitation open source (Ubuntu) robuste, garantissant ainsi la compatibilité avec diverses configurations matérielles et configurations système requises.
Runtime 1.1
Microsoft Fabric Runtime 1.1 est le runtime par défaut et actuellement le seul runtime proposé dans la plateforme Microsoft Fabric. Les composants principaux runtime 1.1 sont les suivants :
- Système d’exploitation : Ubuntu 18.04
- Java : 1.8.0_282
- Scala : 2.12.15
- Python : 3.10
- Delta Lake : 2.2
- R: 4.2.2
Microsoft Fabric Runtime 1.1 est fourni avec une collection de packages de niveau par défaut, notamment une installation complète d’Anaconda et des bibliothèques couramment utilisées pour Java/Scala, Python et R. Ces bibliothèques sont automatiquement incluses lors de l’utilisation de notebooks ou de travaux dans la plateforme Microsoft Fabric. Reportez-vous à la documentation pour obtenir la liste complète des bibliothèques.
Microsoft Fabric déploie régulièrement des mises à jour de maintenance pour Runtime 1.1, fournissant des correctifs de bogues, des améliorations des performances et des correctifs de sécurité. Rester à jour garantit des performances et une fiabilité optimales pour vos tâches de traitement des données.
Améliorations et nouvelles fonctionnalités
Apache Spark 3.3.1
Voici un résumé étendu des principales nouvelles fonctionnalités liées à Apache Spark version 3.3.0 et 3.3.1 :
Filtrage au niveau des lignes : améliorez les performances des jointures en préfiltrant un côté tant qu’il n’y a pas d’impact sur la dépréciation ou la régression.oin à l’aide d’un filtre Bloom et d’un prédicat IN générés à partir des valeurs de l’autre côté de la jointure (SPARK-32268)
Améliorer la compatibilité de Spark avec les améliorations sql standard:ANSI (SPARK-38860)
Améliorations des messages d’erreur pour identifier les problèmes plus rapidement et prendre les mesures nécessaires pour les résoudre (SPARK-38781)
Prend en charge les types complexes pour le lecteur vectorisé Parquet. Auparavant, le lecteur vectorisé Parquet ne prenait pas en charge le type de colonne imbriquée (struct, array et map). Apache Spark 3.3 contient une implémentation de lecteur vectorisé de colonnes imbriquées pour FB-ORC dans notre duplication interne de Spark. Elle a un impact sur l’amélioration des performances par rapport au lecteur non surveillé lors de la lecture des colonnes imbriquées. En outre, cette implémentation peut également aider à améliorer les performances des colonnes non imbriquées lors de la lecture de colonnes non imbriquées et imbriquées ensemble dans une requête (SPARK-34863)
Permet aux utilisateurs d’interroger les métadonnées des fichiers d’entrée pour tous les formats de fichier, de les exposer en tant que colonnes masquées intégrées , ce qui signifie que les utilisateurs ne peuvent les voir que lorsqu’ils les référencent explicitement (par exemple, chemin d’accès et nom de fichier) (SPARK-37273)
Mise à disposition d’un profileur pour les fonctions définies par l’utilisateur Python/Pandas (SPARK-37443)
Auparavant, les requêtes de diffusion en continu avec Trigger, qui chargeait toutes les données disponibles dans un seul lot. Pour cette raison, la quantité de données que les requêtes pouvaient traiter était limitée, ou le pilote Spark serait en mémoire insuffisante. À présent, présentation de Trigger.AvailableNow pour l’exécution de requêtes de diffusion en continu comme Déclencher une fois dans plusieurs lots (SPARK-36533)
Fonctionnalités push down DS V2 plus complètes (SPARK-38788)
Exécution propagée dans un environnement Kubernetes (SPARK-37810)
Prise en charge des planificateurs Kubernetes personnalisés ( SPARK-36057)
Migration de log4j 1 vers log4j 2 (SPARK-37814) pour obtenir :
Performances : Log4j 2 est plus rapide que Log4j 1. Log4j 2 utilise la journalisation asynchrone par défaut, ce qui peut améliorer considérablement les performances.
Flexibilité : Log4j 2 offre plus de flexibilité en termes de configuration. Il prend en charge plusieurs formats de configuration, notamment XML, JSON et YAML.
Extensibilité : Log4j 2 est conçu pour être extensible. Il permet aux développeurs de créer des plug-ins et des appenders personnalisés pour étendre les fonctionnalités de l’infrastructure de journalisation.
Sécurité : Log4j 2 offre de meilleures fonctionnalités de sécurité que Log4j 1. Il prend en charge le chiffrement et les couches de socket sécurisées pour une communication sécurisée entre les applications.
Simplicité : Log4j 2 est plus simple à utiliser que Log4j 1. Il dispose d’une API plus intuitive et d’un processus de configuration plus simple.
Introduire la lecture aléatoire sur SinglePartition pour améliorer le parallélisme et corriger la régression des performances pour les jointures dans Spark 3.3 et Spark 3.2 (SPARK-40703)
Optimiser la règle TransposeWindow pour étendre les cas applicables et optimiser la complexité temporelle (SPARK-38034)
Pour avoir une parité dans l’exécution de TimeTravel via SQL et l’option Dataframe, prenez en chargetimestamp en secondes pour TimeTravel à l’aide des options Dataframe (SPARK-39633])
Optimiser le triglobal sur RepartitionByExpression pour enregistrer un tri local (SPARK-39911)
Vérifiez que le partitionnement desortie est spécifié par l’utilisateur dans AQE (SPARK-39915)
Mettre à jour les case activée en colonnes Parquet V2 pour les champs imbriqués (SPARK-39951)
Lecture dans un fichier Parquet partitionné sur disque par une colonne de type « Octet » (SPARK-40212)
Correction de l’élagage des colonnes dans CSV lorsque _corrupt_record est sélectionné (SPARK-40468)
Delta Lake 2.2
Les principales fonctionnalités de cette version sont les suivantes :
LIMIT
pushdown dans l’analyse Delta. Améliorez les performances des requêtes contenantLIMIT
des clauses en poussant le vers le bas dans l’analyse Delta pendant laLIMIT
planification des requêtes. L’analyse delta utilise leLIMIT
nombre de lignes au niveau du fichier et pour réduire le nombre de fichiers analysés, ce qui permet aux requêtes de lire beaucoup moins de fichiers et peut accélérerLIMIT
les requêtes de 10 à 100 fois en fonction de la taille de la table.Pushdown d’agrégation dans l’analyse Delta pour SELECT COUNT(*). Les requêtes d’agrégation telles que
SELECT COUNT(*)
sur les tables Delta sont satisfaites à l’aide du nombre de lignes au niveau du fichier dans les métadonnées de table Delta plutôt que de compter les lignes dans les fichiers de données sous-jacents. Cela réduit considérablement le temps de requête, car la requête doit simplement lire les métadonnées de la table et peut accélérer les requêtes de nombre de tables complètes de 10 à 100 fois.Prise en charge de la collecte de statistiques au niveau du fichier dans le cadre de la commande CONVERT TO DELTA. Ces statistiques permettent potentiellement d’accélérer les requêtes sur la table Delta. Par défaut, les statistiques sont collectées maintenant dans le cadre de la commande CONVERT TO DELTA. Pour désactiver la collecte de statistiques, spécifiez
NO STATISTICS
la clause dans la commande . Exemple :CONVERT TO DELTA table_name NO STATISTICS
Améliorez les performances de la commande DELETE en élagant les colonnes à lire lors de la recherche de fichiers à réécrire.
Correction d’un bogue dans la configuration du mode multi-cluster S3 basé sur DynamoDB. La version précédente a écrit un horodatage incorrect, qui a été utilisé par la fonctionnalité TTL de DynamoDB pour propre éléments expirés. Cette valeur d’horodatage a été corrigée et l’attribut de table renommé en
commitTime
expireTime
. Si la durée de vie est déjà activée, suivez les étapes de migration ici.Corrigez le comportement non déterministe pendant MERGE lors de l’utilisation de sources non déterministes.
Supprimez les restrictions d’utilisation des tables Delta avec le mappage de colonnes dans certains cas streaming + CDF. Précédemment, nous avons utilisé pour bloquer Streaming+CDF si le mappage de colonnes de la table Delta est activé même s’il ne contient pas de colonnes RENAME ou DROP.
Améliorez la surveillance des requêtes de construction d’état Delta (d’autres requêtes s’exécutent dans le cadre de la planification) en les rendant visibles dans l’interface utilisateur Spark.
Prise en charge de plusieurs
where()
appels dans Optimiser l’API Scala/PythonPrise en charge du passage de configurations Hadoop via l’API DeltaTable
Prendre en charge les noms de colonnes de partition commençant par
.
ou_
dans la commande CONVERT TO DELTA.Améliorations apportées aux métriques dans l’historique des tables
- Corriger une métrique dans la commande MERGE
- Métrique de type source pour CONVERT TO DELTA
- Métriques pour DELETE sur les partitions
- Statistiques supplémentaires sur le vide
Correctif pour les rétrogradations accidentelles de protocole avec la commande RESTORE . Jusqu’à présent, RESTORE TABLE pouvait passer à une version antérieure de la version du protocole de la table, ce qui pouvait entraîner des lectures incohérentes avec un voyage dans le temps. Avec ce correctif, la version du protocole n’est jamais rétrogradée de la version actuelle.
Correction d’un bogue dans
MERGE INTO
lorsqu’il existe plusieursUPDATE
clauses et qu’une des UPDATEs est avec une évolution de schéma.Correction d’un bogue dans lequel un objet parfois actif
SparkSession
est introuvable lors de l’utilisation des API DeltaCorrection d’un problème où le schéma de partition ne pouvait pas être défini lors de la validation initiale.
Interceptez les exceptions en cas d’échec de l’écriture
last_checkpoint
du fichier.Correction d’un problème lors du redémarrage d’une requête de streaming avec
AvailableNow
un déclencheur sur une table Delta.Correction d’un problème avec CDF et streaming où le décalage n’est pas correctement mis à jour en l’absence de modifications de données
Consultez la source et les notes de publication complètes ici.
Packages de niveau par défaut pour les bibliothèques Java/Scala
Vous trouverez ci-dessous le tableau répertoriant tous les packages de niveau par défaut pour Java/Scala et leurs versions respectives.
Groupid | ArtifactId | Version |
---|---|---|
com.aliyun | aliyun-java-sdk-core | 4.5.10 |
com.aliyun | aliyun-java-sdk-kms | 2.11.0 |
com.aliyun | aliyun-java-sdk-ram | 3.1.0 |
com.aliyun | aliyun-sdk-oss | 3.13.0 |
com.amazonaws | aws-java-sdk-bundle | 1.11.1026 |
com.chuusai | shapeless_2.12 | 2.3.7 |
com.esotericsoftware | kryo-shaded | 4.0.2 |
com.esotericsoftware | minlog | 1.3.0 |
com.fasterxml.jackson | jackson-annotations-2.13.4.jar | |
com.fasterxml.jackson | jackson-core | 2.13.4 |
com.fasterxml.jackson | jackson-core-asl | 1.9.13 |
com.fasterxml.jackson | jackson-databind | 2.13.4.1 |
com.fasterxml.jackson | jackson-dataformat-cbor | 2.13.4 |
com.fasterxml.jackson | jackson-mapper-asl | 1.9.13 |
com.fasterxml.jackson | jackson-module-scala_2.12 | 2.13.4 |
com.github.joshelser | dropwizard-metrics-hadoop-metrics2-reporter | 0.1.2 |
com.github.wendykierp | JTransforms | 3.1 |
com.google.code.findbugs | jsr305 | 3.0.0 |
com.google.code.gson | gson | 2.8.6 |
com.google.flatbuffers | flatbuffers-java | 1.12.0 |
com.google.guava | guava | 14.0.1 |
com.google.protobuf | protobuf-java | 2.5.0 |
com.googlecode.json-simple | json-simple | 1.1.1 |
com.jcraft | jsch | 0.1.54 |
com.jolbox | bonecp | 0.8.0.RELEASE |
com.linkedin.isolation-forest | isolation-forest_3.2.0_2.12 | 2.0.8 |
com.ning | compress-lzf | 1.1 |
com.qcloud | cos_api-bundle | 5.6.19 |
com.sun.istack | istack-commons-runtime | 3.0.8 |
com.tdunning | json | 1.8 |
com.thoughtworks.paranamer | paranamer | 2.8 |
com.twitter | chill-java | 0.10.0 |
com.twitter | chill_2.12 | 0.10.0 |
com.typesafe | config | 1.3.4 |
com.zaxxer | HikariCP | 2.5.1 |
commons-cli | commons-cli | 1.5.0 |
commons-codec | commons-codec | 1.15 |
commons-collections | commons-collections | 3.2.2 |
commons-dbcp | commons-dbcp | 1.4 |
commons-io | commons-io | 2.11.0 |
commons-lang | commons-lang | 2.6 |
commons-logging | commons-logging | 1.1.3 |
commons-pool | commons-pool | 1.5.4.jar |
dev.ludovic.netlib | arpack | 2.2.1 |
dev.ludovic.netlib | blas | 2.2.1 |
dev.ludovic.netlib | lapack | 2.2.1 |
io.airlift | aircompressor | 0,21 |
io.dropwizard.metrics | metrics-core | 4.2.7 |
io.dropwizard.metrics | metrics-graphite | 4.2.7 |
io.dropwizard.metrics | metrics-jmx | 4.2.7 |
io.dropwizard.metrics | metrics-json | 4.2.7 |
io.dropwizard.metrics | metrics-jvm | 4.2.7 |
io.netty | netty-all | 4.1.74.Final |
io.netty | netty-buffer | 4.1.74.Final |
io.netty | netty-codec | 4.1.74.Final |
io.netty | netty-common | 4.1.74.Final |
io.netty | netty-handler | 4.1.74.Final |
io.netty | netty-resolver | 4.1.74.Final |
io.netty | netty-tcnative-classes | 2.0.48.Final |
io.netty | netty-transport | 4.1.74.Final |
io.netty | netty-transport-classes-epoll | 4.1.74.Final |
io.netty | netty-transport-classes-kqueue | 4.1.74.Final |
io.netty | netty-transport-native-epoll | 4.1.74.Final-linux-aarch_64 |
io.netty | netty-transport-native-epoll | 4.1.74.Final-linux-x86_64 |
io.netty | netty-transport-native-kqueue | 4.1.74.Final-osx-aarch_64 |
io.netty | netty-transport-native-kqueue | 4.1.74.Final-osx-x86_64 |
io.netty | netty-transport-native-unix-common | 4.1.74.Final |
io.opentracing | opentracing-api | 0.33.0 |
io.opentracing | opentracing-noop | 0.33.0 |
io.opentracing | opentracing-util | 0.33.0 |
jakarta.annotation | jakarta.annotation-api | 1.3.5 |
jakarta.inject | jakarta.inject | 2.6.1 |
jakarta.servlet | jakarta.servlet-api | 4.0.3 |
jakarta.validation-api | 2.0.2 | |
jakarta.ws.rs | jakarta.ws.rs-api | 2.1.6 |
jakarta.xml.bind | jakarta.xml.bind-api | 2.3.2 |
javax.activation | activation | 1.1.1 |
javax.jdo | jdo-api | 3.0.1 |
javax.transaction | jta | 1.1 |
javax.xml.bind | jaxb-api | 2.2.11 |
javolution | javolution | 5.5.1 |
jline | jline | 2.14.6 |
joda-time | joda-time | 2.10.13 |
net.razorvine | pickle | 1.2 |
net.sf.jpam | jpam | 1.1 |
net.sf.opencsv | opencsv | 2.3 |
net.sf.py4j | py4j | 0.10.9.5 |
net.sourceforge.f2j | arpack_combined_all | 0.1 |
org.antlr | ST4 | 4.0.4 |
org.antlr | antlr-runtime | 3.5.2 |
org.antlr | antlr4-runtime | 4.8 |
org.apache.arrow | arrow-format | 7.0.0 |
org.apache.arrow | arrow-memory-core | 7.0.0 |
org.apache.arrow | arrow-memory-netty | 7.0.0 |
org.apache.arrow | arrow-vector | 7.0.0 |
org.apache.avro | avro | 1.11.0 |
org.apache.avro | avro-ipc | 1.11.0 |
org.apache.avro | avro-mapred | 1.11.0 |
org.apache.commons | commons-collections4 | 4.4 |
org.apache.commons | commons-compress | 1.21 |
org.apache.commons | commons-crypto | 1.1.0 |
org.apache.commons | commons-lang3 | 3.12.0 |
org.apache.commons | commons-math3 | 3.6.1 |
org.apache.commons | commons-pool2 | 2.11.1 |
org.apache.commons | commons-text | 1.10.0 |
org.apache.curator | curator-client | 2.13.0 |
org.apache.curator | curator-framework | 2.13.0 |
org.apache.curator | curator-recipes | 2.13.0 |
org.apache.derby | derby | 10.14.2.0 |
org.apache.hadoop | hadoop-aliyun | 3.3.3.5.2-90111858 |
org.apache.hadoop | hadoop-annotations | 3.3.3.5.2-90111858 |
org.apache.hadoop | hadoop-aws | 3.3.3.5.2-90111858 |
org.apache.hadoop | hadoop-azure | 3.3.3.5.2-90111858 |
org.apache.hadoop | hadoop-azure-datalake | 3.3.3.5.2-90111858 |
org.apache.hadoop | hadoop-client-api | 3.3.3.5.2-90111858 |
org.apache.hadoop | hadoop-client-runtime | 3.3.3.5.2-90111858 |
org.apache.hadoop | hadoop-cloud-storage | 3.3.3.5.2-90111858 |
org.apache.hadoop | hadoop-cos | 3.3.3.5.2-90111858 |
org.apache.hadoop | hadoop-openstack | 3.3.3.5.2-90111858 |
org.apache.hadoop | hadoop-shaded-guava | 1.1.1 |
org.apache.hadoop | hadoop-yarn-server-web-proxy | 3.3.3.5.2-90111858 |
org.apache.hive | hive-beeline | 2.3.9 |
org.apache.hive | hive-cli | 2.3.9 |
org.apache.hive | hive-common | 2.3.9 |
org.apache.hive | hive-exec | 2.3.9 |
org.apache.hive | hive-jdbc | 2.3.9 |
org.apache.hive | hive-llap-common | 2.3.9 |
org.apache.hive | hive-metastore | 2.3.9 |
org.apache.hive | hive-serde | 2.3.9 |
org.apache.hive | hive-service-rpc | 3.1.2 |
org.apache.hive | hive-shims-0.23 | 2.3.9 |
org.apache.hive | hive-shims | 2.3.9 |
org.apache.hive | hive-shims-common | 2.3.9 |
org.apache.hive | hive-shims-scheduler | 2.3.9 |
org.apache.hive | hive-storage-api | 2.7.2 |
org.apache.hive | hive-vector-code-gen | 2.3.9 |
org.apache.httpcomponents | httpclient | 4.5.13 |
org.apache.httpcomponents | httpcore | 4.4.14 |
org.apache.httpcomponents | httpmime | 4.5.13 |
org.apache.httpcomponents.client5 | httpclient5 | 5.1.3 |
org.apache.ivy | ivy | 2.5.1 |
org.apache.kafka | kafka-clients | 2.8.1 |
org.apache.logging.log4j | log4j-1.2-api | 2.17.2 |
org.apache.logging.log4j | log4j-api | 2.17.2 |
org.apache.logging.log4j | log4j-core | 2.17.2 |
org.apache.logging.log4j | log4j-slf4j-impl | 2.17.2 |
org.apache.orc | orc-core | 1.7.6 |
org.apache.orc | orc-mapreduce | 1.7.6 |
org.apache.orc | orc-shims | 1.7.6 |
org.apache.parquet | parquet-column | 1.12.3 |
org.apache.parquet | parquet-common | 1.12.3 |
org.apache.parquet | parquet-encoding | 1.12.3 |
org.apache.parquet | parquet-format-structures | 1.12.3 |
org.apache.parquet | parquet-hadoop | 1.12.3 |
org.apache.parquet | parquet-jackson | 1.12.3 |
org.apache.qpid | proton-j | 0.33.8 |
org.apache.thrift | libfb303 | 0.9.3 |
org.apache.thrift | libthrift | 0.12.0 |
org.apache.yetus | audience-annotations | 0.5.0 |
org.apiguardian | apiguardian-api | 1.1.0 |
org.codehaus.janino | commons-compiler | 3.0.16 |
org.codehaus.janino | janino | 3.0.16 |
org.codehaus.jettison | jettison | 1.1 |
org.datanucleus | datanucleus-api-jdo | 4.2.4 |
org.datanucleus | datanucleus-core | 4.1.17 |
org.datanucleus | datanucleus-rdbms | 4.1.19 |
org.datanucleusjavax.jdo | 3.2.0-m3 | |
org.eclipse.jdt | core | 1.1.2 |
org.eclipse.jetty | jetty-util | 9.4.48.v20220622 |
org.eclipse.jetty | jetty-util-ajax | 9.4.48.v20220622 |
org.fusesource.leveldbjni | leveldbjni-all | 1.8 |
org.glassfish.hk2 | hk2-api | 2.6.1 |
org.glassfish.hk2 | hk2-locator | 2.6.1 |
org.glassfish.hk2 | hk2-utils | 2.6.1 |
org.glassfish.hk2 | osgi-resource-locator | 1.0.3 |
org.glassfish.hk2.external | aopalliance-repackaged | 2.6.1 |
org.glassfish.jaxb | jaxb-runtime | 2.3.2 |
org.glassfish.jersey.containers | jersey-container-servlet | 2,36 |
org.glassfish.jersey.containers | jersey-container-servlet-core | 2,36 |
org.glassfish.jersey.core | jersey-client | 2,36 |
org.glassfish.jersey.core | jersey-common | 2,36 |
org.glassfish.jersey.core | jersey-server | 2,36 |
org.glassfish.jersey.inject | jersey-hk2 | 2,36 |
org.ini4j | ini4j | 0.5.4 |
org.javassist | javassist | 3.25.0-GA |
org.javatuples | javatuples | 1,2 |
org.jdom | jdom2 | 2.0.6 |
org.jetbrains | annotations | 17.0.0 |
org.jodd | jodd-core | 3.5.2 |
org.json4s | json4s-ast_2.12 | 3.7.0-M11 |
org.json4s | json4s-core_2.12 | 3.7.0-M11 |
org.json4s | json4s-jackson_2.12 | 3.7.0-M11 |
org.json4s | json4s-scalap_2.12 | 3.7.0-M11 |
org.junit.jupiter | junit-jupiter | 5.5.2 |
org.junit.jupiter | junit-jupiter-api | 5.5.2 |
org.junit.jupiter | junit-jupiter-engine | 5.5.2 |
org.junit.jupiter | junit-jupiter-params | 5.5.2 |
org.junit.platform | junit-platform-commons | 1.5.2 |
org.junit.platform | junit-platform-engine | 1.5.2 |
org.lz4 | lz4-java | 1.8.0 |
org.objenesis | objenesis | 3.2 |
org.openpnp | opencv | 3.2.0-1 |
org.opentest4j | opentest4j | 1.2.0 |
org.postgresql | postgresql | 42.2.9 |
org.roaringbitmap | RoaringBitmap | 0.9.25 |
org.roaringbitmap | shims | 0.9.25 |
org.rocksdb | rocksdbjni | 6.20.3 |
org.scala-lang | scala-compiler | 2.12.15 |
org.scala-lang | scala-library | 2.12.15 |
org.scala-lang | scala-reflect | 2.12.15 |
org.scala-lang.modules | scala-collection-compat_2.12 | 2.1.1 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.9.0 |
org.scala-lang.modules | scala-parser-combinators_2.12 | 1.1.2 |
org.scala-lang.modules | scala-xml_2.12 | 1.2.0 |
org.scalactic | scalactic_2.12 | 3.2.14 |
org.scalanlp | breeze-macros_2.12 | 1.2 |
org.scalanlp | breeze_2.12 | 1.2 |
org.slf4j | jcl-over-slf4j | 1.7.32 |
org.slf4j | jul-to-slf4j | 1.7.32 |
org.slf4j | slf4j-api | 1.7.32 |
org.typelevel | algebra_2.12 | 2.0.1 |
org.typelevel | cats-kernel_2.12 | 2.1.1 |
org.typelevel | spire-macros_2.12 | 0.17.0 |
org.typelevel | spire-platform_2.12 | 0.17.0 |
org.typelevel | spire-util_2.12 | 0.17.0 |
org.xerial.snappy | snappy-java | 1.1.8.4 |
oro | oro | 2.0.8 |
pl.edu.icm | JLargeArrays | 1.5 |
Packages de niveau par défaut pour les bibliothèques Python
Vous trouverez ci-dessous le tableau avec la liste de tous les packages de niveau par défaut pour Python et leurs versions respectives.
Bibliothèque | Version | Bibliothèque | Version | Bibliothèque | Version |
---|---|---|---|---|---|
_libgcc_mutex | 0.1 | ipykernel | 6.22.0 | pickleshare | 0.7.5 |
_openmp_mutex | 4.5 | ipython | 8.9.0 | pillow | 9.4.0 |
_py-xgboost-mutex | 2.0 | ipywidgets | 8.0.4 | pip | 23.0.1 |
absl-py | 1.4.0 | isodate | 0.6.1 | pixman | 0.40.0 |
adal | 1.2.7 | itsdangerous | 2.1.2 | pkginfo | 1.9.6 |
adlfs | 2023.1.0 | Jack | 1.9.22 | pkgutil-resolve-name | 1.3.10 |
aiohttp | 3.8.4 | jedi | 0.18.2 | platformdirs | 3.2.0 |
aiosignal | 1.3.1 | jeepney | 0.8.0 | plotly | 5.13.0 |
alsa-lib | 1.2.8 | jinja2 | 3.1.2 | ply | 3.11 |
anyio | 3.6.2 | jmespath | 1.0.1 | pooch | 1.7.0 |
argcomplete | 2.1.2 | joblib | 1.2.0 | portalocker | 2.7.0 |
argon2-cffi | 21.3.0 | jpeg | 9e | pox | 0.3.2 |
argon2-cffi-bindings | 21.2.0 | jsonpickle | 2.2.0 | ppft | 1.7.6.6 |
arrow-cpp | 11.0.0 | jsonschema | 4.17.3 | prettytable | 3.6.0 |
asttokens | 2.2.1 | jupyter_client | 8.1.0 | prometheus_client | 0.16.0 |
astunparse | 1.6.3 | jupyter_core | 5.3.0 | prompt-toolkit | 3.0.38 |
async-timeout | 4.0.2 | jupyter_events | 0.6.3 | protobuf | 4.21.12 |
atk-1.0 | 2.38.0 | jupyter_server | 2.2.1 | psutil | 5.9.4 |
Attr | 2.5.1 | jupyter_server_terminals | 0.4.4 | pthread-stubs | 0,4 |
attrs | 22.2.0 | jupyterlab_pygments | 0.2.2 | ptyprocess | 0.7.0 |
aws-c-auth | 0.6.24 | jupyterlab_widgets | 3.0.7 | Pulseaudio | 16,1 |
aws-c-cal | 0.5.20 | keras | 2.11.0 | pulseaudio-client | 16,1 |
aws-c-common | 0.8.11 | keras-preprocessing | 1.1.2 | pulseaudio-daemon | 16,1 |
aws-c-compression | 0.2.16 | keyutils | 1.6.1 | pure_eval | 0.2.2 |
aws-c-event-stream | 0.2.18 | kiwisolver | 1.4.4 | py-xgboost | 1.7.1 |
aws-c-http | 0.7.4 | knack | 0.10.1 | py4j | 0.10.9.5 |
aws-c-io | 0.13.17 | krb5 | 1.20.1 | pyarrow | 11.0.0 |
aws-c-mqtt | 0.8.6 | Boiteux | 3.100 | pyasn1 | 0.4.8 |
aws-c-s3 | 0.2.4 | lcms2 | 2.15 | pyasn1-modules | 0.2.7 |
aws-c-sdkutils | 0.1.7 | ld_impl_linux-64 | 2.40 | pycosat | 0.6.4 |
aws-checksums | 0.1.14 | lerc | 4.0.0 | pycparser | 2.21 |
aws-crt-cpp | 0.19.7 | liac-arff | 2.5.0 | pygments | 2.14.0 |
aws-sdk-cpp | 1.10.57 | libabseil | 20220623.0 | pyjwt | 2.6.0 |
azure-common | 1.1.28 | libaec | 1.0.6 | pynacl | 1.5.0 |
azure-core | 1.26.4 | libarrow | 11.0.0 | pyodbc | 4.0.35 |
azure-datalake-store | 0.0.51 | libblas | 3.9.0 | pyopenssl | 23.1.1 |
azure-graphrbac | 0.61.1 | libbrotlicommon | 1.0.9 | pyparsing | 3.0.9 |
azure-identity | 1.12.0 | libbrotlidec | 1.0.9 | pyperclip | 1.8.2 |
azure-mgmt-authorization | 3.0.0 | libbrotlienc | 1.0.9 | pyqt | 5.15.7 |
azure-mgmt-containerregistry | 10.1.0 | Libcap | 2.67 | pyqt5-sip | 12.11.0 |
azure-mgmt-core | 1.4.0 | libcblas | 3.9.0 | pyrsistent | 0.19.3 |
azure-mgmt-keyvault | 10.2.1 | libclang | 15.0.7 | pysocks | 1.7.1 |
azure-mgmt-resource | 21.2.1 | libclang13 | 15.0.7 | pyspark | 3.3.1 |
azure-mgmt-storage | 20.1.0 | libcrc32c | 1.1.2 | python | 3.10.10 |
azure-storage-blob | 12.15.0 | libcups | 2.3.3 | python_abi | 3.10 |
azure-storage-file-datalake | 12.9.1 | libcurl | 7.88.1 | python-dateutil | 2.8.2 |
azureml-core | 1.49.0 | Libdb | 6.2.32 | python-fastjsonschema | 2.16.3 |
backcall | 0.2.0 | libdeflate | 1.17 | python-flatbuffers | 23.1.21 |
backports | 1.0 | libebm | 0.3.1 | python-graphviz | 0.20.1 |
backports-tempfile | 1.0 | libedit | 3.1.20191231 | python-json-logger | 2.0.7 |
backports-weakref | 1.0.post1 | libev | 4.33 | pytorch | 1.13.1 |
backports.functools_lru_cache | 1.6.4 | libevent | 2.1.10 | pytz | 2022.7.1 |
bcrypt | 3.2.2 | Libexpat | 2.5.0 | pyu2f | 0.1.5 |
beautifulsoup4 | 4.11.2 | libffi | 3.4.2 | pywin32-on-windows | 0.1.0 |
bleach | 6.0.0 | Libflac | 1.4.2 | pyyaml | 6.0 |
blinker | 1.6.1 | libgcc-ng | 12.2.0 | pyzmq | 25.0.2 |
brotli | 1.0.9 | Libgcrypt | 1.10.1 | qt-main | 5.15.8 |
brotli-bin | 1.0.9 | Libgd | 2.3.3 | re2 | 2023.02.01 |
brotli-python | 1.0.9 | libgfortran-ng | 12.2.0 | readline | 8,2 |
brotlipy | 0.7.0 | libgfortran5 | 12.2.0 | regex | 2022.10.31 |
bzip2 | 1.0.8 | libglib | 2.74.1 | requêtes | 2.28.2 |
c-ares | 1.18.1 | libgoogle-cloud | 2.7.0 | requests-oauthlib | 1.3.1 |
ca-certificates | 2022.12.7 | libgpg-error | 1,46 | rfc3339-validateur | 0.1.4 |
cached_property | 1.5.2 | libgrpc | 1.51.1 | rfc3986-validateur | 0.1.1 |
cached-property | 1.5.2 | libhwloc | 2.9.0 | rsa | 4,9 |
cachetools | 5.3.0 | libiconv | 1.17 | ruamel_yaml | 0.15.80 |
cairo | 1.16.0 | liblapack | 3.9.0 | ruamel.yaml | 0.17.21 |
certifi | 2022.12.7 | libllvm11 | 11.1.0 | ruamel.yaml.clib | 0.2.7 |
cffi | 1.15.1 | libllvm15 | 15.0.7 | s2n | 1.3.37 |
charset-normalizer | 2.1.1 | libnghttp2 | 1.52.0 | salib | 1.4.7 |
click | 8.1.3 | libnsl | 2.0.0 | scikit-learn | 1.2.0 |
cloudpickle | 2.2.1 | libogg | 1.3.4 | scipy | 1.10.1 |
colorama | 0.4.6 | libopenblas | 0.3.21 | seaborn | 0.12.2 |
Comm | 0.1.3 | libopus | 1.3.1 | seaborn-base | 0.12.2 |
conda-package-handling | 2.0.2 | libpng | 1.6.39 | secretstorage | 3.3.3 |
conda-package-streaming | 0.7.0 | libpq | 15.2 | send2trash | 1.8.0 |
configparser | 5.3.0 | libprotobuf | 3.21.12 | setuptools | 67.6.1 |
contextlib2 | 21.6.0 | Librsvg | 2.54.4 | shap | 0.41.0 |
contourpy | 1.0.7 | Libsndfile | 1.2.0 | sip | 6.7.7 |
chiffrement | 40.0.1 | libsodium | 1.0.18 | six | 1.16.0 |
cycler | 0.11.0 | libsqlite | 3.40.0 | sleef | 3.5.1 |
tiret | 2.9.2 | libssh2 | 1.10.0 | segment | 0.0.7 |
dash_cytoscape | 0.2.0 | libstdcxx-ng | 12.2.0 | smmap | 3.0.5 |
dash-core-components | 2.0.0 | libsystemd0 | 253 | snappy | 1.1.10 |
dash-html-components | 2.0.0 | libthrift | 0.18.0 | sniffio | 1.3.0 |
dash-table | 5.0.0 | libtiff | 4.5.0 | soupsieve | 2.3.2.post1 |
databricks-cli | 0.17.6 | Libtool | 2.4.7 | sqlalchemy | 2.0.9 |
dbus | 1.13.6 | libudev1 | 253 | sqlparse | 0.4.3 |
debugpy | 1.6.7 | libutf8proc | 2.8.0 | stack_data | 0.6.2 |
decorator | 5.1.1 | libuuid | 2.38.1 | statsmodels | 0.13.5 |
defusedxml | 0.7.1 | libuv | 1.44.2 | synapseml-mlflow | 1.0.14 |
dill | 0.3.6 | libvorbis | 1.3.7 | synapseml-utils | 1.0.7 |
distlib | 0.3.6 | libwebp | 1.2.4 | tabulate | 0.9.0 |
docker-py | 6.0.0 | libwebp-base | 1.2.4 | tbb | 2021.8.0 |
entrypoints | 0,4 | libxcb | 1.13 | tenacity | 8.2.2 |
et_xmlfile | 1.1.0 | libxgboost | 1.7.1 | tensorboard | 2.11.2 |
exécuter | 1.2.0 | libxkbcommon | 1.5.0 | tensorboard-data-server | 0.6.1 |
expat | 2.5.0 | libxml2 | 2.10.3 | tensorboard-plugin-wit | 1.8.1 |
Fftw | 3.3.10 | Libxslt | 1.1.37 | tensorflow | 2.11.0 |
filelock | 3.11.0 | libzlib | 1.2.13 | tensorflow-base | 2.11.0 |
flask | 2.2.3 | lightgbm | 3.3.3 | tensorflow-estimator | 2.11.0 |
flask-compress | 1.13 | lime | 0.2.0.1 | termcolor | 2.2.0 |
flatbuffers | 22.12.06 | llvm-openmp | 16.0.1 | terminado | 0.17.1 |
flit-core | 3.8.0 | llvmlite | 0.39.1 | threadpoolctl | 3.1.0 |
fluent-logger | 0.10.0 | lxml | 4.9.2 | tinycss2 | 1.2.1 |
font-ttf-dejavu-sans-mono | 2,37 | lz4-c | 1.9.4 | tk | 8.6.12 |
font-ttf-inconsolata | 3.000 | markdown | 3.4.1 | toml | 0.10.2 |
font-ttf-source-code-pro | 2.038 | markupsafe | 2.1.2 | toolz | 0.12.0 |
font-ttf-ubuntu | 0,83 | matplotlib | 3.6.3 | tornado | 6.2 |
fontconfig | 2.14.2 | matplotlib-base | 3.6.3 | tqdm | 4.65.0 |
fonts-conda-ecosystem | 1 | matplotlib-inline | 0.1.6 | traitlets | 5.9.0 |
polices-conda-forge | 1 | mistune | 2.0.5 | treeinterpreter | 0.2.2 |
fonttools | 4.39.3 | mkl | 2022.2.1 | typed-ast | 1.4.3 |
freetype | 2.12.1 | mlflow-skinny | 2.1.1 | typing_extensions | 4.5.0 |
fribidi | 1.0.10 | mpg123 | 1.31.3 | typing-extensions | 4.5.0 |
frozenlist | 1.3.3 | msal | 1.21.0 | tzdata | 2023c |
fsspec | 2023.4.0 | msal_extensions | 1.0.0 | unicodedata2 | 15.0.0 |
gast | 0.4.0 | msgpack | 1.0.5 | unixodbc | 2.3.10 |
gdk-pixbuf | 2.42.10 | msrest | 0.7.1 | urllib3 | 1.26.14 |
geographiclib | 1,52 | msrestazure | 0.6.4 | virtualenv | 20.19.0 |
geopy | 2.3.0 | multidict | 6.0.4 | wcwidth | 0.2.6 |
gettext | 0.21.1 | multiprocess | 0.70.14 | webencodings | 0.5.1 |
gevent | 22.10.2 | munkres | 1.1.4 | websocket-client | 1.5.1 |
gflags | 2.2.2 | mypy | 0.780 | werkzeug | 2.2.3 |
giflib | 5.2.1 | mypy-extensions | 0.4.4 | wheel | 0.40.0 |
gitdb | 4.0.10 | mysql-common | 8.0.32 | widgetsnbextension | 4.0.7 |
gitpython | 3.1.31 | mysql-libs | 8.0.32 | wrapt | 1.15.0 |
glib | 2.74.1 | nbclient | 0.7.3 | xcb-util | 0.4.0 |
glib-tools | 2.74.1 | nbconvert-core | 7.3.0 | xcb-util-image | 0.4.0 |
glog | 0.6.0 | nbformat | 5.8.0 | xcb-util-keysyms | 0.4.0 |
google-auth | 2.17.2 | ncurses | 6.3 | xcb-util-renderutil | 0.3.9 |
google-auth-oauthlib | 0.4.6 | ndg-httpsclient | 0.5.1 | xcb-util-wm | 0.4.1 |
google-pasta | 0.2.0 | nest-asyncio | 1.5.6 | xgboost | 1.7.1 |
graphite2 | 1.3.13 | nspr | 4.35 | xkeyboard-config | 2,38 |
Graphviz | 2.50.0 | nss | 3.89 | xorg-kbproto | 1.0.7 |
greenlet | 2.0.2 | numba | 0.56.4 | xorg-libice | 1.0.10 |
grpcio | 1.51.1 | numpy | 1.23.5 | xorg-libsm | 1.2.3 |
gson | 0.0.3 | oauthlib | 3.2.2 | xorg-libx11 | 1.8.4 |
gst-plugins-base | 1.22.0 | openjpeg | 2.5.0 | xorg-libxau | 1.0.9 |
gstreamer | 1.22.0 | openpyxl | 3.1.0 | xorg-libxdmcp | 1.1.3 |
gstreamer-orc | 0.4.33 | openssl | 3.1.0 | xorg-libxext | 1.3.4 |
gtk2 | 2.24.33 | opt_einsum | 3.3.0 | xorg-libxrender | 0.9.10 |
Gts | 0.7.6 | orc | 1.8.2 | xorg-renderproto | 0.11.1 |
h5py | 3.8.0 | empaquetage | 21,3 | xorg-xextproto | 7.3.0 |
harfbuzz | 6.0.0 | pandas | 1.5.3 | xorg-xproto | 7.0.31 |
hdf5 | 1.14.0 | pandasql | 0.7.3 | xz | 5.2.6 |
html5lib | 1.1 | pandocfilters | 1.5.0 | yaml | 0.2.5 |
humanfriendly | 10.0 | Pango | 1.50.14 | yarl | 1.8.2 |
icu | 70.1 | paramiko | 2.12.0 | zeromq | 4.3.4 |
idna | 3.4 | parquet-cpp | 1.5.1 | zipp | 3.15.0 |
imageio | 2.25.0 | parso | 0.8.3 | zlib | 1.2.13 |
importlib_metadata | 5.2.0 | pathos | 0.3.0 | zope.event | 4.6 |
importlib_resources | 5.12.0 | pathspec | 0.11.1 | zope.interface | 6.0 |
importlib-metadata | 5.2.0 | patsy | 0.5.3 | zstandard | 0.19.0 |
interpret | 0.3.1 | pcre2 | 10.40 | zstd | 1.5.2 |
interpret-core | 0.3.1 | pexpect | 4.8.0 |
Packages de niveau par défaut pour les bibliothèques R
Vous trouverez ci-dessous le tableau qui répertorie tous les packages de niveau par défaut pour R et leurs versions respectives.
Bibliothèque | Version | Bibliothèque | Version | Bibliothèque | Version |
---|---|---|---|---|---|
askpass | 1.1 | highcharter | 0.9.4 | readr | 2.1.3 |
assertthat | 0.2.1 | highr | 0.9 | readxl | 1.4.1 |
backports | 1.4.1 | hms | 1.1.2 | recipes | 1.0.3 |
base64enc | 0.1-3 | htmltools | 0.5.3 | rematch | 1.0.1 |
bit | 4.0.5 | htmlwidgets | 1.5.4 | rematch2 | 2.1.2 |
bit64 | 4.0.5 | httpcode | 0.3.0 | remotes | 2.4.2 |
objet BLOB | 1.2.3 | httpuv | 1.6.6 | reprex | 2.0.2 |
brew | 1,0-8 | httr | 1.4.4 | reshape2 | 1.4.4 |
brio | 1.1.3 | ids | 1.0.1 | rjson | 0.2.21 |
broom | 1.0.1 | igraph | 1.3.5 | rlang | 1.0.6 |
bslib | 0.4.1 | infer | 1.0.3 | rlist | 0.4.6.2 |
cachem | 1.0.6 | ini | 0.3.1 | rmarkdown | 2.18 |
callr | 3.7.3 | ipred | 0.9-13 | RODBC | 1.3-19 |
caret | 6.0-93 | isoband | 0.2.6 | roxygen2 | 7.2.2 |
cellranger | 1.1.0 | iterators | 1.0.14 | rprojroot | 2.0.3 |
cli | 3.4.1 | jquerylib | 0.1.4 | rsample | 1.1.0 |
clipr | 0.8.0 | jsonlite | 1.8.3 | rstudioapi | 0.14 |
horloge | 0.6.1 | knitr | 1,41 | rversions | 2.1.2 |
colorspace | 2.0-3 | labeling | 0.4.2 | rvest | 1.0.3 |
commonmark | 1.8.1 | later | 1.3.0 | sass | 0.4.4 |
config | 0.3.1 | lava | 1.7.0 | scales | 1.2.1 |
conflicted | 1.1.0 | lazyeval | 0.2.2 | selectr | 0.4-2 |
coro | 1.0.3 | lhs | 1.1.5 | sessioninfo | 1.2.2 |
cpp11 | 0.4.3 | cycle de vie | 1.0.3 | shiny | 1.7.3 |
crayon | 1.5.2 | lightgbm | 3.3.3 | curseur | 0.3.0 |
credentials | 1.3.2 | listenv | 0.8.0 | sourcetools | 0.1.7 |
crosstalk | 1.2.0 | lobstr | 1.1.2 | sparklyr | 1.7.8 |
crul | 1.3 | lubridate | 1.9.0 | SQUAREM | 2021.1 |
curl | 4.3.3 | magrittr | 2.0.3 | stringi | 1.7.8 |
data.table | 1.14.6 | maps | 3.4.1 | stringr | 1.4.1 |
DBI | 1.1.3 | memoise | 2.0.1 | sys | 3.4.1 |
dbplyr | 2.2.1 | mime | 0,12 | systemfonts | 1.0.4 |
desc | 1.4.2 | miniUI | 0.1.1.1 | testthat | 3.1.5 |
devtools | 2.4.5 | modeldata | 1.0.1 | textshaping | 0.3.6 |
dials | 1.1.0 | modelenv | 0.1.0 | tibble | 3.1.8 |
DiceDesign | 1,9 | ModelMetrics | 1.2.2.2 | tidymodels | 1.0.0 |
diffobj | 0.3.5 | modelr | 0.1.10 | tidyr | 1.2.1 |
digest | 0.6.30 | munsell | 0.5.0 | tidyselect | 1.2.0 |
downlit | 0.4.2 | numDeriv | 2016.8-1.1 | tidyverse | 1.3.2 |
dplyr | 1.0.10 | openssl | 2.0.4 | timechange | 0.1.1 |
dtplyr | 1.2.2 | parallelly | 1.32.1 | timeDate | 4021.106 |
e1071 | 1.7-12 | parsnip | 1.0.3 | tinytex | 0.42 |
ellipsis | 0.3.2 | patchwork | 1.1.2 | torch | 0.9.0 |
evaluate | 0,18 | pillar | 1.8.1 | triebeard | 0.3.0 |
fansi | 1.0.3 | pkgbuild | 1.4.0 | TTR | 0.24.3 |
farver | 2.1.1 | pkgconfig | 2.0.3 | tune | 1.0.1 |
fastmap | 1.1.0 | pkgdown | 2.0.6 | tzdb | 0.3.0 |
fontawesome | 0.4.0 | pkgload | 1.3.2 | urlchecker | 1.0.1 |
forcats | 0.5.2 | plotly | 4.10.1 | urltools | 1.7.3 |
foreach | 1.5.2 | plyr | 1.8.8 | usethis | 2.1.6 |
forge | 0.2.0 | praise | 1.0.0 | utf8 | 1.2.2 |
fs | 1.5.2 | prettyunits | 1.1.1 | uuid | 1.1-0 |
furrr | 0.3.1 | pROC | 1.18.0 | vctrs | 0.5.1 |
future | 1.29.0 | processx | 3.8.0 | viridisLite | 0.4.1 |
future.apply | 1.10.0 | prodlim | 2019.11.13 | vroom | 1.6.0 |
gargle | 1.2.1 | profvis | 0.3.7 | waldo | 0.4.0 |
generics | 0.1.3 | progress | 1.2.2 | warp | 0.2.0 |
gert | 1.9.1 | progressr | 0.11.0 | whisker | 0,4 |
ggplot2 | 3.4.0 | promises | 1.2.0.1 | withr | 2.5.0 |
gh | 1.3.1 | proxy | 0.4-27 | workflows | 1.1.2 |
gistr | 0.9.0 | pryr | 0.1.5 | workflowsets | 1.0.0 |
gitcreds | 0.1.2 | ps | 1.7.2 | xfun | 0,35 |
globals | 0.16.2 | purrr | 0.3.5 | xgboost | 1.6.0.1 |
glue | 1.6.2 | quantmod | 0.4.20 | XML | 3.99-0.12 |
googledrive | 2.0.0 | r2d3 | 0.2.6 | xml2 | 1.3.3 |
googlesheets4 | 1.0.1 | R6 | 2.5.1 | xopen | 1.0.0 |
gower | 1.0.0 | ragg | 1.2.4 | xtable | 1.8-4 |
GPfit | 1,0-8 | rappdirs | 0.3.3 | xts | 0.12.2 |
gtable | 0.3.1 | rbokeh | 0.5.2 | yaml | 2.3.6 |
hardhat | 1.2.0 | rcmdcheck | 1.4.0 | yardstick | 1.1.0 |
haven | 2.5.1 | RColorBrewer | 1.1-3 | zip | 2.2.2 |
hexbin | 1.28.2 | Rcpp | 1.0.9 | zoo | 1.8-11 |
Migration entre différentes versions d’Apache Spark
La migration de vos charges de travail vers Fabric Runtime 1.1 (Apache Spark 3.3) à partir d’une version antérieure d’Apache Spark implique une série d’étapes pour garantir une migration fluide. Ce guide décrit les étapes nécessaires pour vous aider à migrer efficacement.
Passez en revue les notes de publication de Fabric Runtime 1.1, y compris la vérification des composants et des packages de niveau par défaut inclus dans le runtime, pour comprendre les nouvelles fonctionnalités et les améliorations.
Vérifiez la compatibilité de votre configuration actuelle et de toutes les bibliothèques associées, y compris les dépendances et les intégrations. Passez en revue les guides de migration pour identifier les changements cassants potentiels :
- Consultez le guide de migration Spark Core
- Consultez le guide de migration sql, jeux de données et dataframes
- Si votre solution est liée à Apache Spark Structure Streaming, consultez le Guide de migration de Structured Streaming
- Si vous utilisez PySpark, consultez le guide de migration pyspark
- Si vous migrez du code de Koalas vers PySpark, consultez le guide de migration de Koalas vers l’API pandas sur Spark
Déplacez vos charges de travail vers Fabric et assurez-vous que vous disposez de sauvegardes de vos fichiers de données et de configuration au cas où vous deviez revenir à la version précédente.
Mettez à jour toutes les dépendances susceptibles d’être affectées par la nouvelle version d’Apache Spark ou d’autres composants liés à Fabric Runtime 1.1. Cela peut inclure des bibliothèques ou des connecteurs tiers. Veillez à tester les dépendances mises à jour dans un environnement intermédiaire avant le déploiement en production
Mettez à jour la configuration Apache Spark sur votre charge de travail. Cela peut inclure la mise à jour des paramètres de configuration, l’ajustement des allocations de mémoire et la modification de toutes les configurations déconseillées.
Modifiez vos applications Apache Spark (notebooks et définitions de travaux Apache Spark) pour utiliser les nouvelles API et fonctionnalités introduites dans Fabric Runtime 1.1 et Apache Spark 3.3. Cela peut impliquer la mise à jour de votre code pour prendre en charge toutes les API dépréciées ou supprimées, et la refactorisation de vos applications pour tirer parti des améliorations des performances et de nouvelles fonctionnalités.
Testez minutieusement vos applications mises à jour dans un environnement intermédiaire pour garantir la compatibilité et la stabilité avec Apache Spark 3.3. Effectuez des tests de performances, des tests fonctionnels et des tests de régression pour identifier et résoudre les problèmes qui peuvent survenir pendant le processus de migration.
Après avoir validé vos applications dans un environnement intermédiaire, déployez les applications mises à jour dans votre environnement de production. Surveillez les performances et la stabilité de vos applications après la migration pour identifier les problèmes qui doivent être résolus.
Mettez à jour votre documentation interne et vos supports de formation pour refléter les modifications introduites dans Fabric Runtime 1.1. Assurez-vous que les membres de votre équipe sont familiarisés avec les nouvelles fonctionnalités et les améliorations pour optimiser les avantages de la migration.