Apache Spark Runtime in Fabric

Microsoft Fabric Runtime è una piattaforma integrata di Azure basata su Apache Spark che consente l'esecuzione e la gestione di esperienze di data engineering e data science. Combina i componenti chiave di origini interne e open source, offrendo ai clienti una soluzione completa. Per semplicità, si fa riferimento a Microsoft Fabric Runtime basato su Apache Spark come runtime dell'infrastruttura.

Importante

Microsoft Fabric è disponibile in anteprima.

Componenti principali del runtime dell'infrastruttura:

  • Apache Spark : una potente libreria di elaborazione distribuita open source, per abilitare attività di elaborazione e analisi dei dati su larga scala. Apache Spark offre una piattaforma versatile e ad alte prestazioni per esperienze di data engineering e data science.

  • Delta Lake : un livello di archiviazione open source che porta le transazioni ACID e altre funzionalità di affidabilità dei dati ad Apache Spark. Integrato all'interno di Microsoft Fabric Runtime, Delta Lake migliora le funzionalità di elaborazione dei dati e garantisce la coerenza dei dati tra più operazioni simultanee.

  • Pacchetti a livello predefinito per Java/Scala, Python e R per supportare linguaggi e ambienti di programmazione diversi. Questi pacchetti vengono installati e configurati automaticamente, consentendo agli sviluppatori di applicare i linguaggi di programmazione preferiti per le attività di elaborazione dati.

  • Microsoft Fabric Runtime è basato su un sistema operativo open source affidabile (Ubuntu), garantendo la compatibilità con varie configurazioni hardware e requisiti di sistema.

Runtime 1.1

Microsoft Fabric Runtime 1.1 è l'impostazione predefinita e attualmente l'unico runtime offerto all'interno della piattaforma Microsoft Fabric. I componenti principali di Runtime 1.1 sono:

  • Sistema operativo: Ubuntu 18.04
  • Java: 1.8.0_282
  • Scala: 2.12.15
  • Python: 3.10
  • Delta Lake: 2.2
  • R: 4.2.2

Screenshot che mostra dove selezionare la versione di runtime.

Microsoft Fabric Runtime 1.1 include una raccolta di pacchetti di livello predefiniti, tra cui un'installazione completa di Anaconda e librerie comunemente usate per Java/Scala, Python e R. Queste librerie vengono incluse automaticamente quando si usano notebook o processi nella piattaforma Microsoft Fabric. Per un elenco completo delle librerie, vedere la documentazione.

Microsoft Fabric implementa periodicamente gli aggiornamenti di manutenzione per Runtime 1.1, fornendo correzioni di bug, miglioramenti delle prestazioni e patch di sicurezza. Rimanere aggiornati garantisce prestazioni e affidabilità ottimali per le attività di elaborazione dati.

Miglioramenti e nuove funzionalità

Apache Spark 3.3.1

Di seguito è riportato un riepilogo esteso delle nuove funzionalità principali correlate ad Apache Spark versione 3.3.0 e 3.3.1:

  • Filtro a livello di riga: migliorare le prestazioni dei join prefiltrando un lato purché non siano presenti effetti di deprecazione o regressione.oin usando un filtro Bloom e un predicato IN generati dai valori dall'altro lato del join (SPARK-32268)

  • Migliorare la compatibilità di Spark con i miglioramenti sql standard:ANSI (SPARK-38860)

  • Miglioramenti dei messaggi di errore per identificare i problemi più velocemente ed eseguire i passaggi necessari per risolverlo (SPARK-38781)

  • Supportare tipi complessi per il lettore con vettorizzazione Parquet. In precedenza, il lettore con vettori Parquet non supporta il tipo di colonna annidato (struct, matrice e mappa). Apache Spark 3.3 contiene un'implementazione del lettore con vettorizzazione di colonne annidate per FB-ORC nel fork interno di Spark. Influisce sul miglioramento delle prestazioni rispetto al lettore non ctorizzato durante la lettura di colonne annidate. Inoltre, questa implementazione può anche contribuire a migliorare le prestazioni delle colonne non annidate durante la lettura di colonne non annidate e annidate insieme in una query (SPARK-34863)

  • Consente agli utenti di eseguire query sui metadati dei file di input per tutti i formati di file, esporli come colonne nascoste predefinite , il che significa che gli utenti possono visualizzarli solo quando fanno riferimento in modo esplicito (ad esempio, percorso file e nome file) (SPARK-37273)

  • Fornire un profiler per le funzioni definite dall'utente Python/Pandas (SPARK-37443)

  • In precedenza, le query di streaming con Trigger, che caricavano tutti i dati disponibili in un singolo batch. Per questo motivo, la quantità di dati che le query potrebbero elaborare era limitata o il driver Spark non sarebbe disponibile nella memoria. Ora, introduzione a Trigger.AvailableNow per l'esecuzione di query di streaming come Trigger una sola volta in più batch (SPARK-36533)

  • Funzionalità di push DS V2 più complete (SPARK-38788)

  • Esecuzione in sequenza nell'ambiente Kubernetes (SPARK-37810)

  • Supporto di utilità di pianificazione Kubernetes personalizzate ( SPARK-36057)

  • Migrazione da log4j 1 a log4j 2 (SPARK-37814) per ottenere i vantaggi seguenti:

    • Prestazioni: Log4j 2 è più veloce di Log4j 1. Log4j 2 usa la registrazione asincrona per impostazione predefinita, che può migliorare significativamente le prestazioni.

    • Flessibilità: Log4j 2 offre maggiore flessibilità in termini di configurazione. Supporta più formati di configurazione, tra cui XML, JSON e YAML.

    • Estendibilità: Log4j 2 è progettato per essere estendibile. Consente agli sviluppatori di creare plug-in e appender personalizzati per estendere la funzionalità del framework di registrazione.

    • Sicurezza: Log4j 2 offre funzionalità di sicurezza migliori rispetto a Log4j 1. Supporta i livelli di crittografia e socket sicuro per la comunicazione sicura tra le applicazioni.

    • Semplicità: Log4j 2 è più semplice da usare rispetto a Log4j 1. Ha un'API più intuitiva e un processo di configurazione più semplice.

  • Introdurre shuffle in SinglePartition per migliorare il parallelismo e correggere la regressione delle prestazioni per i join in Spark 3.3 e Spark 3.2 (SPARK-40703)

  • Ottimizzare la regola TrasponiWindow per estendere i casi applicabili e ottimizzare la complessità del tempo (SPARK-38034)

  • Per avere una parità nell'esecuzione di TimeSecurity tramite SQL e l'opzione Dataframe, supportareil timestamp in secondi per TimeFrame usando le opzioni del dataframe (SPARK-39633])

  • Ottimizzare l'ordinamentoglobale in RepartitionByExpression per salvare un ordinamento locale (SPARK-39911)

  • Verificare che il partizionamento dioutput sia specificato dall'utente in AQE (SPARK-39915)

  • Aggiornare il controllo a colonne parquet V2 per i campi annidati (SPARK-39951)

  • Lettura in un file Parquet partizionato su disco da una colonna di tipo "Byte" (SPARK-40212)

  • Correzione dell'eliminazione delle colonne in CSV quando _corrupt_record è selezionato (SPARK-40468)

Delta Lake 2.2

Le funzionalità principali di questa versione sono le seguenti:

  • LIMIT pushdown nell'analisi Delta. Migliorare le prestazioni delle query contenenti LIMIT clausole eseguendo il push dell'analisi delta durante la LIMIT pianificazione delle query. L'analisi differenziale usa e LIMIT i conteggi delle righe a livello di file per ridurre il numero di file analizzati che consentono alle query di leggere molto meno il numero di file e potrebbero velocizzare LIMIT le query di 10-100x a seconda delle dimensioni della tabella.

  • Pushdown aggregato nell'analisi Delta per SELECT COUNT(*). Le query di aggregazione, ad SELECT COUNT(*) esempio nelle tabelle Delta, vengono soddisfatte usando i conteggi delle righe a livello di file nei metadati della tabella Delta anziché contare le righe nei file di dati sottostanti. Ciò riduce significativamente il tempo di query perché la query deve solo leggere i metadati della tabella e potrebbe velocizzare le query di conteggio delle tabelle complete di 10-100x.

  • Supporto per la raccolta di statistiche a livello di file come parte del comando CONVERT TO DELTA. Queste statistiche consentono potenzialmente di velocizzare le query nella tabella Delta. Per impostazione predefinita, le statistiche vengono raccolte come parte del comando CONVERT TO DELTA. Per disabilitare la raccolta di statistiche, specificare NO STATISTICS la clausola nel comando . Esempio: CONVERT TO DELTA table_name NO STATISTICS

  • Migliorare le prestazioni del comando DELETE eliminando le colonne da leggere durante la ricerca di file da riscrivere.

  • Correzione di un bug nella configurazione della modalità multi cluster S3 basata su DynamoDB. La versione precedente ha scritto un timestamp non corretto, usato dalla funzionalità TTL di DynamoDB per pulire gli elementi scaduti. Questo valore timestamp è stato corretto e l'attributo della tabella è stato rinominato da commitTime a expireTime. Se la durata (TTL) è già abilitata, seguire la procedura di migrazione qui.

  • Correzione del comportamento non deterministico durante l'utilizzo di MERGE quando si stiano usando origini non deterministiche.

  • Rimuovere le restrizioni per l'uso di tabelle Delta con mapping di colonne in determinati casi di Streaming + CDF. In precedenza è stato usato per bloccare Streaming+CDF se nella tabella Delta è abilitato il mapping delle colonne anche se non contiene colonne RENAME o DROP.

  • Migliorare il monitoraggio delle query di costruzione dello stato Delta (altre query eseguite come parte della pianificazione) rendendole visibili nell'interfaccia utente di Spark.

  • Supporto per più where() chiamate nell'API Scala/Python optimize

  • Supporto per il passaggio di configurazioni Hadoop tramite l'API DeltaTable

  • Supportare i nomi delle colonne di partizione che iniziano con . o _ nel comando CONVERT TO DELTA.

  • Miglioramenti alle metriche nella cronologia delle tabelle

  • Correzione dei downgrade accidentali dei protocolli con il comando RESTORE . Fino ad ora, RESTORE TABLE può effettuare il downgrade della versione del protocollo della tabella, che potrebbe causare letture incoerenti con il tempo di percorrenza. Con questa correzione, la versione del protocollo non viene mai sottoposta a downgrade da quella corrente.

  • Correggere un bug in MERGE INTO quando sono presenti più UPDATE clausole e uno degli UPDATEs è con un'evoluzione dello schema.

  • Correzione di un bug in cui talvolta l'oggetto attivo SparkSession non viene trovato quando si usano le API Delta

  • Risolvere un problema per cui lo schema di partizione non è stato impostato durante il commit iniziale.

  • Rilevare le eccezioni durante la scrittura last_checkpoint di file non riesce.

  • Risolvere un problema durante il riavvio di una query di streaming con AvailableNow trigger in una tabella Delta.

  • Risolvere un problema con CDF e Streaming in cui l'offset non viene aggiornato correttamente quando non sono presenti modifiche ai dati

Controllare le note sulla versione completa e di origine qui.

Pacchetti di livello predefiniti per le librerie Java/Scala

Di seguito è possibile trovare la tabella con l'elenco di tutti i pacchetti di livello predefiniti per Java/Scala e le rispettive versioni.

GroupId ArtifactId Versione
com.aliyun aliyun-java-sdk-core 4.5.10
com.aliyun aliyun-java-sdk-kms 2.11.0
com.aliyun aliyun-java-sdk-ram 3.1.0
com.aliyun aliyun-sdk-oss 3.13.0
com.amazonaws aws-java-sdk-bundle 1.11.1026
com.chuusai shapeless_2.12 2.3.7
com.esotericsoftware kryo-shaded 4.0.2
com.esotericsoftware minlog 1.3.0
com.fasterxml.jackson jackson-annotations-2.13.4.jar
com.fasterxml.jackson jackson-core 2.13.4
com.fasterxml.jackson jackson-core-asl 1.9.13
com.fasterxml.jackson jackson-databind 2.13.4.1
com.fasterxml.jackson jackson-dataformat-cbor 2.13.4
com.fasterxml.jackson jackson-mapper-asl 1.9.13
com.fasterxml.jackson jackson-module-scala_2.12 2.13.4
com.github.joshelser dropwizard-metrics-hadoop-metrics2-reporter 0.1.2
com.github.wendykierp JTransforms 3.1
com.google.code.findbugs jsr305 3.0.0
com.google.code.gson gson 2.8.6
com.google.flatbuffers flatbuffers-java 1.12.0
com.google.guava Guava 14.0.1
com.google.protobuf protobuf-java 2.5.0
com.googlecode.json-simple json-simple 1.1.1
com.jcraft jsch 0.1.54
com.jolbox bonecp 0.8.0.RELEASE
com.linkedin.isolation-forest isolamento-forest_3.2.0_2.12 2.0.8
com.ning compress-lzf 1.1
com.qcloud cos_api-bundle 5.6.19
com.sun.istack istack-commons-runtime 3.0.8
com.tdunning json 1.8
com.thoughtworks.paranamer paranamer 2.8
com.twitter chill-java 0.10.0
com.twitter chill_2.12 0.10.0
com.typesafe config 1.3.4
com.zaxxer HikariCP 2.5.1
commons-cli commons-cli 1.5.0
commons-codec commons-codec 1.15
commons-collections commons-collections 3.2.2
commons-dbcp commons-dbcp 1.4
commons-io commons-io 2.11.0
commons-lang commons-lang 2.6
commons-logging commons-logging 1.1.3
commons-pool commons-pool 1.5.4.jar
dev.cluster.netlib arpack 2.2.1
dev.cluster.netlib blas 2.2.1
dev.cluster.netlib lapack 2.2.1
io.airlift aircompressor 0.21
io.dropwizard.metrics metrics-core 4.2.7
io.dropwizard.metrics metrics-graphite 4.2.7
io.dropwizard.metrics metrics-jmx 4.2.7
io.dropwizard.metrics metrics-json 4.2.7
io.dropwizard.metrics metrics-jvm 4.2.7
io.netty netty-all 4.1.74.Finale
io.netty netty-buffer 4.1.74.Finale
io.netty netty-codec 4.1.74.Finale
io.netty netty-common 4.1.74.Finale
io.netty netty-handler 4.1.74.Finale
io.netty netty-resolver 4.1.74.Finale
io.netty netty-tcnative-classes 2.0.48.Finale
io.netty netty-transport 4.1.74.Finale
io.netty netty-transport-classes-epoll 4.1.74.Finale
io.netty netty-transport-classes-kqueue 4.1.74.Finale
io.netty netty-transport-native-epoll 4.1.74.Final-linux-aarch_64
io.netty netty-transport-native-epoll 4.1.74.Final-linux-x86_64
io.netty netty-transport-native-kqueue 4.1.74.Final-osx-aarch_64
io.netty netty-transport-native-kqueue 4.1.74.Final-osx-x86_64
io.netty netty-transport-native-unix-common 4.1.74.Finale
io.opentracing opentracing-api 0.33.0
io.opentracing opentracing-noop 0.33.0
io.opentracing opentracing-util 0.33.0
jakarta.annotation jakarta.annotation-api 1.3.5
jakarta.inject jakarta.inject 2.6.1
jakarta.servlet jakarta.servlet-api 4.0.3
jakarta.validation-api 2.0.2
jakarta.ws.rs jakarta.ws.rs-api 2.1.6
jakarta.xml.bind jakarta.xml.bind-api 2.3.2
javax.activation activation 1.1.1
javax.jdo jdo-api 3.0.1
javax.transaction jta 1.1
javax.xml.bind jaxb-api 2.2.11
javolution javolution 5.5.1
jline jline 2.14.6
joda-time joda-time 2.10.13
net.razorvine Sottaceto 1.2
net.sf.jpam jpam 1.1
net.sf.opencsv opencsv 2.3
net.sf.py4j py4j 0.10.9.5
net.sourceforge.f2j arpack_combined_all 0,1
org.antlr ST4 4.0.4
org.antlr antlr-runtime 3.5.2
org.antlr antlr4-runtime 4.8
org.apache.arrow formato freccia 7.0.0
org.apache.arrow arrow-memory-core 7.0.0
org.apache.arrow arrow-memory-netty 7.0.0
org.apache.arrow arrow-vector 7.0.0
org.apache.avro avro 1.11.0
org.apache.avro avro-ipc 1.11.0
org.apache.avro avro-mapred 1.11.0
org.apache.commons commons-collections4 4.4
org.apache.commons comprimere commons 1.21
org.apache.commons commons-crypto 1.1.0
org.apache.commons commons-lang3 3.12.0
org.apache.commons commons-math3 3.6.1
org.apache.commons commons-pool2 2.11.1
org.apache.commons commons-text 1.10.0
org.apache.curator curator-client 2.13.0
org.apache.curator curator-framework 2.13.0
org.apache.curator ricette di curatore 2.13.0
org.apache.derby Derby 10.14.2.0
org.apache.hadoop hadoop-aliyun 3.3.3.5.2-90111858
org.apache.hadoop annotazioni hadoop 3.3.3.5.2-90111858
org.apache.hadoop hadoop-aws 3.3.3.5.2-90111858
org.apache.hadoop hadoop-azure 3.3.3.5.2-90111858
org.apache.hadoop hadoop-azure-datalake 3.3.3.5.2-90111858
org.apache.hadoop hadoop-client-api 3.3.3.5.2-90111858
org.apache.hadoop hadoop-client-runtime 3.3.3.5.2-90111858
org.apache.hadoop hadoop-cloud-storage 3.3.3.5.2-90111858
org.apache.hadoop hadoop-cos 3.3.3.5.2-90111858
org.apache.hadoop hadoop-openstack 3.3.3.5.2-90111858
org.apache.hadoop hadoop-shaded-guava 1.1.1
org.apache.hadoop hadoop-yarn-server-web-proxy 3.3.3.5.2-90111858
org.apache.hive hive-beeline 2.3.9
org.apache.hive hive-cli 2.3.9
org.apache.hive hive-common 2.3.9
org.apache.hive hive-exec 2.3.9
org.apache.hive hive-jdbc 2.3.9
org.apache.hive hive-llap-common 2.3.9
org.apache.hive hive-metastore 2.3.9
org.apache.hive hive-serde 2.3.9
org.apache.hive hive-service-rpc 3.1.2
org.apache.hive hive-shims-0.23 2.3.9
org.apache.hive hive-shims 2.3.9
org.apache.hive hive-shims-common 2.3.9
org.apache.hive hive-shims-scheduler 2.3.9
org.apache.hive hive-storage-api 2.7.2
org.apache.hive hive-vector-code-gen 2.3.9
org.apache.httpcomponents httpclient 4.5.13
org.apache.httpcomponents httpcore 4.4.14
org.apache.httpcomponents httpmime 4.5.13
org.apache.httpcomponents.client5 httpclient5 5.1.3
org.apache.ivy ivy 2.5.1
org.apache.kafka kafka-client 2.8.1
org.apache.logging.log4j log4j-1.2-api 2.17.2
org.apache.logging.log4j log4j-api 2.17.2
org.apache.logging.log4j log4j-core 2.17.2
org.apache.logging.log4j log4j-slf4j-impl 2.17.2
org.apache.orc orc-core 1.7.6
org.apache.orc orc-mapreduce 1.7.6
org.apache.orc orc-shim 1.7.6
org.apache.parquet parquet-column 1.12.3
org.apache.parquet parquet-common 1.12.3
org.apache.parquet codifica parquet 1.12.3
org.apache.parquet strutture parquet-format 1.12.3
org.apache.parquet parquet-hadoop 1.12.3
org.apache.parquet parquet-jackson 1.12.3
org.apache.qpid proton-j 0.33.8
org.apache.thrift libfb303 0.9.3
org.apache.thrift libthrift 0.12.0
org.apache.yetus annotazioni di destinatari 0.5.0
org.apiguardian apiguardian-api 1.1.0
org.codehaus.janino commons-compiler 3.0.16
org.codehaus.janino janino 3.0.16
org.codehaus.jettison jettison 1.1
org.datanucleus datanucleus-api-jdo 4.2.4
org.datanucleus datanucleus-core 4.1.17
org.datanucleus datanucleus-rdbms 4.1.19
org.datanucleusjavax.jdo 3.2.0-m3
org.eclipse.jdt core 1.1.2
org.eclipse.jetty jetty-util 9.4.48.v20220622
org.eclipse.jetty jetty-util-ajax 9.4.48.v20220622
org.fusesource.leveldbjni leveldbjni-all 1.8
org.glassfish.hk2 hk2-api 2.6.1
org.glassfish.hk2 hk2-locator 2.6.1
org.glassfish.hk2 hk2-utils 2.6.1
org.glassfish.hk2 osgi-resource-locator 1.0.3
org.glassfish.hk2.external aopalliance-repackaged 2.6.1
org.glassfish.jaxb jaxb-runtime 2.3.2
org.glassfish.jersey.containers jersey-container-servlet 2.36
org.glassfish.jersey.containers jersey-container-servlet-core 2.36
org.glassfish.jersey.core jersey-client 2.36
org.glassfish.jersey.core jersey-common 2.36
org.glassfish.jersey.core jersey-server 2.36
org.glassfish.jersey.inject jersey-hk2 2.36
org.ini4j ini4j 0.5.4
org.javassist javassist 3.25.0-GA
org.javatuples javatuples 1.2
org.jdom jdom2 2.0.6
org.jetbrains annotations 17.0.0
org.jodd jodd-core 3.5.2
org.json4s json4s-ast_2.12 3.7.0-M11
org.json4s json4s-core_2.12 3.7.0-M11
org.json4s json4s-jackson_2.12 3.7.0-M11
org.json4s json4s-scalap_2.12 3.7.0-M11
org.junit.jupiter junit-jupiter 5.5.2
org.junit.jupiter junit-jupiter-api 5.5.2
org.junit.jupiter junit-jupiter-engine 5.5.2
org.junit.jupiter junit-jupiter-params 5.5.2
org.junit.platform junit-platform-commons 1.5.2
org.junit.platform junit-platform-engine 1.5.2
org.lz4 lz4-java 1.8.0
org.objenesis objenesis 3.2
org.openpnp opencv 3.2.0-1
org.opentest4j opentest4j 1.2.0
org.postgresql postgresql 42.2.9
org.roaringbitmap RoaringBitmap 0.9.25
org.roaringbitmap Spessori 0.9.25
org.rocksdb rocksdbjni 6.20.3
org.scala-lang scala-compilatore 2.12.15
org.scala-lang scala-library 2.12.15
org.scala-lang scala-reflection 2.12.15
org.scala-lang.modules scala-collection-compat_2.12 2.1.1
org.scala-lang.modules scala-java8-compat_2.12 0.9.0
org.scala-lang.modules scala-parser-combinators_2.12 1.1.2
org.scala-lang.modules scala-xml_2.12 1.2.0
org.scalactic scalactic_2.12 3.2.14
org.scalanlp breeze-macros_2.12 1.2
org.scalanlp breeze_2.12 1.2
org.slf4j jcl-over-slf4j 1.7.32
org.slf4j jul-to-slf4j 1.7.32
org.slf4j slf4j-api 1.7.32
org.typelevel algebra_2.12 2.0.1
org.typelevel cats-kernel_2.12 2.1.1
org.typelevel spire-macros_2.12 0.17.0
org.typelevel spire-platform_2.12 0.17.0
org.typelevel spire-util_2.12 0.17.0
org.xerial.snappy snappy-java 1.1.8.4
oro oro 2.0.8
pl.edu.icm JLargeArrays 1.5

Pacchetti di livello predefiniti per le librerie Python

Di seguito è possibile trovare la tabella con l'elenco di tutti i pacchetti di livello predefiniti per Python e le rispettive versioni.

Libreria Versione Libreria Versione Libreria Versione
_libgcc_mutex 0,1 ipykernel 6.22.0 pickleshare 0.7.5
_openmp_mutex 4.5 ipython 8.9.0 pillow 9.4.0
_py-xgboost-mutex 2.0 ipywidgets 8.0.4 pip 23.0.1
absl-py 1.4.0 isodate 0.6.1 pixman 0.40.0
adal 1.2.7 itsdangerous 2.1.2 pkginfo 1.9.6
adlfs 2023.1.0 Jack 1.9.22 pkgutil-resolve-name 1.3.10
aiohttp 3.8.4 jedi 0.18.2 platformdirs 3.2.0
aiosignal 1.3.1 jeepney 0.8.0 plotly 5.13.0
alsa-lib 1.2.8 jinja2 3.1.2 Ply 3.11
anyio 3.6.2 jmespath 1.0.1 pooch 1.7.0
argcomplete 2.1.2 joblib 1.2.0 portalocker 2.7.0
argon2-cffi 21.3.0 jpeg 9e Pox 0.3.2
argon2-cffi-bindings 21.2.0 jsonpickle 2.2.0 ppft 1.7.6.6
arrow-cpp 11.0.0 jsonschema 4.17.3 bella tabella 3.6.0
asttoken 2.2.1 jupyter_client 8.1.0 prometheus_client 0.16.0
astunparse 1.6.3 jupyter_core 5.3.0 prompt-toolkit 3.0.38
async-timeout 4.0.2 jupyter_events 0.6.3 protobuf 4.21.12
atk-1.0 2.38.0 jupyter_server 2.2.1 psutil 5.9.4
Attr 2.5.1 jupyter_server_terminals 0.4.4 stub pthread 0,4
attrs 22.2.0 jupyterlab_pygments 0.2.2 ptyprocess 0.7.0
aws-c-auth 0.6.24 jupyterlab_widgets 3.0.7 Pulseaudio 16.1
aws-c-cal 0.5.20 keras 2.11.0 pulseaudio-client 16.1
aws-c-common 0.8.11 keras-preprocessing 1.1.2 pulseaudio-daemon 16.1
aws-c-compression 0.2.16 keyutils 1.6.1 pure_eval 0.2.2
aws-c-event-stream 0.2.18 kiwisolver 1.4.4 py-xgboost 1.7.1
aws-c-http 0.7.4 Talento 0.10.1 py4j 0.10.9.5
aws-c-io 0.13.17 krb5 1.20.1 pyarrow 11.0.0
aws-c-mqtt 0.8.6 Patetico 3.100 pyasn1 0.4.8
aws-c-s3 0.2.4 lcms2 2.15 pyasn1-modules 0.2.7
aws-c-sdkutils 0.1.7 ld_impl_linux-64 2,40 pycosat 0.6.4
aws-checksums 0.1.14 lerc 4.0.0 pycparser 2.21
aws-crt-cpp 0.19.7 liac-arff 2.5.0 pygments 2.14.0
aws-sdk-cpp 1.10.57 libabseil 20220623.0 pyjwt 2.6.0
azure-common 1.1.28 libaec 1.0.6 pynacl 1.5.0
azure-core 1.26.4 libarrow 11.0.0 pyodbc 4.0.35
azure-datalake-store 0.0.51 libblas 3.9.0 pyopenssl 23.1.1
azure-graphrbac 0.61.1 libbrotlicommon 1.0.9 pyparsing 3.0.9
azure-identity 1.12.0 libbrotlidec 1.0.9 pyperclip 1.8.2
azure-mgmt-authorization 3.0.0 libbrotlienc 1.0.9 pyqt 5.15.7
azure-mgmt-containerregistry 10.1.0 libcap 2.67 pyqt5-sip 12.11.0
azure-mgmt-core 1.4.0 libcblas 3.9.0 pirsistent 0.19.3
azure-mgmt-keyvault 10.2.1 libclang 15.0.7 pysocks 1.7.1
azure-mgmt-resource 21.2.1 libclang13 15.0.7 pyspark 3.3.1
azure-mgmt-storage 20.1.0 libcrc32c 1.1.2 python 3.10.10
azure-storage-blob 12.15.0 libcups 2.3.3 python_abi 3.10
azure-storage-file-datalake 12.9.1 libcurl 7.88.1 python-dateutil 2.8.2
azureml-core 1.49.0 libdb 6.2.32 python-fastjsonschema 2.16.3
backcall 0.2.0 libdeflate 1.17 python-flatbuffers 23.1.21
backports 1,0 libebm 0.3.1 python-graphviz 0.20.1
backports-tempfile 1,0 libedit 3.1.20191231 python-json-logger 2.0.7
backports-weakref 1.0.post1 libev 4.33 pytorch 1.13.1
backports.functools_lru_cache 1.6.4 libevent 2.1.10 pytz 2022.7.1
bcrypt 3.2.2 libexpat 2.5.0 pyu2f 0.1.5
beautifulsoup4 4.11.2 libffi 3.4.2 pywin32-on-windows 0.1.0
bleach 6.0.0 libflac 1.4.2 pyyaml 6.0
blinker 1.6.1 libgcc-ng 12.2.0 pyzmq 25.0.2
brotli 1.0.9 Libgcrypt 1.10.1 qt-main 5.15.8
brotli-bin 1.0.9 libgd 2.3.3 re2 2023.02.01
brotli-python 1.0.9 libgfortran-ng 12.2.0 readline 8.2
brotlipy 0.7.0 libgfortran5 12.2.0 regex 2022.10.31
bzip2 1.0.8 libglib 2.74.1 requests 2.28.2
c-ares 1.18.1 libgoogle-cloud 2.7.0 requests-oauthlib 1.3.1
ca-certificates 2022.12.7 libgpg-error 1.46 rfc3339-validator 0.1.4
cached_property 1.5.2 libgrpc 1.51.1 rfc3986-validator 0.1.1
cached-property 1.5.2 libhwloc 2.9.0 rsa 4.9
cachetools 5.3.0 libiconv 1.17 ruamel_yaml 0.15.80
cairo 1.16.0 liblapack 3.9.0 mdfmel.yaml 0.17.21
certifi 2022.12.7 libllvm11 11.1.0 mdfmel.yaml.clib 0.2.7
cffi 1.15.1 libllvm15 15.0.7 s2n 1.3.37
charset-normalizzatore 2.1.1 libnghttp2 1.52.0 salib 1.4.7
clic 8.1.3 libnsl 2.0.0 scikit-learn 1.2.0
cloudpickle 2.2.1 libogg 1.3.4 scipy 1.10.1
Colorama 0.4.6 libopenblas 0.3.21 seaborn 0.12.2
Comm 0.1.3 libopus 1.3.1 seaborn-base 0.12.2
conda-package-handling 2.0.2 libpng 1.6.39 secretstorage 3.3.3
conda-package-streaming 0.7.0 libpq 15.2 send2trash 1.8.0
configparser 5.3.0 libprotobuf 3.21.12 setuptools 67.6.1
contextlib2 21.6.0 librsvg 2.54.4 shap 0.41.0
contourpy 1.0.7 libsndfile 1.2.0 Sip 6.7.7
crittografia 40.0.1 libsodium 1.0.18 Sei 1.16.0
cycler 0.11.0 libsqlite 3.40.0 sleef 3.5.1
trattino 2.9.2 libssh2 1.10.0 filtro dei dati 0.0.7
dash_cytoscape 0.2.0 libstdcxx-ng 12.2.0 smmap 3.0.5
dash-core-components 2.0.0 libsystemd0 253 snappy 1.1.10
dash-html-components 2.0.0 libthrift 0.18.0 sniffio 1.3.0
dash-table 5.0.0 libtiff 4.5.0 soupsieve 2.3.2.post1
databricks-cli 0.17.6 Libtool 2.4.7 sqlalchemy 2.0.9
dbus 1.13.6 libudev1 253 sqlparse 0.4.3
debugpy 1.6.7 libutf8proc 2.8.0 stack_data 0.6.2
decorator 5.1.1 libuuid 2.38.1 statsmodels 0.13.5
defusedxml 0.7.1 libuv 1.44.2 synapseml-mlflow 1.0.14
dill 0.3.6 libvorbis 1.3.7 synapseml-utils 1.0.7
distlib 0.3.6 libwebp 1.2.4 tabulate 0.9.0
docker-py 6.0.0 libwebp-base 1.2.4 Tbb 2021.8.0
entrypoints 0,4 libxcb 1.13 tenacity 8.2.2
et_xmlfile 1.1.0 libxgboost 1.7.1 tensorboard 2.11.2
esecuzione 1.2.0 libxkbcommon 1.5.0 tensorboard-data-server 0.6.1
expat 2.5.0 libxml2 2.10.3 tensorboard-plugin-wit 1.8.1
fftw 3.3.10 libxslt 1.1.37 tensorflow 2.11.0
filelock 3.11.0 libzlib 1.2.13 tensorflow-base 2.11.0
flask 2.2.3 lightgbm 3.3.3 tensorflow-estimator 2.11.0
flask-compress 1.13 lime 0.2.0.1 termcolor 2.2.0
flatbuffers 22.12.06 llvm-openmp 16.0.1 terminado 0.17.1
flit-core 3.8.0 llvmlite 0.39.1 threadpoolctl 3.1.0
fluent-logger 0.10.0 lxml 4.9.2 tinycss2 1.2.1
font-ttf-dejavu-sans-mono 2.37 lz4-c 1.9.4 tk 8.6.12
font-ttf-inconsolata 3.000 markdown 3.4.1 toml 0.10.2
font-ttf-source-code-pro 2.038 markupsafe 2.1.2 toolz 0.12.0
font-ttf-ubuntu 0,83 matplotlib 3.6.3 tornado 6.2
fontconfig 2.14.2 matplotlib-base 3.6.3 tqdm 4.65.0
fonts-conda-ecosystem 1 matplotlib-inline 0.1.6 traitlets 5.9.0
font-conda-forge 1 mistune 2.0.5 treeinterpreter 0.2.2
fonttools 4.39.3 mkl 2022.2.1 typed-ast 1.4.3
freetype 2.12.1 mlflow-skinny 2.1.1 typing_extensions 4.5.0
fribidi 1.0.10 mpeg123 1.31.3 typing-extensions 4.5.0
frozenlist 1.3.3 msal 1.21.0 tzdata 2023c
fsspec 2023.4.0 msal_extensions 1.0.0 unicodedata2 15.0.0
gast 0.4.0 msgpack 1.0.5 unixodbc 2.3.10
gdk-pixbuf 2.42.10 msrest 0.7.1 urllib3 1.26.14
geographiclib 1,52 msrestazure 0.6.4 virtualenv 20.19.0
geopy 2.3.0 multidict 6.0.4 wcwidth 0.2.6
gettext 0.21.1 multiprocesso 0.70.14 webencodings 0.5.1
gevent 22.10.2 munkres 1.1.4 websocket-client 1.5.1
gflags 2.2.2 mypy 0.780 werkzeug 2.2.3
giflib 5.2.1 mypy-extensions 0.4.4 wheel 0.40.0
gitdb 4.0.10 mysql-common 8.0.32 widgetsnbextension 4.0.7
gitpython 3.1.31 mysql-libs 8.0.32 wrapt 1.15.0
glib 2.74.1 nbclient 0.7.3 xcb-util 0.4.0
glib-tools 2.74.1 nbconvert-core 7.3.0 xcb-util-image 0.4.0
glog 0.6.0 nbformat 5.8.0 xcb-util-keysyms 0.4.0
google-auth 2.17.2 ncurses 6.3 xcb-util-renderutil 0.3.9
google-auth-oauthlib 0.4.6 ndg-httpsclient 0.5.1 xcb-util-wm 0.4.1
google-pasta 0.2.0 nest-asyncio 1.5.6 xgboost 1.7.1
graphite2 1.3.13 nspr 4.35 xkeyboard-config 2.38
graphviz 2.50.0 nss 3.89 xorg-kbproto 1.0.7
greenlet 2.0.2 numba 0.56.4 xorg-libice 1.0.10
grpcio 1.51.1 numpy 1.23.5 xorg-libsm 1.2.3
gson 0.0.3 oauthlib 3.2.2 xorg-libx11 1.8.4
gst-plugins-base 1.22.0 openjpeg 2.5.0 xorg-libxau 1.0.9
gstreamer 1.22.0 openpyxl 3.1.0 xorg-libxdmcp 1.1.3
gstreamer-orc 0.4.33 openssl 3.1.0 xorg-libxext 1.3.4
gtk2 2.24.33 opt_einsum 3.3.0 xorg-libxrender 0.9.10
Gts 0.7.6 orc 1.8.2 xorg-renderproto 0.11.1
h5py 3.8.0 creazione del pacchetto 21.3 xorg-xextproto 7.3.0
harfbuzz 6.0.0 pandas 1.5.3 xorg-xproto 7.0.31
hdf5 1.14.0 pandasql 0.7.3 xz 5.2.6
html5lib 1.1 pandocfilters 1.5.0 yaml 0.2.5
amico umano 10,0 Pango 1.50.14 yarl 1.8.2
icu 70,1 paramiko 2.12.0 zeromq 4.3.4
idna 3.4 parquet-cpp 1.5.1 zipp 3.15.0
imageio 2.25.0 parso 0.8.3 zlib 1.2.13
importlib_metadata 5.2.0 Pathos 0.3.0 zope.event 4,6
importlib_resources 5.12.0 pathspec 0.11.1 zope.interface 6,0
importlib-metadata 5.2.0 patsy 0.5.3 zstandard 0.19.0
interpret 0.3.1 pcre2 10.40 zstd 1.5.2
interpret-core 0.3.1 pexpect 4.8.0

Pacchetti di livello predefiniti per le librerie R

Di seguito è possibile trovare la tabella con l'elenco di tutti i pacchetti di livello predefiniti per R e le rispettive versioni.

Libreria Versione Libreria Versione Libreria Versione
askpass 1.1 highcharter 0.9.4 readr 2.1.3
assertthat 0.2.1 highr 0.9 readxl 1.4.1
backports 1.4.1 hms 1.1.2 recipes 1.0.3
base64enc 0.1-3 htmltools 0.5.3 rematch 1.0.1
bit 4.0.5 htmlwidgets 1.5.4 rematch2 2.1.2
bit64 4.0.5 httpcode 0.3.0 remotes 2.4.2
blob 1.2.3 httpuv 1.6.6 reprex 2.0.2
brew 1.0-8 httr 1.4.4 reshape2 1.4.4
Brio 1.1.3 ids 1.0.1 rjson 0.2.21
broom 1.0.1 igraph 1.3.5 rlang 1.0.6
bslib 0.4.1 Dedurre 1.0.3 rlist 0.4.6.2
cachem 1.0.6 ini 0.3.1 rmarkdown 2.18
callr 3.7.3 ipred 0.9-13 RODBC 1.3-19
accento circonflesso 6.0-93 isoband 0.2.6 roxygen2 7.2.2
cellranger 1.1.0 iterators 1.0.14 rprojroot 2.0.3
cli 3.4.1 jquerylib 0.1.4 rsample 1.1.0
clipr 0.8.0 jsonlite 1.8.3 rstudioapi 0.14
clock 0.6.1 knitr 1,41 rversions 2.1.2
colorspace 2.0-3 labeling 0.4.2 rvest 1.0.3
commonmark 1.8.1 later 1.3.0 Sass 0.4.4
config 0.3.1 lava 1.7.0 scales 1.2.1
Conflitto 1.1.0 lazyeval 0.2.2 selectr 0.4-2
coro 1.0.3 Lhs 1.1.5 sessioninfo 1.2.2
cpp11 0.4.3 ciclo di vita 1.0.3 shiny 1.7.3
crayon 1.5.2 lightgbm 3.3.3 cursore 0.3.0
credentials 1.3.2 listenv 0.8.0 sourcetools 0.1.7
crosstalk 1.2.0 lobstr 1.1.2 sparklyr 1.7.8
crul 1.3 lubridate 1.9.0 SQUAREM 2021.1
curl 4.3.3 magrittr 2.0.3 stringi 1.7.8
data.table 1.14.6 maps 3.4.1 stringr 1.4.1
DBI 1.1.3 memoise 2.0.1 sys 3.4.1
dbplyr 2.2.1 mime 0.12 Systemfonts 1.0.4
desc 1.4.2 miniUI 0.1.1.1 testthat 3.1.5
devtools 2.4.5 modeldata 1.0.1 textshaping 0.3.6
Quadranti 1.1.0 modelenv 0.1.0 tibble 3.1.8
DiceDesign 1,9 ModelMetrics 1.2.2.2 tidymodels 1.0.0
diffobj 0.3.5 modelr 0.1.10 tidyr 1.2.1
digest 0.6.30 munsell 0.5.0 tidyselect 1.2.0
downlit 0.4.2 numDeriv 2016.8-1.1 tidyverse 1.3.2
dplyr 1.0.10 openssl 2.0.4 cambio di tempo 0.1.1
dtplyr 1.2.2 parallelly 1.32.1 timeDate 4021.106
e1071 1.7-12 Pastinaca 1.0.3 tinytex 0.42
ellipsis 0.3.2 Patchwork 1.1.2 Torcia 0.9.0
evaluate 0.18 pillar 1.8.1 triebeard 0.3.0
fansi 1.0.3 pkgbuild 1.4.0 TTR 0.24.3
farver 2.1.1 pkgconfig 2.0.3 Tune 1.0.1
fastmap 1.1.0 pkgdown 2.0.6 tzdb 0.3.0
fontawesome 0.4.0 pkgload 1.3.2 urlchecker 1.0.1
forcats 0.5.2 plotly 4.10.1 urltools 1.7.3
foreach 1.5.2 plyr 1.8.8 usethis 2.1.6
forge 0.2.0 praise 1.0.0 utf8 1.2.2
fs 1.5.2 prettyunits 1.1.1 uuid 1.1-0
furrr 0.3.1 pROC 1.18.0 vctrs 0.5.1
future 1.29.0 processx 3.8.0 viridisLite 0.4.1
future.apply 1.10.0 prodlim 2019.11.13 Vroom 1.6.0
Gargarismi 1.2.1 profvis 0.3.7 waldo 0.4.0
generics 0.1.3 progress 1.2.2 Ordito 0.2.0
Gert 1.9.1 progressr 0.11.0 whisker 0,4
ggplot2 3.4.0 promises 1.2.0.1 withr 2.5.0
Gh 1.3.1 proxy 0.4-27 flussi di lavoro 1.1.2
gistr 0.9.0 pryr 0.1.5 flussi di lavoro 1.0.0
gitcreds 0.1.2 ps 1.7.2 xfun 0,35
globals 0.16.2 purrr 0.3.5 xgboost 1.6.0.1
glue 1.6.2 quantmod 0.4.20 XML 3.99-0.12
googledrive 2.0.0 r2d3 0.2.6 xml2 1.3.3
googlesheets4 1.0.1 R6 2.5.1 xopen 1.0.0
gower 1.0.0 ragg 1.2.4 xtable 1.8-4
GPfit 1.0-8 rappdirs 0.3.3 xts 0.12.2
gtable 0.3.1 rbokeh 0.5.2 yaml 2.3.6
hardhat 1.2.0 rcmdcheck 1.4.0 Criterio 1.1.0
haven 2.5.1 RColorBrewer 1.1-3 zip 2.2.2
hexbin 1.28.2 Rcpp 1.0.9 zoo 1.8-11

Migrazione tra versioni diverse di Apache Spark

La migrazione dei carichi di lavoro a Fabric Runtime 1.1 (Apache Spark 3.3) da una versione precedente di Apache Spark prevede una serie di passaggi per garantire una migrazione uniforme. Questa guida descrive i passaggi necessari per facilitare la migrazione in modo efficiente ed efficace.

  1. Esaminare le note sulla versione di Fabric Runtime 1.1, incluso il controllo dei componenti e dei pacchetti a livello predefinito inclusi nel runtime, per comprendere le nuove funzionalità, miglioramenti.

  2. Verificare la compatibilità dell'installazione corrente e di tutte le librerie correlate, incluse le dipendenze e le integrazioni. Esaminare le guide alla migrazione per identificare potenziali modifiche di rilievo:

  3. Spostare i carichi di lavoro in Fabric e assicurarsi di avere backup dei dati e dei file di configurazione nel caso in cui sia necessario ripristinare la versione precedente.

  4. Aggiornare le dipendenze che potrebbero essere interessate dalla nuova versione di Apache Spark o da altri componenti correlati a Runtime di Fabric 1.1. Ciò potrebbe includere librerie o connettori di terze parti. Assicurarsi di testare le dipendenze aggiornate in un ambiente di staging prima della distribuzione in produzione

  5. Aggiornare La configurazione di Apache Spark nel carico di lavoro. Ciò potrebbe includere l'aggiornamento delle impostazioni di configurazione, la modifica delle allocazioni di memoria e la modifica di tutte le configurazioni deprecate.

  6. Modificare le applicazioni Apache Spark (notebook e Apache Spark Jobs Definitions) per usare le nuove API e funzionalità introdotte in Fabric Runtime 1.1 e Apache Spark 3.3. Ciò può comportare l'aggiornamento del codice per supportare le API deprecate o rimosse e il refactoring delle applicazioni per sfruttare i miglioramenti delle prestazioni e le nuove funzionalità.

  7. Testare accuratamente le applicazioni aggiornate in un ambiente di staging per garantire compatibilità e stabilità con Apache Spark 3.3. Eseguire test delle prestazioni, test funzionali e test di regressione per identificare e risolvere eventuali problemi che possono verificarsi durante il processo di migrazione.

  8. Dopo aver convalidato le applicazioni in un ambiente di staging, distribuire le applicazioni aggiornate nell'ambiente di produzione. Monitorare le prestazioni e la stabilità delle applicazioni dopo la migrazione per identificare eventuali problemi da risolvere.

  9. Aggiornare la documentazione interna e i materiali di training per riflettere le modifiche introdotte in Fabric Runtime 1.1. Assicurarsi che i membri del team abbia familiarità con le nuove funzionalità e i miglioramenti per ottimizzare i vantaggi della migrazione.