Runtime 1.1

Die Microsoft Fabric Runtime ist eine in Azure integrierte Plattform, die auf Apache Spark basiert und die Ausführung und Verwaltung von Datentechnik- und Data Science-Umgebungen in Fabric ermöglicht. In diesem Dokument werden die Fabric Runtime 1.1-Komponenten und -Versionen behandelt.

Microsoft Fabric Runtime 1.1 ist eine der Runtimes, die auf der Microsoft Fabric-Plattform angeboten wird. Dies sind die Hauptkomponenten von Runtime 1.1:

  • Apache Spark 3.3
  • Betriebssystem: Ubuntu 18.04
  • Java: 1.8.0_282
  • Scala: 2.12.15
  • Python: 3.10
  • Delta Lake: 2.2
  • R: 4.2.2

Microsoft Fabric Runtime 1.1 enthält eine Sammlung von Paketen auf Standardebene, einschließlich einer vollständigen Anaconda-Installation und häufig verwendeter Bibliotheken für Java/Scala, Python und R. Diese Bibliotheken werden automatisch einbezogen, wenn Notebooks oder Aufträge auf der Microsoft Fabric-Plattform verwendet werden. Eine vollständige Liste der Bibliotheken finden Sie in der Dokumentation.

Microsoft Fabric veröffentlicht regelmäßig Wartungsupdates für Runtime 1.1, die Fehlerbehebungen, Leistungsverbesserungen und Sicherheitspatches bieten. Mit diesen Updates stellen Sie sicher, dass Sie immer auf dem neuesten Stand sind und profitieren von einer optimalen Leistung und Zuverlässigkeit für Ihre Datenverarbeitungsaufgaben. Wenn Sie derzeit Runtime 1.1 verwenden, können Sie ein Upgrade auf Runtime 1.2 durchführen, indem Sie zu „Arbeitsbereichseinstellungen“ > „Data Engineering/Science“ > „Spark-Einstellungen“ navigieren.

Screenshot: Auswählen der Runtimeversion

Neue Funktionen und Verbesserungen – Apache Spark 3.3.1

Im Folgenden finden Sie eine erweiterte Zusammenfassung mit Beschreibungen der wichtigsten neuen Features der Apache Spark-Versionen 3.3.0 und 3.3.1:

  • Filterung auf Zeilenebene: Verbesserung der Leistung von Joins durch Vorfiltern einer Seite, sofern die Joins nicht durch Ablauf oder Regression beeinträchtigt sind. Dazu werden ein Bloom-Filter und ein IN-Prädikat verwendet, die aus den Werten von der anderen Seite des Joins generiert werden. (SPARK-32268)

  • Verbessern der Kompatibilität von Spark mit dem SQL-Standard:ANSI-Erweiterungen. (SPARK-38860)

  • Verbesserungen bei Fehlermeldungen, um schneller Probleme zu erkennen und die erforderlichen Schritte zu ihrer Behebung auszuführen. (SPARK-38781)

  • Unterstützung komplexer Typen für vektorisierten Parquet-Reader. Bisher unterstützte der vektorisierte Parquet-Reader keine geschachtelten Spaltentypen wie Struktur, Array und Zuordnung. Apache Spark 3.3 enthält eine Implementierung des Readers für geschachtelte vektorisierte Spalten für FB-ORC in unserem internen Fork von Spark. Dies wirkt sich beim Lesen geschachtelter Spalten als Leistungsverbesserung im Vergleich zum nicht vektorisierten Reader aus. Darüber hinaus kann diese Implementierung dazu beitragen, die Leistung bei nicht geschachtelten Spalten zu verbessern, wenn diese in einer Abfrage zusammen mit geschachtelten Spalten gelesen werden. (SPARK-34863)

  • Ermöglicht es Benutzern, die Metadaten der Eingabedateien für alle Dateiformate abzufragen und sie als integrierte ausgeblendete Spalten verfügbar zu machen, sodass Benutzer sie nur sehen können, wenn sie explizit auf sie verweisen (z. B. Dateipfad und Dateiname). (SPARK-37273)

  • Bereitstellung eines Profilers für Python-/pandas-UDFs. (SPARK-37443)

  • Zuvor wurden Streamingabfragen mit Trigger ausgeführt, sodass alle verfügbaren Daten in einem einzelnen Batch geladen wurden. Die von den Abfragen höchstens verarbeitete Datenmenge war daher begrenzt, sonst wäre die Menge des Arbeitsspeichers für den Spark-Treiber nicht mehr genügend gewesen. Nun wird Trigger.AvailableNow zum Ausführen von Streamingabfragen wie Trigger einmal in mehreren Batches verwendet. (SPARK-36533)

  • Umfassendere DS V2-Pushdownfunktionen. (SPARK-38788)

  • Rolling in Kubernetes-Executorumgebung. (SPARK-37810)

  • Unterstützung angepasster Kubernetes-Scheduler. (SPARK-36057)

  • Migration von log4j 1 zu log4j 2 (SPARK-37814) für Vorteile bei:

    • Leistung: Log4j 2 ist schneller als Log4j 1. Log4j 2 verwendet standardmäßig die asynchrone Protokollierung, wodurch die Leistung erheblich verbessert werden kann.

    • Flexibilität: Log4j 2 bietet mehr Flexibilität im Hinblick auf die Konfiguration. Es unterstützt mehrere Konfigurationsformate, darunter XML, JSON und YAML.

    • Erweiterbarkeit: Log4j 2 ist auf Erweiterbarkeit ausgelegt. Es ermöglicht Entwicklern, benutzerdefinierte Plug-Ins und Appender zu erstellen, um die Funktionalität des Protokollierungsframeworks zu erweitern.

    • Sicherheit: Log4j 2 bietet bessere Sicherheitsfeatures als Log4j 1. Es unterstützt Verschlüsselung und Secure Socket Layers für die sichere Kommunikation zwischen Anwendungen.

    • Einfachheit: Log4j 2 ist einfacher zu verwenden als Log4j 1. Es verfügt über eine intuitivere API und einen einfacheren Konfigurationsprozess.

  • Einführung von Shuffle auf SinglePartition zur Verbesserung der Parallelität und Behebung des Leistungsabfalls für Joins in Spark 3.3 gegenüber Spark 3.2. (SPARK-40703)

  • Optimierung der TransposeWindow-Regel, um die Anwendungsfälle auszuweiten und die Zeitkomplexität zu optimieren. (SPARK-38034)

  • Um eine Parität bei der Ausführung von TimeTravel über SQL und der DataFrame-Option zu haben, Unterstützung des Zeitstempels in Sekunden für TimeTravel mithilfe von Dataframe-Optionen. (SPARK-39633])

  • Optimierung der globalen Sortierung für RepartitionByExpression zum Einsparen einer lokalen Sortierung. (SPARK-39911)

  • Sicherstellung, dass die Ausgabepartitionierung in AQE benutzerseitig angegeben wird. (SPARK-39915)

  • Aktualisierung der Spaltenüberprüfung auf geschachtelte Felder in Parquet V2. (SPARK-39951)

  • Lesen einer Parquet-Datei, die auf dem Datenträger durch eine Spalte vom Typ „Byte“ partitioniert ist. (SPARK-40212)

  • Beheben der Spaltenbeschneidung in CSV, wenn „_corrupt_record“ ausgewählt ist. (SPARK-40468)

Neue Funktionen und Verbesserungen – Delta Lake 2.2

Dies sind die wichtigsten Features in dieser Version:

  • LIMIT-Pushdown in Delta-Überprüfung. Verbesserte die Leistung von Abfragen, die LIMIT-Klauseln enthalten, indem das LIMIT während der Abfrageplanung in die Delta-Überprüfung gepusht wird. Bei der Delta-Überprüfung werden die Anzahl von LIMITs und die Zeilenanzahl auf Dateiebene verwendet, um die Anzahl der überprüften Dateien zu reduzieren. Dadurch können die Abfragen weitaus weniger Dateien lesen, und LIMIT-Abfragen können je nach Tabellengröße um das 10–100-fache beschleunigt werden.

  • Aggregat-Pushdown in der Delta-Überprüfung für SELECT COUNT(*). Aggregationsabfragen, z. B. SELECT COUNT(*) für Delta-Tabellen, werden mithilfe der Zeilenanzahl auf Dateiebene in Delta-Tabellenmetadaten erfüllt, anstatt durch Zählen der Zeilen in den zugrunde liegenden Datendateien. Dadurch wird die Abfragezeit erheblich reduziert, da die Abfrage nur die Tabellenmetadaten lesen muss und Abfragen der vollständigen Tabellenanzahl um das 10–100-fache beschleunigt werden können.

  • Unterstützung für das Sammeln von Statistiken auf Dateiebene im Rahmen des CONVERT TO DELTA-Befehls. Diese Statistiken können möglicherweise dazu beitragen, Abfragen für die Delta-Tabelle zu beschleunigen. Standardmäßig werden die Statistiken jetzt im Rahmen des CONVERT TO DELTA-Befehls erfasst. Zum Deaktivieren der Statistikerfassung geben Sie die NO STATISTICS-Klausel im Befehl an. Beispiel: CONVERT TO DELTA table_name NO STATISTICS.

  • Verbesserte Leistung des DELETE-Befehls, indem die zu lesenden Spalten bei der Suche nach neu zu schreibenden Dateien bereinigt werden.

  • Behebung eines Fehlers in der Konfiguration des S3-Multiclustermodus auf DynamoDB-Basis. In der vorherigen Version wurde ein falscher Zeitstempel geschrieben, der vom TTL-Feature von DynamoDB verwendet wurde, um abgelaufene Elemente zu bereinigen. Dieser Zeitstempelwert wurde korrigiert, und das Tabellenattribut wurde von commitTime in expireTime umbenannt. Wenn Sie TTL bereits aktiviert haben, führen Sie die Migrationsschritte für Delta Lake 1.2.1, 2.0.0 oder 2.1.0 zu Delta Lake 2.0.1, 2.1.1 oder höher aus.

  • Korrekturdes nicht deterministischen Verhaltens während MERGE bei der Arbeit mit Quellen, die nicht deterministisch sind.

  • Entfernung der Einschränkungen für die Verwendung von Delta-Tabellen mit Spaltenzuordnung in bestimmten Streaming- und CDF-Fällen. Früher haben wir Streaming+CDF blockiert, wenn für die Delta-Tabelle Spaltenzuordnung aktiviert war, obwohl sie keine RENAME- oder DROP-Spalten enthält.

  • Verbesserte Überwachung der Delta-Zustandskonstruktionsabfragen (andere Abfragen werden im Rahmen der Planung ausgeführt), indem sie auf der Spark-Benutzeroberfläche sichtbar gemacht werden.

  • Unterstützung mehrerer where()-Aufrufe in der Optimize-API für Scala/Python.

  • Unterstützung des Übergebens von Hadoop-Konfigurationen über die DeltaTable-API.

  • Unterstützung von Partitionsspaltennamen, die mit . oder _ im CONVERT TO DELTA-Befehl beginnen.

  • Verbesserungen an den Metriken im Tabellenverlauf:

  • Korrektur für versehentliche Protokolldowngrades mit dem RESTORE-Befehl. Bisher konnte durch RESTORE TABLE die Protokollversion der Tabelle herabgestuft werden, was möglicherweise zu inkonsistenten Lesevorgängen mit Zeitreise geführt hat. Dank dieser Korrektur wird die Protokollversion niemals gegenüber der aktuellen herabgestuft.

  • Behebung eines Fehlers in MERGE INTO, wenn mehrere UPDATE-Klauseln vorhanden sind und eins der UPDATEs eine Schemaentwicklung umfasst.

  • Behebung eines Fehlers, bei dem bei Verwendung von Delta-APIs manchmal kein aktives SparkSession-Objekt gefunden wird

  • Behebung eines Problems, bei dem das Partitionsschema während des anfänglichen Commits nicht festgelegt werden konnte.

  • Abfangen von Ausnahmen, wenn beim Schreiben einer last_checkpoint-Datei ein Fehler auftritt.

  • Behebung eines Problems beim Neustarten einer Streamingabfrage mit AvailableNow-Trigger für eine Delta-Tabelle.

  • Behebung eines Problems mit CDF und Streaming, bei dem der Offset nicht ordnungsgemäß aktualisiert wird, wenn keine Datenänderungen vorhanden sind

Überprüfen Sie die Quelle und die vollständigen Versionshinweise auf GitHub unter delta-io/delta.

Pakete auf Standardebene für Java/Scala

In der folgenden Tabelle werden alle Pakete auf Standardebene für Java/Scala und deren jeweilige Versionen aufgeführt.

GroupId ArtifactId Version
com.aliyun aliyun-java-sdk-core 4.5.10
com.aliyun aliyun-java-sdk-kms 2.11.0
com.aliyun aliyun-java-sdk-ram 3.1.0
com.aliyun aliyun-sdk-oss 3.13.0
com.amazonaws aws-java-sdk-bundle 1.11.1026
com.chuusai shapeless_2.12 2.3.7
com.esotericsoftware kryo-shaded 4.0.2
com.esotericsoftware minlog 1.3.0
com.fasterxml.jackson jackson-annotations-2.13.4.jar
com.fasterxml.jackson jackson-core 2.13.4
com.fasterxml.jackson jackson-core-asl 1.9.13
com.fasterxml.jackson jackson-databind 2.13.4.1
com.fasterxml.jackson jackson-dataformat-cbor 2.13.4
com.fasterxml.jackson jackson-mapper-asl 1.9.13
com.fasterxml.jackson jackson-module-scala_2.12 2.13.4
com.github.joshelser dropwizard-metrics-hadoop-metrics2-reporter 0.1.2
com.github.wendykierp JTransforms 3.1
com.google.code.findbugs jsr305 3.0.0
com.google.code.gson gson 2.8.6
com.google.flatbuffers flatbuffers-java 1.12.0
com.google.guava guava 14.0.1
com.google.protobuf protobuf-java 2.5.0
com.googlecode.json-simple json-simple 1.1.1
com.jcraft jsch 0.1.54
com.jolbox bonecp 0.8.0.RELEASE
com.linkedin.isolation-forest isolation-forest_3.2.0_2.12 2.0.8
com.ning compress-lzf 1.1
com.qcloud cos_api-bundle 5.6.19
com.sun.istack istack-commons-runtime 3.0.8
com.tdunning json 1.8
com.thoughtworks.paranamer paranamer 2.8
com.twitter chill-java 0.10.0
com.twitter chill_2.12 0.10.0
com.typesafe config 1.3.4
com.zaxxer HikariCP 2.5.1
commons-cli commons-cli 1.5.0
commons-codec commons-codec 1.15
commons-collections commons-collections 3.2.2
commons-dbcp commons-dbcp 1.4
commons-io commons-io 2.11.0
commons-lang commons-lang 2.6
commons-logging commons-logging 1.1.3
commons-pool commons-pool 1.5.4.jar
dev.ludovic.netlib arpack 2.2.1
dev.ludovic.netlib blas 2.2.1
dev.ludovic.netlib lapack 2.2.1
io.airlift aircompressor 0,21
io.dropwizard.metrics metrics-core 4.2.7
io.dropwizard.metrics metrics-graphite 4.2.7
io.dropwizard.metrics metrics-jmx 4.2.7
io.dropwizard.metrics metrics-json 4.2.7
io.dropwizard.metrics metrics-jvm 4.2.7
io.netty netty-all 4.1.74.Final
io.netty netty-buffer 4.1.74.Final
io.netty netty-codec 4.1.74.Final
io.netty netty-common 4.1.74.Final
io.netty netty-handler 4.1.74.Final
io.netty netty-resolver 4.1.74.Final
io.netty netty-tcnative-classes 2.0.48.Final
io.netty netty-transport 4.1.74.Final
io.netty netty-transport-classes-epoll 4.1.74.Final
io.netty netty-transport-classes-kqueue 4.1.74.Final
io.netty netty-transport-native-epoll 4.1.74.Final-linux-aarch_64
io.netty netty-transport-native-epoll 4.1.74.Final-linux-x86_64
io.netty netty-transport-native-kqueue 4.1.74.Final-osx-aarch_64
io.netty netty-transport-native-kqueue 4.1.74.Final-osx-x86_64
io.netty netty-transport-native-unix-common 4.1.74.Final
io.opentracing opentracing-api 0.33.0
io.opentracing opentracing-noop 0.33.0
io.opentracing opentracing-util 0.33.0
jakarta.annotation jakarta.annotation-api 1.3.5
jakarta.inject jakarta.inject 2.6.1
jakarta.servlet jakarta.servlet-api 4.0.3
jakarta.validation-api 2.0.2
jakarta.ws.rs jakarta.ws.rs-api 2.1.6
jakarta.xml.bind jakarta.xml.bind-api 2.3.2
javax.activation activation 1.1.1
javax.jdo jdo-api 3.0.1
javax.transaction jta 1.1
javax.xml.bind jaxb-api 2.2.11
javolution javolution 5.5.1
jline jline 2.14.6
joda-time joda-time 2.10.13
net.razorvine pickle 1.2
net.sf.jpam jpam 1.1
net.sf.opencsv opencsv 2.3
net.sf.py4j py4j 0.10.9.5
net.sourceforge.f2j arpack_combined_all 0,1
org.antlr ST4 4.0.4
org.antlr antlr-runtime 3.5.2
org.antlr antlr4-runtime 4.8
org.apache.arrow arrow-format 7.0.0
org.apache.arrow arrow-memory-core 7.0.0
org.apache.arrow arrow-memory-netty 7.0.0
org.apache.arrow arrow-vector 7.0.0
org.apache.avro avro 1.11.0
org.apache.avro avro-ipc 1.11.0
org.apache.avro avro-mapred 1.11.0
org.apache.commons commons-collections4 4.4
org.apache.commons commons-compress 1.21
org.apache.commons commons-crypto 1.1.0
org.apache.commons commons-lang3 3.12.0
org.apache.commons commons-math3 3.6.1
org.apache.commons commons-pool2 2.11.1
org.apache.commons commons-text 1.10.0
org.apache.curator curator-client 2.13.0
org.apache.curator curator-framework 2.13.0
org.apache.curator curator-recipes 2.13.0
org.apache.derby derby 10.14.2.0
org.apache.hadoop hadoop-aliyun 3.3.3.5.2-90111858
org.apache.hadoop hadoop-annotations 3.3.3.5.2-90111858
org.apache.hadoop hadoop-aws 3.3.3.5.2-90111858
org.apache.hadoop hadoop-azure 3.3.3.5.2-90111858
org.apache.hadoop hadoop-azure-datalake 3.3.3.5.2-90111858
org.apache.hadoop hadoop-client-api 3.3.3.5.2-90111858
org.apache.hadoop hadoop-client-runtime 3.3.3.5.2-90111858
org.apache.hadoop hadoop-cloud-storage 3.3.3.5.2-90111858
org.apache.hadoop hadoop-cos 3.3.3.5.2-90111858
org.apache.hadoop hadoop-openstack 3.3.3.5.2-90111858
org.apache.hadoop hadoop-shaded-guava 1.1.1
org.apache.hadoop hadoop-yarn-server-web-proxy 3.3.3.5.2-90111858
org.apache.hive hive-beeline 2.3.9
org.apache.hive hive-cli 2.3.9
org.apache.hive hive-common 2.3.9
org.apache.hive hive-exec 2.3.9
org.apache.hive hive-jdbc 2.3.9
org.apache.hive hive-llap-common 2.3.9
org.apache.hive hive-metastore 2.3.9
org.apache.hive hive-serde 2.3.9
org.apache.hive hive-service-rpc 3.1.2
org.apache.hive hive-shims-0.23 2.3.9
org.apache.hive hive-shims 2.3.9
org.apache.hive hive-shims-common 2.3.9
org.apache.hive hive-shims-scheduler 2.3.9
org.apache.hive hive-storage-api 2.7.2
org.apache.hive hive-vector-code-gen 2.3.9
org.apache.httpcomponents httpclient 4.5.13
org.apache.httpcomponents httpcore 4.4.14
org.apache.httpcomponents httpmime 4.5.13
org.apache.httpcomponents.client5 httpclient5 5.1.3
org.apache.ivy ivy 2.5.1
org.apache.kafka kafka-clients 2.8.1
org.apache.logging.log4j log4j-1.2-api 2.17.2
org.apache.logging.log4j log4j-api 2.17.2
org.apache.logging.log4j log4j-core 2.17.2
org.apache.logging.log4j log4j-slf4j-impl 2.17.2
org.apache.orc orc-core 1.7.6
org.apache.orc orc-mapreduce 1.7.6
org.apache.orc orc-shims 1.7.6
org.apache.parquet parquet-column 1.12.3
org.apache.parquet parquet-common 1.12.3
org.apache.parquet parquet-encoding 1.12.3
org.apache.parquet parquet-format-structures 1.12.3
org.apache.parquet parquet-hadoop 1.12.3
org.apache.parquet parquet-jackson 1.12.3
org.apache.qpid proton-j 0.33.8
org.apache.thrift libfb303 0.9.3
org.apache.thrift libthrift 0.12.0
org.apache.yetus audience-annotations 0.5.0
org.apiguardian apiguardian-api 1.1.0
org.codehaus.janino commons-compiler 3.0.16
org.codehaus.janino janino 3.0.16
org.codehaus.jettison jettison 1.1
org.datanucleus datanucleus-api-jdo 4.2.4
org.datanucleus datanucleus-core 4.1.17
org.datanucleus datanucleus-rdbms 4.1.19
org.datanucleusjavax.jdo 3.2.0-m3
org.eclipse.jdt core 1.1.2
org.eclipse.jetty jetty-util 9.4.48.v20220622
org.eclipse.jetty jetty-util-ajax 9.4.48.v20220622
org.fusesource.leveldbjni leveldbjni-all 1.8
org.glassfish.hk2 hk2-api 2.6.1
org.glassfish.hk2 hk2-locator 2.6.1
org.glassfish.hk2 hk2-utils 2.6.1
org.glassfish.hk2 osgi-resource-locator 1.0.3
org.glassfish.hk2.external aopalliance-repackaged 2.6.1
org.glassfish.jaxb jaxb-runtime 2.3.2
org.glassfish.jersey.containers jersey-container-servlet 2,36
org.glassfish.jersey.containers jersey-container-servlet-core 2,36
org.glassfish.jersey.core jersey-client 2,36
org.glassfish.jersey.core jersey-common 2,36
org.glassfish.jersey.core jersey-server 2,36
org.glassfish.jersey.inject jersey-hk2 2,36
org.ini4j ini4j 0.5.4
org.javassist javassist 3.25.0-GA
org.javatuples javatuples 1.2
org.jdom jdom2 2.0.6
org.jetbrains annotations 17.0.0
org.jodd jodd-core 3.5.2
org.json4s json4s-ast_2.12 3.7.0-M11
org.json4s json4s-core_2.12 3.7.0-M11
org.json4s json4s-jackson_2.12 3.7.0-M11
org.json4s json4s-scalap_2.12 3.7.0-M11
org.junit.jupiter junit-jupiter 5.5.2
org.junit.jupiter junit-jupiter-api 5.5.2
org.junit.jupiter junit-jupiter-engine 5.5.2
org.junit.jupiter junit-jupiter-params 5.5.2
org.junit.platform junit-platform-commons 1.5.2
org.junit.platform junit-platform-engine 1.5.2
org.lz4 lz4-java 1.8.0
org.objenesis objenesis 3.2
org.openpnp opencv 3.2.0-1
org.opentest4j opentest4j 1.2.0
org.postgresql postgresql 42.2.9
org.roaringbitmap RoaringBitmap 0.9.25
org.roaringbitmap shims 0.9.25
org.rocksdb rocksdbjni 6.20.3
org.scala-lang scala-compiler 2.12.15
org.scala-lang scala-library 2.12.15
org.scala-lang scala-reflect 2.12.15
org.scala-lang.modules scala-collection-compat_2.12 2.1.1
org.scala-lang.modules scala-java8-compat_2.12 0.9.0
org.scala-lang.modules scala-parser-combinators_2.12 1.1.2
org.scala-lang.modules scala-xml_2.12 1.2.0
org.scalactic scalactic_2.12 3.2.14
org.scalanlp breeze-macros_2.12 1.2
org.scalanlp breeze_2.12 1.2
org.slf4j jcl-over-slf4j 1.7.32
org.slf4j jul-to-slf4j 1.7.32
org.slf4j slf4j-api 1.7.32
org.typelevel algebra_2.12 2.0.1
org.typelevel cats-kernel_2.12 2.1.1
org.typelevel spire-macros_2.12 0.17.0
org.typelevel spire-platform_2.12 0.17.0
org.typelevel spire-util_2.12 0.17.0
org.xerial.snappy snappy-java 1.1.8.4
oro oro 2.0.8
pl.edu.icm JLargeArrays 1.5

Pakete auf Standardebene für Python

In der folgenden Tabelle werden alle Pakete auf Standardebene für Python und deren jeweilige Versionen aufgeführt.

Bibliothek Version Bibliothek Version Bibliothek Version
_libgcc_mutex 0.1 ipykernel 6.22.0 pickleshare 0.7.5
_openmp_mutex 4,5 ipython 8.9.0 pillow 9.4.0
_py-xgboost-mutex 2.0 ipywidgets 8.0.4 pip 23.0.1
absl-py 1.4.0 isodate 0.6.1 pixman 0.40.0
adal 1.2.7 itsdangerous 2.1.2 pkginfo 1.9.6
adlfs 2023.1.0 jack 1.9.22 pkgutil-resolve-name 1.3.10
aiohttp 3.8.4 jedi 0.18.2 platformdirs 3.2.0
aiosignal 1.3.1 jeepney 0.8.0 plotly 5.13.0
alsa-lib 1.2.8 jinja2 3.1.2 ply 3,11
anyio 3.6.2 jmespath 1.0.1 pooch 1.7.0
argcomplete 2.1.2 joblib 1.2.0 portalocker 2.7.0
argon2-cffi 21.3.0 JPEG 9e pox 0.3.2
argon2-cffi-bindings 21.2.0 jsonpickle 2.2.0 ppft 1.7.6.6
arrow-cpp 11.0.0 jsonschema 4.17.3 prettytable 3.6.0
asttokens 2.2.1 jupyter_client 8.1.0 prometheus_client 0.16.0
astunparse 1.6.3 jupyter_core 5.3.0 prompt-toolkit 3.0.38
async-timeout 4.0.2 jupyter_events 0.6.3 protobuf 4.21.12
atk-1.0 2.38.0 jupyter_server 2.2.1 psutil 5.9.4
attr 2.5.1 jupyter_server_terminals 0.4.4 pthread-stubs 0,4
attrs 22.2.0 jupyterlab_pygments 0.2.2 ptyprocess 0.7.0
aws-c-auth 0.6.24 jupyterlab_widgets 3.0.7 pulseaudio 16.1
aws-c-cal 0.5.20 keras 2.11.0 pulseaudio-client 16.1
aws-c-common 0.8.11 keras-preprocessing 1.1.2 pulseaudio-daemon 16.1
aws-c-compression 0.2.16 keyutils 1.6.1 pure_eval 0.2.2
aws-c-event-stream 0.2.18 kiwisolver 1.4.4 py-xgboost 1.7.1
aws-c-http 0.7.4 knack 0.10.1 py4j 0.10.9.5
aws-c-io 0.13.17 krb5 1.20.1 pyarrow 11.0.0
aws-c-mqtt 0.8.6 lame 3.100 pyasn1 0.4.8
aws-c-s3 0.2.4 lcms2 2.15 pyasn1-modules 0.2.7
aws-c-sdkutils 0.1.7 ld_impl_linux-64 2.40 pycosat 0.6.4
aws-checksums 0.1.14 lerc 4.0.0 pycparser 2.21
aws-crt-cpp 0.19.7 liac-arff 2.5.0 pygments 2.14.0
aws-sdk-cpp 1.10.57 libabseil 20220623.0 pyjwt 2.6.0
azure-common 1.1.28 libaec 1.0.6 pynacl 1.5.0
azure-core 1.26.4 libarrow 11.0.0 pyodbc 4.0.35
azure-datalake-store 0.0.51 libblas 3.9.0 pyopenssl 23.1.1
azure-graphrbac 0.61.1 libbrotlicommon 1.0.9 pyparsing 3.0.9
azure-identity 1.12.0 libbrotlidec 1.0.9 pyperclip 1.8.2
azure-mgmt-authorization 3.0.0 libbrotlienc 1.0.9 pyqt 5.15.7
azure-mgmt-containerregistry 10.1.0 libcap 2.67 pyqt5-sip 12.11.0
azure-mgmt-core 1.4.0 libcblas 3.9.0 pyrsistent 0.19.3
azure-mgmt-keyvault 10.2.1 libclang 15.0.7 pysocks 1.7.1
azure-mgmt-resource 21.2.1 libclang13 15.0.7 pyspark 3.3.1
azure-mgmt-storage 20.1.0 libcrc32c 1.1.2 Python 3.10.10
azure-storage-blob 12.15.0 libcups 2.3.3 python_abi 3.10
azure-storage-file-datalake 12.9.1 libcurl 7.88.1 Python-dateutil 2.8.2
azureml-core 1.49.0 libdb 6.2.32 python-fastjsonschema 2.16.3
backcall 0.2.0 libdeflate 1.17 python-flatbuffers 23.1.21
backports 1.0 libebm 0.3.1 python-graphviz 0.20.1
backports.tempfile 1.0 libedit 3.1.20191231 python-json-logger 2.0.7
backports-weakref 1.0.post1 libev 4.33 pytorch 1.13.1
backports.functools_lru_cache 1.6.4 libevent 2.1.10 pytz 2022.7.1
bcrypt 3.2.2 libexpat 2.5.0 pyu2f 0.1.5
beautifulsoup4 4.11.2 libffi 3.4.2 pywin32-on-windows 0.1.0
bleach 6.0.0 libflac 1.4.2 pyyaml 6,0
blinker 1.6.1 libgcc-ng 12.2.0 pyzmq 25.0.2
Brotli 1.0.9 libgcrypt 1.10.1 qt-main 5.15.8
brotli-bin 1.0.9 libgd 2.3.3 re2 2023.02.01
brotli-python 1.0.9 libgfortran-ng 12.2.0 readline 8,2
brotlipy 0.7.0 libgfortran5 12.2.0 regex 2022.10.31
BZIP2 1.0.8 libglib 2.74.1 requests 2.28.2
c-ares 1.18.1 libgoogle-cloud 2.7.0 requests-oauthlib 1.3.1
ca-certificates 2022.12.7 libgpg-error 1,46 rfc3339-validator 0.1.4
cached_property 1.5.2 libgrpc 1.51.1 rfc3986-validator 0.1.1
cached-property=1.5.2 1.5.2 libhwloc 2.9.0 rsa 4,9
cachetools 5.3.0 libiconv 1.17 ruamel_yaml 0.15.80
cairo 1.16.0 liblapack 3.9.0 ruamel.yaml 0.17.21
certifi 2022.12.7 libllvm11 11.1.0 ruamel.yaml.clib 0.2.7
cffi 1.15.1 libllvm15 15.0.7 s2n 1.3.37
charset-normalizer 2.1.1 libnghttp2 1.52.0 salib 1.4.7
Klicken 8.1.3 libnsl 2.0.0 scikit-learn 1.2.0
cloudpickle 2.2.1 libogg 1.3.4 scipy 1.10.1
colorama 0.4.6 libopenblas 0.3.21 seaborn 0.12.2
comm 0.1.3 libopus 1.3.1 seaborn-base 0.12.2
conda-package-handling 2.0.2 libpng 1.6.39 secretstorage 3.3.3
conda-package-streaming 0.7.0 libpq 15.2 send2trash 1.8.0
configparser 5.3.0 libprotobuf 3.21.12 setuptools 67.6.1
contextlib2 21.6.0 librsvg 2.54.4 shap 0.41.0
contourpy 1.0.7 libsndfile 1.2.0 sip 6.7.7
Kryptografie 40.0.1 libsodium 1.0.18 sechs 1.16.0
cycler 0.11.0 libsqlite 3.40.0 sleef 3.5.1
Gedankenstrich 2.9.2 libssh2 1.10.0 slicer 0.0.7
dash_cytoscape 0.2.0 libstdcxx-ng 12.2.0 smmap 3.0.5
dash-core-components 2.0.0 libsystemd0 253 snappy 1.1.10
dash-html-components 2.0.0 libthrift 0.18.0 sniffio 1.3.0
dash-table 5.0.0 libtiff 4.5.0 soupsieve 2.3.2.post1
databricks-cli 0.17.6 libtool 2.4.7 sqlalchemy 2.0.9
dbus 1.13.6 libudev1 253 sqlparse 0.4.3
debugpy 1.6.7 libutf8proc 2.8.0 stack_data 0.6.2
decorator 5.1.1 libuuid 2.38.1 statsmodels 0.13.5
defusedxml 0.7.1 libuv 1.44.2 synapseml-mlflow 1.0.14
dill 0.3.6 libvorbis 1.3.7 synapseml-utils 1.0.7
distlib 0.3.6 libwebp 1.2.4 tabulate 0.9.0
docker-py 6.0.0 libwebp-base 1.2.4 tbb 2021.8.0
entrypoints 0,4 libxcb 1.13 tenacity 8.2.2
et_xmlfile 1.1.0 libxgboost 1.7.1 tensorboard 2.11.2
wird ausgeführt 1.2.0 libxkbcommon 1.5.0 tensorboard-data-server 0.6.1
expat 2.5.0 libxml2 2.10.3 tensorboard-plugin-wit 1.8.1
fftw 3.3.10 libxslt 1.1.37 tensorflow 2.11.0
filelock 3.11.0 libzlib 1.2.13 tensorflow-base 2.11.0
flask 2.2.3 lightgbm 3.3.3 tensorflow-estimator 2.11.0
flask-compress 1.13 lime 0.2.0.1 termcolor 2.2.0
flatbuffers 22.12.06 llvm-openmp 16.0.1 terminado 0.17.1
flit-core 3.8.0 llvmlite 0.39.1 threadpoolctl 3.1.0
fluent-logger 0.10.0 lxml 4.9.2 tinycss2 1.2.1
font-ttf-dejavu-sans-mono 2,37 lz4-c 1.9.4 tk 8.6.12
font-ttf-inconsolata 3.000 markdown 3.4.1 toml 0.10.2
font-ttf-source-code-pro 2.038 markupsafe 2.1.2 toolz 0.12.0
font-ttf-ubuntu 0,83 matplotlib 3.6.3 tornado 6.2
fontconfig 2.14.2 matplotlib-base 3.6.3 tqdm 4.65.0
fonts-conda-ecosystem 1 matplotlib-inline 0.1.6 traitlets 5.9.0
fonts-conda-forge 1 mistune 2.0.5 treeinterpreter 0.2.2
fonttools 4.39.3 mkl 2022.2.1 typed-ast 1.4.3
freetype 2.12.1 mlflow-skinny 2.1.1 typing_extensions 4.5.0
fribidi 1.0.10 mpg123 1.31.3 typing-extensions 4.5.0
frozenlist 1.3.3 msal 1.21.0 tzdata 2023c
fsspec 2023.4.0 msal_extensions 1.0.0 unicodedata2 15.0.0
gast 0.4.0 msgpack 1.0.5 unixodbc 2.3.10
gdk-pixbuf 2.42.10 msrest 0.7.1 urllib3 1.26.14
geographiclib 1.52 msrestazure 0.6.4 virtualenv 20.19.0
geopy 2.3.0 multidict 6.0.4 wcwidth 0.2.6
gettext 0.21.1 multiprocess 0.70.14 webencodings 0.5.1
gevent 22.10.2 munkres 1.1.4 websocket-client 1.5.1
gflags 2.2.2 mypy 0.780 werkzeug 2.2.3
giflib 5.2.1 mypy-extensions 0.4.4 wheel 0.40.0
gitdb 4.0.10 mysql-common 8.0.32 widgetsnbextension 4.0.7
gitpython 3.1.31 mysql-libs 8.0.32 wrapt 1.15.0
glib 2.74.1 nbclient 0.7.3 xcb-util 0.4.0
glib-tools 2.74.1 nbconvert-core 7.3.0 xcb-util-image 0.4.0
glog 0.6.0 nbformat 5.8.0 xcb-util-keysyms 0.4.0
google-auth 2.17.2 ncurses 6.3 xcb-util-renderutil 0.3.9
google-auth-oauthlib 0.4.6 ndg-httpsclient 0.5.1 xcb-util-wm 0.4.1
google-pasta 0.2.0 nest-asyncio 1.5.6 xgboost 1.7.1
graphite2 1.3.13 nspr 4.35 xkeyboard-config 2,38
graphviz 2.50.0 nss 3.89 xorg-kbproto 1.0.7
greenlet 2.0.2 numba 0.56.4 xorg-libice 1.0.10
grpcio 1.51.1 numpy 1.23.5 xorg-libsm 1.2.3
gson 0.0.3 oauthlib 3.2.2 xorg-libx11 1.8.4
gst-plugins-base 1.22.0 openjpeg 2.5.0 xorg-libxau 1.0.9
gstreamer 1.22.0 openpyxl 3.1.0 xorg-libxdmcp 1.1.3
gstreamer-orc 0.4.33 openssl 3.1.0 xorg-libxext 1.3.4
gtk2 2.24.33 opt_einsum 3.3.0 xorg-libxrender 0.9.10
gts 0.7.6 orc 1.8.2 xorg-renderproto 0.11.1
h5py 3.8.0 Packen 21,3 xorg-xextproto 7.3.0
harfbuzz 6.0.0 Pandas 1.5.3 xorg-xproto 7.0.31
hdf5 1.14.0 pandasql 0.7.3 xz 5.2.6
html5lib 1.1 pandocfilters 1.5.0 yaml 0.2.5
humanfriendly 10,0 pango 1.50.14 yarl 1.8.2
icu 70,1 paramiko 2.12.0 zeromq 4.3.4
idna 3.4 parquet-cpp 1.5.1 zipp 3.15.0
imageio 2.25.0 parso 0.8.3 zlib 1.2.13
importlib_metadata 5.2.0 pathos 0.3.0 zope.event 4.6
importlib_resources 5.12.0 pathspec 0.11.1 zope.interface 6.0
importlib-metadata 5.2.0 patsy 0.5.3 zstandard 0.19.0
Interpretieren 0.3.1 pcre2 10.40 zstd 1.5.2
interpret-core 0.3.1 pexpect 4.8.0

Pakete auf Standardebene für R

In der folgenden Tabelle werden alle Pakete auf Standardebene für R und deren jeweilige Versionen aufgeführt.

Bibliothek Version Bibliothek Version Bibliothek Version
askpass 1.1 highcharter 0.9.4 readr 2.1.3
assertthat 0.2.1 highr 0.9 readxl 1.4.1
backports 1.4.1 hms 1.1.2 recipes 1.0.3
base64enc 0.1-3 htmltools 0.5.3 rematch 1.0.1
bit 4.0.5 htmlwidgets 1.5.4 rematch2 2.1.2
bit64 4.0.5 httpcode 0.3.0 remotes 2.4.2
Blob 1.2.3 httpuv 1.6.6 reprex 2.0.2
brew 1,0 - 8 httr 1.4.4 reshape2 1.4.4
brio 1.1.3 ids 1.0.1 rjson 0.2.21
broom 1.0.1 igraph 1.3.5 rlang 1.0.6
bslib 0.4.1 infer 1.0.3 rlist 0.4.6.2
cachem 1.0.6 ini 0.3.1 rmarkdown 2,18
callr 3.7.3 ipred 0.9-13 RODBC 1.3-19
caret 6.0-93 isoband 0.2.6 roxygen2 7.2.2
cellranger 1.1.0 iterators 1.0.14 rprojroot 2.0.3
cli 3.4.1 jquerylib 0.1.4 rsample 1.1.0
clipr 0.8.0 jsonlite 1.8.3 rstudioapi 0.14
clock 0.6.1 knitr 1,41 rversions 2.1.2
colorspace 2.0-3 labeling 0.4.2 rvest 1.0.3
commonmark 1.8.1 later 1.3.0 sass 0.4.4
config 0.3.1 lava 1.7.0 scales 1.2.1
conflicted 1.1.0 lazyeval 0.2.2 selectr 0.4-2
coro 1.0.3 lhs 1.1.5 sessioninfo 1.2.2
cpp11 0.4.3 Lebenszyklus 1.0.3 shiny 1.7.3
crayon 1.5.2 lightgbm 3.3.3 Schieberegler 0.3.0
Anmeldeinformationen 1.3.2 listenv 0.8.0 sourcetools 0.1.7
crosstalk 1.2.0 lobstr 1.1.2 sparklyr 1.7.8
crul 1.3 lubridate 1.9.0 SQUAREM 2021.1
curl 4.3.3 magrittr 2.0.3 stringi 1.7.8
data.table 1.14.6 maps 3.4.1 stringr 1.4.1
DBI 1.1.3 memoise 2.0.1 sys 3.4.1
dbplyr 2.2.1 mime 0,12 systemfonts 1.0.4
desc 1.4.2 miniUI 0.1.1.1 testthat 3.1.5
devtools 2.4.5 modeldata 1.0.1 textshaping 0.3.6
dials 1.1.0 modelenv 0.1.0 tibble 3.1.8
DiceDesign 1.9 ModelMetrics 1.2.2.2 tidymodels 1.0.0
diffobj 0.3.5 modelr 0.1.10 tidyr 1.2.1
digest 0.6.30 munsell 0.5.0 tidyselect 1.2.0
downlit 0.4.2 numDeriv 2016.8-1.1 tidyverse 1.3.2
dplyr 1.0.10 openssl 2.0.4 timechange 0.1.1
dtplyr 1.2.2 parallelly 1.32.1 timeDate 4021.106
e1071 1.7-12 parsnip 1.0.3 tinytex 0,42
ellipsis 0.3.2 patchwork 1.1.2 torch 0.9.0
evaluate 0,18 pillar 1.8.1 triebeard 0.3.0
fansi 1.0.3 pkgbuild 1.4.0 TTR 0.24.3
farver 2.1.1 pkgconfig 2.0.3 tune 1.0.1
fastmap 1.1.0 pkgdown 2.0.6 tzdb 0.3.0
fontawesome 0.4.0 pkgload 1.3.2 urlchecker 1.0.1
forcats 0.5.2 plotly 4.10.1 urltools 1.7.3
foreach 1.5.2 plyr 1.8.8 usethis 2.1.6
forge 0.2.0 praise 1.0.0 utf8 1.2.2
fs 1.5.2 prettyunits 1.1.1 UUID 1.1-0
furrr 0.3.1 pROC 1.18.0 vctrs 0.5.1
future 1.29.0 processx 3.8.0 viridisLite 0.4.1
future.apply 1.10.0 prodlim 2019.11.13 vroom 1.6.0
gargle 1.2.1 profvis 0.3.7 waldo 0.4.0
generics 0.1.3 Fortschritt 1.2.2 warp 0.2.0
gert 1.9.1 progressr 0.11.0 whisker 0,4
ggplot2 3.4.0 promises 1.2.0.1 withr 2.5.0
gh 1.3.1 proxy 0.4-27 workflows 1.1.2
gistr 0.9.0 pryr 0.1.5 workflowsets 1.0.0
gitcreds 0.1.2 ps 1.7.2 xfun 0,35
globals 0.16.2 purrr 0.3.5 Xgboost 1.6.0.1
glue 1.6.2 quantmod 0.4.20 XML 3.99-0.12
googledrive 2.0.0 r2d3 0.2.6 xml2 1.3.3
googlesheets4 1.0.1 R6 2.5.1 xopen 1.0.0
gower 1.0.0 ragg 1.2.4 xtable 1.8-4
GPfit 1,0 - 8 rappdirs 0.3.3 xts 0.12.2
gtable 0.3.1 rbokeh 0.5.2 yaml 2.3.6
hardhat 1.2.0 rcmdcheck 1.4.0 yardstick 1.1.0
haven 2.5.1 RColorBrewer 1.1-3 zip 2.2.2
hexbin 1.28.2 Rcpp 1.0.9 Zoo 1.8-11

Migration zwischen verschiedenen Apache Spark-Versionen

Das Migrieren Ihrer Workloads zu Fabric Runtime 1.1 (Apache Spark 3.3) von einer älteren Version von Apache Spark umfasst eine Reihe von Schritten, um eine reibungslose Migration sicherzustellen. In diesem Leitfaden werden die erforderlichen Schritte beschrieben, die Sie bei der effizienten und effektiven Migration unterstützen.

  1. Lesen Sie die Versionshinweise zur Fabric-Runtime 1.1, einschließlich einer Überprüfung der enthaltenen Komponenten und Pakete auf Standardebene in der Runtime zum Verständnis der neuen Features und Verbesserungen.

  2. Überprüfen Sie die Kompatibilität Ihres aktuellen Setups und aller zugehörigen Bibliotheken, einschließlich Abhängigkeiten und Integrationen. Lesen Sie die Migrationsleitfäden, um potenzielle Breaking Changes zu identifizieren:

  3. Verschieben Sie Ihre Workloads nach Fabric, und vergewissern Sie sich, dass Sie über Sicherungen Ihrer Daten und Konfigurationsdateien verfügen, falls Sie zur vorherigen Version zurückkehren müssen.

  4. Aktualisieren Sie alle Abhängigkeiten, auf die sich die neue Version von Apache Spark oder andere Komponenten der Fabric-Runtime 1.1 auswirken können, einschließlich Bibliotheken und Connectors von Drittanbietern. Achten Sie darauf, die aktualisierten Abhängigkeiten in einer Stagingumgebung zu testen, bevor Sie sie in der Produktion bereitstellen.

  5. Aktualisieren Sie die Apache Spark-Konfiguration in Ihrer Workload, einschließlich Aktualisieren von Konfigurationseinstellungen, Anpassen von Speicherzuordnungen und Ändern veralteter Konfigurationen.

  6. Ändern Sie Ihre Apache Spark-Anwendungen (Notebooks und Apache Spark-Auftragsdefinitionen), um die neuen APIs und Features zu verwenden, die mit Fabric Runtime 1.1 und Apache Spark 3.3 eingeführt werden. Möglicherweise müssen Sie Ihren Code für veraltete oder entfernte APIs aktualisieren und Ihre Anwendungen umgestalten, um von Leistungsverbesserungen und neuen Funktionen zu profitieren.

  7. Testen Sie Ihre aktualisierten Anwendungen gründlich in einer Stagingumgebung, um Kompatibilität und Stabilität mit Apache Spark 3.3 sicherzustellen. Führen Sie Leistungstests, Funktionstests und Regressionstests durch, um Probleme zu identifizieren und zu beheben, die während des Migrationsprozesses auftreten können.

  8. Nachdem Sie Ihre Anwendungen in einer Stagingumgebung überprüft haben, stellen Sie die aktualisierten Anwendungen in Ihrer Produktionsumgebung bereit. Überwachen Sie die Leistung und Stabilität Ihrer Anwendungen nach der Migration, um Probleme zu identifizieren, die behoben werden müssen.

  9. Aktualisieren Sie Ihre interne Dokumentation und die Schulungsmaterialien, um die in Fabric Runtime 1.1 eingeführten Änderungen widerzuspiegeln. Stellen Sie sicher, dass Ihre Teammitglieder mit den neuen Features und Verbesserungen vertraut sind, um die Vorteile der Migration zu maximieren.