Modul runtime Apache Spark v prostředcích infrastruktury

Microsoft Fabric Runtime je platforma integrovaná v Azure založená na Apache Sparku, která umožňuje spouštění a správu přípravy dat a prostředí datových věd. Kombinuje klíčové komponenty z interních i opensourcových zdrojů a poskytuje zákazníkům komplexní řešení. Pro jednoduchost označujeme Modul runtime Microsoft Fabric využívající Apache Spark jako modul runtime prostředků infrastruktury.

Důležité

Microsoft Fabric je v současné době ve verzi PREVIEW. Tyto informace se týkají předběžné verze produktu, který může být před vydáním podstatně změněn. Společnost Microsoft neposkytuje na zde uvedené informace žádné záruky, vyjádřené ani předpokládané.

Hlavní komponenty modulu runtime Fabric:

  • Apache Spark – výkonná opensourcová distribuovaná výpočetní knihovna, která umožňuje rozsáhlé úlohy zpracování a analýzy dat. Apache Spark poskytuje univerzální a vysoce výkonnou platformu pro přípravu dat a prostředí datových věd.

  • Delta Lake – opensourcová vrstva úložiště, která přináší transakce ACID a další funkce pro spolehlivost dat do Apache Sparku. Delta Lake je integrovaná v modulu Microsoft Fabric Runtime a vylepšuje možnosti zpracování dat a zajišťuje konzistenci dat napříč několika souběžnými operacemi.

  • Balíčky výchozí úrovně pro Javu/Scala, Python a R pro podporu různých programovacích jazyků a prostředí. Tyto balíčky se instalují a konfigurují automaticky, což vývojářům umožňuje použít upřednostňované programovací jazyky pro úlohy zpracování dat.

  • Modul Microsoft Fabric Runtime je postaven na robustním opensourcovém operačním systému (Ubuntu) a zajišťuje kompatibilitu s různými hardwarovými konfiguracemi a požadavky na systém.

Modul runtime 1.1

Microsoft Fabric Runtime 1.1 je výchozí a v současné době jediný modul runtime nabízený v rámci platformy Microsoft Fabric. Hlavní komponenty modulu runtime 1.1 jsou:

  • Operační systém: Ubuntu 18.04
  • Java: 1.8.0_282
  • Scala: 2.12.15
  • Python: 3.10
  • Delta Lake: 2.2
  • R: 4.2.2

Snímek obrazovky znázorňující, kde vybrat verzi modulu runtime

Microsoft Fabric Runtime 1.1 se dodává s kolekcí balíčků výchozí úrovně, včetně úplné instalace Anaconda a běžně používaných knihoven pro Javu/Scalu, Python a R. Tyto knihovny se automaticky zahrnou při použití poznámkových bloků nebo úloh na platformě Microsoft Fabric. Úplný seznam knihoven najdete v dokumentaci.

Microsoft Fabric pravidelně zavádí aktualizace údržby pro modul runtime 1.1, které poskytují opravy chyb, vylepšení výkonu a opravy zabezpečení. Udržování aktuálnosti zajišťuje optimální výkon a spolehlivost úloh zpracování dat.

Nové funkce a vylepšení

Apache Spark 3.3.1

Následuje rozšířený souhrn klíčových nových funkcí souvisejících s Apache Sparkem verze 3.3.0 a 3.3.1:

  • Filtrování na úrovni řádků: Zlepšuje výkon spojení předběžným filtrováním jedné strany, pokud nedochází k vyřazuje nebo regresní dopad.oin pomocí filtru Bloom a predikátu IN vygenerovaného z hodnot z druhé strany spojení (SPARK-32268)

  • Vylepšení kompatibility Sparku se standardem SQL: vylepšení ANSI (SPARK-38860)

  • Vylepšení chybových zpráv pro rychlejší identifikaci problémů a provedení nezbytných kroků k jejich řešení (SPARK-38781)

  • Podpora komplexních typů pro vektorizovanou čtečku Parquet Čtečka vektorů Parquet dříve nepodporovala vnořený typ sloupce (struktura, pole a mapování). Apache Spark 3.3 obsahuje implementaci vnořené čtečky vektorizované sloupce pro FB-ORC v našem interním forku Sparku. Má vliv na zlepšení výkonu v porovnání s nevectorizovanými čtečky při čtení vnořených sloupců. Kromě toho může tato implementace také pomoct zlepšit výkon vnořených sloupců při společném čtení nevnořených a vnořených sloupců v jednom dotazu (SPARK-34863).

  • Umožňuje uživatelům dotazovat se na metadata vstupních souborů pro všechny formáty souborů, vystavit je jako předdefinované skryté sloupce , což znamená, že je uživatelé uvidí jenom v případě, že na ně explicitně odkazují (například cestu k souboru a název souboru) (SPARK-37273).

  • Poskytnutí profileru pro uživatelem definované funkce Python/Pandas (SPARK-37443)

  • Dříve se dotazy streamování s triggerem, který načítal všechna dostupná data v jedné dávce. Z tohoto důvodu bylo množství dat, která mohly dotazy zpracovat, omezené nebo ovladač Sparku měl nedostatek paměti. Nyní představujeme Trigger.AvailableNow pro spouštění dotazů streamování, jako je Trigger jednou v několika dávkách (SPARK-36533).

  • Komplexnější funkce ds V2 push down (SPARK-38788)

  • Zajištění provozu exekutoru v prostředí Kubernetes (SPARK-37810)

  • Podpora přizpůsobených plánovačů Kubernetes ( SPARK-36057)

  • Migrace z log4j 1 na log4j 2 (SPARK-37814) za účelem získání:

    • Výkon: Log4j 2 je rychlejší než Log4j 1. Log4j 2 ve výchozím nastavení používá asynchronní protokolování, které může výrazně zlepšit výkon.

    • Flexibilita: Log4j 2 poskytuje větší flexibilitu z hlediska konfigurace. Podporuje několik formátů konfigurace, včetně XML, JSON a YAML.

    • Rozšiřitelnost: Log4j 2 je navržený tak, aby byl rozšiřitelný. Umožňuje vývojářům vytvářet vlastní moduly plug-in a appendery , které rozšiřují funkce architektury protokolování.

    • Zabezpečení: Log4j 2 poskytuje lepší funkce zabezpečení než Log4j 1. Podporuje šifrování a zabezpečené vrstvy soketů pro zabezpečenou komunikaci mezi aplikacemi.

    • Jednoduchost: Použití log4j 2 je jednodušší než Log4j 1. Má intuitivnější rozhraní API a jednodušší proces konfigurace.

  • Zavedení náhodného prohazování u singlepartition za účelem vylepšení paralelismu a opravy regrese výkonu pro spojení ve Sparku 3.3 vs Sparku 3.2 (SPARK-40703)

  • Optimalizujte pravidlo TranspoziceWindow , abyste rozšířili příslušné případy a optimalizovali časovou složitost (SPARK-38034)

  • Pokud chcete mít paritu při provádění timetravel přes SQL a možnost datového rámce, pomocí možností datového rámce (SPARK-39633]) u funkce TimeTravel (SPARK-39633]) časovérazítko v sekundách pro TimeTravel

  • Optimalizace globálníhořazení na RepartitionByExpression pro uložení místního řazení (SPARK-39911)

  • Ujistěte se, že je výstupnídělení zadané uživatelem v AQE (SPARK-39915).

  • Aktualizace sloupcové kontroly Parquet V2 pro vnořená pole (SPARK-39951)

  • Čtení v souboru Parquet rozděleného na disk podle sloupce typu Byte (SPARK-40212)

  • Oprava vyřezávání sloupců ve formátu CSV při výběru _corrupt_record (SPARK-40468)

Delta Lake 2.2

Klíčové funkce v této verzi jsou následující:

  • LIMIT pushdown do Delta scan. Zvyšte výkon dotazů obsahujících LIMIT klauzule tím, že během plánování dotazů zasunou LIMIT do rozdílové kontroly. Rozdílová kontrola používá LIMIT počty řádků a na úrovni souborů ke snížení počtu kontrolovaných souborů, což pomáhá dotazům číst mnohem menší počet souborů a může 10–100krát zrychlit LIMIT dotazy v závislosti na velikosti tabulky.

  • Agregujte pushdown do rozdílového vyhledávání pro SELECT COUNT(*). Agregační dotazy, například SELECT COUNT(*) u tabulek Delta, jsou splněné pomocí počtu řádků na úrovni souboru v metadatech tabulky Delta místo počítání řádků v podkladových datových souborech. Tím se výrazně zkracuje doba dotazování, protože dotaz potřebuje jenom přečíst metadata tabulky a může 10–100krát zrychlit celý počet dotazů na tabulku.

  • Podpora shromažďování statistik na úrovni souboru jako součást příkazu CONVERT TO DELTA. Tyto statistiky můžou pomoct zrychlit dotazy na tabulku Delta. Ve výchozím nastavení se statistiky shromažďují jako součást příkazu CONVERT TO DELTA. Chcete-li zakázat shromažďování statistik, zadejte NO STATISTICS klauzuli v příkazu . Příklad: CONVERT TO DELTA table_name NO STATISTICS

  • Zvyšte výkon příkazu DELETE vyřazením sloupců, které se mají číst při hledání souborů k přepsání.

  • Oprava chyby v konfiguraci režimu S3 s více clustery založeném na DynamoDB. Předchozí verze napsala nesprávné časové razítko, které používala funkce TTL dynamoDB k vyčištění položek, jejichž platnost vypršela. Tato hodnota časového razítka byla opravena a atribut tabulky byl přejmenován z commitTime na expireTime. Pokud už hodnotu TTL máte povolenou, postupujte podle kroků migrace tady.

  • Opravtenedeterministické chování při slučování při práci se zdroji, které nejsou deterministické.

  • Odeberte omezení pro používání tabulek Delta s mapováním sloupců v určitých případech streamování a CDF. Dříve jsme používali blokování streaming+CDF, pokud má tabulka Delta povolené mapování sloupců, i když neobsahuje žádné sloupce RENAME nebo DROP.

  • Vylepšete monitorování dotazů na stav delta (jiné dotazy se spouštějí jako součást plánování) tím, že je zviditelníte v uživatelském rozhraní Sparku.

  • Podpora více where() volání v optimalizaci rozhraní SCALA/PYTHON API

  • Podpora předávání konfigurací Hadoopu prostřednictvím rozhraní DeltaTable API

  • Podpora názvů sloupců oddílů začínajících na . nebo _ v příkazu CONVERT TO DELTA

  • Vylepšení metrik v historii tabulek

  • Oprava náhodného downgradu protokolu pomocí příkazu RESTORE . Až dosud může funkce RESTORE TABLE downgradovat verzi protokolu tabulky, což mohlo vést k nekonzistentním čtením s cestováním v čase. Díky této opravě se verze protokolu nikdy downgraduje z aktuální verze.

  • Oprava chyby v MERGE INTO , když existuje více UPDATE klauzulí a jedna z upDATes je s vývojem schématu.

  • Oprava chyby, kdy se někdy při použití rozhraní Delta API nenašel aktivní SparkSession objekt

  • Opravte problém, kdy během počátečního potvrzení nešlo nastavit schéma oddílu.

  • Zachyťte výjimky při selhání zápisu last_checkpoint souboru.

  • Opravte problém při restartování dotazu streamování s triggerem AvailableNow v tabulce Delta.

  • Oprava problému s CDF a streamováním, kdy se posun neaktualizuje správně, když nedošlo k žádným změnám dat

Tady si projděte zdrojové a úplné poznámky k verzi.

Balíčky výchozí úrovně pro knihovny Java/Scala

Níže najdete tabulku se seznamem všech výchozích balíčků úrovně pro Javu/Scala a jejich odpovídajících verzí.

Groupid ArtifactId (Id artefaktu) Verze
com.aliyun aliyun-java-sdk-core 4.5.10
com.aliyun aliyun-java-sdk-kms 2.11.0
com.aliyun aliyun-java-sdk-ram 3.1.0
com.aliyun aliyun-sdk-oss 3.13.0
com.amazonaws aws-java-sdk-bundle 1.11.1026
com.chuusai shapeless_2.12 2.3.7
com.esotericsoftware kryo-stínované 4.0.2
com.esotericsoftware minlog 1.3.0
com.fasterxml.jackson jackson-annotations-2.13.4.jar
com.fasterxml.jackson jackson-core 2.13.4
com.fasterxml.jackson jackson-core-asl 1.9.13
com.fasterxml.jackson jackson-databind 2.13.4.1
com.fasterxml.jackson jackson-dataformat-cbor 2.13.4
com.fasterxml.jackson jackson-mapper-asl 1.9.13
com.fasterxml.jackson jackson-module-scala_2.12 2.13.4
com.github.joshelser dropwizard-metrics-hadoop-metrics2-reporter 0.1.2
com.github.wendykierp JTransforms 3.1
com.google.code.findbugs jsr305 3.0.0
com.google.code.gson gson 2.8.6
com.google.flatbuffers flatbuffers-java 1.12.0
com.google.guava Guava 14.0.1
com.google.protobuf protobuf-java 2.5.0
com.googlecode.json-simple json-simple 1.1.1
com.jcraft jsch 0.1.54
com.jolbox bonecp 0.8.0.RELEASE
com.linkedin.isolation-forest isolation-forest_3.2.0_2.12 2.0.8
com.ning compress-lzf 1.1
com.qcloud cos_api-bundle 5.6.19
com.sun.istack istack-commons-runtime 3.0.8
com.tdunning json 1.8
com.thoughtworks.paranamer paranamer 2,8
com.twitter chill-java 0.10.0
com.twitter chill_2.12 0.10.0
com.typesafe config 1.3.4
com.zaxxer HikariCP 2.5.1
commons-cli commons-cli 1.5.0
commons-codec commons-codec 1.15
commons-collections commons-collections 3.2.2
commons-dbcp commons-dbcp 1.4
commons-io commons-io 2.11.0
commons-lang commons-lang 2,6
commons-logging commons-logging 1.1.3
commons-pool commons-pool 1.5.4.jar
dev.ludovic.netlib arpack 2.2.1
dev.ludovic.netlib Blas 2.2.1
dev.ludovic.netlib lapack 2.2.1
io.airlift aircompressor 0.21
io.dropwizard.metrics metrics-core 4.2.7
io.dropwizard.metrics metrics-graphite 4.2.7
io.dropwizard.metrics metrics-jmx 4.2.7
io.dropwizard.metrics metrics-json 4.2.7
io.dropwizard.metrics metrics-jvm 4.2.7
io.netty netty-all 4.1.74.Final
io.netty netty-buffer 4.1.74.Final
io.netty netty-codec 4.1.74.Final
io.netty netty-common 4.1.74.Final
io.netty netty-handler 4.1.74.Final
io.netty netty-resolver 4.1.74.Final
io.netty netty-tcnative-classes 2.0.48.Final
io.netty netty-transport 4.1.74.Final
io.netty netty-transport-classes-epoll 4.1.74.Final
io.netty netty-transport-classes-kqueue 4.1.74.Final
io.netty netty-transport-native-epoll 4.1.74.Final-linux-aarch_64
io.netty netty-transport-native-epoll 4.1.74.Final-linux-x86_64
io.netty netty-transport-native-kqueue 4.1.74.Final-osx-aarch_64
io.netty netty-transport-native-kqueue 4.1.74.Final-osx-x86_64
io.netty netty-transport-native-unix-common 4.1.74.Final
io.opentracing opentracing-api 0.33.0
io.opentracing opentracing-noop 0.33.0
io.opentracing opentracing-util 0.33.0
jakarta.annotation jakarta.annotation-api 1.3.5
jakarta.inject jakarta.inject 2.6.1
jakarta.servlet jakarta.servlet-api 4.0.3
jakarta.validation-api 2.0.2
jakarta.ws.rs jakarta.ws.rs-api 2.1.6
jakarta.xml.bind jakarta.xml.bind-api 2.3.2
javax.activation Aktivace 1.1.1
javax.jdo jdo-api 3.0.1
javax.transaction Jta 1.1
javax.xml.bind jaxb-api 2.2.11
javolution javolution 5.5.1
jline jline 2.14.6
joda-čas joda-čas 2.10.13
net.razorvine Lák 1.2
net.sf.jpam jpam 1.1
net.sf.opencsv opencsv 2.3
net.sf.py4j py4j 0.10.9.5
net.sourceforge.f2j arpack_combined_all 0.1
org.antlr St4 4.0.4
org.antlr antlr-runtime 3.5.2
org.antlr antlr4-runtime 4.8
org.apache.arrow formát šipky 7.0.0
org.apache.arrow arrow-memory-core 7.0.0
org.apache.arrow arrow-memory-netty 7.0.0
org.apache.arrow vektor šipky 7.0.0
org.apache.avro Avro 1.11.0
org.apache.avro avro-ipc 1.11.0
org.apache.avro avro-mapred 1.11.0
org.apache.commons commons-collections4 4.4
org.apache.commons commons-compress 1.21
org.apache.commons commons-crypto 1.1.0
org.apache.commons commons-lang3 3.12.0
org.apache.commons commons-math3 3.6.1
org.apache.commons commons-pool2 2.11.1
org.apache.commons commons-text 1.10.0
org.apache.kurátor kurátor-klient 2.13.0
org.apache.kurátor kurátor-framework 2.13.0
org.apache.kurátor kurátor-recepty 2.13.0
org.apache.derby Derby 10.14.2.0
org.apache.hadoop hadoop-aliyun 3.3.3.5.2-90111858
org.apache.hadoop hadoop-annotations 3.3.3.5.2-90111858
org.apache.hadoop hadoop-aws 3.3.3.5.2-90111858
org.apache.hadoop hadoop-azure 3.3.3.5.2-90111858
org.apache.hadoop hadoop-azure-datalake 3.3.3.5.2-90111858
org.apache.hadoop hadoop-client-api 3.3.3.5.2-90111858
org.apache.hadoop hadoop-client-runtime 3.3.3.5.2-90111858
org.apache.hadoop hadoop-cloudové úložiště 3.3.3.5.2-90111858
org.apache.hadoop hadoop-cos 3.3.3.5.2-90111858
org.apache.hadoop hadoop-openstack 3.3.3.5.2-90111858
org.apache.hadoop hadoop-shaded-guava 1.1.1
org.apache.hadoop hadoop-yarn-server-web-proxy 3.3.3.5.2-90111858
org.apache.hive hive-beeline 2.3.9
org.apache.hive hive-cli 2.3.9
org.apache.hive hive-common 2.3.9
org.apache.hive hive-exec 2.3.9
org.apache.hive hive-jdbc 2.3.9
org.apache.hive hive-llap-common 2.3.9
org.apache.hive hive-metastore 2.3.9
org.apache.hive hive-serde 2.3.9
org.apache.hive hive-service-rpc 3.1.2
org.apache.hive hive-shims-0,23 2.3.9
org.apache.hive hive-shims 2.3.9
org.apache.hive hive-shims-common 2.3.9
org.apache.hive hive-shims-scheduler 2.3.9
org.apache.hive hive-storage-api 2.7.2
org.apache.hive hive-vector-code-gen 2.3.9
org.apache.httpcomponents httpclient 4.5.13
org.apache.httpcomponents httpcore 4.4.14
org.apache.httpcomponents httpmime 4.5.13
org.apache.httpcomponents.client5 httpclient5 5.1.3
org.apache.ivy Ivy 2.5.1
org.apache.kafka kafka-clients 2.8.1
org.apache.logging.log4j log4j-1.2-api 2.17.2
org.apache.logging.log4j log4j-api 2.17.2
org.apache.logging.log4j log4j-core 2.17.2
org.apache.logging.log4j log4j-slf4j-impl 2.17.2
org.apache.orc orc-core 1.7.6
org.apache.orc orc-mapreduce 1.7.6
org.apache.orc orc-shims 1.7.6
org.apache.parquet parquet-column 1.12.3
org.apache.parquet parquet-common 1.12.3
org.apache.parquet parquet-encoding 1.12.3
org.apache.parquet parquet-format-structures 1.12.3
org.apache.parquet parquet-hadoop 1.12.3
org.apache.parquet parquet-jackson 1.12.3
org.apache.qpid proton-j 0.33.8
org.apache.thrift libfb303 0.9.3
org.apache.thrift libthrift 0.12.0
org.apache.yetus audience-annotations 0.5.0
org.apiguardian apiguardian-api 1.1.0
org.codehaus.janino commons-compiler 3.0.16
org.codehaus.janino Janina 3.0.16
org.codehaus.jettison Jan Macek 1.1
org.datanucleus datanucleus-api-jdo 4.2.4
org.datanucleus datanucleus-core 4.1.17
org.datanucleus datanucleus-rdbms 4.1.19
org.datanucleusjavax.jdo 3.2.0-m3
org.eclipse.jdt Core 1.1.2
org.eclipse.jetty jetty-util 9.4.48.v20220622
org.eclipse.jetty jetty-util-ajax 9.4.48.v20220622
org.fusesource.leveldbjni leveldbjni-all 1.8
org.glassfish.hk2 hk2-api 2.6.1
org.glassfish.hk2 hk2 lokátor 2.6.1
org.glassfish.hk2 hk2-nástroje 2.6.1
org.glassfish.hk2 osgi-resource-locator 1.0.3
org.glassfish.hk2.external aopalliance-repackaged 2.6.1
org.glassfish.jaxb jaxb-runtime 2.3.2
org.glassfish.jersey.containers jersey-kontejner-servlet 2.36
org.glassfish.jersey.containers jersey-kontejner-servlet-jádro 2.36
org.glassfish.jersey.core jersey-klient 2.36
org.glassfish.jersey.core žerzejové-společné 2.36
org.glassfish.jersey.core jersey-server 2.36
org.glassfish.jersey.inject jersey-hk2 2.36
org.ini4j ini4j 0.5.4
org.javassist javassist 3.25.0 obecná dostupnost
org.javatuples javatuples 1.2
org.jdom jdom2 2.0.6
org.jetbrains Poznámky 17.0.0
org.jodd jodd-core 3.5.2
org.json4s json4s-ast_2.12 3.7.0-M11
org.json4s json4s-core_2.12 3.7.0-M11
org.json4s json4s-jackson_2.12 3.7.0-M11
org.json4s json4s-scalap_2.12 3.7.0-M11
org.junit.jupiter junit-jupiter 5.5.2
org.junit.jupiter junit-jupiter-api 5.5.2
org.junit.jupiter junit-jupiter-engine 5.5.2
org.junit.jupiter junit-jupiter-params 5.5.2
org.junit.platform junit-platform-commons 1.5.2
org.junit.platform junit-platform-engine 1.5.2
org.lz4 lz4-java 1.8.0
org.objenesis objenesis 3.2
org.openpnp opencv 3.2.0-1
org.opentest4j opentest4j 1.2.0
org.postgresql Postgresql 42.2.9
org.roaringbitmap RoaringBitmap 0.9.25
org.roaringbitmap Podložky 0.9.25
org.rocksdb rocksdbjni 6.20.3
org.scala-lang kompilátor scala 2.12.15
org.scala-lang knihovna scala 2.12.15
org.scala-lang scala-reflect 2.12.15
org.scala-lang.modules scala-collection-compat_2.12 2.1.1
org.scala-lang.modules scala-java8-compat_2.12 0.9.0
org.scala-lang.modules scala-parser-combinators_2.12 1.1.2
org.scala-lang.modules scala-xml_2.12 1.2.0
org.scalactic scalactic_2.12 3.2.14
org.scalanlp breeze-macros_2.12 1.2
org.scalanlp breeze_2.12 1.2
org.slf4j jcl-over-slf4j 1.7.32
org.slf4j jul-to-slf4j 1.7.32
org.slf4j slf4j-api 1.7.32
org.typelevel algebra_2,12 2.0.1
org.typelevel kočky-kernel_2.12 2.1.1
org.typelevel spire-macros_2,12 0.17.0
org.typelevel spire-platform_2,12 0.17.0
org.typelevel spire-util_2,12 0.17.0
org.xerial.snappy snappy-java 1.1.8.4
Oro Oro 2.0.8
pl.edu.icm JLargeArrays 1.5

Balíčky výchozí úrovně pro knihovny Pythonu

Níže najdete tabulku se seznamem všech výchozích balíčků úrovně pro Python a jejich odpovídající verze.

Knihovny Verze Knihovny Verze Knihovny Verze
_libgcc_mutex 0.1 ipykernel 6.22.0 pickleshare 0.7.5
_openmp_mutex 4.5 ipython 8.9.0 Polštář 9.4.0
_py-xgboost-mutex 2.0 imituzízísek 8.0.4 Pip 23.0.1
absl-py 1.4.0 isodate 0.6.1 pixman 0.40.0
Adal 1.2.7 jehodangerous 2.1.2 pkginfo 1.9.6
adlfs 2023.1.0 Jack 1.9.22 pkgutil-resolve-name 1.3.10
aiohttp 3.8.4 Jedi 0.18.2 platformdirs 3.2.0
aiosignal 1.3.1 Jeepney 0.8.0 plotly 5.13.0
alsa-lib 1.2.8 Jiřina2 3.1.2 Ply 3.11
anyio 3.6.2 jmespath 1.0.1 Čokl 1.7.0
argcomplete 2.1.2 joblib 1.2.0 portalocker 2.7.0
argon2-cffi 21.3.0 jpeg 9e Neštovice 0.3.2
argon2-cffi-bindings 21.2.0 jsonpickle 2.2.0 ppft 1.7.6.6
šipka -cpp 11.0.0 jsonschema 4.17.3 hezký 3.6.0
asttokens 2.2.1 jupyter_client 8.1.0 prometheus_client 0.16.0
astunparse 1.6.3 jupyter_core 5.3.0 prompt-toolkit 3.0.38
async-timeout 4.0.2 jupyter_events 0.6.3 protobuf 4.21.12
atk-1.0 2.38.0 jupyter_server 2.2.1 psutil 5.9.4
Attr 2.5.1 jupyter_server_terminals 0.4.4 pthread-stubs 0.4
Attrs 22.2.0 jupyterlab_pygments 0.2.2 ptyprocess 0.7.0
aws-c-auth 0.6.24 jupyterlab_widgets 3.0.7 Pulseaudio 16.1
aws-c-cal 0.5.20 keras 2.11.0 pulseaudio-klient 16.1
aws-c-common 0.8.11 předzpracování kerasu 1.1.2 pulseaudio-démon 16.1
aws-c-compression 0.2.16 nástroje klíčů 1.6.1 pure_eval 0.2.2
aws-c-event-stream 0.2.18 kiwisolver 1.4.4 py-xgboost 1.7.1
aws-c-http 0.7.4 Talent 0.10.1 py4j 0.10.9.5
aws-c-io 0.13.17 krb5 1.20.1 Pyarrow 11.0.0
aws-c-mqtt 0.8.6 Lame 3.100 Housn1 0.4.8
aws-c-s3 0.2.4 lcms2 2.15 pyasn1-modules 0.2.7
aws-c-sdkutils 0.1.7 ld_impl_linux–64 2.40 Pycosat 0.6.4
aws-checksums 0.1.14 Lerc 4.0.0 pycparser 2.21
aws-crt-cpp 0.19.7 liac-arff 2.5.0 pygments 2.14.0
aws-sdk-cpp 1.10.57 libabseil 20220623.0 pyjwt 2.6.0
azure-common 1.1.28 Libaec 1.0.6 Pynacl 1.5.0
azure-core 1.26.4 libarrow 11.0.0 pyodbc 4.0.35
azure-datalake-store 0.0.51 libblas 3.9.0 pyopenssl 23.1.1
azure-graphrbac 0.61.1 libbrotlicommon 1.0.9 pyparsing 3.0.9
azure-identity 1.12.0 libbrotlidec 1.0.9 pyperclip 1.8.2
azure-mgmt-authorization 3.0.0 libbrotlienc 1.0.9 pyqt 5.15.7
azure-mgmt-containerregistry 10.1.0 libcap 2.67 pyqt5-sip 12.11.0
azure-mgmt-core 1.4.0 libcblas 3.9.0 pyrsistent 0.19.3
azure-mgmt-keyvault 10.2.1 libclang 15.0.7 pysocks 1.7.1
azure-mgmt-resource 21.2.1 libclang13 15.0.7 pyspark 3.3.1
azure-mgmt-storage 20.1.0 libcrc32c 1.1.2 python 3.10.10
azure-storage-blob 12.15.0 libcups 2.3.3 python_abi 3.10
azure-storage-file-datalake 12.9.1 Libcurl 7.88.1 python-dateutil 2.8.2
azureml-core 1.49.0 libdb 6.2.32 python-fastjsonschema 2.16.3
backcall 0.2.0 libdeflate 1.17 python-flatbuffers 23.1.21
backports 1.0 Libebm 0.3.1 python-graphviz 0.20.1
backports-tempfile 1.0 libedit 3.1.20191231 python-json-logger 2.0.7
backports-weakref 1.0.post1 libev 4.33 pytorch 1.13.1
backports.functools_lru_cache 1.6.4 libevent 2.1.10 Pytz 2022.7.1
bcrypt 3.2.2 libexpat 2.5.0 Věrná 0.1.5
krásnésoup4 4.11.2 libffi 3.4.2 pywin32-on-windows 0.1.0
Bělidla 6.0.0 Libuše 1.4.2 pyyaml 6.0
blikací tlačítko 1.6.1 libgcc-ng 12.2.0 Pyzmq 25.0.2
Brotli 1.0.9 libgcrypt 1.10.1 qt-main 5.15.8
brotli-bin 1.0.9 knihovna libgd 2.3.3 re2 2023.02.01
brotli-python 1.0.9 libgfortran-ng 12.2.0 Readline 8.2
brotlipy 0.7.0 libgfortran5 12.2.0 Regex 2022.10.31
bzip2 1.0.8 Libušt 2.74.1 Požadavky 2.28.2
c-ares 1.18.1 libgoogle-cloud 2.7.0 requests-oauthlib 1.3.1
certifikáty ca 2022.12.7 libgpg-error 1.46 rfc3339–validátor 0.1.4
cached_property 1.5.2 libgrpc 1.51.1 rfc3986-validator 0.1.1
vlastnost cached 1.5.2 libhwloc 2.9.0 rsa 4,9
cachetools 5.3.0 Libiconv 1.17 ruamel_yaml 0.15.80
Káhira 1.16.0 liblapack 3.9.0 ruamel.yaml 0.17.21
Certifi 2022.12.7 libllvm11 11.1.0 ruamel.yaml.clib 0.2.7
cffi 1.15.1 libllvm15 15.0.7 s2n 1.3.37
charset-normalizer 2.1.1 libnghttp2 1.52.0 Salib 1.4.7
Klepněte 8.1.3 libnsl 2.0.0 scikit-learn 1.2.0
cloudpickle 2.2.1 libogg 1.3.4 scipy 1.10.1
colorama 0.4.6 libopenblas 0.3.21 seaborn 0.12.2
Komunikace 0.1.3 Libopus 1.3.1 mořská základna 0.12.2
conda-package-handling 2.0.2 Libpng 1.6.39 secretstorage 3.3.3
conda-package-streaming 0.7.0 libpq 15.2 send2trash 1.8.0
configparser 5.3.0 libprotobuf 3.21.12 instalační nástroje 67.6.1
kontextoválib2 21.6.0 librsvg 2.54.4 Shap 0.41.0
contourpy 1.0.7 libsndfile 1.2.0 Sip 6.7.7
Kryptografie 40.0.1 libsodium 1.0.18 Šest 1.16.0
Cyklovač 0.11.0 libsqlite 3.40.0 sleef 3.5.1
Pomlčka 2.9.2 libssh2 1.10.0 slicer 0.0.7
dash_cytoscape 0.2.0 libstdcxx-ng 12.2.0 smmap 3.0.5
dash-core-components 2.0.0 libsystemd0 253 Elegantní 1.1.10
dash-html-components 2.0.0 libthrift 0.18.0 sniffio 1.3.0
tabulka s pomlčkou 5.0.0 Libtiff 4.5.0 polévka 2.3.2.post1
databricks-cli 0.17.6 libtool 2.4.7 sqlalchemy 2.0.9
Dbus 1.13.6 libudev1 253 sqlparse 0.4.3
debugpy 1.6.7 libutf8proc 2.8.0 stack_data 0.6.2
Dekoratér 5.1.1 Libuuid 2.38.1 statsmodels 0.13.5
defusedxml 0.7.1 Libuv 1.44.2 synapseml-mlflow 1.0.14
Kopr 0.3.6 libvorbis 1.3.7 synapseml-utils 1.0.7
distlib 0.3.6 libwebp 1.2.4 tabulkový 0.9.0
docker-py 6.0.0 libwebp-base 1.2.4 Tbb 2021.8.0
vstupní body 0.4 libxcb 1.13 Houževnatost 8.2.2
et_xmlfile 1.1.0 libxgboost 1.7.1 tenzorová deska 2.11.2
Provádění 1.2.0 libxkbcommon 1.5.0 tensorboard-data-server 0.6.1
Expat 2.5.0 libxml2 2.10.3 tensorboard-plugin-wit 1.8.1
fftw 3.3.10 libxslt 1.1.37 tensorflow 2.11.0
zámek souboru 3.11.0 libzlib 1.2.13 tensorflow-base 2.11.0
Baňky 2.2.3 lightgbm 3.3.3 tensorflow-estimator 2.11.0
flask-compress 1.13 lime 0.2.0.1 termcolor 2.2.0
flatbuffers 22.12.06 llvm-openmp 16.0.1 terminado 0.17.1
flit-core 3.8.0 llvmlite 0.39.1 threadpoolctl 3.1.0
fluent-logger 0.10.0 lxml 4.9.2 tinycss2 1.2.1
font-ttf-dejavu-sans-mono 2.37 lz4-c 1.9.4 Tk 8.6.12
font-ttf-inconsolata 3.000 markdown 3.4.1 toml 0.10.2
font-ttf-source-code-pro 2.038 markupsafe 2.1.2 Toolz 0.12.0
font-ttf-ubuntu 0,83 matplotlib 3.6.3 Tornádo 6,2
fontconfig 2.14.2 matplotlib-base 3.6.3 tqdm 4.65.0
fonts-conda-ecosystem 1 matplotlib-inline 0.1.6 vlastnosti 5.9.0
fonts-conda-forge 1 chybné naladění 2.0.5 treeinterpreter 0.2.2
fonttools 4.39.3 mkl 2022.2.1 typed-ast 1.4.3
Freetype 2.12.1 mlflow-skinny 2.1.1 typing_extensions 4.5.0
Fribidi 1.0.10 Mpg123 1.31.3 typing-extensions 4.5.0
frozenlist 1.3.3 msal 1.21.0 tzdata 2023c
fsspec 2023.4.0 msal_extensions 1.0.0 unicodedata2 15.0.0
Gast 0.4.0 msgpack 1.0.5 unixodbc 2.3.10
gdk-pixbuf 2.42.10 msrest 0.7.1 urllib3 1.26.14
geographiclib 1,52 msrestazure 0.6.4 virtualenv 20.19.0
geopy 2.3.0 multidict 6.0.4 wcwidth 0.2.6
Gettext 0.21.1 multiprocess 0.70.14 webencodings 0.5.1
gevent 22.10.2 munkres 1.1.4 websocket-client 1.5.1
gflags 2.2.2 mypy 0.780 werkzeug 2.2.3
giflib 5.2.1 mypy-extensions 0.4.4 Kolo 0.40.0
gitdb 4.0.10 mysql-common 8.0.32 widgetsnbextension 4.0.7
gitpython 3.1.31 mysql-libs 8.0.32 wrapt 1.15.0
Glib 2.74.1 nbclient 0.7.3 xcb-util 0.4.0
glib-tools 2.74.1 nbconvert-core 7.3.0 xcb-util-image 0.4.0
glog 0.6.0 nbformat 5.8.0 xcb-util-keysyms 0.4.0
google-auth 2.17.2 Ncurses 6.3 xcb-util-renderutil 0.3.9
google-auth-oauthlib 0.4.6 ndg-httpsclient 0.5.1 xcb-util-wm 0.4.1
google-pasta 0.2.0 nest-asyncio 1.5.6 xgboost 1.7.1
grafit2 1.3.13 nspr 4.35 xkeyboard-config 2.38
graphviz 2.50.0 Nss 3.89 xorg-kbproto 1.0.7
zelená 2.0.2 Numba 0.56.4 xorg-libice 1.0.10
grpcio 1.51.1 numpy 1.23.5 xorg-libsm 1.2.3
gson 0.0.3 oauthlib 3.2.2 xorg-libx11 1.8.4
gst-plugins-base 1.22.0 openjpeg 2.5.0 xorg-libxau 1.0.9
Gstreamer 1.22.0 openpyxl 3.1.0 xorg-libxdmcp 1.1.3
gstreamer-orc 0.4.33 openssl 3.1.0 xorg-libxext 1.3.4
gtk2 2.24.33 opt_einsum 3.3.0 xorg-libxrender 0.9.10
Gts 0.7.6 Orc 1.8.2 xorg-renderproto 0.11.1
h5py 3.8.0 Obalu 21.3 xorg-xextproto 7.3.0
Harfbuzz 6.0.0 pandas 1.5.3 xorg-xproto 7.0.31
hdf5 1.14.0 pandasql 0.7.3 Xz 5.2.6
html5lib 1.1 filtry pandoc 1.5.0 yaml 0.2.5
humanfriendly 10.0 Pango 1.50.14 Jarmila 1.8.2
Jip 70.1 paramiko 2.12.0 zeromq 4.3.4
idna 3.4 parquet-cpp 1.5.1 zipp 3.15.0
imageio 2.25.0 parso 0.8.3 Zlib 1.2.13
importlib_metadata 5.2.0 Patosu 0.3.0 zope.event 4,6
importlib_resources 5.12.0 pathspec 0.11.1 zope.interface 6.0
importlib-metadata 5.2.0 Patsy 0.5.3 zstandard 0.19.0
Interpretace 0.3.1 pcre2 10.40 zstd 1.5.2
interpret-core 0.3.1 pexpect 4.8.0

Balíčky výchozí úrovně pro knihovny jazyka R

Níže najdete tabulku se seznamem všech výchozích balíčků úrovně pro R a jejich příslušných verzí.

Knihovny Verze Knihovny Verze Knihovny Verze
askpass 1.1 highcharter 0.9.4 readr 2.1.3
assertthat 0.2.1 highr 0,9 readxl 1.4.1
backports 1.4.1 hms 1.1.2 recipes 1.0.3
base64enc 0.1-3 htmltools 0.5.3 rematch 1.0.1
bit 4.0.5 htmlwidgets 1.5.4 rematch2 2.1.2
bit64 4.0.5 httpcode 0.3.0 vzdálená zařízení 2.4.2
blob 1.2.3 httpuv 1.6.6 reprex 2.0.2
brew 1.0-8 httr 1.4.4 reshape2 1.4.4
Brio 1.1.3 Id 1.0.1 rjson 0.2.21
broom 1.0.1 igraph 1.3.5 rlang 1.0.6
bslib 0.4.1 Odvodit 1.0.3 rlist 0.4.6.2
cachem 1.0.6 Ini 0.3.1 rmarkdown 2.18
callr 3.7.3 ipred 0.9-13 RODBC 1.3-19
stříška 6.0-93 isoband 0.2.6 roxygen2 7.2.2
cellranger 1.1.0 iterators 1.0.14 rprojroot 2.0.3
cli 3.4.1 jquerylib 0.1.4 rsample 1.1.0
klipr 0.8.0 jsonlite 1.8.3 rstudioapi 0.14
clock 0.6.1 knitr 1.41 rversions 2.1.2
colorspace 2.0-3 labeling 0.4.2 rvest 1.0.3
commonmark 1.8.1 Později 1.3.0 Sass 0.4.4
config 0.3.1 lava 1.7.0 scales 1.2.1
Rozporu 1.1.0 lazyeval 0.2.2 selectr 0.4-2
Coro 1.0.3 Lhs 1.1.5 sessioninfo 1.2.2
cpp11 0.4.3 Životního cyklu 1.0.3 shiny 1.7.3
crayon 1.5.2 lightgbm 3.3.3 Jezdec 0.3.0
Přihlašovací údaje 1.3.2 listenv 0.8.0 sourcetools 0.1.7
crosstalk 1.2.0 lobstr 1.1.2 sparklyr 1.7.8
crul 1.3 lubridate 1.9.0 SQUAREM 2021.1
curl 4.3.3 magrittr 2.0.3 stringi 1.7.8
data.table 1.14.6 maps 3.4.1 stringr 1.4.1
DBI 1.1.3 memoise 2.0.1 sys 3.4.1
dbplyr 2.2.1 mime 0.12 systemfonts 1.0.4
desc 1.4.2 miniUI 0.1.1.1 testthat 3.1.5
devtools 2.4.5 modeldata 1.0.1 textshaping 0.3.6
Číselníky 1.1.0 modelenv 0.1.0 tibble 3.1.8
DiceDesign 1.9 ModelMetrics 1.2.2.2 uklizený model 1.0.0
diffobj 0.3.5 modelr 0.1.10 tidyr 1.2.1
digest 0.6.30 munsell 0.5.0 tidyselect 1.2.0
downlit 0.4.2 numDeriv 2016.8-1.1 tidyverse 1.3.2
dplyr 1.0.10 openssl 2.0.4 timechange 0.1.1
dtplyr 1.2.2 paralelně 1.32.1 timeDate 4021.106
e1071 1.7-12 parsnip 1.0.3 tinytex 0.42
ellipsis 0.3.2 Patchwork 1.1.2 Pochodeň 0.9.0
evaluate 0.18 pillar 1.8.1 triebeard 0.3.0
fansi 1.0.3 pkgbuild 1.4.0 TTR 0.24.3
farver 2.1.1 pkgconfig 2.0.3 Melodii 1.0.1
fastmap 1.1.0 pkgdown 2.0.6 tzdb 0.3.0
fontawesome 0.4.0 pkgload 1.3.2 urlchecker 1.0.1
forcats 0.5.2 plotly 4.10.1 nástroje url 1.7.3
foreach 1.5.2 plyr 1.8.8 usethis 2.1.6
Forge 0.2.0 praise 1.0.0 utf8 1.2.2
Fs 1.5.2 prettyunits 1.1.1 uuid 1.1-0
furrr 0.3.1 pROC 1.18.0 vctrs 0.5.1
Budoucnosti 1.29.0 processx 3.8.0 viridisLite 0.4.1
future.apply 1.10.0 prodlim 2019.11.13 vroom 1.6.0
Kloktadlo 1.2.1 Profvis 0.3.7 Waldo 0.4.0
Generik 0.1.3 progress 1.2.2 Warp 0.2.0
Gert 1.9.1 progressr 0.11.0 whisker 0.4
ggplot2 3.4.0 Sliby 1.2.0.1 withr 2.5.0
Gh 1.3.1 proxy 0.4-27 Pracovní postupy 1.1.2
gistr 0.9.0 pryr 0.1.5 sady pracovních postupů 1.0.0
gitcreds 0.1.2 Ps 1.7.2 xfun 0.35
Globals 0.16.2 purrr 0.3.5 xgboost 1.6.0.1
glue 1.6.2 quantmod 0.4.20 XML 3.99-0.12
googledrive 2.0.0 r2d3 0.2.6 xml2 1.3.3
googlesheets4 1.0.1 R6 2.5.1 xopen 1.0.0
gower 1.0.0 ragg 1.2.4 xtable 1.8-4
GPfit 1.0-8 rappdirs 0.3.3 xts 0.12.2
gtable 0.3.1 rbokeh 0.5.2 yaml 2.3.6
hardhat 1.2.0 rcmdcheck 1.4.0 Měřítkem 1.1.0
haven 2.5.1 RColorBrewer 1.1-3 Zip 2.2.2
hexbin 1.28.2 Rcpp 1.0.9 zoo 1.8-11

Migrace mezi různými verzemi Apache Sparku

Migrace úloh do prostředí Fabric Runtime 1.1 (Apache Spark 3.3) ze starší verze Apache Sparku zahrnuje řadu kroků, které zajistí plynulou migraci. Tato příručka popisuje nezbytné kroky, které vám pomůžou s migrací efektivně a efektivně.

  1. Projděte si poznámky k verzi Fabric Runtime 1.1, včetně kontroly komponent a balíčků na výchozí úrovni zahrnutých do modulu runtime, abyste pochopili nové funkce a vylepšení.

  2. Zkontrolujte kompatibilitu aktuálního nastavení a všech souvisejících knihoven, včetně závislostí a integrací. Projděte si průvodce migrací a identifikujte potenciální změny způsobující chybu:

  3. Přesuňte úlohy do prostředků infrastruktury a ujistěte se, že máte zálohy dat a konfiguračních souborů pro případ, že byste se potřebovali vrátit k předchozí verzi.

  4. Aktualizujte všechny závislosti, které můžou být ovlivněné novou verzí Apache Sparku nebo jinými komponentami souvisejícími s modulem Fabric Runtime 1.1. To může zahrnovat knihovny nebo konektory třetích stran. Před nasazením do produkčního prostředí nezapomeňte otestovat aktualizované závislosti v pracovním prostředí.

  5. Aktualizujte konfiguraci Apache Sparku pro vaši úlohu. To může zahrnovat aktualizaci nastavení konfigurace, úpravu přidělení paměti a úpravu všech zastaralých konfigurací.

  6. Upravte své aplikace Apache Spark (poznámkové bloky a definice úloh Apache Sparku) tak, aby používaly nová rozhraní API a funkce zavedené v modulu Runtime Fabric 1.1 a Apache Sparku 3.3. To může zahrnovat aktualizaci kódu tak, aby vyhovoval všem zastaralým nebo odebraných rozhraním API, a refaktoring aplikací tak, aby využíval vylepšení výkonu a nové funkce.

  7. Důkladně otestujte aktualizované aplikace v přípravném prostředí, abyste zajistili kompatibilitu a stabilitu s Apache Sparkem 3.3. Proveďte testování výkonu, funkční testování a regresní testování, abyste identifikovali a vyřešili všechny problémy, které mohou během procesu migrace nastat.

  8. Po ověření aplikací v přípravném prostředí nasaďte aktualizované aplikace do produkčního prostředí. Monitorujte výkon a stabilitu aplikací po migraci a identifikujte případné problémy, které je potřeba vyřešit.

  9. Aktualizujte interní dokumentaci a školicí materiály tak, aby odrážely změny zavedené v modulu Fabric Runtime 1.1. Ujistěte se, že členové vašeho týmu jsou obeznámeni s novými funkcemi a vylepšeními, aby se maximalizovaly výhody migrace.