Środowisko uruchomieniowe platformy Apache Spark w sieci szkieletowej

Środowisko Uruchomieniowe usługi Microsoft Fabric to zintegrowana z platformą Azure platforma oparta na platformie Apache Spark, która umożliwia wykonywanie i zarządzanie środowiskami inżynierii danych i nauki o danych. Łączy ona kluczowe składniki zarówno ze źródeł wewnętrznych, jak i open source, zapewniając klientom kompleksowe rozwiązanie. Dla uproszczenia odnosimy się do środowiska uruchomieniowego usługi Microsoft Fabric obsługiwanego przez platformę Apache Spark jako środowisko uruchomieniowe usługi Fabric.

Ważne

Usługa Microsoft Fabric jest dostępna w wersji zapoznawczej.

Główne składniki środowiska uruchomieniowego sieci szkieletowej:

  • Apache Spark — zaawansowana biblioteka przetwarzania rozproszonego typu open source umożliwiająca przetwarzanie i analizowanie danych na dużą skalę. Platforma Apache Spark oferuje wszechstronną i wysokowydajną platformę do inżynierii danych i środowiska nauki o danych.

  • Delta Lake — warstwa magazynu typu open source, która zapewnia transakcje ACID i inne funkcje niezawodności danych na platformie Apache Spark. Zintegrowane w środowisku uruchomieniowym usługi Microsoft Fabric usługa Delta Lake zwiększa możliwości przetwarzania danych i zapewnia spójność danych w wielu równoczesnych operacjach.

  • Pakiety na poziomie domyślnym dla języków Java/Scala, Python i R do obsługi różnych języków programowania i środowisk. Te pakiety są instalowane i konfigurowane automatycznie, umożliwiając deweloperom stosowanie preferowanych języków programowania na potrzeby zadań przetwarzania danych.

  • Środowisko uruchomieniowe usługi Microsoft Fabric jest oparte na niezawodnym systemie operacyjnym typu open source (Ubuntu) zapewniającym zgodność z różnymi konfiguracjami sprzętowymi i wymaganiami systemowymi.

Środowisko uruchomieniowe 1.1

Środowisko Uruchomieniowe usługi Microsoft Fabric 1.1 jest domyślne i obecnie jedynym środowiskiem uruchomieniowym oferowanym na platformie Microsoft Fabric. Główne składniki środowiska uruchomieniowego 1.1 to:

  • System operacyjny: Ubuntu 18.04
  • Java: 1.8.0_282
  • Scala: 2.12.15
  • Python: 3.10
  • Delta Lake: 2.2
  • R: 4.2.2

Zrzut ekranu przedstawiający miejsce wybierania wersji środowiska uruchomieniowego.

Środowisko Microsoft Fabric Runtime 1.1 zawiera kolekcję pakietów na poziomie domyślnym, w tym pełną instalację rozwiązania Anaconda i powszechnie używane biblioteki dla języków Java/Scala, Python i R. Te biblioteki są automatycznie uwzględniane podczas korzystania z notesów lub zadań na platformie Microsoft Fabric. Zapoznaj się z dokumentacją, aby uzyskać pełną listę bibliotek.

Usługa Microsoft Fabric okresowo wdraża aktualizacje konserwacji środowiska Runtime 1.1, zapewniając poprawki błędów, ulepszenia wydajności i poprawki zabezpieczeń. Aktualność zapewnia optymalną wydajność i niezawodność zadań przetwarzania danych.

Nowe funkcje i ulepszenia

Apache Spark 3.3.1

Poniżej przedstawiono rozszerzone podsumowanie najważniejszych nowych funkcji związanych z platformą Apache Spark w wersji 3.3.0 i 3.3.1:

  • Filtrowanie na poziomie wiersza: poprawia wydajność sprzężeń przez wstępne filtrowanie po jednej stronie, o ile nie ma wpływu na wycofanie lub regresję przy użyciu filtru Bloom i predykatu IN wygenerowanego na podstawie wartości z drugiej strony sprzężenia. (SPARK-32268)

  • Zwiększ zgodność platformy Spark z ulepszeniami standardu SQL:ANSI. (SPARK-38860)

  • Ulepszenia komunikatów o błędach umożliwiające szybsze identyfikowanie problemów i wykonywanie niezbędnych kroków w celu ich rozwiązania. (SPARK-38781)

  • Obsługa typów złożonych dla czytnika wektoryzowanego Parquet. Wcześniej czytnik wektoryzowany Parquet nie obsługiwał zagnieżdżonych typów kolumn, takich jak struktura, tablica i mapa. Platforma Apache Spark 3.3 zawiera implementację zagnieżdżonego czytnika kolumn dla fb-ORC w naszym wewnętrznym rozwidleniu platformy Spark. Ma to wpływ na ulepszenia wydajności w porównaniu z czytnikiem niewektoralizowanym podczas odczytywania zagnieżdżonych kolumn. Ponadto ta implementacja może pomóc poprawić wydajność kolumn niegnieżdżonych podczas odczytywania niegnieżdżonych i zagnieżdżonych kolumn w jednym zapytaniu. (SPARK-34863)

  • Umożliwia użytkownikom wykonywanie zapytań dotyczących metadanych plików wejściowych dla wszystkich formatów plików, uwidacznia je jako wbudowane ukryte kolumny, co oznacza, że użytkownicy mogą je zobaczyć tylko wtedy, gdy jawnie się do nich odwołujeją. (na przykład ścieżka pliku i nazwa pliku). (SPARK-37273)

  • Podaj profiler dla funkcji UDF języka Python/Pandas. (SPARK-37443)

  • Wcześniej uruchamialiśmy zapytania przesyłane strumieniowo z wyzwalaczem, które ładuje wszystkie dostępne dane w jednej partii. W związku z tym ilość danych, które zapytania mogły przetworzyć, była ograniczona lub sterownik Spark nie był w pamięci. Teraz używamy elementu Trigger.AvailableNow do uruchamiania zapytań przesyłania strumieniowego, takich jak Wyzwalacz raz w wielu partiach. (SPARK-36533)

  • Bardziej kompleksowe możliwości wypychania ds w wersji 2. (SPARK-38788)

  • Funkcja wykonawcza tocząca się w środowisku Kubernetes . (SPARK-37810)

  • Obsługa dostosowanych harmonogramów Kubernetes. ( SPARK-36057)

  • Migrowanie z log4j 1 do log4j 2 (SPARK-37814) w celu uzyskania korzyści:

    • Wydajność: Log4j 2 jest szybszy niż Log4j 1. Usługa Log4j 2 domyślnie używa rejestrowania asynchronicznego, co może znacznie zwiększyć wydajność.

    • Elastyczność: Usługa Log4j 2 zapewnia większą elastyczność w zakresie konfiguracji. Obsługuje wiele formatów konfiguracji, w tym XML, JSON i YAML.

    • Rozszerzalność: Program Log4j 2 został zaprojektowany tak, aby był rozszerzalny. Umożliwia deweloperom tworzenie niestandardowych wtyczek i dołączaczy w celu rozszerzenia funkcjonalności platformy rejestrowania.

    • Zabezpieczenia: Log4j 2 zapewnia lepsze funkcje zabezpieczeń niż Log4j 1. Obsługuje ona szyfrowanie i bezpieczne warstwy gniazd na potrzeby bezpiecznej komunikacji między aplikacjami.

    • Prostota: Log4j 2 jest prostszy do użycia niż Log4j 1. Ma bardziej intuicyjny interfejs API i prostszy proces konfiguracji.

  • Wprowadzenie mieszania na pojedynczym składnikuPartition w celu poprawy równoległości i naprawy regresji wydajności dla sprzężeń na platformie Spark 3.3 w porównaniu z platformą Spark 3.2. (SPARK-40703)

  • Zoptymalizuj regułę transponowania systemu Windows , aby rozszerzyć odpowiednie przypadki i zoptymalizować złożoność czasu. (SPARK-38034)

  • Aby mieć parzystość w korzystaniu z opcji TimeTravel za pośrednictwem języka SQL i ramki danych, obsługa znacznika czasu w sekundach dla elementu TimeTravel przy użyciu opcji ramek danych. (SPARK-39633])

  • Zoptymalizuj globalne sortowanie w celu ponownego partycjonowaniaByExpression , aby zapisać sortowanie lokalne. (SPARK-39911)

  • Upewnij się, że partycjonowaniewyjściowe jest określone przez użytkownika w usłudze AQE. (SPARK-39915)

  • Zaktualizuj pole kolumnowe Parquet V2 dla zagnieżdżonych pól. (SPARK-39951)

  • Odczytywanie w pliku parquet partycjonowane na dysku według kolumny typu "Bajt". (SPARK-40212)

  • Napraw oczyszczanie kolumn w pliku CSV po wybraniu _corrupt_record. (SPARK-40468)

Usługa Delta Lake 2.2

Najważniejsze funkcje w tej wersji są następujące:

  • LIMIT wypychanie do skanowania delty. Zwiększ wydajność zapytań zawierających klauzule, wypychając LIMIT skanowanie różnicowe LIMIT podczas planowania zapytań. Skanowanie różnicowe używa LIMIT liczby wierszy i na poziomie pliku, aby zmniejszyć liczbę skanowanych plików, co ułatwia zapytaniom odczytywanie znacznie mniejszej liczby plików i może przyspieszyć LIMIT zapytania o 10–100x w zależności od rozmiaru tabeli.

  • Agregowanie wypychania do skanowania różnicowego dla funkcji SELECT COUNT(*). Zapytania agregacji, takie jak SELECT COUNT(*) w tabelach delty, są spełnione przy użyciu liczb wierszy na poziomie pliku w metadanych tabeli delty, a nie zliczania wierszy w źródłowych plikach danych. Znacznie skraca to czas zapytania, ponieważ zapytanie musi tylko odczytywać metadane tabeli i może przyspieszyć wykonywanie zapytań z liczbą pełnych tabel o 10–100 x.

  • Obsługa zbierania statystyk na poziomie pliku w ramach polecenia CONVERT TO DELTA. Te statystyki mogą pomóc przyspieszyć zapytania w tabeli delty. Domyślnie statystyki są zbierane teraz w ramach polecenia KONWERTUJ NA RÓŻNICę. Aby wyłączyć zbieranie statystyk, określ NO STATISTICS klauzulę w poleceniu . Przykład: CONVERT TO DELTA table_name NO STATISTICS.

  • Zwiększ wydajność polecenia DELETE , przycinając kolumny do odczytu podczas wyszukiwania plików do ponownego zapisywania.

  • Poprawka dotycząca błędu w konfiguracji trybu wieloklasowego S3 opartego na bazie bazy danych DynamoDB. Poprzednia wersja napisała niepoprawną sygnaturę czasową, która została użyta przez funkcję czasu wygaśnięcia bazy danych DynamoDB w celu oczyszczenia wygasłych elementów. Ta wartość znacznika czasu została naprawiona i zmieniono nazwę atrybutu tabeli z commitTime na expireTime. Jeśli masz już włączony czas wygaśnięcia, wykonaj kroki migracji tutaj.

  • Naprawnieokreślone zachowanie podczas scalania podczas pracy ze źródłami, które nie są określone.

  • Usuń ograniczenia dotyczące używania tabel delty z mapowaniem kolumn w niektórych przypadkach przesyłania strumieniowego i cdF. Wcześniej użyliśmy funkcji blokowania przesyłania strumieniowego+CDF, jeśli tabela delty ma włączone mapowanie kolumn, mimo że nie zawiera żadnych kolumn RENAME ani DROP.

  • Zwiększ monitorowanie zapytań budowy stanu delty (inne zapytania są uruchamiane w ramach planowania), dzięki czemu są widoczne w interfejsie użytkownika platformy Spark.

  • Obsługa wielu where() wywołań w interfejsie API optimize scala/python.

  • Obsługa przekazywania konfiguracji usługi Hadoop za pośrednictwem interfejsu API funkcji DeltaTable.

  • Obsługa nazw kolumn partycji rozpoczynających się od . lub _ w poleceniu CONVERT TO DELTA.

  • Ulepszenia metryk w historii tabel

    • Napraw metrykę w poleceniu MERGE.

    • Metryka typu źródła dla funkcji KONWERTUJ NA RÓŻNICĘ.

    • Metryki dotyczące usuwania na partycjach.

    • Więcej statystyk próżniowych.

  • Poprawka dotycząca przypadkowego obniżenia poziomu protokołu za pomocą polecenia RESTORE . Do tej pory TABELA RESTORE MOŻE obniżyć wersję protokołu tabeli, co mogło spowodować niespójne odczyty z podróży czasowej. Dzięki tej poprawki wersja protokołu nigdy nie zostanie obniżona z bieżącej wersji.

  • Naprawiono usterkę w MERGE INTO sytuacji, gdy istnieje wiele UPDATE klauzul, a jeden z upDATEs ma ewolucję schematu.

  • Usunięto usterkę polegającą na tym, że czasami aktywny SparkSession obiekt nie został znaleziony podczas korzystania z interfejsów API delty

  • Rozwiązano problem polegający na tym, że nie można było ustawić schematu partycji podczas początkowego zatwierdzenia.

  • Przechwytywanie wyjątków podczas zapisywania last_checkpoint pliku kończy się niepowodzeniem.

  • Rozwiązano problem podczas ponownego uruchamiania zapytania przesyłania strumieniowego z AvailableNow wyzwalaczem w tabeli delty.

  • Rozwiązano problem z funkcją CDF i przesyłaniem strumieniowym, w którym przesunięcie nie zostało poprawnie zaktualizowane, gdy nie ma żadnych zmian danych

Zapoznaj się ze źródłem i pełnymi informacjami o wersji tutaj.

Domyślne pakiety poziomów dla bibliotek Java/Scala

W poniższej tabeli wymieniono wszystkie pakiety na poziomie domyślnym dla języka Java/Scala i ich odpowiednich wersji.

Groupid ArtifactId Wersja
com.aliyun aliyun-java-sdk-core 4.5.10
com.aliyun aliyun-java-sdk-kms 2.11.0
com.aliyun aliyun-java-sdk-ram 3.1.0
com.aliyun aliyun-sdk-oss 3.13.0
com.amazonaws aws-java-sdk-bundle 1.11.1026
com.chuusai shapeless_2.12 2.3.7
com.esotericsoftware kryo-shaded 4.0.2
com.esotericsoftware minlog 1.3.0
com.fasterxml.jackson jackson-annotations-2.13.4.jar
com.fasterxml.jackson jackson-core 2.13.4
com.fasterxml.jackson jackson-core-asl 1.9.13
com.fasterxml.jackson jackson-databind 2.13.4.1
com.fasterxml.jackson jackson-dataformat-cbor 2.13.4
com.fasterxml.jackson jackson-mapper-asl 1.9.13
com.fasterxml.jackson jackson-module-scala_2.12 2.13.4
com.github.joshelser dropwizard-metrics-hadoop-metrics2-reporter 0.1.2
com.github.wendykierp JTransforms 3,1
com.google.code.findbugs jsr305 3.0.0
com.google.code.gson gson 2.8.6
com.google.flatbuffers flatbuffers-java 1.12.0
com.google.guava Guawa 14.0.1
com.google.protobuf protobuf-java 2.5.0
com.googlecode.json-simple Plik json — prosty 1.1.1
com.jcraft jsch 0.1.54
com.jolbox bonecp 0.8.0.RELEASE
com.linkedin.isolation-forest isolation-forest_3.2.0_2.12 2.0.8
com.ning compress-lzf 1,1
com.qcloud pakiet cos_api 5.6.19
com.sun.istack środowisko uruchomieniowe istack-commons 3.0.8
com.tdunning json 1.8
com.thoughtworks.paranamer paranamer 2,8
com.twitter chill-java 0.10.0
com.twitter chill_2.12 0.10.0
com.typesafe config 1.3.4
com.zaxxer HikariCP 2.5.1
commons-cli commons-cli 1.5.0
commons-codec commons-codec 1.15
commons-collections commons-collections 3.2.2
commons-dbcp commons-dbcp 1.4
commons-io commons-io 2.11.0
commons-lang commons-lang 2,6
commons-logging commons-logging 1.1.3
commons-pool commons-pool 1.5.4.jar
dev.ludovic.netlib arpack 2.2.1
dev.ludovic.netlib Blas 2.2.1
dev.ludovic.netlib lapack 2.2.1
io.airlift aircompressor 0.21
io.dropwizard.metrics metrics-core 4.2.7
io.dropwizard.metrics metrics-graphite 4.2.7
io.dropwizard.metrics metrics-jmx 4.2.7
io.dropwizard.metrics metrics-json 4.2.7
io.dropwizard.metrics metrics-jvm 4.2.7
io.netty netty-all 4.1.74.Final
io.netty netty-buffer 4.1.74.Final
io.netty netty-codec 4.1.74.Final
io.netty netty-common 4.1.74.Final
io.netty netty-handler 4.1.74.Final
io.netty netty-resolver 4.1.74.Final
io.netty netty-tcnative-classes 2.0.48.Final
io.netty netty-transport 4.1.74.Final
io.netty netty-transport-classes-epoll 4.1.74.Final
io.netty netty-transport-classes-kqueue 4.1.74.Final
io.netty netty-transport-native-epoll 4.1.74.Final-linux-aarch_64
io.netty netty-transport-native-epoll 4.1.74.Final-linux-x86_64
io.netty netty-transport-native-kqueue 4.1.74.Final-osx-aarch_64
io.netty netty-transport-native-kqueue 4.1.74.Final-osx-x86_64
io.netty netty-transport-native-unix-common 4.1.74.Final
io.opentracing opentracing-api 0.33.0
io.opentracing opentracing-noop 0.33.0
io.opentracing opentracing-util 0.33.0
jakarta.adnotacja jakarta.annotation-api 1.3.5
jakarta.inject jakarta.inject 2.6.1
jakarta.servlet jakarta.servlet-api 4.0.3
jakarta.validation-api 2.0.2
jakarta.ws.rs jakarta.ws.rs-api 2.1.6
jakarta.xml.bind jakarta.xml.bind-api 2.3.2
javax.activation Aktywacji 1.1.1
javax.jdo jdo-api 3.0.1
javax.transaction jta 1,1
javax.xml.bind jaxb-api 2.2.11
javolution javolution 5.5.1
jline jline 2.14.6
joda-time joda-time 2.10.13
net.razorvine Pickle 1,2
net.sf.jpam jpam 1,1
net.sf.opencsv opencsv 2.3
net.sf.py4j py4j 0.10.9.5
net.sourceforge.f2j arpack_combined_all 0.1
org.antlr ST4 4.0.4
org.antlr antlr-runtime 3.5.2
org.antlr środowisko uruchomieniowe antlr4 4.8
org.apache.arrow format strzałki 7.0.0
org.apache.arrow strzałka-pamięć-rdzeń 7.0.0
org.apache.arrow arrow-memory-netty 7.0.0
org.apache.arrow strzałka-wektor 7.0.0
org.apache.avro Avro 1.11.0
org.apache.avro avro-ipc 1.11.0
org.apache.avro avro-mapred 1.11.0
org.apache.commons commons-collections4 4.4
org.apache.commons commons-compress 1.21
org.apache.commons commons-crypto 1.1.0
org.apache.commons commons-lang3 3.12.0
org.apache.commons commons-math3 3.6.1
org.apache.commons commons-pool2 2.11.1
org.apache.commons commons-text 1.10.0
org.apache.kurator kurator-klient 2.13.0
org.apache.kurator struktura kuratora 2.13.0
org.apache.kurator przepisy kuratora 2.13.0
org.apache.derby Derby 10.14.2.0
org.apache.hadoop hadoop-aliyun 3.3.3.5.2-90111858
org.apache.hadoop adnotacje hadoop 3.3.3.5.2-90111858
org.apache.hadoop hadoop-aws 3.3.3.5.2-90111858
org.apache.hadoop hadoop-azure 3.3.3.5.2-90111858
org.apache.hadoop hadoop-azure-datalake 3.3.3.5.2-90111858
org.apache.hadoop hadoop-client-api 3.3.3.5.2-90111858
org.apache.hadoop hadoop-client-runtime 3.3.3.5.2-90111858
org.apache.hadoop hadoop-cloud-storage 3.3.3.5.2-90111858
org.apache.hadoop hadoop-cos 3.3.3.5.2-90111858
org.apache.hadoop hadoop-openstack 3.3.3.5.2-90111858
org.apache.hadoop hadoop-shaded-guava 1.1.1
org.apache.hadoop hadoop-yarn-server-web-proxy 3.3.3.5.2-90111858
org.apache.hive hive-beeline 2.3.9
org.apache.hive hive-cli 2.3.9
org.apache.hive hive-common 2.3.9
org.apache.hive hive-exec 2.3.9
org.apache.hive hive-jdbc 2.3.9
org.apache.hive hive-llap-common 2.3.9
org.apache.hive hive-metastore 2.3.9
org.apache.hive hive-serde 2.3.9
org.apache.hive hive-service-rpc 3.1.2
org.apache.hive hive-shims-0.23 2.3.9
org.apache.hive podkładki hive 2.3.9
org.apache.hive hive-shims-common 2.3.9
org.apache.hive hive-shims-scheduler 2.3.9
org.apache.hive hive-storage-api 2.7.2
org.apache.hive hive-vector-code-gen 2.3.9
org.apache.httpcomponents httpclient 4.5.13
org.apache.httpcomponents httpcore 4.4.14
org.apache.httpcomponents httpmime 4.5.13
org.apache.httpcomponents.client5 httpclient5 5.1.3
org.apache.ivy Bluszcz 2.5.1
org.apache.kafka kafka-clients 2.8.1
org.apache.logging.log4j log4j-1.2-api 2.17.2
org.apache.logging.log4j log4j-api 2.17.2
org.apache.logging.log4j log4j-core 2.17.2
org.apache.logging.log4j log4j-slf4j-impl 2.17.2
org.apache.orc orc-core 1.7.6
org.apache.orc orc-mapreduce 1.7.6
org.apache.orc podkładki orc-shims 1.7.6
org.apache.parquet parquet-column 1.12.3
org.apache.parquet parquet-common 1.12.3
org.apache.parquet kodowanie parquet 1.12.3
org.apache.parquet parquet-format-structures 1.12.3
org.apache.parquet parquet-hadoop 1.12.3
org.apache.parquet parquet-jackson 1.12.3
org.apache.qpid proton-j 0.33.8
org.apache.thrift libfb303 0.9.3
org.apache.thrift libthrift 0.12.0
org.apache.yetus adnotacje odbiorców 0.5.0
org.apiguardian apiguardian-api 1.1.0
org.codehaus.janino commons-compiler 3.0.16
org.codehaus.janino janino 3.0.16
org.codehaus.jettison jettison 1,1
org.datanucleus datanucleus-api-jdo 4.2.4
org.datanucleus datanucleus-core 4.1.17
org.datanucleus datanucleus-rdbms 4.1.19
org.datanucleusjavax.jdo 3.2.0-m3
org.eclipse.jdt Core 1.1.2
org.eclipse.jetty jetty-util 9.4.48.v20220622
org.eclipse.jetty jetty-util-ajax 9.4.48.v20220622
org.fusesource.leveldbjni leveldbjni-all 1.8
org.glassfish.hk2 hk2-api 2.6.1
org.glassfish.hk2 lokalizator hk2 2.6.1
org.glassfish.hk2 hk2-utils 2.6.1
org.glassfish.hk2 osgi-lokalizator zasobów 1.0.3
org.glassfish.hk2.external aopalliance-repackaged 2.6.1
org.glassfish.jaxb jaxb-runtime 2.3.2
org.glassfish.jersey.containers jersey-container-servlet 2.36
org.glassfish.jersey.containers jersey-container-servlet-core 2.36
org.glassfish.jersey.core jersey-klient 2.36
org.glassfish.jersey.core jersey-common 2.36
org.glassfish.jersey.core jersey-server 2.36
org.glassfish.jersey.inject jersey-hk2 2.36
org.ini4j ini4j 0.5.4
org.javassist javassist 3.25.0-GA
org.javatuples javatuples 1,2
org.jdom jdom2 2.0.6
org.jetbrains Adnotacje 17.0.0
org.jodd jodd-core 3.5.2
org.json4s json4s-ast_2.12 3.7.0-M11
org.json4s json4s-core_2.12 3.7.0-M11
org.json4s json4s-jackson_2.12 3.7.0-M11
org.json4s json4s-scalap_2.12 3.7.0-M11
org.junit.jupiter junit-jowisz 5.5.2
org.junit.jupiter junit-jupiter-api 5.5.2
org.junit.jupiter junit-jupiter-engine 5.5.2
org.junit.jupiter junit-jupiter-params 5.5.2
org.junit.platform junit-platform-commons 1.5.2
org.junit.platform junit-platform-engine 1.5.2
org.lz4 lz4-java 1.8.0
org.objenesis objenesis 3,2
org.openpnp Opencv 3.2.0-1
org.opentest4j opentest4j 1.2.0
org.postgresql Postgresql 42.2.9
org.roaringbitmap RoaringBitmap 0.9.25
org.roaringbitmap Podkładki 0.9.25
org.rocksdb rocksdbjni 6.20.3
org.scala-lang scala-compiler 2.12.15
org.scala-lang scala-library 2.12.15
org.scala-lang scala-odzwierciedlone 2.12.15
org.scala-lang.modules scala-collection-compat_2.12 2.1.1
org.scala-lang.modules scala-java8-compat_2.12 0.9.0
org.scala-lang.modules scala-parser-combinators_2.12 1.1.2
org.scala-lang.modules scala-xml_2.12 1.2.0
org.scalactic scalactic_2.12 3.2.14
org.scalanlp breeze-macros_2.12 1,2
org.scalanlp breeze_2.12 1,2
org.slf4j jcl-over-slf4j 1.7.32
org.slf4j jul-to-slf4j 1.7.32
org.slf4j slf4j-api 1.7.32
org.typelevel algebra_2.12 2.0.1
org.typelevel cats-kernel_2.12 2.1.1
org.typelevel spire-macros_2.12 0.17.0
org.typelevel spire-platform_2.12 0.17.0
org.typelevel spire-util_2.12 0.17.0
org.xerial.snappy snappy-java 1.1.8.4
Oro Oro 2.0.8
pl.edu.icm JLargeArrays 1,5

Domyślne pakiety poziomów dla bibliotek języka Python

W poniższej tabeli wymieniono wszystkie pakiety na poziomie domyślnym dla języka Python i ich odpowiednie wersje.

Biblioteka Wersja Biblioteka Wersja Biblioteka Wersja
_libgcc_mutex 0.1 ipykernel 6.22.0 pickleshare 0.7.5
_openmp_mutex 4.5 Ipython 8.9.0 Poduszkę 9.4.0
_py-xgboost-mutex 2.0 ipywidgets 8.0.4 Pip 23.0.1
absl-py 1.4.0 isodate 0.6.1 14 0.40.0
Adal 1.2.7 jegodangerous 2.1.2 pkginfo 1.9.6
adlfs 2023.1.0 Jacek 1.9.22 pkgutil-resolve-name 1.3.10
aiohttp 3.8.4 Jedi 0.18.2 platformdirs 3.2.0
aiosignal 1.3.1 Jeepney 0.8.0 plotly 5.13.0
alsa-lib 1.2.8 jinja2 3.1.2 Ply 3.11
anyio 3.6.2 jmespath 1.0.1 Psisko 1.7.0
argcomplete 2.1.2 joblib 1.2.0 portalocker 2.7.0
argon2-cffi 21.3.0 jpeg 9e Ospy 0.3.2
argon2-cffi-bindings 21.2.0 jsonpickle 2.2.0 ppft 1.7.6.6
arrow-cpp 11.0.0 jsonschema 4.17.3 prettytable 3.6.0
asttokens 2.2.1 jupyter_client 8.1.0 prometheus_client 0.16.0
astunparse 1.6.3 jupyter_core 5.3.0 prompt-toolkit 3.0.38
limit czasu asynchronicznego 4.0.2 jupyter_events 0.6.3 protobuf 4.21.12
atk-1.0 2.38.0 jupyter_server 2.2.1 psutil 5.9.4
Attr 2.5.1 jupyter_server_terminals 0.4.4 pthread-stubs 0,4
attrs 22.2.0 jupyterlab_pygments 0.2.2 ptyprocess 0.7.0
aws-c-auth 0.6.24 jupyterlab_widgets 3.0.7 Pulseaudio 16.1
aws-c-cal 0.5.20 keras 2.11.0 pulseaudio-client 16.1
aws-c-common 0.8.11 wstępne przetwarzanie keras 1.1.2 pulseaudio-demon 16.1
aws-c-compression 0.2.16 keyutils 1.6.1 pure_eval 0.2.2
aws-c-event-stream 0.2.18 kiwisolver 1.4.4 py-xgboost 1.7.1
aws-c-http 0.7.4 Talent 0.10.1 py4j 0.10.9.5
aws-c-io 0.13.17 krb5 1.20.1 pyarrow 11.0.0
aws-c-mqtt 0.8.6 Lame 3.100 pyasn1 0.4.8
aws-c-s3 0.2.4 lcms2 2.15 moduły pyasn1 0.2.7
aws-c-sdkutils 0.1.7 ld_impl_linux-64 2.40 pycosat 0.6.4
aws-checksums 0.1.14 lerc 4.0.0 pycparser 2.21
aws-crt-cpp 0.19.7 liac-arff 2.5.0 Pygments 2.14.0
aws-sdk-cpp 1.10.57 libabseil 20220623.0 pyjwt 2.6.0
typowe dla platformy azure 1.1.28 libaec 1.0.6 pynacl 1.5.0
azure-core 1.26.4 libarrow 11.0.0 pyodbc 4.0.35
azure-datalake-store 0.0.51 libblas 3.9.0 pyopenssl 23.1.1
azure-graphrbac 0.61.1 libbrotlicommon 1.0.9 Pyparsing 3.0.9
azure-identity 1.12.0 libbrotlidec 1.0.9 pyperclip 1.8.2
azure-mgmt-authorization 3.0.0 libbrotlienc 1.0.9 pyqt 5.15.7
azure-mgmt-containerregistry 10.1.0 libcap 2.67 pyqt5-sip 12.11.0
azure-mgmt-core 1.4.0 libcblas 3.9.0 pyrsistent 0.19.3
azure-mgmt-keyvault 10.2.1 libclang 15.0.7 pysocks 1.7.1
azure-mgmt-resource 21.2.1 libclang13 15.0.7 pyspark 3.3.1
azure-mgmt-storage 20.1.0 libcrc32c 1.1.2 python 3.10.10
azure-storage-blob 12.15.0 libcups 2.3.3 python_abi 3.10
azure-storage-file-datalake 12.9.1 Libcurl 7.88.1 python-dateutil 2.8.2
azureml-core 1.49.0 libdb 6.2.32 python-fastjsonschema 2.16.3
backcall 0.2.0 libdeflate 1.17 python-flatbuffers 23.1.21
backports 1.0 libebm 0.3.1 python-graphviz 0.20.1
backports-tempfile 1.0 libedit 3.1.20191231 python-json-logger 2.0.7
backports-weakref 1.0.post1 libev 4.33 pytorch 1.13.1
backports.functools_lru_cache 1.6.4 Libevent 2.1.10 pytz 2022.7.1
bcrypt 3.2.2 libexpat 2.5.0 pyu2f 0.1.5
beautifulsoup4 4.11.2 libffi 3.4.2 pywin32-on-windows 0.1.0
Bleach 6.0.0 libflac 1.4.2 pyyaml 6.0
migacz 1.6.1 libgcc-ng 12.2.0 pyzmq 25.0.2
brotli 1.0.9 libgcrypt 1.10.1 qt-main 5.15.8
brotli-bin 1.0.9 libgd 2.3.3 re2 2023.02.01
brotli-python 1.0.9 libgfortran-ng 12.2.0 Readline 8.2
brotlipy 0.7.0 libgfortran5 12.2.0 Regex 2022.10.31
bzip2 1.0.8 libglib 2.74.1 Żądania 2.28.2
c-ares 1.18.1 libgoogle-cloud 2.7.0 requests-oauthlib 1.3.1
certyfikaty ca 2022.12.7 libgpg-error 1.46 rfc3339-validator 0.1.4
cached_property 1.5.2 libgrpc 1.51.1 rfc3986-validator 0.1.1
cached-property 1.5.2 libhwloc 2.9.0 rsa 4.9
cachetools 5.3.0 libiconv 1.17 ruamel_yaml 0.15.80
Kair 1.16.0 liblapack 3.9.0 ruamel.yaml 0.17.21
certifi 2022.12.7 libllvm11 11.1.0 ruamel.yaml.clib 0.2.7
cffi 1.15.1 libllvm15 15.0.7 s2n 1.3.37
charset-normalizer 2.1.1 libnghttp2 1.52.0 salib 1.4.7
Kliknij 8.1.3 libnsl 2.0.0 scikit-learn 1.2.0
cloudpickle 2.2.1 libogg 1.3.4 scipy 1.10.1
colorama 0.4.6 libopenblas 0.3.21 seaborn 0.12.2
Comm 0.1.3 libopus 1.3.1 baza morska 0.12.2
conda-package-handling 2.0.2 Libpng 1.6.39 secretstorage 3.3.3
conda-package-streaming 0.7.0 libpq 15,2 send2trash 1.8.0
configparser 5.3.0 libprotobuf 3.21.12 setuptools 67.6.1
contextlib2 21.6.0 librsvg 2.54.4 Shap 0.41.0
konturowy 1.0.7 libsndfile 1.2.0 Sip 6.7.7
Kryptografii 40.0.1 libsodium 1.0.18 Sześć 1.16.0
Cycler 0.11.0 libsqlite 3.40.0 sleef 3.5.1
Dash 2.9.2 libssh2 1.10.0 slicer (fragmentator) 0.0.7
dash_cytoscape 0.2.0 libstdcxx-ng 12.2.0 smmap 3.0.5
dash-core-components 2.0.0 libsystemd0 253 Żwawy 1.1.10
dash-html-components 2.0.0 libthrift 0.18.0 sniffio 1.3.0
kreska-tabela 5.0.0 libtiff 4.5.0 zupy 2.3.2.post1
databricks-cli 0.17.6 Libtool 2.4.7 sqlalchemy 2.0.9
Dbus 1.13.6 libudev1 253 sqlparse 0.4.3
debugpy 1.6.7 libutf8proc 2.8.0 stack_data 0.6.2
Dekorator 5.1.1 libuuid 2.38.1 statsmodels 0.13.5
defusedxml 0.7.1 libuv 1.44.2 synapseml-mlflow 1.0.14
Koperek 0.3.6 Libvorbis 1.3.7 synapseml-utils 1.0.7
distlib 0.3.6 libwebp 1.2.4 tabelaryzowanie 0.9.0
docker-py 6.0.0 libwebp-base 1.2.4 Tbb 2021.8.0
punkty wejścia 0,4 Libxcb 1.13 Wytrzymałość 8.2.2
et_xmlfile 1.1.0 libxgboost 1.7.1 tensorboard 2.11.2
Wykonywanie 1.2.0 libxkbcommon 1.5.0 tensorboard-data-server 0.6.1
Expat 2.5.0 libxml2 2.10.3 tensorboard-plugin-wit 1.8.1
fftw 3.3.10 libxslt 1.1.37 tensorflow 2.11.0
filelock 3.11.0 libzlib 1.2.13 tensorflow-base 2.11.0
Kolby 2.2.3 lightgbm 3.3.3 tensorflow-estimator 2.11.0
kompresuj flask 1.13 Limonowy 0.2.0.1 termcolor 2.2.0
flatbuffers 22.12.06 llvm-openmp 16.0.1 terminado 0.17.1
flit-core 3.8.0 llvmlite 0.39.1 threadpoolctl 3.1.0
biegle logger 0.10.0 Lxml 4.9.2 tinycss2 1.2.1
font-ttf-dejavu-sans-mono 2.37 lz4-c 1.9.4 Tk 8.6.12
font-ttf-inconsolata 3.000 markdown 3.4.1 toml 0.10.2
font-ttf-source-code-pro 2.038 markupsafe 2.1.2 Toolz 0.12.0
font-ttf-ubuntu 0,83 matplotlib 3.6.3 Tornado 6,2
Fontconfig 2.14.2 matplotlib-base 3.6.3 tqdm 4.65.0
font-conda-ekosystem 1 matplotlib-inline 0.1.6 traitlety 5.9.0
font-conda-forge 1 mistune 2.0.5 drzewointerpretator 0.2.2
fonttools 4.39.3 Mkl 2022.2.1 typed-ast 1.4.3
Freetype 2.12.1 mlflow-skinny 2.1.1 typing_extensions 4.5.0
fribidi 1.0.10 mpg123 1.31.3 wpisywanie rozszerzeń 4.5.0
lista zamrożona 1.3.3 msal 1.21.0 tzdata 2023c
fsspec 2023.4.0 msal_extensions 1.0.0 unicodedata2 15.0.0
Gast 0.4.0 msgpack 1.0.5 unixodbc 2.3.10
gdk-pixbuf 2.42.10 msrest 0.7.1 urllib3 1.26.14
geographiclib 1,52 msrestazure 0.6.4 Virtualenv 20.19.0
geopy 2.3.0 multidykt 6.0.4 wcwidth 0.2.6
Gettext 0.21.1 przetwarzanie wieloprocesowe 0.70.14 webencodings 0.5.1
gevent 22.10.2 munkres 1.1.4 websocket-client 1.5.1
Gflags 2.2.2 mypy 0.780 werkzeug 2.2.3
giflib 5.2.1 mypy-extensions 0.4.4 kółko 0.40.0
gitdb 4.0.10 mysql -common 8.0.32 widgetsnbextension 4.0.7
gitpython 3.1.31 mysql-libs 8.0.32 zawijanie 1.15.0
Glib 2.74.1 nbclient 0.7.3 xcb-util 0.4.0
glib-tools 2.74.1 nbconvert-core 7.3.0 xcb-util-image 0.4.0
glog 0.6.0 nbformat 5.8.0 xcb-util-keysyms 0.4.0
uwierzytelnianie google 2.17.2 Ncurses 6.3 xcb-util-renderutil 0.3.9
google-auth-oauthlib 0.4.6 ndg-httpsclient 0.5.1 xcb-util-wm 0.4.1
makaron google 0.2.0 nest-asyncio 1.5.6 xgboost 1.7.1
graphite2 1.3.13 nspr 4.35 xkeyboard-config 2.38
graphviz 2.50.0 Nss 3.89 xorg-kbproto 1.0.7
greenlet 2.0.2 numba 0.56.4 xorg-libice 1.0.10
grpcio 1.51.1 numpy 1.23.5 xorg-libsm 1.2.3
gson 0.0.3 oauthlib 3.2.2 xorg-libx11 1.8.4
gst-plugins-base 1.22.0 openjpeg 2.5.0 xorg-libxau 1.0.9
Gstreamer 1.22.0 openpyxl 3.1.0 xorg-libxdmcp 1.1.3
gstreamer-orc 0.4.33 openssl 3.1.0 xorg-libxext 1.3.4
gtk2 2.24.33 opt_einsum 3.3.0 xorg-libxrender 0.9.10
Gts 0.7.6 Orc 1.8.2 xorg-renderproto 0.11.1
h5py 3.8.0 Opakowania 21,3 xorg-xextproto 7.3.0
harfbuzz 6.0.0 Pandas 1.5.3 xorg-xproto 7.0.31
hdf5 1.14.0 pandasql 0.7.3 Xz 5.2.6
html5lib 1,1 pandocfilters 1.5.0 yaml 0.2.5
humanfriendly 10,0 Pango 1.50.14 Yarl 1.8.2
Icu 70.1 paramiko 2.12.0 zeromq 4.3.4
Idna 3.4 parquet-cpp 1.5.1 zipp 3.15.0
imageio 2.25.0 parso 0.8.3 Zlib 1.2.13
importlib_metadata 5.2.0 Pathos 0.3.0 zope.event 4,6
importlib_resources 5.12.0 pathspec 0.11.1 zope.interface 6.0
importlib-metadata 5.2.0 Patsy 0.5.3 zstandard 0.19.0
interpret 0.3.1 pcre2 10.40 zstd 1.5.2
interpret-core 0.3.1 pexpect 4.8.0

Domyślne pakiety poziomów dla bibliotek języka R

W poniższej tabeli wymieniono wszystkie pakiety na poziomie domyślnym dla języka R i ich odpowiednich wersji.

Biblioteka Wersja Biblioteka Wersja Biblioteka Wersja
askpass 1,1 highcharter 0.9.4 readr 2.1.3
assertthat 0.2.1 highr 0,9 readxl 1.4.1
backports 1.4.1 hms 1.1.2 recipes 1.0.3
base64enc 0.1-3 htmltools 0.5.3 rematch 1.0.1
bit 4.0.5 htmlwidgets 1.5.4 rewanż2 2.1.2
bit64 4.0.5 httpcode 0.3.0 Piloty 2.4.2
blob 1.2.3 httpuv 1.6.6 reprex 2.0.2
brew 1.0-8 httr 1.4.4 reshape2 1.4.4
Brio 1.1.3 Identyfikatory 1.0.1 rjson 0.2.21
broom 1.0.1 igraph 1.3.5 rlang 1.0.6
bslib 0.4.1 Wywnioskować 1.0.3 rlist 0.4.6.2
cachem 1.0.6 Ini 0.3.1 rmarkdown 2.18
callr 3.7.3 ipred 0.9-13 RODBC 1.3-19
daszek 6.0-93 isoband 0.2.6 roxygen2 7.2.2
cellranger 1.1.0 iterators 1.0.14 rprojroot 2.0.3
cli 3.4.1 jquerylib 0.1.4 rsample 1.1.0
clipr 0.8.0 jsonlite 1.8.3 rstudioapi 0.14
zegar 0.6.1 knitr 1.41 rversions 2.1.2
colorspace 2.0-3 labeling 0.4.2 rvest 1.0.3
commonmark 1.8.1 Później 1.3.0 Sass 0.4.4
config 0.3.1 lava 1.7.0 scales 1.2.1
Konflikt 1.1.0 lazyeval 0.2.2 selectr 0.4-2
Coro 1.0.3 Lhs 1.1.5 sessioninfo 1.2.2
cpp11 0.4.3 Cyklem życia 1.0.3 shiny 1.7.3
crayon 1.5.2 lightgbm 3.3.3 Suwak 0.3.0
poświadczenia 1.3.2 listenv 0.8.0 sourcetools 0.1.7
crosstalk 1.2.0 lobstr 1.1.2 sparklyr 1.7.8
crul 1.3 lubridate 1.9.0 SQUAREM 2021.1
curl 4.3.3 magrittr 2.0.3 stringi 1.7.8
data.table 1.14.6 maps 3.4.1 stringr 1.4.1
DBI 1.1.3 memoise 2.0.1 sys 3.4.1
dbplyr 2.2.1 mime 0,12 systemfonts 1.0.4
desc 1.4.2 miniUI 0.1.1.1 testthat 3.1.5
devtools 2.4.5 modeldata 1.0.1 textshaping 0.3.6
Tarcze 1.1.0 modelenv 0.1.0 tibble 3.1.8
DiceDesign 1,9 ModelMetrics 1.2.2.2 schludne modele 1.0.0
diffobj 0.3.5 modelr 0.1.10 tidyr 1.2.1
digest 0.6.30 munsell 0.5.0 tidyselect 1.2.0
downlit (spadek) 0.4.2 numDeriv 2016.8-1.1 tidyverse 1.3.2
dplyr 1.0.10 openssl 2.0.4 timechange 0.1.1
dtplyr 1.2.2 równolegle 1.32.1 timeDate 4021.106
e1071 1.7-12 Pasternak 1.0.3 tinytex 0.42
ellipsis 0.3.2 Patchwork 1.1.2 Palnika 0.9.0
evaluate 0,18 pillar 1.8.1 triebeard 0.3.0
fansi 1.0.3 pkgbuild 1.4.0 TTR 0.24.3
farver 2.1.1 pkgconfig 2.0.3 Dostroić 1.0.1
fastmap 1.1.0 pkgdown 2.0.6 tzdb 0.3.0
fontawesome 0.4.0 pkgload 1.3.2 urlchecker 1.0.1
forcats 0.5.2 plotly 4.10.1 urltools 1.7.3
foreach 1.5.2 plyr 1.8.8 usethis 2.1.6
Forge 0.2.0 praise 1.0.0 utf8 1.2.2
Fs 1.5.2 prettyunits 1.1.1 uuid 1.1-0
furrr 0.3.1 pROC 1.18.0 vctrs 0.5.1
Przyszłości 1.29.0 processx 3.8.0 viridisLite 0.4.1
future.apply 1.10.0 prodlim 2019.11.13 Vroom 1.6.0
Płukać 1.2.1 profvis 0.3.7 Waldo 0.4.0
Generyczne 0.1.3 progress 1.2.2 Warp 0.2.0
Gert 1.9.1 postęp 0.11.0 whisker 0,4
ggplot2 3.4.0 Obietnice 1.2.0.1 withr 2.5.0
Gh 1.3.1 proxy 0.4-27 Przepływy pracy 1.1.2
gistr 0.9.0 pryr 0.1.5 zestawy przepływów pracy 1.0.0
gitcreds 0.1.2 Ps 1.7.2 xfun 0.35
Globals 0.16.2 purrr 0.3.5 xgboost 1.6.0.1
glue 1.6.2 quantmod 0.4.20 XML 3.99-0.12
googledrive 2.0.0 r2d3 0.2.6 xml2 1.3.3
googlesheets4 1.0.1 R6 2.5.1 xopen 1.0.0
gower 1.0.0 ragg 1.2.4 xtable 1.8-4
GPfit 1.0-8 rappdirs 0.3.3 xts 0.12.2
gtable 0.3.1 rbokeh 0.5.2 yaml 2.3.6
hardhat 1.2.0 rcmdcheck 1.4.0 Kryterium 1.1.0
haven 2.5.1 RColorBrewer 1.1-3 Zip 2.2.2
hexbin 1.28.2 Rcpp 1.0.9 zoo 1.8-11

Migracja między różnymi wersjami platformy Apache Spark

Migrowanie obciążeń do środowiska Fabric Runtime 1.1 (Apache Spark 3.3) ze starszej wersji platformy Apache Spark obejmuje szereg kroków w celu zapewnienia bezproblemowej migracji. Ten przewodnik zawiera opis niezbędnych kroków ułatwiania wydajnej i efektywnej migracji.

  1. Przejrzyj informacje o wersji środowiska Fabric Runtime 1.1, w tym sprawdzanie składników i pakietów na poziomie domyślnym zawartych w środowisku uruchomieniowym, aby zrozumieć nowe funkcje i ulepszenia.

  2. Sprawdź zgodność bieżącej konfiguracji i wszystkich powiązanych bibliotek, w tym zależności i integracji. Przejrzyj przewodniki migracji, aby zidentyfikować potencjalne zmiany powodujące niezgodność:

  3. Przenieś obciążenia do sieci szkieletowej i upewnij się, że masz kopie zapasowe plików danych i konfiguracji, jeśli musisz przywrócić poprzednią wersję.

  4. Zaktualizuj wszelkie zależności, które mogą mieć wpływ na nową wersję platformy Apache Spark lub innych składników powiązanych ze środowiskiem Fabric Runtime 1.1, w tym biblioteki lub łączniki innych firm. Przed wdrożeniem w środowisku produkcyjnym upewnij się, że zaktualizowane zależności zostały przetestowane w środowisku przejściowym

  5. Zaktualizuj konfigurację platformy Apache Spark w obciążeniu, w tym aktualizowanie ustawień konfiguracji, dostosowywanie alokacji pamięci i modyfikowanie wszystkich przestarzałych konfiguracji.

  6. Zmodyfikuj aplikacje platformy Apache Spark (notesy i definicje zadań platformy Apache Spark), aby używać nowych interfejsów API i funkcji wprowadzonych w środowisku Fabric Runtime 1.1 i Apache Spark 3.3. Może być konieczne zaktualizowanie kodu w celu uwzględnienia wszystkich przestarzałych lub usuniętych interfejsów API oraz refaktoryzacji aplikacji w celu skorzystania z ulepszeń wydajności i nowych funkcji.

  7. Dokładnie przetestuj zaktualizowane aplikacje w środowisku przejściowym, aby zapewnić zgodność i stabilność z platformą Apache Spark 3.3. Wykonaj testy wydajnościowe, testowanie funkcjonalne i testowanie regresji, aby zidentyfikować i rozwiązać wszelkie problemy, które mogą wystąpić podczas procesu migracji.

  8. Po zweryfikowaniu aplikacji w środowisku przejściowym wdróż zaktualizowane aplikacje w środowisku produkcyjnym. Monitoruj wydajność i stabilność aplikacji po migracji, aby zidentyfikować wszelkie problemy, które należy rozwiązać.

  9. Zaktualizuj wewnętrzną dokumentację i materiały szkoleniowe, aby odzwierciedlić zmiany wprowadzone w środowisku Fabric Runtime 1.1. Upewnij się, że członkowie zespołu znają nowe funkcje i ulepszenia, aby zmaksymalizować zalety migracji.