Среда выполнения 1.1

Среда выполнения Microsoft Fabric — это интегрированная с Azure платформа на основе Apache Spark, которая обеспечивает выполнение и управление Инжиниринг данных и Обработка и анализ данных интерфейсов в Fabric. В этом документе рассматриваются компоненты и версии среды выполнения Fabric 1.1.

Среда выполнения Microsoft Fabric 1.1 является одной из сред выполнения, предлагаемых на платформе Microsoft Fabric. Основные компоненты среды выполнения 1.1:

  • Apache Spark 3.3
  • Операционная система: Ubuntu 18.04
  • Java: 1.8.0_282
  • Scala: 2.12.15
  • Python: 3.10
  • Delta Lake: 2.2
  • R: 4.2.2

Среда выполнения Microsoft Fabric 1.1 поставляется с коллекцией пакетов уровня по умолчанию, включая полную установку Anaconda и часто используемые библиотеки для Java/Scala, Python и R. Эти библиотеки автоматически включаются при использовании записных книжек или заданий на платформе Microsoft Fabric. Ознакомьтесь с документацией по полному списку библиотек.

Microsoft Fabric периодически выпускает обновления обслуживания для среды выполнения 1.1, предоставляя исправления ошибок, улучшения производительности и исправления системы безопасности. Обеспечение актуальности этих обновлений гарантирует оптимальную производительность и надежность задач обработки данных. Если в настоящее время используется среда выполнения 1.1, можно обновить до среды выполнения 1.2, перейдя к рабочей области Параметры Инжиниринг данных > / Science > Spark Параметры.

Снимок экрана: выбор версии среды выполнения.

Новые функции и улучшения — Apache Spark 3.3.1

В следующей расширенной сводке описываются основные новые функции, связанные с Apache Spark версии 3.3.0 и 3.3.1:

  • Фильтрация на уровне строк: повышение производительности соединений путем префильтрации на одну сторону, если нет нерекомендуемых или регрессий влияния на использование фильтра Блум и предиката IN, созданного из значений с другой стороны соединения. (SPARK-32268)

  • Улучшена совместимость Spark с усовершенствованиями SQL standard:ANSI. (SPARK-38860)

  • Улучшения сообщения об ошибках для быстрого выявления проблем и выполнения необходимых действий по их устранению. (SPARK-38781)

  • Поддержка сложных типов для векторизованного средства чтения Parquet. Ранее векторное средство чтения Parquet не поддерживало вложенные типы столбцов, такие как структуру, массив и карту. Apache Spark 3.3 содержит реализацию векторного векторного вектора вложенных столбцов для FB-ORC во внутреннем вилке Spark. Это влияет на повышение производительности по сравнению с невекторизованным средством чтения при чтении вложенных столбцов. Кроме того, эта реализация помогает повысить производительность не вложенных столбцов при чтении не вложенных и вложенных столбцов в одном запросе. (SPARK-34863)

  • Позволяет пользователям запрашивать метаданные входных файлов для всех форматов файлов, предоставлять их как встроенные скрытые столбцы, что означает, что пользователи могут видеть их только при явной ссылке на них. (Например, путь к файлу и имя файла.) (SPARK-37273)

  • Предоставьте профилировщик для определяемых пользователем пользователей Python или Pandas. (SPARK-37443)

  • Ранее мы выполняли потоковые запросы с триггером, который загружает все доступные данные в одном пакете. В результате объем данных, которые могут обрабатываться, был ограничен, или драйвер Spark будет не в памяти. Теперь мы используем Trigger.AvailableNow для выполнения потоковых запросов, таких как триггер один раз в нескольких пакетах. (SPARK-36533)

  • Более полный набор возможностей DS V2. (SPARK-38788)

  • Исполнитель Скользящий в среде Kubernetes. (SPARK-37810)

  • Поддержка настраиваемых планировщиков Kubernetes . ( SPARK-36057)

  • Переход с log4j 1 на log4j 2 (SPARK-37814) для получения:

    • Производительность: Log4j 2 быстрее, чем Log4j 1. Log4j 2 использует асинхронное ведение журнала по умолчанию, что может значительно повысить производительность.

    • Гибкость: Log4j 2 обеспечивает большую гибкость с точки зрения конфигурации. Он поддерживает несколько форматов конфигурации, включая XML, JSON и YAML.

    • Расширяемость: Log4j 2 предназначена для расширяемости. Это позволяет разработчикам создавать пользовательские подключаемые модули и дополнения для расширения функциональных возможностей платформы ведения журнала.

    • Безопасность: Log4j 2 обеспечивает лучшие функции безопасности, чем Log4j 1. Он поддерживает шифрование и безопасные слои сокетов для безопасного взаимодействия между приложениями.

    • Простота: Log4j 2 проще использовать, чем Log4j 1. Он имеет более интуитивно понятный API и более простой процесс настройки.

  • Введите перемешивание в SinglePartition , чтобы улучшить параллелизм и исправить регрессию производительности для соединений в Spark 3.3 и Spark 3.2. (SPARK-40703)

  • Оптимизируйте правило TransposeWindow , чтобы расширить применимые случаи и оптимизировать сложность времени. (SPARK-38034)

  • Чтобы иметь четность при выполнении TimeTravel с помощью параметра SQL и dataframe, поддержка метки времени в секундах для TimeTravel с помощью параметров кадра данных. (SPARK-39633])

  • Оптимизируйте глобальную сортировку до repartitionByExpression , чтобы сохранить локальную сортировку. (SPARK-39911)

  • Убедитесь, что выходная секционирование указана пользователем в AQE. (SPARK-39915)

  • Обновите столбец Parquet V2 columnar проверка для вложенных полей. (SPARK-39951)

  • Чтение файла parquet, секционированного на диске по столбцу типа Byte. (SPARK-40212)

  • Исправьте обрезку столбцов в CSV при выборе _corrupt_record. (SPARK-40468)

Новые возможности и улучшения — Delta Lake 2.2

Основные функции в этом выпуске приведены следующим образом:

  • LIMIT pushdown в delta scan. Повышение производительности запросов, содержащих LIMIT предложения, путем отправки в LIMIT разностную проверку во время планирования запросов. Разностное сканирование использует LIMIT количество строк на уровне файла, чтобы уменьшить количество отсканированных файлов, что помогает запросам считывать гораздо меньшее количество файлов и может ускорить LIMIT запросы на 10–100x в зависимости от размера таблицы.

  • Статистическая отправка в delta scan for SELECT COUNT(*). Запросы агрегирования, такие как SELECT COUNT(*) в разностных таблицах, удовлетворены использованием счетчиков строк на уровне файла в метаданных таблицы Delta, а не подсчета строк в базовых файлах данных. Это значительно сокращает время запроса, так как запрос просто должен считывать метаданные таблицы и может ускорить полный подсчет запросов таблицы на 10–100x.

  • Поддержка сбора статистики уровня файла в рамках команды CONVERT TO DELTA. Эта статистика может помочь ускорить запросы в таблице Delta. По умолчанию статистика собирается в рамках команды CONVERT TO DELTA. Чтобы отключить сбор статистики, укажите NO STATISTICS предложение в команде. Пример: CONVERT TO DELTA table_name NO STATISTICS.

  • Повышение производительности команды DELETE путем очистки столбцов для чтения при поиске файлов для перезаписи.

  • Исправлена ошибка в конфигурации режима нескольких кластеров на основе DynamoDB. Предыдущая версия написала неправильный метку времени, которая использовалась функцией TTL в DynamoDB для очистки просроченных элементов. Это значение метки времени было исправлено, а атрибут таблицы переименован из commitTimeexpireTime. Если вы уже включили TTL, выполните действия по миграции Delta Lake 1.2.1, 2.0.0 или 2.1.0 в Delta Lake 2.0.1, 2.1.1 или более поздней версии.

  • Исправьтенедетерминированное поведение во время MERGE при работе с источниками, недетерминированными.

  • Удалите ограничения для использования разностных таблиц с сопоставлением столбцов в определенных случаях потоковой передачи и CDF. Ранее мы использовали для блокировки потоковой передачи и CDF, если в таблице Delta включено сопоставление столбцов, даже если он не содержит столбцов RENAME или DROP.

  • Улучшение мониторинга запросов построения состояния Delta (другие запросы выполняются как часть планирования), делая их видимыми в пользовательском интерфейсе Spark.

  • Поддержка нескольких where() вызовов в API Optimize scala/python.

  • Поддержка передачи конфигураций Hadoop через API DeltaTable.

  • Поддержка имен столбцов секций, начиная с . команды CONVERT TO DELTA._

  • Улучшения метрик в журнале таблиц:

  • Исправление случайного понижения протокола с помощью команды RESTORE . До сих пор restore TABLE может уменьшить версию протокола таблицы, которая могла привести к несогласованным считываниям со временем. При этом исправлении версия протокола никогда не будет понижена с текущей версии.

  • Исправьте ошибку при MERGE INTO наличии нескольких UPDATE предложений, а одна из UPDATEs связана с эволюцией схемы.

  • Исправлена ошибка, из-за которой иногда активный SparkSession объект не найден при использовании API Delta.

  • Исправлена проблема, из-за которой не удалось задать схему секционирования во время начальной фиксации.

  • Перехват исключений при сбое записи last_checkpoint файла.

  • Исправлена проблема при перезапуске потокового запроса с AvailableNow триггером в таблице Delta.

  • Исправлена проблема с CDF и потоковой передачей, в которой смещение неправильно обновляется при отсутствии изменений данных.

Проверьте исходные и полные заметки о выпуске на сайте GitHub в delta-io/delta.

Пакеты уровня по умолчанию для Java/Scala

В следующей таблице перечислены все пакеты уровня по умолчанию для Java/Scala и соответствующие версии.

GroupId ArtifactId Версия
com.aliyun aliyun-java-sdk-core 4.5.10
com.aliyun aliyun-java-sdk-kms 2.11.0
com.aliyun aliyun-java-sdk-ram 3.1.0
com.aliyun aliyun-sdk-oss 3.13.0
com.amazonaws aws-java-sdk-bundle 1.11.1026
com.chuusai shapeless_2.12 2.3.7
com.esotericsoftware kryo-shaded 4.0.2
com.esotericsoftware minlog 1.3.0
com.fasterxml.джексон jackson-annotations-2.13.4.jar
com.fasterxml.джексон jackson-core 2.13.4
com.fasterxml.джексон jackson-core-asl 1.9.13
com.fasterxml.джексон jackson-databind 2.13.4.1
com.fasterxml.джексон jackson-dataformat-cbor 2.13.4
com.fasterxml.джексон jackson-mapper-asl 1.9.13
com.fasterxml.джексон jackson-module-scala_2.12 2.13.4
com.github.joshelser dropwizard-metrics-hadoop-metrics2-reporter 0.1.2
com.github.wendykierp JTransforms 3.1
com.google.code.findbugs jsr305 3.0.0
com.google.code.gson gson 2.8.6
com.google.flatbuffers flatbuffers-java 1.12.0
com.google.guava guava 14.0.1
com.google.protobuf protobuf-java 2.5.0
com.googlecode.json простой json-simple 1.1.1
com.jcraft jsch 0.1.54
com.jolbox bonecp 0.8.0.RELEASE
com.linkedin.isolation-forest isolation-forest_3.2.0_2.12 2.0.8
com.ning compress-lzf 1,1
com.qcloud пакет cos_api 5.6.19
com.sun.istack istack-commons-runtime 3.0.8
com.tdunning json 1.8
com.thoughtworks.paranamer paranamer 2.8
com.twitter chill-java 0.10.0
com.twitter chill_2.12 0.10.0
com.typesafe config 1.3.4
com.zaxxer HikariCP 2.5.1
commons-cli commons-cli 1.5.0
commons-codec commons-codec 1.15
commons-collections commons-collections 3.2.2
commons-dbcp commons-dbcp 1.4
commons-io commons-io 2.11.0
commons-lang commons-lang 2.6
commons-logging commons-logging 1.1.3
commons-pool commons-pool 1.5.4.jar
dev.ludovic.netlib arpack 2.2.1
dev.ludovic.netlib blas 2.2.1
dev.ludovic.netlib lapack 2.2.1
io.airlift aircompressor 0.21
io.dropwizard.metrics metrics-core 4.2.7
io.dropwizard.metrics metrics-graphite 4.2.7
io.dropwizard.metrics metrics-jmx 4.2.7
io.dropwizard.metrics metrics-json 4.2.7
io.dropwizard.metrics metrics-jvm 4.2.7
io.netty netty-all 4.1.74.Final
io.netty netty-buffer 4.1.74.Final
io.netty netty-codec 4.1.74.Final
io.netty netty-common 4.1.74.Final
io.netty netty-handler 4.1.74.Final
io.netty netty-resolver 4.1.74.Final
io.netty netty-tcnative-classes 2.0.48.Final
io.netty netty-transport 4.1.74.Final
io.netty netty-transport-classes-epoll 4.1.74.Final
io.netty netty-transport-classes-kqueue 4.1.74.Final
io.netty netty-transport-native-epoll 4.1.74.Final-linux-aarch_64
io.netty netty-transport-native-epoll 4.1.74.Final-linux-x86_64
io.netty netty-transport-native-kqueue 4.1.74.Final-osx-aarch_64
io.netty netty-transport-native-kqueue 4.1.74.Final-osx-x86_64
io.netty netty-transport-native-unix-common 4.1.74.Final
io.opentracing opentracing-api 0.33.0
io.opentracing opentracing-noop 0.33.0
io.opentracing opentracing-util 0.33.0
jakarta.annotation jakarta.annotation-api 1.3.5
jakarta.inject jakarta.inject 2.6.1
jakarta.servlet jakarta.servlet-api 4.0.3
jakarta.validation-api 2.0.2
jakarta.ws.rs jakarta.ws.rs-api 2.1.6
jakarta.xml.bind jakarta.xml.bind-api 2.3.2
javax.activation activation 1.1.1
javax.jdo jdo-api 3.0.1
javax.transaction jta 1,1
javax.xml.bind jaxb-api 2.2.11
javolution javolution 5.5.1
jline jline 2.14.6
joda-time joda-time 2.10.13
net.razorvine pickle 1.2
net.sf.jpam jpam 1,1
net.sf.opencsv opencsv 2.3
net.sf.py4j py4j 0.10.9.5
net.sourceforge.f2j arpack_combined_all 0,1
org.antlr ST4 4.0.4
org.antlr antlr-runtime 3.5.2
org.antlr antlr4-runtime 4,8
org.apache.arrow arrow-format 7.0.0
org.apache.arrow arrow-memory-core 7.0.0
org.apache.arrow arrow-memory-netty 7.0.0
org.apache.arrow arrow-vector 7.0.0
org.apache.avro avro 1.11.0
org.apache.avro avro-ipc 1.11.0
org.apache.avro avro-mapred 1.11.0
org.apache.commons commons-collections4 4.4.
org.apache.commons commons-compress 1,21
org.apache.commons commons-crypto 1.1.0
org.apache.commons commons-lang3 3.12.0
org.apache.commons commons-math3 3.6.1
org.apache.commons commons-pool2 2.11.1
org.apache.commons commons-text 1.10.0
org.apache.curator curator-client 2.13.0
org.apache.curator curator-framework 2.13.0
org.apache.curator curator-recipes 2.13.0
org.apache.derby derby 10.14.2.0
org.apache.hadoop hadoop-aliyun 3.3.3.5.2-90111858
org.apache.hadoop hadoop-annotations 3.3.3.5.2-90111858
org.apache.hadoop Hadoop-aws 3.3.3.5.2-90111858
org.apache.hadoop Hadoop-azure 3.3.3.5.2-90111858
org.apache.hadoop Hadoop-azure-datalake 3.3.3.5.2-90111858
org.apache.hadoop hadoop-client-api 3.3.3.5.2-90111858
org.apache.hadoop hadoop-client-runtime 3.3.3.5.2-90111858
org.apache.hadoop Hadoop-cloud-storage 3.3.3.5.2-90111858
org.apache.hadoop hadoop-cos 3.3.3.5.2-90111858
org.apache.hadoop Hadoop-openstack 3.3.3.5.2-90111858
org.apache.hadoop hadoop-shaded-guava 1.1.1
org.apache.hadoop hadoop-yarn-server-web-proxy 3.3.3.5.2-90111858
org.apache.hive hive-beeline 2.3.9
org.apache.hive hive-cli 2.3.9
org.apache.hive hive-common 2.3.9
org.apache.hive hive-exec 2.3.9
org.apache.hive hive-jdbc 2.3.9
org.apache.hive hive-llap-common 2.3.9
org.apache.hive hive-metastore 2.3.9
org.apache.hive hive-serde 2.3.9
org.apache.hive hive-service-rpc 3.1.2
org.apache.hive hive-shims-0.23 2.3.9
org.apache.hive hive-shims 2.3.9
org.apache.hive hive-shims-common 2.3.9
org.apache.hive hive-shims-scheduler 2.3.9
org.apache.hive hive-storage-api 2.7.2
org.apache.hive hive-vector-code-gen 2.3.9
org.apache.httpcomponents httpclient 4.5.13
org.apache.httpcomponents httpcore 4.4.14
org.apache.httpcomponents httpmime 4.5.13
org.apache.httpcomponents.client5 httpclient5 5.1.3
org.apache.ivy ivy 2.5.1
org.apache.kafka kafka-client 2.8.1
org.apache.logging.log4j log4j-1.2-api 2.17.2
org.apache.logging.log4j log4j-api 2.17.2
org.apache.logging.log4j log4j-core 2.17.2
org.apache.logging.log4j log4j-slf4j-impl 2.17.2
org.apache.orc orc-core 1.7.6
org.apache.orc orc-mapreduce 1.7.6
org.apache.orc orc-shims 1.7.6
org.apache.parquet parquet-column 1.12.3
org.apache.parquet parquet-common 1.12.3
org.apache.parquet parquet-encoding 1.12.3
org.apache.parquet parquet-format-structures 1.12.3
org.apache.parquet parquet-hadoop 1.12.3
org.apache.parquet parquet-jackson 1.12.3
org.apache.qpid proton-j 0.33.8
org.apache.thrift libfb303 0.9.3
org.apache.thrift libthrift 0.12.0
org.apache.yetus audience-annotations 0.5.0
org.apiguardian apiguardian-api 1.1.0
org.codehaus.janino commons-compiler 3.0.16
org.codehaus.janino janino 3.0.16
org.codehaus.jettison jettison 1,1
org.datanucleus datanucleus-api-jdo 4.2.4
org.datanucleus datanucleus-core 4.1.17
org.datanucleus datanucleus-rdbms 4.1.19
org.datanucleusjavax.jdo 3.2.0-m3
org.eclipse.jdt core 1.1.2
org.eclipse.jetty jetty-util 9.4.48.v20220622
org.eclipse.jetty jetty-util-ajax 9.4.48.v20220622
org.fusesource.leveldbjni leveldbjni-all 1.8
org.glassfish.hk2 hk2-api 2.6.1
org.glassfish.hk2 hk2-locator 2.6.1
org.glassfish.hk2 hk2-utils 2.6.1
org.glassfish.hk2 osgi-resource-locator 1.0.3
org.glassfish.hk2.external aopalliance-repackaged 2.6.1
org.glassfish.jaxb jaxb-runtime 2.3.2
org.glassfish.jersey.containers jersey-container-servlet 2.36
org.glassfish.jersey.containers jersey-container-servlet-core 2.36
org.glassfish.jersey.core jersey-client 2.36
org.glassfish.jersey.core jersey-common 2.36
org.glassfish.jersey.core jersey-server 2.36
org.glassfish.jersey.inject jersey-hk2 2.36
org.ini4j ini4j 0.5.4
org.javassist javassist 3.25.0-GA
org.javatuples javatuples 1.2
org.jdom jdom2 2.0.6
org.jetbrains annotations 17.0.0
org.jodd jodd-core 3.5.2
org.json4s json4s-ast_2.12 3.7.0-M11
org.json4s json4s-core_2.12 3.7.0-M11
org.json4s json4s-jackson_2.12 3.7.0-M11
org.json4s json4s-scalap_2.12 3.7.0-M11
org.junit.юпитер junit-юпитер 5.5.2
org.junit.юпитер junit-юпитер-api 5.5.2
org.junit.юпитер junit-юпитер-двигатель 5.5.2
org.junit.юпитер junit-юпитер-params 5.5.2
org.junit.platform junit-platform-commons 1.5.2
org.junit.platform junit-platform-engine 1.5.2
org.lz4 lz4-java 1.8.0
org.objenesis objenesis 3.2
org.openpnp opencv 3.2.0-1
org.opentest4j opentest4j 1.2.0
org.postgresql postgresql 42.2.9
org.roaringbitmap RoaringBitmap 0.9.25
org.roaringbitmap shims 0.9.25
org.rocksdb rocksdbjni 6.20.3
org.scala-lang scala-компилятор 2.12.15
org.scala-lang scala-library 2.12.15
org.scala-lang scala-reflect 2.12.15
org.scala-lang.modules scala-collection-compat_2.12 2.1.1
org.scala-lang.modules scala-java8-compat_2.12 0.9.0
org.scala-lang.modules scala-parser-combinators_2.12 1.1.2
org.scala-lang.modules scala-xml_2.12 1.2.0
org.scalactic scalactic_2.12 3.2.14
org.scalanlp breeze-macros_2.12 1.2
org.scalanlp breeze_2.12 1.2
org.slf4j jcl-over-slf4j 1.7.32
org.slf4j jul-to-slf4j 1.7.32
org.slf4j slf4j-api 1.7.32
org.typelevel algebra_2.12 2.0.1
org.typelevel cats-kernel_2.12 2.1.1
org.typelevel spire-macros_2.12 0.17.0
org.typelevel spire-platform_2.12 0.17.0
org.typelevel spire-util_2.12 0.17.0
org.xerial.snappy snappy-java 1.1.8.4
oro oro 2.0.8
pl.edu.icm JLargeArrays 1.5

Пакеты уровня по умолчанию для Python

В следующей таблице перечислены все пакеты уровня по умолчанию для Python и их соответствующих версий.

Библиотека Версия Библиотека Версия Библиотека Версия
_libgcc_mutex 0,1 ipykernel 6.22.0 pickleshare 0.7.5
_openmp_mutex 4,5 ipython 8.9.0 pillow 9.4.0
_py-xgboost-mutex 2.0 ipywidgets 8.0.4 pip 23.0.1
absl-py 1.4.0 isodate 0.6.1 pixman 0.40.0
adal 1.2.7 itsdangerous 2.1.2 pkginfo 1.9.6
adlfs 2023.1.0 Джек 1.9.22 pkgutil-resolve-name 1.3.10
aiohttp 3.8.4 jedi 0.18.2 platformdirs 3.2.0
aiosignal 1.3.1 jeepney 0.8.0 график 5.13.0
alsa-lib 1.2.8 jinja2 3.1.2 ply 3.11
anyio 3.6.2 jmespath 1.0.1 pooch 1.7.0
argcomplete 2.1.2 joblib 1.2.0 portalocker 2.7.0
argon2-cffi 21.3.0 JPEG; 9e Оспы 0.3.2
argon2-cffi-bindings 21.2.0 jsonpickle 2.2.0 ppft 1.7.6.6
arrow-cpp 11.0.0 jsonschema 4.17.3 милый 3.6.0
asttokens 2.2.1 jupyter_client 8.1.0 prometheus_client 0.16.0
astunparse 1.6.3 jupyter_core 5.3.0 prompt-toolkit 3.0.38
async-timeout 4.0.2 jupyter_events 0.6.3 protobuf 4.21.12
atk-1.0 2.38.0 jupyter_server 2.2.1 psutil 5.9.4
Attr 2.5.1 jupyter_server_terminals 0.4.4 pthread-stubs 0,4
attrs 22.2.0 jupyterlab_pygments 0.2.2 ptyprocess 0.7.0
aws-c-auth 0.6.24 jupyterlab_widgets 3.0.7 Pulseaudio 16.1
aws-c-cal 0.5.20 keras 2.11.0 pulseaudio-client 16.1
aws-c-common 0.8.11 keras-preprocessing 1.1.2 pulseaudio-daemon 16.1
aws-c-compression 0.2.16 keyutils 1.6.1 pure_eval 0.2.2
aws-c-event-stream 0.2.18 kiwisolver 1.4.4 py-xgboost 1.7.1
aws-c-http 0.7.4 Ловкость 0.10.1 py4j 0.10.9.5
aws-c-io 0.13.17 krb5 1.20.1 pyarrow 11.0.0
aws-c-mqtt 0.8.6 Имя 3.100 pyasn1 0.4.8
aws-c-s3 0.2.4 lcms2 2.15 pyasn1-modules 0.2.7
aws-c-sdkutils 0.1.7 ld_impl_linux-64 2.40 pycosat 0.6.4
aws-checksums 0.1.14 lerc 4.0.0 pycparser 2.21
aws-crt-cpp 0.19.7 liac-arff 2.5.0 pygments 2.14.0
aws-sdk-cpp 1.10.57 libabseil 20220623.0 pyjwt 2.6.0
azure-common 1.1.28 libaec 1.0.6 pynacl 1.5.0
azure-core 1.26.4 libarrow 11.0.0 pyodbc 4.0.35
azure-datalake-store 0.0.51 libblas 3.9.0 pyopenssl 23.1.1
azure-graphrbac 0.61.1 libbrotlicommon 1.0.9 pyparsing 3.0.9
azure-identity 1.12.0 libbrotlidec 1.0.9 pyperclip 1.8.2
azure-mgmt-authorization 3.0.0 libbrotlienc 1.0.9 pyqt 5.15.7
azure-mgmt-containerregistry 10.1.0 libcap 2,67 pyqt5-sip 12.11.0
azure-mgmt-core 1.4.0 libcblas 3.9.0 pyrsistent 0.19.3
azure-mgmt-keyvault 10.2.1 libclang 15.0.7 pysocks 1.7.1
azure-mgmt-resource 21.2.1 libclang13 15.0.7 pyspark 3.3.1
azure-mgmt-storage 20.1.0 libcrc32c 1.1.2 python 3.10.10
azure-storage-blob 12.15.0 libcups 2.3.3 python_abi 3,10
azure-storage-file-datalake 12.9.1 libcurl 7.88.1 python-dateutil 2.8.2
azureml-core 1.49.0 libdb 6.2.32 python-fastjsonschema 2.16.3
backcall 0.2.0 libdeflate 1.17 python-flatbuffers 23.1.21
внутренние порты 1.0 libebm 0.3.1 python-graphviz 0.20.1
backports-tempfile 1.0 libedit 3.1.20191231 python-json-logger 2.0.7
backports-weakref 1.0.post1 libev 4,33 pytorch 1.13.1
backports.functools_lru_cache 1.6.4 libevent 2.1.10 pytz 2022.7.1
bcrypt 3.2.2 libexpat 2.5.0 pyu2f 0.1.5
beautifulsoup4 4.11.2 libffi 3.4.2 pywin32-on-windows 0.1.0
bleach 6.0.0 libflac 1.4.2 pyyaml 6,0
blinker 1.6.1 libgcc-ng 12.2.0 pyzmq 25.0.2
brotli 1.0.9 libgcrypt 1.10.1 qt-main 5.15.8
brotli-bin 1.0.9 libgd 2.3.3 re2 2023.02.01
brotli-python 1.0.9 libgfortran-ng 12.2.0 readline 8.2
brotlipy 0.7.0 libgfortran5 12.2.0 regex 2022.10.31
bzip2 1.0.8 libglib 2.74.1 requests 2.28.2
c-ares 1.18.1 libgoogle-cloud 2.7.0 requests-oauthlib 1.3.1
ca-certificates 2022.12.7 libgpg-error 1,46 rfc3339-validator 0.1.4
cached_property 1.5.2 libgrpc 1.51.1 rfc3986-validator 0.1.1
cached-property 1.5.2 libhwloc 2.9.0 rsa 4,9
cachetools 5.3.0 libiconv 1.17 ruamel_yaml 0.15.80
каир 1.16.0 liblapack 3.9.0 ruamel.yaml 0.17.21
certifi 2022.12.7 libllvm11 11.1.0 ruamel.yaml.clib 0.2.7
cffi 1.15.1 libllvm15 15.0.7 s2n 1.3.37
charset-normalizer 2.1.1 libnghttp2 1.52.0 salib 1.4.7
щелчок 8.1.3 libnsl 2.0.0 scikit-learn 1.2.0
cloudpickle 2.2.1 libogg 1.3.4 scipy 1.10.1
colorama 0.4.6 libopenblas 0.3.21 Сиборн 0.12.2
comm 0.1.3 libopus 1.3.1 seaborn-base 0.12.2
conda-package-handling 2.0.2 libpng 1.6.39 secretstorage 3.3.3
conda-package-streaming 0.7.0 libpq 15.2 send2trash 1.8.0
configparser 5.3.0 libprotobuf 3.21.12 setuptools 67.6.1
contextlib2 21.6.0 librsvg 2.54.4 shap 0.41.0
контурная диаграмма 1.0.7 libsndfile 1.2.0 sip 6.7.7
Криптографии 40.0.1 libsodium 1.0.18 six 1.16.0
cycler 0.11.0 libsqlite 3.40.0 слежка 3.5.1
панель мониторинга 2.9.2 libssh2 1.10.0 Среза 0.0.7
dash_cytoscape 0.2.0 libstdcxx-ng 12.2.0 smmap 3.0.5
dash-core-components 2.0.0 libsystemd0 253 snappy 1.1.10
dash-html-components 2.0.0 libthrift 0.18.0 sniffio 1.3.0
dash-table 5.0.0 libtiff 4.5.0 soupsieve 2.3.2.post1
databricks-cli 0.17.6 libtool 2.4.7 sqlalchemy 2.0.9
dbus 1.13.6 libudev1 253 sqlparse 0.4.3
debugpy 1.6.7 libutf8proc 2.8.0 stack_data 0.6.2
decorator 5.1.1 libuuid 2.38.1 statsmodels 0.13.5
defusedxml 0.7.1 libuv 1.44.2 synapseml-mlflow 1.0.14
dill 0.3.6 libvorbis 1.3.7 synapseml-utils 1.0.7
distlib 0.3.6 libwebp 1.2.4 tabulate 0.9.0
docker-py 6.0.0 libwebp-base 1.2.4 Tbb 2021.8.0
entrypoints 0,4 libxcb 1,13 tenacity 8.2.2
et_xmlfile 1.1.0 libxgboost 1.7.1 tensorboard 2.11.2
executing 1.2.0 libxkbcommon 1.5.0 tensorboard-data-server 0.6.1
expat 2.5.0 libxml2 2.10.3 tensorboard-plugin-wit 1.8.1
fftw 3.3.10 libxslt 1.1.37 tensorflow 2.11.0
filelock 3.11.0 libzlib 1.2.13 tensorflow-base 2.11.0
flask 2.2.3 lightgbm; 3.3.3 tensorflow-estimator 2.11.0
flask-compress 1,13 lime 0.2.0.1 termcolor 2.2.0
flatbuffers 22.12.06 llvm-openmp 16.0.1 terminado 0.17.1
flit-core 3.8.0 llvmlite 0.39.1 threadpoolctl 3.1.0
fluent-logger 0.10.0 lxml 4.9.2 tinycss2 1.2.1
font-ttf-dejavu-sans-mono 2,37 lz4-c 1.9.4 tk 8.6.12
font-ttf-inconsolata 3.000 Markdown 3.4.1 toml 0.10.2
font-ttf-source-code-pro 2.038 markupsafe 2.1.2 toolz 0.12.0
font-ttf-ubuntu 0.83 matplotlib 3.6.3 tornado 6,2
fontconfig 2.14.2 matplotlib-base 3.6.3 tqdm 4.65.0
fonts-conda-ecosystem 1 matplotlib-inline 0.1.6 traitlets 5.9.0
fonts-conda-forge 1 mistune 2.0.5 treeinterpreter 0.2.2
шрифтовые инструменты 4.39.3 mkl 2022.2.1 typed-ast 1.4.3
freetype 2.12.1 mlflow-skinny 2.1.1 typing_extensions 4.5.0
fribidi 1.0.10 mpg123 1.31.3 typing-extensions 4.5.0
замороженный список 1.3.3 msal 1.21.0 tzdata 2023c
fsspec 2023.4.0 msal_extensions 1.0.0 юникода2 15.0.0
gast 0.4.0 msgpack 1.0.5 unixodbc 2.3.10
gdk-pixbuf 2.42.10 msrest 0.7.1 urllib3 1.26.14
geographiclib 1,52 msrestazure 0.6.4 virtualenv 20.19.0
geopy 2.3.0 multidict 6.0.4 wcwidth 0.2.6
gettext 0.21.1 многопроцессная обработка 0.70.14 webencodings 0.5.1
gevent 22.10.2 munkres 1.1.4 websocket-client 1.5.1
gflags 2.2.2 mypy 0.780 werkzeug 2.2.3
giflib 5.2.1 mypy-extensions 0.4.4 wheel 0.40.0
gitdb 4.0.10 mysql-common 8.0.32 widgetsnbextension 4.0.7
gitpython 3.1.31 mysql-libs 8.0.32 wrapt 1.15.0
glib 2.74.1 nbclient 0.7.3 xcb-util 0.4.0
glib-tools 2.74.1 nbconvert-core 7.3.0 xcb-util-image 0.4.0
glog 0.6.0 nbformat 5.8.0 xcb-util-keysyms 0.4.0
google-auth 2.17.2 ncurses 6.3 xcb-util-renderutil 0.3.9
google-auth-oauthlib 0.4.6 ndg-httpsclient 0.5.1 xcb-util-wm 0.4.1
google-pasta 0.2.0 nest-asyncio 1.5.6 XGBoost 1.7.1
graphite2 1.3.13 nspr 4.35 xkeyboard-config 2.38
Graphviz 2.50.0 nss 3.89 xorg-kbproto 1.0.7
greenlet 2.0.2 numba 0.56.4 xorg-libice 1.0.10
grpcio 1.51.1 numpy 1.23.5 xorg-libsm 1.2.3
gson 0.0.3 oauthlib 3.2.2 xorg-libx11 1.8.4
gst-plugins-base 1.22.0 openjpeg 2.5.0 xorg-libxau 1.0.9
gstreamer 1.22.0 openpyxl 3.1.0 xorg-libxdmcp 1.1.3
gstreamer-orc 0.4.33 openssl 3.1.0 xorg-libxext 1.3.4
gtk2 2.24.33 opt_einsum 3.3.0 xorg-libxrender 0.9.10
Gts 0.7.6 orc 1.8.2 xorg-renderproto 0.11.1
h5py 3.8.0 во внешнем виде 21,3 xorg-xextproto 7.3.0
harfbuzz 6.0.0 pandas 1.5.3 xorg-xproto 7.0.31
hdf5 1.14.0 pandasql 0.7.3 xz 5.2.6
html5lib 1,1 pandocfilters 1.5.0 Yaml 0.2.5
человеколюбие 10.0 Pango 1.50.14 yarl 1.8.2
icu 70,1 paramiko 2.12.0 zeromq 4.3.4
idna 3,4 parquet-cpp 1.5.1 zipp 3.15.0
imageio 2.25.0 parso 0.8.3 zlib 1.2.13
importlib_metadata 5.2.0 Пафоса 0.3.0 zope.event 4,6
importlib_resources 5.12.0 pathspec 0.11.1 zope.interface 6,0
importlib-metadata 5.2.0 patsy 0.5.3 zstandard 0.19.0
interpret 0.3.1 pcre2 10.40 zstd 1.5.2
interpret-core 0.3.1 pexpect 4.8.0

Пакеты уровня по умолчанию для R

В следующей таблице перечислены все пакеты уровня по умолчанию для R и их соответствующих версий.

Библиотека Версия Библиотека Версия Библиотека Версия
askpass 1,1 highcharter 0.9.4 readr 2.1.3
assertthat 0.2.1 высокий 0,9 readxl 1.4.1
внутренние порты 1.4.1 Hms 1.1.2 Рецепты 1.0.3
base64enc 0.1-3 htmltools 0.5.3 Реванш 1.0.1
bit 4.0.5 htmlwidgets 1.5.4 rematch2 2.1.2
bit64 4.0.5 httpcode 0.3.0 remotes 2.4.2
большой двоичный объект 1.2.3 httpuv 1.6.6 reprex 2.0.2
Заваривать 1,0–8 httr 1.4.4 reshape2 1.4.4
brio 1.1.3 ids 1.0.1 rjson 0.2.21
Метлу 1.0.1 igraph 1.3.5 rlang 1.0.6
bslib 0.4.1 Сформировать 1.0.3 Rlist 0.4.6.2
cachem 1.0.6 ini 0.3.1 rmarkdown 2.18
вызывающий объект 3.7.3 ipred 0.9-13 RODBC 1.3-19
крышка 6.0-93 isoband 0.2.6 roxygen2 7.2.2
cellranger 1.1.0 Итераторы 1.0.14 rprojroot 2.0.3
cli 3.4.1 jquerylib 0.1.4 rsample 1.1.0
clipr 0.8.0 jsonlite 1.8.3 rstudioapi 0,14
clock 0.6.1 трикотажный 1,41 rversions 2.1.2
colorspace 2.0-3 Маркировки 0.4.2 rvest 1.0.3
commonmark 1.8.1 later 1.3.0 sass 0.4.4
config 0.3.1 Lava 1.7.0 Весы 1.2.1
Противоречие 1.1.0 lazoval 0.2.2 селектор 0.4-2
Coro 1.0.3 Lhs 1.1.5 sessioninfo 1.2.2
cpp11 0.4.3 жизненный цикл 1.0.3 Блестящие 1.7.3
Карандаш 1.5.2 lightgbm; 3.3.3 ползунок 0.3.0
учетные данные 1.3.2 listenv 0.8.0 sourcetools 0.1.7
перекрестныйtalk 1.2.0 lobstr 1.1.2 sparklyr 1.7.8
crul 1,3 lubridate 1.9.0 SQUAREM 2021.1
curl 4.3.3 magrittr 2.0.3 stringi 1.7.8
data.table 1.14.6 maps 3.4.1 stringr 1.4.1
DBI 1.1.3 memoise 2.0.1 sys 3.4.1
dbplyr 2.2.1 Mime 0,12 systemfonts 1.0.4
desc 1.4.2 miniUI 0.1.1.1 testthat 3.1.5
средства разработки 2.4.5 Modeldata 1.0.1 textshaping 0.3.6
Набор 1.1.0 modelenv 0.1.0 tibble 3.1.8
DiceDesign 1,9 ModelMetrics 1.2.2.2 tidymodels 1.0.0
diffobj 0.3.5 modelr 0.1.10 tidyr 1.2.1
digest 0.6.30 munsell 0.5.0 tidyselect 1.2.0
downlit 0.4.2 numDeriv 2016.8-1.1 tidyverse 1.3.2
dplyr 1.0.10 openssl 2.0.4 timechange 0.1.1
dtplyr 1.2.2 parallelly 1.32.1 TimeDate 4021.106
e1071 1.7-12 Пастернак 1.0.3 tinytex 0,42
многоточие 0.3.2 Лоскутное 1.1.2 torch 0.9.0
evaluate 0,18 Столб 1.8.1 triebeard 0.3.0
вентиляторы 1.0.3 pkgbuild 1.4.0 TTR 0.24.3
Farver 2.1.1 pkgconfig 2.0.3 Настройки 1.0.1
fastmap 1.1.0 pkgdown 2.0.6 tzdb 0.3.0
fontawesome 0.4.0 pkgload 1.3.2 urlchecker 1.0.1
forcats 0.5.2 график 4.10.1 urltools 1.7.3
foreach 1.5.2 plyr 1.8.8 usethis 2.1.6
forge 0.2.0 Похвалы 1.0.0 utf8 1.2.2
fs 1.5.2 prettyunits 1.1.1 uuid 1.1-0
furrr 0.3.1 Proc 1.18.0 vctrs 0.5.1
будущее 1.29.0 processx 3.8.0 viridisLite 0.4.1
future.apply 1.10.0 prodlim 2019.11.13 vroom 1.6.0
gargle 1.2.1 profvis 0.3.7 waldo 0.4.0
Универсальные шаблоны 0.1.3 Ход выполнения 1.2.2 Варп 0.2.0
gert 1.9.1 progressr 0.11.0 виски 0,4
ggplot2 3.4.0 promises 1.2.0.1 withr 2.5.0
gh 1.3.1 proxy 0.4-27 рабочие процессы 1.1.2
gistr 0.9.0 pryr 0.1.5 наборы рабочих процессов 1.0.0
gitcreds 0.1.2 ps 1.7.2 xfun 0,35
globals 0.16.2 purrr 0.3.5 XGBoost 1.6.0.1
Клей 1.6.2 квантмод 0.4.20 XML 3.99-0.12
googledrive 2.0.0 r2d3 0.2.6 xml2 1.3.3
googlesheets4 1.0.1 R6 2.5.1 xopen 1.0.0
Говер 1.0.0 ragg 1.2.4 xtable 1.8-4
GPfit 1,0–8 rappdirs 0.3.3 Xts 0.12.2
gtable 0.3.1 rbokeh 0.5.2 Yaml 2.3.6
hardhat 1.2.0 rcmdcheck 1.4.0 Критерием 1.1.0
haven 2.5.1 RColorBrewer 1.1-3 zip 2.2.2
hexbin 1.28.2 Rcpp 1.0.9 зоопарк 1.8-11

Миграция между различными версиями Apache Spark

Перенос рабочих нагрузок в Среду выполнения Fabric 1.1 (Apache Spark 3.3) из более старой версии Apache Spark включает ряд шагов для обеспечения плавной миграции. В этом руководстве описаны необходимые шаги для эффективной и эффективной миграции.

  1. Ознакомьтесь с заметками о выпуске Fabric Runtime 1.1, включая проверка компонентов и пакетов уровня по умолчанию, включенных в среду выполнения, чтобы понять новые функции и улучшения.

  2. Проверьте совместимость текущей установки и всех связанных библиотек, включая зависимости и интеграции. Просмотрите руководства по миграции, чтобы определить потенциальные критические изменения:

    • Ознакомьтесь с руководством по миграции Spark Core.
    • Ознакомьтесь с руководством по миграции SQL, наборов данных и кадра данных.
    • Если решение связано с потоковой передачей структуры Apache Spark, ознакомьтесь с руководством по миграции структурированной потоковой передачи.
    • Если вы используете PySpark, ознакомьтесь с руководством по миграции Pyspark.
    • Если вы переносите код из Koalas в PySpark, просмотрите api Koalas на pandas в руководстве по миграции Spark.
  3. Переместите рабочие нагрузки в Fabric и убедитесь, что у вас есть резервные копии данных и файлов конфигурации, если необходимо отменить изменения в предыдущую версию.

  4. Обновите все зависимости, которые могут повлиять на новые версии Apache Spark или других связанных компонентов среды выполнения Fabric 1.1, включая сторонние библиотеки или соединители. Перед развертыванием в рабочей среде обязательно протестируйте обновленные зависимости в промежуточной среде.

  5. Обновите конфигурацию Apache Spark в рабочей нагрузке, включая обновление параметров конфигурации, настройку выделения памяти и изменение устаревших конфигураций.

  6. Измените приложения Apache Spark (записные книжки и определения заданий Apache Spark), чтобы использовать новые API и функции, представленные в Среде выполнения Fabric 1.1 и Apache Spark 3.3. Возможно, потребуется обновить код, чтобы разместить устаревшие или удаленные API, а также рефакторинг приложений, чтобы воспользоваться преимуществами улучшения производительности и новых функций.

  7. Тщательно протестируйте обновленные приложения в промежуточной среде, чтобы обеспечить совместимость и стабильность с Apache Spark 3.3. Выполните тестирование производительности, функциональное тестирование и регрессию, чтобы определить и устранить все проблемы, которые могут возникнуть во время процесса миграции.

  8. После проверки приложений в промежуточной среде разверните обновленные приложения в рабочей среде. Отслеживайте производительность и стабильность приложений после миграции, чтобы определить все проблемы, которые необходимо устранить.

  9. Обновите внутреннюю документацию и учебные материалы, чтобы отразить изменения, внесенные в Среду выполнения Fabric 1.1. Убедитесь, что члены вашей команды знакомы с новыми функциями и улучшениями, чтобы максимально повысить преимущества миграции.