Поделиться через


Среда выполнения Fabric 1.3 (GA)

Среда выполнения Fabric обеспечивает простую интеграцию с Azure. Она предоставляет сложную среду для проектов по проектированию и обработке и анализу данных, использующих Apache Spark. В этой статье представлен обзор основных функций и компонентов среды выполнения Fabric 1.3, самой новой среды выполнения для вычислений больших данных.

Среда выполнения Microsoft Fabric 1.3 является последней версией среды выполнения общедоступной версии и включает следующие компоненты и обновления, предназначенные для улучшения возможностей обработки данных:

  • Apache Spark 3.5
  • Операционная система: Маринр 2.0
  • Java: 11.
  • Scala: 2.12.17
  • Python: 3.11
  • Delta Lake: 3.2
  • R: 4.4.1

Совет

Среда выполнения Fabric 1.3 включает поддержку собственного обработчика выполнения, что может значительно повысить производительность без дополнительных затрат. Чтобы включить собственный модуль выполнения для всех заданий и записных книжек в вашей среде, перейдите к параметрам среды, выберите вычисление Spark, перейдите на вкладку "Ускорение" и установите флажок "Включить собственный обработчик выполнения". После сохранения и публикации этот параметр применяется в среде, поэтому все новые задания и записные книжки автоматически наследуются и получают преимущества от расширенных возможностей производительности.

Используйте следующие инструкции для интеграции среды выполнения 1.3 в рабочую область и использования новых функций:

  1. Перейдите на вкладку "Параметры рабочей области" в рабочей области Fabric.
  2. Перейдите на вкладку Инжиниринг данных/Наука и выберите "Параметры Spark".
  3. Перейдите на вкладку Среда.
  4. В разделе версий среды выполнения разверните раскрывающийся список.
  5. Выберите 1.3 (Spark 3.5, Delta 3.2) и сохраните изменения. Это действие задает 1.3 в качестве среды выполнения по умолчанию для рабочей области.

Снимок экрана: выбор версии среды выполнения.

Теперь вы можете начать работу с новыми улучшениями и функциями, представленными в среде выполнения Fabric 1.3 (Spark 3.5 и Delta Lake 3.2).

Ключевые моменты

Apache Spark 3.5

Apache Spark 3.5.0 — шестая версия серии 3.x. Эта версия является продуктом обширной совместной работы в сообществе с открытым исходным кодом, устраняя более 1300 проблем, как записано в Jira.

В этой версии существует обновление в совместимости для структурированной потоковой передачи. Кроме того, этот выпуск расширяет функциональные возможности PySpark и SQL. Он добавляет такие функции, как предложение идентификатора SQL, именованные аргументы в вызовах функций SQL, а также включение функций SQL для гиперЛога приблизительных агрегатов. Другие новые возможности также включают пользовательские функции таблицы Python, упрощение распределенного обучения с помощью DeepSpeed и новые структурированные возможности потоковой передачи, такие как распространение подложки и операция dropDuplicatesWithinWatermark .

Здесь можно проверить полный список и подробные изменения https://spark.apache.org/releases/spark-release-3-5-0.html.

Delta Spark

Delta Lake 3.2 отмечает коллективное обязательство обеспечить взаимодействие Delta Lake в разных форматах, упростить работу и повысить производительности. Delta Spark 3.2 построен на основе Apache Spark™ 3.5. Артефакт Delta Spark maven был переименован из delta-core в delta-spark.

Здесь можно проверить полный список и подробные изменения https://docs.delta.io/3.2.0/index.html.

Совет

Актуальные сведения см. в подробном списке изменений и конкретных заметках о выпуске для сред выполнения Fabric, проверке и подписке на выпуски и обновления Spark Runtimes.