Среда выполнения Fabric 1.3

Среда выполнения Fabric обеспечивает простую интеграцию с Azure. Она предоставляет сложную среду для проектов по проектированию и обработке и анализу данных, использующих Apache Spark. В этой статье представлен обзор основных функций и компонентов среды выполнения Fabric 1.3, самой новой среды выполнения для вычислений больших данных.

Среда выполнения Fabric 1.3 включает следующие компоненты и обновления, предназначенные для улучшения возможностей обработки данных:

  • Apache Spark 3.5
  • Операционная система: Маринр 2.0
  • Java: 11.
  • Scala: 2.12.17
  • Python: 3.10
  • Delta Lake: 3.0.0

Примечание.

Среда выполнения Fabric 1.3 в настоящее время находится на экспериментальном этапе общедоступной предварительной версии. Дополнительные сведения см. в ограничениях и заметках.

Используйте следующие инструкции для интеграции среды выполнения 1.3 в рабочую область и использования новых функций:

  1. Перейдите на вкладку "Параметры рабочей области" в рабочей области Fabric.
  2. Перейдите на вкладку Инжиниринг данных/Наука и выберите Spark Параметры.
  3. Перейдите на вкладку Среда.
  4. В раскрывающемся списке версий среды выполнения выберите 1.3 Экспериментальный (Spark 3.5, Delta 3 OSS) и сохраните изменения. Это действие задает 1.3 в качестве среды выполнения по умолчанию для рабочей области.

Снимок экрана: выбор версии среды выполнения.

Теперь вы можете начать экспериментировать с новыми улучшениями и функциями, представленными в среде выполнения Fabric 1.3 (Spark 3.5 и Delta Lake 3.0).

Внимание

В настоящее время для запуска сеансов Spark 3.5 требуется около 2–5 минут, так как начальные пулы не являются частью раннего экспериментального выпуска.

Экспериментальная общедоступная предварительная версия

Экспериментальный этап среды выполнения Fabric 1.3 предоставляет ранний доступ к новым функциям и API Apache Spark. Это включает в себя Spark 3.5, которая является версией долгосрочной поддержки (LTS), предлагая стабильность до поступления основных обновлений в Spark 4.0. Предварительная версия позволяет сразу использовать последние улучшения на основе Spark, обеспечивая плавный переход и готовность к будущим изменениям, таким как обновление Scala 2.13. Он также улучшает проекты данных с помощью расширенных надежных решений в экосистеме Azure.

Совет

Актуальные сведения см. в подробном списке изменений и конкретных заметках о выпуске для сред выполнения Fabric, проверка и подписке на выпуски spark Runtimes и Обновления.

Ограничения

Среда выполнения Fabric 1.3 в настоящее время находится на экспериментальном этапе общедоступной предварительной версии, предназначенной для пользователей для изучения и экспериментов с новейшими функциями и API из Spark и Delta Lake. Хотя эта версия предоставляет доступ к основным функциям, существуют некоторые ограничения:

  • Сеансы Spark 3.5 можно использовать, писать код в записных книжках, планировать определения заданий Spark и использовать с PySpark, Scala и Spark SQL. Однако язык R не поддерживается в этом раннем выпуске.

  • Библиотеки можно установить непосредственно в коде с помощью pip и conda. Параметры Spark можно задать с помощью параметров %%configure в записных книжках и определениях заданий Spark (SJD).

  • Вы можете читать и записывать в Lakehouse с помощью Delta 3.0 OSS, но некоторые расширенные функции, такие как V-order, native Parquet write, autocompaction, optimize write, low-shuffle merge, merge, schema evolution и time travel не включены в этот ранний выпуск.

  • Помощник По Spark в настоящее время недоступен. Однако средства мониторинга, такие как пользовательский интерфейс Spark и журналы, поддерживаются в этом раннем выпуске.

  • Такие функции, как интеграции Обработка и анализ данных, включая Copilot Kusto, SQL Analytics, Cosmos DB и MySQL Java Подключение or, в настоящее время не поддерживаются в этом раннем выпуске. библиотеки Обработка и анализ данных не поддерживаются в средах PySpark. PySpark работает только с базовой настройкой Conda, которая включает PySpark только без дополнительных библиотек.

  • Интеграция с артефактами среды и VSCode не поддерживается в этом раннем выпуске.

Примечание.

Поделитесь своими отзывами о среде выполнения Fabric на платформе "Идеи". Обязательно упоминание стадии версии и выпуска, на которую вы ссылаетесь. Мы ценим отзывы сообщества и приоритеты улучшений на основе голосов, убедившись, что мы отвечаем потребностям пользователей.

Ключевые моменты

Apache Spark 3.5

Apache Spark 3.5.0 — шестая версия серии 3.x. Эта версия является продуктом обширной совместной работы в сообществе с открытым исходным кодом, устраняя более 1300 проблем, как записано в Jira.

В этой версии существует обновление в совместимости для структурированной потоковой передачи. Кроме того, этот выпуск расширяет функциональные возможности PySpark и SQL. Он добавляет такие функции, как предложение идентификатора SQL, именованные аргументы в вызовах функций SQL, а также включение функций SQL для гиперЛога приблизительных агрегатов. Другие новые возможности также включают пользовательские функции таблицы Python, упрощение распределенного обучения с помощью DeepSpeed и новые структурированные возможности потоковой передачи, такие как распространение подложки и операция dropDuplicatesWithinWatermark .

Вы можете проверка полный список и подробные изменения здесь: https://spark.apache.org/releases/spark-release-3-5-0.html

Delta Spark

Delta Lake 3.0 отмечает коллективное обязательство обеспечить взаимодействие Delta Lake в разных форматах, упростить работу и повысить производительности. Delta Spark 3.0.0 построен на основе Apache Spark™ 3.5. Артефакт Delta Spark maven был переименован из delta-core в delta-spark.

Вы можете проверка полный список и подробные изменения здесь: https://docs.delta.io/3.0.0/index.html