Ескертпе
Бұл бетке кіру үшін қатынас шегін айқындау қажет. Жүйеге кіруді немесе каталогтарды өзгертуді байқап көруге болады.
Бұл бетке кіру үшін қатынас шегін айқындау қажет. Каталогтарды өзгертуді байқап көруге болады.
Это важно
Эта функция доступна в предварительной версии.
Среда выполнения Fabric обеспечивает простую интеграцию в экосистеме Microsoft Fabric, предлагая надежную среду для проектов разработки и обработки и анализа данных, управляемых Apache Spark.
В этой статье представлена общедоступная предварительная версия среды выполнения Fabric 2.0, последняя среда выполнения, предназначенная для вычислений больших данных в Microsoft Fabric. Он выделяет ключевые функции и компоненты, которые делают этот выпуск значительным шагом вперед для масштабируемой аналитики и расширенных рабочих нагрузок.
Среда выполнения Fabric 2.0 включает следующие компоненты и обновления, предназначенные для улучшения возможностей обработки данных:
- Apache Spark 4.0
- Операционная система: Azure Linux 3.0 (Mariner 3.0)
- Java: 21
- Scala: 2.13
- Python: 3.12
- Delta Lake: 4.0
- R: 4.5.2
Подсказка
Среда выполнения Fabric 2.0 включает поддержку собственного обработчика выполнения, что может значительно повысить производительность без дополнительных затрат. Вы можете включить собственный модуль выполнения на уровне среды, чтобы все задания и записные книжки автоматически наследуют расширенные возможности производительности.
Включение среды выполнения 2.0
Среду выполнения 2.0 можно включить на уровне рабочей области или на уровне элемента среды. Используйте параметр рабочей области, чтобы применить среду выполнения 2.0 в качестве значения по умолчанию для всех рабочих нагрузок Spark в рабочей области. Кроме того, создайте элемент среды с средой выполнения 2.0 для использования с определенными записными книжками или определениями заданий Spark, которые переопределяют рабочую область по умолчанию.
Включение среды выполнения 2.0 в параметрах рабочей области
Чтобы задать runtime 2.0 в качестве значения по умолчанию для всей рабочей области:
Перейдите на страницу параметров рабочей области в рабочей области Fabric.
Перейдите на вкладку "Инженерия и наука данных" , а затем выберите параметры Spark.
Перейдите на вкладку Среда.
В раскрывающемся списке версии среды выполнения выберите общедоступную предварительную версию 2.0 (Spark 4.0, Delta 4.0) и сохраните изменения.
Среда выполнения 2.0 устанавливается в качестве среды выполнения по умолчанию для рабочей области.
Включение среды выполнения 2.0 в элементе среды
Чтобы использовать Runtime 2.0 с определенными ноутбуками или определениями заданий Spark:
Создайте новый элемент среды или откройте существующий элемент.
В раскрывающемся списке среды выполнения выберите общедоступную предварительную версию 2.0 (Spark 4.0, Delta 4.0),
Saveи применитеPublishизменения.Затем вы можете использовать этот элемент среды вместе с
NotebookилиSpark Job Definition.
Теперь вы можете начать экспериментировать с новыми улучшениями и функциями, представленными в Среде выполнения Fabric 2.0 (Spark 4.0 и Delta Lake 4.0).
Замечание
Протокол WASB для учетных записей хранения Azure Общие назначения v2 (GPv2) устарел. Вместо этого следует использовать последний протокол ABFS для чтения и записи в учетные записи хранения GPv2.
Общедоступная предварительная версия
Этап общедоступной предварительной версии среды выполнения Fabric 2.0 предоставляет доступ к новым функциям и API из Spark 4.0 и Delta Lake 4.0. Предварительная версия позволяет сразу использовать последние улучшения На основе Spark и Delta, а также обеспечить плавную готовность и переход для расширенных и улучшенных изменений, таких как новые версии Java, Scala и Python.
Подсказка
Актуальные сведения, список изменений и содержательные заметки о выпуске для сред Fabric, ознакомьтесь и подпишитесь на выпуски и обновления Spark Runtimes.
Ключевые моменты
Apache Spark 4.0
Apache Spark 4.0 знаменует собой важную веху как первый выпуск в серии 4.x, отражающий коллективные усилия активного сообщества с открытым исходным кодом.
В этой версии Spark SQL значительно обогащен мощными новыми функциями, предназначенными для повышения экспрессивности и универсальности рабочих нагрузок SQL, таких как поддержка типов данных VARIANT, определяемые пользователем функции SQL, переменные сеанса, синтаксис канала и параметры сортировки строк. PySpark видит постоянное развитие как в функциональных возможностях, так и в общем опыте разработчиков, предложив родной API для построения графиков, новый API источника данных Python, поддержку определяемых пользователем табличных функций (UDTF) Python и унифицированное профилирование для UDF PySpark, а также множество других улучшений. Структурированная потоковая передача развивается с помощью ключевых добавлений, которые обеспечивают больший контроль и простоту отладки, в частности введение API произвольного состояния версии 2 для более гибкого управления состоянием и источника данных состояния для упрощения отладки.
Вы можете проверить полный список и подробные изменения здесь: https://spark.apache.org/releases/spark-release-4-0-0.html.
Замечание
В Spark 4.0 SparkR устарел и может быть удален в будущей версии.
Delta Lake 4.0
Delta Lake 4.0 отмечает коллективное обязательство обеспечить совместимость Delta Lake с различными форматами, упростить его использование и повысить производительность. Delta 4.0 — это веха, выпущенная с мощными новыми функциями, оптимизацией производительности и фундаментальными улучшениями для будущего озер данных с открытым исходным кодом.
Вы можете проверить полный список и подробные изменения, представленные в Delta Lake 3.3 и 4.0 здесь: https://github.com/delta-io/delta/releases/tag/v3.3.0 https://github.com/delta-io/delta/releases/tag/v4.0.0.
Это важно
Специальные функции Delta Lake 4.0 являются экспериментальными и работают только на интерфейсах Spark, таких как записные книжки и определения заданий Spark. Если вам нужно использовать одни и те же таблицы Delta Lake в нескольких рабочих нагрузках Microsoft Fabric, не включите эти функции. Дополнительные сведения о версиях и функциях протокола, совместимых во всех интерфейсах Microsoft Fabric, см. в статье о взаимодействии с форматом таблицы Delta Lake.
Связанный контент
- Среда выполнения Apache Spark в Fabric — обзор, управление версиями и поддержка нескольких сред выполнения
- Руководство по миграции Spark Core
- Руководства по миграции SQL, датасетов и DataFrame
- Руководство по миграции структурированной потоковой передачи
- Руководство по миграции MLlib (Машинное обучение)
- Руководство по миграции PySpark (Python в Spark)
- Руководство по миграции SparkR (R в Spark)