Режим высокой параллелизма в Apache Spark для Fabric

Статья
10/25/2023

Режим высокой параллелизма позволяет пользователям совместно использовать одни и те же сеансы Spark в Spark for Fabric для проектирования данных и рабочих нагрузок обработки и анализа данных. Для выполнения элемента, например записной книжки, используется стандартный сеанс Spark. В режиме высокой параллелизма сеанс Spark может поддерживать независимое выполнение нескольких элементов в отдельных ядрах цикла чтения и печати (REPL), которые существуют в приложении Spark. Эти ядра REPL обеспечивают изоляцию для каждого элемента и препятствуют перезаписи переменных локальной записной книжки переменными с тем же именем из других записных книжек, которыми предоставляется общий доступ к одному сеансу.

Так как сеанс уже запущен, это дает пользователям возможность мгновенного запуска при повторном использовании сеанса в нескольких записных книжках.

Примечание.

В случае пользовательских пулов с режимом высокой параллелизма пользователи получают более быстрый запуск сеанса 36X по сравнению со стандартным сеансом Spark.

Внимание

Условия общего доступа к сеансам включают:

Сеансы должны находиться в пределах одной границы пользователя.
Сеансы должны иметь ту же конфигурацию lakehouse по умолчанию.
Сеансы должны иметь те же свойства вычислений Spark.

В рамках инициализации сеанса Spark создается ядро REPL. Каждый раз, когда новый элемент начинает совместно использовать один и тот же сеанс, и исполнители выделяются на основе FAIR в этих записных книжках, работающих в этих ядрах REPL в приложении Spark, предотвращая сценарии голода.

Сведения о начале работы с режимом высокой параллелизма в записных книжках см. в разделе "Настройка режима высокой параллелизма" для записных книжек Fabric.

Поделиться через

Режим высокой параллелизма в Apache Spark для Fabric

Обратная связь

Дополнительные ресурсы

Поделиться через

Режим высокой параллелизма в Apache Spark для Fabric

Связанный контент

Обратная связь

Дополнительные ресурсы