Поделиться через


Режим высокой параллелизма в Apache Spark для Fabric

Режим высокой параллелизма позволяет пользователям совместно использовать одни и те же сеансы Spark в Spark for Fabric для проектирования данных и рабочих нагрузок обработки и анализа данных. Для выполнения элемента, например записной книжки, используется стандартный сеанс Spark. В режиме высокой параллелизма сеанс Spark может поддерживать независимое выполнение нескольких элементов в отдельных ядрах цикла чтения и печати (REPL), которые существуют в приложении Spark. Эти ядра REPL обеспечивают изоляцию для каждого элемента и препятствуют перезаписи переменных локальной записной книжки переменными с тем же именем из других записных книжек, которыми предоставляется общий доступ к одному сеансу.

Так как сеанс уже запущен, это дает пользователям возможность мгновенного запуска при повторном использовании сеанса в нескольких записных книжках.

Примечание.

В случае пользовательских пулов с режимом высокой параллелизма пользователи получают более быстрый запуск сеанса 36X по сравнению со стандартным сеансом Spark.

Схема, показывающая работу режима высокой параллелизма в Fabric.

Внимание

Условия общего доступа к сеансам включают:

  • Сеансы должны находиться в пределах одной границы пользователя.
  • Сеансы должны иметь ту же конфигурацию lakehouse по умолчанию.
  • Сеансы должны иметь те же свойства вычислений Spark.

В рамках инициализации сеанса Spark создается ядро REPL. Каждый раз, когда новый элемент начинает совместно использовать один и тот же сеанс, и исполнители выделяются на основе FAIR в этих записных книжках, работающих в этих ядрах REPL в приложении Spark, предотвращая сценарии голода.