Создание пользовательских пулов Spark в Microsoft Fabric

Статья
10/25/2023

В этом документе мы объясним, как создать настраиваемые пулы Apache Spark в Microsoft Fabric для рабочих нагрузок аналитики. Пулы Apache Spark позволяют пользователям создавать специализированные вычислительные среды на основе конкретных требований, обеспечивая оптимальную производительность и использование ресурсов.

Вы указываете минимальные и максимальные узлы для автомасштабирования. На основе этих значений система динамически получает и удаляет узлы в качестве изменения требований к вычислению задания, что приводит к эффективному масштабированию и повышению производительности. Динамическое выделение исполнителей в пулах Spark также снижает потребность в настройке исполнителя вручную. Вместо этого система настраивает количество исполнителей в зависимости от объема данных и потребностей вычислений на уровне заданий. Этот процесс позволяет сосредоточиться на рабочих нагрузках, не беспокоясь о оптимизации производительности и управлении ресурсами.

Примечание.

Чтобы создать пользовательский пул Spark, вам нужен доступ администратора к рабочей области. Администратор емкости должен включить параметр настраиваемых пулов рабочих областей в разделе "Вычисления Spark" параметров Администратор емкости. Дополнительные сведения см. в статье Параметры вычислений Spark для емкостей Fabric.

Создание настраиваемых пулов Spark

Чтобы создать пул Spark, связанный с рабочей областью, или управлять ими:

Перейдите в рабочую область и выберите параметры рабочей области.
Выберите параметр Инжиниринг данных/Science, чтобы развернуть меню, а затем выберите Spark Compute.
Выберите параметр "Создать пул". На экране создания пула назовите пул Spark. Также выберите семейство узлов и выберите размер узла из доступных размеров (небольшие, средние, крупные, X-крупные и XX-крупные) на основе требований к вычислительным ресурсам для рабочих нагрузок.
Можно задать минимальную конфигурацию узла для пользовательских пулов значение 1. Так как Fabric Spark обеспечивает возможность восстановления для кластеров с одним узлом, вам не придется беспокоиться о сбоях заданий, потере сеанса во время сбоев или оплате вычислений для небольших заданий Spark.
Вы можете включить или отключить автомасштабирование для пользовательских пулов Spark. При включении автоматического масштабирования пул динамически получает новые узлы до максимального предела узла, указанного пользователем, а затем удаляет их после выполнения задания. Эта функция обеспечивает более высокую производительность, изменяя ресурсы на основе требований задания. Вы можете увеличить размер узлов, которые соответствуют единицам емкости, приобретенным в рамках SKU емкости Fabric.
Вы также можете включить динамическое выделение исполнителя для пула Spark, которое автоматически определяет оптимальное количество исполнителей в пределах указанной пользователем максимальной границы. Эта функция настраивает количество исполнителей на основе тома данных, что приводит к повышению производительности и использованию ресурсов.

Эти настраиваемые пулы имеют продолжительность автозапуска по умолчанию в течение 2 минут. После достижения автоматической загрузки сеанс истекает, а кластеры не находятся. Плата взимается в зависимости от количества узлов и длительности использования настраиваемых пулов Spark.

Дополнительные сведения см. в общедоступной документации Apache Spark.
Начало работы с параметрами администрирования рабочей области Spark в Microsoft Fabric.

Поделиться через

Создание пользовательских пулов Spark в Microsoft Fabric

Создание настраиваемых пулов Spark

Обратная связь

Дополнительные ресурсы

Поделиться через

Создание пользовательских пулов Spark в Microsoft Fabric

Создание настраиваемых пулов Spark

Связанный контент

Обратная связь

Дополнительные ресурсы