Поделиться через


Создание пользовательских пулов Spark в Microsoft Fabric

В этом документе мы объясним, как создать настраиваемые пулы Apache Spark в Microsoft Fabric для рабочих нагрузок аналитики. Пулы Apache Spark позволяют пользователям создавать специализированные вычислительные среды на основе конкретных требований, обеспечивая оптимальную производительность и использование ресурсов.

Вы указываете минимальные и максимальные узлы для автомасштабирования. На основе этих значений система динамически получает и удаляет узлы в качестве изменения требований к вычислению задания, что приводит к эффективному масштабированию и повышению производительности. Динамическое выделение исполнителей в пулах Spark также снижает потребность в настройке исполнителя вручную. Вместо этого система настраивает количество исполнителей в зависимости от объема данных и потребностей вычислений на уровне заданий. Этот процесс позволяет сосредоточиться на рабочих нагрузках, не беспокоясь о оптимизации производительности и управлении ресурсами.

Примечание.

Чтобы создать пользовательский пул Spark, вам нужен доступ администратора к рабочей области. Администратор емкости должен включить параметр настраиваемых пулов рабочих областей в разделе "Вычисления Spark" параметров Администратор емкости. Дополнительные сведения см. в статье Параметры вычислений Spark для емкостей Fabric.

Создание настраиваемых пулов Spark

Чтобы создать пул Spark, связанный с рабочей областью, или управлять ими:

  1. Перейдите в рабочую область и выберите параметры рабочей области.

    Screenshot showing where to select Data Engineering in the Workspace settings menu.

  2. Выберите параметр Инжиниринг данных/Science, чтобы развернуть меню, а затем выберите Spark Compute.

    Screenshot showing Spark Settings detail view.

  3. Выберите параметр "Создать пул". На экране создания пула назовите пул Spark. Также выберите семейство узлов и выберите размер узла из доступных размеров (небольшие, средние, крупные, X-крупные и XX-крупные) на основе требований к вычислительным ресурсам для рабочих нагрузок.

    Screenshot showing custom pool creation options.

  4. Можно задать минимальную конфигурацию узла для пользовательских пулов значение 1. Так как Fabric Spark обеспечивает возможность восстановления для кластеров с одним узлом, вам не придется беспокоиться о сбоях заданий, потере сеанса во время сбоев или оплате вычислений для небольших заданий Spark.

  5. Вы можете включить или отключить автомасштабирование для пользовательских пулов Spark. При включении автоматического масштабирования пул динамически получает новые узлы до максимального предела узла, указанного пользователем, а затем удаляет их после выполнения задания. Эта функция обеспечивает более высокую производительность, изменяя ресурсы на основе требований задания. Вы можете увеличить размер узлов, которые соответствуют единицам емкости, приобретенным в рамках SKU емкости Fabric.

    Screenshot showing custom pool creation options for autoscaling and dynamic allocation.

  6. Вы также можете включить динамическое выделение исполнителя для пула Spark, которое автоматически определяет оптимальное количество исполнителей в пределах указанной пользователем максимальной границы. Эта функция настраивает количество исполнителей на основе тома данных, что приводит к повышению производительности и использованию ресурсов.

Эти настраиваемые пулы имеют продолжительность автозапуска по умолчанию в течение 2 минут. После достижения автоматической загрузки сеанс истекает, а кластеры не находятся. Плата взимается в зависимости от количества узлов и длительности использования настраиваемых пулов Spark.