Поделиться через


Шпаргалка по созданию вычислительных процессов

Эта статья направлена на предоставление четкого и уверенного руководства по созданию вычислительных ресурсов. Используя правильные типы вычислений для рабочего процесса, вы можете повысить производительность и сэкономить на затратах.

Наилучшие практики Воздействие Документация
Если вы не знакомы с Azure Databricks, начните с универсальных типов экземпляров. Подбор подходящего типа экземпляра для рабочей нагрузки приводит к более высокой эффективности.
Используйте стандартный режим доступа, если необходимые функциональные возможности не поддерживаются Вычисления с стандартным режимом доступа могут использоваться несколькими пользователями с изоляцией данных среди пользователей.
Используйте типы экземпляров последнего поколения, если они достаточно доступны Последнее поколение типов экземпляров обеспечивает лучшую производительность и новейшие функции.
Настройте баланс между требуемыми и спотовыми экземплярами в зависимости от скорости, с которой необходимо выполнять ваши задачи. Точечные экземпляры сэкономят на затратах, но могут повлиять на общее время выполнения операции, если эти экземпляры будут отозваны.
Выберите размер узлов и количество рабочих на основе типов операций вашей рабочей нагрузки Например, если ожидается много перетасовок, может быть более эффективно использовать один большой узел вместо нескольких небольших.
Запустите вакуум в кластере с автоматическим масштабированием для 1–4 исполнителей, где у каждого исполнителя есть 8 ядер.
Выберите драйвер в диапазоне от 8 до 32 ядер. Увеличьте размер драйвера, если возникают ошибки нехватки памяти.
Утверждения о вакууме происходят в два этапа, второй из которых насыщено использованием драйверов. Если вы не используете правильный размер кластера, операция может привести к замедлению и может завершиться ошибкой.
Оцените, будет ли ваш пакетный рабочий процесс извлекать пользу из Photon Фотон обеспечивает более быстрые запросы и снижает общую стоимость на рабочую нагрузку.