Поделиться через


Управление квотами и ограничениями для ресурсов с помощью Машинное обучение Azure

Azure использует квоты и ограничения для предотвращения переполнения бюджета из-за мошенничества и для учета ограничений емкости Azure. Учитывайте эти ограничения при масштабировании рабочих нагрузок. В этой статье раскрываются следующие темы:

  • Ограничения по умолчанию для ресурсов Azure, связанных с Машинным обучением Azure.
  • Создание квот уровня рабочей области.
  • Просмотр квот и ограничений.
  • Запрос на увеличение квоты.

Помимо управления квотами и ограничениями, вы можете узнать, как планировать затраты и управлять затратами на Машинное обучение Azure или узнать об ограничениях службы в Машинное обучение Azure.

Примечания

  • Квоты применяются к каждой подписке в вашей учетной записи. Если у вас несколько подписок, необходимо запросить увеличение квоты для каждой подписки.

  • Квота — это кредитный лимит ресурсов Azure, а не гарантия емкости. Если вам нужны большие объемы ресурсов, обратитесь в службу поддержки Azure для увеличения квоты.

  • Квоты являются общими для всех служб в вашей подписке, включая Машинное обучение Azure. При оценке емкости следует вычислять использование во всех службах.

    Примечание.

    Исключением являются вычисления в Машинном обучении Azure. Для них предусмотрена квота, отдельная от базовой квоты вычислений.

  • Ограничения по умолчанию зависят от типа категории предложения, например бесплатной пробной версии, оплаты по мере использования и серии виртуальных машин (например, Dv2, F и G).

Квоты и ограничения ресурсов по умолчанию

В этом разделе вы узнаете о квотах по умолчанию и максимальных квотах и ограничениях для следующих ресурсов:

  • Ресурсы Машинного обучения Azure
  • Машинное обучение Azure вычисления (включая бессерверную Spark)
  • общая квота Машинное обучение Azure
  • Машинное обучение Azure сетевые конечные точки (как управляемые, так и Kubernetes) и пакетные конечные точки
  • Конвейеры Машинного обучение Azure
  • интеграция Машинное обучение Azure с Synapse
  • Виртуальные машины
  • Экземпляры контейнеров Azure
  • Хранилище Azure

Внимание

Границы могут измениться. Последние сведения см. в разделе Ограничения служб в машинном обучении Azure.

Ресурсы Машинного обучения Azure

Следующие ограничения на ресурсы применяются на основе каждой рабочей области .

Ресурс Максимальное ограничение
Наборы данных 10 млн
Запуски 10 млн
Модели 10 млн
Компонент 10 млн
Artifacts 10 млн

Кроме того, максимальное время выполнения составляет 30 дней, а максимальное количество зарегистрированных для каждого запуска метрик — 1 000 000.

Вычислительная среда Машинного обучения Azure

Машинное обучение Azure Вычисление имеет ограничение квоты по умолчанию на количество ядер и количество уникальных вычислительных ресурсов, разрешенных для каждого региона в подписке.

Примечание.

  • Квота на количество ядер разделена по каждому семейству виртуальных машин и совокупным общим ядрам.
  • Квота на количество уникальных вычислительных ресурсов в каждом регионе отделена от квоты ядра виртуальной машины, так как она применяется только к управляемым вычислительным ресурсам Машинное обучение Azure.

Чтобы увеличить ограничения для следующих элементов, запросите увеличение квоты:

  • Квоты семейства виртуальных машин. Дополнительные сведения о том, для какого семейства виртуальных машин запрашивать увеличение квоты, см. в статье о размерах виртуальных машин в Azure. Например, семейства виртуальных машин GPU начинаются с "N" в имени семьи (например, серии NCv3).
  • Общая квота ядра подписки
  • Квота кластера
  • Другие ресурсы в этом разделе

Доступные ресурсы:

  • Квота выделенных ядер на регион по умолчанию составляет от 24 до 300, в зависимости от типа предложения подписки. Вы можете увеличить количество выделенных ядер на подписку для каждого семейства виртуальных машин. Специализированные семейства виртуальных машин, такие как NCv2, NCv3 или ND, начинаются с 0 ядер по умолчанию. Число ядер для GPU также по умолчанию равно 0.

  • Квота ядер с низким приоритетом на регион по умолчанию составляет от 100 до 3000, в зависимости от типа предложения подписки. Количество ядер с низким приоритетом для каждой подписки можно увеличить, и оно является одним значением в разных семействах виртуальных машин.

  • Общий предел вычислений для каждого региона имеет ограничение по умолчанию в 500 на регион в пределах данной подписки и может быть увеличено до максимального значения 2500 на регион. Это ограничение распределяется между кластерами обучения, вычислительными экземплярами и развертываниями управляемых подключенных конечных точек. В контексте квот вычислительным экземпляром считается кластер с одним узлом.

В следующей таблице показаны дополнительные ограничения на платформе. Обратитесь к группе разработчиков Машинное обучение Azure через запрос в службу технической поддержки, чтобы запросить исключение.

Ресурс или действие Максимальное ограничение
Максимальное количество рабочих областей на группу ресурсов 800
Узлы в одном кластере вычислений Машинное обучение Azure (AmlCompute), настроенные в качестве несоответного пула (т. е. не могут выполнять задания MPI) 100 узлов, но можно настроить до 65 000 узлов
Узлы в одном шаге параллельного запуска выполняются в кластере вычислений Машинное обучение Azure (AmlCompute) 100 узлов, но можно настроить до 65 000 узлов, если кластер настроен для масштабирования, как упоминалось ранее.
Узлы в одном кластере вычислений Машинное обучение Azure (AmlCompute), настроенные в качестве пула с поддержкой связи 300 узлов, но можно настроить до 4000 узлов.
Узлы в одном кластере вычислений Машинное обучение Azure (AmlCompute), настроенные в качестве пула с поддержкой обмена данными в семействе виртуальных машин с поддержкой RDMA. 100 узлов
Узлы в одном MPI выполняются в кластере вычислений Машинное обучение Azure (AmlCompute) 100 узлов
Время существования задания 21 день 1
Время существования задания на узле с низким приоритетом 7 дней2
Количество серверов параметров на узел 1

1 Максимальное время существования — это время между запуском и завершением выполнения. Время хранения завершенных заданий не ограничено. Данные для заданий, не завершенных в течение максимального времени существования, недоступны.

2 Задания в узле с низким приоритетом могут быть вытеснены в любое время при наличии ограничения емкости. Рекомендуется реализовать контрольные точки в задании.

общая квота Машинное обучение Azure

Машинное обучение Azure предоставляет общий пул квот, из которого пользователи в различных регионах могут получить доступ к квоте для выполнения тестирования в течение ограниченного периода времени в зависимости от доступности. Определенный период времени зависит от варианта использования. Временно используя квоту из пула квот, вам больше не нужно отправлять запрос в службу поддержки для краткосрочного увеличения квоты или ожидать утверждения запроса квоты, прежде чем продолжить работу с рабочей нагрузкой.

Использование общего пула квот доступно для выполнения заданий Spark и для тестирования вывода для Ллама-2, Phi, Неморон, Мистраль, Кукли и Deci-DeciLM моделей в каталоге моделей в течение короткого времени. Перед развертыванием этих моделей с помощью общей квоты необходимо иметь подписку Соглашение Enterprise. Дополнительные сведения об использовании общей квоты для развертывания конечных точек в Сети см. в статье "Развертывание базовых моделей с помощью студии".

Следует использовать общую квоту только для создания временных тестовых конечных точек, а не рабочих конечных точек. Для конечных точек в рабочей среде следует запросить выделенную квоту, отправив запрос в службу поддержки. Выставление счетов за общую квоту основано на использовании, как и для выделенных семейств виртуальных машин. Чтобы отказаться от общего квоты для заданий Spark, заполните форму отказа от выделения общей емкости Машинное обучение Azure.

Машинное обучение Azure сетевые конечные точки и пакетные конечные точки

Машинное обучение Azure сетевые конечные точки и конечные точки пакетной службы имеют ограничения ресурсов, описанные в следующей таблице.

Внимание

Эти ограничения являются региональными, что означает, что вы можете использовать до этих ограничений в каждом регионе, который вы используете. Например, если текущий предел для количества конечных точек на подписку равен 100, можно создать 100 конечных точек в регионе "Восточная часть США", 100 конечных точек в регионе "Западная часть США" и 100 конечных точек в каждом из других поддерживаемых регионов в одной подписке. Тот же принцип применяется ко всем другим ограничениям.

Чтобы определить текущее использование конечной точки, просмотрите метрики.

Чтобы запросить исключение из команды Машинное обучение Azure продукта, выполните действия, описанные в разделе "Ограничение конечной точки".

Ресурс   Ограничение 1                                                 Разрешает исключение Относится к
Имя конечной точки Имена конечных точек должны быть
  • Начало с буквы
  • Длина 3–32 символов
  • Только буквы и цифры 2
  • Для конечной точки Kubernetes имя конечной точки и имя развертывания должно составлять 6–62 символов в общей длине.
  • - Все типы конечных точек 3
    Deployment name (Имя развертывания) Имена развертываний должны быть
  • Начало с буквы
  • Длина 3–32 символов
  • Только буквы и цифры 2
  • Для конечной точки Kubernetes имя конечной точки и имя развертывания должно составлять 6–62 символов в общей длине.
  • - Все типы конечных точек 3
    Количество конечных точек на подписку 100 Да Все типы конечных точек 3
    Количество конечных точек на кластер 60 - Конечная точка Kubernetes в Интернете
    Количество развертываний на подписку 500 Да Все типы конечных точек 3
    Количество развертываний на конечную точку 20 Да Все типы конечных точек 3
    Количество развертываний на кластер 100 - Конечная точка Kubernetes в Интернете
    Количество экземпляров на развертывание 50 4 Да Управляемая сетевая конечная точка
    Максимальное время ожидания запроса на уровне конечной точки 180 секунд - Управляемая сетевая конечная точка
    Максимальное время ожидания запроса на уровне конечной точки 300 секунд - Конечная точка Kubernetes в Интернете
    Общее количество запросов в секунду на уровне конечной точки для всех развертываний 500 5 Да Управляемая сетевая конечная точка
    Общее количество подключений в секунду на уровне конечной точки для всех развертываний 500 5 Да Управляемая сетевая конечная точка
    Общее количество подключений, активных на уровне конечной точки для всех развертываний 500 5 Да Управляемая сетевая конечная точка
    Общая пропускная способность на уровне конечной точки для всех развертываний 5 МБ/С 5 Да Управляемая сетевая конечная точка

    1 Это региональное ограничение. Например, если текущее ограничение на количество конечных точек равно 100, можно создать 100 конечных точек в регионе "Восточная часть США", 100 конечных точек в регионе "Западная часть США" и 100 конечных точек в каждом из других поддерживаемых регионов в одной подписке. Тот же принцип применяется ко всем другим ограничениям.

    В именах конечных точек и развертываний принимается 2 однотирные дефисы my-endpoint-name.

    3 Конечные точки и развертывания могут иметь разные типы, но ограничения применяются к сумме всех типов. Например, сумма управляемых сетевых конечных точек, конечная точка Kubernetes online и пакетная конечная точка в каждой подписке по умолчанию не может превышать 100 для каждого региона. Аналогичным образом сумма управляемых сетевых развертываний, веб-развертываний Kubernetes и пакетных развертываний в каждой подписке не может превышать 500 на регион по умолчанию.

    4 Мы резервируем 20% дополнительных вычислительных ресурсов для выполнения обновлений. Например, если вы запрашиваете 10 экземпляров в развертывании, необходимо иметь квоту на 12 единиц. В противном случае вы получите сообщение об ошибке. Существуют некоторые номера SKU виртуальных машин, исключенные из дополнительной квоты. Дополнительные сведения о выделении квот см. в статье о выделении квот виртуальной машины для развертывания.

    5 запросов в секунду, подключения, пропускная способность и т. д. связаны. Если вы запрашиваете увеличение любого из этих ограничений, убедитесь, что вы оцениваете или вычисляете другие связанные ограничения вместе.

    Выделение квот виртуальной машины для развертывания

    Для управляемых сетевых конечных точек Машинное обучение Azure резервирует 20 % вычислительных ресурсов для выполнения обновлений на некоторых номерах SKU виртуальных машин. Если вы запрашиваете определенное количество экземпляров для этих SKU виртуальных машин в развертывании, необходимо иметь квоту, чтобы ceil(1.2 * number of instances requested for deployment) * number of cores for the VM SKU избежать возникновения ошибки. Например, если вы запрашиваете 10 экземпляров виртуальной машины Standard_DS3_v2 (которая поставляется с четырьмя ядрами) в развертывании, у вас должна быть квота на 48 ядер () (12 instances * 4 coresдоступно). Эта дополнительная квота зарезервирована для операций, инициируемых системой, таких как обновления ОС и восстановление виртуальной машины, и она не будет стоить, если такие операции не выполняются.

    Существуют определенные номера SKU виртуальных машин, исключенные из дополнительного резервирования квот. Чтобы просмотреть полный список, ознакомьтесь со списком SKU управляемых конечных точек в Интернете. Чтобы просмотреть увеличение квоты на использование и запрос, ознакомьтесь с разделом "Просмотр использования и квот" в портал Azure. Чтобы просмотреть затраты на запуск управляемой сетевой конечной точки, см. статью " Просмотр затрат на управляемую конечную точку в Сети".

    Конвейеры Машинного обучение Azure

    Конвейеры Машинного обучения Azure имеют следующие ограничения.

    Ресурс Лимит
    Шаги в конвейере 30,000
    Максимальное количество рабочих областей на группу ресурсов 800

    интеграция Машинное обучение Azure с Synapse

    Машинное обучение Azure бессерверный Spark обеспечивает простой доступ к распределенным вычислительным возможностям для масштабирования заданий Apache Spark. Бессерверный Spark использует ту же выделенную квоту, что и Машинное обучение Azure вычислений. Ограничения квот можно увеличить, отправив запрос в службу поддержки и запрашивая увеличение квоты и ограничения для серии ESv3 в категории "Машинное обучение Служба: квота виртуальной машины".

    Чтобы просмотреть использование квот, перейдите к Машинное обучение studio и выберите имя подписки, для которой вы хотите просмотреть сведения об использовании. Выберите "Квота" на левой панели.

    Снимок экрана: квоты Машинное обучение Azure.

    Виртуальные машины

    Каждая подписка Azure имеет ограничение на количество виртуальных машин во всех службах. Для ядер виртуальных машин существует региональное ограничение на общее количество и региональное ограничение по размерам серий. Оба ограничения применяются отдельно.

    Например, рассмотрим подписку с ограничением до 30 ядер виртуальных машин с восточной части США, 30 ядер серии A и 30 ядер серии D. Эта подписка может быть разрешена для развертывания 30 виртуальных машин A1 или 30 виртуальных машин D1 или сочетания двух виртуальных машин, не превышающих 30 ядер.

    Вы не можете поднять ограничения для виртуальных машин выше значений, указанных в следующей таблице.

    Ресурс Ограничение
    Подписки Azure, связанные с клиентом Microsoft Entra Не ограничено
    Соадминистраторы на подписку Не ограничено
    Количество групп ресурсов на подписку 980
    Размер запроса API Azure Resource Manager 4 194 304 байт
    Количество тегов на подписку1 50
    Количество вычислений уникальных тегов на подписку2 80 000
    Количество развертываний на уровне подписки на расположение 8003
    Расположение развертываний на уровне подписки 10

    1 Вы можете применить до 50 тегов непосредственно к подписке. В рамках подписки каждый ресурс или группа ресурсов также ограничен 50 тегами. Однако подписка может содержать неограниченное количество тегов, распределенных по ресурсам и группам ресурсов.

    2Диспетчер ресурсов возвращает список имен и значений тегов в подписке, только если число уникальных тегов не превышает 80000. Уникальный тег определяется сочетанием ИД ресурса, имени тега и значения тега. Например, два ресурса с одинаковыми именами и значениями тегов будут вычисляться как два уникальных тега. Но вы по-прежнему можете найти ресурс по тегу, если это число превышает 80 000.

    3Развертывания автоматически удаляются из журнала, когда вы приближаетесь к ограничению. См. статью Автоматическое удаление из журнала развертывания.

    Экземпляры контейнеров

    Дополнительные сведения см. в разделе Ограничения экземпляров контейнеров.

    Хранилище

    Служба хранилища Azure имеет ограничение в 250 учетных записей хранения в регионе для каждой подписки. Сюда входят учетные записи хранения категории "Стандартный" и "Премиум".

    Квоты уровня рабочей области

    Квоты уровня рабочей области используются для управления распределением целевых объектов вычислений Машинного обучения Azure между несколькими рабочими областями в одной подписке.

    По умолчанию ко всем рабочим областям применяется общая квота уровня подписки для семейств виртуальных машин. Однако вы можете задать максимальную квоту для отдельных семейств виртуальных машин в рабочих областях в подписке. С помощью квот для отдельных семейств виртуальных машин можно разделить производительность и предотвратить проблемы с содержимым ресурсов.

    1. Перейдите в любую рабочую область в своей подписке.
    2. В левой панели выберите Использование и квоты.
    3. Затем перейдите на вкладку Настройки квот, чтобы просмотреть квоты.
    4. Разверните семейство виртуальных машин.
    5. Установите квоту для любой рабочей области, перечисленной для этого семейства виртуальных машин.

    Однако вы не можете задать отрицательное значение или значение выше квоты уровня подписки.

    Снимок экрана: выбор квоты уровня рабочей области Машинного обучения Azure.

    Примечание.

    Для задания квоты на уровне рабочего пространства необходимы разрешения уровня подписки.

    Просмотр квот в Studio

    1. При создании нового вычислительного ресурса по умолчанию отображаются только размеры виртуальных машин, которые уже имеют квоту. Переключите представление, нажав Выбрать из всех вариантов.

      Снимок экрана: выбор всех параметров для просмотра вычислительных ресурсов, требующих дополнительную квоту

    2. Прокрутите вниз, пока не увидите список размеров виртуальных машин, для которых нет квоты.

      Снимок экрана, список ресурсов, для которых нет квоты

    3. Используйте ссылку, чтобы создать запрос на поддержку для получения дополнительной квоты.

    Просмотр использования и квот на портале Azure

    Чтобы просмотреть квоты для различных ресурсов Azure, таких как виртуальные машины, хранилище или сеть, используйте портал Azure:

    1. В левой панели выберите Все службы, а затем в категории Общее выберите Подписки.

    2. В списке подписок выберите ту подписку, квоту которой хотите увидеть.

    3. Нажмите Usage + quotas (Использование и квоты), чтобы просмотреть текущее использование и квоты. Используйте фильтры для выбора поставщика и расположений.

      Управление квотами Вычислительной среды Машинного обучения Azure в подписке выполняется отдельно от других квот Azure.

    4. На портале Azure перейдите к рабочей области Машинного обучения Azure.

    5. В левой панели в разделе Support + troubleshooting (Поддержка и устранение неполадок) нажмите Usage + quotas (Использование и квоты), чтобы просмотреть текущие квоты и их использование.

      Снимок экрана: представление портала Azure о текущих ограничениях квоты и использовании.

    6. Выберите подписку, для которой нужно просмотреть квоты. Выполните фильтрацию по интересующему региону.

    7. Вы можете переключаться между представлением уровня подписки и представлением уровня рабочей области.

    Запрос увеличения квоты и ограничения

    Увеличение квоты виртуальной машины представляет собой увеличение количества ядер для одного семейства виртуальных машин в каждом регионе. Увеличение лимита конечных точек означает увеличение лимитов для конкретных конечных точек на подписку в каждом регионе. При отправке запроса на увеличение квоты выберите нужную категорию, как описано в следующем разделе.

    Увеличение квоты виртуальной машины

    Чтобы увеличить ограничение для квоты Машинное обучение Azure виртуальной машины выше предела по умолчанию, можно запросить увеличение квоты из представления "Использование и квоты" или отправить запрос на увеличение квоты из Студия машинного обучения Azure.

    1. Перейдите на страницу Использование и квоты, выполнив описанные выше действия. Ознакомьтесь с действующими ограничениями для квот. Выберите номер SKU, для которого необходимо запросить увеличение.

      Снимок экрана: сведения о квоте на виртуальные машины.

    2. Укажите квоту, которую необходимо увеличить, а также введите новое значение ограничения. Наконец, нажмите кнопку Отправить.

      Снимок экрана: форма запроса новой квоты на виртуальные машины.

    Увеличение ограничения конечной точки

    Для повышения ограничения конечной точки отправьте запрос в службу поддержки. При отправке запроса на увеличение ограничения конечной точки необходимо предоставить следующие сведения:

    1. При открытии запроса на поддержку выберите Ограничения службы и подписки (квоты) в качестве типа проблемы.

    2. Выберите нужную подписку.

    3. Выберите Служба машинного обучения: ограничения конечных точек в качестве типа квоты.

    4. На вкладке Дополнительные сведения подробно опишите причины увеличения ограничения. Это необходимо для обработки запроса. Выберите Ввести сведения, а затем укажите ограничение, которое требуется увеличить, а также новое значение каждого ограничения, причину запроса на увеличение ограничения и расположения, в которых требуется увеличить ограничение. Обязательно укажите следующие сведения в причине увеличения ограничения:

      1. описание сценария и рабочей нагрузки (например, текст, изображение и т.д.);
      2. обоснование запрошенного увеличения;
        1. целевую пропускную способность и ее шаблон (среднее/пиковое число запросов в секунду, количество одновременных пользователей);
        2. целевую задержку в масштабе и текущую задержку, наблюдаемую для одного экземпляра;
        3. SKU виртуальной машины и общее количество экземпляров, для которых требуется поддержка целевой пропускной способности и задержки; а также число конечных точек, развертываний или экземпляров, которые планируется использовать в каждом регионе;
        4. сведения о наличии теста производительности, указывающего, что выбранный номер SKU виртуальной машины и количество экземпляров должны удовлетворить требованиям к пропускной способности и задержке;
        5. тип полезной нагрузки и размер отдельной полезной нагрузки; (пропускная способность сети должна соответствовать размеру полезной нагрузки и числу запросов в секунду);
        6. поэтапный план внедрения (к какому сроку нужно увеличить ограничения, если вы его знаете), а также сведения том, (1) отражаются ли затраты на работу в этом масштабе на вашем бюджете и (2) утверждены ли целевые номера SKU виртуальных машин.
    5. Наконец, нажмите кнопку Сохранить и продолжить.

      Снимок экрана: форма сведений об ограничении конечной точки.

      Примечание.

      Такой запрос увеличения ограничения конечной точки отличается от запроса увеличения квоты на виртуальную машину. Если запрос связан с увеличением квот на виртуальную машину, выполните действия, описанные в разделе Увеличение квот на виртуальные машины.

    Увеличение предела вычислений

    Для увеличения общего вычислительного ограничения подайте запрос в службу поддержки. Введите следующую информацию:

    1. При открытии запроса на поддержку выберите Техническая в качестве типа проблемы.

    2. Выберите нужную подписку

    3. Выберите Машинное обучение в качестве Службы.

    4. Выберите имя нужного ресурса

    5. В разделе с общими сведениями укажите «Повышение общих вычислительных ограничений»

    6. Выберите Вычислительный кластер в качестве Типа проблемы и Кластер не масштабируется или завис при изменении размера в качестве подтипа проблемы.

      Снимок экрана: вкладка описания проблемы.

    7. На вкладке Дополнительные сведения укажите идентификатор подписки, регион, новое значение ограничения (от 500 до 2500) и бизнес-обоснование, если вы хотите увеличить общее вычислительное ограничение в этом регионе.

      Снимок экрана: вкладка дополнительных сведений.

    8. Наконец, выберите Создать, чтобы открыть запрос в службе поддержки.