Обучение модели для бессерверных вычислений

Статья
11/15/2023

ОБЛАСТЬ ПРИМЕНЕНИЯ:Расширение машинного обучения Azure CLI версии 2 (current)Python SDK azure-ai-ml версии 2 (current)

Вам больше не нужно создавать вычислительные ресурсы и управлять ими для обучения модели масштабируемым способом. Вместо этого задание можно отправить в новый тип целевого объекта вычислений, который называется бессерверным вычислением. Бессерверные вычисления — самый простой способ выполнения заданий обучения на Машинное обучение Azure. Бессерверные вычисления — это полностью управляемые вычислительные ресурсы по запросу. Машинное обучение Azure создает, масштабирует и управляет вычислительными ресурсами. Благодаря обучению моделей с бессерверными вычислениями специалисты машинного обучения могут сосредоточиться на их опыте в создании моделей машинного обучения, а не знать о вычислительной инфраструктуре или его настройке.

Специалисты по машинному обучению могут указать ресурсы, необходимые для работы. Машинное обучение Azure управляет вычислительной инфраструктурой и предоставляет изоляция управляемой сети снижения нагрузки на вас.

Предприятия также могут сократить затраты, указав оптимальные ресурсы для каждого задания. ИТ-администраторы по-прежнему могут применять контроль, указывая квоту ядер на уровне подписки и рабочей области и применяя политики Azure.

Бессерверные вычисления можно использовать для точной настройки моделей в каталоге моделей, таких как LLAMA 2. Бессерверные вычисления можно использовать для выполнения всех типов заданий из Студия машинного обучения Azure, пакета SDK и интерфейса командной строки. Бессерверные вычисления также можно использовать для создания образов среды и сценариев ответственной панели мониторинга ИИ. Бессерверные задания используют ту же квоту, что и квота вычислений Машинное обучение Azure. Вы можете выбрать стандартный (выделенный) уровень или точечные (низкоприоритетные) виртуальные машины. Управляемое удостоверение и удостоверение пользователя поддерживаются для бессерверных заданий. Модель выставления счетов аналогична Машинное обучение Azure вычислениям.

Преимущества бессерверных вычислений

Машинное обучение Azure управляет созданием, настройкой, масштабированием, удалением, исправлением, вычислительным инфраструктурой, сокращением затрат на управление
Вам не нужно узнать о вычислениях, различных типах вычислений и связанных свойствах.
Для каждого размера виртуальной машины не требуется повторно создавать кластеры, используя одинаковые параметры и репликацию для каждой рабочей области.
Вы можете оптимизировать затраты, указав точные ресурсы, необходимые каждому заданию во время выполнения с точки зрения типа экземпляра (размер виртуальной машины) и количества экземпляров. Вы можете отслеживать метрики использования задания для оптимизации ресурсов, необходимых для задания.
Сокращение шагов, связанных с выполнением задания
Чтобы упростить отправку заданий, можно полностью пропустить ресурсы. Машинное обучение Azure по умолчанию количество экземпляров и выбирает тип экземпляра (размер виртуальной машины) на основе таких факторов, как квота, стоимость, производительность и размер диска.
Меньше времени ожидания перед началом выполнения заданий в некоторых случаях.
Управляемое удостоверение пользователя и управляемое удостоверение, назначаемое пользователем рабочей области, поддерживается для отправки заданий.
С помощью изоляция управляемой сети можно оптимизировать конфигурацию сетевой изоляции и автоматизировать ее. Виртуальная сеть клиента также поддерживается
Управление администратором с помощью квот и политик Azure

Использование бессерверных вычислений

Вы можете точно настроить базовые модели, такие как LLAMA 2, с помощью записных книжек, как показано ниже:
- Точное настройка LLAMA 2
- Настройка LLAMA 2 с помощью нескольких узлов
При создании собственного вычислительного кластера в задании команды используется его имя, например compute="cpu-cluster". С бессерверным вы можете пропустить создание вычислительного кластера и опустить compute параметр, чтобы вместо этого использовать бессерверные вычисления. Если compute задание не указано, задание выполняется на бессерверных вычислениях. Опустите имя вычислений в заданиях CLI или SDK для использования бессерверных вычислений в следующих типах заданий и при необходимости предоставьте ресурсы, необходимые для количества экземпляров и типа экземпляров:
- Задания команд, включая интерактивные задания и распределенное обучение
- Задания AutoML
- Очистка заданий
- Параллельные задания
Для заданий конвейера с помощью интерфейса командной строки используется default_compute: azureml:serverless для вычислений уровня конвейера по умолчанию. Для заданий конвейеров с помощью default_compute="serverless"пакета SDK. Пример задания конвейера.
При отправке задания обучения в студии (предварительная версия) выберите бессерверный тип вычислений.
При использовании конструктора Машинное обучение Azure выберите бессерверные вычисления по умолчанию.
Вы можете использовать бессерверные вычисления для ответственной панели мониторинга искусственного интеллекта
- Сценарий классификации изображений AutoML с помощью панели мониторинга RAI

Замечания, связанные с быстродействием

Бессерверные вычисления помогают ускорить обучение следующим образом:

Недостаточно квоты. При создании собственного вычислительного кластера вы несете ответственность за определение размера виртуальной машины и количества узлов для создания. Когда задание выполняется, если у вас нет достаточной квоты для кластера, задание завершается ошибкой. Бессерверные вычисления используют сведения о квоте, чтобы выбрать соответствующий размер виртуальной машины по умолчанию.

Оптимизация уменьшения масштаба. При уменьшении масштаба вычислительного кластера новое задание должно ожидать, пока произойдет масштабирование, а затем увеличить масштаб до запуска задания. При использовании бессерверных вычислений вам не нужно ожидать уменьшения масштаба, и задание может начать работу на другом кластере или узле (если у вас есть квота).

Оптимизация занятости кластера: при выполнении задания в вычислительном кластере и отправке другого задания задание находится в очереди за текущим запущенным заданием. При использовании бессерверных вычислений вы получите другой узел или другой кластер для запуска задания (если у вас есть квота).

Квота

При отправке задания вам по-прежнему потребуется достаточно Машинное обучение Azure квоту вычислений для продолжения (квоты уровня рабочей области и подписки). Размер виртуальной машины по умолчанию для бессерверных заданий выбирается на основе этой квоты. Если указать собственный размер или семейство виртуальных машин:

Если у вас есть квота для размера или семейства виртуальных машин, но недостаточно квоты для количества экземпляров, вы увидите ошибку. Ошибка рекомендует уменьшить количество экземпляров до допустимого числа на основе квоты или запросить увеличение квоты для этого семейства виртуальных машин или изменение размера виртуальной машины.
Если у вас нет квоты для указанного размера виртуальной машины, появится ошибка. Ошибка рекомендует выбрать другой размер виртуальной машины, для которой у вас есть квота или квота запроса для этого семейства виртуальных машин.
Если для выполнения бессерверного задания достаточно квоты для семейства виртуальных машин, но другие задания используют квоту, вы получите сообщение о том, что задание должно ждать в очереди, пока квота не будет доступна.

При просмотре использования и квоты в портал Azure отображается имя "Бессерверное" для просмотра всех квот, потребляемых бессерверными заданиями.

Поддержка удостоверений и передача учетных данных

Учетные данные пользователя проходят через: бессерверные вычисления полностью поддерживают передачу учетных данных пользователя. Маркер пользователя, отправляющего задание, используется для доступа к хранилищу. Эти учетные данные относятся к идентификатору Microsoft Entra.

Пакет SDK для Python
Azure CLI

from azure.ai.ml import command
from azure.ai.ml import MLClient     # Handle to the workspace
from azure.identity import DefaultAzureCredential     # Authentication package
from azure.ai.ml.entities import ResourceConfiguration
from azure.ai.ml.entities import UserIdentityConfiguration 

credential = DefaultAzureCredential()
# Get a handle to the workspace. You can find the info on the workspace tab on ml.azure.com
ml_client = MLClient(
    credential=credential,
    subscription_id="<Azure subscription id>", 
    resource_group_name="<Azure resource group>",
    workspace_name="<Azure Machine Learning Workspace>",
)
job = command(
    command="echo 'hello world'",
    environment="AzureML-sklearn-1.0-ubuntu20.04-py38-cpu@latest",
        identity=UserIdentityConfiguration(),
)
# submit the command job
ml_client.create_or_update(job)

$schema: https://azuremlschemas.azureedge.net/latest/commandJob.schema.json
command: echo "hello world"
environment:
  image: azureml:AzureML-sklearn-1.0-ubuntu20.04-py38-cpu@latest
identity:
  type: user_identity

Назначаемое пользователем управляемое удостоверение : если у вас есть рабочая область, настроенная с управляемым удостоверением, назначаемым пользователем, можно использовать это удостоверение с бессерверным заданием для доступа к хранилищу.

Пакет SDK для Python
Azure CLI

from azure.ai.ml import command
from azure.ai.ml import MLClient     # Handle to the workspace
from azure.identity import DefaultAzureCredential    # Authentication package
from azure.ai.ml.entities import ResourceConfiguration
from azure.ai.ml.entities import ManagedIdentityConfiguration

credential = DefaultAzureCredential()
# Get a handle to the workspace. You can find the info on the workspace tab on ml.azure.com
ml_client = MLClient(
    credential=credential,
    subscription_id="<Azure subscription id>", 
    resource_group_name="<Azure resource group>",
    workspace_name="<Azure Machine Learning Workspace>",
)
job = command(
    command="echo 'hello world'",
    environment="AzureML-sklearn-1.0-ubuntu20.04-py38-cpu@latest",
        identity= ManagedIdentityConfiguration(),
)
# submit the command job
ml_client.create_or_update(job)

$schema: https://azuremlschemas.azureedge.net/latest/commandJob.schema.json
command: echo "hello world"
environment:
  image: azureml:AzureML-sklearn-1.0-ubuntu20.04-py38-cpu@latest
identity:
  type: managed

Сведения о присоединении управляемого удостоверения, назначаемого пользователем, см. в разделе "Присоединение управляемого удостоверения, назначаемого пользователем".

Настройка свойств для заданий команд

Если целевой объект вычислений не указан для заданий команды, очистки и автоМЛ, то вычисления по умолчанию не заданы для бессерверных вычислений. Например, для этого задания команды:

Пакет SDK для Python
Azure CLI

from azure.ai.ml import command
from azure.ai.ml import command 
from azure.ai.ml import MLClient # Handle to the workspace
from azure.identity import DefaultAzureCredential # Authentication package

credential = DefaultAzureCredential()
# Get a handle to the workspace. You can find the info on the workspace tab on ml.azure.com
ml_client = MLClient(
    credential=credential,
    subscription_id="<Azure subscription id>", 
    resource_group_name="<Azure resource group>",
    workspace_name="<Azure Machine Learning Workspace>",
)
job = command(
    command="echo 'hello world'",
    environment="AzureML-sklearn-1.0-ubuntu20.04-py38-cpu@latest",
)
# submit the command job
ml_client.create_or_update(job)

$schema: https://azuremlschemas.azureedge.net/latest/commandJob.schema.json
command: echo "hello world"
environment:
  image: library/python:latest

Вычисление по умолчанию использует бессерверные вычисления с помощью следующих значений:

Один узел для этого задания. Число узлов по умолчанию основано на типе задания. См. следующие разделы для других типов заданий.
Виртуальная машина ЦП, определяемая на основе квоты, производительности, затрат и размера диска.
Выделенные виртуальные машины
Расположение рабочей области

Эти значения по умолчанию можно переопределить. Если вы хотите указать тип виртуальной машины или количество узлов для бессерверных вычислений, добавьте resources в задание:

instance_type выберите определенную виртуальную машину. Используйте этот параметр, если требуется определенный размер виртуальной машины ЦП или GPU

instance_count , чтобы указать количество узлов.

Пакет SDK для Python
Azure CLI

from azure.ai.ml import command 
from azure.ai.ml import MLClient # Handle to the workspace
from azure.identity import DefaultAzureCredential # Authentication package
from azure.ai.ml.entities import JobResourceConfiguration 

credential = DefaultAzureCredential()
# Get a handle to the workspace. You can find the info on the workspace tab on ml.azure.com
ml_client = MLClient(
    credential=credential,
    subscription_id="<Azure subscription id>", 
    resource_group_name="<Azure resource group>",
    workspace_name="<Azure Machine Learning Workspace>",
)
job = command(
    command="echo 'hello world'",
    environment="AzureML-sklearn-1.0-ubuntu20.04-py38-cpu@latest",
    resources = JobResourceConfiguration(instance_type="Standard_NC24", instance_count=4)
)
# submit the command job
ml_client.create_or_update(job)

$schema: https://azuremlschemas.azureedge.net/latest/commandJob.schema.json
command: echo "hello world"
environment:
  image: library/python:latest
resources:
  instance_count: 4
  instance_type: Standard_NC24

Чтобы изменить уровень заданий, используйте queue_settings выбор между выделенными виртуальными машинами (job_tier: Standard) и низким приоритетом(jobtier: Spot).

Пакет SDK для Python
Azure CLI

from azure.ai.ml import command
from azure.ai.ml import MLClient    # Handle to the workspace
from azure.identity import DefaultAzureCredential    # Authentication package
credential = DefaultAzureCredential()
# Get a handle to the workspace. You can find the info on the workspace tab on ml.azure.com
ml_client = MLClient(
    credential=credential,
    subscription_id="<Azure subscription id>", 
    resource_group_name="<Azure resource group>",
    workspace_name="<Azure Machine Learning Workspace>",
)
job = command(
    command="echo 'hello world'",
    environment="AzureML-sklearn-1.0-ubuntu20.04-py38-cpu@latest",
    queue_settings={
      "job_tier": "spot"  
    }
)
# submit the command job
ml_client.create_or_update(job)

$schema: https://azuremlschemas.azureedge.net/latest/commandJob.schema.json
component: ./train.yml 
queue_settings:
   job_tier: Standard #Possible Values are Standard (dedicated), Spot (low priority). Default is Standard.

Пример для всех полей с заданиями команд

Ниже приведен пример всех полей, указанных в том числе удостоверение, используемое заданием. Нет необходимости указывать параметры виртуальной сети в качестве уровня рабочей области изоляция управляемой сети автоматически используется.

Пакет SDK для Python
Azure CLI

from azure.ai.ml import command
from azure.ai.ml import MLClient      # Handle to the workspace
from azure.identity import DefaultAzureCredential     # Authentication package
from azure.ai.ml.entities import ResourceConfiguration
from azure.ai.ml.entities import UserIdentityConfiguration 

credential = DefaultAzureCredential()
# Get a handle to the workspace. You can find the info on the workspace tab on ml.azure.com
ml_client = MLClient(
    credential=credential,
    subscription_id="<Azure subscription id>", 
    resource_group_name="<Azure resource group>",
    workspace_name="<Azure Machine Learning Workspace>",
)
job = command(
    command="echo 'hello world'",
    environment="AzureML-sklearn-1.0-ubuntu20.04-py38-cpu@latest",
         identity=UserIdentityConfiguration(),
    queue_settings={
      "job_tier": "Standard"  
    }
)
job.resources = ResourceConfiguration(instance_type="Standard_E4s_v3", instance_count=1)
# submit the command job
ml_client.create_or_update(job)

$schema: https://azuremlschemas.azureedge.net/latest/commandJob.schema.json
command: echo "hello world"
environment:
  image: azureml:AzureML-sklearn-1.0-ubuntu20.04-py38-cpu@latest
queue_settings:
   job_tier: Standard #Possible Values are Standard, Spot. Default is Standard.
identity:
  type: user_identity #Possible values are Managed, user_identity
resources:
  instance_count: 1
  instance_type: Standard_E4s_v3

Просмотрите дополнительные примеры обучения с бессерверными вычислениями по адресу:-

Быстрое начало
Train Model (Обучение модели);

Задание AutoML

Нет необходимости указывать вычислительные ресурсы для заданий AutoML. При необходимости можно указать ресурсы. Если число экземпляров не указано, по умолчанию используется max_concurrent_trials и параметры max_nodes. Если вы отправляете классификацию образов AutoML или задачу NLP без типа экземпляра, размер виртуальной машины GPU автоматически выбирается. Можно отправить задание AutoML через интерфейсы CLIs, ПАКЕТ SDK или Studio. Чтобы отправить задания AutoML с бессерверными вычислениями в студии, сначала включите задание обучения в студии (предварительная версия) на панели предварительной версии.

Пакет SDK для Python
Azure CLI

Если вы хотите указать тип или число экземпляров, используйте ResourceConfiguration класс.

# Create the AutoML classification job with the related factory-function.
from azure.ai.ml.entities import ResourceConfiguration 

classification_job = automl.classification(
    experiment_name=exp_name,
    training_data=my_training_data_input,
    target_column_name="y",
    primary_metric="accuracy",
    n_cross_validations=5,
    enable_model_explainability=True,
    tags={"my_custom_tag": "My custom value"},
)

# Limits are all optional
classification_job.set_limits(
    timeout_minutes=600,
    trial_timeout_minutes=20,
    max_trials=max_trials,
    # max_concurrent_trials = 4,
    # max_cores_per_trial: -1,
    enable_early_termination=True,
)

# Training properties are optional
classification_job.set_training(
    blocked_training_algorithms=[ClassificationModels.LOGISTIC_REGRESSION],
    enable_onnx_compatible_models=True,
)

# Serverless compute resources used to run the job
classification_job.resources = 
ResourceConfiguration(instance_type="Standard_E4s_v3", instance_count=6)

Если вы хотите указать тип или число экземпляров, добавьте resources раздел.

$schema: https://azuremlsdk2.blob.core.windows.net/preview/0.0.1/autoMLJob.schema.json
type: automl
experiment_name: dpv2-cli-automl-classifier-experiment
description: A Classification job using bank marketing
# Serverless compute is used to run this AutoML job. 
# Through serverless compute, Azure Machine Learning takes care of creating, scaling, deleting, patching and managing compute, along with providing managed network isolation, reducing the burden on you.

task: classification
log_verbosity: debug
primary_metric: accuracy

target_column_name: "y"

#validation_data_size: 0.20
#n_cross_validations: 5
#test_data_size: 0.1

training_data:
  path: "./training-mltable-folder"
  type: mltable
validation_data:
  path: "./validation-mltable-folder"
  type: mltable
test_data:
  path: "./test-mltable-folder"
  type: mltable

limits:
  timeout_minutes: 180
  max_trials: 40
  max_concurrent_trials: 5
  trial_timeout_minutes: 20
  enable_early_termination: true
  exit_score: 0.92

featurization:
  mode: custom
  transformer_params:
    imputer:
      - fields: ["job"]
        parameters:
          strategy: most_frequent
  blocked_transformers:
    - WordEmbedding
training:
  enable_model_explainability: true
  allowed_training_algorithms:
    - gradient_boosting
    - logistic_regression
# Resources to run this serverless job
resources:
  instance_type="Standard_E4s_v3"
  instance_count=5

Для задания конвейера укажите "serverless" тип вычислений по умолчанию для использования бессерверных вычислений.

# Construct pipeline
@pipeline()
def pipeline_with_components_from_yaml(
    training_input,
    test_input,
    training_max_epochs=20,
    training_learning_rate=1.8,
    learning_rate_schedule="time-based",
):
    """E2E dummy train-score-eval pipeline with components defined via yaml."""
    # Call component obj as function: apply given inputs & parameters to create a node in pipeline
    train_with_sample_data = train_model(
        training_data=training_input,
        max_epochs=training_max_epochs,
        learning_rate=training_learning_rate,
        learning_rate_schedule=learning_rate_schedule,
    )

    score_with_sample_data = score_data(
        model_input=train_with_sample_data.outputs.model_output, test_data=test_input
    )
    score_with_sample_data.outputs.score_output.mode = "upload"

    eval_with_sample_data = eval_model(
        scoring_result=score_with_sample_data.outputs.score_output
    )

    # Return: pipeline outputs
    return {
        "trained_model": train_with_sample_data.outputs.model_output,
        "scored_data": score_with_sample_data.outputs.score_output,
        "evaluation_report": eval_with_sample_data.outputs.eval_output,
    }


pipeline_job = pipeline_with_components_from_yaml(
    training_input=Input(type="uri_folder", path=parent_dir + "/data/"),
    test_input=Input(type="uri_folder", path=parent_dir + "/data/"),
    training_max_epochs=20,
    training_learning_rate=1.8,
    learning_rate_schedule="time-based",
)

# set pipeline to use serverless compute
pipeline_job.settings.default_compute = "serverless"

Для задания конвейера укажите azureml:serverless тип вычислений по умолчанию для использования бессерверных вычислений.

$schema: https://azuremlschemas.azureedge.net/latest/pipelineJob.schema.json
type: pipeline
display_name: 1b_e2e_registered_components
description: E2E dummy train-score-eval pipeline with registered components
# Serverless compute is used to run this pipeline job. 
# Through serverless compute, Azure Machine Learning takes care of creating, scaling, deleting, patching and managing compute, along with providing managed network isolation, reducing the burden on you.
inputs:
  pipeline_job_training_max_epocs: 20
  pipeline_job_training_learning_rate: 1.8
  pipeline_job_learning_rate_schedule: 'time-based'

outputs: 
  pipeline_job_trained_model:
    mode: upload
  pipeline_job_scored_data:
    mode: upload
  pipeline_job_evaluation_report:
    mode: upload

settings:
 default_compute: azureml:serverless

jobs:
  train_job:
    type: command
    component: azureml:my_train@latest
    inputs:
      training_data: 
        type: uri_folder 
        path: ./data      
      max_epocs: ${{parent.inputs.pipeline_job_training_max_epocs}}
      learning_rate: ${{parent.inputs.pipeline_job_training_learning_rate}}
      learning_rate_schedule: ${{parent.inputs.pipeline_job_learning_rate_schedule}}
    outputs:
      model_output: ${{parent.outputs.pipeline_job_trained_model}}
    services:
      my_vscode:
        type: vs_code
      my_jupyter_lab:
        type: jupyter_lab
      my_tensorboard:
        type: tensor_board
        log_dir: "outputs/tblogs"
    #  my_ssh:
    #    type: tensor_board
    #    ssh_public_keys: <paste the entire pub key content>
    #    nodes: all # Use the `nodes` property to pick which node you want to enable interactive services on. If `nodes` are not selected, by default, interactive applications are only enabled on the head node.

  score_job:
    type: command
    component: azureml:my_score@latest
    inputs:
      model_input: ${{parent.jobs.train_job.outputs.model_output}}
      test_data: 
        type: uri_folder 
        path: ./data
    outputs:
      score_output: ${{parent.outputs.pipeline_job_scored_data}}

  evaluate_job:
    type: command
    component: azureml:my_eval@latest
    inputs:
      scoring_result: ${{parent.jobs.score_job.outputs.score_output}}
    outputs:
      eval_output: ${{parent.outputs.pipeline_job_evaluation_report}}

Вы также можете задать бессерверные вычисления в качестве вычислений по умолчанию в конструкторе.

Следующие шаги