Развертывание и запуск моделей MLflow в заданиях Spark

Статья
09/02/2024

Из этой статьи вы узнаете, как развернуть и запустить модель MLflow в заданиях Spark, чтобы выполнить вывод по большим объемам данных или как часть заданий обработки данных.

Сведения об этом примере

В этом примере показано, как развернуть модель MLflow, зарегистрированную в Машинное обучение Azure задания Spark, выполняемые в управляемых кластерах Spark (предварительная версия), Azure Databricks или Azure Synapse Analytics, для вывода больших объемов данных.

Модель основана на наборе данных болезни сердца UCI. База данных содержит 76 атрибутов, но мы используем подмножество из 14 из них. Модель пытается предсказать наличие сердечно-сосудистых заболеваний у пациента. Целочисленное значение от 0 (нет присутствия) до 1 (присутствие). Он был обучен с помощью XGBBoost классификатора, и все необходимые предварительной обработки были упакованы в виде scikit-learn конвейера, что делает эту модель сквозным конвейером, который переходит от необработанных данных к прогнозам.

Сведения в этой статье основаны на примерах кода, имеющихся в репозитории azureml-examples. Для локального выполнения команд без необходимости копирования и вставки файлов клонируйте репозиторий, а затем измените каталоги sdk/using-mlflow/deployна .

git clone https://github.com/Azure/azureml-examples --depth 1
cd sdk/python/using-mlflow/deploy

Необходимые компоненты

Перед выполнением действий, описанных в этой статье, убедитесь, что выполнены следующие необходимые условия:

Установите пакет mlflow SDK MLflow и подключаемый модуль Машинное обучение Azure azureml-mlflow для MLflow:
```
pip install mlflow azureml-mlflow
```
Совет

Вы можете использовать mlflow-skinny пакет, который является упрощенным пакетом MLflow без хранилища SQL, сервера, пользовательского интерфейса или зависимостей для обработки и анализа данных. mlflow-skinny рекомендуется для пользователей, которым в первую очередь нужны возможности отслеживания И ведения журнала MLflow, не импортируя полный набор функций, включая развертывания.
Рабочая область Машинного обучения Azure. Сведения о создании рабочей области см. в руководстве по созданию ресурсов машинного обучения. Просмотрите разрешения доступа, необходимые для выполнения операций MLflow в рабочей области.
Если вы выполняете удаленное отслеживание (то есть отслеживайте эксперименты, выполняемые вне Машинное обучение Azure), настройте MLflow, чтобы указать URI отслеживания рабочей области Машинное обучение Azure. Дополнительные сведения о подключении MLflow к рабочей области см. в разделе "Настройка MLflow" для Машинное обучение Azure.

В рабочей области должна быть зарегистрирована модель MLflow. В частности, в этом примере будет зарегистрирована модель, обученная для набора данных диабета.

Подключение к рабочей области

Сначала давайте подключимся к рабочей области Машинное обучение Azure, где зарегистрирована модель.

вычисления Машинное обучение Azure
Удаленные вычисления

Отслеживание уже настроено для вас. Учетные данные по умолчанию также будут использоваться при работе с MLflow.

Настройка URI отслеживания

Получите URI отслеживания для рабочей области:
ОБЛАСТЬ ПРИМЕНЕНИЯ: расширение машинного обучения Azure CLI версии 2 (текущее)
1. Войдите и настройте рабочую область:
```
az account set --subscription <subscription>
az configure --defaults workspace=<workspace> group=<resource-group> location=<location> 
```
2. URI отслеживания можно получить с помощью az ml workspace команды:
```
az ml workspace show --query mlflow_tracking_uri
```
ОБЛАСТЬ ПРИМЕНЕНИЯ: Пакет SDK для Python azure-ai-ml версии 2 (current)

Вы можете получить URI отслеживания MLflow для Azure ML с помощью пакета SDK для Машинного обучения Azure версии 2 для Python. Убедитесь, что у вас установлена библиотека azure-ai-ml в используемом вычислении. В следующем примере возвращается уникальный URI отслеживания MLFLow, связанный с рабочей областью.
1. Войдите в рабочую область с помощью .MLClient Проще сделать это с помощью файла конфигурации рабочей области:
```
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

ml_client = MLClient.from_config(credential=DefaultAzureCredential())
```
  Совет
  
  Вы можете скачать файл конфигурации рабочей области следующим способом:
  
  Перейдите в Студию машинного обучения Azure
  
  Щелкните правый верхний угол страницы —> скачайте файл конфигурации.
  
  Сохраните файл config.json в том же каталоге, с которым вы работаете.
2. Кроме того, можно использовать идентификатор подписки, имя группы ресурсов и имя рабочей области, чтобы получить его:
```
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

#Enter details of your AzureML workspace
subscription_id = '<SUBSCRIPTION_ID>'
resource_group = '<RESOURCE_GROUP>'
workspace_name = '<WORKSPACE_NAME>'

ml_client = MLClient(credential=DefaultAzureCredential(),
                        subscription_id=subscription_id, 
                        resource_group_name=resource_group,
                        workspace_name=workspace_name)
```
  Внимание
  
  DefaultAzureCredential попытается извлечь учетные данные из доступного контекста. Если вы хотите указать учетные данные другим способом, например, используя веб-браузер в интерактивном режиме, вы можете использовать InteractiveBrowserCredential или любой другой метод, доступный в пакете azure.identity.
3. Получите URI отслеживания Машинное обучение Azure:
```
mlflow_tracking_uri = ml_client.workspaces.get(ml_client.workspace_name).mlflow_tracking_uri
```
Используйте портал Машинное обучение Azure для получения URI отслеживания:
1. Откройте портал Студия машинного обучения Azure и войдите с помощью учетных данных.
2. В правом верхнем углу щелкните имя рабочей области, чтобы отобразить колонку "Каталог + подписка + рабочая область ".
3. Щелкните "Просмотреть все свойства" на портале Azure.
4. В разделе Essentials вы найдете универсальный код ресурса (URI) отслеживания MLflow.
URI отслеживания для Машинного обучения Azure можно создать с помощью идентификатора подписки, региона, в котором развернут ресурс, имени группы ресурсов и имени рабочей области. В следующем примере кода показано, как:

Предупреждение

Если вы работаете в рабочей области с поддержкой приватного канала, конечная точка MLflow также будет использовать приватный канал для связи с Машинное обучение Azure. В результате URI отслеживания будет выглядеть иначе, как показано здесь. Для этих случаев необходимо получить URI отслеживания с помощью пакета SDK машинного обучения Azure или CLI версии 2.
```
region = "<LOCATION>"
subscription_id = '<SUBSCRIPTION_ID>'
resource_group = '<RESOURCE_GROUP>'
workspace_name = '<AML_WORKSPACE_NAME>'

mlflow_tracking_uri = f"azureml://{region}.api.azureml.ms/mlflow/v1.0/subscriptions/{subscription_id}/resourceGroups/{resource_group}/providers/Microsoft.MachineLearningServices/workspaces/{workspace_name}"
```
Настройка URI отслеживания:
- с помощью MLflow;
- Использование переменных среды
Затем метод set_tracking_uri() указывает этот URI в качестве URI отслеживания MLFLow.
```
import mlflow

mlflow.set_tracking_uri(mlflow_tracking_uri)
```
Переменные среды MLflow можно задать MLFLOW_TRACKING_URI в вычислительных ресурсах, чтобы сделать любое взаимодействие с MLflow в этом вычислении, чтобы они указывали по умолчанию на Машинное обучение Azure.
```
MLFLOW_TRACKING_URI=$(az ml workspace show --query mlflow_tracking_uri | sed 's/"//g') 
```
Совет

При работе с общими средами, например в кластере Azure Databricks, кластере Azure Synapse Analytics или аналогичном, рекомендуется настроить переменную MLFLOW_TRACKING_URI среды на уровне кластера, чтобы автоматически настроить URI отслеживания MLflow, чтобы указывать на Машинное обучение Azure для всех сеансов, выполняемых в кластере, а не для каждого сеанса.

Настройка проверки подлинности

После настройки отслеживания необходимо также настроить, как проверка подлинности должна произойти с связанной рабочей областью. По умолчанию подключаемый модуль Машинное обучение Azure для MLflow будет выполнять интерактивную проверку подлинности, открыв браузер по умолчанию для запроса учетных данных. Сведения о настройке MLflow для Машинное обучение Azure: настройте проверку подлинности для дополнительных способов настройки проверки подлинности для MLflow в Машинное обучение Azure рабочих областях.

Для интерактивных заданий, в которых есть пользователь, подключенный к сеансу, можно полагаться на интерактивную проверку подлинности, поэтому дальнейшие действия не требуются.

Предупреждение

Интерактивная проверка подлинности браузера блокирует выполнение кода при запросе учетных данных. Этот подход не подходит для проверки подлинности в автоматических средах, таких как задания обучения. Рекомендуется настроить другой режим проверки подлинности.

Для таких сценариев, когда требуется автоматическое выполнение, необходимо настроить субъект-службу для взаимодействия с Машинное обучение Azure.

Пакет SDK для MLflow
Использование переменных среды

import os

os.environ["AZURE_TENANT_ID"] = "<AZURE_TENANT_ID>"
os.environ["AZURE_CLIENT_ID"] = "<AZURE_CLIENT_ID>"
os.environ["AZURE_CLIENT_SECRET"] = "<AZURE_CLIENT_SECRET>"

export AZURE_TENANT_ID="<AZURE_TENANT_ID>"
export AZURE_CLIENT_ID="<AZURE_CLIENT_ID>"
export AZURE_CLIENT_SECRET="<AZURE_CLIENT_SECRET>"

Совет

При работе с общими средами рекомендуется настроить эти переменные среды на вычислительных ресурсах. Рекомендуется управлять ими в качестве секретов в экземпляре Azure Key Vault.

Например, в Azure Databricks можно использовать секреты в переменных среды, как показано в конфигурации кластера. AZURE_CLIENT_SECRET={{secrets/<scope-name>/<secret-name>}} Дополнительные сведения о реализации этого подхода в Azure Databricks см. в статье "Справочник по секрету в переменной среды" или в документации по вашей платформе.

Регистрация модели

Нам нужна модель, зарегистрированная в реестре Машинное обучение Azure для выполнения вывода. В этом случае у нас уже есть локальная копия модели в репозитории, поэтому нам нужно опубликовать модель в реестре в рабочей области. Этот шаг можно пропустить, если модель, на который вы пытаетесь развернуть, уже зарегистрирована.

model_name = 'heart-classifier'
model_local_path = "model"

registered_model = mlflow_client.create_model_version(
    name=model_name, source=f"file://{model_local_path}"
)
version = registered_model.version

Кроме того, если модель была зарегистрирована внутри запуска, ее можно зарегистрировать напрямую.

Совет

Чтобы зарегистрировать модель, необходимо знать расположение, в котором хранится модель. Если вы используете функцию autolog MLflow, путь будет зависеть от типа и платформы используемой модели. Мы рекомендуем проверить выходные данные заданий, чтобы определить имя этой папки. Вы можете найти папку, содержащую файл с именем MLModel. Если вы регистрируете модели вручную с использованием log_model, то путем будет аргумент, который вы передаете такому методу. Например, если вы регистрируете модель с помощью mlflow.sklearn.log_model(my_model, "classifier"), то путь, в котором хранится classifierмодель.

model_name = 'heart-classifier'

registered_model = mlflow_client.create_model_version(
    name=model_name, source=f"runs://{RUN_ID}/{MODEL_PATH}"
)
version = registered_model.version

Примечание.

Путь MODEL_PATH — это расположение, где модель хранилась при выполнении.

Получение входных данных для оценки

Для выполнения или заданий нам потребуется некоторые входные данные. В этом примере мы скачайте примеры данных из Интернета и поместим его в общее хранилище, используемое кластером Spark.

import urllib

urllib.request.urlretrieve("https://azuremlexampledata.blob.core.windows.net/data/heart-disease-uci/data/heart.csv", "/tmp/data")

Переместите данные в подключенную учетную запись хранения, доступную всему кластеру.

dbutils.fs.mv("file:/tmp/data", "dbfs:/")

Внимание

Предыдущий код использует dbutilsинструмент, доступный в кластере Azure Databricks. Используйте соответствующее средство в зависимости от используемой платформы.

Затем входные данные помещаются в следующую папку:

input_data_path = "dbfs:/data"

Запуск модели в кластерах Spark

В следующем разделе объясняется, как запускать модели MLflow, зарегистрированные в Машинное обучение Azure в заданиях Spark.

Убедитесь, что в кластере установлены следующие библиотеки:
```
- mlflow<3,>=2.1
- cloudpickle==2.2.0
- scikit-learn==1.2.0
- xgboost==1.7.2
```
Мы будем использовать записную книжку для демонстрации того, как создать подпрограмму оценки с моделью MLflow, зарегистрированной в Машинное обучение Azure. Создайте записную книжку и используйте PySpark в качестве языка по умолчанию.
Импортируйте необходимые пространства имен:
```
import mlflow
import pyspark.sql.functions as f
```
Настройте универсальный код ресурса (URI) модели. Следующий универсальный код ресурса (URI) содержит модель с именем heart-classifier в последней версии.
```
model_uri = "models:/heart-classifier/latest"
```
Загрузите модель в качестве функции UDF. Определяемая пользователем функция (UDF) — это функция, определяемая пользователем, что позволяет повторно использовать пользовательскую логику в пользовательской среде.
```
predict_function = mlflow.pyfunc.spark_udf(spark, model_uri, result_type='double') 
```
Совет

Используйте аргумент result_type для управления типом, возвращаемым функцией predict() .
Считывайте данные, которые вы хотите оценить:
```
df = spark.read.option("header", "true").option("inferSchema", "true").csv(input_data_path).drop("target")
```
В нашем случае входные данные помещаются в CSV формат и помещаются в папку dbfs:/data/. Мы также сбрасываем столбец target , так как этот набор данных содержит целевую переменную для прогнозирования. В рабочих сценариях данные не будут иметь этот столбец.
Запустите функцию predict_function и поместите прогнозы в новый столбец. В этом случае мы помещаем прогнозы в столбец predictions.
```
df.withColumn("predictions", score_function(*df.columns))
```
Совет

Получает predict_function в качестве аргументов необходимые столбцы. В нашем случае все столбцы кадра данных ожидаются моделью и поэтому df.columns используются. Если для модели требуется подмножество столбцов, их можно представить вручную. Если у модели есть сигнатура, типы должны быть совместимы между входными и ожидаемыми типами.
Прогнозы можно записать обратно в хранилище:
```
scored_data_path = "dbfs:/scored-data"
scored_data.to_csv(scored_data_path)
```

Запуск модели в автономном задании Spark в Машинное обучение Azure

Машинное обучение Azure поддерживает создание изолированного задания Spark и создание повторно используемого компонента Spark, который можно использовать в конвейерах Машинное обучение Azure. В этом примере мы развернем задание оценки, которое выполняется в автономном задании Spark Машинное обучение Azure и запускает модель MLflow для выполнения вывода.

Примечание.

Дополнительные сведения о заданиях Spark в Машинное обучение Azure см. в разделе "Отправка заданий Spark" в Машинное обучение Azure (предварительная версия).

Для задания Spark требуется скрипт Python, который принимает аргументы. Создайте скрипт оценки:

score.py
```
import argparse

parser = argparse.ArgumentParser()
parser.add_argument("--model")
parser.add_argument("--input_data")
parser.add_argument("--scored_data")

args = parser.parse_args()
print(args.model)
print(args.input_data)

# Load the model as an UDF function
predict_function = mlflow.pyfunc.spark_udf(spark, args.model, env_manager="conda")

# Read the data you want to score
df = spark.read.option("header", "true").option("inferSchema", "true").csv(input_data).drop("target")

# Run the function `predict_function` and place the predictions on a new column
scored_data = df.withColumn("predictions", score_function(*df.columns))

# Save the predictions
scored_data.to_csv(args.scored_data)
```
Приведенный выше скрипт принимает три аргумента --modelи --scored_data--input_data . Первые два являются входными данными и представляют модель, которую мы хотим запустить, а входные данные — выходные данные, и это папка вывода, в которой будут размещаться прогнозы.

Совет

Установка пакетов Python: предыдущий скрипт оценки загружает модель MLflow в функцию UDF, но указывает параметр env_manager="conda". Если этот параметр задан, MLflow восстановит необходимые пакеты, указанные в определении модели в изолированной среде, где выполняется только функция UDF. Дополнительные сведения см mlflow.pyfunc.spark_udf . в документации.

Создайте определение задания:

mlflow-score-spark-job.yml

$schema: http://azureml/sdk-2-0/SparkJob.json
type: spark

code: ./src
entry:
  file: score.py

conf:
  spark.driver.cores: 1
  spark.driver.memory: 2g
  spark.executor.cores: 2
  spark.executor.memory: 2g
  spark.executor.instances: 2

inputs:
  model:
    type: mlflow_model
    path: azureml:heart-classifier@latest
  input_data:
    type: uri_file
    path: https://azuremlexampledata.blob.core.windows.net/data/heart-disease-uci/data/heart.csv
    mode: direct

outputs:
  scored_data:
    type: uri_folder

args: >-
  --model ${{inputs.model}}
  --input_data ${{inputs.input_data}}
  --scored_data ${{outputs.scored_data}}

identity:
  type: user_identity

resources:
  instance_type: standard_e4s_v3
  runtime_version: "3.2"

Совет

Чтобы использовать присоединенный пул Synapse Spark, определите compute свойство в примере файла спецификации YAML, показанного resources выше вместо свойства.

Приведенные выше файлы YAML можно использовать в az ml job create команде с --file параметром для создания автономного задания Spark, как показано ниже.
```
az ml job create -f mlflow-score-spark-job.yml
```

Поделиться через

Развертывание и запуск моделей MLflow в заданиях Spark

Сведения об этом примере

Необходимые компоненты

Подключение к рабочей области

Регистрация модели

Получение входных данных для оценки

Запуск модели в кластерах Spark

Запуск модели в автономном задании Spark в Машинное обучение Azure

Следующие шаги

Обратная связь

Дополнительные ресурсы