Toplu iş uç noktalarıyla eğitim işlem hattını kullanıma hazır hale getirme

Makale
09/01/2024

ŞUNLAR IÇIN GEÇERLIDIR: Azure CLI ml uzantısı v2 (geçerli)Python SDK azure-ai-ml v2 (geçerli)

Bu makalede, bir eğitim işlem hattını toplu iş uç noktası altında nasıl kullanıma sunacağınızı öğreneceksiniz. İşlem hattı model eğitimi, veri ön işleme ve model değerlendirmesi içeren birden çok bileşen (veya adım) kullanır.

Öğrenecekleriniz:

Eğitim işlem hattı oluşturma ve test edin
İşlem hattını toplu iş uç noktasına dağıtma
İşlem hattını değiştirme ve aynı uç noktada yeni bir dağıtım oluşturma
Yeni dağıtımı test edin ve varsayılan dağıtım olarak ayarlayın

Bu örnek hakkında

Bu örnek, giriş eğitim verilerini alan (etiketli) bir eğitim işlem hattı dağıtır ve değerlendirme sonuçları ve ön işleme sırasında uygulanan dönüşümlerle birlikte tahmine dayalı bir model oluşturur. İşlem hattı, XGBoost modelini eğitmek için UCI Kalp Hastalığı Veri Kümesindeki tablosal verileri kullanır. Verileri, modeli sığdırmak ve değerlendirmek üzere eğitim bileşenine gönderilmeden önce önceden işlemek için bir veri ön işleme bileşeni kullanırız.

İşlem hattının görselleştirmesi aşağıdaki gibidir:

Bu makaledeki örnek, azureml-examples deposunda yer alan kod örneklerini temel alır. YAML ve diğer dosyaları kopyalamak/yapıştırmak zorunda kalmadan komutları yerel olarak çalıştırmak için önce depoyu kopyalayın ve ardından dizinleri klasöre değiştirin:

Azure CLI
Python

git clone https://github.com/Azure/azureml-examples --depth 1
cd azureml-examples/cli

git clone https://github.com/Azure/azureml-examples --depth 1
cd azureml-examples/sdk/python

Bu örnekteki dosyalar şunlardır:

cd endpoints/batch/deploy-pipelines/training-with-components

Jupyter not defterlerinde birlikte izleyin

Kopyalanan depoda sdk-deploy-and-test.ipynb not defterini açarak bu örneğin Python SDK sürümünü takip edebilirsiniz.

Önkoşullar

Azure aboneliği. Azure aboneliğiniz yoksa başlamadan önce ücretsiz bir hesap oluşturun. Azure Machine Learning'in ücretsiz veya ücretli sürümünü deneyin.
Azure Machine Learning çalışma alanı. Çalışma alanı oluşturmak için bkz . Azure Machine Learning çalışma alanlarını yönetme.
Machine Learning çalışma alanında aşağıdaki izinlere sahip olduğunuzdan emin olun:
- Toplu iş uç noktalarını ve dağıtımlarını oluşturma veya yönetme: İzin veren Microsoft.MachineLearningServices/workspaces/batchEndpoints/*bir Sahip, Katkıda Bulunan veya Özel rol kullanın.
- Çalışma alanı kaynak grubunda Azure Resource Manager dağıtımları oluşturma: Çalışma alanının dağıtıldığı kaynak grubunda izin veren Microsoft.Resources/deployments/write bir Sahip, Katkıda Bulunan veya Özel rol kullanın.
Machine Learning ile çalışmak için aşağıdaki yazılımı yükleyin:
- Azure CLI
- Python
Azure CLI'yi ve Azure Machine Learning uzantısını ml yüklemek için aşağıdaki komutu çalıştırın:
```
az extension add -n ml
```
Batch Uç Noktaları için işlem hattı bileşeni dağıtımları, Azure CLI uzantısının ml 2.7 sürümünde kullanıma sunulmuştur. az extension update --name ml En son sürümü almak için komutunu kullanın.
Python için Azure Machine Learning SDK'sını yüklemek için aşağıdaki komutu çalıştırın:
```
pip install azure-ai-ml
```
ModelBatchDeployment ve PipelineComponentBatchDeployment sınıfları SDK'nın 1.7.0 sürümünde kullanıma sunulmuştur. pip install -U azure-ai-ml En son sürümü almak için komutunu kullanın.

Çalışma alanınıza bağlanma

Çalışma alanı Machine Learning için en üst düzey kaynaktır. Machine Learning'i kullanırken oluşturduğunuz tüm yapıtlarla çalışmak için merkezi bir yer sağlar. Bu bölümde, dağıtım görevlerinizi gerçekleştirdiğiniz çalışma alanına bağlanacaksınız.

Azure CLI
Python

Aşağıdaki komutta abonelik kimliğiniz, çalışma alanınız, konumunuz ve kaynak grubunuzun değerlerini girin:

az account set --subscription <subscription>
az configure --defaults workspace=<workspace> group=<resource-group> location=<location>

Gerekli kitaplıkları içeri aktarın:

from azure.ai.ml import MLClient, Input, load_component
from azure.ai.ml.entities import BatchEndpoint, ModelBatchDeployment, ModelBatchDeploymentSettings, PipelineComponentBatchDeployment, Model, AmlCompute, Data, BatchRetrySettings, CodeConfiguration, Environment, Data
from azure.ai.ml.constants import AssetTypes, BatchDeploymentOutputAction
from azure.ai.ml.dsl import pipeline
from azure.identity import DefaultAzureCredential

Çalışma alanı ayrıntılarını yapılandırın ve çalışma alanına bir tanıtıcı alın:

Aşağıdaki komutta abonelik kimliğiniz, çalışma alanınız ve kaynak grubunuz için değerleri girin:
```
subscription_id = "<subscription>"
resource_group = "<resource-group>"
workspace = "<workspace>"

ml_client = MLClient(DefaultAzureCredential(), subscription_id, resource_group, workspace)
```

Eğitim işlem hattı bileşenini oluşturma

Bu bölümde, eğitim işlem hattımız için gereken tüm varlıkları oluşturacağız. Modeli eğitmek için gerekli kitaplıkları içeren bir ortam oluşturarak başlayacağız. Ardından toplu dağıtımın çalıştırılacağı bir işlem kümesi oluşturacağız ve son olarak giriş verilerini veri varlığı olarak kaydedeceğiz.

Ortamı oluşturma

Bu örnekteki bileşenler ve scikit-learn kitaplıklarıyla bir XGBoost ortam kullanır. Dosya environment/conda.yml , ortamın yapılandırmasını içerir:

ortam/conda.yml

channels:
- conda-forge
dependencies:
- python=3.8.5
- pip
- pip:
  - mlflow
  - azureml-mlflow
  - datasets
  - jobtools
  - cloudpickle==1.6.0
  - dask==2023.2.0
  - scikit-learn==1.1.2
  - xgboost==1.3.3
  - pandas==1.4
name: mlflow-env

Ortamı aşağıdaki gibi oluşturun:

Ortamı tanımlayın:

Azure CLI
Python

ortam/xgboost-sklearn-py38.yml

$schema: https://azuremlschemas.azureedge.net/latest/environment.schema.json
name: xgboost-sklearn-py38
image: mcr.microsoft.com/azureml/openmpi4.1.0-ubuntu20.04:latest
conda_file: conda.yml
description: An environment for models built with XGBoost and Scikit-learn.

environment = Environment(
    name="xgboost-sklearn-py38",
    description="An environment for models built with XGBoost and Scikit-learn.",
    image="mcr.microsoft.com/azureml/openmpi4.1.0-ubuntu20.04:latest",
    conda_file="environment/conda.yml",
)

Ortamı oluşturun:

Azure CLI
Python

az ml environment create -f environment/xgboost-sklearn-py38.yml

try:
    ml_client.environments.create_or_update(environment)
except ResourceExistsError:
    pass

İşlem kümesi oluşturma

Batch uç noktaları ve dağıtımları işlem kümelerinde çalışır. Çalışma alanında zaten var olan herhangi bir Azure Machine Learning işlem kümesinde çalıştırılabilir. Bu nedenle, birden çok toplu dağıtım aynı işlem altyapısını paylaşabilir. Bu örnekte adlı batch-clusterbir Azure Machine Learning işlem kümesi üzerinde çalışacağız. İşlemin çalışma alanında mevcut olduğunu doğrulayalım veya başka bir şekilde oluşturalım.

Azure CLI
Python

az ml compute create -n batch-cluster --type amlcompute --min-instances 0 --max-instances 5

compute_name = "batch-cluster"
if not any(filter(lambda m: m.name == compute_name, ml_client.compute.list())):
    compute_cluster = AmlCompute(
        name=compute_name,
        description="Batch endpoints compute cluster",
        min_instances=0,
        max_instances=5,
    )
    ml_client.begin_create_or_update(compute_cluster).result()

Eğitim verilerini veri varlığı olarak kaydetme

Eğitim verilerimiz CSV dosyalarında gösterilir. Üretim düzeyi daha yüksek bir iş yükünü taklit etmek için eğitim verilerini heart.csv çalışma alanında veri varlığı olarak dosyaya kaydedeceğiz. Bu veri varlığı daha sonra uç noktaya giriş olarak gösterilir.

Azure CLI
Python

az ml data create --name heart-classifier-train --type uri_folder --path data/train

data_path = "data/train"
dataset_name = "heart-dataset-train"

heart_dataset_train = Data(
    path=data_path,
    type=AssetTypes.URI_FOLDER,
    description="A training dataset for heart classification",
    name=dataset_name,
)

Veri varlığını oluşturun:

ml_client.data.create_or_update(heart_dataset_train)

Şimdi yeni veri varlığına bir başvuru alalım:

heart_dataset_train = ml_client.data.get(name=dataset_name, label="latest")

İşlem hattını oluşturma

Operasyonel hale getirmek istediğimiz işlem hattı bir giriş, eğitim verileri alır ve üç çıkış üretir: eğitilen model, değerlendirme sonuçları ve ön işlem olarak uygulanan veri dönüştürmeleri. İşlem hattı iki bileşenden oluşur:

preprocess_job: Bu adım giriş verilerini okur ve hazırlanan verileri ve uygulanan dönüştürmeleri döndürür. Adım üç giriş alır:
- data: Dönüştürülecek ve puanlanması gereken giriş verilerini içeren bir klasör
- transformations: (isteğe bağlı) Varsa uygulanacak dönüşümlerin yolu. Yol sağlanmazsa, dönüştürmeler giriş verilerinden öğrenilir. transformations Giriş isteğe bağlı olduğundan, preprocess_job bileşen eğitim ve puanlama sırasında kullanılabilir.
- categorical_encoding: kategorik özellikler için kodlama stratejisi (ordinal veya onehot).
train_job: Bu adım, hazırlanan verileri temel alan bir XGBoost modelini eğitir ve değerlendirme sonuçlarını ve eğitilen modeli döndürür. Adım üç giriş alır:
- data: önceden işlenmiş veriler.
- target_column: tahmin etmek istediğimiz sütun.
- eval_size: değerlendirme için kullanılan giriş verilerinin oranını gösterir.

Azure CLI
Python

İşlem hattı yapılandırması dosyasında tanımlanır deployment-ordinal/pipeline.yml :

dağıtım-sıralı/pipeline.yml

$schema: https://azuremlschemas.azureedge.net/latest/pipelineComponent.schema.json
type: pipeline

name: uci-heart-train-pipeline
display_name: uci-heart-train
description: This pipeline demonstrates how to train a machine learning classifier over the UCI heart dataset.

inputs:
  input_data:
    type: uri_folder

outputs: 
  model:
    type: mlflow_model
    mode: upload
  evaluation_results:
    type: uri_folder
    mode: upload
  prepare_transformations:
    type: uri_folder
    mode: upload

jobs:
  preprocess_job:
    type: command
    component: ../components/prepare/prepare.yml
    inputs:
      data: ${{parent.inputs.input_data}}
      categorical_encoding: ordinal
    outputs:
      prepared_data:
      transformations_output: ${{parent.outputs.prepare_transformations}}
  
  train_job:
    type: command
    component: ../components/train_xgb/train_xgb.yml
    inputs:
      data: ${{parent.jobs.preprocess_job.outputs.prepared_data}}
      target_column: target
      register_best_model: false
      eval_size: 0.3
    outputs:
      model: 
        mode: upload
        type: mlflow_model
        path: ${{parent.outputs.model}}
      evaluation_results:
        mode: upload
        type: uri_folder
        path: ${{parent.outputs.evaluation_results}}

Not

pipeline.yml dosyasında transformations girişi eksiktirpreprocess_job; bu nedenle betik, giriş verilerinden dönüştürme parametrelerini öğrenir.

İşlem hattı bileşenlerinin yapılandırmaları ve train_xgb.yml dosyalarındadırprepare.yml. Bileşenleri yükleyin:

prepare_data = load_component(source="components/prepare/prepare.yml")
train_xgb = load_component(source="components/train_xgb/train_xgb.yml")

İşlem hattını oluşturun:

@pipeline()
def uci_heart_classifier_trainer(input_data: Input(type=AssetTypes.URI_FOLDER)):
    prepared_data = prepare_data(data=input_data)
    trained_model = train_xgb(
        data=prepared_data.outputs.prepared_data,
        target_column="target",
        register_best_model=False,
        eval_size=0.3,
    )

    return {
        "model": trained_model.outputs.model,
        "evaluation_results": trained_model.outputs.evaluation_results,
        "transformations_output": prepared_data.outputs.transformations_output,
    }

Not

İşlem hattında transformations giriş eksiktir; bu nedenle betik giriş verilerinden parametreleri öğrenir.

İşlem hattının görselleştirmesi aşağıdaki gibidir:

İşlem hattını test edin

Şimdi işlem hattını bazı örnek verilerle test edelim. Bunu yapmak için işlem hattını ve batch-cluster daha önce oluşturulan işlem kümesini kullanarak bir iş oluşturacağız.

Azure CLI
Python

Aşağıdaki pipeline-job.yml dosya işlem hattı işinin yapılandırmasını içerir:

dağıtım-sıralı/pipeline-job.yml

$schema: https://azuremlschemas.azureedge.net/latest/pipelineJob.schema.json
type: pipeline

experiment_name: uci-heart-train-pipeline
display_name: uci-heart-train-job
description: This pipeline demonstrates how to train a machine learning classifier over the UCI heart dataset.

compute: batch-cluster
component: pipeline.yml
inputs:
  input_data:
    type: uri_folder
outputs: 
  model:
    type: mlflow_model
    mode: upload
  evaluation_results:
    type: uri_folder
    mode: upload
  prepare_transformations:
    mode: upload

pipeline_job = uci_heart_classifier_trainer(
    Input(type="uri_folder", path=heart_dataset_train.id)
)

Şimdi testi çalıştırmak için bazı çalıştırma ayarlarını yapılandıracağız:

pipeline_job.settings.default_datastore = "workspaceblobstore"
pipeline_job.settings.default_compute = "batch-cluster"

Test işini oluşturun:

Azure CLI
Python

az ml job create -f deployment-ordinal/pipeline-job.yml --set inputs.input_data.path=azureml:heart-classifier-train@latest

pipeline_job_run = ml_client.jobs.create_or_update(
    pipeline_job, experiment_name="uci-heart-train-pipeline"
)
pipeline_job_run

Toplu iş uç noktası oluşturma

Uç nokta için bir ad belirtin. Çağrı URI'sini oluşturmak için ad kullanıldığından, bir toplu iş uç noktasının adının her bölgede benzersiz olması gerekir. Benzersizliği sağlamak için, aşağıdaki kodda belirtilen ada sondaki karakterleri ekleyin.
- Azure CLI
- Python
```
ENDPOINT_NAME="uci-classifier-train"
```
```
endpoint_name = "uci-classifier-train"
```

Uç noktayı yapılandırın:

Azure CLI
Python

Dosya uç endpoint.yml noktanın yapılandırmasını içerir.

endpoint.yml

$schema: https://azuremlschemas.azureedge.net/latest/batchEndpoint.schema.json
name: uci-classifier-train
description: An endpoint to perform training of the Heart Disease Data Set prediction task.
auth_mode: aad_token

endpoint = BatchEndpoint(
    name=endpoint_name,
    description="An endpoint to perform training of the Heart Disease Data Set prediction task",
)

Uç noktayı oluşturun:

Azure CLI
Python

az ml batch-endpoint create --name $ENDPOINT_NAME -f endpoint.yml

ml_client.batch_endpoints.begin_create_or_update(endpoint).result()

Uç nokta URI'sini sorgula:

Azure CLI
Python

az ml batch-endpoint show --name $ENDPOINT_NAME

endpoint = ml_client.batch_endpoints.get(name=endpoint_name)
print(endpoint)

İşlem hattı bileşenini dağıtma

İşlem hattı bileşenini dağıtmak için bir toplu dağıtım oluşturmamız gerekir. Dağıtım, fiili işi yapan varlığı barındırmak için gereken bir kaynak kümesidir.

Dağıtımı yapılandırın:

Azure CLI
Python

Dosya, deployment-ordinal/deployment.yml dağıtımın yapılandırmasını içerir. Ek özellikler için tam toplu iş uç noktası YAML şemasını denetleyebilirsiniz.

dağıtım sıralı/deployment.yml

$schema: https://azuremlschemas.azureedge.net/latest/pipelineComponentBatchDeployment.schema.json
name: uci-classifier-train-xgb
description: A sample deployment that trains an XGBoost model for the UCI dataset.
endpoint_name: uci-classifier-train
type: pipeline
component: pipeline.yml
settings:
    continue_on_step_failure: false
    default_compute: batch-cluster

İşlem hattımız bir işlevde tanımlanır. Bir bileşene dönüştürmek için bu bileşenden component özelliğini kullanacaksınız. İşlem hattı bileşenleri, toplu dağıtımlara dahil edilebilen veya daha karmaşık işlem hatları oluşturmak için kullanılabilen yeniden kullanılabilir işlem grafikleridir.

pipeline_component = ml_client.components.create_or_update(
    uci_heart_classifier_trainer().component
)

Şimdi dağıtımı tanımlayabiliriz:

deployment = PipelineComponentBatchDeployment(
    name="uci-classifier-train-xgb",
    description="A sample deployment that trains an XGBoost model for the UCI dataset.",
    endpoint_name=endpoint.name,
    component=pipeline_component,
    settings={"continue_on_step_failure": False, "default_compute": compute_name},
)

Dağıtımı oluşturun:
- Azure CLI
- Python
Toplu iş uç noktası altında bir toplu dağıtım oluşturmak ve bunu varsayılan dağıtım olarak ayarlamak için aşağıdaki kodu çalıştırın.
```
az ml batch-deployment create --endpoint $ENDPOINT_NAME -f deployment-ordinal/deployment.yml --set-default
```
İpucu

Bu yeni dağıtımın --set-default artık varsayılan olduğunu belirtmek için bayrağının kullanıldığına dikkat edin.
Bu komut dağıtım oluşturma işlemini başlatır ve dağıtım oluşturma işlemi devam ederken bir onay yanıtı döndürür.
```
ml_client.batch_deployments.begin_create_or_update(deployment).result()
```
Oluşturulduktan sonra bu yeni dağıtımı varsayılan dağıtım olarak yapılandıralım:
```
endpoint = ml_client.batch_endpoints.get(endpoint_name)
endpoint.defaults.deployment_name = deployment.name
ml_client.batch_endpoints.begin_create_or_update(endpoint).result()
```
Dağıtımınız kullanıma hazır.

Dağıtımı test etme

Dağıtım oluşturulduktan sonra iş almaya hazır olur. Test etmek için şu adımları izleyin:

Dağıtımımız için tek bir veri girişi belirtmemiz gerekir.
- Azure CLI
- Python
Dosya, inputs.yml giriş veri varlığının tanımını içerir:

inputs.yml
```
inputs:
  input_data:
    type: uri_folder
    path: azureml:heart-classifier-train@latest
```
Giriş veri varlığını tanımlayın:
```
input_data = Input(type=AssetTypes.URI_FOLDER, path=heart_dataset_train.id)
```
İpucu

Girişleri belirtme hakkında daha fazla bilgi edinmek için bkz . Toplu iş uç noktaları için iş ve giriş verileri oluşturma.
Varsayılan dağıtımı aşağıdaki gibi çağırabilirsiniz:
- Azure CLI
- Python
```
JOB_NAME=$(az ml batch-endpoint invoke -n $ENDPOINT_NAME --f inputs.yml --query name -o tsv)
```
İpucu

Bir uç noktayı çağırdığınızda ve input parametresi arasındaki inputs fark nedir?

Genel olarak, bir model dağıtımı veya işlem hattı dağıtımı içeren bir toplu iş uç noktasına rastgele sayıda gerekli giriş sağlamak için yöntemiyle invoke bir sözlük inputs = {} parametresi kullanabilirsiniz.

Model dağıtımı için parametresini, dağıtımın input giriş veri konumunu belirtmek için daha kısa bir yol olarak kullanabilirsiniz. Model dağıtımı her zaman tek bir veri girişi aldığından bu yaklaşım çalışır.
```
job = ml_client.batch_endpoints.invoke(
    endpoint_name=endpoint.name, inputs={"input_data": input_data}
)
```
Gösterinin ilerleme durumunu izleyebilir ve günlüklerin akışını şu şekilde yapabilirsiniz:
- Azure CLI
- Python
```
az ml job stream -n $JOB_NAME
```
```
ml_client.jobs.get(job.name)
```
İşin tamamlanmasını beklemek için aşağıdaki kodu çalıştırın:
```
ml_client.jobs.stream(name=job.name)
```

Toplu iş uç noktasında giriş olarak yalnızca işlem hattının girişlerinin yayımlandığını belirtmek gerekir. Örneğin, categorical_encoding işlem hattının bir adımının girişidir, ancak işlem hattındaki bir giriş değildir. İstemcilerinize hangi girişleri göstermek istediğinizi ve hangilerini gizlemek istediğinizi denetlemek için bu gerçeği kullanın.

İş çıkışlarına erişme

İş tamamlandıktan sonra bazı çıkışlarına erişebiliriz. Bu işlem hattı bileşenleri için aşağıdaki çıkışları üretir:

preprocess job: output is transformations_output
train job: çıkışlar model ve evaluation_results

İlişkili sonuçları şu şekilde indirebilirsiniz:

Azure CLI
Python

az ml job download --name $JOB_NAME --output-name transformations
az ml job download --name $JOB_NAME --output-name model
az ml job download --name $JOB_NAME --output-name evaluation_results

ml_client.jobs.download(
    name=job.name, download_path=".", output_name="transformations_output"
)
ml_client.jobs.download(name=job.name, download_path=".", output_name="model")
ml_client.jobs.download(
    name=job.name, download_path=".", output_name="evaluation_results"
)

Uç noktada yeni dağıtım oluşturma

Uç noktalar aynı anda birden çok dağıtım barındırabilir ve yalnızca bir dağıtımı varsayılan olarak tutabilir. Bu nedenle, farklı modellerinizi yineleyebilir, farklı modelleri uç noktanıza dağıtabilir ve test edebilir ve son olarak varsayılan dağıtımı sizin için en uygun model dağıtımına geçirebilirsiniz.

Daha iyi performans gösteren bir model alıp almadığımıza bakmak için işlem hattında ön işlemenin nasıl yapıldığını değiştirelim.

İşlem hattının ön işleme bileşenindeki bir parametreyi değiştirme

Ön işleme bileşeni, veya onehotdeğerlerine ordinal sahip olabilecek adlı categorical_encodingbir girişe sahiptir. Bu değerler kategorik özellikleri kodlamanın iki farklı yoluna karşılık gelir.

ordinal: Özellik değerlerini, özelliğindeki kategori sayısı olan n sayısal değerlerle (sıralı) [1:n]kodlar. Sıralı kodlama, özellik kategorileri arasında doğal bir sıralama sırası olduğunu gösterir.
onehot: Doğal sıralı ilişki anlamına gelmez, ancak kategori sayısı büyükse boyutsallık sorununa neden olur.

Varsayılan olarak, daha önce kullandık ordinal . Şimdi kategorik kodlamayı kullanacak onehot şekilde değiştirelim ve modelin nasıl performans sergilediğini görelim.

İpucu

Alternatif olarak, girişi istemcilere işlem hattı işinin categorial_encoding kendisine giriş olarak göstermiş de olabilirdik. Ancak, dağıtımın içindeki parametreyi gizleyebilmemiz ve denetleyebilmemiz ve aynı uç nokta altında birden çok dağıtıma sahip olabilme fırsatından yararlanabilmemiz için ön işleme adımındaki parametre değerini değiştirmeyi seçtik.

İşlem hattını değiştirin. Aşağıdaki gibi görünür:

Azure CLI
Python

İşlem hattı yapılandırması dosyasında tanımlanır deployment-onehot/pipeline.yml :

deployment-onehot/pipeline.yml

$schema: https://azuremlschemas.azureedge.net/latest/pipelineComponent.schema.json
type: pipeline

name: uci-heart-train-pipeline
display_name: uci-heart-train
description: This pipeline demonstrates how to train a machine learning classifier over the UCI heart dataset.

inputs:
  input_data:
    type: uri_folder

outputs: 
  model:
    type: mlflow_model
    mode: upload
  evaluation_results:
    type: uri_folder
    mode: upload
  prepare_transformations:
    type: uri_folder
    mode: upload

jobs:
  preprocess_job:
    type: command
    component: ../components/prepare/prepare.yml
    inputs:
      data: ${{parent.inputs.input_data}}
      categorical_encoding: onehot
    outputs:
      prepared_data:
      transformations_output: ${{parent.outputs.prepare_transformations}}
  
  train_job:
    type: command
    component: ../components/train_xgb/train_xgb.yml
    inputs:
      data: ${{parent.jobs.preprocess_job.outputs.prepared_data}}
      target_column: target
      eval_size: 0.3
    outputs:
      model: 
        type: mlflow_model
        path: ${{parent.outputs.model}}
      evaluation_results:
        type: uri_folder
        path: ${{parent.outputs.evaluation_results}}

@pipeline()
def uci_heart_classifier_onehot(input_data: Input(type=AssetTypes.URI_FOLDER)):
    prepared_data = prepare_data(data=input_data, categorical_encoding="onehot")
    trained_model = train_xgb(
        data=prepared_data.outputs.prepared_data,
        target_column="target",
        register_best_model=False,
        eval_size=0.3,
    )

    return {
        "model": trained_model.outputs.model,
        "evaluation_results": trained_model.outputs.evaluation_results,
        "transformations_output": prepared_data.outputs.transformations_output,
    }

Dağıtımı yapılandırın:

Azure CLI
Python

Dosya, deployment-onehot/deployment.yml dağıtımın yapılandırmasını içerir. Ek özellikler için tam toplu iş uç noktası YAML şemasını denetleyebilirsiniz.

deployment-onehot/deployment.yml

$schema: https://azuremlschemas.azureedge.net/latest/pipelineComponentBatchDeployment.schema.json
name: uci-classifier-train-onehot
description: A sample deployment that trains an XGBoost model for the UCI dataset using onehot encoding for variables.
endpoint_name: uci-classifier-train
type: pipeline
component: pipeline.yml
settings:
    continue_on_step_failure: false
    default_compute: batch-cluster

İşlem hattımız bir işlevde tanımlanır. Bunu bir bileşene dönüştürmek için yöntemini kullanacaksınız build() . İşlem hattı bileşenleri, toplu dağıtımlara dahil edilebilen veya daha karmaşık işlem hatları oluşturmak için kullanılabilen yeniden kullanılabilir işlem grafikleridir.

pipeline_component = uci_heart_classifier_onehot._pipeline_builder.build()

Şimdi dağıtımı tanımlayabiliriz:

deployment_onehot = PipelineComponentBatchDeployment(
    name="uci-classifier-train-onehot",
    description="A sample deployment that trains an XGBoost model for the UCI dataset with one hot encoding of categorical variables.",
    endpoint_name=endpoint.name,
    component=pipeline_component,
    settings={"continue_on_step_failure": False, "default_compute": compute_name},
)

Dağıtımı oluşturun:
- Azure CLI
- Python
Toplu iş uç noktası altında bir toplu dağıtım oluşturmak ve bunu varsayılan dağıtım olarak ayarlamak için aşağıdaki kodu çalıştırın.
```
az ml batch-deployment create --endpoint $ENDPOINT_NAME -f deployment-onehot/deployment.yml
```
Dağıtımınız kullanıma hazır.
Bu komut dağıtım oluşturma işlemini başlatır ve dağıtım oluşturma işlemi devam ederken bir onay yanıtı döndürür.
```
ml_client.batch_deployments.begin_create_or_update(deployment_onehot).result()
```
Dağıtımınız kullanıma hazır.

Zaman uyumsuz dağıtımı test edin

Dağıtım oluşturulduktan sonra iş almaya hazır olur. Daha önce yaptığımız gibi test edebiliriz, ancak şimdi belirli bir dağıtımı çağıracağız:

Dağıtımı aşağıdaki gibi çağırın ve belirli uci-classifier-train-onehotbir dağıtımı tetikleyen dağıtım parametresini belirtin:
- Azure CLI
- Python
```
DEPLOYMENT_NAME="uci-classifier-train-onehot"
JOB_NAME=$(az ml batch-endpoint invoke -n $ENDPOINT_NAME -d $DEPLOYMENT_NAME --f inputs.yml --query name -o tsv)
```
İpucu

Bir uç noktayı çağırdığınızda ve input parametresi arasındaki inputs fark nedir?

Genel olarak, bir model dağıtımı veya işlem hattı dağıtımı içeren bir toplu iş uç noktasına rastgele sayıda gerekli giriş sağlamak için yöntemiyle invoke bir sözlük inputs = {} parametresi kullanabilirsiniz.

Model dağıtımı için parametresini, dağıtımın input giriş veri konumunu belirtmek için daha kısa bir yol olarak kullanabilirsiniz. Model dağıtımı her zaman tek bir veri girişi aldığından bu yaklaşım çalışır.
```
job = ml_client.batch_endpoints.invoke(
    endpoint_name=endpoint.name,
    deployment_name=deployment_onehot.name,
    inputs={"input_data": input_data},
)
```
Gösterinin ilerleme durumunu izleyebilir ve günlüklerin akışını şu şekilde yapabilirsiniz:
- Azure CLI
- Python
```
az ml job stream -n $JOB_NAME
```
```
ml_client.jobs.get(name=job.name)
```
İşin tamamlanmasını beklemek için aşağıdaki kodu çalıştırın:
```
ml_client.jobs.stream(name=job.name)
```

Yeni dağıtımı varsayılan dağıtım olarak yapılandırma

Yeni dağıtımın performansından memnun olduktan sonra, bu yeni dağıtımı varsayılan olarak ayarlayabiliriz:

Azure CLI
Python

az ml batch-endpoint update --name $ENDPOINT_NAME --set defaults.deployment_name=$DEPLOYMENT_NAME

endpoint = ml_client.batch_endpoints.get(endpoint_name)
endpoint.defaults.deployment_name = deployment.name
ml_client.batch_endpoints.begin_create_or_update(endpoint).result()

Eski dağıtımı silme

İşiniz bittiğinde, artık ihtiyacınız yoksa eski dağıtımı silebilirsiniz:

Azure CLI
Python

az ml batch-deployment delete --name uci-classifier-train-xgb --endpoint-name $ENDPOINT_NAME --yes

ml_client.batch_deployments.begin_delete(
    name=deployment.name, endpoint_name=endpoint.name
).result()

Kaynakları temizleme

İşiniz bittiğinde, ilişkili kaynakları çalışma alanından silin:

Azure CLI
Python

Toplu iş uç noktasını ve temel dağıtımını silmek için aşağıdaki kodu çalıştırın. --yes silme işlemini onaylamak için kullanılır.

az ml batch-endpoint delete -n $ENDPOINT_NAME --yes

Uç noktayı silin:

ml_client.batch_endpoints.begin_delete(endpoint_name).result()

(İsteğe bağlı) İşlem kümenizi daha sonraki dağıtımlarla yeniden kullanmak istemiyorsanız işlemi silin.

Azure CLI
Python

az ml compute delete -n batch-cluster

ml_client.compute.begin_delete(name="batch-cluster")

Aracılığıyla paylaş