parallel Paket
Sınıflar
ParallelJob |
Paralel iş. |
RunFunction |
İşlevi Çalıştırın. |
İşlevler
parallel_run_function
dsl.pipeline içinde işlev olarak kullanılabilen ve tek başına paralel iş olarak da oluşturulabilen bir Paralel nesne oluşturun.
ParallelRunStep kullanma örneği için not defterine bakın https://aka.ms/parallel-example-notebook
from azure.ai.ml import Input, Output, parallel
parallel_run = parallel_run_function(
name="batch_score_with_tabular_input",
display_name="Batch Score with Tabular Dataset",
description="parallel component for batch score",
inputs=dict(
job_data_path=Input(
type=AssetTypes.MLTABLE,
description="The data to be split and scored in parallel",
),
score_model=Input(
type=AssetTypes.URI_FOLDER, description="The model for batch score."
),
),
outputs=dict(job_output_path=Output(type=AssetTypes.MLTABLE)),
input_data="${{inputs.job_data_path}}",
max_concurrency_per_instance=2, # Optional, default is 1
mini_batch_size="100", # optional
mini_batch_error_threshold=5, # Optional, allowed failed count on mini batch items, default is -1
logging_level="DEBUG", # Optional, default is INFO
error_threshold=5, # Optional, allowed failed count totally, default is -1
retry_settings=dict(max_retries=2, timeout=60), # Optional
task=RunFunction(
code="./src",
entry_script="tabular_batch_inference.py",
environment=Environment(
image="mcr.microsoft.com/azureml/openmpi3.1.2-ubuntu18.04",
conda_file="./src/environment_parallel.yml",
),
program_arguments="--model ${{inputs.score_model}}",
append_row_to="${{outputs.job_output_path}}", # Optional, if not set, summary_only
),
)
parallel_run_function(*, name: str | None = None, description: str | None = None, tags: Dict | None = None, properties: Dict | None = None, display_name: str | None = None, experiment_name: str | None = None, compute: str | None = None, retry_settings: BatchRetrySettings | None = None, environment_variables: Dict | None = None, logging_level: str | None = None, max_concurrency_per_instance: int | None = None, error_threshold: int | None = None, mini_batch_error_threshold: int | None = None, task: RunFunction | None = None, mini_batch_size: str | None = None, partition_keys: List | None = None, input_data: str | None = None, inputs: Dict | None = None, outputs: Dict | None = None, instance_count: int | None = None, instance_type: str | None = None, docker_args: str | None = None, shm_size: str | None = None, identity: ManagedIdentity | AmlToken | None = None, is_deterministic: bool = True, **kwargs) -> Parallel
Parametreler
- name
- str
Oluşturulan paralel işin veya bileşenin adı.
- description
- str
Paralelin kolay bir açıklaması.
- tags
- Dict
Bu paralele eklenecek etiketler.
- properties
- Dict
Varlık özelliği sözlüğü.
- display_name
- str
Kolay bir ad.
- experiment_name
- str
İşin altında oluşturulacağı denemenin adı, Hiçbiri sağlanmazsa varsayılan olarak geçerli dizin adı ayarlanır. İşlem hattı adımı olarak yoksayılır.
- compute
- str
Paralel işin yürütüldüğü işlemin adı (paralel bir bileşen/işlev olarak kullanılıyorsa kullanılmaz).
- retry_settings
- BatchRetrySettings
Paralel bileşen çalıştırması başarısız oldu yeniden deneme
Ortam değişkenlerinin adlarını ve değerlerini içeren bir sözlük. Bu ortam değişkenleri, kullanıcı betiğinin yürütüldüğü işlemde ayarlanır.
- logging_level
- str
'Günlüğe kaydetme' içinde tanımlanan günlük düzeyi adı dizesi. Olası değerler 'UYARI', 'BİlGİ' ve 'HATA AYıKLAMA' değerleridir. (isteğe bağlı, varsayılan değer 'BİlGİ'dir.) Bu değer PipelineParameter aracılığıyla ayarlanabilir.
- max_concurrency_per_instance
- int
Her işlem örneğinin sahip olduğu maksimum parallellism.
- error_threshold
- int
Tablosal Veri Kümesi için kayıt hatası sayısı ve dosya veri kümesi için işleme sırasında yoksayılması gereken dosya hataları. Hata sayısı bu değerin üzerine çıkarsa iş durdurulacaktır. Hata eşiği, run() yöntemine gönderilen tek tek mini toplu iş yerine girişin tamamı içindir. Aralık :[-1, int.max]. -1, işleme sırasında tüm hataları yoksaymak olduğunu gösterir
- mini_batch_error_threshold
- int
Mini toplu işlem hatası sayısı yoksayılmalıdır
- task
- RunFunction
Paralel görev
- mini_batch_size
- str
FileDataset girişi için bu alan, bir kullanıcı betiğinin tek bir run() çağrısında işleyebileceği dosya sayısıdır. TabularDataset girişi için bu alan, kullanıcı betiğinin tek bir run() çağrısında işleyebileceği yaklaşık veri boyutudur. Örnek değerler 1024, 1024 KB, 10 MB ve 1 GB'tır. (isteğe bağlı, varsayılan değer FileDataset için 10 dosya ve TabularDataset için 1 MB'tır.) Bu değer PipelineParameter aracılığıyla ayarlanabilir.
- partition_keys
- List
Veri kümesini mini toplu işlere bölmek için kullanılan anahtarlar. Belirtilirse, aynı anahtara sahip veriler aynı mini toplu işleme bölümlenir. Hem partition_keys hem de mini_batch_size belirtilirse bölüm anahtarları geçerli olur. Girişlerin bölümlenmiş veri kümeleri olması ve bunun çalışması için partition_keys her giriş veri kümesinin anahtarlarının bir alt kümesi olması gerekir
- input_data
- str
Giriş verileri.
- inputs
- Dict
Bu paralel tarafından kullanılan girişlerin diktesi.
- outputs
- Dict
Bu paralelin çıkışları
- instance_count
- int
İşlem hedefi tarafından kullanılan isteğe bağlı örnek veya düğüm sayısı. Varsayılan değer: 1
- instance_type
- str
İşlem hedefi tarafından desteklendiği şekilde kullanılan isteğe bağlı VM türü..
- docker_args
- str
Docker çalıştırma komutuna geçirebilmek için ek bağımsız değişkenler. Bu, sistem veya bu bölümde önceden ayarlanmış olan parametreleri geçersiz kılar. Bu parametre yalnızca Azure ML işlem türleri için desteklenir.
- shm_size
- str
Docker kapsayıcısının paylaşılan bellek bloğunun boyutu. Bu, sayının 0'dan büyük olduğu (sayı)(birim) biçiminde olmalı ve birim b(bayt), k(kilobayt), m(megabayt) veya g(gigabayt) olabilir.
- identity
- Union[ <xref:azure.ai.ml._restclient.v2022_02_01_preview.models.ManagedIdentity>, <xref:azure.ai.ml._restclient.v2022_02_01_preview.models.AmlToken>]
Eğitim işinin işlem üzerinde çalışırken kullanacağı kimlik.
- is_deterministic
- bool
Paralelin aynı girişe göre aynı çıkışı döndüreceğini belirtin. Paralel (bileşen) belirlenimciyse, bir işlem hattında düğüm/adım olarak kullanıldığında, aynı girişlere ve ayarlara sahip geçerli çalışma alanında daha önce gönderilen bir işin sonuçlarını yeniden kullanır. Bu durumda, bu adım herhangi bir işlem kaynağı kullanmaz. Varsayılan değer True'dur, böyle bir yeniden kullanım davranışını önlemek istiyorsanız is_deterministic=False değerini belirtin ve varsayılan değer True olur.
Döndürülenler
Paralel düğüm
Dönüş türü
Açıklamalar
parallel_run_function kullanmak için:
<xref:azure.ai.ml.entities._builders.Parallel> Toplu iş boyutunu denetleme parametreleri, işlem hedefi başına düğüm sayısı ve özel Python betiğinize başvuru içeren paralel çalıştırmanın nasıl gerçekleştirileceğini belirtmek için bir nesne oluşturun.
İşlev olarak paralel nesneyle işlem hattı oluşturun. adım için girişleri ve çıkışları tanımlar.
Çalıştırılacak işlem hattını topla.
Azure SDK for Python