ParallelRunStep Sınıf

Büyük miktarda veriyi zaman uyumsuz ve paralel olarak işlemek için bir Azure Machine Learning İşlem Hattı adımı oluşturur.

ParallelRunStep kullanma örneği için not defterine https://aka.ms/batch-inference-notebooksbakın.

Sorun giderme kılavuzu için bkz https://aka.ms/prstsg. . Burada daha fazla başvuru bulabilirsiniz.

Büyük miktarda veriyi zaman uyumsuz ve paralel olarak işlemek için bir Azure ML İşlem Hattı adımı oluşturun.

ParallelRunStep kullanma örneği için not defteri bağlantısına https://aka.ms/batch-inference-notebooksbakın.

Devralma
azureml.pipeline.core._parallel_run_step_base._ParallelRunStepBase
ParallelRunStep

Oluşturucu

ParallelRunStep(name, parallel_run_config, inputs, output=None, side_inputs=None, arguments=None, allow_reuse=True)

Parametreler

name
str
Gerekli

Adımın adı. Çalışma alanına özgü olmalıdır, yalnızca küçük harflerden, sayılardan veya kısa çizgilerden oluşmalıdır, bir harfle başlamalıdır ve 3 ile 32 karakter uzunluğunda olmalıdır.

parallel_run_config
ParallelRunConfig
Gerekli

Gerekli çalıştırma özelliklerini belirlemek için kullanılan ParallelRunConfig nesnesi.

inputs
list[Union[DatasetConsumptionConfig, PipelineOutputFileDataset, PipelineOutputTabularDataset]]
Gerekli

Giriş veri kümelerinin listesi. Listedeki tüm veri kümeleri aynı türde olmalıdır. Giriş verileri paralel işleme için bölümlenir. Listedeki her veri kümesi ayrı olarak mini toplu işler halinde bölümlenir ve mini toplu işlemlerin her biri paralel işlemede eşit şekilde işlenir.

output
Union[PipelineData, OutputPortBinding, OutputDatasetConfig]
varsayılan değer: None

Çıkış bağlantı noktası bağlama, sonraki işlem hattı adımları tarafından kullanılabilir.

side_inputs
list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData, PipelineOutputFileDataset, PipelineOutputTabularDataset, DatasetConsumptionConfig]]
varsayılan değer: None

Yan giriş başvuru verilerinin listesi. Yan girişler giriş verileri olarak bölümlenmez.

arguments
list[str]
varsayılan değer: None

Python entry_script geçirecek komut satırı bağımsız değişkenlerinin listesi.

allow_reuse
bool
varsayılan değer: True

Aynı ayarlarla/girişlerle çalıştırıldığında adımın önceki sonuçları yeniden kullanıp kullanmaymayacağı. Bu yanlışsa, işlem hattı yürütmesi sırasında bu adım için her zaman yeni bir çalıştırma oluşturulur.

name
str
Gerekli

Adımın adı. Çalışma alanına özgü olmalıdır, yalnızca küçük harflerden, sayılardan veya kısa çizgilerden oluşmalıdır, bir harfle başlamalıdır ve 3 ile 32 karakter uzunluğunda olmalıdır.

parallel_run_config
ParallelRunConfig
Gerekli

Gerekli çalıştırma özelliklerini belirlemek için kullanılan ParallelRunConfig nesnesi.

inputs
list[Union[DatasetConsumptionConfig, PipelineOutputFileDataset, PipelineOutputTabularDataset]]
Gerekli

Giriş veri kümelerinin listesi. Listedeki tüm veri kümeleri aynı türde olmalıdır. Giriş verileri paralel işleme için bölümlenir. Listedeki her veri kümesi ayrı olarak mini toplu işler halinde bölümlenir ve mini toplu işlemlerin her biri paralel işlemede eşit şekilde işlenir.

output
PipelineData, OutputPortBinding
Gerekli

Çıkış bağlantı noktası bağlama, sonraki işlem hattı adımları tarafından kullanılabilir.

side_inputs
list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData, PipelineOutputFileDataset, PipelineOutputTabularDataset, DatasetConsumptionConfig]]
Gerekli

Yan giriş başvuru verilerinin listesi. Yan girişler giriş verileri olarak bölümlenmez.

arguments
list[str]
Gerekli

Python entry_script geçirecek komut satırı bağımsız değişkenlerinin listesi.

allow_reuse
bool
Gerekli

Aynı ayarlarla/girişlerle çalıştırıldığında adımın önceki sonuçları yeniden kullanıp kullanmaymayacağı. Bu yanlışsa, işlem hattı yürütmesi sırasında bu adım için her zaman yeni bir çalıştırma oluşturulur.

Açıklamalar

ParallelRunStep büyük miktarlarda veriyi paralel olarak işlemek için kullanılabilir. Yaygın kullanım örnekleri bir dizi gözlem üzerinde tahminler oluşturmak için bir ML modelini eğitmek veya çevrimdışı çıkarım çalıştırmaktır. ParallelRunStep verilerinizi paralel çalıştırılan toplu işlere bölerek çalışır. Toplu iş boyutu düğüm sayısı ve paralel işlemenizi hızlandırmak için diğer ayarlanabilir parametreler sınıfıyla ParallelRunConfig denetlenebilir. ParallelRunStep giriş olarak veya FileDataset ile TabularDataset çalışabilir.

ParallelRunStep'i kullanmak için:

  • ParallelRunConfig Toplu işlem boyutunu, işlem hedefi başına düğüm sayısını ve özel Python betiğinize başvuruyu denetleme parametreleriyle toplu işlemenin nasıl gerçekleştirileceğini belirtmek için bir nesne oluşturun.

  • ParallelRunConfig nesnesini kullanan bir ParallelRunStep nesnesi oluşturun, adım için girişleri ve çıkışları tanımlayın.

  • Yapılandırılmış ParallelRunStep nesnesini diğer işlem hattı adım türlerinde Pipeline olduğu gibi kullanın.

Toplu çıkarım için ParallelRunStep ve ParallelRunConfig sınıflarıyla çalışma örnekleri aşağıdaki makalelerde açıklanmaktadır:


   from azureml.pipeline.steps import ParallelRunStep, ParallelRunConfig

   parallel_run_config = ParallelRunConfig(
       source_directory=scripts_folder,
       entry_script=script_file,
       mini_batch_size="5",
       error_threshold=10,         # Optional, allowed failed count on mini batch items
       allowed_failed_count=15,    # Optional, allowed failed count on mini batches
       allowed_failed_percent=10,  # Optional, allowed failed percent on mini batches
       output_action="append_row",
       environment=batch_env,
       compute_target=compute_target,
       node_count=2)

   parallelrun_step = ParallelRunStep(
       name="predict-digits-mnist",
       parallel_run_config=parallel_run_config,
       inputs=[ named_mnist_ds ],
       output=output_dir,
       arguments=[ "--extra_arg", "example_value" ],
       allow_reuse=True
   )

Bu örnek hakkında daha fazla bilgi için not defterine https://aka.ms/batch-inference-notebooksbakın.

Yöntemler

create_module_def

Adımı açıklayan modül tanımı nesnesini oluşturun.

Bu yöntemin doğrudan kullanılması amaçlanmamıştır.

create_node

için PythonScriptStep bir düğüm oluşturun ve bunu belirtilen grafiğe ekleyin.

Bu yöntemin doğrudan kullanılması amaçlanmamıştır. Bir işlem hattının örneği ParallelRunStep ile başlatıldığında, Azure Machine Learning bu yöntem aracılığıyla gerekli parametreleri otomatik olarak geçirir, böylece adım iş akışını temsil eden bir işlem hattı grafiğine eklenebilir.

create_module_def

Adımı açıklayan modül tanımı nesnesini oluşturun.

Bu yöntemin doğrudan kullanılması amaçlanmamıştır.

create_module_def(execution_type, input_bindings, output_bindings, param_defs=None, create_sequencing_ports=True, allow_reuse=True, version=None, arguments=None)

Parametreler

execution_type
str
Gerekli

Modülün yürütme türü.

input_bindings
list
Gerekli

Adım giriş bağlamaları.

output_bindings
list
Gerekli

Adım çıkış bağlamaları.

param_defs
list
varsayılan değer: None

Adım param tanımları.

create_sequencing_ports
bool
varsayılan değer: True

True ise, modül için sıralama bağlantı noktaları oluşturulur.

allow_reuse
bool
varsayılan değer: True

True ise, modül gelecekteki İşlem Hatlarında yeniden kullanılabilir.

version
str
varsayılan değer: None

Modülün sürümü.

arguments
list
varsayılan değer: None

Bu modül çağrılırken kullanılacak açıklamalı bağımsız değişkenler listesi.

Döndürülenler

Modül def nesnesi.

Dönüş türü

create_node

için PythonScriptStep bir düğüm oluşturun ve bunu belirtilen grafiğe ekleyin.

Bu yöntemin doğrudan kullanılması amaçlanmamıştır. Bir işlem hattının örneği ParallelRunStep ile başlatıldığında, Azure Machine Learning bu yöntem aracılığıyla gerekli parametreleri otomatik olarak geçirir, böylece adım iş akışını temsil eden bir işlem hattı grafiğine eklenebilir.

create_node(graph, default_datastore, context)

Parametreler

graph
Graph
Gerekli

Graph nesnesi.

default_datastore
AbstractAzureStorageDatastore veya AzureDataLakeDatastore
Gerekli

Varsayılan veri deposu.

context
<xref:azureml.pipeline.core._GraphContext>
Gerekli

Bağlam.

Döndürülenler

Oluşturulan düğüm.

Dönüş türü