ParallelRunStep Sınıf
Büyük miktarda veriyi zaman uyumsuz ve paralel olarak işlemek için bir Azure Machine Learning İşlem Hattı adımı oluşturur.
ParallelRunStep kullanma örneği için not defterine https://aka.ms/batch-inference-notebooksbakın.
Sorun giderme kılavuzu için bkz https://aka.ms/prstsg. . Burada daha fazla başvuru bulabilirsiniz.
Büyük miktarda veriyi zaman uyumsuz ve paralel olarak işlemek için bir Azure ML İşlem Hattı adımı oluşturun.
ParallelRunStep kullanma örneği için not defteri bağlantısına https://aka.ms/batch-inference-notebooksbakın.
- Devralma
-
azureml.pipeline.core._parallel_run_step_base._ParallelRunStepBaseParallelRunStep
Oluşturucu
ParallelRunStep(name, parallel_run_config, inputs, output=None, side_inputs=None, arguments=None, allow_reuse=True)
Parametreler
- name
- str
Adımın adı. Çalışma alanına özgü olmalıdır, yalnızca küçük harflerden, sayılardan veya kısa çizgilerden oluşmalıdır, bir harfle başlamalıdır ve 3 ile 32 karakter uzunluğunda olmalıdır.
- parallel_run_config
- ParallelRunConfig
Gerekli çalıştırma özelliklerini belirlemek için kullanılan ParallelRunConfig nesnesi.
- inputs
- list[Union[DatasetConsumptionConfig, PipelineOutputFileDataset, PipelineOutputTabularDataset]]
Giriş veri kümelerinin listesi. Listedeki tüm veri kümeleri aynı türde olmalıdır. Giriş verileri paralel işleme için bölümlenir. Listedeki her veri kümesi ayrı olarak mini toplu işler halinde bölümlenir ve mini toplu işlemlerin her biri paralel işlemede eşit şekilde işlenir.
Çıkış bağlantı noktası bağlama, sonraki işlem hattı adımları tarafından kullanılabilir.
- side_inputs
- list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData, PipelineOutputFileDataset, PipelineOutputTabularDataset, DatasetConsumptionConfig]]
Yan giriş başvuru verilerinin listesi. Yan girişler giriş verileri olarak bölümlenmez.
Python entry_script geçirecek komut satırı bağımsız değişkenlerinin listesi.
- allow_reuse
- bool
Aynı ayarlarla/girişlerle çalıştırıldığında adımın önceki sonuçları yeniden kullanıp kullanmaymayacağı. Bu yanlışsa, işlem hattı yürütmesi sırasında bu adım için her zaman yeni bir çalıştırma oluşturulur.
- name
- str
Adımın adı. Çalışma alanına özgü olmalıdır, yalnızca küçük harflerden, sayılardan veya kısa çizgilerden oluşmalıdır, bir harfle başlamalıdır ve 3 ile 32 karakter uzunluğunda olmalıdır.
- parallel_run_config
- ParallelRunConfig
Gerekli çalıştırma özelliklerini belirlemek için kullanılan ParallelRunConfig nesnesi.
- inputs
- list[Union[DatasetConsumptionConfig, PipelineOutputFileDataset, PipelineOutputTabularDataset]]
Giriş veri kümelerinin listesi. Listedeki tüm veri kümeleri aynı türde olmalıdır. Giriş verileri paralel işleme için bölümlenir. Listedeki her veri kümesi ayrı olarak mini toplu işler halinde bölümlenir ve mini toplu işlemlerin her biri paralel işlemede eşit şekilde işlenir.
- output
- PipelineData, OutputPortBinding
Çıkış bağlantı noktası bağlama, sonraki işlem hattı adımları tarafından kullanılabilir.
- side_inputs
- list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData, PipelineOutputFileDataset, PipelineOutputTabularDataset, DatasetConsumptionConfig]]
Yan giriş başvuru verilerinin listesi. Yan girişler giriş verileri olarak bölümlenmez.
Python entry_script geçirecek komut satırı bağımsız değişkenlerinin listesi.
- allow_reuse
- bool
Aynı ayarlarla/girişlerle çalıştırıldığında adımın önceki sonuçları yeniden kullanıp kullanmaymayacağı. Bu yanlışsa, işlem hattı yürütmesi sırasında bu adım için her zaman yeni bir çalıştırma oluşturulur.
Açıklamalar
ParallelRunStep büyük miktarlarda veriyi paralel olarak işlemek için kullanılabilir. Yaygın kullanım örnekleri bir dizi gözlem üzerinde tahminler oluşturmak için bir ML modelini eğitmek veya çevrimdışı çıkarım çalıştırmaktır. ParallelRunStep verilerinizi paralel çalıştırılan toplu işlere bölerek çalışır. Toplu iş boyutu düğüm sayısı ve paralel işlemenizi hızlandırmak için diğer ayarlanabilir parametreler sınıfıyla ParallelRunConfig denetlenebilir. ParallelRunStep giriş olarak veya FileDataset ile TabularDataset çalışabilir.
ParallelRunStep'i kullanmak için:
ParallelRunConfig Toplu işlem boyutunu, işlem hedefi başına düğüm sayısını ve özel Python betiğinize başvuruyu denetleme parametreleriyle toplu işlemenin nasıl gerçekleştirileceğini belirtmek için bir nesne oluşturun.
ParallelRunConfig nesnesini kullanan bir ParallelRunStep nesnesi oluşturun, adım için girişleri ve çıkışları tanımlayın.
Yapılandırılmış ParallelRunStep nesnesini diğer işlem hattı adım türlerinde Pipeline olduğu gibi kullanın.
Toplu çıkarım için ParallelRunStep ve ParallelRunConfig sınıflarıyla çalışma örnekleri aşağıdaki makalelerde açıklanmaktadır:
Öğretici: Toplu puanlama için Azure Machine Learning işlem hattı oluşturma. Bu makalede işlem hattında zaman uyumsuz toplu puanlama için bu iki sınıfın nasıl kullanılacağı ve işlem hattını çalıştırmak için REST uç noktasının nasıl etkinleştirileceği gösterilir.
Azure Machine Learning kullanarak büyük miktarlarda veri üzerinde toplu çıkarım çalıştırma. Bu makalede özel çıkarım betiğiyle ve MNIST veri kümesi temelinde önceden eğitilmiş bir görüntü sınıflandırma modeliyle büyük miktarlarda verinin zaman uyumsuz ve paralel olarak nasıl işleneceği gösterilir.
from azureml.pipeline.steps import ParallelRunStep, ParallelRunConfig
parallel_run_config = ParallelRunConfig(
source_directory=scripts_folder,
entry_script=script_file,
mini_batch_size="5",
error_threshold=10, # Optional, allowed failed count on mini batch items
allowed_failed_count=15, # Optional, allowed failed count on mini batches
allowed_failed_percent=10, # Optional, allowed failed percent on mini batches
output_action="append_row",
environment=batch_env,
compute_target=compute_target,
node_count=2)
parallelrun_step = ParallelRunStep(
name="predict-digits-mnist",
parallel_run_config=parallel_run_config,
inputs=[ named_mnist_ds ],
output=output_dir,
arguments=[ "--extra_arg", "example_value" ],
allow_reuse=True
)
Bu örnek hakkında daha fazla bilgi için not defterine https://aka.ms/batch-inference-notebooksbakın.
Yöntemler
create_module_def |
Adımı açıklayan modül tanımı nesnesini oluşturun. Bu yöntemin doğrudan kullanılması amaçlanmamıştır. |
create_node |
için PythonScriptStep bir düğüm oluşturun ve bunu belirtilen grafiğe ekleyin. Bu yöntemin doğrudan kullanılması amaçlanmamıştır. Bir işlem hattının örneği ParallelRunStep ile başlatıldığında, Azure Machine Learning bu yöntem aracılığıyla gerekli parametreleri otomatik olarak geçirir, böylece adım iş akışını temsil eden bir işlem hattı grafiğine eklenebilir. |
create_module_def
Adımı açıklayan modül tanımı nesnesini oluşturun.
Bu yöntemin doğrudan kullanılması amaçlanmamıştır.
create_module_def(execution_type, input_bindings, output_bindings, param_defs=None, create_sequencing_ports=True, allow_reuse=True, version=None, arguments=None)
Parametreler
- create_sequencing_ports
- bool
True ise, modül için sıralama bağlantı noktaları oluşturulur.
- allow_reuse
- bool
True ise, modül gelecekteki İşlem Hatlarında yeniden kullanılabilir.
- arguments
- list
Bu modül çağrılırken kullanılacak açıklamalı bağımsız değişkenler listesi.
Döndürülenler
Modül def nesnesi.
Dönüş türü
create_node
için PythonScriptStep bir düğüm oluşturun ve bunu belirtilen grafiğe ekleyin.
Bu yöntemin doğrudan kullanılması amaçlanmamıştır. Bir işlem hattının örneği ParallelRunStep ile başlatıldığında, Azure Machine Learning bu yöntem aracılığıyla gerekli parametreleri otomatik olarak geçirir, böylece adım iş akışını temsil eden bir işlem hattı grafiğine eklenebilir.
create_node(graph, default_datastore, context)
Parametreler
- default_datastore
- AbstractAzureStorageDatastore veya AzureDataLakeDatastore
Varsayılan veri deposu.
- context
- <xref:azureml.pipeline.core._GraphContext>
Bağlam.
Döndürülenler
Oluşturulan düğüm.
Dönüş türü
Geri Bildirim
https://aka.ms/ContentUserFeedback.
Çok yakında: 2024 boyunca, içerik için geri bildirim mekanizması olarak GitHub Sorunları’nı kullanımdan kaldıracak ve yeni bir geri bildirim sistemiyle değiştireceğiz. Daha fazla bilgi için bkz.Gönderin ve geri bildirimi görüntüleyin