ParallelRunStep Osztály

Referencia

Létrehoz egy Azure Machine Learning Pipeline-lépést nagy mennyiségű adat aszinkron és párhuzamos feldolgozásához.

A ParallelRunStep használatára példaként tekintse meg a jegyzetfüzetet https://aka.ms/batch-inference-notebooks.

Hibaelhárítási útmutató: https://aka.ms/prstsg. További referenciákat itt talál.

Hozzon létre egy Azure ML Pipeline-lépést nagy mennyiségű adat aszinkron és párhuzamos feldolgozásához.

A ParallelRunStep használatára példát a jegyzetfüzet hivatkozásában https://aka.ms/batch-inference-notebookstalál.

Öröklődés: azureml.pipeline.core._parallel_run_step_base._ParallelRunStepBase

ParallelRunStep

Konstruktor

ParallelRunStep(name, parallel_run_config, inputs, output=None, side_inputs=None, arguments=None, allow_reuse=True)

Paraméterek

Name	Description
name Kötelező	str A lépés neve. A munkaterületnek egyedinek kell lennie, csak kisbetűkből, számokból vagy kötőjelekből kell állnia, betűvel kell kezdődnie, és 3 és 32 karakter közötti hosszúságúnak kell lennie.
parallel_run_config Kötelező	ParallelRunConfig A szükséges futtatási tulajdonságok meghatározásához használt ParallelRunConfig objektum.
inputs Kötelező	list[Union[DatasetConsumptionConfig, PipelineOutputFileDataset, PipelineOutputTabularDataset]] Bemeneti adathalmazok listája. A listában szereplő összes adathalmaznak azonos típusúnak kell lennie. A bemeneti adatok particionálva lesznek a párhuzamos feldolgozáshoz. A listában szereplő adathalmazok külön-külön lesznek particionálva mini kötegekre, és a párhuzamos feldolgozás során az egyes mini kötegek egyformán lesznek kezelve.
output	Union[PipelineData, OutputPortBinding, OutputDatasetConfig] A kimeneti port kötését későbbi folyamatlépések is használhatják. alapértelmezett érték: None
side_inputs	list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData, PipelineOutputFileDataset, PipelineOutputTabularDataset, DatasetConsumptionConfig]] Az oldalsó bemeneti referenciaadatok listája. Az oldalsó bemenetek nem lesznek particionálva bemeneti adatokként. alapértelmezett érték: None
arguments	list[str] A Python-entry_script átadni kívánt parancssori argumentumok listája. alapértelmezett érték: None
allow_reuse	bool Azt, hogy a lépés újra felhasználja-e a korábbi eredményeket, amikor ugyanazokat a beállításokat/bemeneteket használja. Ha ez hamis, a folyamat végrehajtása során mindig létrejön egy új futtatás ehhez a lépéshez. alapértelmezett érték: True
name Kötelező	str A lépés neve. A munkaterületnek egyedinek kell lennie, csak kisbetűkből, számokból vagy kötőjelekből kell állnia, betűvel kell kezdődnie, és 3 és 32 karakter közötti hosszúságúnak kell lennie.
parallel_run_config Kötelező	ParallelRunConfig A szükséges futtatási tulajdonságok meghatározásához használt ParallelRunConfig objektum.
inputs Kötelező	list[Union[DatasetConsumptionConfig, PipelineOutputFileDataset, PipelineOutputTabularDataset]] Bemeneti adathalmazok listája. A listában szereplő összes adathalmaznak azonos típusúnak kell lennie. A bemeneti adatok particionálva lesznek a párhuzamos feldolgozáshoz. A listában szereplő adathalmazok külön-külön lesznek particionálva mini kötegekre, és a párhuzamos feldolgozás során az egyes mini kötegek egyformán lesznek kezelve.
output Kötelező	PipelineData, OutputPortBinding A kimeneti port kötését későbbi folyamatlépések is használhatják.
side_inputs Kötelező	list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData, PipelineOutputFileDataset, PipelineOutputTabularDataset, DatasetConsumptionConfig]] Az oldalsó bemeneti referenciaadatok listája. Az oldalsó bemenetek nem lesznek particionálva bemeneti adatokként.
arguments Kötelező	list[str] A Python-entry_script átadni kívánt parancssori argumentumok listája.
allow_reuse Kötelező	bool Azt, hogy a lépés újra felhasználja-e a korábbi eredményeket, amikor ugyanazokat a beállításokat/bemeneteket használja. Ha ez hamis, a folyamat végrehajtása során mindig létrejön egy új futtatás ehhez a lépéshez.

Megjegyzések

A ParallelRunStep segítségével nagy mennyiségű adatot dolgozhat fel egymással párhuzamosan. Gyakori felhasználási eset például egy gépi tanulási modell betanítása vagy egy offline következtetés futtatása annak érdekében, hogy előrejelzéseket hozzon létre egy megfigyelésköteg kapcsán. A ParallelRunStep az adatokat kötegekre bontja szét, amelyeket aztán párhuzamosan dolgoz fel. A kötegméret csomópontszámát és a párhuzamos feldolgozás felgyorsításához használható egyéb, módosítható paramétereket a ParallelRunConfig osztály szabályozhatja. A ParallelRunStep bemenetként vagy FileDataset bemenetként TabularDataset is használható.

A ParallelRunStep használatához:

Hozzon létre egy ParallelRunConfig objektumot a kötegelt feldolgozás végrehajtásának megadásához, a kötegméretet szabályozó paraméterekkel, a számítási célonkénti csomópontok számával és az egyéni Python-szkriptre mutató hivatkozással.
Hozzon létre egy ParallelRunStep objektumot, amely a ParallelRunConfig objektumot használja, majd határozza meg a lépéshez szükséges bemeneteket és kimeneteket.
Használja a konfigurált ParallelRunStep objektumot ugyanúgy Pipeline , mint más folyamatlépés-típusokkal.

A ParallelRunStep és a ParallelRunConfig osztályok kötegelt következtetéshez való használatát az alábbi cikkek ismertetik:

Oktatóanyag: Azure Machine Learning-folyamat létrehozása kötegelt értékeléshez. Ez a cikk bemutatja, hogyan használhatja ezt a két osztályt aszinkron kötegelt értékeléshez egy folyamatban, illetve hogyan engedélyezhet egy REST-végpontot a folyamat futtatásához.
Batch-következtetések futtatása nagy mennyiségű adaton az Azure Machine Learninggel. Ez a cikk bemutatja, hogyan lehet nagy mennyiségű adatot aszinkron módon és párhuzamosan feldolgozni egy egyéni következtetési szkripttel és egy előre betanított képbesorolási modellel a MNIST-adathalmaz alapján.


   from azureml.pipeline.steps import ParallelRunStep, ParallelRunConfig

   parallel_run_config = ParallelRunConfig(
       source_directory=scripts_folder,
       entry_script=script_file,
       mini_batch_size="5",
       error_threshold=10,         # Optional, allowed failed count on mini batch items
       allowed_failed_count=15,    # Optional, allowed failed count on mini batches
       allowed_failed_percent=10,  # Optional, allowed failed percent on mini batches
       output_action="append_row",
       environment=batch_env,
       compute_target=compute_target,
       node_count=2)

   parallelrun_step = ParallelRunStep(
       name="predict-digits-mnist",
       parallel_run_config=parallel_run_config,
       inputs=[ named_mnist_ds ],
       output=output_dir,
       arguments=[ "--extra_arg", "example_value" ],
       allow_reuse=True
   )

A példával kapcsolatos további információkért lásd a jegyzetfüzetet https://aka.ms/batch-inference-notebooks.

Metódusok

create_module_def

Hozza létre a lépést leíró moduldefiníciós objektumot.

Ez a módszer nem használható közvetlenül.

create_node

Hozzon létre egy csomópontot, PythonScriptStep és adja hozzá a megadott gráfhoz.

Ez a módszer nem használható közvetlenül. Ha egy folyamat a ParallelRunStep használatával van példányosítva, az Azure Machine Learning automatikusan átadja a szükséges paramétereket ezen a módszeren keresztül, így a lépés hozzáadható a munkafolyamatot képviselő folyamatgráfhoz.

create_module_def

Hozza létre a lépést leíró moduldefiníciós objektumot.

Ez a módszer nem használható közvetlenül.

create_module_def(execution_type, input_bindings, output_bindings, param_defs=None, create_sequencing_ports=True, allow_reuse=True, version=None, arguments=None)

Paraméterek

Name	Description
execution_type Kötelező	str A modul végrehajtási típusa.
input_bindings Kötelező	list A lépésbemeneti kötések.
output_bindings Kötelező	list A lépéskimeneti kötések.
param_defs	list A lépésparamdefiníciók. alapértelmezett érték: None
create_sequencing_ports	bool Ha igaz, létrejönnek a modulhoz tartozó szekvenálási portok. alapértelmezett érték: True
allow_reuse	bool Ha igaz, a modul a jövőbeli folyamatokban újra felhasználható lesz. alapértelmezett érték: True
version	str A modul verziója. alapértelmezett érték: None
arguments	list A modul meghívásakor használandó jegyzetekkel ellátott argumentumok listája. alapértelmezett érték: None

Válaszok

Típus	Description
ModuleDef	A modul def objektuma.

create_node

Hozzon létre egy csomópontot, PythonScriptStep és adja hozzá a megadott gráfhoz.

create_node(graph, default_datastore, context)

Paraméterek

Name	Description
graph Kötelező	Graph Gráfobjektum.
default_datastore Kötelező	AbstractAzureStorageDatastore vagy AzureDataLakeDatastore Alapértelmezett adattár.
context Kötelező	<xref:azureml.pipeline.core._GraphContext> Összefüggésben.

Válaszok

Típus	Description
Node	A létrehozott csomópont.

Share via

ParallelRunStep Osztály

Konstruktor

Paraméterek

Megjegyzések

Metódusok

create_module_def

Paraméterek

Válaszok

create_node

Paraméterek

Válaszok

Visszajelzés

Visszajelzés

További források