Share via


ParallelRunStep Osztály

Létrehoz egy Azure Machine Learning Pipeline-lépést nagy mennyiségű adat aszinkron és párhuzamos feldolgozásához.

A ParallelRunStep használatára példaként tekintse meg a jegyzetfüzetet https://aka.ms/batch-inference-notebooks.

Hibaelhárítási útmutató: https://aka.ms/prstsg. További referenciákat itt talál.

Hozzon létre egy Azure ML Pipeline-lépést nagy mennyiségű adat aszinkron és párhuzamos feldolgozásához.

A ParallelRunStep használatára példát a jegyzetfüzet hivatkozásában https://aka.ms/batch-inference-notebookstalál.

Öröklődés
azureml.pipeline.core._parallel_run_step_base._ParallelRunStepBase
ParallelRunStep

Konstruktor

ParallelRunStep(name, parallel_run_config, inputs, output=None, side_inputs=None, arguments=None, allow_reuse=True)

Paraméterek

Name Description
name
Kötelező
str

A lépés neve. A munkaterületnek egyedinek kell lennie, csak kisbetűkből, számokból vagy kötőjelekből kell állnia, betűvel kell kezdődnie, és 3 és 32 karakter közötti hosszúságúnak kell lennie.

parallel_run_config
Kötelező

A szükséges futtatási tulajdonságok meghatározásához használt ParallelRunConfig objektum.

inputs
Kötelező

Bemeneti adathalmazok listája. A listában szereplő összes adathalmaznak azonos típusúnak kell lennie. A bemeneti adatok particionálva lesznek a párhuzamos feldolgozáshoz. A listában szereplő adathalmazok külön-külön lesznek particionálva mini kötegekre, és a párhuzamos feldolgozás során az egyes mini kötegek egyformán lesznek kezelve.

output

A kimeneti port kötését későbbi folyamatlépések is használhatják.

alapértelmezett érték: None
side_inputs

Az oldalsó bemeneti referenciaadatok listája. Az oldalsó bemenetek nem lesznek particionálva bemeneti adatokként.

alapértelmezett érték: None
arguments

A Python-entry_script átadni kívánt parancssori argumentumok listája.

alapértelmezett érték: None
allow_reuse

Azt, hogy a lépés újra felhasználja-e a korábbi eredményeket, amikor ugyanazokat a beállításokat/bemeneteket használja. Ha ez hamis, a folyamat végrehajtása során mindig létrejön egy új futtatás ehhez a lépéshez.

alapértelmezett érték: True
name
Kötelező
str

A lépés neve. A munkaterületnek egyedinek kell lennie, csak kisbetűkből, számokból vagy kötőjelekből kell állnia, betűvel kell kezdődnie, és 3 és 32 karakter közötti hosszúságúnak kell lennie.

parallel_run_config
Kötelező

A szükséges futtatási tulajdonságok meghatározásához használt ParallelRunConfig objektum.

inputs
Kötelező

Bemeneti adathalmazok listája. A listában szereplő összes adathalmaznak azonos típusúnak kell lennie. A bemeneti adatok particionálva lesznek a párhuzamos feldolgozáshoz. A listában szereplő adathalmazok külön-külön lesznek particionálva mini kötegekre, és a párhuzamos feldolgozás során az egyes mini kötegek egyformán lesznek kezelve.

output
Kötelező

A kimeneti port kötését későbbi folyamatlépések is használhatják.

side_inputs
Kötelező

Az oldalsó bemeneti referenciaadatok listája. Az oldalsó bemenetek nem lesznek particionálva bemeneti adatokként.

arguments
Kötelező

A Python-entry_script átadni kívánt parancssori argumentumok listája.

allow_reuse
Kötelező

Azt, hogy a lépés újra felhasználja-e a korábbi eredményeket, amikor ugyanazokat a beállításokat/bemeneteket használja. Ha ez hamis, a folyamat végrehajtása során mindig létrejön egy új futtatás ehhez a lépéshez.

Megjegyzések

A ParallelRunStep segítségével nagy mennyiségű adatot dolgozhat fel egymással párhuzamosan. Gyakori felhasználási eset például egy gépi tanulási modell betanítása vagy egy offline következtetés futtatása annak érdekében, hogy előrejelzéseket hozzon létre egy megfigyelésköteg kapcsán. A ParallelRunStep az adatokat kötegekre bontja szét, amelyeket aztán párhuzamosan dolgoz fel. A kötegméret csomópontszámát és a párhuzamos feldolgozás felgyorsításához használható egyéb, módosítható paramétereket a ParallelRunConfig osztály szabályozhatja. A ParallelRunStep bemenetként vagy FileDataset bemenetként TabularDataset is használható.

A ParallelRunStep használatához:

  • Hozzon létre egy ParallelRunConfig objektumot a kötegelt feldolgozás végrehajtásának megadásához, a kötegméretet szabályozó paraméterekkel, a számítási célonkénti csomópontok számával és az egyéni Python-szkriptre mutató hivatkozással.

  • Hozzon létre egy ParallelRunStep objektumot, amely a ParallelRunConfig objektumot használja, majd határozza meg a lépéshez szükséges bemeneteket és kimeneteket.

  • Használja a konfigurált ParallelRunStep objektumot ugyanúgy Pipeline , mint más folyamatlépés-típusokkal.

A ParallelRunStep és a ParallelRunConfig osztályok kötegelt következtetéshez való használatát az alábbi cikkek ismertetik:


   from azureml.pipeline.steps import ParallelRunStep, ParallelRunConfig

   parallel_run_config = ParallelRunConfig(
       source_directory=scripts_folder,
       entry_script=script_file,
       mini_batch_size="5",
       error_threshold=10,         # Optional, allowed failed count on mini batch items
       allowed_failed_count=15,    # Optional, allowed failed count on mini batches
       allowed_failed_percent=10,  # Optional, allowed failed percent on mini batches
       output_action="append_row",
       environment=batch_env,
       compute_target=compute_target,
       node_count=2)

   parallelrun_step = ParallelRunStep(
       name="predict-digits-mnist",
       parallel_run_config=parallel_run_config,
       inputs=[ named_mnist_ds ],
       output=output_dir,
       arguments=[ "--extra_arg", "example_value" ],
       allow_reuse=True
   )

A példával kapcsolatos további információkért lásd a jegyzetfüzetet https://aka.ms/batch-inference-notebooks.

Metódusok

create_module_def

Hozza létre a lépést leíró moduldefiníciós objektumot.

Ez a módszer nem használható közvetlenül.

create_node

Hozzon létre egy csomópontot, PythonScriptStep és adja hozzá a megadott gráfhoz.

Ez a módszer nem használható közvetlenül. Ha egy folyamat a ParallelRunStep használatával van példányosítva, az Azure Machine Learning automatikusan átadja a szükséges paramétereket ezen a módszeren keresztül, így a lépés hozzáadható a munkafolyamatot képviselő folyamatgráfhoz.

create_module_def

Hozza létre a lépést leíró moduldefiníciós objektumot.

Ez a módszer nem használható közvetlenül.

create_module_def(execution_type, input_bindings, output_bindings, param_defs=None, create_sequencing_ports=True, allow_reuse=True, version=None, arguments=None)

Paraméterek

Name Description
execution_type
Kötelező
str

A modul végrehajtási típusa.

input_bindings
Kötelező

A lépésbemeneti kötések.

output_bindings
Kötelező

A lépéskimeneti kötések.

param_defs

A lépésparamdefiníciók.

alapértelmezett érték: None
create_sequencing_ports

Ha igaz, létrejönnek a modulhoz tartozó szekvenálási portok.

alapértelmezett érték: True
allow_reuse

Ha igaz, a modul a jövőbeli folyamatokban újra felhasználható lesz.

alapértelmezett érték: True
version
str

A modul verziója.

alapértelmezett érték: None
arguments

A modul meghívásakor használandó jegyzetekkel ellátott argumentumok listája.

alapértelmezett érték: None

Válaszok

Típus Description

A modul def objektuma.

create_node

Hozzon létre egy csomópontot, PythonScriptStep és adja hozzá a megadott gráfhoz.

Ez a módszer nem használható közvetlenül. Ha egy folyamat a ParallelRunStep használatával van példányosítva, az Azure Machine Learning automatikusan átadja a szükséges paramétereket ezen a módszeren keresztül, így a lépés hozzáadható a munkafolyamatot képviselő folyamatgráfhoz.

create_node(graph, default_datastore, context)

Paraméterek

Name Description
graph
Kötelező

Gráfobjektum.

default_datastore
Kötelező

Alapértelmezett adattár.

context
Kötelező
<xref:azureml.pipeline.core._GraphContext>

Összefüggésben.

Válaszok

Típus Description

A létrehozott csomópont.