ParallelRunStep Osztály
Létrehoz egy Azure Machine Learning Pipeline-lépést nagy mennyiségű adat aszinkron és párhuzamos feldolgozásához.
A ParallelRunStep használatára példaként tekintse meg a jegyzetfüzetet https://aka.ms/batch-inference-notebooks.
Hibaelhárítási útmutató: https://aka.ms/prstsg. További referenciákat itt talál.
Hozzon létre egy Azure ML Pipeline-lépést nagy mennyiségű adat aszinkron és párhuzamos feldolgozásához.
A ParallelRunStep használatára példát a jegyzetfüzet hivatkozásában https://aka.ms/batch-inference-notebookstalál.
- Öröklődés
-
azureml.pipeline.core._parallel_run_step_base._ParallelRunStepBaseParallelRunStep
Konstruktor
ParallelRunStep(name, parallel_run_config, inputs, output=None, side_inputs=None, arguments=None, allow_reuse=True)
Paraméterek
Name | Description |
---|---|
name
Kötelező
|
A lépés neve. A munkaterületnek egyedinek kell lennie, csak kisbetűkből, számokból vagy kötőjelekből kell állnia, betűvel kell kezdődnie, és 3 és 32 karakter közötti hosszúságúnak kell lennie. |
parallel_run_config
Kötelező
|
A szükséges futtatási tulajdonságok meghatározásához használt ParallelRunConfig objektum. |
inputs
Kötelező
|
Bemeneti adathalmazok listája. A listában szereplő összes adathalmaznak azonos típusúnak kell lennie. A bemeneti adatok particionálva lesznek a párhuzamos feldolgozáshoz. A listában szereplő adathalmazok külön-külön lesznek particionálva mini kötegekre, és a párhuzamos feldolgozás során az egyes mini kötegek egyformán lesznek kezelve. |
output
|
A kimeneti port kötését későbbi folyamatlépések is használhatják. alapértelmezett érték: None
|
side_inputs
|
list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData, PipelineOutputFileDataset, PipelineOutputTabularDataset, DatasetConsumptionConfig]]
Az oldalsó bemeneti referenciaadatok listája. Az oldalsó bemenetek nem lesznek particionálva bemeneti adatokként. alapértelmezett érték: None
|
arguments
|
A Python-entry_script átadni kívánt parancssori argumentumok listája. alapértelmezett érték: None
|
allow_reuse
|
Azt, hogy a lépés újra felhasználja-e a korábbi eredményeket, amikor ugyanazokat a beállításokat/bemeneteket használja. Ha ez hamis, a folyamat végrehajtása során mindig létrejön egy új futtatás ehhez a lépéshez. alapértelmezett érték: True
|
name
Kötelező
|
A lépés neve. A munkaterületnek egyedinek kell lennie, csak kisbetűkből, számokból vagy kötőjelekből kell állnia, betűvel kell kezdődnie, és 3 és 32 karakter közötti hosszúságúnak kell lennie. |
parallel_run_config
Kötelező
|
A szükséges futtatási tulajdonságok meghatározásához használt ParallelRunConfig objektum. |
inputs
Kötelező
|
Bemeneti adathalmazok listája. A listában szereplő összes adathalmaznak azonos típusúnak kell lennie. A bemeneti adatok particionálva lesznek a párhuzamos feldolgozáshoz. A listában szereplő adathalmazok külön-külön lesznek particionálva mini kötegekre, és a párhuzamos feldolgozás során az egyes mini kötegek egyformán lesznek kezelve. |
output
Kötelező
|
A kimeneti port kötését későbbi folyamatlépések is használhatják. |
side_inputs
Kötelező
|
list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData, PipelineOutputFileDataset, PipelineOutputTabularDataset, DatasetConsumptionConfig]]
Az oldalsó bemeneti referenciaadatok listája. Az oldalsó bemenetek nem lesznek particionálva bemeneti adatokként. |
arguments
Kötelező
|
A Python-entry_script átadni kívánt parancssori argumentumok listája. |
allow_reuse
Kötelező
|
Azt, hogy a lépés újra felhasználja-e a korábbi eredményeket, amikor ugyanazokat a beállításokat/bemeneteket használja. Ha ez hamis, a folyamat végrehajtása során mindig létrejön egy új futtatás ehhez a lépéshez. |
Megjegyzések
A ParallelRunStep segítségével nagy mennyiségű adatot dolgozhat fel egymással párhuzamosan. Gyakori felhasználási eset például egy gépi tanulási modell betanítása vagy egy offline következtetés futtatása annak érdekében, hogy előrejelzéseket hozzon létre egy megfigyelésköteg kapcsán. A ParallelRunStep az adatokat kötegekre bontja szét, amelyeket aztán párhuzamosan dolgoz fel. A kötegméret csomópontszámát és a párhuzamos feldolgozás felgyorsításához használható egyéb, módosítható paramétereket a ParallelRunConfig osztály szabályozhatja. A ParallelRunStep bemenetként vagy FileDataset bemenetként TabularDataset is használható.
A ParallelRunStep használatához:
Hozzon létre egy ParallelRunConfig objektumot a kötegelt feldolgozás végrehajtásának megadásához, a kötegméretet szabályozó paraméterekkel, a számítási célonkénti csomópontok számával és az egyéni Python-szkriptre mutató hivatkozással.
Hozzon létre egy ParallelRunStep objektumot, amely a ParallelRunConfig objektumot használja, majd határozza meg a lépéshez szükséges bemeneteket és kimeneteket.
Használja a konfigurált ParallelRunStep objektumot ugyanúgy Pipeline , mint más folyamatlépés-típusokkal.
A ParallelRunStep és a ParallelRunConfig osztályok kötegelt következtetéshez való használatát az alábbi cikkek ismertetik:
Oktatóanyag: Azure Machine Learning-folyamat létrehozása kötegelt értékeléshez. Ez a cikk bemutatja, hogyan használhatja ezt a két osztályt aszinkron kötegelt értékeléshez egy folyamatban, illetve hogyan engedélyezhet egy REST-végpontot a folyamat futtatásához.
Batch-következtetések futtatása nagy mennyiségű adaton az Azure Machine Learninggel. Ez a cikk bemutatja, hogyan lehet nagy mennyiségű adatot aszinkron módon és párhuzamosan feldolgozni egy egyéni következtetési szkripttel és egy előre betanított képbesorolási modellel a MNIST-adathalmaz alapján.
from azureml.pipeline.steps import ParallelRunStep, ParallelRunConfig
parallel_run_config = ParallelRunConfig(
source_directory=scripts_folder,
entry_script=script_file,
mini_batch_size="5",
error_threshold=10, # Optional, allowed failed count on mini batch items
allowed_failed_count=15, # Optional, allowed failed count on mini batches
allowed_failed_percent=10, # Optional, allowed failed percent on mini batches
output_action="append_row",
environment=batch_env,
compute_target=compute_target,
node_count=2)
parallelrun_step = ParallelRunStep(
name="predict-digits-mnist",
parallel_run_config=parallel_run_config,
inputs=[ named_mnist_ds ],
output=output_dir,
arguments=[ "--extra_arg", "example_value" ],
allow_reuse=True
)
A példával kapcsolatos további információkért lásd a jegyzetfüzetet https://aka.ms/batch-inference-notebooks.
Metódusok
create_module_def |
Hozza létre a lépést leíró moduldefiníciós objektumot. Ez a módszer nem használható közvetlenül. |
create_node |
Hozzon létre egy csomópontot, PythonScriptStep és adja hozzá a megadott gráfhoz. Ez a módszer nem használható közvetlenül. Ha egy folyamat a ParallelRunStep használatával van példányosítva, az Azure Machine Learning automatikusan átadja a szükséges paramétereket ezen a módszeren keresztül, így a lépés hozzáadható a munkafolyamatot képviselő folyamatgráfhoz. |
create_module_def
Hozza létre a lépést leíró moduldefiníciós objektumot.
Ez a módszer nem használható közvetlenül.
create_module_def(execution_type, input_bindings, output_bindings, param_defs=None, create_sequencing_ports=True, allow_reuse=True, version=None, arguments=None)
Paraméterek
Name | Description |
---|---|
execution_type
Kötelező
|
A modul végrehajtási típusa. |
input_bindings
Kötelező
|
A lépésbemeneti kötések. |
output_bindings
Kötelező
|
A lépéskimeneti kötések. |
param_defs
|
A lépésparamdefiníciók. alapértelmezett érték: None
|
create_sequencing_ports
|
Ha igaz, létrejönnek a modulhoz tartozó szekvenálási portok. alapértelmezett érték: True
|
allow_reuse
|
Ha igaz, a modul a jövőbeli folyamatokban újra felhasználható lesz. alapértelmezett érték: True
|
version
|
A modul verziója. alapértelmezett érték: None
|
arguments
|
A modul meghívásakor használandó jegyzetekkel ellátott argumentumok listája. alapértelmezett érték: None
|
Válaszok
Típus | Description |
---|---|
A modul def objektuma. |
create_node
Hozzon létre egy csomópontot, PythonScriptStep és adja hozzá a megadott gráfhoz.
Ez a módszer nem használható közvetlenül. Ha egy folyamat a ParallelRunStep használatával van példányosítva, az Azure Machine Learning automatikusan átadja a szükséges paramétereket ezen a módszeren keresztül, így a lépés hozzáadható a munkafolyamatot képviselő folyamatgráfhoz.
create_node(graph, default_datastore, context)
Paraméterek
Name | Description |
---|---|
graph
Kötelező
|
Gráfobjektum. |
default_datastore
Kötelező
|
Alapértelmezett adattár. |
context
Kötelező
|
<xref:azureml.pipeline.core._GraphContext>
Összefüggésben. |
Válaszok
Típus | Description |
---|---|
A létrehozott csomópont. |
Visszajelzés
https://aka.ms/ContentUserFeedback.
Hamarosan elérhető: 2024-ben fokozatosan kivezetjük a GitHub-problémákat a tartalom visszajelzési mechanizmusaként, és lecseréljük egy új visszajelzési rendszerre. További információ:Visszajelzés küldése és megtekintése a következőhöz: