ParallelRunStep Klass

Referens

Skapar ett Azure Machine Learning Pipeline-steg för att bearbeta stora mängder data asynkront och parallellt.

Anteckning

Det här paketet, azureml-contrib-pipeline-steps, har föråldrats och flyttats till azureml-pipeline-steps.

Använd ParallelRunStep klassen från det nya paketet.

Ett exempel på hur du använder ParallelRunStep finns i notebook-filen https://aka.ms/batch-inference-notebooks.

Felsökningsguide finns i https://aka.ms/prstsg. Du hittar fler referenser där.

Skapa ett Azure ML Pipeline-steg för att bearbeta stora mängder data asynkront och parallellt.

Ett exempel på hur du använder ParallelRunStep finns i notebook-länken https://aka.ms/batch-inference-notebooks.

Arv: azureml.pipeline.core._python_script_step_base._PythonScriptStepBase

ParallelRunStep

Konstruktor

ParallelRunStep(name, parallel_run_config, inputs, output=None, side_inputs=None, models=None, arguments=None, allow_reuse=True, tags=None, properties=None, add_parallel_run_step_dependencies=True)

Parametrar

Name	Description
name Obligatorisk	str Namnet på steget. Måste vara unikt för arbetsytan, endast bestå av gemener, siffror eller bindestreck, börja med en bokstav och vara mellan 3 och 32 tecken långt.
parallel_run_config Obligatorisk	ParallelRunConfig Ett ParallelRunConfig-objekt som används för att fastställa nödvändiga körningsegenskaper.
inputs Obligatorisk	list[DatasetConsumptionConfig] Lista över indatauppsättningar. Alla datauppsättningar i listan ska vara av samma typ.
output	PipelineData, OutputPortBinding Utdataportbindning kan användas av senare pipelinesteg. standardvärde: None
side_inputs	list[PipelineData] Lista över referensdata för sidoindata. standardvärde: None
models	list[Model] En lista med noll eller fler modellobjekt. Den här listan används endast för att spåra pipeline till modellversionsmappning. Modeller kopieras inte till containern. get_model_path Använd metoden för klassen Modell för att hämta en modell i init-funktionen i entry_script. standardvärde: None
arguments	list[str] Lista över kommandoradsargument som ska skickas till Python-entry_script. standardvärde: None
allow_reuse	bool Om steget ska återanvända tidigare resultat när det körs med samma inställningar/indata. Om detta är falskt genereras alltid en ny körning för det här steget under pipelinekörningen. standardvärde: True
tags	dict[str, str] Ordlista med nyckelvärdestaggar för det här steget. standardvärde: None
properties	bool Ordlista med nyckelvärdesegenskaper för det här steget. standardvärde: None
add_parallel_run_step_dependencies	[Inaktuell] Om du vill lägga till körningsberoenden för ParallelRunStep. Dessa omfattar: azure-storage-queue~=2.1 azure-storage-common~=2.1 azureml-core~=1.0 azureml-telemetry~=1.0 filelock~=3.0 azureml-dataset-runtime[fuse,pandas]~=1.1 Psutil standardvärde: True
name Obligatorisk	str Namnet på steget. Måste vara unikt för arbetsytan, endast bestå av gemener, siffror eller bindestreck, börja med en bokstav och vara mellan 3 och 32 tecken långt.
parallel_run_config Obligatorisk	ParallelRunConfig Ett ParallelRunConfig-objekt som används för att fastställa nödvändiga körningsegenskaper.
inputs Obligatorisk	list[DatasetConsumptionConfig] Lista över indatauppsättningar. Alla datauppsättningar i listan ska vara av samma typ.
output Obligatorisk	PipelineData, OutputPortBinding Utdataportbindning kan användas av senare pipelinesteg.
side_inputs Obligatorisk	list[PipelineData] Lista över referensdata för sidoindata.
models Obligatorisk	list[Model] [Inaktuell] En lista med noll eller fler modellobjekt. Den här listan används endast för att spåra pipeline till modellversionsmappning. Modeller kopieras inte till containern. get_model_path Använd metoden för klassen Modell för att hämta en modell i init-funktionen i entry_script.
arguments Obligatorisk	list[str] Lista över kommandoradsargument som ska skickas till Python-entry_script.
allow_reuse Obligatorisk	bool Om steget ska återanvända tidigare resultat när det körs med samma inställningar/indata. Om detta är falskt genereras alltid en ny körning för det här steget under pipelinekörningen.
tags Obligatorisk	dict[str, str] [Inaktuell] Ordlista med nyckelvärdestaggar för det här steget.
properties Obligatorisk	bool [Inaktuell] Ordlista med nyckelvärdesegenskaper för det här steget.
add_parallel_run_step_dependencies Obligatorisk	[Inaktuell] Om du vill lägga till körningsberoenden för ParallelRunStep. Dessa omfattar: azure-storage-queue~=2.1 azure-storage-common~=2.1 azureml-core~=1.0 azureml-telemetry~=1.0 filelock~=3.0 azureml-dataset-runtime[fuse,pandas]~=1.1 Psutil

Kommentarer

Klassen ParallelRunStep kan användas för alla typer av bearbetningsjobb som omfattar stora mängder data och som inte är tidskänsliga, till exempel batchträning eller batchbedömning. ParallelRunStep fungerar genom att dela upp ett stort jobb i batchar som bearbetas parallellt. Batchstorleken och graden av parallell bearbetning kan kontrolleras med ParallelRunConfig klassen . ParallelRunStep kan fungera med antingen TabularDataset eller FileDataset som indata.

Följande mönster är typiskt för att arbeta med klassen ParallelRunStep:

Skapa ett ParallelRunConfig -objekt för att ange hur batchbearbetning utförs, med parametrar för att styra batchstorlek, antal noder per beräkningsmål och en referens till ditt anpassade Python-skript.
Skapa ett ParallelRunStep-objekt som använder ParallelRunConfig-objektet, definierar indata och utdata för steget och en lista över modeller som ska användas.
Använd det konfigurerade ParallelRunStep-objektet på samma Pipeline sätt som med pipelinestegtyperna som definierats i steps paketet.

Exempel på hur du arbetar med parallelrunstep- och ParallelRunConfig-klasser för batchinferens beskrivs i följande artiklar:

Självstudie: Skapa en Azure Machine Learning-pipeline för batchbedömning. Den här artikeln visar hur du använder dessa två klasser för asynkron batchbedömning i en pipeline och gör det möjligt för en REST-slutpunkt att köra pipelinen.
Kör batchslutsatsdragning på stora datamängder med hjälp av Azure Machine Learning. Den här artikeln visar hur du bearbetar stora mängder data asynkront och parallellt med ett anpassat slutsatsdragningsskript och en förtränad bildklassificeringsmodell baserad på MNIST-datauppsättningen.


   from azureml.contrib.pipeline.steps import ParallelRunStep, ParallelRunConfig

   parallel_run_config = ParallelRunConfig(
       source_directory=scripts_folder,
       entry_script=script_file,
       mini_batch_size="5",
       error_threshold=10,
       output_action="append_row",
       environment=batch_env,
       compute_target=compute_target,
       node_count=2)

   parallelrun_step = ParallelRunStep(
       name="predict-digits-mnist",
       parallel_run_config=parallel_run_config,
       inputs=[ named_mnist_ds ],
       output=output_dir,
       models=[ model ],
       arguments=[ ],
       allow_reuse=True
   )

Mer information om det här exemplet finns i notebook-filen https://aka.ms/batch-inference-notebooks.

Metoder

create_module_def

Skapa moduldefinitionsobjektet som beskriver steget.

Den här metoden är inte avsedd att användas direkt.

create_node

Skapa en nod för PythonScriptStep och lägg till den i den angivna grafen.

Den här metoden är inte avsedd att användas direkt. När en pipeline instansieras med ParallelRunStep skickar Azure Machine Learning automatiskt de parametrar som krävs via den här metoden så att steget kan läggas till i ett pipelinediagram som representerar arbetsflödet.

create_module_def

Skapa moduldefinitionsobjektet som beskriver steget.

Den här metoden är inte avsedd att användas direkt.

create_module_def(execution_type, input_bindings, output_bindings, param_defs=None, create_sequencing_ports=True, allow_reuse=True, version=None, arguments=None)

Parametrar

Name	Description
execution_type Obligatorisk	str Körningstypen för modulen.
input_bindings Obligatorisk	list Stegindatabindningar.
output_bindings Obligatorisk	list Steget matar ut bindningar.
param_defs	list Stegparameterdefinitionerna. standardvärde: None
create_sequencing_ports	bool Om det är sant skapas sekvenseringsportar för modulen. standardvärde: True
allow_reuse	bool Om det är sant kommer modulen att vara tillgänglig för återanvändning i framtida pipelines. standardvärde: True
version	str Versionen av modulen. standardvärde: None
arguments	list Lista med kommenterade argument som ska användas när du anropar den här modulen. standardvärde: None

Returer

Typ	Description
ModuleDef	Module def-objektet.

create_node

Skapa en nod för PythonScriptStep och lägg till den i den angivna grafen.

create_node(graph, default_datastore, context)

Parametrar

Name	Description
graph Obligatorisk	Graph Grafobjekt.
default_datastore Obligatorisk	AbstractAzureStorageDatastore eller AzureDataLakeDatastore Standarddatalager.
context Obligatorisk	<xref:azureml.pipeline.core._GraphContext> Sammanhang.

Returer

Typ	Description
Node	Den skapade noden.

ParallelRunStep Klass

Konstruktor

Parametrar

Kommentarer

Metoder

create_module_def

Parametrar

Returer

create_node

Parametrar

Returer

Feedback

Feedback

Ytterligare resurser