ParallelRunStep Klas

Referentie

Hiermee maakt u een Azure Machine Learning-pijplijnstap voor het asynchroon en parallel verwerken van grote hoeveelheden gegevens.

Notitie

Dit pakket, azureml-contrib-pipeline-steps, is afgeschaft en verplaatst naar azureml-pipeline-steps.

Gebruik de klasse van het ParallelRunStep nieuwe pakket.

Zie het notebook https://aka.ms/batch-inference-notebooksvoor een voorbeeld van het gebruik van ParallelRunStep.

Zie voor de gids https://aka.ms/prstsgvoor probleemoplossing. Meer verwijzingen vindt u hier.

Maak een Azure ML-pijplijnstap om grote hoeveelheden gegevens asynchroon en parallel te verwerken.

Zie de notebookkoppeling https://aka.ms/batch-inference-notebooksvoor een voorbeeld van het gebruik van ParallelRunStep.

Overname: azureml.pipeline.core._python_script_step_base._PythonScriptStepBase

ParallelRunStep

Constructor

ParallelRunStep(name, parallel_run_config, inputs, output=None, side_inputs=None, models=None, arguments=None, allow_reuse=True, tags=None, properties=None, add_parallel_run_step_dependencies=True)

Parameters

Name	Description
name Vereist	str Naam van de stap. Moet uniek zijn voor de werkruimte, alleen bestaan uit kleine letters, cijfers of streepjes, beginnen met een letter en tussen 3 en 32 tekens lang zijn.
parallel_run_config Vereist	ParallelRunConfig Een ParallelRunConfig-object dat wordt gebruikt om vereiste uitvoeringseigenschappen te bepalen.
inputs Vereist	list[DatasetConsumptionConfig] Lijst met invoergegevenssets. Alle gegevenssets in de lijst moeten van hetzelfde type zijn.
output	PipelineData, OutputPortBinding Uitvoerpoortbinding, kan worden gebruikt door latere pijplijnstappen. standaardwaarde: None
side_inputs	list[PipelineData] Lijst met referentiegegevens voor invoer aan de zijkant. standaardwaarde: None
models	list[Model] Een lijst met nul of meer modelobjecten. Deze lijst wordt alleen gebruikt om de toewijzing van pijplijnen naar modelversies bij te houden. Modellen worden niet gekopieerd naar de container. Gebruik de get_model_path methode van de klasse Model om een model op te halen in de functie init in entry_script. standaardwaarde: None
arguments	list[str] Lijst met opdrachtregelargumenten die moeten worden doorgegeven aan de Python-entry_script. standaardwaarde: None
allow_reuse	bool Of de stap eerdere resultaten opnieuw moet gebruiken wanneer deze wordt uitgevoerd met dezelfde instellingen/invoerwaarden. Als dit onwaar is, wordt er altijd een nieuwe uitvoering gegenereerd voor deze stap tijdens het uitvoeren van de pijplijn. standaardwaarde: True
tags	dict[str, str] Woordenlijst met sleutelwaardetags voor deze stap. standaardwaarde: None
properties	bool Woordenlijst met sleutelwaarde-eigenschappen voor deze stap. standaardwaarde: None
add_parallel_run_step_dependencies	[Afgeschaft] Of runtime-afhankelijkheden moeten worden toegevoegd voor ParallelRunStep. Deze omvatten: azure-storage-queue~=2.1 azure-storage-common~=2.1 azureml-core~=1.0 azureml-telemetrie~=1.0 filelock~=3.0 azureml-dataset-runtime[fuse,pandas]~=1.1 psutil standaardwaarde: True
name Vereist	str Naam van de stap. Moet uniek zijn voor de werkruimte, alleen bestaan uit kleine letters, cijfers of streepjes, beginnen met een letter en tussen 3 en 32 tekens lang zijn.
parallel_run_config Vereist	ParallelRunConfig Een ParallelRunConfig-object dat wordt gebruikt om vereiste uitvoeringseigenschappen te bepalen.
inputs Vereist	list[DatasetConsumptionConfig] Lijst met invoergegevenssets. Alle gegevenssets in de lijst moeten van hetzelfde type zijn.
output Vereist	PipelineData, OutputPortBinding Uitvoerpoortbinding, kan worden gebruikt door latere pijplijnstappen.
side_inputs Vereist	list[PipelineData] Lijst met referentiegegevens voor invoer aan de zijkant.
models Vereist	list[Model] [Afgeschaft] Een lijst met nul of meer modelobjecten. Deze lijst wordt alleen gebruikt om de toewijzing van pijplijnen naar modelversies bij te houden. Modellen worden niet gekopieerd naar de container. Gebruik de get_model_path methode van de klasse Model om een model op te halen in de functie init in entry_script.
arguments Vereist	list[str] Lijst met opdrachtregelargumenten die moeten worden doorgegeven aan de Python-entry_script.
allow_reuse Vereist	bool Of de stap eerdere resultaten opnieuw moet gebruiken wanneer deze wordt uitgevoerd met dezelfde instellingen/invoerwaarden. Als dit onwaar is, wordt er altijd een nieuwe uitvoering gegenereerd voor deze stap tijdens het uitvoeren van de pijplijn.
tags Vereist	dict[str, str] [Afgeschaft] Woordenlijst met sleutelwaardetags voor deze stap.
properties Vereist	bool [Afgeschaft] Woordenlijst met sleutelwaarde-eigenschappen voor deze stap.
add_parallel_run_step_dependencies Vereist	[Afgeschaft] Of runtime-afhankelijkheden moeten worden toegevoegd voor ParallelRunStep. Deze omvatten: azure-storage-queue~=2.1 azure-storage-common~=2.1 azureml-core~=1.0 azureml-telemetrie~=1.0 filelock~=3.0 azureml-dataset-runtime[fuse,pandas]~=1.1 psutil

Opmerkingen

De klasse ParallelRunStep kan worden gebruikt voor elk type verwerkingstaak waarbij grote hoeveelheden gegevens zijn betrokken en die niet tijdgevoelig zijn, zoals batchtraining of batchscore. De ParallelRunStep werkt door een grote taak op te splitsen in batches die parallel worden verwerkt. De batchgrootte en de mate van parallelle verwerking kunnen worden beheerd met de ParallelRunConfig klasse. ParallelRunStep kan met TabularDataset of FileDataset als invoer werken.

Als u wilt werken met de klasse ParallelRunStep, is het volgende patroon gebruikelijk:

Maak een ParallelRunConfig object om op te geven hoe batchverwerking wordt uitgevoerd, met parameters voor het beheren van de batchgrootte, het aantal knooppunten per rekendoel en een verwijzing naar uw aangepaste Python-script.
Maak een ParallelRunStep-object dat gebruikmaakt van het object ParallelRunConfig, invoer en uitvoer voor de stap definieert en een lijst met modellen die moeten worden gebruikt.
Gebruik het geconfigureerde ParallelRunStep-object in een Pipeline op dezelfde wijze als u zou doen met pijplijnstaptypen die in het steps pakket zijn gedefinieerd.

Voorbeelden van het werken met de klassen ParallelRunStep en ParallelRunConfig voor batchdeductie worden besproken in de volgende artikelen:

Zelfstudie: Een Azure Machine Learning-pijplijn maken voor batchscores. In dit artikel wordt beschreven hoe u deze twee klassen gebruikt voor asynchrone batchscores in een pijplijn en hoe u een REST-eindpunt activeert om de pijplijn uit te voeren.
Batchdeductie uitvoeren voor grote hoeveelheden gegevens met Azure Machine Learning. In dit artikel wordt beschreven hoe u grote hoeveelheden gegevens asynchroon en parallel verwerkt met een aangepast deductiescript en een vooraf getraind model voor afbeeldingsclassificatie op basis van de MNIST-gegevensset.


   from azureml.contrib.pipeline.steps import ParallelRunStep, ParallelRunConfig

   parallel_run_config = ParallelRunConfig(
       source_directory=scripts_folder,
       entry_script=script_file,
       mini_batch_size="5",
       error_threshold=10,
       output_action="append_row",
       environment=batch_env,
       compute_target=compute_target,
       node_count=2)

   parallelrun_step = ParallelRunStep(
       name="predict-digits-mnist",
       parallel_run_config=parallel_run_config,
       inputs=[ named_mnist_ds ],
       output=output_dir,
       models=[ model ],
       arguments=[ ],
       allow_reuse=True
   )

Zie het notebook https://aka.ms/batch-inference-notebooksvoor meer informatie over dit voorbeeld.

Methoden

create_module_def

Maak het moduledefinitieobject dat de stap beschrijft.

Deze methode is niet bedoeld om rechtstreeks te worden gebruikt.

create_node

Maak een knooppunt voor PythonScriptStep en voeg dit toe aan de opgegeven grafiek.

Deze methode is niet bedoeld om rechtstreeks te worden gebruikt. Wanneer een pijplijn wordt geïnstantieerd met ParallelRunStep, geeft Azure Machine Learning automatisch de vereiste parameters door via deze methode, zodat de stap kan worden toegevoegd aan een pijplijngrafiek die de werkstroom vertegenwoordigt.

create_module_def

Maak het moduledefinitieobject dat de stap beschrijft.

Deze methode is niet bedoeld om rechtstreeks te worden gebruikt.

create_module_def(execution_type, input_bindings, output_bindings, param_defs=None, create_sequencing_ports=True, allow_reuse=True, version=None, arguments=None)

Parameters

Name	Description
execution_type Vereist	str Het uitvoeringstype van de module.
input_bindings Vereist	list De stap invoerbindingen.
output_bindings Vereist	list De stap voert bindingen uit.
param_defs	list De definities van stapparameters. standaardwaarde: None
create_sequencing_ports	bool Als dit waar is, worden er sequentiërende poorten gemaakt voor de module. standaardwaarde: True
allow_reuse	bool Als dit waar is, is de module beschikbaar voor hergebruik in toekomstige pijplijnen. standaardwaarde: True
version	str De versie van de module. standaardwaarde: None
arguments	list Lijst met argumenten met aantekeningen die moeten worden gebruikt bij het aanroepen van deze module. standaardwaarde: None

Retouren

Type	Description
ModuleDef	Het moduledef-object.

create_node

Maak een knooppunt voor PythonScriptStep en voeg dit toe aan de opgegeven grafiek.

create_node(graph, default_datastore, context)

Parameters

Name	Description
graph Vereist	Graph Grafiekobject.
default_datastore Vereist	AbstractAzureStorageDatastore of AzureDataLakeDatastore Standaardgegevensarchief.
context Vereist	<xref:azureml.pipeline.core._GraphContext> Context.

Retouren

Type	Description
Node	Het gemaakte knooppunt.

ParallelRunStep Klas

Constructor

Parameters

Opmerkingen

Methoden

create_module_def

Parameters

Retouren

create_node

Parameters

Retouren

Feedback

Feedback

Aanvullende resources