ParallelRunConfig Klas
Hiermee definieert u de configuratie voor een ParallelRunStep object.
Notitie
Dit pakket, azureml-contrib-pipeline-steps, is afgeschaft en verplaatst naar azureml-pipeline-steps.
Gebruik de klasse van het ParallelRunConfig nieuwe pakket.
Zie het notebook https://aka.ms/batch-inference-notebooksvoor een voorbeeld van het gebruik van ParallelRunStep.
Zie voor de gids https://aka.ms/prstsgvoor probleemoplossing. Meer verwijzingen vindt u hier.
Initialiseer het configuratieobject.
- Overname
-
builtins.objectParallelRunConfig
Constructor
ParallelRunConfig(environment, entry_script, error_threshold, output_action, compute_target, node_count, process_count_per_node=None, mini_batch_size=None, source_directory=None, description=None, logging_level=None, run_invocation_timeout=None, input_format=None, append_row_file_name=None)
Parameters
Name | Description |
---|---|
environment
Vereist
|
De omgevingsdefinitie waarmee de Python-omgeving wordt geconfigureerd. Deze kan worden geconfigureerd voor het gebruik van een bestaande Python-omgeving of voor het instellen van een tijdelijke omgeving voor het experiment. De definitie is ook verantwoordelijk voor het instellen van de vereiste toepassingsafhankelijkheden. |
entry_script
Vereist
|
Gebruikersscript dat parallel op meerdere knooppunten wordt uitgevoerd. Dit is opgegeven als lokaal bestandspad. Als |
error_threshold
Vereist
|
Het aantal recordfouten voor TabularDataset en bestandsfouten hiervoor FileDataset moet tijdens de verwerking worden genegeerd. Als het aantal fouten boven deze waarde komt, wordt de taak afgebroken. De foutdrempelwaarde geldt voor de volledige invoer en niet voor afzonderlijke minibatches die zijn verzonden naar de methode run(). Het bereik is [-1, int.max]. -1 geeft aan dat alle fouten tijdens de verwerking worden genegeerd. |
output_action
Vereist
|
Hoe de uitvoer moet worden georganiseerd. Momenteel ondersteunde waarden zijn 'append_row' en 'summary_only'.
|
compute_target
Vereist
|
AmlCompute of
str
Rekendoel dat moet worden gebruikt voor ParallelRunStep. Deze parameter kan worden opgegeven als een rekendoelobject of de tekenreeksnaam van een rekendoel in de werkruimte. |
node_count
Vereist
|
Het aantal knooppunten in het rekendoel dat wordt gebruikt voor het uitvoeren van de ParallelRunStep. |
process_count_per_node
|
Het aantal processen dat op elk knooppunt wordt uitgevoerd. (optioneel, standaardwaarde is het aantal kernen op het knooppunt.) standaardwaarde: None
|
mini_batch_size
|
Voor FileDataset-invoer is dit veld het aantal bestanden dat een gebruikersscript kan verwerken in één run()-aanroep. Voor TabularDataset-invoer is dit veld de geschatte grootte van de gegevens die het gebruikersscript kan verwerken in één run()-aanroep. Voorbeeldwaarden zijn 1024, 1024 kB, 10 MB en 1 GB. (optioneel, de standaardwaarde is 10 bestanden voor FileDataset en 1 MB voor TabularDataset.) standaardwaarde: None
|
source_directory
|
Paden naar mappen die de standaardwaarde: None
|
description
|
Een beschrijving voor de batchservice die wordt gebruikt voor weergavedoeleinden. standaardwaarde: None
|
logging_level
|
Een tekenreeks van de naam van het logboekregistratieniveau, die is gedefinieerd in 'logboekregistratie'. Mogelijke waarden zijn WAARSCHUWING, INFO en FOUTOPSPORING. (optioneel, standaardwaarde is 'INFO'.) standaardwaarde: None
|
run_invocation_timeout
|
Time-out in seconden voor elke aanroep van de methode run(). (optioneel, standaardwaarde is 60.) standaardwaarde: None
|
input_format
|
Afgeschaft. standaardwaarde: None
|
environment
Vereist
|
De omgevingsdefinitie waarmee de Python-omgeving wordt geconfigureerd. Deze kan worden geconfigureerd voor het gebruik van een bestaande Python-omgeving of voor het instellen van een tijdelijke omgeving voor het experiment. De definitie is ook verantwoordelijk voor het instellen van de vereiste toepassingsafhankelijkheden. |
entry_script
Vereist
|
Gebruikersscript dat parallel op meerdere knooppunten wordt uitgevoerd. Dit is opgegeven als lokaal bestandspad. Als |
error_threshold
Vereist
|
Het aantal recordfouten voor TabularDataset en bestandsfouten hiervoor FileDataset moet tijdens de verwerking worden genegeerd. Als het aantal fouten boven deze waarde komt, wordt de taak afgebroken. De foutdrempelwaarde geldt voor de volledige invoer en niet voor afzonderlijke minibatches die zijn verzonden naar de methode run(). Het bereik is [-1, int.max]. -1 geeft aan dat alle fouten tijdens de verwerking worden genegeerd. |
output_action
Vereist
|
Hoe de uitvoer moet worden georganiseerd. Momenteel ondersteunde waarden zijn 'append_row' en 'summary_only'.
|
compute_target
Vereist
|
AmlCompute of
str
Rekendoel dat moet worden gebruikt voor ParallelRunStep. Deze parameter kan worden opgegeven als een rekendoelobject of de tekenreeksnaam van een rekendoel in de werkruimte. |
node_count
Vereist
|
Het aantal knooppunten in het rekendoel dat wordt gebruikt voor het uitvoeren van de ParallelRunStep. |
process_count_per_node
Vereist
|
Het aantal processen dat op elk knooppunt wordt uitgevoerd. (optioneel, standaardwaarde is het aantal kernen op het knooppunt.) |
mini_batch_size
Vereist
|
Voor FileDataset-invoer is dit veld het aantal bestanden dat een gebruikersscript kan verwerken in één run()-aanroep. Voor TabularDataset-invoer is dit veld de geschatte grootte van de gegevens die het gebruikersscript kan verwerken in één run()-aanroep. Voorbeeldwaarden zijn 1024, 1024 kB, 10 MB en 1 GB. (optioneel, de standaardwaarde is 10 bestanden voor FileDataset en 1 MB voor TabularDataset.) |
source_directory
Vereist
|
Paden naar mappen die de |
description
Vereist
|
Een beschrijving voor de batchservice die wordt gebruikt voor weergavedoeleinden. |
logging_level
Vereist
|
Een tekenreeks van de naam van het logboekregistratieniveau, die is gedefinieerd in 'logboekregistratie'. Mogelijke waarden zijn WAARSCHUWING, INFO en FOUTOPSPORING. (optioneel, standaardwaarde is 'INFO'.) |
run_invocation_timeout
Vereist
|
Time-out in seconden voor elke aanroep van de methode run(). (optioneel, standaardwaarde is 60.) |
input_format
Vereist
|
Afgeschaft. |
append_row_file_name
|
standaardwaarde: None
|
Opmerkingen
De klasse ParallelRunConfig wordt gebruikt om de configuratie voor de ParallelRunStep klasse op te geven. De klassen ParallelRunConfig en ParallelRunStep kunnen samen worden gebruikt voor elk soort verwerkingstaak die grote hoeveelheden gegevens omvat en niet tijdgevoelig is, zoals training of scoren. ParallelRunStep werkt door een grote taak op te splitsen in batches die parallel worden verwerkt. De batchgrootte en de mate van parallelle verwerking kunnen worden bepaald met de ParallelRunConfig klasse . ParallelRunStep kan werken met TabularDataset of FileDataset als invoer.
Voor het werken met de klasse ParallelRunStep is het volgende patroon gebruikelijk:
Maak een ParallelRunConfig -object om op te geven hoe batchverwerking wordt uitgevoerd, met parameters voor het beheren van de batchgrootte, het aantal knooppunten per rekendoel en een verwijzing naar uw aangepaste Python-script.
Maak een ParallelRunStep-object dat gebruikmaakt van het object ParallelRunConfig, invoer en uitvoer voor de stap definieert en een lijst met te gebruiken modellen.
Gebruik het geconfigureerde ParallelRunStep-object in een Pipeline op dezelfde wijze als u zou doen met pijplijnstaptypen die in het steps pakket zijn gedefinieerd.
Voorbeelden van het werken met de klassen ParallelRunStep en ParallelRunConfig voor batchdeductie worden besproken in de volgende artikelen:
Zelfstudie: Een Azure Machine Learning-pijplijn maken voor batchscores. In dit artikel wordt beschreven hoe u deze twee klassen gebruikt voor asynchrone batchscores in een pijplijn en hoe u een REST-eindpunt activeert om de pijplijn uit te voeren.
Batchdeductie uitvoeren voor grote hoeveelheden gegevens met Azure Machine Learning. In dit artikel wordt beschreven hoe u grote hoeveelheden gegevens asynchroon en parallel verwerkt met een aangepast deductiescript en een vooraf getraind model voor afbeeldingsclassificatie op basis van de MNIST-gegevensset.
from azureml.contrib.pipeline.steps import ParallelRunStep, ParallelRunConfig
parallel_run_config = ParallelRunConfig(
source_directory=scripts_folder,
entry_script=script_file,
mini_batch_size="5",
error_threshold=10,
output_action="append_row",
environment=batch_env,
compute_target=compute_target,
node_count=2)
parallelrun_step = ParallelRunStep(
name="predict-digits-mnist",
parallel_run_config=parallel_run_config,
inputs=[ named_mnist_ds ],
output=output_dir,
models=[ model ],
arguments=[ ],
allow_reuse=True
)
Zie het notebook https://aka.ms/batch-inference-notebooksvoor meer informatie over dit voorbeeld.
Methoden
load_yaml |
Configuratiegegevens van parallelle uitvoering laden vanuit een YAML-bestand. |
save_to_yaml |
Exporteer configuratiegegevens voor parallelle uitvoering naar een YAML-bestand. |
load_yaml
Configuratiegegevens van parallelle uitvoering laden vanuit een YAML-bestand.
static load_yaml(workspace, path)
Parameters
Name | Description |
---|---|
workspace
Vereist
|
De werkruimte waaruit de configuratiegegevens moeten worden gelezen. |
path
Vereist
|
Het pad waaruit de configuratie moet worden geladen. |
save_to_yaml
Exporteer configuratiegegevens voor parallelle uitvoering naar een YAML-bestand.
save_to_yaml(path)
Parameters
Name | Description |
---|---|
path
Vereist
|
Het pad om het bestand op te slaan. |
Feedback
https://aka.ms/ContentUserFeedback.
Binnenkort beschikbaar: In de loop van 2024 zullen we GitHub-problemen geleidelijk uitfaseren als het feedbackmechanisme voor inhoud en deze vervangen door een nieuw feedbacksysteem. Zie voor meer informatie:Feedback verzenden en weergeven voor