Condividi tramite


AzureBatchStep Classe

Crea un passaggio della pipeline di Azure ML per l'invio di processi a Azure Batch.

Nota: questo passaggio non supporta il caricamento/download delle directory e il relativo contenuto.

Per un esempio di uso di AzureBatchStep, vedere il notebook https://aka.ms/pl-azbatch.

Creare un passaggio della pipeline di Azure ML per l'invio di processi a Azure Batch.

Ereditarietà
azureml.pipeline.core._azurebatch_step_base._AzureBatchStepBase
AzureBatchStep

Costruttore

AzureBatchStep(name, create_pool=False, pool_id=None, delete_batch_job_after_finish=True, delete_batch_pool_after_finish=False, is_positive_exit_code_failure=True, vm_image_urn='urn:MicrosoftWindowsServer:WindowsServer:2012-R2-Datacenter', run_task_as_admin=False, target_compute_nodes=1, vm_size='standard_d1_v2', source_directory=None, executable=None, arguments=None, inputs=None, outputs=None, allow_reuse=True, compute_target=None, version=None)

Parametri

name
str
Necessario

[Obbligatorio] Nome del passaggio.

create_pool
bool
valore predefinito: False

Indica se creare il pool prima di eseguire i processi.

pool_id
str
valore predefinito: None

[Obbligatorio] ID del pool in cui viene eseguito il processo. L'ID può essere un pool esistente o uno che verrà creato quando il processo viene inviato.

delete_batch_job_after_finish
bool
valore predefinito: True

Indica se eliminare il processo dall'account Batch al termine dell'operazione.

delete_batch_pool_after_finish
bool
valore predefinito: False

Indica se eliminare il pool al termine del processo.

is_positive_exit_code_failure
bool
valore predefinito: True

Indica se il processo ha esito negativo se l'attività esiste con un codice positivo.

vm_image_urn
str
valore predefinito: urn:MicrosoftWindowsServer:WindowsServer:2012-R2-Datacenter

Se create_pool è True e la macchina virtuale usa VirtualMachineConfiguration. Formato valore: urn:publisher:offer:sku. Esempio: urn:MicrosoftWindowsServer:WindowsServer:2012-R2-Datacenter.

run_task_as_admin
bool
valore predefinito: False

Indica se l'attività deve essere eseguita con privilegi di amministratore.

target_compute_nodes
int
valore predefinito: 1

Se create_pool è True, indica il numero di nodi di calcolo che verranno aggiunti al pool.

vm_size
str
valore predefinito: standard_d1_v2

Se create_pool è True, indica le dimensioni della macchina virtuale dei nodi di calcolo.

source_directory
str
valore predefinito: None

Cartella locale che contiene i file binari del modulo, eseguibili, assembly e così via.

executable
str
valore predefinito: None

[Obbligatorio] Nome del comando/eseguibile che verrà eseguito come parte del processo.

arguments
str
valore predefinito: None

Argomenti per il comando/eseguibile.

inputs
list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]]
valore predefinito: None

Elenco di associazioni di porte di input. Prima dell'esecuzione del processo, viene creata una cartella per ogni input. I file per ogni input verranno copiati dalla risorsa di archiviazione alla rispettiva cartella nel nodo di calcolo. Ad esempio, se il nome di input è input1 e il percorso relativo nella risorsa di archiviazione è some/relative/path/that/can/really/long/inputfile.txt, il percorso del file nel calcolo sarà: ./input1/inputfile.txt. Quando il nome di input è più lungo di 32 caratteri, verrà troncato e aggiunto con un suffisso univoco in modo che il nome della cartella possa essere creato correttamente nella destinazione di calcolo.

outputs
list[Union[PipelineData, PipelineOutputAbstractDataset, OutputPortBinding]]
valore predefinito: None

Elenco di associazioni di porte di output. Analogamente agli input, prima dell'esecuzione del processo, viene creata una cartella per ogni output. Il nome della cartella corrisponderà al nome dell'output. Si presuppone che il processo inserisca l'output in tale cartella.

allow_reuse
bool
valore predefinito: True

Indica se il passaggio deve riutilizzare i risultati precedenti quando viene eseguito di nuovo con le stesse impostazioni. Il riutilizzo è abilitato per impostazione predefinita. Se il contenuto del passaggio (script/dipendenze) e gli input e i parametri rimangono invariati, l'output dell'esecuzione precedente di questo passaggio viene riutilizzato. Quando si riutilizza il passaggio, anziché inviare il processo al calcolo, i risultati dell'esecuzione precedente vengono immediatamente resi disponibili per tutti i passaggi successivi. Se si usano set di dati di Azure Machine Learning come input, il riutilizzo viene determinato dal fatto che la definizione del set di dati sia stata modificata, non dal fatto che i dati sottostanti siano stati modificati.

compute_target
BatchCompute, str
valore predefinito: None

[Obbligatorio] Calcolo BatchCompute in cui viene eseguito il processo.

version
str
valore predefinito: None

Tag di versione facoltativo per indicare una modifica delle funzionalità per il modulo.

name
str
Necessario

[Obbligatorio] Nome del passaggio.

create_pool
bool
Necessario

Indica se creare il pool prima di eseguire i processi.

pool_id
str
Necessario

[Obbligatorio] ID del pool in cui viene eseguito il processo. L'ID può essere un pool esistente o uno che verrà creato quando il processo viene inviato.

delete_batch_job_after_finish
bool
Necessario

Indica se eliminare il processo dall'account Batch al termine dell'operazione.

delete_batch_pool_after_finish
bool
Necessario

Indica se eliminare il pool al termine del processo.

is_positive_exit_code_failure
bool
Necessario

Indica se il processo ha esito negativo se l'attività esiste con un codice positivo.

vm_image_urn
str
Necessario

Se create_pool è True e la macchina virtuale usa VirtualMachineConfiguration. Formato valore: urn:publisher:offer:sku. Esempio: urn:MicrosoftWindowsServer:WindowsServer:2012-R2-Datacenter.

run_task_as_admin
bool
Necessario

Indica se l'attività deve essere eseguita con privilegi di amministratore.

target_compute_nodes
int
Necessario

Se create_pool è True, indica il numero di nodi di calcolo che verranno aggiunti al pool.

vm_size
str
Necessario

Se create_pool è True, indica le dimensioni della macchina virtuale dei nodi di calcolo.

source_directory
str
Necessario

Cartella locale che contiene i file binari del modulo, eseguibili, assembly e così via.

executable
str
Necessario

[Obbligatorio] Nome del comando/eseguibile che verrà eseguito come parte del processo.

arguments
list
Necessario

Argomenti per il comando/eseguibile.

inputs
list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]]
Necessario

Elenco di associazioni di porte di input. Prima dell'esecuzione del processo, viene creata una cartella per ogni input. I file per ogni input verranno copiati dalla risorsa di archiviazione alla rispettiva cartella nel nodo di calcolo. Ad esempio, se il nome di input è input1 e il percorso relativo nella risorsa di archiviazione è some/relative/path/that/can/really/long/inputfile.txt, il percorso del file nel calcolo sarà: ./input1/inputfile.txt. Nel caso in cui il nome di input sia composto da più di 32 caratteri, verrà troncato e aggiunto con un suffisso univoco, quindi il nome della cartella potrebbe essere creato correttamente nel calcolo.

outputs
list[Union[PipelineData, PipelineOutputAbstractDataset, OutputPortBinding]]
Necessario

Elenco di associazioni di porte di output. Analogamente agli input, prima dell'esecuzione del processo, viene creata una cartella per ogni output. Il nome della cartella corrisponderà al nome dell'output. Il presupposto è che il processo avrà l'output in tale cartella.

allow_reuse
bool
Necessario

Indica se il passaggio deve riutilizzare i risultati precedenti quando viene eseguito di nuovo con le stesse impostazioni. Il riutilizzo è abilitato per impostazione predefinita. Se il contenuto del passaggio (script/dipendenze) e gli input e i parametri rimangono invariati, l'output dell'esecuzione precedente di questo passaggio viene riutilizzato. Quando si riutilizza il passaggio, anziché inviare il processo al calcolo, i risultati dell'esecuzione precedente vengono immediatamente resi disponibili per tutti i passaggi successivi. Se si usano set di dati di Azure Machine Learning come input, il riutilizzo viene determinato dal fatto che la definizione del set di dati sia stata modificata, non dal fatto che i dati sottostanti siano stati modificati.

compute_target
BatchCompute, str
Necessario

[Obbligatorio] Calcolo BatchCompute in cui viene eseguito il processo.

version
str
Necessario

Tag di versione facoltativo per indicare una modifica delle funzionalità per il modulo.

Commenti

L'esempio seguente illustra come usare AzureBatchStep in una pipeline di Azure Machine Learning.


   step = AzureBatchStep(
               name="Azure Batch Job",
               pool_id="MyPoolName", # Replace this with the pool name of your choice
               inputs=[testdata],
               outputs=[outputdata],
               executable="azurebatch.cmd",
               arguments=[testdata, outputdata],
               compute_target=batch_compute,
               source_directory=binaries_folder,
   )

L'esempio completo è disponibile da https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-how-to-use-azurebatch-to-run-a-windows-executable.ipynb

Metodi

create_node

Creare un nodo dal passaggio AzureBatch e aggiungerlo al grafico specificato.

Questo metodo non deve essere usato direttamente. Quando viene creata un'istanza di una pipeline con questo passaggio, Azure ML passa automaticamente i parametri necessari tramite questo metodo in modo che tale passaggio possa essere aggiunto a un grafo della pipeline che rappresenta il flusso di lavoro.

create_node

Creare un nodo dal passaggio AzureBatch e aggiungerlo al grafico specificato.

Questo metodo non deve essere usato direttamente. Quando viene creata un'istanza di una pipeline con questo passaggio, Azure ML passa automaticamente i parametri necessari tramite questo metodo in modo che tale passaggio possa essere aggiunto a un grafo della pipeline che rappresenta il flusso di lavoro.

create_node(graph, default_datastore, context)

Parametri

graph
Graph
Necessario

Oggetto grafico a cui aggiungere il nodo.

default_datastore
Union[AbstractAzureStorageDatastore, AzureDataLakeDatastore]
Necessario

Archivio dati predefinito.

context
<xref:azureml.pipeline.core._GraphContext>
Necessario

Contesto del grafo.

Restituisce

Nodo creato.

Tipo restituito