Delen via


AdlaStep Klas

Hiermee maakt u een Azure ML-pijplijnstap om een U-SQL-script uit te voeren met Azure Data Lake Analytics.

Zie het notebook https://aka.ms/pl-adlavoor een voorbeeld van het gebruik van deze AdlaStep.

Een Azure ML-pijplijnstap maken om een U-SQL-script uit te voeren met Azure Data Lake Analytics.

Overname
azureml.pipeline.core._adla_step_base._AdlaStepBase
AdlaStep

Constructor

AdlaStep(script_name, name=None, inputs=None, outputs=None, params=None, degree_of_parallelism=None, priority=None, runtime_version=None, compute_target=None, source_directory=None, allow_reuse=True, version=None, hash_paths=None)

Parameters

Name Description
script_name
Vereist
str

[Vereist] De naam van een U-SQL-script, ten source_directoryopzichte van .

name
str

De naam van de stap. Indien niet opgegeven, script_name wordt gebruikt.

Default value: None
inputs

Een lijst met invoerpoortbindingen.

Default value: None
outputs

Een lijst met uitvoerpoortbindingen.

Default value: None
params

Een woordenlijst met naam-waardeparen.

Default value: None
degree_of_parallelism
int

De mate van parallelle uitvoering die voor deze taak moet worden gebruikt. Dit moet groter zijn dan 0. Als dit is ingesteld op minder dan 0, wordt de standaardwaarde ingesteld op 1.

Default value: None
priority
int

De prioriteitswaarde die moet worden gebruikt voor de huidige taak. Lagere getallen hebben een hogere prioriteit. Standaard heeft een taak een prioriteit van 1000. De waarde die u opgeeft, moet groter zijn dan 0.

Default value: None
runtime_version
str

De runtimeversie van de Data Lake Analytics-engine.

Default value: None
compute_target

[Vereist] De ADLA-berekening die voor deze taak moet worden gebruikt.

Default value: None
source_directory
str

Een map met het script, assembly's, enzovoort.

Default value: None
allow_reuse

Hiermee wordt aangegeven of de vorige resultaten opnieuw moeten worden gebruikt wanneer de stap opnieuw wordt uitgevoerd met dezelfde instellingen. Hergebruik is standaard ingeschakeld. Als de inhoud van de stap (scripts/afhankelijkheden) en de invoer en parameters ongewijzigd blijven, wordt de uitvoer van de vorige uitvoering van deze stap opnieuw gebruikt. Wanneer u de stap opnieuw gebruikt, worden de resultaten van de vorige uitvoering onmiddellijk beschikbaar gesteld voor eventuele volgende stappen in plaats van de taak te verzenden om te berekenen. Als u Azure Machine Learning-gegevenssets als invoer gebruikt, wordt hergebruik bepaald door of de definitie van de gegevensset is gewijzigd, niet door of de onderliggende gegevens zijn gewijzigd.

Default value: True
version
str

Optionele versietag om een wijziging in de functionaliteit voor de stap aan te geven.

Default value: None
hash_paths

AFGESCHAFT: niet meer nodig.

Een lijst met paden naar hash bij het controleren op wijzigingen in de inhoud van de stap. Als er geen wijzigingen zijn gedetecteerd, wordt de inhoud van de stap uit een vorige uitvoering opnieuw gebruikt. Standaard wordt de inhoud van gehasht, met uitzondering van source_directory bestanden die worden vermeld in .amlignore of .gitignore.

Default value: None
script_name
Vereist
str

[Vereist] De naam van een U-SQL-script, ten source_directoryopzichte van .

name
Vereist
str

De naam van de stap. Indien niet opgegeven, script_name wordt gebruikt.

inputs
Vereist

Lijst met invoerpoortbindingen

outputs
Vereist
list[Union[PipelineData, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineAbstractOutputDataset>, OutputPortBinding]]

Een lijst met uitvoerpoortbindingen.

params
Vereist

Een woordenlijst met naam-waardeparen.

degree_of_parallelism
Vereist
int

De mate van parallelle uitvoering die voor deze taak moet worden gebruikt. Dit moet groter zijn dan 0. Als dit is ingesteld op minder dan 0, wordt de standaardwaarde ingesteld op 1.

priority
Vereist
int

De prioriteitswaarde die moet worden gebruikt voor de huidige taak. Lagere getallen hebben een hogere prioriteit. Standaard heeft een taak een prioriteit van 1000. De waarde die u opgeeft, moet groter zijn dan 0.

runtime_version
Vereist
str

De runtimeversie van de Data Lake Analytics-engine.

compute_target
Vereist

[Vereist] De ADLA-berekening die voor deze taak moet worden gebruikt.

source_directory
Vereist
str

Een map met het script, assembly's, enzovoort.

allow_reuse
Vereist

Hiermee wordt aangegeven of de vorige resultaten opnieuw moeten worden gebruikt wanneer de stap opnieuw wordt uitgevoerd met dezelfde instellingen. Hergebruik is standaard ingeschakeld. Als de inhoud van de stap (scripts/afhankelijkheden) en de invoer en parameters ongewijzigd blijven, wordt de uitvoer van de vorige uitvoering van deze stap opnieuw gebruikt. Wanneer u de stap opnieuw gebruikt, worden de resultaten van de vorige uitvoering onmiddellijk beschikbaar gesteld voor eventuele volgende stappen in plaats van de taak te verzenden om te berekenen. Als u Azure Machine Learning-gegevenssets als invoer gebruikt, wordt hergebruik bepaald door of de definitie van de gegevensset is gewijzigd, niet door of de onderliggende gegevens zijn gewijzigd.

version
Vereist
str

Een optionele versietag om een wijziging in de functionaliteit voor de stap aan te geven.

hash_paths
Vereist

AFGESCHAFT: niet meer nodig.

Een lijst met paden naar hash bij het controleren op wijzigingen in de inhoud van de stap. Als er geen wijzigingen zijn gedetecteerd, wordt de inhoud van de stap uit een vorige uitvoering opnieuw gebruikt. Standaard wordt de inhoud van gehasht, met uitzondering van source_directory bestanden die worden vermeld in .amlignore of .gitignore.

Opmerkingen

U kunt @@name@@ syntaxis in uw script gebruiken om te verwijzen naar invoer, uitvoer en parameters.

  • Als naam de naam is van een invoer- of uitvoerpoortbinding, worden alle exemplaren van @@name@@ in het script vervangen door het werkelijke gegevenspad van een bijbehorende poortbinding.

  • Als de naam overeenkomt met een sleutel in params-dict , worden alle exemplaren van @@name@@ vervangen door de bijbehorende waarde in dict.

AdlaStep werkt alleen met gegevens die zijn opgeslagen in de standaard Data Lake Storage van het Data Lake Analytics-account. Als de gegevens zich in een niet-standaardopslag bevinden, gebruikt u een DataTransferStep om de gegevens naar de standaardopslag te kopiëren. U kunt de standaardopslag vinden door uw Data Lake Analytics-account te openen in de Azure Portal en vervolgens naar het item Gegevensbronnen te navigeren onder Instellingen in het linkerdeelvenster.

In het volgende voorbeeld ziet u hoe u AdlaStep gebruikt in een Azure Machine Learning-pijplijn.


   adla_step = AdlaStep(
       name='extract_employee_names',
       script_name='sample_script.usql',
       source_directory=sample_folder,
       inputs=[sample_input],
       outputs=[sample_output],
       compute_target=adla_compute)

Het volledige voorbeeld is beschikbaar via https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-use-adla-as-compute-target.ipynb

Methoden

create_node

Maak een knooppunt vanuit de stap AdlaStep en voeg dit toe aan de opgegeven grafiek.

Deze methode is niet bedoeld om rechtstreeks te worden gebruikt. Wanneer een pijplijn wordt geïnstantieerd met deze stap, geeft Azure ML automatisch de vereiste parameters door via deze methode, zodat deze stap kan worden toegevoegd aan een pijplijngrafiek die de werkstroom vertegenwoordigt.

create_node

Maak een knooppunt vanuit de stap AdlaStep en voeg dit toe aan de opgegeven grafiek.

Deze methode is niet bedoeld om rechtstreeks te worden gebruikt. Wanneer een pijplijn wordt geïnstantieerd met deze stap, geeft Azure ML automatisch de vereiste parameters door via deze methode, zodat deze stap kan worden toegevoegd aan een pijplijngrafiek die de werkstroom vertegenwoordigt.

create_node(graph, default_datastore, context)

Parameters

Name Description
graph
Vereist

Het grafiekobject.

default_datastore
Vereist

Het standaardgegevensarchief.

context
Vereist
<xref:azureml.pipeline.core._GraphContext>

De grafiekcontext.

Retouren

Type Description

Het knooppuntobject.