AdlaStep Klas
Hiermee maakt u een Azure ML-pijplijnstap om een U-SQL-script uit te voeren met Azure Data Lake Analytics.
Zie het notebook https://aka.ms/pl-adlavoor een voorbeeld van het gebruik van deze AdlaStep.
Een Azure ML-pijplijnstap maken om een U-SQL-script uit te voeren met Azure Data Lake Analytics.
- Overname
-
azureml.pipeline.core._adla_step_base._AdlaStepBaseAdlaStep
Constructor
AdlaStep(script_name, name=None, inputs=None, outputs=None, params=None, degree_of_parallelism=None, priority=None, runtime_version=None, compute_target=None, source_directory=None, allow_reuse=True, version=None, hash_paths=None)
Parameters
Name | Description |
---|---|
script_name
Vereist
|
[Vereist] De naam van een U-SQL-script, ten |
name
|
De naam van de stap. Indien niet opgegeven, Default value: None
|
inputs
|
Een lijst met invoerpoortbindingen. Default value: None
|
outputs
|
Een lijst met uitvoerpoortbindingen. Default value: None
|
params
|
Een woordenlijst met naam-waardeparen. Default value: None
|
degree_of_parallelism
|
De mate van parallelle uitvoering die voor deze taak moet worden gebruikt. Dit moet groter zijn dan 0. Als dit is ingesteld op minder dan 0, wordt de standaardwaarde ingesteld op 1. Default value: None
|
priority
|
De prioriteitswaarde die moet worden gebruikt voor de huidige taak. Lagere getallen hebben een hogere prioriteit. Standaard heeft een taak een prioriteit van 1000. De waarde die u opgeeft, moet groter zijn dan 0. Default value: None
|
runtime_version
|
De runtimeversie van de Data Lake Analytics-engine. Default value: None
|
compute_target
|
[Vereist] De ADLA-berekening die voor deze taak moet worden gebruikt. Default value: None
|
source_directory
|
Een map met het script, assembly's, enzovoort. Default value: None
|
allow_reuse
|
Hiermee wordt aangegeven of de vorige resultaten opnieuw moeten worden gebruikt wanneer de stap opnieuw wordt uitgevoerd met dezelfde instellingen. Hergebruik is standaard ingeschakeld. Als de inhoud van de stap (scripts/afhankelijkheden) en de invoer en parameters ongewijzigd blijven, wordt de uitvoer van de vorige uitvoering van deze stap opnieuw gebruikt. Wanneer u de stap opnieuw gebruikt, worden de resultaten van de vorige uitvoering onmiddellijk beschikbaar gesteld voor eventuele volgende stappen in plaats van de taak te verzenden om te berekenen. Als u Azure Machine Learning-gegevenssets als invoer gebruikt, wordt hergebruik bepaald door of de definitie van de gegevensset is gewijzigd, niet door of de onderliggende gegevens zijn gewijzigd. Default value: True
|
version
|
Optionele versietag om een wijziging in de functionaliteit voor de stap aan te geven. Default value: None
|
hash_paths
|
AFGESCHAFT: niet meer nodig. Een lijst met paden naar hash bij het controleren op wijzigingen in de inhoud van de stap. Als er geen wijzigingen zijn gedetecteerd, wordt de inhoud van de stap uit een vorige uitvoering opnieuw gebruikt. Standaard wordt de inhoud van gehasht, met uitzondering van Default value: None
|
script_name
Vereist
|
[Vereist] De naam van een U-SQL-script, ten |
name
Vereist
|
De naam van de stap. Indien niet opgegeven, |
inputs
Vereist
|
Lijst met invoerpoortbindingen |
outputs
Vereist
|
list[Union[PipelineData, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineAbstractOutputDataset>, OutputPortBinding]]
Een lijst met uitvoerpoortbindingen. |
params
Vereist
|
Een woordenlijst met naam-waardeparen. |
degree_of_parallelism
Vereist
|
De mate van parallelle uitvoering die voor deze taak moet worden gebruikt. Dit moet groter zijn dan 0. Als dit is ingesteld op minder dan 0, wordt de standaardwaarde ingesteld op 1. |
priority
Vereist
|
De prioriteitswaarde die moet worden gebruikt voor de huidige taak. Lagere getallen hebben een hogere prioriteit. Standaard heeft een taak een prioriteit van 1000. De waarde die u opgeeft, moet groter zijn dan 0. |
runtime_version
Vereist
|
De runtimeversie van de Data Lake Analytics-engine. |
compute_target
Vereist
|
[Vereist] De ADLA-berekening die voor deze taak moet worden gebruikt. |
source_directory
Vereist
|
Een map met het script, assembly's, enzovoort. |
allow_reuse
Vereist
|
Hiermee wordt aangegeven of de vorige resultaten opnieuw moeten worden gebruikt wanneer de stap opnieuw wordt uitgevoerd met dezelfde instellingen. Hergebruik is standaard ingeschakeld. Als de inhoud van de stap (scripts/afhankelijkheden) en de invoer en parameters ongewijzigd blijven, wordt de uitvoer van de vorige uitvoering van deze stap opnieuw gebruikt. Wanneer u de stap opnieuw gebruikt, worden de resultaten van de vorige uitvoering onmiddellijk beschikbaar gesteld voor eventuele volgende stappen in plaats van de taak te verzenden om te berekenen. Als u Azure Machine Learning-gegevenssets als invoer gebruikt, wordt hergebruik bepaald door of de definitie van de gegevensset is gewijzigd, niet door of de onderliggende gegevens zijn gewijzigd. |
version
Vereist
|
Een optionele versietag om een wijziging in de functionaliteit voor de stap aan te geven. |
hash_paths
Vereist
|
AFGESCHAFT: niet meer nodig. Een lijst met paden naar hash bij het controleren op wijzigingen in de inhoud van de stap. Als er geen wijzigingen zijn gedetecteerd, wordt de inhoud van de stap uit een vorige uitvoering opnieuw gebruikt. Standaard wordt de inhoud van gehasht, met uitzondering van |
Opmerkingen
U kunt @@name@@ syntaxis in uw script gebruiken om te verwijzen naar invoer, uitvoer en parameters.
Als naam de naam is van een invoer- of uitvoerpoortbinding, worden alle exemplaren van @@name@@ in het script vervangen door het werkelijke gegevenspad van een bijbehorende poortbinding.
Als de naam overeenkomt met een sleutel in params-dict , worden alle exemplaren van @@name@@ vervangen door de bijbehorende waarde in dict.
AdlaStep werkt alleen met gegevens die zijn opgeslagen in de standaard Data Lake Storage van het Data Lake Analytics-account. Als de gegevens zich in een niet-standaardopslag bevinden, gebruikt u een DataTransferStep om de gegevens naar de standaardopslag te kopiëren. U kunt de standaardopslag vinden door uw Data Lake Analytics-account te openen in de Azure Portal en vervolgens naar het item Gegevensbronnen te navigeren onder Instellingen in het linkerdeelvenster.
In het volgende voorbeeld ziet u hoe u AdlaStep gebruikt in een Azure Machine Learning-pijplijn.
adla_step = AdlaStep(
name='extract_employee_names',
script_name='sample_script.usql',
source_directory=sample_folder,
inputs=[sample_input],
outputs=[sample_output],
compute_target=adla_compute)
Het volledige voorbeeld is beschikbaar via https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-use-adla-as-compute-target.ipynb
Methoden
create_node |
Maak een knooppunt vanuit de stap AdlaStep en voeg dit toe aan de opgegeven grafiek. Deze methode is niet bedoeld om rechtstreeks te worden gebruikt. Wanneer een pijplijn wordt geïnstantieerd met deze stap, geeft Azure ML automatisch de vereiste parameters door via deze methode, zodat deze stap kan worden toegevoegd aan een pijplijngrafiek die de werkstroom vertegenwoordigt. |
create_node
Maak een knooppunt vanuit de stap AdlaStep en voeg dit toe aan de opgegeven grafiek.
Deze methode is niet bedoeld om rechtstreeks te worden gebruikt. Wanneer een pijplijn wordt geïnstantieerd met deze stap, geeft Azure ML automatisch de vereiste parameters door via deze methode, zodat deze stap kan worden toegevoegd aan een pijplijngrafiek die de werkstroom vertegenwoordigt.
create_node(graph, default_datastore, context)
Parameters
Name | Description |
---|---|
graph
Vereist
|
Het grafiekobject. |
default_datastore
Vereist
|
Het standaardgegevensarchief. |
context
Vereist
|
<xref:azureml.pipeline.core._GraphContext>
De grafiekcontext. |
Retouren
Type | Description |
---|---|
Het knooppuntobject. |