Delen via


OutputFileDatasetConfig Klas

Vertegenwoordigt hoe u de uitvoer van een uitvoering kopieert en wordt gepromoveerd als een FileDataset.

Met OutputFileDatasetConfig kunt u opgeven hoe een bepaald lokaal pad op het rekendoel moet worden geüpload naar de opgegeven bestemming. Als er geen argumenten worden doorgegeven aan de constructor, genereren we automatisch een naam, een bestemming en een lokaal pad.

Een voorbeeld van het niet doorgeven van argumenten:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Een voorbeeld van het maken van een uitvoer en vervolgens het promoveren van de uitvoer naar een tabellaire gegevensset en deze registreren met de naam foo:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Initialiseer een OutputFileDatasetConfig.

Met OutputFileDatasetConfig kunt u opgeven hoe een bepaald lokaal pad op het rekendoel moet worden geüpload naar de opgegeven bestemming. Als er geen argumenten worden doorgegeven aan de constructor, genereren we automatisch een naam, een bestemming en een lokaal pad.

Een voorbeeld van het niet doorgeven van argumenten:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Een voorbeeld van het maken van een uitvoer en vervolgens het promoveren van de uitvoer naar een tabellaire gegevensset en deze registreren met de naam foo:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)
Overname
OutputFileDatasetConfig
OutputFileDatasetConfig

Constructor

OutputFileDatasetConfig(name=None, destination=None, source=None, partition_format=None)

Parameters

Name Description
name
Vereist
str

De naam van de uitvoer die specifiek is voor deze uitvoering. Dit wordt over het algemeen gebruikt voor herkomstdoeleinden. Als deze optie is ingesteld op Geen, wordt automatisch een naam gegenereerd. De naam wordt ook een omgevingsvariabele die het lokale pad bevat van waar u uw uitvoerbestanden en -mappen naartoe kunt schrijven die naar de bestemming worden geüpload.

destination
Vereist

Het doel om de uitvoer naar te kopiëren. Als deze optie is ingesteld op Geen, wordt de uitvoer gekopieerd naar het gegevensarchief workspaceblobstore, onder het pad /dataset/{run-id}/{output-name}, waarbij run-id de id van de uitvoering is en de uitvoernaam de uitvoernaam is van de bovenstaande naamparameter . Het doel is een tuple waarbij het eerste item het gegevensarchief is en het tweede item het pad binnen het gegevensarchief is waarnaar de gegevens moeten worden gekopieerd.

Het pad in het gegevensarchief kan een sjabloonpad zijn. Een sjabloonpad is slechts een normaal pad, maar met tijdelijke aanduidingen erin. Deze tijdelijke aanduidingen worden vervolgens op het juiste moment omgezet. De syntaxis voor tijdelijke aanduidingen is {placeholder}, bijvoorbeeld /path/with/{placeholder}. Momenteel worden slechts twee tijdelijke aanduidingen ondersteund, {run-id} en {output-name}.

source
Vereist
str

Het pad binnen het rekendoel waaruit de gegevens moeten worden gekopieerd. Als deze optie is ingesteld op Geen, wordt dit ingesteld op een map die we maken in de tijdelijke map van het besturingssysteem van het rekendoel.

partition_format
Vereist
str

Geef de partitieindeling van het pad op. De standaardwaarde is Geen. De partitiegegevens van elk pad worden geëxtraheerd in kolommen op basis van de opgegeven indeling. Met het notatieonderdeel {column_name} wordt een tekenreekskolom gemaakt en in {column_name:jjjj/MM/dd/uu/mm/ss} wordt de datum/tijdkolom gemaakt, waarbij 'jjjj', 'MM', 'dd', 'uu', 'mm' en 'ss' worden gebruikt om jaar, maand, dag, uur, minuut en seconde te extraheren voor het datum/tijd-type. De indeling moet beginnen vanaf de positie van de eerste partitiesleutel tot het einde van het bestandspad. Bijvoorbeeld, gegeven het pad '.. /Accounts/2019/01/01/data.parquet' waarbij de partitie is op afdelingsnaam en -tijd, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' maakt een tekenreekskolom 'Afdeling' met de waarde 'Accounts' en een datum/tijdkolom 'PartitionDate' met de waarde '2019-01-01'.

name
Vereist
str

De naam van de uitvoer die specifiek is voor deze uitvoering. Dit wordt over het algemeen gebruikt voor herkomstdoeleinden. Als deze optie is ingesteld op Geen, wordt automatisch een naam gegenereerd. De naam wordt ook een omgevingsvariabele die het lokale pad bevat van waar u uw uitvoerbestanden en -mappen naartoe kunt schrijven die naar de bestemming worden geüpload.

destination
Vereist

Het doel om de uitvoer naar te kopiëren. Als deze optie is ingesteld op Geen, wordt de uitvoer gekopieerd naar het gegevensarchief workspaceblobstore, onder het pad /dataset/{run-id}/{output-name}, waarbij run-id de id van de uitvoering is en de uitvoernaam de uitvoernaam is van de bovenstaande naamparameter . Het doel is een tuple waarbij het eerste item het gegevensarchief is en het tweede item het pad binnen het gegevensarchief is waarnaar de gegevens moeten worden gekopieerd.

Het pad in het gegevensarchief kan een sjabloonpad zijn. Een sjabloonpad is slechts een normaal pad, maar met tijdelijke aanduidingen erin. Deze tijdelijke aanduidingen worden vervolgens op het juiste moment omgezet. De syntaxis voor tijdelijke aanduidingen is {placeholder}, bijvoorbeeld /path/with/{placeholder}. Momenteel worden slechts twee tijdelijke aanduidingen ondersteund, {run-id} en {output-name}.

source
Vereist
str

Het pad binnen het rekendoel waaruit de gegevens moeten worden gekopieerd. Als deze optie is ingesteld op Geen, wordt dit ingesteld op een map die we maken in de tijdelijke map van het besturingssysteem van het rekendoel.

partition_format
Vereist
str

Geef de partitieindeling van het pad op. De standaardwaarde is Geen. De partitiegegevens van elk pad worden geëxtraheerd in kolommen op basis van de opgegeven indeling. Met het notatieonderdeel {column_name} wordt een tekenreekskolom gemaakt en in {column_name:jjjj/MM/dd/uu/mm/ss} wordt de datum/tijdkolom gemaakt, waarbij 'jjjj', 'MM', 'dd', 'uu', 'mm' en 'ss' worden gebruikt om jaar, maand, dag, uur, minuut en seconde te extraheren voor het datum/tijd-type. De indeling moet beginnen vanaf de positie van de eerste partitiesleutel tot het einde van het bestandspad. Bijvoorbeeld, gegeven het pad '.. /Accounts/2019/01/01/data.parquet' waarbij de partitie is op afdelingsnaam en -tijd, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' maakt een tekenreekskolom 'Afdeling' met de waarde 'Accounts' en een datum/tijdkolom 'PartitionDate' met de waarde '2019-01-01'.

Opmerkingen

U kunt outputFileDatasetConfig doorgeven als een argument voor uw uitvoering. Deze wordt automatisch omgezet in een lokaal pad op de berekening. Het bronargument wordt gebruikt als er een is opgegeven, anders wordt automatisch een map gegenereerd in de tijdelijke map van het besturingssysteem. De bestanden en mappen in de bronmap worden vervolgens gekopieerd naar de bestemming op basis van de uitvoerconfiguratie.

De modus waarmee de uitvoer naar de doelopslag wordt gekopieerd, wordt standaard ingesteld op koppelen. Raadpleeg de documentatie voor as_mount voor meer informatie over de koppelingsmodus.

Methoden

as_input

Geef op hoe de uitvoer moet worden gebruikt als invoer in de volgende pijplijnstappen.

as_mount

Stel de modus van de uitvoer in op koppelen.

Voor de koppelingsmodus is de uitvoermap een aan FUSE gekoppelde map. Bestanden die naar de gekoppelde map worden geschreven, worden geüpload wanneer het bestand wordt gesloten.

as_upload

Stel de modus in voor het uploaden van de uitvoer.

Voor de uploadmodus worden bestanden die naar de uitvoermap worden geschreven, aan het einde van de taak geüpload. Als de taak mislukt of wordt geannuleerd, wordt de uitvoermap niet geüpload.

as_input

Geef op hoe de uitvoer moet worden gebruikt als invoer in de volgende pijplijnstappen.

as_input(name=None)

Parameters

Name Description
name
Vereist
str

De naam van de invoer die specifiek is voor de uitvoering.

Retouren

Type Description

Een DatasetConsumptionConfig exemplaar waarin wordt beschreven hoe de invoergegevens moeten worden geleverd.

as_mount

Stel de modus van de uitvoer in op koppelen.

Voor de koppelingsmodus is de uitvoermap een aan FUSE gekoppelde map. Bestanden die naar de gekoppelde map worden geschreven, worden geüpload wanneer het bestand wordt gesloten.

as_mount(disable_metadata_cache=False)

Parameters

Name Description
disable_metadata_cache
Vereist

Of metagegevens in het lokale knooppunt in de cache moeten worden opgeslagen. Als dit is uitgeschakeld, kan een knooppunt geen bestanden zien die zijn gegenereerd van andere knooppunten tijdens het uitvoeren van de taak.

Retouren

Type Description

Een OutputFileDatasetConfig exemplaar waarvoor de modus is ingesteld om te koppelen.

as_upload

Stel de modus in voor het uploaden van de uitvoer.

Voor de uploadmodus worden bestanden die naar de uitvoermap worden geschreven, aan het einde van de taak geüpload. Als de taak mislukt of wordt geannuleerd, wordt de uitvoermap niet geüpload.

as_upload(overwrite=False, source_globs=None)

Parameters

Name Description
overwrite
Vereist

Of bestanden die al op de bestemming bestaan, moeten worden overschreven.

source_globs
Vereist

Glob-patronen die worden gebruikt om bestanden te filteren die worden geüpload.

Retouren

Type Description

Een OutputFileDatasetConfig exemplaar waarvoor de modus is ingesteld om te uploaden.