DatasetConsumptionConfig Klass

Referens

Representerar hur du levererar datauppsättningen till ett beräkningsmål.

Representerar hur du levererar datauppsättningen till beräkningsmålet.

Arv: builtins.object

DatasetConsumptionConfig

Konstruktor

DatasetConsumptionConfig(name, dataset, mode='direct', path_on_compute=None)

Parametrar

name: str

Obligatorisk

Namnet på datauppsättningen i körningen, som kan skilja sig från det registrerade namnet. Namnet registreras som miljövariabel och kan användas i dataplanet.

dataset: AbstractDataset eller PipelineParameter eller OutputDatasetConfig

Obligatorisk

Den datauppsättning som ska användas i körningen.

mode: str

standardvärde: direct

Definierar hur datauppsättningen ska levereras till beräkningsmålet. Det finns tre lägen:

"direct": använder datauppsättningen som datauppsättning.
"download": ladda ned datauppsättningen och använd datauppsättningen som nedladdad sökväg.
"montering": montera datauppsättningen och använd datauppsättningen som monteringssökväg.
"hdfs": använd datauppsättningen från den matchade hdfs-sökvägen (stöds för närvarande endast på SynapseSpark-beräkning).

path_on_compute: str

standardvärde: None

Målsökvägen för beräkningen som data ska vara tillgängliga på. Källdatas mappstruktur behålls, men vi kan lägga till prefix i den här mappstrukturen för att undvika kollision. Använd tabular_dataset.to_path för att se mappstrukturen för utdata.

name: str

Obligatorisk

Namnet på datauppsättningen i körningen, som kan skilja sig från det registrerade namnet. Namnet registreras som miljövariabel och kan användas i dataplanet.

dataset: Dataset eller PipelineParameter eller tuple(Workspace, str) eller tuple(Workspace, str, str) eller OutputDatasetConfig

Obligatorisk

Datauppsättningen som ska levereras, som ett datauppsättningsobjekt, pipelineparameter som matar in en datauppsättning, en tupplar (arbetsyta, datauppsättningsnamn) eller en tupplar av (arbetsyta, datauppsättningens namn, datauppsättningsversion). Om endast ett namn anges använder DatasetConsumptionConfig den senaste versionen av datauppsättningen.

mode: str

Obligatorisk

Definierar hur datauppsättningen ska levereras till beräkningsmålet. Det finns tre lägen:

"direct": använder datauppsättningen som datauppsättning.
"download": ladda ned datauppsättningen och använd datauppsättningen som nedladdad sökväg.
"montering": montera datauppsättningen och använd datauppsättningen som monteringssökväg.
"hdfs": använd datauppsättningen från den matchade hdfs-sökvägen (stöds för närvarande endast på SynapseSpark-beräkning).

path_on_compute: str

Obligatorisk

Målsökvägen för beräkningen som data ska vara tillgängliga på. Källdatas mappstruktur behålls, men vi kan lägga till prefix i den här mappstrukturen för att undvika kollision. Vi rekommenderar att du anropar tabular_dataset.to_path för att se mappstrukturen för utdata.

Metoder

as_download

Ställ in läget för nedladdning.

I den skickade körningen laddas filer i datauppsättningen ned till den lokala sökvägen på beräkningsmålet. Nedladdningsplatsen kan hämtas från argumentvärden och fältet input_datasets i körningskontexten.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']

as_hdfs

Ställ in läget på hdfs.

I den skickade synapse-körningen konverteras filer i datauppsättningarna till en lokal sökväg i beräkningsmålet. Hdfs-sökvägen kan hämtas från argumentvärden och os-miljövariablerna.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_1']

as_mount

Ställ in läget på montering.

I den skickade körningen monteras filer i datauppsättningarna på den lokala sökvägen på beräkningsmålet. Monteringspunkten kan hämtas från argumentvärden och fältet input_datasets i körningskontexten.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']

as_download

Ställ in läget för nedladdning.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']

as_download(path_on_compute=None)

Parametrar

path_on_compute: str

standardvärde: None

Målsökvägen för beräkningen som data ska vara tillgängliga på.

Kommentarer

När datauppsättningen skapas från sökvägen till en enda fil är nedladdningsplatsen sökvägen till den enda nedladdade filen. Annars är nedladdningsplatsen sökvägen till den omslutande mappen för alla nedladdade filer.

Om path_on_compute börjar med ett /, behandlas det som en absolut sökväg. Om den inte börjar med en /, behandlas den som en relativ sökväg i förhållande till arbetskatalogen. Om du har angett en absolut sökväg kontrollerar du att jobbet har behörighet att skriva till den katalogen.

as_hdfs

Ställ in läget på hdfs.

I den skickade synapse-körningen konverteras filer i datauppsättningarna till en lokal sökväg i beräkningsmålet. Hdfs-sökvägen kan hämtas från argumentvärden och os-miljövariablerna.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_1']

as_hdfs()

Kommentarer

När datauppsättningen skapas från sökvägen till en enskild fil är hdfs-sökvägen sökvägen till den enskilda filen. Annars är hdfs-sökvägen sökvägen till den omslutande mappen för alla monterade filer.

as_mount

Ställ in läget på montering.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']

as_mount(path_on_compute=None)

Parametrar

path_on_compute: str

standardvärde: None

Målsökvägen för beräkningen som data ska vara tillgängliga på.

Kommentarer

När datauppsättningen skapas från sökvägen till en enskild fil är monteringspunkten sökvägen till den enda monterade filen. Annars är monteringspunkten sökvägen till den omslutande mappen för alla monterade filer.

Dela via

DatasetConsumptionConfig Klass

Konstruktor

Parametrar

Metoder

as_download

Parametrar

Kommentarer

as_hdfs

Kommentarer

as_mount

Parametrar

Kommentarer

Attribut

name

Returer

Feedback

Feedback

Ytterligare resurser