DatasetConsumptionConfig Sınıf

Başvuru

Veri kümesinin bir işlem hedefine nasıl teslim edileceklerini temsil edin.

Veri kümesinin işlem hedefine nasıl teslim edileceklerini temsil edin.

Devralma: builtins.object

DatasetConsumptionConfig

Oluşturucu

DatasetConsumptionConfig(name, dataset, mode='direct', path_on_compute=None)

Parametreler

name: str

Gerekli

Çalıştırmadaki veri kümesinin adı; kayıtlı addan farklı olabilir. Ad ortam değişkeni olarak kaydedilir ve veri düzleminde kullanılabilir.

dataset: AbstractDataset veya PipelineParameter veya OutputDatasetConfig

Gerekli

Çalıştırmada kullanılacak veri kümesi.

mode: str

varsayılan değer: direct

Veri kümesinin işlem hedefine nasıl teslim edilmesi gerektiğini tanımlar. Üç mod vardır:

'doğrudan': veri kümesini veri kümesi olarak tüketir.
'download': Veri kümesini indirin ve indirilen yol olarak veri kümesini kullanın.
'bağlama': veri kümesini bağlayın ve veri kümesini bağlama yolu olarak kullanın.
'hdfs': çözümlenen hdfs yolundaki veri kümesini kullanın (Şu anda yalnızca SynapseSpark işlemlerinde desteklenir).

path_on_compute: str

varsayılan değer: None

verilerin kullanılabilmesi için işlemdeki hedef yol. Kaynak verilerin klasör yapısı korunur, ancak çakışmayı önlemek için bu klasör yapısına ön ekler ekleyebiliriz. Çıkış klasörü yapısını görmek için kullanın tabular_dataset.to_path .

name: str

Gerekli

Çalıştırmadaki veri kümesinin adı; kayıtlı addan farklı olabilir. Ad ortam değişkeni olarak kaydedilir ve veri düzleminde kullanılabilir.

dataset: Dataset veya PipelineParameter veya tuple(Workspace, str) veya tuple(Workspace, str, str) veya OutputDatasetConfig

Gerekli

Teslim edilecek veri kümesi, Bir Veri Kümesi nesnesi olarak, Bir Veri Kümesini alan İşlem Hattı Parametresi, bir tanımlama grubu (çalışma alanı, Veri kümesi adı) veya bir tanımlama grubu (çalışma alanı, Veri kümesi adı, Veri kümesi sürümü). Yalnızca bir ad sağlanırsa DatasetConsumptionConfig, Veri Kümesinin en son sürümünü kullanır.

mode: str

Gerekli

Veri kümesinin işlem hedefine nasıl teslim edilmesi gerektiğini tanımlar. Üç mod vardır:

'doğrudan': veri kümesini veri kümesi olarak tüketir.
'download': Veri kümesini indirin ve indirilen yol olarak veri kümesini kullanın.
'bağlama': veri kümesini bağlayın ve veri kümesini bağlama yolu olarak kullanın.
'hdfs': çözümlenen hdfs yolundaki veri kümesini kullanın (Şu anda yalnızca SynapseSpark işlemlerinde desteklenir).

path_on_compute: str

Gerekli

Yöntemler

as_download

İndirme modunu ayarlayın.

Gönderilen çalıştırmada, veri kümesindeki dosyalar işlem hedefindeki yerel yola indirilir. İndirme konumu bağımsız değişken değerlerinden ve çalıştırma bağlamının input_datasets alanından alınabilir.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']

as_hdfs

Modu hdfs olarak ayarlayın.

Gönderilen synapse çalıştırmasında, veri kümelerindeki dosyalar işlem hedefindeki yerel yola dönüştürülür. hdfs yolu bağımsız değişken değerlerinden ve işletim sistemi ortam değişkenlerinden alınabilir.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_1']

as_mount

Modu bağlanacak şekilde ayarlayın.

Gönderilen çalıştırmada, veri kümelerindeki dosyalar işlem hedefindeki yerel yola bağlanır. Bağlama noktası, bağımsız değişken değerlerinden ve çalıştırma bağlamının input_datasets alanından alınabilir.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']

as_download

İndirme modunu ayarlayın.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']

as_download(path_on_compute=None)

Parametreler

path_on_compute: str

varsayılan değer: None

verilerin kullanılabilmesi için işlemdeki hedef yol.

Açıklamalar

Veri kümesi tek bir dosyanın yolundan oluşturulduğunda, indirme konumu indirilen tek dosyanın yolu olur. Aksi takdirde, indirme konumu indirilen tüm dosyalar için kapsayan klasörün yolu olur.

path_on_compute bir / ile başlarsa, mutlak yol olarak değerlendirilir. / ile başlamıyorsa, çalışma dizinine göre göreli bir yol olarak değerlendirilir. Mutlak bir yol belirttiyseniz, lütfen işin bu dizine yazma izni olduğundan emin olun.

as_hdfs

Modu hdfs olarak ayarlayın.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_1']

as_hdfs()

Açıklamalar

Veri kümesi tek bir dosyanın yolundan oluşturulduğunda, hdfs yolu tek dosyanın yolu olur. Aksi takdirde, hdfs yolu tüm bağlı dosyalar için kapsayan klasörün yolu olur.

as_mount

Modu bağlanacak şekilde ayarlayın.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']

as_mount(path_on_compute=None)

Parametreler

path_on_compute: str

varsayılan değer: None

verilerin kullanılabilmesi için işlemdeki hedef yol.

Açıklamalar

Veri kümesi tek bir dosyanın yolundan oluşturulduğunda, bağlama noktası bağlı tek dosyanın yolu olur. Aksi takdirde, bağlama noktası tüm bağlı dosyalar için kapsayan klasörün yolu olacaktır.

Aracılığıyla paylaş

DatasetConsumptionConfig Sınıf

Oluşturucu

Parametreler

Yöntemler

as_download

Parametreler

Açıklamalar

as_hdfs

Açıklamalar

as_mount

Parametreler

Açıklamalar

Öznitelikler

name

Döndürülenler

Geri Bildirim

Geri Bildirim

Ek kaynaklar