Aracılığıyla paylaş


DatasetConsumptionConfig Sınıf

Veri kümesinin bir işlem hedefine nasıl teslim edileceklerini temsil edin.

Veri kümesinin işlem hedefine nasıl teslim edileceklerini temsil edin.

Devralma
builtins.object
DatasetConsumptionConfig

Oluşturucu

DatasetConsumptionConfig(name, dataset, mode='direct', path_on_compute=None)

Parametreler

name
str
Gerekli

Çalıştırmadaki veri kümesinin adı; kayıtlı addan farklı olabilir. Ad ortam değişkeni olarak kaydedilir ve veri düzleminde kullanılabilir.

dataset
AbstractDataset veya PipelineParameter veya OutputDatasetConfig
Gerekli

Çalıştırmada kullanılacak veri kümesi.

mode
str
varsayılan değer: direct

Veri kümesinin işlem hedefine nasıl teslim edilmesi gerektiğini tanımlar. Üç mod vardır:

  1. 'doğrudan': veri kümesini veri kümesi olarak tüketir.
  2. 'download': Veri kümesini indirin ve indirilen yol olarak veri kümesini kullanın.
  3. 'bağlama': veri kümesini bağlayın ve veri kümesini bağlama yolu olarak kullanın.
  4. 'hdfs': çözümlenen hdfs yolundaki veri kümesini kullanın (Şu anda yalnızca SynapseSpark işlemlerinde desteklenir).
path_on_compute
str
varsayılan değer: None

verilerin kullanılabilmesi için işlemdeki hedef yol. Kaynak verilerin klasör yapısı korunur, ancak çakışmayı önlemek için bu klasör yapısına ön ekler ekleyebiliriz. Çıkış klasörü yapısını görmek için kullanın tabular_dataset.to_path .

name
str
Gerekli

Çalıştırmadaki veri kümesinin adı; kayıtlı addan farklı olabilir. Ad ortam değişkeni olarak kaydedilir ve veri düzleminde kullanılabilir.

dataset
Dataset veya PipelineParameter veya tuple(Workspace, str) veya tuple(Workspace, str, str) veya OutputDatasetConfig
Gerekli

Teslim edilecek veri kümesi, Bir Veri Kümesi nesnesi olarak, Bir Veri Kümesini alan İşlem Hattı Parametresi, bir tanımlama grubu (çalışma alanı, Veri kümesi adı) veya bir tanımlama grubu (çalışma alanı, Veri kümesi adı, Veri kümesi sürümü). Yalnızca bir ad sağlanırsa DatasetConsumptionConfig, Veri Kümesinin en son sürümünü kullanır.

mode
str
Gerekli

Veri kümesinin işlem hedefine nasıl teslim edilmesi gerektiğini tanımlar. Üç mod vardır:

  1. 'doğrudan': veri kümesini veri kümesi olarak tüketir.
  2. 'download': Veri kümesini indirin ve indirilen yol olarak veri kümesini kullanın.
  3. 'bağlama': veri kümesini bağlayın ve veri kümesini bağlama yolu olarak kullanın.
  4. 'hdfs': çözümlenen hdfs yolundaki veri kümesini kullanın (Şu anda yalnızca SynapseSpark işlemlerinde desteklenir).
path_on_compute
str
Gerekli

verilerin kullanılabilmesi için işlemdeki hedef yol. Kaynak verilerin klasör yapısı korunur, ancak çakışmayı önlemek için bu klasör yapısına ön ekler ekleyebiliriz. Çıkış klasörü yapısını görmek için tabular_dataset.to_path çağrısı yapmanızı öneririz.

Yöntemler

as_download

İndirme modunu ayarlayın.

Gönderilen çalıştırmada, veri kümesindeki dosyalar işlem hedefindeki yerel yola indirilir. İndirme konumu bağımsız değişken değerlerinden ve çalıştırma bağlamının input_datasets alanından alınabilir.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']
as_hdfs

Modu hdfs olarak ayarlayın.

Gönderilen synapse çalıştırmasında, veri kümelerindeki dosyalar işlem hedefindeki yerel yola dönüştürülür. hdfs yolu bağımsız değişken değerlerinden ve işletim sistemi ortam değişkenlerinden alınabilir.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_1']
as_mount

Modu bağlanacak şekilde ayarlayın.

Gönderilen çalıştırmada, veri kümelerindeki dosyalar işlem hedefindeki yerel yola bağlanır. Bağlama noktası, bağımsız değişken değerlerinden ve çalıştırma bağlamının input_datasets alanından alınabilir.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']

as_download

İndirme modunu ayarlayın.

Gönderilen çalıştırmada, veri kümesindeki dosyalar işlem hedefindeki yerel yola indirilir. İndirme konumu bağımsız değişken değerlerinden ve çalıştırma bağlamının input_datasets alanından alınabilir.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']
as_download(path_on_compute=None)

Parametreler

path_on_compute
str
varsayılan değer: None

verilerin kullanılabilmesi için işlemdeki hedef yol.

Açıklamalar

Veri kümesi tek bir dosyanın yolundan oluşturulduğunda, indirme konumu indirilen tek dosyanın yolu olur. Aksi takdirde, indirme konumu indirilen tüm dosyalar için kapsayan klasörün yolu olur.

path_on_compute bir / ile başlarsa, mutlak yol olarak değerlendirilir. / ile başlamıyorsa, çalışma dizinine göre göreli bir yol olarak değerlendirilir. Mutlak bir yol belirttiyseniz, lütfen işin bu dizine yazma izni olduğundan emin olun.

as_hdfs

Modu hdfs olarak ayarlayın.

Gönderilen synapse çalıştırmasında, veri kümelerindeki dosyalar işlem hedefindeki yerel yola dönüştürülür. hdfs yolu bağımsız değişken değerlerinden ve işletim sistemi ortam değişkenlerinden alınabilir.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_1']
as_hdfs()

Açıklamalar

Veri kümesi tek bir dosyanın yolundan oluşturulduğunda, hdfs yolu tek dosyanın yolu olur. Aksi takdirde, hdfs yolu tüm bağlı dosyalar için kapsayan klasörün yolu olur.

as_mount

Modu bağlanacak şekilde ayarlayın.

Gönderilen çalıştırmada, veri kümelerindeki dosyalar işlem hedefindeki yerel yola bağlanır. Bağlama noktası, bağımsız değişken değerlerinden ve çalıştırma bağlamının input_datasets alanından alınabilir.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']
as_mount(path_on_compute=None)

Parametreler

path_on_compute
str
varsayılan değer: None

verilerin kullanılabilmesi için işlemdeki hedef yol.

Açıklamalar

Veri kümesi tek bir dosyanın yolundan oluşturulduğunda, bağlama noktası bağlı tek dosyanın yolu olur. Aksi takdirde, bağlama noktası tüm bağlı dosyalar için kapsayan klasörün yolu olacaktır.

path_on_compute bir / ile başlarsa, mutlak yol olarak değerlendirilir. / ile başlamıyorsa, çalışma dizinine göre göreli bir yol olarak değerlendirilir. Mutlak bir yol belirttiyseniz, lütfen işin bu dizine yazma izni olduğundan emin olun.

Öznitelikler

name

Girişin adı.

Döndürülenler

Girişin adı.