DatasetConsumptionConfig Sınıf
Veri kümesinin bir işlem hedefine nasıl teslim edileceklerini temsil edin.
Veri kümesinin işlem hedefine nasıl teslim edileceklerini temsil edin.
- Devralma
-
builtins.objectDatasetConsumptionConfig
Oluşturucu
DatasetConsumptionConfig(name, dataset, mode='direct', path_on_compute=None)
Parametreler
- name
- str
Çalıştırmadaki veri kümesinin adı; kayıtlı addan farklı olabilir. Ad ortam değişkeni olarak kaydedilir ve veri düzleminde kullanılabilir.
- dataset
- AbstractDataset veya PipelineParameter veya OutputDatasetConfig
Çalıştırmada kullanılacak veri kümesi.
- mode
- str
Veri kümesinin işlem hedefine nasıl teslim edilmesi gerektiğini tanımlar. Üç mod vardır:
- 'doğrudan': veri kümesini veri kümesi olarak tüketir.
- 'download': Veri kümesini indirin ve indirilen yol olarak veri kümesini kullanın.
- 'bağlama': veri kümesini bağlayın ve veri kümesini bağlama yolu olarak kullanın.
- 'hdfs': çözümlenen hdfs yolundaki veri kümesini kullanın (Şu anda yalnızca SynapseSpark işlemlerinde desteklenir).
- path_on_compute
- str
verilerin kullanılabilmesi için işlemdeki hedef yol. Kaynak verilerin klasör yapısı korunur, ancak çakışmayı önlemek için bu klasör yapısına ön ekler ekleyebiliriz. Çıkış klasörü yapısını görmek için kullanın tabular_dataset.to_path
.
- name
- str
Çalıştırmadaki veri kümesinin adı; kayıtlı addan farklı olabilir. Ad ortam değişkeni olarak kaydedilir ve veri düzleminde kullanılabilir.
- dataset
- Dataset veya PipelineParameter veya tuple(Workspace, str) veya tuple(Workspace, str, str) veya OutputDatasetConfig
Teslim edilecek veri kümesi, Bir Veri Kümesi nesnesi olarak, Bir Veri Kümesini alan İşlem Hattı Parametresi, bir tanımlama grubu (çalışma alanı, Veri kümesi adı) veya bir tanımlama grubu (çalışma alanı, Veri kümesi adı, Veri kümesi sürümü). Yalnızca bir ad sağlanırsa DatasetConsumptionConfig, Veri Kümesinin en son sürümünü kullanır.
- mode
- str
Veri kümesinin işlem hedefine nasıl teslim edilmesi gerektiğini tanımlar. Üç mod vardır:
- 'doğrudan': veri kümesini veri kümesi olarak tüketir.
- 'download': Veri kümesini indirin ve indirilen yol olarak veri kümesini kullanın.
- 'bağlama': veri kümesini bağlayın ve veri kümesini bağlama yolu olarak kullanın.
- 'hdfs': çözümlenen hdfs yolundaki veri kümesini kullanın (Şu anda yalnızca SynapseSpark işlemlerinde desteklenir).
- path_on_compute
- str
verilerin kullanılabilmesi için işlemdeki hedef yol. Kaynak verilerin klasör yapısı korunur, ancak çakışmayı önlemek için bu klasör yapısına ön ekler ekleyebiliriz. Çıkış klasörü yapısını görmek için tabular_dataset.to_path çağrısı yapmanızı öneririz.
Yöntemler
as_download |
İndirme modunu ayarlayın. Gönderilen çalıştırmada, veri kümesindeki dosyalar işlem hedefindeki yerel yola indirilir. İndirme konumu bağımsız değişken değerlerinden ve çalıştırma bağlamının input_datasets alanından alınabilir.
|
as_hdfs |
Modu hdfs olarak ayarlayın. Gönderilen synapse çalıştırmasında, veri kümelerindeki dosyalar işlem hedefindeki yerel yola dönüştürülür. hdfs yolu bağımsız değişken değerlerinden ve işletim sistemi ortam değişkenlerinden alınabilir.
|
as_mount |
Modu bağlanacak şekilde ayarlayın. Gönderilen çalıştırmada, veri kümelerindeki dosyalar işlem hedefindeki yerel yola bağlanır. Bağlama noktası, bağımsız değişken değerlerinden ve çalıştırma bağlamının input_datasets alanından alınabilir.
|
as_download
İndirme modunu ayarlayın.
Gönderilen çalıştırmada, veri kümesindeki dosyalar işlem hedefindeki yerel yola indirilir. İndirme konumu bağımsız değişken değerlerinden ve çalıştırma bağlamının input_datasets alanından alınabilir.
file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))
# Following are sample codes running in context of the submitted run:
# The download location can be retrieved from argument values
import sys
download_location = sys.argv[1]
# The download location can also be retrieved from input_datasets of the run context.
from azureml.core import Run
download_location = Run.get_context().input_datasets['input_1']
as_download(path_on_compute=None)
Parametreler
Açıklamalar
Veri kümesi tek bir dosyanın yolundan oluşturulduğunda, indirme konumu indirilen tek dosyanın yolu olur. Aksi takdirde, indirme konumu indirilen tüm dosyalar için kapsayan klasörün yolu olur.
path_on_compute bir / ile başlarsa, mutlak yol olarak değerlendirilir. / ile başlamıyorsa, çalışma dizinine göre göreli bir yol olarak değerlendirilir. Mutlak bir yol belirttiyseniz, lütfen işin bu dizine yazma izni olduğundan emin olun.
as_hdfs
Modu hdfs olarak ayarlayın.
Gönderilen synapse çalıştırmasında, veri kümelerindeki dosyalar işlem hedefindeki yerel yola dönüştürülür. hdfs yolu bağımsız değişken değerlerinden ve işletim sistemi ortam değişkenlerinden alınabilir.
file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))
# Following are sample codes running in context of the submitted run:
# The hdfs path can be retrieved from argument values
import sys
hdfs_path = sys.argv[1]
# The hdfs path can also be retrieved from input_datasets of the run context.
import os
hdfs_path = os.environ['input_1']
as_hdfs()
Açıklamalar
Veri kümesi tek bir dosyanın yolundan oluşturulduğunda, hdfs yolu tek dosyanın yolu olur. Aksi takdirde, hdfs yolu tüm bağlı dosyalar için kapsayan klasörün yolu olur.
as_mount
Modu bağlanacak şekilde ayarlayın.
Gönderilen çalıştırmada, veri kümelerindeki dosyalar işlem hedefindeki yerel yola bağlanır. Bağlama noktası, bağımsız değişken değerlerinden ve çalıştırma bağlamının input_datasets alanından alınabilir.
file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))
# Following are sample codes running in context of the submitted run:
# The mount point can be retrieved from argument values
import sys
mount_point = sys.argv[1]
# The mount point can also be retrieved from input_datasets of the run context.
from azureml.core import Run
mount_point = Run.get_context().input_datasets['input_1']
as_mount(path_on_compute=None)
Parametreler
Açıklamalar
Veri kümesi tek bir dosyanın yolundan oluşturulduğunda, bağlama noktası bağlı tek dosyanın yolu olur. Aksi takdirde, bağlama noktası tüm bağlı dosyalar için kapsayan klasörün yolu olacaktır.
path_on_compute bir / ile başlarsa, mutlak yol olarak değerlendirilir. / ile başlamıyorsa, çalışma dizinine göre göreli bir yol olarak değerlendirilir. Mutlak bir yol belirttiyseniz, lütfen işin bu dizine yazma izni olduğundan emin olun.
Öznitelikler
name
Girişin adı.
Döndürülenler
Girişin adı.
Geri Bildirim
https://aka.ms/ContentUserFeedback.
Çok yakında: 2024 boyunca, içerik için geri bildirim mekanizması olarak GitHub Sorunları’nı kullanımdan kaldıracak ve yeni bir geri bildirim sistemiyle değiştireceğiz. Daha fazla bilgi için bkz.Gönderin ve geri bildirimi görüntüleyin