Aracılığıyla paylaş


FileDatasetFactory Sınıf

Azure Machine Learning için dosya veri kümesi oluşturma yöntemlerini içerir.

FileDataset bu sınıfta tanımlanan yöntemden from_files oluşturulur.

Dosya veri kümeleriyle çalışma hakkında daha fazla bilgi için not defterine https://aka.ms/filedataset-samplenotebookbakın.

Devralma
builtins.object
FileDatasetFactory

Oluşturucu

FileDatasetFactory()

Yöntemler

from_files

Dosya akışlarını temsil eden bir FileDataset oluşturun.

upload_directory

Kaynak dizinden bir veri kümesi oluşturun.

from_files

Dosya akışlarını temsil eden bir FileDataset oluşturun.

static from_files(path, validate=True, partition_format=None, is_file=False)

Parametreler

path
Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]]
Gerekli

Tek değer veya URL dizesi listesi (http[s]|abfs[s]|wasb[s]), DataPath nesnesi veya ve göreli yolu demeti Datastore olabilecek kaynak dosyaların yolu. Yol listesinin hem URL'leri hem de veri depolarını birlikte içereebileceğini unutmayın.

validate
bool
Gerekli

Döndürülen veri kümesinden veri yüklenip yüklenemeyeceğinin doğrulanıp doğrulanmayacağını gösterir. Varsayılan değer True'dır. Doğrulama, veri kaynağının geçerli işlemden erişilebilir olmasını gerektirir.

partition_format
str
Gerekli

Yolun bölüm biçimini belirtin. Varsayılan değer Yok'tır. Her yolun bölüm bilgileri belirtilen biçime göre sütunlara ayıklanır. '{column_name}' biçim bölümü dize sütunu oluşturur ve '{column_name:yyyy/AA/GG/HH/aa/ss}' datetime sütunu oluşturur; burada tarih saat türü için yıl, ay, gün, saat, dakika ve saniyeyi ayıklamak için 'yyyy', 'MM', 'dd', 'SS', 'd' ve 'ss' kullanılır. Biçim, ilk bölüm anahtarının konumundan dosya yolunun sonuna kadar başlamalıdır. Örneğin, '.. /Accounts/2019/01/01/data.jsonl' bölümünde bölüm adı ve zamanına göre, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.jsonl' değeri 'Accounts' olan bir 'Department' dize sütunu ve '2019-01-01' değeriyle 'PartitionDate' tarih saat sütunu oluşturur.

is_file
bool
Gerekli

Tüm giriş yollarının dosyalara işaret edip etmediğini gösterir. Veri kümesi altyapısı varsayılan olarak giriş yollarının dosyalara işaret edip etmediğini denetlemeye çalışır. Veri kümesi oluşturmayı hızlandırmak için tüm giriş yolları Dosya olduğunda bu bayrağı True olarak ayarlayın.

Döndürülenler

Bir FileDataset nesnesi.

Dönüş türü

Açıklamalar

from_files , sağlanan yoldan dosya akışlarını yükleme işlemlerini tanımlayan bir sınıf nesnesi FileDataset oluşturur.

Verilerin Azure Machine Learning tarafından erişilebilir olması için tarafından belirtilen path dosyaların bir veya içinde genel web URL'leri Datastore veya Blob, ADLS 1. Nesil ve ADLS 2. Nesil URL'si ile erişilebilir olması gerekir.

kullanıcıların AAD belirteci, doğrudan şu işlevlerden birini çağırırsa not defterinde veya yerel Python programında kullanılır: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files işlem hedefinin kimliği, veri erişimi kimlik doğrulaması için Experiment.submit tarafından gönderilen işlerde kullanılır. Daha fazla bilgi edinin: https://aka.ms/data-access


   from azureml.core import Dataset, Datastore

   # create file dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   file_dataset_1 = Dataset.File.from_files(path=(datastore,'image/dog.jpg'))

   # create file dataset from a single directory in datastore
   file_dataset_2 = Dataset.File.from_files(path=(datastore, 'image/'))

   # create file dataset from all jpeg files in the directory
   file_dataset_3 = Dataset.File.from_files(path=(datastore,'image/**/*.jpg'))

   # create filedataset from multiple paths
   data_paths = [(datastore, 'image/dog.jpg'), (datastore, 'image/cat.jpg')]
   file_dataset_4 = Dataset.File.from_files(path=data_paths)

   # create file dataset from url
   file_dataset_5 = Dataset.File.from_files(path='https://url/image/cat.jpg')

upload_directory

Kaynak dizinden bir veri kümesi oluşturun.

static upload_directory(src_dir, target, pattern=None, overwrite=False, show_progress=True)

Parametreler

src_dir
str
Gerekli

Karşıya yüklenecek yerel dizin.

target
Union[DataPath, Datastore, tuple(Datastore, str)]
Gerekli

Gerekli, dosyaların yüklendiği veri deposu yolu.

pattern
str
Gerekli

İsteğe bağlı, Sağlanırsa, Verilen desenle eşleşen tüm yol adlarını,Python glob paketine benzer şekilde filtreleyerek '*', '?' ve [] ile ifade edilen karakter aralıklarını destekler.

show_progress
bool
Gerekli

İsteğe bağlı olarak, yüklemenin ilerleme durumunun konsolda gösterilip gösterilmeyeceğini gösterir. Varsayılan değer True olur.

Döndürülenler

Kayıtlı veri kümesi.

Dönüş türü