FileDatasetFactory Sınıf
Azure Machine Learning için dosya veri kümesi oluşturma yöntemlerini içerir.
FileDataset bu sınıfta tanımlanan yöntemden from_files oluşturulur.
Dosya veri kümeleriyle çalışma hakkında daha fazla bilgi için not defterine https://aka.ms/filedataset-samplenotebookbakın.
- Devralma
-
builtins.objectFileDatasetFactory
Oluşturucu
FileDatasetFactory()
Yöntemler
from_files |
Dosya akışlarını temsil eden bir FileDataset oluşturun. |
upload_directory |
Kaynak dizinden bir veri kümesi oluşturun. |
from_files
Dosya akışlarını temsil eden bir FileDataset oluşturun.
static from_files(path, validate=True, partition_format=None, is_file=False)
Parametreler
Name | Description |
---|---|
path
Gerekli
|
|
validate
Gerekli
|
Döndürülen veri kümesinden veri yüklenip yüklenemeyeceğinin doğrulanıp doğrulanmayacağını gösterir. Varsayılan değer True'dır. Doğrulama, veri kaynağının geçerli işlemden erişilebilir olmasını gerektirir. |
partition_format
Gerekli
|
Yolun bölüm biçimini belirtin. Varsayılan değer Yok'tır. Her yolun bölüm bilgileri belirtilen biçime göre sütunlara ayıklanır. '{column_name}' biçim bölümü dize sütunu oluşturur ve '{column_name:yyyy/AA/GG/HH/aa/ss}' datetime sütunu oluşturur; burada tarih saat türü için yıl, ay, gün, saat, dakika ve saniyeyi ayıklamak için 'yyyy', 'MM', 'dd', 'SS', 'd' ve 'ss' kullanılır. Biçim, ilk bölüm anahtarının konumundan dosya yolunun sonuna kadar başlamalıdır. Örneğin, '.. /Accounts/2019/01/01/data.jsonl' bölümünde bölüm adı ve zamanına göre, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.jsonl' değeri 'Accounts' olan bir 'Department' dize sütunu ve '2019-01-01' değeriyle 'PartitionDate' tarih saat sütunu oluşturur. |
is_file
Gerekli
|
Tüm giriş yollarının dosyalara işaret edip etmediğini gösterir. Veri kümesi altyapısı varsayılan olarak giriş yollarının dosyalara işaret edip etmediğini denetlemeye çalışır. Veri kümesi oluşturmayı hızlandırmak için tüm giriş yolları Dosya olduğunda bu bayrağı True olarak ayarlayın. |
Döndürülenler
Tür | Description |
---|---|
Bir FileDataset nesnesi. |
Açıklamalar
from_files , sağlanan yoldan dosya akışlarını yükleme işlemlerini tanımlayan bir sınıf nesnesi FileDataset oluşturur.
Verilerin Azure Machine Learning tarafından erişilebilir olması için tarafından belirtilen path
dosyaların bir veya içinde genel web URL'leri Datastore veya Blob, ADLS 1. Nesil ve ADLS 2. Nesil URL'si ile erişilebilir olması gerekir.
kullanıcıların AAD belirteci, doğrudan şu işlevlerden birini çağırırsa not defterinde veya yerel Python programında kullanılır: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files işlem hedefinin kimliği, veri erişimi kimlik doğrulaması için Experiment.submit tarafından gönderilen işlerde kullanılır. Daha fazla bilgi edinin: https://aka.ms/data-access
from azureml.core import Dataset, Datastore
# create file dataset from a single file in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
file_dataset_1 = Dataset.File.from_files(path=(datastore,'image/dog.jpg'))
# create file dataset from a single directory in datastore
file_dataset_2 = Dataset.File.from_files(path=(datastore, 'image/'))
# create file dataset from all jpeg files in the directory
file_dataset_3 = Dataset.File.from_files(path=(datastore,'image/**/*.jpg'))
# create filedataset from multiple paths
data_paths = [(datastore, 'image/dog.jpg'), (datastore, 'image/cat.jpg')]
file_dataset_4 = Dataset.File.from_files(path=data_paths)
# create file dataset from url
file_dataset_5 = Dataset.File.from_files(path='https://url/image/cat.jpg')
upload_directory
Kaynak dizinden bir veri kümesi oluşturun.
static upload_directory(src_dir, target, pattern=None, overwrite=False, show_progress=True)
Parametreler
Name | Description |
---|---|
src_dir
Gerekli
|
Karşıya yüklenecek yerel dizin. |
target
Gerekli
|
Gerekli, dosyaların yüklendiği veri deposu yolu. |
pattern
Gerekli
|
İsteğe bağlı, Sağlanırsa, Verilen desenle eşleşen tüm yol adlarını,Python glob paketine benzer şekilde filtreleyerek '*', '?' ve [] ile ifade edilen karakter aralıklarını destekler. |
show_progress
Gerekli
|
İsteğe bağlı olarak, yüklemenin ilerleme durumunun konsolda gösterilip gösterilmeyeceğini gösterir. Varsayılan değer True olur. |
Döndürülenler
Tür | Description |
---|---|
Kayıtlı veri kümesi. |