FileDatasetFactory Sınıf
Azure Machine Learning için dosya veri kümesi oluşturma yöntemlerini içerir.
FileDataset bu sınıfta tanımlanan yöntemden from_files oluşturulur.
Dosya veri kümeleriyle çalışma hakkında daha fazla bilgi için not defterine https://aka.ms/filedataset-samplenotebookbakın.
- Devralma
-
builtins.objectFileDatasetFactory
Oluşturucu
FileDatasetFactory()
Yöntemler
from_files |
Dosya akışlarını temsil eden bir FileDataset oluşturun. |
upload_directory |
Kaynak dizinden bir veri kümesi oluşturun. |
from_files
Dosya akışlarını temsil eden bir FileDataset oluşturun.
static from_files(path, validate=True, partition_format=None, is_file=False)
Parametreler
Tek değer veya URL dizesi listesi (http[s]|abfs[s]|wasb[s]), DataPath nesnesi veya ve göreli yolu demeti Datastore olabilecek kaynak dosyaların yolu. Yol listesinin hem URL'leri hem de veri depolarını birlikte içereebileceğini unutmayın.
- validate
- bool
Döndürülen veri kümesinden veri yüklenip yüklenemeyeceğinin doğrulanıp doğrulanmayacağını gösterir. Varsayılan değer True'dır. Doğrulama, veri kaynağının geçerli işlemden erişilebilir olmasını gerektirir.
- partition_format
- str
Yolun bölüm biçimini belirtin. Varsayılan değer Yok'tır. Her yolun bölüm bilgileri belirtilen biçime göre sütunlara ayıklanır. '{column_name}' biçim bölümü dize sütunu oluşturur ve '{column_name:yyyy/AA/GG/HH/aa/ss}' datetime sütunu oluşturur; burada tarih saat türü için yıl, ay, gün, saat, dakika ve saniyeyi ayıklamak için 'yyyy', 'MM', 'dd', 'SS', 'd' ve 'ss' kullanılır. Biçim, ilk bölüm anahtarının konumundan dosya yolunun sonuna kadar başlamalıdır. Örneğin, '.. /Accounts/2019/01/01/data.jsonl' bölümünde bölüm adı ve zamanına göre, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.jsonl' değeri 'Accounts' olan bir 'Department' dize sütunu ve '2019-01-01' değeriyle 'PartitionDate' tarih saat sütunu oluşturur.
- is_file
- bool
Tüm giriş yollarının dosyalara işaret edip etmediğini gösterir. Veri kümesi altyapısı varsayılan olarak giriş yollarının dosyalara işaret edip etmediğini denetlemeye çalışır. Veri kümesi oluşturmayı hızlandırmak için tüm giriş yolları Dosya olduğunda bu bayrağı True olarak ayarlayın.
Döndürülenler
Bir FileDataset nesnesi.
Dönüş türü
Açıklamalar
from_files , sağlanan yoldan dosya akışlarını yükleme işlemlerini tanımlayan bir sınıf nesnesi FileDataset oluşturur.
Verilerin Azure Machine Learning tarafından erişilebilir olması için tarafından belirtilen path
dosyaların bir veya içinde genel web URL'leri Datastore veya Blob, ADLS 1. Nesil ve ADLS 2. Nesil URL'si ile erişilebilir olması gerekir.
kullanıcıların AAD belirteci, doğrudan şu işlevlerden birini çağırırsa not defterinde veya yerel Python programında kullanılır: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files işlem hedefinin kimliği, veri erişimi kimlik doğrulaması için Experiment.submit tarafından gönderilen işlerde kullanılır. Daha fazla bilgi edinin: https://aka.ms/data-access
from azureml.core import Dataset, Datastore
# create file dataset from a single file in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
file_dataset_1 = Dataset.File.from_files(path=(datastore,'image/dog.jpg'))
# create file dataset from a single directory in datastore
file_dataset_2 = Dataset.File.from_files(path=(datastore, 'image/'))
# create file dataset from all jpeg files in the directory
file_dataset_3 = Dataset.File.from_files(path=(datastore,'image/**/*.jpg'))
# create filedataset from multiple paths
data_paths = [(datastore, 'image/dog.jpg'), (datastore, 'image/cat.jpg')]
file_dataset_4 = Dataset.File.from_files(path=data_paths)
# create file dataset from url
file_dataset_5 = Dataset.File.from_files(path='https://url/image/cat.jpg')
upload_directory
Kaynak dizinden bir veri kümesi oluşturun.
static upload_directory(src_dir, target, pattern=None, overwrite=False, show_progress=True)
Parametreler
Gerekli, dosyaların yüklendiği veri deposu yolu.
- pattern
- str
İsteğe bağlı, Sağlanırsa, Verilen desenle eşleşen tüm yol adlarını,Python glob paketine benzer şekilde filtreleyerek '*', '?' ve [] ile ifade edilen karakter aralıklarını destekler.
- show_progress
- bool
İsteğe bağlı olarak, yüklemenin ilerleme durumunun konsolda gösterilip gösterilmeyeceğini gösterir. Varsayılan değer True olur.
Döndürülenler
Kayıtlı veri kümesi.
Dönüş türü
Geri Bildirim
https://aka.ms/ContentUserFeedback.
Çok yakında: 2024 boyunca, içerik için geri bildirim mekanizması olarak GitHub Sorunları’nı kullanımdan kaldıracak ve yeni bir geri bildirim sistemiyle değiştireceğiz. Daha fazla bilgi için bkz.Gönderin ve geri bildirimi görüntüleyin