Share via


FileDatasetFactory Osztály

Az Azure Machine Learning fájladatkészletének létrehozására szolgáló módszereket tartalmaz.

Az A FileDataset az from_files osztályban definiált metódusból jön létre.

A fájladatkészletek használatával kapcsolatos további információkért lásd a jegyzetfüzetet https://aka.ms/filedataset-samplenotebook.

Öröklődés
builtins.object
FileDatasetFactory

Konstruktor

FileDatasetFactory()

Metódusok

from_files

Hozzon létre egy FileDatasetet a fájlstreamek megjelenítéséhez.

upload_directory

Hozzon létre egy adatkészletet a forráskönyvtárból.

from_files

Hozzon létre egy FileDatasetet a fájlstreamek megjelenítéséhez.

static from_files(path, validate=True, partition_format=None, is_file=False)

Paraméterek

path
Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]]
Kötelező

A forrásfájlok elérési útja, amely lehet egyérték vagy url-sztring listája (http[s]|abfs[s]|wasb[s]), DataPath objektum vagy rekord Datastore és relatív elérési út. Vegye figyelembe, hogy az elérési utak listája nem tartalmazhatja együtt az URL-címeket és az adattárakat.

validate
bool
Kötelező

Azt jelzi, hogy ellenőrizni szeretné-e, hogy az adatok betölthetők-e a visszaadott adatkészletből. Alapértelmezés szerint Igaz. Az ellenőrzéshez az adatforrásnak elérhetőnek kell lenniük az aktuális számításból.

partition_format
str
Kötelező

Adja meg az elérési út partícióformátumát. Alapértelmezés szerint Nincs. Az egyes elérési utak partícióadatai a megadott formátum alapján lesznek kinyerve oszlopokba. A(z) "{column_name}" formázási rész sztringoszlopot hoz létre, a "{column_name:yyyy/MM/dd/HH/mm/ss}" pedig datetime oszlopot hoz létre, ahol az "éé", az "MM", a "dd", a "HH", az "mm" és az "ss" függvény a datetime típus év, hónap, nap, óra, perc és másodperc kinyerésére szolgál. A formátumnak az első partíciókulcs helyzetétől a fájl elérési útjának végéig kell kezdődnie. Például a "." elérési út alapján. /Accounts/2019/01/01/data.jsonl' ahol a partíció részlegnév és idő szerint van, partition_format='/{Department}/{PartitionDate:yy/MM/dd}/data.jsonl' létrehoz egy "Department" sztringoszlopot "Accounts" értékkel és egy "PartitionDate" datetime oszlopot a "2019-01-01" értékkel.

is_file
bool
Kötelező

Azt jelzi, hogy az összes bemeneti útvonal fájlokra mutat-e. Az adathalmazmotor alapértelmezés szerint megpróbálja ellenőrizni, hogy a bemeneti útvonalak fájlokra mutatnak-e. Állítsa ezt a jelzőt True (Igaz) értékre, ha az összes bemeneti elérési út Fájl értékre van állítva az adathalmaz létrehozásának felgyorsításához.

Válaszok

Egy FileDataset objektum.

Visszatérési típus

Megjegyzések

from_files létrehoz egy osztályobjektumot FileDataset , amely meghatározza a fájlstreamek a megadott elérési útból való betöltésére szolgáló műveleteket.

Ahhoz, hogy az adatok elérhetők legyenek az Azure Machine Learningben, a megadott path fájloknak nyilvános webes URL-címekkel vagy Blob, ADLS Gen1 és ADLS Gen2 URL-címmel kell rendelkeznie Datastore .

A felhasználók AAD-tokenje akkor lesz használatban a jegyzetfüzetben vagy a helyi Python-programban, ha közvetlenül meghívja a következő függvények egyikét: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files a számítási cél identitását az Experiment.submit által az adatelérési hitelesítésre küldött feladatokban fogja használni. Tudj meg többet: https://aka.ms/data-access


   from azureml.core import Dataset, Datastore

   # create file dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   file_dataset_1 = Dataset.File.from_files(path=(datastore,'image/dog.jpg'))

   # create file dataset from a single directory in datastore
   file_dataset_2 = Dataset.File.from_files(path=(datastore, 'image/'))

   # create file dataset from all jpeg files in the directory
   file_dataset_3 = Dataset.File.from_files(path=(datastore,'image/**/*.jpg'))

   # create filedataset from multiple paths
   data_paths = [(datastore, 'image/dog.jpg'), (datastore, 'image/cat.jpg')]
   file_dataset_4 = Dataset.File.from_files(path=data_paths)

   # create file dataset from url
   file_dataset_5 = Dataset.File.from_files(path='https://url/image/cat.jpg')

upload_directory

Hozzon létre egy adatkészletet a forráskönyvtárból.

static upload_directory(src_dir, target, pattern=None, overwrite=False, show_progress=True)

Paraméterek

src_dir
str
Kötelező

A feltöltendő helyi könyvtár.

target
Union[DataPath, Datastore, tuple(Datastore, str)]
Kötelező

Kötelező megadni az adattár elérési útját, ahová a fájlokat fel fogja tölteni.

pattern
str
Kötelező

Nem kötelező, Ha meg van adva, az a Python glob-csomaghoz hasonlóan szűri a megadott mintának megfelelő összes elérési utat, támogatja a "*", a "?" és a [] karaktertartományokat.

show_progress
bool
Kötelező

Nem kötelező, azt jelzi, hogy meg szeretné-e jeleníteni a feltöltés állapotát a konzolon. Alapértelmezés szerint igaz.

Válaszok

A regisztrált adatkészlet.

Visszatérési típus