FileDatasetFactory Osztály
Az Azure Machine Learning fájladatkészletének létrehozására szolgáló módszereket tartalmaz.
Az A FileDataset az from_files osztályban definiált metódusból jön létre.
A fájladatkészletek használatával kapcsolatos további információkért lásd a jegyzetfüzetet https://aka.ms/filedataset-samplenotebook.
- Öröklődés
-
builtins.objectFileDatasetFactory
Konstruktor
FileDatasetFactory()
Metódusok
from_files |
Hozzon létre egy FileDatasetet a fájlstreamek megjelenítéséhez. |
upload_directory |
Hozzon létre egy adatkészletet a forráskönyvtárból. |
from_files
Hozzon létre egy FileDatasetet a fájlstreamek megjelenítéséhez.
static from_files(path, validate=True, partition_format=None, is_file=False)
Paraméterek
Name | Description |
---|---|
path
Kötelező
|
|
validate
Kötelező
|
Azt jelzi, hogy ellenőrizni szeretné-e, hogy az adatok betölthetők-e a visszaadott adatkészletből. Alapértelmezés szerint Igaz. Az ellenőrzéshez az adatforrásnak elérhetőnek kell lenniük az aktuális számításból. |
partition_format
Kötelező
|
Adja meg az elérési út partícióformátumát. Alapértelmezés szerint Nincs. Az egyes elérési utak partícióadatai a megadott formátum alapján lesznek kinyerve oszlopokba. A(z) "{column_name}" formázási rész sztringoszlopot hoz létre, a "{column_name:yyyy/MM/dd/HH/mm/ss}" pedig datetime oszlopot hoz létre, ahol az "éé", az "MM", a "dd", a "HH", az "mm" és az "ss" függvény a datetime típus év, hónap, nap, óra, perc és másodperc kinyerésére szolgál. A formátumnak az első partíciókulcs helyzetétől a fájl elérési útjának végéig kell kezdődnie. Például a "." elérési út alapján. /Accounts/2019/01/01/data.jsonl' ahol a partíció részlegnév és idő szerint van, partition_format='/{Department}/{PartitionDate:yy/MM/dd}/data.jsonl' létrehoz egy "Department" sztringoszlopot "Accounts" értékkel és egy "PartitionDate" datetime oszlopot a "2019-01-01" értékkel. |
is_file
Kötelező
|
Azt jelzi, hogy az összes bemeneti útvonal fájlokra mutat-e. Az adathalmazmotor alapértelmezés szerint megpróbálja ellenőrizni, hogy a bemeneti útvonalak fájlokra mutatnak-e. Állítsa ezt a jelzőt True (Igaz) értékre, ha az összes bemeneti elérési út Fájl értékre van állítva az adathalmaz létrehozásának felgyorsításához. |
Válaszok
Típus | Description |
---|---|
Egy FileDataset objektum. |
Megjegyzések
from_files létrehoz egy osztályobjektumot FileDataset , amely meghatározza a fájlstreamek a megadott elérési útból való betöltésére szolgáló műveleteket.
Ahhoz, hogy az adatok elérhetők legyenek az Azure Machine Learningben, a megadott path
fájloknak nyilvános webes URL-címekkel vagy Blob, ADLS Gen1 és ADLS Gen2 URL-címmel kell rendelkeznie Datastore .
A felhasználók AAD-tokenje akkor lesz használatban a jegyzetfüzetben vagy a helyi Python-programban, ha közvetlenül meghívja a következő függvények egyikét: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files a számítási cél identitását az Experiment.submit által az adatelérési hitelesítésre küldött feladatokban fogja használni. Tudj meg többet: https://aka.ms/data-access
from azureml.core import Dataset, Datastore
# create file dataset from a single file in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
file_dataset_1 = Dataset.File.from_files(path=(datastore,'image/dog.jpg'))
# create file dataset from a single directory in datastore
file_dataset_2 = Dataset.File.from_files(path=(datastore, 'image/'))
# create file dataset from all jpeg files in the directory
file_dataset_3 = Dataset.File.from_files(path=(datastore,'image/**/*.jpg'))
# create filedataset from multiple paths
data_paths = [(datastore, 'image/dog.jpg'), (datastore, 'image/cat.jpg')]
file_dataset_4 = Dataset.File.from_files(path=data_paths)
# create file dataset from url
file_dataset_5 = Dataset.File.from_files(path='https://url/image/cat.jpg')
upload_directory
Hozzon létre egy adatkészletet a forráskönyvtárból.
static upload_directory(src_dir, target, pattern=None, overwrite=False, show_progress=True)
Paraméterek
Name | Description |
---|---|
src_dir
Kötelező
|
A feltöltendő helyi könyvtár. |
target
Kötelező
|
Kötelező megadni az adattár elérési útját, ahová a fájlokat fel fogja tölteni. |
pattern
Kötelező
|
Nem kötelező, Ha meg van adva, az a Python glob-csomaghoz hasonlóan szűri a megadott mintának megfelelő összes elérési utat, támogatja a "*", a "?" és a [] karaktertartományokat. |
show_progress
Kötelező
|
Nem kötelező, azt jelzi, hogy meg szeretné-e jeleníteni a feltöltés állapotát a konzolon. Alapértelmezés szerint igaz. |
Válaszok
Típus | Description |
---|---|
A regisztrált adatkészlet. |