FileDatasetFactory Osztály
Az Azure Machine Learning fájladatkészletének létrehozására szolgáló módszereket tartalmaz.
Az A FileDataset az from_files osztályban definiált metódusból jön létre.
A fájladatkészletek használatával kapcsolatos további információkért lásd a jegyzetfüzetet https://aka.ms/filedataset-samplenotebook.
- Öröklődés
-
builtins.objectFileDatasetFactory
Konstruktor
FileDatasetFactory()
Metódusok
from_files |
Hozzon létre egy FileDatasetet a fájlstreamek megjelenítéséhez. |
upload_directory |
Hozzon létre egy adatkészletet a forráskönyvtárból. |
from_files
Hozzon létre egy FileDatasetet a fájlstreamek megjelenítéséhez.
static from_files(path, validate=True, partition_format=None, is_file=False)
Paraméterek
A forrásfájlok elérési útja, amely lehet egyérték vagy url-sztring listája (http[s]|abfs[s]|wasb[s]), DataPath objektum vagy rekord Datastore és relatív elérési út. Vegye figyelembe, hogy az elérési utak listája nem tartalmazhatja együtt az URL-címeket és az adattárakat.
- validate
- bool
Azt jelzi, hogy ellenőrizni szeretné-e, hogy az adatok betölthetők-e a visszaadott adatkészletből. Alapértelmezés szerint Igaz. Az ellenőrzéshez az adatforrásnak elérhetőnek kell lenniük az aktuális számításból.
- partition_format
- str
Adja meg az elérési út partícióformátumát. Alapértelmezés szerint Nincs. Az egyes elérési utak partícióadatai a megadott formátum alapján lesznek kinyerve oszlopokba. A(z) "{column_name}" formázási rész sztringoszlopot hoz létre, a "{column_name:yyyy/MM/dd/HH/mm/ss}" pedig datetime oszlopot hoz létre, ahol az "éé", az "MM", a "dd", a "HH", az "mm" és az "ss" függvény a datetime típus év, hónap, nap, óra, perc és másodperc kinyerésére szolgál. A formátumnak az első partíciókulcs helyzetétől a fájl elérési útjának végéig kell kezdődnie. Például a "." elérési út alapján. /Accounts/2019/01/01/data.jsonl' ahol a partíció részlegnév és idő szerint van, partition_format='/{Department}/{PartitionDate:yy/MM/dd}/data.jsonl' létrehoz egy "Department" sztringoszlopot "Accounts" értékkel és egy "PartitionDate" datetime oszlopot a "2019-01-01" értékkel.
- is_file
- bool
Azt jelzi, hogy az összes bemeneti útvonal fájlokra mutat-e. Az adathalmazmotor alapértelmezés szerint megpróbálja ellenőrizni, hogy a bemeneti útvonalak fájlokra mutatnak-e. Állítsa ezt a jelzőt True (Igaz) értékre, ha az összes bemeneti elérési út Fájl értékre van állítva az adathalmaz létrehozásának felgyorsításához.
Válaszok
Egy FileDataset objektum.
Visszatérési típus
Megjegyzések
from_files létrehoz egy osztályobjektumot FileDataset , amely meghatározza a fájlstreamek a megadott elérési útból való betöltésére szolgáló műveleteket.
Ahhoz, hogy az adatok elérhetők legyenek az Azure Machine Learningben, a megadott path
fájloknak nyilvános webes URL-címekkel vagy Blob, ADLS Gen1 és ADLS Gen2 URL-címmel kell rendelkeznie Datastore .
A felhasználók AAD-tokenje akkor lesz használatban a jegyzetfüzetben vagy a helyi Python-programban, ha közvetlenül meghívja a következő függvények egyikét: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files a számítási cél identitását az Experiment.submit által az adatelérési hitelesítésre küldött feladatokban fogja használni. Tudj meg többet: https://aka.ms/data-access
from azureml.core import Dataset, Datastore
# create file dataset from a single file in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
file_dataset_1 = Dataset.File.from_files(path=(datastore,'image/dog.jpg'))
# create file dataset from a single directory in datastore
file_dataset_2 = Dataset.File.from_files(path=(datastore, 'image/'))
# create file dataset from all jpeg files in the directory
file_dataset_3 = Dataset.File.from_files(path=(datastore,'image/**/*.jpg'))
# create filedataset from multiple paths
data_paths = [(datastore, 'image/dog.jpg'), (datastore, 'image/cat.jpg')]
file_dataset_4 = Dataset.File.from_files(path=data_paths)
# create file dataset from url
file_dataset_5 = Dataset.File.from_files(path='https://url/image/cat.jpg')
upload_directory
Hozzon létre egy adatkészletet a forráskönyvtárból.
static upload_directory(src_dir, target, pattern=None, overwrite=False, show_progress=True)
Paraméterek
Kötelező megadni az adattár elérési útját, ahová a fájlokat fel fogja tölteni.
- pattern
- str
Nem kötelező, Ha meg van adva, az a Python glob-csomaghoz hasonlóan szűri a megadott mintának megfelelő összes elérési utat, támogatja a "*", a "?" és a [] karaktertartományokat.
- show_progress
- bool
Nem kötelező, azt jelzi, hogy meg szeretné-e jeleníteni a feltöltés állapotát a konzolon. Alapértelmezés szerint igaz.
Válaszok
A regisztrált adatkészlet.
Visszatérési típus
Visszajelzés
https://aka.ms/ContentUserFeedback.
Hamarosan elérhető: 2024-ben fokozatosan kivezetjük a GitHub-problémákat a tartalom visszajelzési mechanizmusaként, és lecseréljük egy új visszajelzési rendszerre. További információ:Visszajelzés küldése és megtekintése a következőhöz: