FileDatasetFactory Klas
Bevat methoden voor het maken van een bestandsgegevensset voor Azure Machine Learning.
Een FileDataset wordt gemaakt op basis van de from_files methode die in deze klasse is gedefinieerd.
Zie het notebook https://aka.ms/filedataset-samplenotebookvoor meer informatie over het werken met bestandsgegevenssets.
- Overname
-
builtins.objectFileDatasetFactory
Constructor
FileDatasetFactory()
Methoden
from_files |
Maak een FileDataset die bestandsstromen vertegenwoordigt. |
upload_directory |
Maak een gegevensset uit de bronmap. |
from_files
Maak een FileDataset die bestandsstromen vertegenwoordigt.
static from_files(path, validate=True, partition_format=None, is_file=False)
Parameters
Name | Description |
---|---|
path
Vereist
|
|
validate
Vereist
|
Hiermee wordt aangegeven of moet worden gevalideerd of gegevens uit de geretourneerde gegevensset kunnen worden geladen. De standaardwaarde is Waar. Voor validatie is vereist dat de gegevensbron toegankelijk is vanuit de huidige berekening. |
partition_format
Vereist
|
Geef de partitieindeling van het pad op. De standaardwaarde is Geen. De partitiegegevens van elk pad worden geëxtraheerd in kolommen op basis van de opgegeven indeling. Met het notatieonderdeel {column_name} wordt een tekenreekskolom gemaakt en in {column_name:jjjj/MM/dd/uu/mm/ss} wordt de datum/tijdkolom gemaakt, waarbij 'jjjj', 'MM', 'dd', 'uu', 'mm' en 'ss' worden gebruikt om jaar, maand, dag, uur, minuut en seconde te extraheren voor het datum/tijd-type. De indeling moet beginnen vanaf de positie van de eerste partitiesleutel tot het einde van het bestandspad. Bijvoorbeeld, gegeven het pad '.. /Accounts/2019/01/01/data.jsonl' waarbij de partitie is op afdelingsnaam en -tijd, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.jsonl' maakt een tekenreekskolom 'Department' met de waarde 'Accounts' en een datum/tijd-kolom 'PartitionDate' met de waarde '2019-01-01'. |
is_file
Vereist
|
Geeft aan of alle invoerpaden naar bestanden verwijzen. De gegevensset-engine probeert standaard te controleren of invoerpaden naar bestanden verwijzen. Stel deze vlag in op Waar wanneer alle invoerpaden Bestand zijn om het maken van gegevenssets te versnellen. |
Retouren
Type | Description |
---|---|
Een FileDataset object. |
Opmerkingen
from_files maakt een klasseobject FileDataset , dat de bewerkingen definieert voor het laden van bestandsstromen vanuit het opgegeven pad.
De gegevens zijn alleen toegankelijk voor Azure Machine Learning als de bestanden die zijn opgegeven door path
zich bevinden in een Datastore of toegankelijk zijn met openbare web-URL's of URL's van Blob, ADLS Gen1 en ADLS Gen2.
Het AAD-token van gebruikers wordt gebruikt in een notebook of een lokaal Python-programma als een van deze functies rechtstreeks wordt aangeroepen: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files de identiteit van het rekendoel wordt gebruikt in taken die door Experiment.submit worden ingediend voor verificatie van gegevenstoegang. Meer informatie: https://aka.ms/data-access
from azureml.core import Dataset, Datastore
# create file dataset from a single file in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
file_dataset_1 = Dataset.File.from_files(path=(datastore,'image/dog.jpg'))
# create file dataset from a single directory in datastore
file_dataset_2 = Dataset.File.from_files(path=(datastore, 'image/'))
# create file dataset from all jpeg files in the directory
file_dataset_3 = Dataset.File.from_files(path=(datastore,'image/**/*.jpg'))
# create filedataset from multiple paths
data_paths = [(datastore, 'image/dog.jpg'), (datastore, 'image/cat.jpg')]
file_dataset_4 = Dataset.File.from_files(path=data_paths)
# create file dataset from url
file_dataset_5 = Dataset.File.from_files(path='https://url/image/cat.jpg')
upload_directory
Maak een gegevensset uit de bronmap.
static upload_directory(src_dir, target, pattern=None, overwrite=False, show_progress=True)
Parameters
Name | Description |
---|---|
src_dir
Vereist
|
De lokale map die u wilt uploaden. |
target
Vereist
|
Vereist: het gegevensarchiefpad waarnaar de bestanden worden geüpload. |
pattern
Vereist
|
Optioneel, indien opgegeven, filtert alle padnamen die overeenkomen met het opgegeven patroon, vergelijkbaar met python glob-pakket, met ondersteuning voor '*', '?' en tekenbereiken uitgedrukt met []. |
show_progress
Vereist
|
Optioneel, geeft aan of de voortgang van het uploaden in de console moet worden weergegeven. De standaardinstelling is True. |
Retouren
Type | Description |
---|---|
De geregistreerde gegevensset. |