FileDatasetFactory Klasa

Zawiera metody tworzenia zestawu danych plików dla usługi Azure Machine Learning.

Element FileDataset jest tworzony na podstawie metody zdefiniowanej from_files w tej klasie.

Aby uzyskać więcej informacji na temat pracy z zestawami danych plików, zobacz notes https://aka.ms/filedataset-samplenotebook.

Dziedziczenie
builtins.object
FileDatasetFactory

Konstruktor

FileDatasetFactory()

Metody

from_files

Utwórz zestaw FileDataset do reprezentowania strumieni plików.

upload_directory

Utwórz zestaw danych na podstawie katalogu źródłowego.

from_files

Utwórz zestaw FileDataset do reprezentowania strumieni plików.

static from_files(path, validate=True, partition_format=None, is_file=False)

Parametry

path
Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]]
Wymagane

Ścieżka do plików źródłowych, które mogą być pojedynczą wartością lub listą ciągu adresu URL (http[s]|abfs[s]|wasb[s]), DataPath obiektem lub krotką Datastore i ścieżką względną. Należy pamiętać, że lista ścieżek nie może zawierać jednocześnie adresów URL i magazynów danych.

validate
bool
Wymagane

Wskazuje, czy należy sprawdzić, czy dane można załadować z zwróconego zestawu danych. Wartość domyślna to True. Walidacja wymaga, aby źródło danych było dostępne z bieżącego środowiska obliczeniowego.

partition_format
str
Wymagane

Określ format partycji ścieżki. Wartość domyślna to None (Brak). Informacje o partycji każdej ścieżki zostaną wyodrębnione do kolumn na podstawie określonego formatu. Część formatu "{column_name}" tworzy kolumnę ciągu i "{column_name:rrrr/MM/dd/HH/mm/ss}" tworzy kolumnę datetime, gdzie "rrrr", "MM", "dd", "HH", "mm" i "ss" są używane do wyodrębniania roku, miesiąca, dnia, godziny, minuty i sekundy dla typu data/godzina. Format powinien rozpoczynać się od pozycji pierwszego klucza partycji do końca ścieżki pliku. Na przykład, biorąc pod uwagę ścieżkę '.. /Accounts/2019/01/01/data.jsonl, gdzie partycja jest według nazwy i godziny działu, partition_format="/{Dział}/{PartitionDate:rrrr/MM/dd}/data.jsonl" tworzy kolumnę ciągu "Dział" z wartością "Accounts" i kolumną daty/godziny "PartitionDate" z wartością "2019-01-01".

is_file
bool
Wymagane

Wskazuje, czy wszystkie ścieżki wejściowe wskazują pliki. Aparat zestawu danych domyślnie próbuje sprawdzić, czy ścieżki wejściowe wskazują pliki. Ustaw tę flagę na true, gdy wszystkie ścieżki wejściowe to Plik, aby przyspieszyć tworzenie zestawu danych.

Zwraca

Obiekt FileDataset.

Typ zwracany

Uwagi

from_files tworzy obiekt FileDataset klasy, który definiuje operacje ładowania strumieni plików z podanej ścieżki.

Aby dane były dostępne w usłudze Azure Machine Learning, pliki określone przez path usługę muszą znajdować się w Datastore lokalizacji lub być dostępne z publicznymi adresami URL lub adresem URL obiektu blob, usług ADLS Gen1 i ADLS Gen2.

token usługi AAD użytkowników będzie używany w notesie lub lokalnym programie python, jeśli bezpośrednio wywołuje jedną z następujących funkcji: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files tożsamość docelowego obiektu obliczeniowego będzie używana w zadaniach przesłanych przez narzędzie Experiment.submit na potrzeby uwierzytelniania dostępu do danych. Dowiedz się więcej: https://aka.ms/data-access


   from azureml.core import Dataset, Datastore

   # create file dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   file_dataset_1 = Dataset.File.from_files(path=(datastore,'image/dog.jpg'))

   # create file dataset from a single directory in datastore
   file_dataset_2 = Dataset.File.from_files(path=(datastore, 'image/'))

   # create file dataset from all jpeg files in the directory
   file_dataset_3 = Dataset.File.from_files(path=(datastore,'image/**/*.jpg'))

   # create filedataset from multiple paths
   data_paths = [(datastore, 'image/dog.jpg'), (datastore, 'image/cat.jpg')]
   file_dataset_4 = Dataset.File.from_files(path=data_paths)

   # create file dataset from url
   file_dataset_5 = Dataset.File.from_files(path='https://url/image/cat.jpg')

upload_directory

Utwórz zestaw danych na podstawie katalogu źródłowego.

static upload_directory(src_dir, target, pattern=None, overwrite=False, show_progress=True)

Parametry

src_dir
str
Wymagane

Katalog lokalny do przekazania.

target
Union[DataPath, Datastore, tuple(Datastore, str)]
Wymagane

Wymagana ścieżka magazynu danych, do której zostaną przekazane pliki.

pattern
str
Wymagane

Opcjonalnie, jeśli podano, filtruje wszystkie nazwy ścieżek pasujących do danego wzorca, podobnie jak pakiet glob języka Python, obsługujące znaki "*", "?", i zakresy znaków wyrażone za pomocą znaku [].

show_progress
bool
Wymagane

Opcjonalnie wskazuje, czy ma być wyświetlany postęp przekazywania w konsoli programu . Wartość domyślna to True.

Zwraca

Zarejestrowany zestaw danych.

Typ zwracany