FileDatasetFactory Klasa
Zawiera metody tworzenia zestawu danych plików dla usługi Azure Machine Learning.
Element FileDataset jest tworzony na podstawie metody zdefiniowanej from_files w tej klasie.
Aby uzyskać więcej informacji na temat pracy z zestawami danych plików, zobacz notes https://aka.ms/filedataset-samplenotebook.
- Dziedziczenie
-
builtins.objectFileDatasetFactory
Konstruktor
FileDatasetFactory()
Metody
from_files |
Utwórz zestaw FileDataset do reprezentowania strumieni plików. |
upload_directory |
Utwórz zestaw danych na podstawie katalogu źródłowego. |
from_files
Utwórz zestaw FileDataset do reprezentowania strumieni plików.
static from_files(path, validate=True, partition_format=None, is_file=False)
Parametry
Ścieżka do plików źródłowych, które mogą być pojedynczą wartością lub listą ciągu adresu URL (http[s]|abfs[s]|wasb[s]), DataPath obiektem lub krotką Datastore i ścieżką względną. Należy pamiętać, że lista ścieżek nie może zawierać jednocześnie adresów URL i magazynów danych.
- validate
- bool
Wskazuje, czy należy sprawdzić, czy dane można załadować z zwróconego zestawu danych. Wartość domyślna to True. Walidacja wymaga, aby źródło danych było dostępne z bieżącego środowiska obliczeniowego.
- partition_format
- str
Określ format partycji ścieżki. Wartość domyślna to None (Brak). Informacje o partycji każdej ścieżki zostaną wyodrębnione do kolumn na podstawie określonego formatu. Część formatu "{column_name}" tworzy kolumnę ciągu i "{column_name:rrrr/MM/dd/HH/mm/ss}" tworzy kolumnę datetime, gdzie "rrrr", "MM", "dd", "HH", "mm" i "ss" są używane do wyodrębniania roku, miesiąca, dnia, godziny, minuty i sekundy dla typu data/godzina. Format powinien rozpoczynać się od pozycji pierwszego klucza partycji do końca ścieżki pliku. Na przykład, biorąc pod uwagę ścieżkę '.. /Accounts/2019/01/01/data.jsonl, gdzie partycja jest według nazwy i godziny działu, partition_format="/{Dział}/{PartitionDate:rrrr/MM/dd}/data.jsonl" tworzy kolumnę ciągu "Dział" z wartością "Accounts" i kolumną daty/godziny "PartitionDate" z wartością "2019-01-01".
- is_file
- bool
Wskazuje, czy wszystkie ścieżki wejściowe wskazują pliki. Aparat zestawu danych domyślnie próbuje sprawdzić, czy ścieżki wejściowe wskazują pliki. Ustaw tę flagę na true, gdy wszystkie ścieżki wejściowe to Plik, aby przyspieszyć tworzenie zestawu danych.
Zwraca
Obiekt FileDataset.
Typ zwracany
Uwagi
from_files tworzy obiekt FileDataset klasy, który definiuje operacje ładowania strumieni plików z podanej ścieżki.
Aby dane były dostępne w usłudze Azure Machine Learning, pliki określone przez path
usługę muszą znajdować się w Datastore lokalizacji lub być dostępne z publicznymi adresami URL lub adresem URL obiektu blob, usług ADLS Gen1 i ADLS Gen2.
token usługi AAD użytkowników będzie używany w notesie lub lokalnym programie python, jeśli bezpośrednio wywołuje jedną z następujących funkcji: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files tożsamość docelowego obiektu obliczeniowego będzie używana w zadaniach przesłanych przez narzędzie Experiment.submit na potrzeby uwierzytelniania dostępu do danych. Dowiedz się więcej: https://aka.ms/data-access
from azureml.core import Dataset, Datastore
# create file dataset from a single file in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
file_dataset_1 = Dataset.File.from_files(path=(datastore,'image/dog.jpg'))
# create file dataset from a single directory in datastore
file_dataset_2 = Dataset.File.from_files(path=(datastore, 'image/'))
# create file dataset from all jpeg files in the directory
file_dataset_3 = Dataset.File.from_files(path=(datastore,'image/**/*.jpg'))
# create filedataset from multiple paths
data_paths = [(datastore, 'image/dog.jpg'), (datastore, 'image/cat.jpg')]
file_dataset_4 = Dataset.File.from_files(path=data_paths)
# create file dataset from url
file_dataset_5 = Dataset.File.from_files(path='https://url/image/cat.jpg')
upload_directory
Utwórz zestaw danych na podstawie katalogu źródłowego.
static upload_directory(src_dir, target, pattern=None, overwrite=False, show_progress=True)
Parametry
Wymagana ścieżka magazynu danych, do której zostaną przekazane pliki.
- pattern
- str
Opcjonalnie, jeśli podano, filtruje wszystkie nazwy ścieżek pasujących do danego wzorca, podobnie jak pakiet glob języka Python, obsługujące znaki "*", "?", i zakresy znaków wyrażone za pomocą znaku [].
- show_progress
- bool
Opcjonalnie wskazuje, czy ma być wyświetlany postęp przekazywania w konsoli programu . Wartość domyślna to True.
Zwraca
Zarejestrowany zestaw danych.
Typ zwracany
Opinia
https://aka.ms/ContentUserFeedback.
Dostępne już wkrótce: W 2024 r. będziemy stopniowo wycofywać zgłoszenia z serwisu GitHub jako mechanizm przesyłania opinii na temat zawartości i zastępować go nowym systemem opinii. Aby uzyskać więcej informacji, sprawdź:Prześlij i wyświetl opinię dla