FileDatasetFactory Класс

Содержит методы для создания файлового набора данных для Машинного обучения Azure.

Объект FileDataset создается из метода from_files, определенного в этом классе.

Дополнительные сведения о работе с файловыми наборами данных см. в записной книжке https://aka.ms/filedataset-samplenotebook.

Наследование
builtins.object
FileDatasetFactory

Конструктор

FileDatasetFactory()

Методы

from_files

Создание объекта FileDataset для представления файловых потоков.

upload_directory

Создание набора данных из исходного каталога.

from_files

Создание объекта FileDataset для представления файловых потоков.

static from_files(path, validate=True, partition_format=None, is_file=False)

Параметры

path
Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]]
Обязательно

Путь к исходным файлам, который может быть одним значением или списком строки URL-адреса (http[s]|abfs[s]|wasb[s]), DataPath объектом или кортежем и относительным Datastore путем. Обратите внимание, что список путей не может одновременно включать и URL-адреса, и хранилища данных.

validate
bool
Обязательно

Указывает, следует ли проверять возможность загрузки данных из возвращенного набора данных. Значение по умолчанию — True. Для проверки необходимо, чтобы источник данных был доступен из текущего вычисления.

partition_format
str
Обязательно

Укажите формат раздела пути. Значение по умолчанию — None (Нет). Сведения о разделах для каждого пути данных будут извлечены в столбцы на основе указанного формата. Часть формата "{column_name}" создает строковый столбец, а "{column_name: гггг/ММ/дд/ЧЧ/мм/сс}" создает столбец datetime, где "гггг", "ММ", "дд", "ЧЧ", "мм" и "сс" используются для извлечения года, месяца, дня, часа, минуты и секунды для типа datetime. Формат должен начинаться с расположения первого ключа секции до конца пути к файлу. Например, с учетом пути "../Accounts/2019/01/01/data.jsonl", где раздел осуществляется по имени отдела и времени, partition_format ="/{Department}/{PartitionDate: гггг/мм/дд}/data.parquet" создает строковый столбец "Department" ("Отдел") со значением "Accounts" ("Бухгалтерия") и столбцом datetime "PartitionDate" со значением "2019-01-01".

is_file
bool
Обязательно

Указывает, все ли входные пути ведут к файлам. По умолчанию обработчик набора данных пытается проверить, ведут ли входные пути к файлам. Установите для этого флага значение True, если все входные пути ведут к файлам, чтобы ускорить создания набора данных.

Возвращаемое значение

Объект FileDataset.

Возвращаемый тип

Комментарии

from_files создает объект класса FileDataset, который определяет операции для загрузки файловых потоков по указанному пути.

Чтобы данные были доступны Машинному обучению Azure, файлы, указанные в path , должны находиться в Datastore или быть доступны с помощью общедоступных URL-адресов или URL-адресов BLOB-объектов, ADLS 1-го поколения и ADLS 2-го поколения.

Маркер AAD пользователя будет использоваться в записной книжке или локальной программе Python, если он напрямую вызывает одну из следующих функций: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files удостоверение целевого объекта вычислений будет использоваться в заданиях, отправленных Experiment.submit для проверки подлинности доступа к данным. Подробнее: https://aka.ms/data-access


   from azureml.core import Dataset, Datastore

   # create file dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   file_dataset_1 = Dataset.File.from_files(path=(datastore,'image/dog.jpg'))

   # create file dataset from a single directory in datastore
   file_dataset_2 = Dataset.File.from_files(path=(datastore, 'image/'))

   # create file dataset from all jpeg files in the directory
   file_dataset_3 = Dataset.File.from_files(path=(datastore,'image/**/*.jpg'))

   # create filedataset from multiple paths
   data_paths = [(datastore, 'image/dog.jpg'), (datastore, 'image/cat.jpg')]
   file_dataset_4 = Dataset.File.from_files(path=data_paths)

   # create file dataset from url
   file_dataset_5 = Dataset.File.from_files(path='https://url/image/cat.jpg')

upload_directory

Создание набора данных из исходного каталога.

static upload_directory(src_dir, target, pattern=None, overwrite=False, show_progress=True)

Параметры

src_dir
str
Обязательно

Локальный каталог для отправки.

target
Union[DataPath, Datastore, tuple(Datastore, str)]
Обязательно

Обязательный параметр. Путь к хранилищу данных, куда будут отправлены файлы.

pattern
str
Обязательно

Необязательный параметр. Фильтрует все имена путей, соответствующие заданному шаблону, аналогично пакету стандартных масок Python. Поддерживаются подстановочные знаки "*", "?", а также диапазоны знаков, выраженные с помощью [].

show_progress
bool
Обязательно

Необязательный параметр. Указывает, демонстрировать ли в консоли ход отправки. Значение по умолчанию — True.

Возвращаемое значение

Зарегистрированный набор данных.

Возвращаемый тип