Compartir a través de


FileDatasetFactory Clase

Contiene métodos para crear un conjunto de datos de archivos para Azure Machine Learning.

FileDataset Se crea a partir del from_files método definido en esta clase.

Para obtener más información sobre cómo trabajar con conjuntos de datos de archivos, consulte el cuaderno https://aka.ms/filedataset-samplenotebook.

Constructor

FileDatasetFactory()

Métodos

from_files

Cree un objeto FileDataset para representar flujos de archivos.

upload_directory

Cree un conjunto de datos a partir del directorio de origen.

from_files

Cree un objeto FileDataset para representar flujos de archivos.

static from_files(path, validate=True, partition_format=None, is_file=False)

Parámetros

Nombre Description
path
Requerido

Ruta de acceso a los archivos de origen, que pueden ser un solo valor o lista de cadenas url (http[s]|abfs[s]|wasb[s]), DataPath objeto o tupla de y ruta de Datastore acceso relativa. Tenga en cuenta que la lista de rutas de acceso no puede incluir direcciones URL y almacenes de datos juntos.

validate
Requerido

Indica si se deben validar si los datos se pueden cargar desde el conjunto de datos devuelto. El valor predeterminado es True. La validación requiere que el origen de datos sea accesible desde el proceso actual.

partition_format
Requerido
str

Especifique el formato de partición de la ruta de acceso. El valor predeterminado es Ninguno. La información de partición de cada ruta de acceso se extraerá en columnas según el formato especificado. La parte de formato '{column_name}' crea una columna de cadena y '{column_name:aaaa/MM/dd/HH/mm/ss}' crea una columna datetime, donde 'aaaa', 'MM', 'dd', 'HH', 'mm' y 'ss' se usan para extraer año, mes, día, hora, minuto y segundo para el tipo datetime. El formato debe comenzar desde la posición de la primera clave de partición hasta el final de la ruta de acceso del archivo. Por ejemplo, dada la ruta de acceso '.. /Accounts/2019/01/01/data.jsonl' donde la partición es por nombre y hora del departamento, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.jsonl' crea una columna de cadena 'Department' con el valor 'Accounts' y una columna datetime 'PartitionDate' con el valor '2019-01-01'.

is_file
Requerido

Indica si todas las rutas de acceso de entrada apuntan a archivos. De forma predeterminada, el motor de conjunto de datos intenta comprobar si las rutas de acceso de entrada apuntan a archivos. Establezca esta marca en True cuando todas las rutas de acceso de entrada sean Archivo para acelerar la creación del conjunto de datos.

Devoluciones

Tipo Description

Objeto FileDataset .

Comentarios

from_files crea un objeto de FileDataset clase , que define las operaciones para cargar flujos de archivos desde la ruta de acceso proporcionada.

Para que Azure Machine Learning pueda acceder a los datos, los archivos especificados por path deben estar ubicados en o Datastore estar accesibles con direcciones URL web públicas o url de Blob, ADLS Gen1 y ADLS Gen2.

El token de AAD de los usuarios se usará en el cuaderno o en el programa de Python local si llama directamente a una de estas funciones: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files la identidad del destino de proceso se usará en los trabajos enviados por Experiment.submit para la autenticación de acceso a datos. Más información: https://aka.ms/data-access


   from azureml.core import Dataset, Datastore

   # create file dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   file_dataset_1 = Dataset.File.from_files(path=(datastore,'image/dog.jpg'))

   # create file dataset from a single directory in datastore
   file_dataset_2 = Dataset.File.from_files(path=(datastore, 'image/'))

   # create file dataset from all jpeg files in the directory
   file_dataset_3 = Dataset.File.from_files(path=(datastore,'image/**/*.jpg'))

   # create filedataset from multiple paths
   data_paths = [(datastore, 'image/dog.jpg'), (datastore, 'image/cat.jpg')]
   file_dataset_4 = Dataset.File.from_files(path=data_paths)

   # create file dataset from url
   file_dataset_5 = Dataset.File.from_files(path='https://url/image/cat.jpg')

upload_directory

Cree un conjunto de datos a partir del directorio de origen.

static upload_directory(src_dir, target, pattern=None, overwrite=False, show_progress=True)

Parámetros

Nombre Description
src_dir
Requerido
str

Directorio local que se va a cargar.

target
Requerido

Obligatorio, la ruta de acceso del almacén de datos en la que se cargarán los archivos.

pattern
Requerido
str

Opcional, si se proporciona, filtrará todos los nombres de ruta de acceso que coincidan con el patrón especificado, similar al paquete global de Python, que admite "*", "?" y los intervalos de caracteres expresados con [].

show_progress
Requerido

Opcional, indica si se va a mostrar el progreso de la carga en la consola. El valor predeterminado es True.

Devoluciones

Tipo Description

Conjunto de datos registrado.