FileDatasetFactory Clase
Contiene métodos para crear un conjunto de datos de archivos para Azure Machine Learning.
FileDataset Se crea a partir del from_files método definido en esta clase.
Para obtener más información sobre cómo trabajar con conjuntos de datos de archivos, consulte el cuaderno https://aka.ms/filedataset-samplenotebook.
Constructor
FileDatasetFactory()
Métodos
from_files |
Cree un objeto FileDataset para representar flujos de archivos. |
upload_directory |
Cree un conjunto de datos a partir del directorio de origen. |
from_files
Cree un objeto FileDataset para representar flujos de archivos.
static from_files(path, validate=True, partition_format=None, is_file=False)
Parámetros
Nombre | Description |
---|---|
path
Requerido
|
|
validate
Requerido
|
Indica si se deben validar si los datos se pueden cargar desde el conjunto de datos devuelto. El valor predeterminado es True. La validación requiere que el origen de datos sea accesible desde el proceso actual. |
partition_format
Requerido
|
Especifique el formato de partición de la ruta de acceso. El valor predeterminado es Ninguno. La información de partición de cada ruta de acceso se extraerá en columnas según el formato especificado. La parte de formato '{column_name}' crea una columna de cadena y '{column_name:aaaa/MM/dd/HH/mm/ss}' crea una columna datetime, donde 'aaaa', 'MM', 'dd', 'HH', 'mm' y 'ss' se usan para extraer año, mes, día, hora, minuto y segundo para el tipo datetime. El formato debe comenzar desde la posición de la primera clave de partición hasta el final de la ruta de acceso del archivo. Por ejemplo, dada la ruta de acceso '.. /Accounts/2019/01/01/data.jsonl' donde la partición es por nombre y hora del departamento, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.jsonl' crea una columna de cadena 'Department' con el valor 'Accounts' y una columna datetime 'PartitionDate' con el valor '2019-01-01'. |
is_file
Requerido
|
Indica si todas las rutas de acceso de entrada apuntan a archivos. De forma predeterminada, el motor de conjunto de datos intenta comprobar si las rutas de acceso de entrada apuntan a archivos. Establezca esta marca en True cuando todas las rutas de acceso de entrada sean Archivo para acelerar la creación del conjunto de datos. |
Devoluciones
Tipo | Description |
---|---|
Objeto FileDataset . |
Comentarios
from_files crea un objeto de FileDataset clase , que define las operaciones para cargar flujos de archivos desde la ruta de acceso proporcionada.
Para que Azure Machine Learning pueda acceder a los datos, los archivos especificados por path
deben estar ubicados en o Datastore estar accesibles con direcciones URL web públicas o url de Blob, ADLS Gen1 y ADLS Gen2.
El token de AAD de los usuarios se usará en el cuaderno o en el programa de Python local si llama directamente a una de estas funciones: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files la identidad del destino de proceso se usará en los trabajos enviados por Experiment.submit para la autenticación de acceso a datos. Más información: https://aka.ms/data-access
from azureml.core import Dataset, Datastore
# create file dataset from a single file in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
file_dataset_1 = Dataset.File.from_files(path=(datastore,'image/dog.jpg'))
# create file dataset from a single directory in datastore
file_dataset_2 = Dataset.File.from_files(path=(datastore, 'image/'))
# create file dataset from all jpeg files in the directory
file_dataset_3 = Dataset.File.from_files(path=(datastore,'image/**/*.jpg'))
# create filedataset from multiple paths
data_paths = [(datastore, 'image/dog.jpg'), (datastore, 'image/cat.jpg')]
file_dataset_4 = Dataset.File.from_files(path=data_paths)
# create file dataset from url
file_dataset_5 = Dataset.File.from_files(path='https://url/image/cat.jpg')
upload_directory
Cree un conjunto de datos a partir del directorio de origen.
static upload_directory(src_dir, target, pattern=None, overwrite=False, show_progress=True)
Parámetros
Nombre | Description |
---|---|
src_dir
Requerido
|
Directorio local que se va a cargar. |
target
Requerido
|
Obligatorio, la ruta de acceso del almacén de datos en la que se cargarán los archivos. |
pattern
Requerido
|
Opcional, si se proporciona, filtrará todos los nombres de ruta de acceso que coincidan con el patrón especificado, similar al paquete global de Python, que admite "*", "?" y los intervalos de caracteres expresados con []. |
show_progress
Requerido
|
Opcional, indica si se va a mostrar el progreso de la carga en la consola. El valor predeterminado es True. |
Devoluciones
Tipo | Description |
---|---|
Conjunto de datos registrado. |