AbstractDataset Clase
Clase base de conjuntos de datos en Azure Machine Learning.
Haga referencia a la clase TabularDatasetFactory y la clase FileDatasetFactory para crear instancias de conjuntos de datos.
Constructor AbstractDataset de clase.
Este constructor no se supone que se invoque directamente. El conjunto de datos está diseñado para crearse mediante TabularDatasetFactory la clase y FileDatasetFactory la clase .
- Herencia
-
builtins.objectAbstractDataset
Constructor
AbstractDataset()
Métodos
add_tags |
Agrega pares clave-valor al diccionario de etiquetas de este conjunto de datos. |
as_named_input |
Se proporciona un nombre para este conjunto de datos que se usará para recuperar el conjunto de datos materializado en la ejecución. |
get_all |
Obtiene todos los conjuntos de datos registrados del área de trabajo. |
get_by_id |
Obtiene un conjunto de datos que se guarda en el área de trabajo. |
get_by_name |
Obtiene un conjunto de datos registrado del área de trabajo por su nombre de registro. |
get_partition_key_values |
Devuelve valores de clave únicos de partition_keys. Valida si partition_keys es un subconjunto válido de un conjunto completo de claves de partición, devuelve valores de clave únicos de partition_keys, devuelve de forma predeterminada las combinaciones de claves únicas tomando el conjunto completo de claves de partición de este conjunto de datos si partition_keys es None
|
register |
Registro del conjunto de datos para el área de trabajo proporcionada. |
remove_tags |
Quita las claves especificadas del diccionario de etiquetas de este conjunto de datos. |
unregister_all_versions |
Se anula el registro de todas las versiones con el nombre de registro de este conjunto de datos del área de trabajo. |
update |
Se realiza una actualización local del conjunto de datos. |
add_tags
Agrega pares clave-valor al diccionario de etiquetas de este conjunto de datos.
add_tags(tags=None)
Parámetros
Devoluciones
Objeto de conjunto de datos actualizado.
Tipo de valor devuelto
as_named_input
Se proporciona un nombre para este conjunto de datos que se usará para recuperar el conjunto de datos materializado en la ejecución.
as_named_input(name)
Parámetros
Devoluciones
Objeto de configuración que describe cómo se debe materializar el conjunto de datos en la ejecución.
Tipo de valor devuelto
Comentarios
Este nombre solo será aplicable dentro de una ejecución de Azure Machine Learning. El nombre solo debe contener caracteres alfanuméricos y de subrayado para que pueda estar disponible como una variable de entorno. Puede usar este nombre para recuperar el conjunto de datos en el contexto de una ejecución mediante dos enfoques:
Variable de entorno:
El nombre será el nombre de la variable de entorno y el conjunto de datos materializado estará disponible como el valor de la variable de entorno. Si se descarga o monta el conjunto de datos, el valor será la ruta de acceso de descarga o montaje. Por ejemplo:
# in your job submission notebook/script:
dataset.as_named_input('foo').as_download('/tmp/dataset')
# in the script that will be executed in the run
import os
path = os.environ['foo'] # path will be /tmp/dataset
Nota
Si el conjunto de datos se establece en modo directo, el valor será el id. del conjunto de datos. A continuación, puede
recuperar el objeto de conjunto de datos mediante Dataset.get_by_id(os.environ['foo'])
Run.input_datasets:
Se trata de un diccionario donde la clave será el nombre del conjunto de datos que especificó en este método y el valor será el conjunto de datos materializado. Para el conjunto de datos descargado y montado, el valor será la ruta de acceso de descarga o montaje. Para el modo directo, el valor será el mismo objeto de conjunto de datos que especificó en el script de envío del trabajo.
# in your job submission notebook/script:
dataset.as_named_input('foo') # direct mode
# in the script that will be executed in the run
run = Run.get_context()
run.input_datasets['foo'] # this returns the dataset object from above.
get_all
Obtiene todos los conjuntos de datos registrados del área de trabajo.
static get_all(workspace)
Parámetros
- workspace
- Workspace
Área de trabajo de AzureML existente en la que se registraron los conjuntos de datos.
Devoluciones
Diccionario de objetos TabularDataset y FileDataset con clave por su nombre de registro.
Tipo de valor devuelto
get_by_id
Obtiene un conjunto de datos que se guarda en el área de trabajo.
static get_by_id(workspace, id, **kwargs)
Parámetros
- workspace
- Workspace
Área de trabajo de AzureML existente en la que se guarda el conjunto de datos.
Devoluciones
Objeto de conjunto de datos. Si se registra el conjunto de datos, también se devolverán el nombre y la versión del registro.
Tipo de valor devuelto
get_by_name
Obtiene un conjunto de datos registrado del área de trabajo por su nombre de registro.
static get_by_name(workspace, name, version='latest', **kwargs)
Parámetros
- workspace
- Workspace
Área de trabajo de AzureML existente en la que se registró el conjunto de datos.
Devoluciones
Objeto de conjunto de datos registrado.
Tipo de valor devuelto
get_partition_key_values
Devuelve valores de clave únicos de partition_keys.
Valida si partition_keys es un subconjunto válido de un conjunto completo de claves de partición, devuelve valores de clave únicos de partition_keys, devuelve de forma predeterminada las combinaciones de claves únicas tomando el conjunto completo de claves de partición de este conjunto de datos si partition_keys es None
# get all partition key value pairs
partitions = ds.get_partition_key_values()
# Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}]
partitions = ds.get_partition_key_values(['country'])
# Return [{'country': 'US'}]
get_partition_key_values(partition_keys=None)
Parámetros
register
Registro del conjunto de datos para el área de trabajo proporcionada.
register(workspace, name, description=None, tags=None, create_new_version=False)
Parámetros
- description
- str
Texto de descripción del conjunto de datos. El valor predeterminado es None.
Diccionario de etiquetas valor-clave para proporcionar el conjunto de datos. El valor predeterminado es None.
- create_new_version
- bool
Booleano para registrar el conjunto de datos como una nueva versión con el nombre especificado.
Devoluciones
Objeto de conjunto de datos registrado.
Tipo de valor devuelto
remove_tags
Quita las claves especificadas del diccionario de etiquetas de este conjunto de datos.
remove_tags(tags=None)
Parámetros
Devoluciones
Objeto de conjunto de datos actualizado.
Tipo de valor devuelto
unregister_all_versions
Se anula el registro de todas las versiones con el nombre de registro de este conjunto de datos del área de trabajo.
unregister_all_versions()
Comentarios
La operación no cambia ningún dato de origen.
update
Se realiza una actualización local del conjunto de datos.
update(description=None, tags=None)
Parámetros
- description
- str
Nueva descripción que se usará para el conjunto de datos. La descripción reemplaza la descripción existente. El valor predeterminado es la descripción existente. Para borrar la descripción, escriba una cadena vacía.
Diccionario de etiquetas con las que actualizar el conjunto de datos. Estas etiquetas reemplazan a las etiquetas existentes para el conjunto de datos. El valor predeterminado es las etiquetas existentes. Para borrar las etiquetas, escriba un diccionario vacío.
Devoluciones
Objeto de conjunto de datos actualizado.
Tipo de valor devuelto
Atributos
data_changed_time
Devuelve la hora del cambio de los datos de origen.
Devoluciones
Hora a la que se produjo el cambio más reciente en los datos de origen.
Tipo de valor devuelto
Comentarios
Está disponible la hora del cambio de los datos para el origen de datos basado en archivos. Se devolverá None cuando no se admita el origen de datos para la comprobación de cuándo se ha producido el cambio.
description
Devuelve la descripción del registro.
Devoluciones
Descripción del conjunto de datos.
Tipo de valor devuelto
id
Devuelve el identificador del conjunto de datos.
Devoluciones
Id. de conjunto de datos. Si el conjunto de datos no se guarda en ninguna área de trabajo, el id. será None.
Tipo de valor devuelto
name
Devuelve el nombre del registro.
Devoluciones
Nombre del conjunto de datos.
Tipo de valor devuelto
partition_keys
Devuelve las claves de partición.
Devoluciones
Las claves de partición.
Tipo de valor devuelto
tags
Devuelve las etiquetas de registro.
Devoluciones
Etiquetas del conjunto de datos.
Tipo de valor devuelto
version
Devuelve la versión de registro.
Devoluciones
Versión del conjunto de datos.
Tipo de valor devuelto
Comentarios
https://aka.ms/ContentUserFeedback.
Próximamente: A lo largo de 2024 iremos eliminando gradualmente GitHub Issues como mecanismo de comentarios sobre el contenido y lo sustituiremos por un nuevo sistema de comentarios. Para más información, vea:Enviar y ver comentarios de