DatasetSnapshot Clase
Administra las instantáneas del conjunto de datos con operaciones para obtener una instantánea, devolver su estado y convertirla en un dataframe.
Nota
Esta clase está en desuso. Para obtener más información, vea https://aka.ms/dataset-deprecation.
Devuelve un objeto DataSnapshot desde el método create_snapshot de la clase Dataset.
La instantánea del conjunto de datos es una combinación de Profile y una copia materializada opcional de los datos.
Para más información sobre las instantáneas del conjunto de datos, vaya a https://aka.ms/azureml/howto/createsnapshots
- Herencia
-
builtins.objectDatasetSnapshot
Constructor
DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)
Parámetros
- workspace
- <xref:azureml.core.Workspace.>
Área de trabajo en la que está registrado el conjunto de datos.
Métodos
compare_profiles |
Compara el perfil del conjunto de datos actual con el perfil rhs_dataset. Si los perfiles no existen, este método producirá una excepción. |
get |
Obtiene la instantánea del conjunto de datos por nombre de instantánea. |
get_all |
Obtiene todas las instantáneas del conjunto de datos especificado. |
get_profile |
Obtiene el perfil de la instantánea del conjunto de datos. |
get_status |
Obtiene el estado de creación de la instantánea del conjunto de datos. |
is_data_snapshot_available |
Comprueba si la copia materializada de la instantánea está disponible. |
to_pandas_dataframe |
Crea un objeto DataFrame de Pandas cargando los datos guardados con la instantánea. |
to_spark_dataframe |
Crea un objeto DataFrame de Spark cargando los datos guardados con la instantánea. |
wait_for_completion |
Espera a que se complete la generación de DatasetSnapshot. |
compare_profiles
Compara el perfil del conjunto de datos actual con el perfil rhs_dataset.
Si los perfiles no existen, este método producirá una excepción.
compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)
Parámetros
- rhs_dataset_snapshot
- DatasetSnapshot
Instantánea del conjunto de datos con la que se comparará.
Lista de nombres de columnas que se incluirán en la comparación.
Lista de nombres de columnas que se excluirán en la comparación.
- histogram_compare_method
- HistogramCompareMethod
Enumeración que describe el método de comparación, por ejemplo:WASSERSTEIN o ENERGY.
Devoluciones
Diferencia entre los perfiles.
Tipo de valor devuelto
get
Obtiene la instantánea del conjunto de datos por nombre de instantánea.
static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)
Parámetros
- dataset_name
Nombre del conjunto de datos.
Devoluciones
Objeto DatasetSnapshot.
Tipo de valor devuelto
get_all
Obtiene todas las instantáneas del conjunto de datos especificado.
static get_all(workspace, dataset_name)
Parámetros
- dataset_name
Nombre del conjunto de datos.
Devoluciones
Lista de instantáneas del conjuntos de datos.
Tipo de valor devuelto
get_profile
Obtiene el perfil de la instantánea del conjunto de datos.
get_profile()
Devoluciones
DataProfile de la instantánea del conjunto de datos
Tipo de valor devuelto
get_status
Obtiene el estado de creación de la instantánea del conjunto de datos.
get_status()
Devoluciones
Estado de la instantánea del conjunto de datos.
Tipo de valor devuelto
is_data_snapshot_available
Comprueba si la copia materializada de la instantánea está disponible.
is_data_snapshot_available()
Devoluciones
True si la instantánea de datos está disponible.
Tipo de valor devuelto
to_pandas_dataframe
Crea un objeto DataFrame de Pandas cargando los datos guardados con la instantánea.
to_pandas_dataframe()
Devoluciones
Objeto DataFrame de Pandas.
Tipo de valor devuelto
Comentarios
El objeto DataFrame de Pandas está totalmente materializado en memoria. Si la instantánea se creó con create_data_snapshot=False
, se produce una excepción. Para comprobar si la instantánea contiene datos, use la función is_data_snapshot_available.
to_spark_dataframe
Crea un objeto DataFrame de Spark cargando los datos guardados con la instantánea.
to_spark_dataframe()
Devoluciones
Objeto DataFrame de Spark.
Tipo de valor devuelto
Comentarios
La trama de datos de Spark devuelta es solo un plan de ejecución y no contiene realmente ningún dato, ya que las tramas de datos de Spark se evalúan de forma rápida. Si la instantánea se creó con create_data_snapshot=False
, se produce una excepción al intentar acceder a los datos. Para comprobar si la instantánea contiene datos, use is_data_snapshot_available.
wait_for_completion
Espera a que se complete la generación de DatasetSnapshot.
wait_for_completion(show_output=True, status_update_frequency=10)
Parámetros
- status_update_frequency
- int
Frecuencia de actualización del estado de ejecución de la acción en segundos.
Atributos
dataset_id
Obtiene el identificador del conjunto de datos.
Devoluciones
El identificador del conjunto de datos.
Tipo de valor devuelto
name
Obtiene el nombre de instantánea del conjunto de datos.
Devoluciones
Nombre de instantánea del conjunto de datos.
Tipo de valor devuelto
workspace
Obtiene el área de trabajo de Azure Machine Learning donde está registrado el conjunto de datos.
Devoluciones
Área de trabajo donde está registrado el conjunto de datos.
Tipo de valor devuelto
Comentarios
https://aka.ms/ContentUserFeedback.
Próximamente: A lo largo de 2024 iremos eliminando gradualmente GitHub Issues como mecanismo de comentarios sobre el contenido y lo sustituiremos por un nuevo sistema de comentarios. Para más información, vea:Enviar y ver comentarios de