DatasetSnapshot Clase

Administra las instantáneas del conjunto de datos con operaciones para obtener una instantánea, devolver su estado y convertirla en un dataframe.

Nota

Esta clase está en desuso. Para obtener más información, vea https://aka.ms/dataset-deprecation.

Devuelve un objeto DataSnapshot desde el método create_snapshot de la clase Dataset.

La instantánea del conjunto de datos es una combinación de Profile y una copia materializada opcional de los datos.

Para más información sobre las instantáneas del conjunto de datos, vaya a https://aka.ms/azureml/howto/createsnapshots

Herencia
builtins.object
DatasetSnapshot

Constructor

DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)

Parámetros

workspace
<xref:azureml.core.Workspace.>
Requerido

Área de trabajo en la que está registrado el conjunto de datos.

snapshot_name
str
Requerido

Nombre de la instantánea del conjunto de datos.

dataset_id
str
Requerido

Identificador del conjunto de datos.

definition_version
str
Requerido

Versión de definición del conjunto de datos.

time_stamp
datetime
Requerido

Hora de creación de la instantánea.

profile_action_id
str
Requerido

Identificador de acción del perfil de instantánea.

datastore_name
str
Requerido

Nombre del almacén de datos de instantáneas.

relative_path
str
Requerido

Ruta de acceso relativa a los datos de instantánea.

dataset_name
str
Requerido

Nombre del conjunto de datos.

Métodos

compare_profiles

Compara el perfil del conjunto de datos actual con el perfil rhs_dataset.

Si los perfiles no existen, este método producirá una excepción.

get

Obtiene la instantánea del conjunto de datos por nombre de instantánea.

get_all

Obtiene todas las instantáneas del conjunto de datos especificado.

get_profile

Obtiene el perfil de la instantánea del conjunto de datos.

get_status

Obtiene el estado de creación de la instantánea del conjunto de datos.

is_data_snapshot_available

Comprueba si la copia materializada de la instantánea está disponible.

to_pandas_dataframe

Crea un objeto DataFrame de Pandas cargando los datos guardados con la instantánea.

to_spark_dataframe

Crea un objeto DataFrame de Spark cargando los datos guardados con la instantánea.

wait_for_completion

Espera a que se complete la generación de DatasetSnapshot.

compare_profiles

Compara el perfil del conjunto de datos actual con el perfil rhs_dataset.

Si los perfiles no existen, este método producirá una excepción.

compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

Parámetros

rhs_dataset_snapshot
DatasetSnapshot
Requerido

Instantánea del conjunto de datos con la que se comparará.

include_columns
list[str]
valor predeterminado: None

Lista de nombres de columnas que se incluirán en la comparación.

exclude_columns
list[str]
valor predeterminado: None

Lista de nombres de columnas que se excluirán en la comparación.

histogram_compare_method
HistogramCompareMethod
valor predeterminado: HistogramCompareMethod.WASSERSTEIN

Enumeración que describe el método de comparación, por ejemplo:WASSERSTEIN o ENERGY.

Devoluciones

Diferencia entre los perfiles.

Tipo de valor devuelto

<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

get

Obtiene la instantánea del conjunto de datos por nombre de instantánea.

static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)

Parámetros

workspace
Workspace
Requerido

Área de trabajo en la que está registrado el conjunto de datos.

snapshot_name
str
Requerido

Nombre de la instantánea del conjunto de datos.

dataset_name
Requerido

Nombre del conjunto de datos.

dataset_id
uuid
Requerido

Identificador del conjunto de datos.

Devoluciones

Objeto DatasetSnapshot.

Tipo de valor devuelto

get_all

Obtiene todas las instantáneas del conjunto de datos especificado.

static get_all(workspace, dataset_name)

Parámetros

workspace
Workspace
Requerido

Área de trabajo en la que está registrado el conjunto de datos.

dataset_name
Requerido

Nombre del conjunto de datos.

Devoluciones

Lista de instantáneas del conjuntos de datos.

Tipo de valor devuelto

get_profile

Obtiene el perfil de la instantánea del conjunto de datos.

get_profile()

Devoluciones

DataProfile de la instantánea del conjunto de datos

Tipo de valor devuelto

<xref:azureml.dataprep.DataProfile>

get_status

Obtiene el estado de creación de la instantánea del conjunto de datos.

get_status()

Devoluciones

Estado de la instantánea del conjunto de datos.

Tipo de valor devuelto

str

is_data_snapshot_available

Comprueba si la copia materializada de la instantánea está disponible.

is_data_snapshot_available()

Devoluciones

True si la instantánea de datos está disponible.

Tipo de valor devuelto

to_pandas_dataframe

Crea un objeto DataFrame de Pandas cargando los datos guardados con la instantánea.

to_pandas_dataframe()

Devoluciones

Objeto DataFrame de Pandas.

Tipo de valor devuelto

Comentarios

El objeto DataFrame de Pandas está totalmente materializado en memoria. Si la instantánea se creó con create_data_snapshot=False, se produce una excepción. Para comprobar si la instantánea contiene datos, use la función is_data_snapshot_available.

to_spark_dataframe

Crea un objeto DataFrame de Spark cargando los datos guardados con la instantánea.

to_spark_dataframe()

Devoluciones

Objeto DataFrame de Spark.

Tipo de valor devuelto

Comentarios

La trama de datos de Spark devuelta es solo un plan de ejecución y no contiene realmente ningún dato, ya que las tramas de datos de Spark se evalúan de forma rápida. Si la instantánea se creó con create_data_snapshot=False, se produce una excepción al intentar acceder a los datos. Para comprobar si la instantánea contiene datos, use is_data_snapshot_available.

wait_for_completion

Espera a que se complete la generación de DatasetSnapshot.

wait_for_completion(show_output=True, status_update_frequency=10)

Parámetros

show_output
bool
valor predeterminado: True

Indica si el método imprimirá la salida.

status_update_frequency
int
valor predeterminado: 10

Frecuencia de actualización del estado de ejecución de la acción en segundos.

Atributos

dataset_id

Obtiene el identificador del conjunto de datos.

Devoluciones

El identificador del conjunto de datos.

Tipo de valor devuelto

str

name

Obtiene el nombre de instantánea del conjunto de datos.

Devoluciones

Nombre de instantánea del conjunto de datos.

Tipo de valor devuelto

str

workspace

Obtiene el área de trabajo de Azure Machine Learning donde está registrado el conjunto de datos.

Devoluciones

Área de trabajo donde está registrado el conjunto de datos.

Tipo de valor devuelto