DatasetSnapshot Clase

Referencia

Administra las instantáneas del conjunto de datos con operaciones para obtener una instantánea, devolver su estado y convertirla en un dataframe.

Nota

Esta clase está en desuso. Para obtener más información, vea https://aka.ms/dataset-deprecation.

Devuelve un objeto DataSnapshot desde el método create_snapshot de la clase Dataset.

La instantánea del conjunto de datos es una combinación de Profile y una copia materializada opcional de los datos.

Para más información sobre las instantáneas del conjunto de datos, vaya a https://aka.ms/azureml/howto/createsnapshots

Herencia: builtins.object

DatasetSnapshot

Constructor

DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)

Parámetros

workspace: <xref:azureml.core.Workspace.>

Requerido

Área de trabajo en la que está registrado el conjunto de datos.

snapshot_name: str

Requerido

Nombre de la instantánea del conjunto de datos.

dataset_id: str

Requerido

Identificador del conjunto de datos.

definition_version: str

Requerido

Versión de definición del conjunto de datos.

time_stamp: datetime

Requerido

Hora de creación de la instantánea.

profile_action_id: str

Requerido

Identificador de acción del perfil de instantánea.

datastore_name: str

Requerido

Nombre del almacén de datos de instantáneas.

relative_path: str

Requerido

Ruta de acceso relativa a los datos de instantánea.

dataset_name: str

Requerido

Nombre del conjunto de datos.

Métodos

compare_profiles	Compara el perfil del conjunto de datos actual con el perfil rhs_dataset. Si los perfiles no existen, este método producirá una excepción.
get	Obtiene la instantánea del conjunto de datos por nombre de instantánea.
get_all	Obtiene todas las instantáneas del conjunto de datos especificado.
get_profile	Obtiene el perfil de la instantánea del conjunto de datos.
get_status	Obtiene el estado de creación de la instantánea del conjunto de datos.
is_data_snapshot_available	Comprueba si la copia materializada de la instantánea está disponible.
to_pandas_dataframe	Crea un objeto DataFrame de Pandas cargando los datos guardados con la instantánea.
to_spark_dataframe	Crea un objeto DataFrame de Spark cargando los datos guardados con la instantánea.
wait_for_completion	Espera a que se complete la generación de DatasetSnapshot.

compare_profiles

Compara el perfil del conjunto de datos actual con el perfil rhs_dataset.

Si los perfiles no existen, este método producirá una excepción.

compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

Parámetros

rhs_dataset_snapshot: DatasetSnapshot

Requerido

Instantánea del conjunto de datos con la que se comparará.

include_columns: list[str]

valor predeterminado: None

Lista de nombres de columnas que se incluirán en la comparación.

exclude_columns: list[str]

valor predeterminado: None

Lista de nombres de columnas que se excluirán en la comparación.

histogram_compare_method: HistogramCompareMethod

valor predeterminado: HistogramCompareMethod.WASSERSTEIN

Enumeración que describe el método de comparación, por ejemplo:WASSERSTEIN o ENERGY.

Devoluciones

Diferencia entre los perfiles.

Tipo de valor devuelto

<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

get

Obtiene la instantánea del conjunto de datos por nombre de instantánea.

static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)

Parámetros

workspace: Workspace

Requerido

Área de trabajo en la que está registrado el conjunto de datos.

snapshot_name: str

Requerido

Nombre de la instantánea del conjunto de datos.

dataset_name

Requerido

Nombre del conjunto de datos.

dataset_id: uuid

Requerido

Identificador del conjunto de datos.

Devoluciones

Objeto DatasetSnapshot.

Tipo de valor devuelto

DatasetSnapshot

get_all

Obtiene todas las instantáneas del conjunto de datos especificado.

static get_all(workspace, dataset_name)

Parámetros

workspace: Workspace

Requerido

Área de trabajo en la que está registrado el conjunto de datos.

dataset_name

El objeto DataFrame de Pandas está totalmente materializado en memoria. Si la instantánea se creó con create_data_snapshot=False, se produce una excepción. Para comprobar si la instantánea contiene datos, use la función is_data_snapshot_available.

to_spark_dataframe

Crea un objeto DataFrame de Spark cargando los datos guardados con la instantánea.

to_spark_dataframe()

Devoluciones

Objeto DataFrame de Spark.

Tipo de valor devuelto

DataFrame

Comentarios

La trama de datos de Spark devuelta es solo un plan de ejecución y no contiene realmente ningún dato, ya que las tramas de datos de Spark se evalúan de forma rápida. Si la instantánea se creó con create_data_snapshot=False, se produce una excepción al intentar acceder a los datos. Para comprobar si la instantánea contiene datos, use is_data_snapshot_available.

wait_for_completion

Espera a que se complete la generación de DatasetSnapshot.

wait_for_completion(show_output=True, status_update_frequency=10)

Parámetros

show_output: bool

valor predeterminado: True

Indica si el método imprimirá la salida.

status_update_frequency: int

valor predeterminado: 10

Frecuencia de actualización del estado de ejecución de la acción en segundos.

Workspace

DatasetSnapshot Clase

Constructor

Parámetros

Métodos

compare_profiles

Parámetros

Devoluciones

Tipo de valor devuelto

get

Parámetros

Devoluciones

Tipo de valor devuelto

get_all

Parámetros

Devoluciones

Tipo de valor devuelto

get_profile

Devoluciones

Tipo de valor devuelto

get_status

Devoluciones

Tipo de valor devuelto

is_data_snapshot_available

Devoluciones

Tipo de valor devuelto

to_pandas_dataframe

Devoluciones

Tipo de valor devuelto

Comentarios

to_spark_dataframe

Devoluciones

Tipo de valor devuelto

Comentarios

wait_for_completion

Parámetros

Atributos

dataset_id

Devoluciones

Tipo de valor devuelto

name

Devoluciones

Tipo de valor devuelto

workspace

Devoluciones

Tipo de valor devuelto

Comentarios

Comentarios

Recursos adicionales