DatasetSnapshot Classe

Referência

Gere instantâneos de Conjuntos de dados com operações para obter um snapsot, devolver o respetivo estado e convertê-lo num dataframe.

Nota

Esta classe foi preterida. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

É devolvido um objeto DataSnapshot a create_snapshot partir do método da Dataset classe .

O instantâneo do conjunto de dados é uma combinação de Perfil e uma cópia materializada opcional dos dados.

Para saber mais sobre os Instantâneos de Conjuntos de Dados, aceda a https://aka.ms/azureml/howto/createsnapshots

Herança: builtins.object

DatasetSnapshot

Construtor

DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)

Parâmetros

workspace: <xref:azureml.core.Workspace.>

Necessário

A área de trabalho na qual o Conjunto de Dados está registado.

snapshot_name: str

Necessário

O nome do instantâneo do Conjunto de Dados.

dataset_id: str

Necessário

O identificador do Conjunto de Dados.

definition_version: str

Necessário

A versão de definição do Conjunto de Dados.

time_stamp: datetime

Necessário

A hora de criação do instantâneo.

profile_action_id: str

Necessário

O ID da ação do perfil de instantâneo.

datastore_name: str

Necessário

O nome do arquivo de dados de instantâneos.

relative_path: str

Necessário

O caminho relativo para os dados do instantâneo.

dataset_name: str

Necessário

O nome do Conjunto de Dados.

Métodos

compare_profiles	Compare o perfil do conjunto de dados atual com rhs_dataset perfil. Se os perfis não existirem, este método gerará uma exceção.
get	Obtenha o instantâneo do Conjunto de Dados por nome de instantâneo.
get_all	Obtenha todos os instantâneos do Conjunto de Dados especificado.
get_profile	Obtenha o perfil do instantâneo conjunto de dados.
get_status	Obtenha o estado de criação de instantâneos do Conjunto de dados.
is_data_snapshot_available	Verifique se a cópia materializada do instantâneo está disponível.
to_pandas_dataframe	Crie um DataFrame do Pandas ao carregar os dados guardados com o instantâneo.
to_spark_dataframe	Crie um DataFrame do Spark ao carregar os dados guardados com o instantâneo.
wait_for_completion	Aguarde pela conclusão do datasetSnapshot generaton.

compare_profiles

Compare o perfil do conjunto de dados atual com rhs_dataset perfil.

Se os perfis não existirem, este método gerará uma exceção.

compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

Parâmetros

rhs_dataset_snapshot: DatasetSnapshot

Necessário

O instantâneo do Conjunto de dados com o que comparar.

include_columns: list[str]

valor predefinido: None

Uma lista de nomes de coluna a incluir na comparação.

exclude_columns: list[str]

valor predefinido: None

Uma lista de nomes de coluna a serem excluídos na comparação.

histogram_compare_method: HistogramCompareMethod

valor predefinido: HistogramCompareMethod.WASSERSTEIN

Uma enumeração que descreve o método de comparação, por exemplo: WASSERSTEIN ou ENERGY.

Devoluções

A diferença entre os perfis.

Tipo de retorno

<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

get

Obtenha o instantâneo do Conjunto de Dados por nome de instantâneo.

static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)

Parâmetros

workspace: Workspace

Necessário

A área de trabalho na qual o Conjunto de Dados está registado.

snapshot_name: str

Necessário

O nome do instantâneo do Conjunto de Dados.

dataset_name

Necessário

O nome do Conjunto de Dados.

dataset_id: uuid

Necessário

O identificador do Conjunto de Dados.

Devoluções

Um objeto DatasetSnapshot.

Tipo de retorno

DatasetSnapshot

get_all

Obtenha todos os instantâneos do Conjunto de Dados especificado.

static get_all(workspace, dataset_name)

Parâmetros

workspace: Workspace

Necessário

A área de trabalho na qual o Conjunto de Dados está registado.

dataset_name

O DataFrame do Pandas é totalmente materializado na memória. Se o instantâneo tiver sido criado com create_data_snapshot=False, é emitida uma exceção. Para verificar se o instantâneo contém dados, utilize a função is_data_snapshot_available.

to_spark_dataframe

Crie um DataFrame do Spark ao carregar os dados guardados com o instantâneo.

to_spark_dataframe()

Devoluções

Um DataFrame do Spark.

Tipo de retorno

DataFrame

Observações

O Dataframe do Spark devolvido é apenas um plano de execução e não contém quaisquer dados, uma vez que os Dataframes do Spark são avaliados de forma preguiçosa. Se o instantâneo tiver sido criado com create_data_snapshot=False, é emitida uma exceção quando tenta aceder aos dados. Para verificar se o instantâneo contém dados, utilize is_data_snapshot_available.

wait_for_completion

Aguarde pela conclusão do datasetSnapshot generaton.

wait_for_completion(show_output=True, status_update_frequency=10)

Parâmetros

show_output: bool

valor predefinido: True

Indica se o método irá imprimir a saída.

status_update_frequency: int

valor predefinido: 10

A frequência de atualização do estado da execução da ação em segundos.

Workspace

DatasetSnapshot Classe

Construtor

Parâmetros

Métodos

compare_profiles

Parâmetros

Devoluções

Tipo de retorno

get

Parâmetros

Devoluções

Tipo de retorno

get_all

Parâmetros

Devoluções

Tipo de retorno

get_profile

Devoluções

Tipo de retorno

get_status

Devoluções

Tipo de retorno

is_data_snapshot_available

Devoluções

Tipo de retorno

to_pandas_dataframe

Devoluções

Tipo de retorno

Observações

to_spark_dataframe

Devoluções

Tipo de retorno

Observações

wait_for_completion

Parâmetros

Atributos

dataset_id

Devoluções

Tipo de retorno

name

Devoluções

Tipo de retorno

workspace

Devoluções

Tipo de retorno

Comentários

Comentários

Recursos adicionais