DatasetSnapshot Classe

Gere instantâneos de Conjuntos de dados com operações para obter um snapsot, devolver o respetivo estado e convertê-lo num dataframe.

Nota

Esta classe foi preterida. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

É devolvido um objeto DataSnapshot a create_snapshot partir do método da Dataset classe .

O instantâneo do conjunto de dados é uma combinação de Perfil e uma cópia materializada opcional dos dados.

Para saber mais sobre os Instantâneos de Conjuntos de Dados, aceda a https://aka.ms/azureml/howto/createsnapshots

Herança
builtins.object
DatasetSnapshot

Construtor

DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)

Parâmetros

workspace
<xref:azureml.core.Workspace.>
Necessário

A área de trabalho na qual o Conjunto de Dados está registado.

snapshot_name
str
Necessário

O nome do instantâneo do Conjunto de Dados.

dataset_id
str
Necessário

O identificador do Conjunto de Dados.

definition_version
str
Necessário

A versão de definição do Conjunto de Dados.

time_stamp
datetime
Necessário

A hora de criação do instantâneo.

profile_action_id
str
Necessário

O ID da ação do perfil de instantâneo.

datastore_name
str
Necessário

O nome do arquivo de dados de instantâneos.

relative_path
str
Necessário

O caminho relativo para os dados do instantâneo.

dataset_name
str
Necessário

O nome do Conjunto de Dados.

Métodos

compare_profiles

Compare o perfil do conjunto de dados atual com rhs_dataset perfil.

Se os perfis não existirem, este método gerará uma exceção.

get

Obtenha o instantâneo do Conjunto de Dados por nome de instantâneo.

get_all

Obtenha todos os instantâneos do Conjunto de Dados especificado.

get_profile

Obtenha o perfil do instantâneo conjunto de dados.

get_status

Obtenha o estado de criação de instantâneos do Conjunto de dados.

is_data_snapshot_available

Verifique se a cópia materializada do instantâneo está disponível.

to_pandas_dataframe

Crie um DataFrame do Pandas ao carregar os dados guardados com o instantâneo.

to_spark_dataframe

Crie um DataFrame do Spark ao carregar os dados guardados com o instantâneo.

wait_for_completion

Aguarde pela conclusão do datasetSnapshot generaton.

compare_profiles

Compare o perfil do conjunto de dados atual com rhs_dataset perfil.

Se os perfis não existirem, este método gerará uma exceção.

compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

Parâmetros

rhs_dataset_snapshot
DatasetSnapshot
Necessário

O instantâneo do Conjunto de dados com o que comparar.

include_columns
list[str]
valor predefinido: None

Uma lista de nomes de coluna a incluir na comparação.

exclude_columns
list[str]
valor predefinido: None

Uma lista de nomes de coluna a serem excluídos na comparação.

histogram_compare_method
HistogramCompareMethod
valor predefinido: HistogramCompareMethod.WASSERSTEIN

Uma enumeração que descreve o método de comparação, por exemplo: WASSERSTEIN ou ENERGY.

Devoluções

A diferença entre os perfis.

Tipo de retorno

<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

get

Obtenha o instantâneo do Conjunto de Dados por nome de instantâneo.

static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)

Parâmetros

workspace
Workspace
Necessário

A área de trabalho na qual o Conjunto de Dados está registado.

snapshot_name
str
Necessário

O nome do instantâneo do Conjunto de Dados.

dataset_name
Necessário

O nome do Conjunto de Dados.

dataset_id
uuid
Necessário

O identificador do Conjunto de Dados.

Devoluções

Um objeto DatasetSnapshot.

Tipo de retorno

get_all

Obtenha todos os instantâneos do Conjunto de Dados especificado.

static get_all(workspace, dataset_name)

Parâmetros

workspace
Workspace
Necessário

A área de trabalho na qual o Conjunto de Dados está registado.

dataset_name
Necessário

O nome do Conjunto de Dados.

Devoluções

Uma lista de instantâneos do Conjunto de Dados

Tipo de retorno

get_profile

Obtenha o perfil do instantâneo conjunto de dados.

get_profile()

Devoluções

O DataProfile do instantâneo do Conjunto de Dados

Tipo de retorno

<xref:azureml.dataprep.DataProfile>

get_status

Obtenha o estado de criação de instantâneos do Conjunto de dados.

get_status()

Devoluções

O estado do instantâneo do Conjunto de Dados.

Tipo de retorno

str

is_data_snapshot_available

Verifique se a cópia materializada do instantâneo está disponível.

is_data_snapshot_available()

Devoluções

Verdadeiro se o instantâneo de dados estiver disponível.

Tipo de retorno

to_pandas_dataframe

Crie um DataFrame do Pandas ao carregar os dados guardados com o instantâneo.

to_pandas_dataframe()

Devoluções

Um DataFrame do Pandas.

Tipo de retorno

Observações

O DataFrame do Pandas é totalmente materializado na memória. Se o instantâneo tiver sido criado com create_data_snapshot=False, é emitida uma exceção. Para verificar se o instantâneo contém dados, utilize a função is_data_snapshot_available.

to_spark_dataframe

Crie um DataFrame do Spark ao carregar os dados guardados com o instantâneo.

to_spark_dataframe()

Devoluções

Um DataFrame do Spark.

Tipo de retorno

Observações

O Dataframe do Spark devolvido é apenas um plano de execução e não contém quaisquer dados, uma vez que os Dataframes do Spark são avaliados de forma preguiçosa. Se o instantâneo tiver sido criado com create_data_snapshot=False, é emitida uma exceção quando tenta aceder aos dados. Para verificar se o instantâneo contém dados, utilize is_data_snapshot_available.

wait_for_completion

Aguarde pela conclusão do datasetSnapshot generaton.

wait_for_completion(show_output=True, status_update_frequency=10)

Parâmetros

show_output
bool
valor predefinido: True

Indica se o método irá imprimir a saída.

status_update_frequency
int
valor predefinido: 10

A frequência de atualização do estado da execução da ação em segundos.

Atributos

dataset_id

Obtenha o identificador do Conjunto de Dados.

Devoluções

O ID do Conjunto de Dados.

Tipo de retorno

str

name

Obtenha o nome do instantâneo do Conjunto de dados.

Devoluções

O nome do instantâneo do Conjunto de dados.

Tipo de retorno

str

workspace

Obtenha a área de trabalho do Azure Machine Learning onde o Conjunto de Dados está registado.

Devoluções

A área de trabalho onde o Conjunto de Dados está registado.

Tipo de retorno