DatasetSnapshot Classe
Gerencia instantâneos de conjuntos de dados com operações para obter um instantâneo, retornar seu status e convertê-lo em um dataframe.
Observação
Essa classe foi preterida. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
Um objeto DataSnapshot é retornado do método create_snapshot da classe Dataset.
O conjunto de dados instantâneo é uma combinação de Perfil e uma cópia materializada opcional dos dados.
Para saber mais sobre instantâneos de conjunto de dados, acesse https://aka.ms/azureml/howto/createsnapshots
- Herança
-
builtins.objectDatasetSnapshot
Construtor
DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)
Parâmetros
- workspace
- <xref:azureml.core.Workspace.>
O workspace em que o conjunto de dados está registrado.
Métodos
compare_profiles |
Comparar o perfil do conjunto de dados atual com outro perfil rhs_dataset. Se os perfis não existirem, esse método vai criar uma exceção. |
get |
Obter o instantâneo do conjunto de dados pelo nome do instantâneo. |
get_all |
Obter todos os instantâneos do conjunto de dados fornecido. |
get_profile |
Obter o perfil do instantâneo do conjuntos de dados. |
get_status |
Obter o status de criação de instantâneo de conjuntos de dados. |
is_data_snapshot_available |
Verifique se a cópia materializada do instantâneo está disponível. |
to_pandas_dataframe |
Criar um DataFrame do Pandas carregando os dados salvos com o instantâneo. |
to_spark_dataframe |
Crie um DataFrame do Spark carregando os dados salvos com o instantâneo. |
wait_for_completion |
Aguardar a conclusão da geração do DatasetSnapshot. |
compare_profiles
Comparar o perfil do conjunto de dados atual com outro perfil rhs_dataset.
Se os perfis não existirem, esse método vai criar uma exceção.
compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)
Parâmetros
- rhs_dataset_snapshot
- DatasetSnapshot
O instantâneo de conjuntos de dados com o qual comparar.
Uma lista de nomes de coluna a serem incluídos na comparação.
Uma lista de nomes de coluna a serem excluídos na comparação.
- histogram_compare_method
- HistogramCompareMethod
Enumeração que descreve o método de comparação, por exemplo: WASSERSTEIN ou ENERGY.
Retornos
A diferença entre os perfis.
Tipo de retorno
get
Obter o instantâneo do conjunto de dados pelo nome do instantâneo.
static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)
Parâmetros
- dataset_name
O nome do conjunto de dados.
Retornos
Um objeto DatasetSnapshot.
Tipo de retorno
get_all
Obter todos os instantâneos do conjunto de dados fornecido.
static get_all(workspace, dataset_name)
Parâmetros
- dataset_name
O nome do conjunto de dados.
Retornos
Uma lista de instantâneos de conjuntos de dados
Tipo de retorno
get_profile
Obter o perfil do instantâneo do conjuntos de dados.
get_profile()
Retornos
O DataProfile do instantâneo do conjuntos de dados
Tipo de retorno
get_status
Obter o status de criação de instantâneo de conjuntos de dados.
get_status()
Retornos
O status do instantâneo do conjuntos de dados.
Tipo de retorno
is_data_snapshot_available
Verifique se a cópia materializada do instantâneo está disponível.
is_data_snapshot_available()
Retornos
True se o instantâneo de dados estiver disponível.
Tipo de retorno
to_pandas_dataframe
Criar um DataFrame do Pandas carregando os dados salvos com o instantâneo.
to_pandas_dataframe()
Retornos
Um DataFrame do Pandas.
Tipo de retorno
Comentários
O DataFrame do Pandas é totalmente materializado na memória. Se o instantâneo tiver sido criado com create_data_snapshot=False
, uma exceção será lançada. Para verificar se o instantâneo contém dados, use a função is_data_snapshot_available.
to_spark_dataframe
Crie um DataFrame do Spark carregando os dados salvos com o instantâneo.
to_spark_dataframe()
Retornos
Um DataFrame do Spark.
Tipo de retorno
Comentários
O Dataframe do Spark retornado é apenas um plano de execução e não contém nenhum dado, já que os Dataframes do Spark são avaliados lentamente. Se o instantâneo tiver sido criado com create_data_snapshot=False
, uma exceção será lançada quando você tentar acessar os dados. Para verificar se o instantâneo contém dados, use a função is_data_snapshot_available.
wait_for_completion
Aguardar a conclusão da geração do DatasetSnapshot.
wait_for_completion(show_output=True, status_update_frequency=10)
Parâmetros
- status_update_frequency
- int
A frequência de atualização de status de execução da ação em segundos.
Atributos
dataset_id
Obter o identificador do conjuntos de dados.
Retornos
A ID do Conjunto de dados.
Tipo de retorno
name
Obter o nome do instantâneo do conjuntos de dados.
Retornos
O nome do instantâneo do conjuntos de dados.
Tipo de retorno
workspace
Obter o workspace do Azure Machine Learning em que o conjuntos de dados está registrado.
Retornos
O workspace em que o conjunto de dados está registrado.
Tipo de retorno
Comentários
https://aka.ms/ContentUserFeedback.
Em breve: Ao longo de 2024, eliminaremos os problemas do GitHub como o mecanismo de comentários para conteúdo e o substituiremos por um novo sistema de comentários. Para obter mais informações, consulteEnviar e exibir comentários de