DatasetSnapshot Classe
Gere instantâneos de Conjuntos de dados com operações para obter um snapsot, devolver o respetivo estado e convertê-lo num dataframe.
Nota
Esta classe foi preterida. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
É devolvido um objeto DataSnapshot a create_snapshot partir do método da Dataset classe .
O instantâneo do conjunto de dados é uma combinação de Perfil e uma cópia materializada opcional dos dados.
Para saber mais sobre os Instantâneos de Conjuntos de Dados, aceda a https://aka.ms/azureml/howto/createsnapshots
- Herança
-
builtins.objectDatasetSnapshot
Construtor
DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)
Parâmetros
- workspace
- <xref:azureml.core.Workspace.>
A área de trabalho na qual o Conjunto de Dados está registado.
Métodos
compare_profiles |
Compare o perfil do conjunto de dados atual com rhs_dataset perfil. Se os perfis não existirem, este método gerará uma exceção. |
get |
Obtenha o instantâneo do Conjunto de Dados por nome de instantâneo. |
get_all |
Obtenha todos os instantâneos do Conjunto de Dados especificado. |
get_profile |
Obtenha o perfil do instantâneo conjunto de dados. |
get_status |
Obtenha o estado de criação de instantâneos do Conjunto de dados. |
is_data_snapshot_available |
Verifique se a cópia materializada do instantâneo está disponível. |
to_pandas_dataframe |
Crie um DataFrame do Pandas ao carregar os dados guardados com o instantâneo. |
to_spark_dataframe |
Crie um DataFrame do Spark ao carregar os dados guardados com o instantâneo. |
wait_for_completion |
Aguarde pela conclusão do datasetSnapshot generaton. |
compare_profiles
Compare o perfil do conjunto de dados atual com rhs_dataset perfil.
Se os perfis não existirem, este método gerará uma exceção.
compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)
Parâmetros
- rhs_dataset_snapshot
- DatasetSnapshot
O instantâneo do Conjunto de dados com o que comparar.
Uma lista de nomes de coluna a incluir na comparação.
Uma lista de nomes de coluna a serem excluídos na comparação.
- histogram_compare_method
- HistogramCompareMethod
Uma enumeração que descreve o método de comparação, por exemplo: WASSERSTEIN ou ENERGY.
Devoluções
A diferença entre os perfis.
Tipo de retorno
get
Obtenha o instantâneo do Conjunto de Dados por nome de instantâneo.
static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)
Parâmetros
- dataset_name
O nome do Conjunto de Dados.
Devoluções
Um objeto DatasetSnapshot.
Tipo de retorno
get_all
Obtenha todos os instantâneos do Conjunto de Dados especificado.
static get_all(workspace, dataset_name)
Parâmetros
- dataset_name
O nome do Conjunto de Dados.
Devoluções
Uma lista de instantâneos do Conjunto de Dados
Tipo de retorno
get_profile
Obtenha o perfil do instantâneo conjunto de dados.
get_profile()
Devoluções
O DataProfile do instantâneo do Conjunto de Dados
Tipo de retorno
get_status
Obtenha o estado de criação de instantâneos do Conjunto de dados.
get_status()
Devoluções
O estado do instantâneo do Conjunto de Dados.
Tipo de retorno
is_data_snapshot_available
Verifique se a cópia materializada do instantâneo está disponível.
is_data_snapshot_available()
Devoluções
Verdadeiro se o instantâneo de dados estiver disponível.
Tipo de retorno
to_pandas_dataframe
Crie um DataFrame do Pandas ao carregar os dados guardados com o instantâneo.
to_pandas_dataframe()
Devoluções
Um DataFrame do Pandas.
Tipo de retorno
Observações
O DataFrame do Pandas é totalmente materializado na memória. Se o instantâneo tiver sido criado com create_data_snapshot=False
, é emitida uma exceção. Para verificar se o instantâneo contém dados, utilize a função is_data_snapshot_available.
to_spark_dataframe
Crie um DataFrame do Spark ao carregar os dados guardados com o instantâneo.
to_spark_dataframe()
Devoluções
Um DataFrame do Spark.
Tipo de retorno
Observações
O Dataframe do Spark devolvido é apenas um plano de execução e não contém quaisquer dados, uma vez que os Dataframes do Spark são avaliados de forma preguiçosa. Se o instantâneo tiver sido criado com create_data_snapshot=False
, é emitida uma exceção quando tenta aceder aos dados. Para verificar se o instantâneo contém dados, utilize is_data_snapshot_available.
wait_for_completion
Aguarde pela conclusão do datasetSnapshot generaton.
wait_for_completion(show_output=True, status_update_frequency=10)
Parâmetros
- status_update_frequency
- int
A frequência de atualização do estado da execução da ação em segundos.
Atributos
dataset_id
Obtenha o identificador do Conjunto de Dados.
Devoluções
O ID do Conjunto de Dados.
Tipo de retorno
name
Obtenha o nome do instantâneo do Conjunto de dados.
Devoluções
O nome do instantâneo do Conjunto de dados.
Tipo de retorno
workspace
Obtenha a área de trabalho do Azure Machine Learning onde o Conjunto de Dados está registado.
Devoluções
A área de trabalho onde o Conjunto de Dados está registado.
Tipo de retorno
Comentários
https://aka.ms/ContentUserFeedback.
Brevemente: Ao longo de 2024, vamos descontinuar progressivamente o GitHub Issues como mecanismo de feedback para conteúdos e substituí-lo por um novo sistema de feedback. Para obter mais informações, veja:Submeter e ver comentários