TabularDataset Classe

Representa um conjunto de dados tabular para utilizar no Azure Machine Learning.

Um SeparadorDataset define uma série de operações preguiçosamente avaliadas e imutáveis para carregar dados da fonte de dados para representação tabular. Os dados não são carregados a partir da fonte até que o TabularDataset seja solicitado para entregar dados.

O TabularDataset é criado utilizando métodos como from_delimited_files a partir da TabularDatasetFactory classe.

Para obter mais informações, consulte o artigo Adicionar & conjuntos de dados do registo. Para começar a trabalhar com um conjunto de dados tabular, consulte https://aka.ms/tabulardataset-samplenotebook.

Herança
TabularDataset

Construtor

TabularDataset()

Observações

Um SeparadorData pode ser criado a partir de CSV, TSV, ficheiros Parquet ou SQL utilizando os from_* métodos da TabularDatasetFactory classe. Pode efetuar operações de subesc edição num Separador Desacção como divisão, salto e filtragem de registos. O resultado da subesc colocação é sempre um ou mais novos objetos TabularDataset.

Também pode converter um SeparadorDataset em outros formatos como um DataFrame de pandas. O carregamento real de dados ocorre quando o TabularDataset é solicitado a entregar os dados em outro mecanismo de armazenamento (por exemplo, um Dataframe Pandas ou um ficheiro CSV).

O SeparadorDataset pode ser utilizado como entrada de uma experiência executada. Também pode ser registado no espaço de trabalho com um nome especificado e ser recuperado por esse nome mais tarde.

Métodos

download

Nota

Este é um método experimental, e pode mudar a qualquer momento. Para obter mais informações, veja https://aka.ms/azuremlexperimental.

Descarregue os fluxos de ficheiros definidos pelo conjunto de dados para o caminho local.

drop_columns

Largue as colunas especificadas do conjunto de dados.

Se uma coluna de timeeries for largada, as capacidades correspondentes também serão largadas para o conjunto de dados devolvido.

filter

Nota

Este é um método experimental, e pode mudar a qualquer momento. Para obter mais informações, veja https://aka.ms/azuremlexperimental.

Filtrar os dados, deixando apenas os registos que correspondem à expressão especificada.

get_profile

Nota

Este é um método experimental, e pode mudar a qualquer momento. Para obter mais informações, veja https://aka.ms/azuremlexperimental.

Obtenha o perfil de dados a partir da última execução de perfil submetida para este ou o mesmo conjunto de dados no espaço de trabalho.

get_profile_runs

Nota

Este é um método experimental, e pode mudar a qualquer momento. Para obter mais informações, veja https://aka.ms/azuremlexperimental.

O perfil anterior de retorno é associado a este ou mesmo conjunto de dados no espaço de trabalho.

keep_columns

Mantenha as colunas especificadas e deixe cair todas as outras do conjunto de dados.

Se uma coluna de timeeries for largada, as capacidades correspondentes também serão largadas para o conjunto de dados devolvido.

mount

Nota

Este é um método experimental, e pode mudar a qualquer momento. Para obter mais informações, veja https://aka.ms/azuremlexperimental.

Crie um gestor de contexto para a montagem de fluxos de ficheiros definidos pelo conjunto de dados como ficheiros locais.

partition_by

Os dados divididos serão copiados e a saída para o destino especificado pelo alvo.

criar o conjunto de dados a partir da trajetória de dados outputted com formato de partição, registar conjunto de dados se o nome for fornecido, devolver o conjunto de dados para a nova trajetória de dados com divisórias


   ds = Dataset.get_by_name('test') # indexed by country, state, partition_date

   # #1: call partition_by locally
   new_ds = ds.partition_by(name="repartitioned_ds", partition_keys=['country'],
               target=DataPath(datastore, "repartition"))
   partition_keys = newds.partition_keys # ['country']

   # new_ds can be passed to PRS as input dataset
random_split

Divida os registos no conjunto de dados em duas partes aleatoriamente e aproximadamente pela percentagem especificada.

O primeiro conjunto de dados contém aproximadamente percentage dos registos totais e o segundo conjunto de dados os registos restantes.

skip

Salte os registos do topo do conjunto de dados pela contagem especificada.

submit_profile_run

Nota

Este é um método experimental, e pode mudar a qualquer momento. Para obter mais informações, veja https://aka.ms/azuremlexperimental.

Submeter uma corrida de experimentação para calcular o perfil de dados.

Um perfil de dados pode ser muito útil para entender os dados de entrada, identificar anomalias e valores em falta, fornecendo informações úteis sobre os dados como tipo de coluna, valores em falta, etc.

take

Recolher uma amostra de registos do topo do conjunto de dados pela contagem especificada.

take_sample

Recolher uma amostra aleatória de registos no conjunto de dados aproximadamente pela probabilidade especificada.

time_after

Filtrar o SeparadorDataset com colunas de carimbo de tempo após uma hora de início especificada.

time_before

Filtrar o SeparadorDataset com colunas de carimbo de tempo antes de um tempo de fim especificado.

time_between

Filtrar o SeparadorDataset entre um tempo de início e fim especificado.

time_recent

Filtrar o SeparadorDataset para conter apenas a duração (quantidade) especificada dos dados recentes.

to_csv_files

Converter o conjunto de dados atual num Dataset de ficheiros contendo ficheiros CSV.

O conjunto de dados resultante conterá um ou mais ficheiros CSV, cada um correspondente a uma partição de dados do conjunto de dados atual. Estes ficheiros não são materializados até serem descarregados ou lidos.

to_dask_dataframe

Nota

Este é um método experimental, e pode mudar a qualquer momento. Para obter mais informações, veja https://aka.ms/azuremlexperimental.

Retorna um DataFrame Dask que pode ler preguiçosamente os dados no conjunto de dados.

to_pandas_dataframe

Carregue todos os registos do conjunto de dados num DataFrame de pandas.

to_parquet_files

Converta o conjunto de dados atual num Dataset de ficheiros contendo ficheiros Parquet.

O conjunto de dados resultante conterá um ou mais ficheiros Parquet, cada um correspondente a uma divisão de dados do conjunto de dados atual. Estes ficheiros não são materializados até serem descarregados ou lidos.

to_spark_dataframe

Carregue todos os registos do conjunto de dados num DataFrame de Faísca.

with_timestamp_columns

Defina colunas de tempotamp para o conjunto de dados.

download

Nota

Este é um método experimental, e pode mudar a qualquer momento. Para obter mais informações, veja https://aka.ms/azuremlexperimental.

Descarregue os fluxos de ficheiros definidos pelo conjunto de dados para o caminho local.

download(stream_column, target_path=None, overwrite=False, ignore_not_found=True)

Parâmetros

stream_column
str
Necessário

A coluna de streaming para descarregar.

target_path
str
Necessário

O diretório local para descarregar os ficheiros para. Se nenhum, os dados serão transferidos para um diretório temporário.

overwrite
bool
Necessário

Indica se deve substituir os ficheiros existentes. O padrão é falso. Os ficheiros existentes serão substituídos se o overwrite for definido para True; caso contrário, uma exceção será levantada.

ignore_not_found
bool
Necessário

Indica se é possível descarregar se alguns ficheiros apontados por conjunto de dados não forem encontrados. O padrão é verdadeiro. O download falhará se algum download de ficheiro falhar por qualquer motivo se ignore_not_found estiver definido para Falso; caso contrário, uma guerra será registada por erros não encontrados e o dowload terá sucesso desde que não sejam encontrados outros tipos de erros.

Devoluções

Devolve uma série de caminhos de ficheiros para cada ficheiro descarregado.

Tipo de retorno

drop_columns

Largue as colunas especificadas do conjunto de dados.

Se uma coluna de timeeries for largada, as capacidades correspondentes também serão largadas para o conjunto de dados devolvido.

drop_columns(columns)

Parâmetros

columns
Union[str, list[str]]
Necessário

O nome ou uma lista de nomes para as colunas caírem.

Devoluções

Devolve um novo objeto TabularDataset com as colunas especificadas lançadas.

Tipo de retorno

filter

Nota

Este é um método experimental, e pode mudar a qualquer momento. Para obter mais informações, veja https://aka.ms/azuremlexperimental.

Filtrar os dados, deixando apenas os registos que correspondem à expressão especificada.

filter(expression)

Parâmetros

expression
any
Necessário

A expressão para avaliar.

Devoluções

O conjunto de dados modificado (não registado).

Tipo de retorno

Observações

As expressões são iniciadas indexando o Conjunto de Dados com o nome de uma coluna. Suportam uma variedade de funções e operadores e podem ser combinados usando operadores lógicos. A expressão resultante será avaliada preguiçosamente para cada registo quando ocorre uma recolha de dados e não onde é definida.


   dataset['myColumn'] > dataset['columnToCompareAgainst']
   dataset['myColumn'].starts_with('prefix')

get_profile

Nota

Este é um método experimental, e pode mudar a qualquer momento. Para obter mais informações, veja https://aka.ms/azuremlexperimental.

Obtenha o perfil de dados a partir da última execução de perfil submetida para este ou o mesmo conjunto de dados no espaço de trabalho.

get_profile(workspace=None)

Parâmetros

workspace
Workspace
Necessário

O espaço de trabalho onde o perfil foi submetido. Predefinição no espaço de trabalho deste conjunto de dados. Necessário se o conjunto de dados não estiver associado a um espaço de trabalho. Consulte https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace mais informações sobre espaços de trabalho.

Devoluções

Resultado do perfil da última execução de perfil do tipo DatasetProfile.

Tipo de retorno

get_profile_runs

Nota

Este é um método experimental, e pode mudar a qualquer momento. Para obter mais informações, veja https://aka.ms/azuremlexperimental.

O perfil anterior de retorno é associado a este ou mesmo conjunto de dados no espaço de trabalho.

get_profile_runs(workspace=None)

Parâmetros

workspace
Workspace
Necessário

O espaço de trabalho onde o perfil foi submetido. Predefinição no espaço de trabalho deste conjunto de dados. Necessário se o conjunto de dados não estiver associado a um espaço de trabalho. Consulte https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace mais informações sobre espaços de trabalho.

Devoluções

objeto iterator do tipo azureml.core.Run.

Tipo de retorno

keep_columns

Mantenha as colunas especificadas e deixe cair todas as outras do conjunto de dados.

Se uma coluna de timeeries for largada, as capacidades correspondentes também serão largadas para o conjunto de dados devolvido.

keep_columns(columns, validate=False)

Parâmetros

columns
Union[str, list[str]]
Necessário

O nome ou uma lista de nomes para as colunas a manter.

validate
bool
Necessário

Indica se valida se os dados podem ser carregados a partir do conjunto de dados devolvidos. O padrão é falso. A validação requer que a fonte de dados esteja acessível a partir do cálculo atual.

Devoluções

Devolve um novo objeto TabularDataset apenas com as colunas especificadas mantidas.

Tipo de retorno

mount

Nota

Este é um método experimental, e pode mudar a qualquer momento. Para obter mais informações, veja https://aka.ms/azuremlexperimental.

Crie um gestor de contexto para a montagem de fluxos de ficheiros definidos pelo conjunto de dados como ficheiros locais.

mount(stream_column, mount_point=None)

Parâmetros

stream_column
str
Necessário

A coluna de fluxo para montar.

mount_point
str
Necessário

O diretório local para montar os ficheiros para. Se Nenhum, os dados serão montados num diretório temporário, que pode encontrar chamando o método MountContext.mount_point instância.

Devoluções

Devolve um gestor de contexto para gerir o ciclo de vida do monte.

Tipo de retorno

<xref:azureml.dataprep.fuse.daemon.MountContext>

partition_by

Os dados divididos serão copiados e a saída para o destino especificado pelo alvo.

criar o conjunto de dados a partir da trajetória de dados outputted com formato de partição, registar conjunto de dados se o nome for fornecido, devolver o conjunto de dados para a nova trajetória de dados com divisórias


   ds = Dataset.get_by_name('test') # indexed by country, state, partition_date

   # #1: call partition_by locally
   new_ds = ds.partition_by(name="repartitioned_ds", partition_keys=['country'],
               target=DataPath(datastore, "repartition"))
   partition_keys = newds.partition_keys # ['country']

   # new_ds can be passed to PRS as input dataset
partition_by(partition_keys, target, name=None, show_progress=True, partition_as_file_dataset=False)

Parâmetros

partition_keys
list[str]
Necessário

Necessárias, chaves de partição

target
DataPath, Datastore ou tuple(Datastore, str)object
Necessário

Necessário, a trajetória da datastore para onde os dados do dataframe parquet serão carregados para. Uma pasta orientadora será gerada no caminho-alvo para evitar conflitos.

name
str
Necessário

Opcional, o nome de registo.

show_progress
bool
Necessário

Opcional, indica se deve mostrar o progresso do upload na consola. Os predefinidos são verdadeiros.

partition_as_file_dataset
Necessário

Opcional, indica se devolve ou não um conjunto de satset arquivado. Os predefinidos são falsos.

Devoluções

O conjunto de dados guardado ou registado.

Tipo de retorno

random_split

Divida os registos no conjunto de dados em duas partes aleatoriamente e aproximadamente pela percentagem especificada.

O primeiro conjunto de dados contém aproximadamente percentage dos registos totais e o segundo conjunto de dados os registos restantes.

random_split(percentage, seed=None)

Parâmetros

percentage
float
Necessário

A percentagem aproximada para dividir o conjunto de dados por. Este deve ser um número entre 0.0 e 1.0.

seed
int
Necessário

Sementes opcionais para usar para o gerador aleatório.

Devoluções

Devolve um tuple de novos objetos TabularDataset que representam os dois conjuntos de dados após a separação.

Tipo de retorno

skip

Salte os registos do topo do conjunto de dados pela contagem especificada.

skip(count)

Parâmetros

count
int
Necessário

O número de registos a saltar.

Devoluções

Devolve um novo objeto TabularDataset que representa um conjunto de dados com registos ignorados.

Tipo de retorno

submit_profile_run

Nota

Este é um método experimental, e pode mudar a qualquer momento. Para obter mais informações, veja https://aka.ms/azuremlexperimental.

Submeter uma corrida de experimentação para calcular o perfil de dados.

Um perfil de dados pode ser muito útil para entender os dados de entrada, identificar anomalias e valores em falta, fornecendo informações úteis sobre os dados como tipo de coluna, valores em falta, etc.

submit_profile_run(compute_target, experiment, cache_datastore_name=None)

Parâmetros

compute_target
Union[str, ComputeTarget]
Necessário

O alvo do cálculo para executar a experiência de cálculo do perfil. Especifique 'local' para usar o computação local. Consulte https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.computetarget mais informações sobre os alvos do cálculo.

experiment
Experiment
Necessário

O objeto da experiência. Consulte https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.experiment.experiment mais informações sobre as experiências.

cache_datastore_name
str
Necessário

o nome da loja de dados para armazenar a cache de perfil, se nenhuma, a datastore predefinido será usada

Devoluções

Um objeto da classe DatasetProfileRun.

Tipo de retorno

take

Recolher uma amostra de registos do topo do conjunto de dados pela contagem especificada.

take(count)

Parâmetros

count
int
Necessário

O número de registos a tirar.

Devoluções

Devolve um novo objeto TabularDataset que representa o conjunto de dados amostrado.

Tipo de retorno

take_sample

Recolher uma amostra aleatória de registos no conjunto de dados aproximadamente pela probabilidade especificada.

take_sample(probability, seed=None)

Parâmetros

probability
float
Necessário

A probabilidade de um registo ser incluído na amostra.

seed
int
Necessário

Sementes opcionais para usar para o gerador aleatório.

Devoluções

Devolve um novo objeto TabularDataset que representa o conjunto de dados amostrado.

Tipo de retorno

time_after

Filtrar o SeparadorDataset com colunas de carimbo de tempo após uma hora de início especificada.

time_after(start_time, include_boundary=True, validate=True)

Parâmetros

start_time
datetime
Necessário

O limite inferior para a filtragem de dados.

include_boundary
bool
Necessário

Indicar se a linha associada ao tempo de fronteira (start_time) deve ser incluída.

validate
bool
Necessário

Indica se valida se existem colunas especificadas no conjunto de dados. O padrão é verdadeiro. A validação requer que a fonte de dados esteja acessível a partir do cálculo atual.

Devoluções

Um Conjunto De Dados Tabular com o novo conjunto de dados filtrado.

Tipo de retorno

time_before

Filtrar o SeparadorDataset com colunas de carimbo de tempo antes de um tempo de fim especificado.

time_before(end_time, include_boundary=True, validate=True)

Parâmetros

end_time
datetime
Necessário

Limite superior para filtrar dados.

include_boundary
bool
Necessário

Indicar se a linha associada ao tempo de fronteira (end_time) deve ser incluída.

validate
bool
Necessário

Indica se valida se existem colunas especificadas no conjunto de dados. O padrão é verdadeiro. A validação requer que a fonte de dados esteja acessível a partir do cálculo atual.

Devoluções

Um Conjunto De Dados Tabular com o novo conjunto de dados filtrado.

Tipo de retorno

time_between

Filtrar o SeparadorDataset entre um tempo de início e fim especificado.

time_between(start_time, end_time, include_boundary=True, validate=True)

Parâmetros

start_time
datetime
Necessário

O limite inferior para a filtragem de dados.

end_time
datetime
Necessário

O limite superior para a filtragem de dados.

include_boundary
bool
Necessário

Indicar se a linha associada ao tempo de fronteira (start_end e end_time) deve ser incluída.

validate
bool
Necessário

Indica se valida se existem colunas especificadas no conjunto de dados. O padrão é verdadeiro. A validação requer que a fonte de dados esteja acessível a partir do cálculo atual.

Devoluções

Um Conjunto De Dados Tabular com o novo conjunto de dados filtrado.

Tipo de retorno

time_recent

Filtrar o SeparadorDataset para conter apenas a duração (quantidade) especificada dos dados recentes.

time_recent(time_delta, include_boundary=True, validate=True)

Parâmetros

time_delta
timedelta
Necessário

A duração (quantidade) dos dados recentes a recuperar.

include_boundary
bool
Necessário

Indicar se a linha associada ao tempo de fronteira (time_delta) deve ser incluída.

validate
bool
Necessário

Indica se valida se existem colunas especificadas no conjunto de dados. O padrão é verdadeiro. A validação requer que a fonte de dados esteja acessível a partir do cálculo atual.

Devoluções

Um Conjunto De Dados Tabular com o novo conjunto de dados filtrado.

Tipo de retorno

to_csv_files

Converter o conjunto de dados atual num Dataset de ficheiros contendo ficheiros CSV.

O conjunto de dados resultante conterá um ou mais ficheiros CSV, cada um correspondente a uma partição de dados do conjunto de dados atual. Estes ficheiros não são materializados até serem descarregados ou lidos.

to_csv_files(separator=',')

Parâmetros

separator
str
Necessário

O separador a utilizar para separar valores no ficheiro resultante.

Devoluções

Devolve um novo objeto FileDataset com um conjunto de ficheiros CSV que contêm os dados neste conjunto de dados.

Tipo de retorno

to_dask_dataframe

Nota

Este é um método experimental, e pode mudar a qualquer momento. Para obter mais informações, veja https://aka.ms/azuremlexperimental.

Retorna um DataFrame Dask que pode ler preguiçosamente os dados no conjunto de dados.

to_dask_dataframe(sample_size=10000, dtypes=None, on_error='null', out_of_range_datetime='null')

Parâmetros

sample_size
Necessário

O número de registos para ler para determinar esquemas e tipos.

dtypes
Necessário

Um dict opcional especificando as colunas esperadas e os seus dtypes. sample_size é ignorado se isso for fornecido.

on_error
Necessário

Como lidar com quaisquer valores de erro no conjunto de dados, tais como os produzidos por um erro enquanto analisa os valores. Os valores válidos são 'nulos' que os substitui por nulos; e "falhar" o que resultará numa exceção.

out_of_range_datetime
Necessário

Como lidar com valores de data-hora que estão fora do alcance suportado pelos Pandas. Os valores válidos são 'nulos' que os substitui por nulos; e "falhar" o que resultará numa exceção.

Devoluções

dask.dataframe.core.DataFrame

to_pandas_dataframe

Carregue todos os registos do conjunto de dados num DataFrame de pandas.

to_pandas_dataframe(on_error='null', out_of_range_datetime='null')

Parâmetros

on_error
Necessário

Como lidar com quaisquer valores de erro no conjunto de dados, tais como os produzidos por um erro enquanto analisa os valores. Os valores válidos são 'nulos' que os substitui por nulos; e "falhar" o que resultará numa exceção.

out_of_range_datetime
Necessário

Como lidar com valores de data-hora que estão fora do alcance suportado pelos Pandas. Os valores válidos são 'nulos' que os substitui por nulos; e "falhar" o que resultará numa exceção.

Devoluções

Devolve um DataFrame de pandas.

Tipo de retorno

to_parquet_files

Converta o conjunto de dados atual num Dataset de ficheiros contendo ficheiros Parquet.

O conjunto de dados resultante conterá um ou mais ficheiros Parquet, cada um correspondente a uma divisão de dados do conjunto de dados atual. Estes ficheiros não são materializados até serem descarregados ou lidos.

to_parquet_files()

Devoluções

Devolve um novo objeto FileDataset com um conjunto de ficheiros Parquet que contêm os dados neste conjunto de dados.

Tipo de retorno

to_spark_dataframe

Carregue todos os registos do conjunto de dados num DataFrame de Faísca.

to_spark_dataframe()

Devoluções

Devolve um DataFrame de Faísca.

Tipo de retorno

with_timestamp_columns

Defina colunas de tempotamp para o conjunto de dados.

with_timestamp_columns(timestamp=None, partition_timestamp=None, validate=False, **kwargs)

Parâmetros

timestamp
str
Necessário

O nome da coluna como timetamp (usado para ser referido como fine_grain_timestamp) (opcional). O padrão é Nenhum (claro).

partition_timestamp
str
Necessário

O nome da coluna partition_timestamp (usado para ser referido como semp de tempo de grão grosso) (opcional). O padrão é Nenhum (claro).

validate
bool
Necessário

Indica se valida se existem colunas especificadas no conjunto de dados. O padrão é falso. A validação requer que a fonte de dados esteja acessível a partir do cálculo atual.

Devoluções

Devolve um novo Separadorset com colunas de etiquetas de tempo definidas.

Tipo de retorno

Observações

O método define colunas para serem usadas como semps de tempo. As colunas de relógios num conjunto de dados permitem tratar os dados como dados da série de tempo e permitir capacidades adicionais. Quando um conjunto de dados tem ambos timestamp (used to be referred as fine_grain_timestamp) e partition_timestamp (used to be referred as coarse grain timestamp) especificado, as duas colunas devem representar a mesma linha temporal.

Atributos

timestamp_columns

Devolva as colunas de hora.

Devoluções

Os nomes das colunas para o tempotamp (usado para ser referido como fine_grain_timestamp) e partition_timestamp (usado para ser referido como semp de tempo de grão grosso) definidos para o conjunto de dados.

Tipo de retorno

(str, str)