Dataset Classe

Representa um recurso para explorar, transformar e gerenciar dados no Azure Machine Learning.

Um conjunto de dados é uma referência a dados em uma Datastore ou atrás de urls da Web públicas.

Para métodos preteridos nesta classe, verifique AbstractDataset a classe para as APIs aprimoradas.

Os seguintes tipos de conjuntos de dados são suportados:

TabularDataset Representa dados em um formato tabular criado analisando o arquivo fornecido ou a lista de arquivos.
FileDataset faz referência a um ou vários arquivos em armazenamentos de dados ou de URLs públicas.

Para começar a usar conjuntos de dados, consulte o artigo Adicionar & registrar conjuntos de dados ou consulte os blocos de https://aka.ms/tabulardataset-samplenotebook anotações e https://aka.ms/filedataset-samplenotebook.

Inicialize o objeto Dataset.

Para obter um Dataset que já tenha sido registrado no espaço de trabalho, use o método get.

Construtor

Dataset(definition, workspace=None, name=None, id=None)

Parâmetros

Name	Description
definition Necessário	<xref:azureml.data.DatasetDefinition> A definição de conjunto de dados.
workspace Necessário	Workspace O espaço de trabalho no qual o Conjunto de Dados existe.
name Necessário	str O nome do conjunto de dados.
id Necessário	str O identificador exclusivo do conjunto de dados.

Observações

A classe Dataset expõe dois atributos de classe de conveniência (File e Tabular) que você pode usar para criar um Dataset sem trabalhar com os métodos de fábrica correspondentes. Por exemplo, para criar um conjunto de dados usando estes atributos:

Dataset.Tabular.from_delimited_files()
Dataset.File.from_files()

Você também pode criar um novo TabularDataset ou FileDataset chamando diretamente os métodos de fábrica correspondentes da classe definida em TabularDatasetFactory e FileDatasetFactory.

O exemplo a seguir mostra como criar um TabularDataset apontando para um único caminho em um armazenamento de dados.


   from azureml.core import Dataset
   dataset = Dataset.Tabular.from_delimited_files(path = [(datastore, 'train-dataset/tabular/iris.csv')])

   # preview the first 3 rows of the dataset
   dataset.take(3).to_pandas_dataframe()

A amostra completa está disponível em https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/work-with-data/datasets-tutorial/train-with-datasets/train-with-datasets.ipynb

Variáveis

Name	Description
azureml.core.Dataset.File	Um atributo de classe que fornece acesso aos métodos FileDatasetFactory para criar novos objetos FileDataset. Uso: Dataset.File.from_files().
azureml.core.Dataset.Tabular	Um atributo de classe que fornece acesso aos métodos TabularDatasetFactory para criar novos objetos TabularDataset. Uso: Dataset.Tabular.from_delimited_files().

Métodos

archive	Arquivar um conjunto de dados ativo ou preterido. Observação Este método foi preterido e não será mais suportado. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
auto_read_files	Analisa o(s) arquivo(s) no caminho especificado e retorna um novo Dataset. Observação Este método foi preterido e não será mais suportado. Recomende usar os métodos Dataset.Tabular.from_* para ler arquivos. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
compare_profiles	Compare o perfil do conjunto de dados atual com outro perfil de conjunto de dados. Isto mostra as diferenças nas estatísticas resumidas entre dois conjuntos de dados. O parâmetro «rhs_dataset» significa «lado direito» e é simplesmente o segundo conjunto de dados. O primeiro conjunto de dados (o objeto de conjunto de dados atual) é considerado o "lado esquerdo". Observação Este método foi preterido e não será mais suportado. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
create_snapshot	Crie um instantâneo do conjunto de dados registrado. Observação Este método foi preterido e não será mais suportado. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
delete_snapshot	Exclua o instantâneo do conjunto de dados pelo nome. Observação Este método foi preterido e não será mais suportado. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
deprecate	Substituir um conjunto de dados ativo em um espaço de trabalho por outro conjunto de dados. Observação Este método foi preterido e não será mais suportado. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
diff	Diferencie o conjunto de dados atual com rhs_dataset. Observação Este método foi preterido e não será mais suportado. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
from_binary_files	Crie um conjunto de dados na memória não registrado a partir de arquivos binários. Observação Este método foi preterido e não será mais suportado. Recomendo usá Dataset.File.from_files em vez disso. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
from_delimited_files	Crie um conjunto de dados na memória não registrado a partir de arquivos delimitados. Observação Este método foi preterido e não será mais suportado. Recomendo usá Dataset.Tabular.from_delimited_files em vez disso. Para obter mais informações, consulte https://aka.ms/dataset-deprecation. `# Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'), header='ALL_FILES_HAVE_SAME_HEADERS') df = dataset.to_pandas_dataframe()`
from_excel_files	Crie um conjunto de dados na memória não registrado a partir de arquivos do Excel. Observação Este método foi preterido e não será mais suportado. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
from_json_files	Crie um conjunto de dados na memória não registrado a partir de arquivos JSON. Observação Este método foi preterido e não será mais suportado. Recomendo usar Dataset.Tabular.from_json_lines_files em vez de ler a partir do arquivo de linhas JSON. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
from_pandas_dataframe	Crie um conjunto de dados na memória não registrado a partir de um dataframe pandas. Observação Este método foi preterido e não será mais suportado. Recomende usá Dataset.Tabular.register_pandas_dataframe em vez disso. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
from_parquet_files	Crie um conjunto de dados na memória não registrado a partir de arquivos parquet. Observação Este método foi preterido e não será mais suportado. Recomendo usar Dataset.Tabular.from_parquet_files em vez disso. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
from_sql_query	Crie um Dataset na memória não registrado a partir de uma consulta SQL. Observação Este método foi preterido e não será mais suportado. Recomendo usar Dataset.Tabular.from_sql_query em vez disso. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
generate_profile	Gere um novo perfil para o conjunto de dados. Observação Este método foi preterido e não será mais suportado. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
get	Obtenha um Dataset que já existe no espaço de trabalho especificando seu nome ou ID. Observação Este método foi preterido e não será mais suportado. Recomendo usar get_by_name e get_by_id em vez disso. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
get_all	Obtenha todos os conjuntos de dados registrados no espaço de trabalho.
get_all_snapshots	Obtenha todos os instantâneos do conjunto de dados. Observação Este método foi preterido e não será mais suportado. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
get_by_id	Obtenha um conjunto de dados que é salvo no espaço de trabalho.
get_by_name	Obtenha um Dataset registrado do espaço de trabalho pelo seu nome de registro.
get_definition	Obtenha uma definição específica do conjunto de dados. Observação Este método foi preterido e não será mais suportado. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
get_definitions	Obtenha todas as definições do Dataset. Observação Este método foi preterido e não será mais suportado. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
get_profile	Obtenha estatísticas resumidas sobre o conjunto de dados calculado anteriormente. Observação Este método foi preterido e não será mais suportado. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
get_snapshot	Obtenha um instantâneo do conjunto de dados por nome. Observação Este método foi preterido e não será mais suportado. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
head	Extraia o número especificado de registros especificados deste Dataset e os retorna como um DataFrame. Observação Este método foi preterido e não será mais suportado. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
list	Liste todos os conjuntos de dados no espaço de trabalho, incluindo aqueles com `is_visible` propriedade igual a False. Observação Este método foi preterido e não será mais suportado. Recomendo usar get_all em vez disso. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
reactivate	Reative um conjunto de dados arquivado ou preterido. Observação Este método foi preterido e não será mais suportado. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
register	Registre o Conjunto de Dados no espaço de trabalho, disponibilizando-o para outros usuários do espaço de trabalho. Observação Este método foi preterido e não será mais suportado. Recomendo usar register em vez disso. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
sample	Gere uma nova amostra a partir do conjunto de dados de origem, usando a estratégia de amostragem e os parâmetros fornecidos. Observação Este método foi preterido e não será mais suportado. Crie um TabularDataset chamando os métodos estáticos em Dataset.Tabular e use o take_sample método lá. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
to_pandas_dataframe	Crie um dataframe Pandas executando o pipeline de transformação definido por esta definição de conjunto de dados. Observação Este método foi preterido e não será mais suportado. Crie um TabularDataset chamando os métodos estáticos em Dataset.Tabular e use o to_pandas_dataframe método lá. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
to_spark_dataframe	Crie um Spark DataFrame que possa executar o pipeline de transformação definido por essa definição de conjunto de dados. Observação Este método foi preterido e não será mais suportado. Crie um TabularDataset chamando os métodos estáticos em Dataset.Tabular e use o to_spark_dataframe método lá. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
update	Atualize os atributos mutáveis do Conjunto de Dados no espaço de trabalho e retorne o Conjunto de Dados atualizado do espaço de trabalho. Observação Este método foi preterido e não será mais suportado. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
update_definition	Atualize a definição do conjunto de dados. Observação Este método foi preterido e não será mais suportado. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

auto_read_files

Analisa o(s) arquivo(s) no caminho especificado e retorna um novo Dataset.

Observação

Este método foi preterido e não será mais suportado.

Recomende usar os métodos Dataset.Tabular.from_* para ler arquivos. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

static auto_read_files(path, include_path=False, partition_format=None)

Parâmetros

Name	Description
path Necessário	DataReference ou str Um caminho de dados em um armazenamento de dados registrado, um caminho local ou uma URL HTTP (CSV/TSV).
include_path Necessário	bool Se deve ou não incluir uma coluna contendo o caminho do arquivo a partir do qual os dados foram lidos. Útil ao ler vários arquivos e deseja saber de qual arquivo um determinado registro se originou. Também útil se houver informações no caminho do arquivo ou nome que você deseja em uma coluna.
partition_format Necessário	str Especifique o formato de partição no caminho e crie colunas de cadeia de caracteres a partir do formato '{x}' e da coluna datetime a partir do formato '{x:aaaa/MM/dd/HH/mm/ss}', onde 'aaaa', 'MM', 'dd', 'HH', 'mm' e 'ss' são usados para extratar ano, mês, dia, hora, minuto e segundo para o tipo datetime. O formato deve começar a partir da posição da primeira chave de partição até o final do caminho do arquivo. Por exemplo, dado um caminho de arquivo '.. /Accounts/2019/01/01/data.csv' onde os dados são particionados por nome e hora do departamento, podemos definir '/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' para criar colunas 'Department' do tipo string e 'PartitionDate' do tipo datetime.

Devoluções

Tipo	Description
Dataset	Objeto Dataset.

Observações

Use esse método quando tiver formatos de arquivo e delimitadores detetados automaticamente.

Depois de criar um Dataset, você deve usar get_profile para listar os tipos de coluna detetados e estatísticas de resumo para cada coluna.

O Dataset retornado não está registrado no espaço de trabalho.

compare_profiles

Compare o perfil do conjunto de dados atual com outro perfil de conjunto de dados.

Isto mostra as diferenças nas estatísticas resumidas entre dois conjuntos de dados. O parâmetro «rhs_dataset» significa «lado direito» e é simplesmente o segundo conjunto de dados. O primeiro conjunto de dados (o objeto de conjunto de dados atual) é considerado o "lado esquerdo".

Observação

Este método foi preterido e não será mais suportado.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

compare_profiles(rhs_dataset, profile_arguments={}, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

Parâmetros

Name	Description
rhs_dataset Necessário	Dataset Um segundo conjunto de dados, também chamado de conjunto de dados do "lado direito" para comparação.
profile_arguments Necessário	dict Argumentos para recuperar perfil específico.
include_columns Necessário	list[str] Lista de nomes de colunas a incluir na comparação.
exclude_columns Necessário	list[str] Lista de nomes de colunas a excluir em comparação.
histogram_compare_method Necessário	HistogramCompareMethod Enum descrevendo o método de comparação, ex: Wasserstein ou Energia

Devoluções

Tipo	Description
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>	Diferença entre os dois perfis de conjunto de dados.

Observações

Isto aplica-se apenas a conjuntos de dados registados. Gera uma exceção se o perfil do conjunto de dados atual não existir. Para conjuntos de dados não registrados, use o método profile.compar.

create_snapshot

Crie um instantâneo do conjunto de dados registrado.

Observação

Este método foi preterido e não será mais suportado.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Parâmetros

Name	Description
snapshot_name Necessário	str O nome do instantâneo. Os nomes de instantâneo devem ser exclusivos dentro de um Dataset.
compute_target Necessário	Union[ComputeTarget, str] Destino de computação opcional para executar a criação do perfil de instantâneo. Se omitido, o cálculo local é usado.
create_data_snapshot Necessário	bool Se True, uma cópia materializada dos dados será criada.
target_datastore Necessário	Union[AbstractAzureStorageDatastore, str] Armazenamento de dados de destino para salvar instantâneo. Se omitido, o instantâneo será criado no armazenamento padrão do espaço de trabalho.

Devoluções

Tipo	Description
DatasetSnapshot	Objeto de instantâneo do conjunto de dados.

Observações

Os instantâneos capturam estatísticas de resumo point-in-time dos dados subjacentes e uma cópia opcional dos próprios dados. Para saber mais sobre como criar instantâneos, vá para https://aka.ms/azureml/howto/createsnapshots.

delete_snapshot

Exclua o instantâneo do conjunto de dados pelo nome.

Observação

Este método foi preterido e não será mais suportado.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

delete_snapshot(snapshot_name)

Parâmetros

Name	Description
snapshot_name Necessário	str O nome do instantâneo.

Devoluções

Tipo	Description
None	Nenhum.

Observações

Use isso para liberar o armazenamento consumido por dados salvos em instantâneos que você não precisa mais.

deprecate

Substituir um conjunto de dados ativo em um espaço de trabalho por outro conjunto de dados.

Observação

Este método foi preterido e não será mais suportado.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

deprecate(deprecate_by_dataset_id)

Parâmetros

Name	Description
deprecate_by_dataset_id Necessário	str O ID do Conjunto de Dados que é o substituto pretendido para este Conjunto de Dados.

Devoluções

Tipo	Description
None	Nenhum.

Observações

Os conjuntos de dados preteridos registrarão avisos quando forem consumidos. A substituição de um conjunto de dados deprecia todas as suas definições.

Conjuntos de dados preteridos ainda podem ser consumidos. Para bloquear completamente o consumo de um conjunto de dados, arquive-o.

Se preterido por acidente, reativar irá ativá-lo.

diff

Diferencie o conjunto de dados atual com rhs_dataset.

Observação

Este método foi preterido e não será mais suportado.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

diff(rhs_dataset, compute_target=None, columns=None)

Parâmetros

Name	Description
rhs_dataset Necessário	Dataset Outro conjunto de dados também chamado de conjunto de dados do lado direito para comparação
compute_target Necessário	Union[ComputeTarget, str] compute o destino para executar o diff. Se omitido, o cálculo local é usado.
columns Necessário	list[str] Lista de nomes de colunas a incluir no diff.

Devoluções

Tipo	Description
DatasetActionRun	Objeto de execução da ação do conjunto de dados.

from_binary_files

Crie um conjunto de dados na memória não registrado a partir de arquivos binários.

Observação

Este método foi preterido e não será mais suportado.

Recomendo usá Dataset.File.from_files em vez disso. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

static from_binary_files(path)

Parâmetros

Name	Description
path Necessário	DataReference ou str Um caminho de dados em um armazenamento de dados registrado ou um caminho local.

Devoluções

Tipo	Description
Dataset	O objeto Dataset.

Observações

Use esse método para ler arquivos como fluxos de dados binários. Retorna um objeto de fluxo de arquivo por arquivo lido. Use esse método quando estiver lendo imagens, vídeos, áudio ou outros dados binários.

get_profile e create_snapshot não funcionará como esperado para um Dataset criado por esse método.

O Dataset retornado não está registrado no espaço de trabalho.

from_delimited_files

Crie um conjunto de dados na memória não registrado a partir de arquivos delimitados.

Observação

Este método foi preterido e não será mais suportado.

Recomendo usá Dataset.Tabular.from_delimited_files em vez disso. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.


   # Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
   dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
       header='ALL_FILES_HAVE_SAME_HEADERS')

   df = dataset.to_pandas_dataframe()

static from_delimited_files(path, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, encoding=FileEncoding.UTF8, quoting=False, infer_column_types=True, skip_rows=0, skip_mode=SkipLinesBehavior.NO_ROWS, comment=None, include_path=False, archive_options=None, partition_format=None)

Parâmetros

Name	Description
path Necessário	DataReference ou str Um caminho de dados em um armazenamento de dados registrado, um caminho local ou uma URL HTTP.
separator Necessário	str O separador usado para dividir colunas.
header Necessário	PromoteHeadersBehavior Controla como os cabeçalhos de coluna são promovidos ao ler arquivos.
encoding Necessário	FileEncoding A codificação dos arquivos que estão sendo lidos.
quoting Necessário	bool Especifique como lidar com novos caracteres de linha entre aspas. O padrão (False) é interpretar novos caracteres de linha como iniciando novas linhas, independentemente de os novos caracteres de linha estarem entre aspas ou não. Se definido como True, novos caracteres de linha entre aspas não resultarão em novas linhas e a velocidade de leitura do arquivo diminuirá.
infer_column_types Necessário	bool Indica se os tipos de dados de coluna são inferidos.
skip_rows Necessário	int Quantas linhas ignorar no(s) arquivo(s) que está sendo lido(s).
skip_mode Necessário	SkipLinesBehavior Controla como as linhas são ignoradas ao ler arquivos.
comment Necessário	str Caractere usado para indicar linhas de comentário nos arquivos que estão sendo lidos. As linhas que começam com esta cadeia de caracteres serão ignoradas.
include_path Necessário	bool Se deve ou não incluir uma coluna contendo o caminho do arquivo a partir do qual os dados foram lidos. Isso é útil quando você está lendo vários arquivos e deseja saber de qual arquivo um determinado registro se originou, ou para manter informações úteis no caminho do arquivo.
archive_options Necessário	<xref:azureml.dataprep.ArchiveOptions> Opções para arquivo morto, incluindo tipo de arquivo e padrão glob de entrada. De momento, apenas suportamos ZIP como tipo de arquivo. Por exemplo, especificando `archive_options = ArchiveOptions(archive_type = ArchiveType.ZIP, entry_glob = '*10-20.csv')` lê todos os arquivos com nome terminado com "10-20.csv" em ZIP.
partition_format Necessário	str Especifique o formato de partição no caminho e crie colunas de cadeia de caracteres a partir do formato '{x}' e da coluna datetime a partir do formato '{x:aaaa/MM/dd/HH/mm/ss}', onde 'aaaa', 'MM', 'dd', 'HH', 'mm' e 'ss' são usados para extratar ano, mês, dia, hora, minuto e segundo para o tipo datetime. O formato deve começar a partir da posição da primeira chave de partição até o final do caminho do arquivo. Por exemplo, dado um caminho de arquivo '.. /Accounts/2019/01/01/data.csv' onde os dados são particionados por nome e hora do departamento, podemos definir '/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' para criar colunas 'Department' do tipo string e 'PartitionDate' do tipo datetime.

Devoluções

Tipo	Description
Dataset	Objeto Dataset.

Observações

Use esse método para ler arquivos de texto delimitados quando quiser controlar as opções usadas.

Depois de criar um Dataset, você deve usar get_profile para listar os tipos de coluna detetados e estatísticas de resumo para cada coluna.

O Dataset retornado não está registrado no espaço de trabalho.

from_excel_files

Crie um conjunto de dados na memória não registrado a partir de arquivos do Excel.

Observação

Este método foi preterido e não será mais suportado.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

static from_excel_files(path, sheet_name=None, use_column_headers=False, skip_rows=0, include_path=False, infer_column_types=True, partition_format=None)

Parâmetros

Name	Description
path Necessário	DataReference ou str Um caminho de dados em um armazenamento de dados registrado ou um caminho local.
sheet_name Necessário	str O nome da planilha do Excel a ser carregada. Por padrão, lemos a primeira planilha de cada arquivo do Excel.
use_column_headers Necessário	bool Controla se a primeira linha deve ser usada como cabeçalhos de coluna.
skip_rows Necessário	int Quantas linhas ignorar no(s) arquivo(s) que está sendo lido(s).
include_path Necessário	bool Se deve ou não incluir uma coluna contendo o caminho do arquivo a partir do qual os dados foram lidos. Isso é útil quando você está lendo vários arquivos e deseja saber de qual arquivo um determinado registro se originou, ou para manter informações úteis no caminho do arquivo.
infer_column_types Necessário	bool Se verdadeiro, os tipos de dados de coluna serão inferidos.
partition_format Necessário	str Especifique o formato de partição no caminho e crie colunas de cadeia de caracteres a partir do formato '{x}' e da coluna datetime a partir do formato '{x:aaaa/MM/dd/HH/mm/ss}', onde 'aaaa', 'MM', 'dd', 'HH', 'mm' e 'ss' são usados para extratar ano, mês, dia, hora, minuto e segundo para o tipo datetime. O formato deve começar a partir da posição da primeira chave de partição até o final do caminho do arquivo. Por exemplo, dado um caminho de arquivo '.. /Accounts/2019/01/01/data.xlsx' onde os dados são particionados por nome e hora do departamento, podemos definir '/{Department}/{PartitionDate:yyyy/MM/dd}/data.xlsx' para criar colunas 'Department' do tipo string e 'PartitionDate' do tipo datetime.

Devoluções

Tipo	Description
Dataset	Objeto Dataset.

Observações

Use esse método para ler arquivos do Excel em formato .xlsx. Os dados podem ser lidos a partir de uma folha em cada ficheiro Excel. Depois de criar um Dataset, você deve usar get_profile para listar os tipos de coluna detetados e estatísticas de resumo para cada coluna. O Dataset retornado não está registrado no espaço de trabalho.

from_json_files

Crie um conjunto de dados na memória não registrado a partir de arquivos JSON.

Observação

Este método foi preterido e não será mais suportado.

Recomendo usar Dataset.Tabular.from_json_lines_files em vez de ler a partir do arquivo de linhas JSON. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

static from_json_files(path, encoding=FileEncoding.UTF8, flatten_nested_arrays=False, include_path=False, partition_format=None)

Parâmetros

Name	Description
path Necessário	DataReference ou str O caminho para o(s) arquivo(s) ou pasta(s) que você deseja carregar e analisar. Pode ser um caminho local ou uma URL de Blob do Azure. O Globbing é suportado. Por exemplo, você pode usar path = "./data*" para ler todos os arquivos com nome começando com "data".
encoding Necessário	FileEncoding A codificação dos arquivos que estão sendo lidos.
flatten_nested_arrays Necessário	bool Manipulação de matrizes aninhadas pelo programa de controle de propriedade. Se você optar por nivelar matrizes JSON aninhadas, isso poderá resultar em um número muito maior de linhas.
include_path Necessário	bool Se é necessário incluir uma coluna contendo o caminho a partir do qual os dados foram lidos. Isso é útil quando você está lendo vários arquivos e pode querer saber de qual arquivo um determinado registro se originou, ou manter informações úteis no caminho do arquivo.
partition_format Necessário	str Especifique o formato de partição no caminho e crie colunas de cadeia de caracteres a partir do formato '{x}' e da coluna datetime a partir do formato '{x:aaaa/MM/dd/HH/mm/ss}', onde 'aaaa', 'MM', 'dd', 'HH', 'mm' e 'ss' são usados para extratar ano, mês, dia, hora, minuto e segundo para o tipo datetime. O formato deve começar a partir da posição da primeira chave de partição até o final do caminho do arquivo. Por exemplo, dado um caminho de arquivo '.. /Accounts/2019/01/01/data.json' e os dados são particionados por nome e hora do departamento, podemos definir '/{Department}/{PartitionDate:yyyy/MM/dd}/data.json' para criar colunas 'Department' do tipo string e 'PartitionDate' do tipo datetime.

Devoluções

Tipo	Description
Dataset	O objeto Dataset local.

from_pandas_dataframe

Crie um conjunto de dados na memória não registrado a partir de um dataframe pandas.

Observação

Este método foi preterido e não será mais suportado.

Recomende usá Dataset.Tabular.register_pandas_dataframe em vez disso. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

static from_pandas_dataframe(dataframe, path=None, in_memory=False)

Parâmetros

Name	Description
dataframe Necessário	DataFrame O DataFrame Pandas.
path Necessário	Union[DataReference, str] Um caminho de dados no armazenamento de dados registrado ou no caminho da pasta local.
in_memory Necessário	bool Se deve ler o DataFrame da memória em vez de persistir no disco.

Devoluções

Tipo	Description
Dataset	Um objeto Dataset.

Observações

Use esse método para converter um dataframe Pandas em um objeto Dataset. Um conjunto de dados criado por este método não pode ser registrado, pois os dados são da memória.

Se in_memory for False, o Pandas DataFrame será convertido em um arquivo CSV localmente. Se pat for do tipo DataReference, o quadro Pandas será carregado para o armazenamento de dados e o Dataset será baseado no DataReference. Se ''path' for uma pasta local, o Dataset será criado a partir do arquivo local que não pode ser excluído.

Gera uma exceção se o DataReference atual não for um caminho de pasta.

from_parquet_files

Crie um conjunto de dados na memória não registrado a partir de arquivos parquet.

Observação

Este método foi preterido e não será mais suportado.

Recomendo usar Dataset.Tabular.from_parquet_files em vez disso. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

static from_parquet_files(path, include_path=False, partition_format=None)

Parâmetros

Name	Description
path Necessário	DataReference ou str Um caminho de dados em um armazenamento de dados registrado ou um caminho local.
include_path Necessário	bool Se deve ou não incluir uma coluna contendo o caminho do arquivo a partir do qual os dados foram lidos. Isso é útil quando você está lendo vários arquivos e deseja saber de qual arquivo um determinado registro se originou, ou para manter informações úteis no caminho do arquivo.
partition_format Necessário	str Especifique o formato de partição no caminho e crie colunas de cadeia de caracteres a partir do formato '{x}' e da coluna datetime a partir do formato '{x:aaaa/MM/dd/HH/mm/ss}', onde 'aaaa', 'MM', 'dd', 'HH', 'mm' e 'ss' são usados para extratar ano, mês, dia, hora, minuto e segundo para o tipo datetime. O formato deve começar a partir da posição da primeira chave de partição até o final do caminho do arquivo. Por exemplo, dado um caminho de arquivo '.. /Accounts/2019/01/01/data.parquet' onde os dados são particionados por nome e hora do departamento, podemos definir '/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' para criar colunas 'Department' do tipo string e 'PartitionDate' do tipo datetime.

Devoluções

Tipo	Description
Dataset	Objeto Dataset.

Observações

Use esse método para ler arquivos Parquet.

Depois de criar um Dataset, você deve usar get_profile para listar os tipos de coluna detetados e estatísticas de resumo para cada coluna.

O Dataset retornado não está registrado no espaço de trabalho.

from_sql_query

Crie um Dataset na memória não registrado a partir de uma consulta SQL.

Observação

Este método foi preterido e não será mais suportado.

Recomendo usar Dataset.Tabular.from_sql_query em vez disso. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

static from_sql_query(data_source, query)

Parâmetros

Name	Description
data_source Necessário	AzureSqlDatabaseDatastore Os detalhes do armazenamento de dados SQL do Azure.
query Necessário	str A consulta a ser executada para ler dados.

Devoluções

Tipo	Description
Dataset	O objeto Dataset local.

generate_profile

Gere um novo perfil para o conjunto de dados.

Observação

Este método foi preterido e não será mais suportado.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

generate_profile(compute_target=None, workspace=None, arguments=None)

Parâmetros

Name	Description
compute_target Necessário	Union[ComputeTarget, str] Um destino de computação opcional para executar a criação do perfil de instantâneo. Se omitido, o cálculo local é usado.
workspace Necessário	Workspace Espaço de trabalho, necessário para conjuntos de dados transitórios (não registrados).
arguments Necessário	dict[str, object] Argumentos de perfil. Os argumentos válidos são: «include_stype_counts» do tipo bool. Verifique se os valores se parecem com alguns tipos semânticos bem conhecidos, como endereço de e-mail, endereço IP (V4/V6), número de telefone dos EUA, CEP dos EUA, Latitude/Longitude. Habilitar isso afeta o desempenho. «number_of_histogram_bins» do tipo int. Representa o número de compartimentos de histograma a serem usados para dados numéricos. O valor padrão é 10.

Devoluções

Tipo	Description
DatasetActionRun	Objeto de execução da ação do conjunto de dados.

Observações

Chamada síncrona, será bloqueada até que seja concluída. Ligue get_result para obter o resultado da ação.

get

Obtenha um Dataset que já existe no espaço de trabalho especificando seu nome ou ID.

Observação

Este método foi preterido e não será mais suportado.

Recomendo usar get_by_name e get_by_id em vez disso. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

static get(workspace, name=None, id=None)

Parâmetros

Name	Description
workspace Necessário	Workspace O espaço de trabalho AzureML existente no qual o Dataset foi criado.
name Necessário	str O nome do conjunto de dados a ser recuperado.
id Necessário	str Um identificador exclusivo do Conjunto de Dados no espaço de trabalho.

Devoluções

Tipo	Description
Dataset	O Dataset com o nome ou ID especificado.

Observações

Você pode fornecer um ou nameid. Uma exceção é levantada se:

ambos name e id são especificados, mas não correspondem.
o Dataset com o especificado name ou id não pode ser encontrado no espaço de trabalho.

get_all

Obtenha todos os conjuntos de dados registrados no espaço de trabalho.

get_all()

Parâmetros

Name	Description
workspace Necessário	Workspace O espaço de trabalho existente do AzureML no qual os conjuntos de dados foram registrados.

Devoluções

Tipo	Description
dict[str, Union[TabularDataset, FileDataset]]	Um dicionário de objetos TabularDataset e FileDataset chaveados por seu nome de registro.

get_all_snapshots

Obtenha todos os instantâneos do conjunto de dados.

Observação

Este método foi preterido e não será mais suportado.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

get_all_snapshots()

Devoluções

Tipo	Description
list[DatasetSnapshot]	Lista de instantâneos do conjunto de dados.

get_by_id

Obtenha um conjunto de dados que é salvo no espaço de trabalho.

get_by_id(id, **kwargs)

Parâmetros

Name	Description
workspace Necessário	Workspace O espaço de trabalho AzureML existente no qual o Dataset é salvo.
id Necessário	str A id do conjunto de dados.

Devoluções

Tipo	Description
Union[TabularDataset, FileDataset]	O objeto do conjunto de dados. Se o conjunto de dados estiver registado, o seu nome de registo e versão também serão devolvidos.

get_by_name

Obtenha um Dataset registrado do espaço de trabalho pelo seu nome de registro.

get_by_name(name, version='latest', **kwargs)

Parâmetros

Name	Description
workspace Necessário	Workspace O espaço de trabalho existente do AzureML no qual o Dataset foi registrado.
name Necessário	str O nome do registo.
version Necessário	int A versão de registo. O padrão é 'mais recente'.

Devoluções

Tipo	Description
Union[TabularDataset, FileDataset]	O objeto de conjunto de dados registrado.

get_definition

Obtenha uma definição específica do conjunto de dados.

Observação

Este método foi preterido e não será mais suportado.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

get_definition(version_id=None)

Parâmetros

Name	Description
version_id Necessário	str A ID de versão da definição de conjunto de dados

Devoluções

Tipo	Description
DatasetDefinition	A definição de conjunto de dados.

Observações

Se version_id for fornecido, o Azure Machine Learning tentará obter a definição correspondente a essa versão. Se essa versão não existir, uma exceção é lançada. Se version_id for omitido, a versão mais recente será recuperada.

get_definitions

Obtenha todas as definições do Dataset.

Observação

Este método foi preterido e não será mais suportado.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

get_definitions()

Devoluções

Tipo	Description
dict[str, DatasetDefinition]	Um dicionário de definições de conjunto de dados.

Observações

Para conjuntos de dados não registrados, existe apenas uma definição.

get_profile

Obtenha estatísticas resumidas sobre o conjunto de dados calculado anteriormente.

Observação

Este método foi preterido e não será mais suportado.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

get_profile(arguments=None, generate_if_not_exist=True, workspace=None, compute_target=None)

Parâmetros

Name	Description
arguments Necessário	dict[str, object] Argumentos de perfil.
generate_if_not_exist Necessário	bool Indica se um perfil deve ser gerado se ele não existir.
workspace Necessário	Workspace Espaço de trabalho, necessário para conjuntos de dados transitórios (não registrados).
compute_target Necessário	Union[ComputeTarget, str] Um destino de computação para executar a ação de perfil.

Devoluções

Tipo	Description
<xref:azureml.dataprep.DataProfile>	DataProfile do conjunto de dados.

Observações

Para um Conjunto de Dados registrado em um espaço de trabalho do Azure Machine Learning, esse método recupera um perfil existente que foi criado anteriormente chamando get_profile se ainda for válido. Os perfis são invalidados quando dados alterados são detetados no Conjunto de Dados ou os argumentos são get_profile diferentes dos usados quando o perfil foi gerado. Se o perfil não estiver presente ou for invalidado, generate_if_not_exist determinará se um novo perfil será gerado.

Para um Conjunto de Dados que não está registrado em um espaço de trabalho do Azure Machine Learning, esse método sempre é executado generate_profile e retorna o resultado.

get_snapshot

Obtenha um instantâneo do conjunto de dados por nome.

Observação

Este método foi preterido e não será mais suportado.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

get_snapshot(snapshot_name)

Parâmetros

Name	Description
snapshot_name Necessário	str O nome do instantâneo.

Devoluções

Tipo	Description
DatasetSnapshot	Objeto de instantâneo do conjunto de dados.

head

Extraia o número especificado de registros especificados deste Dataset e os retorna como um DataFrame.

Observação

Este método foi preterido e não será mais suportado.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

head(count)

Parâmetros

Name	Description
count Necessário	int O número de registros a serem extraídos.

Devoluções

Tipo	Description
DataFrame	Um DataFrame Pandas.

list

Liste todos os conjuntos de dados no espaço de trabalho, incluindo aqueles com is_visible propriedade igual a False.

Observação

Este método foi preterido e não será mais suportado.

Recomendo usar get_all em vez disso. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

static list(workspace)

Parâmetros

Name	Description
workspace Necessário	Workspace O espaço de trabalho para o qual você deseja recuperar a lista de Conjuntos de Dados.

Devoluções

Tipo	Description
list[Dataset]	Uma lista de objetos Dataset.

reactivate

Reative um conjunto de dados arquivado ou preterido.

Observação

Este método foi preterido e não será mais suportado.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

reactivate()

Devoluções

Tipo	Description
None	Nenhum.

register

Registre o Conjunto de Dados no espaço de trabalho, disponibilizando-o para outros usuários do espaço de trabalho.

Observação

Este método foi preterido e não será mais suportado.

Recomendo usar register em vez disso. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

register(workspace, name, description=None, tags=None, visible=True, exist_ok=False, update_if_exist=False)

Parâmetros

Name	Description
workspace Necessário	Workspace O espaço de trabalho AzureML no qual o Dataset deve ser registrado.
name Necessário	str O nome do Conjunto de Dados no espaço de trabalho.
description Necessário	str Uma descrição do conjunto de dados.
tags Necessário	dict[str, str] Tags a serem associadas ao Dataset.
visible Necessário	bool Indica se o Dataset está visível na interface do usuário. Se False, o Dataset estará oculto na interface do usuário e disponível via SDK.
exist_ok Necessário	bool Se True, o método retorna o Dataset se ele já existir no espaço de trabalho fornecido, caso contrário, erro.
update_if_exist Necessário	bool Se `exist_ok` for True e `update_if_exist` for True, esse método atualizará a definição e retornará o Dataset atualizado.

Devoluções

Tipo	Description
Dataset	Um objeto Dataset registrado no espaço de trabalho.

sample

Gere uma nova amostra a partir do conjunto de dados de origem, usando a estratégia de amostragem e os parâmetros fornecidos.

Observação

Este método foi preterido e não será mais suportado.

Crie um TabularDataset chamando os métodos estáticos em Dataset.Tabular e use o take_sample método lá. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

sample(sample_strategy, arguments)

Parâmetros

Name	Description
sample_strategy Necessário	str Exemplo de estratégia a ser usada. Os valores aceites são "top_n", "simple_random" ou "estratificado".
arguments Necessário	dict[str, object] Um dicionário com teclas do "Argumento opcional" na lista mostrada acima e valores da coluna "Tipo". Só podem ser utilizados argumentos do método de amostragem correspondente. Por exemplo, para um tipo de exemplo "simple_random", você só pode especificar um dicionário com as teclas "probabilidade" e "semente".

Devoluções

Tipo	Description
Dataset	Objeto Dataset como uma amostra do conjunto de dados original.

Observações

As amostras são geradas executando o pipeline de transformação definido por este conjunto de dados e, em seguida, aplicando a estratégia de amostragem e os parâmetros aos dados de saída. Cada método de amostragem suporta os seguintes argumentos opcionais:

top_n
- Argumentos opcionais
  - n, digite inteiro. Selecione as N linhas superiores como sua amostra.
simple_random
- Argumentos opcionais
  - probabilidade, tipo float. Amostragem aleatória simples em que cada linha tem igual probabilidade de ser selecionada. A probabilidade deve ser um número entre 0 e 1.
  - semente, tipo float. Usado pelo gerador de números aleatórios. Use para repetibilidade.
estratificado
- Argumentos opcionais
  - colunas, digite list[str]. Lista de colunas de estratos nos dados.
  - semente, tipo float. Usado pelo gerador de números aleatórios. Use para repetibilidade.
  - frações, tipo dict[tupla, float]. Tupla: os valores de coluna que definem um estrato, devem estar na mesma ordem que os nomes das colunas. Flutuador: peso fixado a um estrato durante a amostragem.

Os trechos de código a seguir são padrões de design de exemplo para diferentes métodos de exemplo.


   # sample_strategy "top_n"
   top_n_sample_dataset = dataset.sample('top_n', {'n': 5})

   # sample_strategy "simple_random"
   simple_random_sample_dataset = dataset.sample('simple_random', {'probability': 0.3, 'seed': 10.2})

   # sample_strategy "stratified"
   fractions = {}
   fractions[('THEFT',)] = 0.5
   fractions[('DECEPTIVE PRACTICE',)] = 0.2

   # take 50% of records with "Primary Type" as THEFT and 20% of records with "Primary Type" as
   # DECEPTIVE PRACTICE into sample Dataset
   sample_dataset = dataset.sample('stratified', {'columns': ['Primary Type'], 'fractions': fractions})

to_pandas_dataframe

Crie um dataframe Pandas executando o pipeline de transformação definido por esta definição de conjunto de dados.

Observação

Este método foi preterido e não será mais suportado.

Crie um TabularDataset chamando os métodos estáticos em Dataset.Tabular e use o to_pandas_dataframe método lá. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

to_pandas_dataframe()

Devoluções

Tipo	Description
DataFrame	Um DataFrame Pandas.

Observações

Retornar um Pandas DataFrame totalmente materializado na memória.

to_spark_dataframe

Crie um Spark DataFrame que possa executar o pipeline de transformação definido por essa definição de conjunto de dados.

Observação

Este método foi preterido e não será mais suportado.

Crie um TabularDataset chamando os métodos estáticos em Dataset.Tabular e use o to_spark_dataframe método lá. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

to_spark_dataframe()

Devoluções

Tipo	Description
DataFrame	Um DataFrame do Spark.

Observações

O Spark Dataframe retornado é apenas um plano de execução e não contém dados, pois os Spark Dataframes são avaliados preguiçosamente.

update

Atualize os atributos mutáveis do Conjunto de Dados no espaço de trabalho e retorne o Conjunto de Dados atualizado do espaço de trabalho.

Observação

Este método foi preterido e não será mais suportado.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

update(name=None, description=None, tags=None, visible=None)

Parâmetros

Name	Description
name Necessário	str O nome do Conjunto de Dados no espaço de trabalho.
description Necessário	str Uma descrição dos dados.
tags Necessário	dict[str, str] Tags às quais associar o conjunto de dados.
visible Necessário	bool Indica se o Dataset está visível na interface do usuário.

Devoluções

Tipo	Description
Dataset	Um objeto Dataset atualizado do espaço de trabalho.

update_definition

Atualize a definição do conjunto de dados.

Observação

Este método foi preterido e não será mais suportado.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

update_definition(definition, definition_update_message)

Parâmetros

Name	Description
definition Necessário	DatasetDefinition A nova definição deste conjunto de dados.
definition_update_message Necessário	str A mensagem de atualização de definição.

Devoluções

Tipo	Description
Dataset	Um objeto Dataset atualizado do espaço de trabalho.

Observações

Para consumir o Dataset atualizado, use o objeto retornado por esse método.

Atributos

definition

Retornar a definição atual do conjunto de dados.

Observação

Este método foi preterido e não será mais suportado.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

Devoluções

Tipo	Description
DatasetDefinition	A definição de conjunto de dados.

Observações

Uma definição de conjunto de dados é uma série de etapas que especificam como ler e transformar dados.

Um conjunto de dados registrado em um espaço de trabalho do AzureML pode ter várias definições, cada uma criada chamando update_definition. Cada definição tem um identificador único. Ter várias definições permite que você faça alterações em conjuntos de dados existentes sem quebrar modelos e pipelines que dependem da definição mais antiga.

Para conjuntos de dados não registrados, existe apenas uma definição.

definition_version

Retornar a versão da definição atual do Dataset.

Observação

Este método foi preterido e não será mais suportado.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

Devoluções

Tipo	Description
str	A versão de definição do conjunto de dados.

Observações

Uma definição de conjunto de dados é uma série de etapas que especificam como ler e transformar dados.

Um conjunto de dados registrado em um espaço de trabalho do AzureML pode ter várias definições, cada uma criada chamando update_definition. Cada definição tem um identificador único. A definição atual é a mais recente criada, cujo ID é retornado por este.

Para conjuntos de dados não registrados, existe apenas uma definição.

description

Retornar a descrição do conjunto de dados.

Devoluções

Tipo	Description
str	A descrição do conjunto de dados.

Observações

Especificar uma descrição dos dados no Conjunto de Dados permite que os usuários do espaço de trabalho entendam o que os dados representam e como podem usá-los.

id

Se o Conjunto de Dados foi registrado em um espaço de trabalho, retorne a ID do Conjunto de Dados. Caso contrário, retorne Nenhum.

Devoluções

Tipo	Description
str	O ID do conjunto de dados.

is_visible

Controle a visibilidade de um conjunto de dados registrado na interface do usuário do espaço de trabalho do Azure ML.

Observação

Este método foi preterido e não será mais suportado.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

Devoluções

Tipo	Description
bool	A visibilidade do conjunto de dados.

Observações

Valores devolvidos:

True: O conjunto de dados é visível na interface do usuário do espaço de trabalho. Predefinição.
False: O conjunto de dados está oculto na interface do usuário do espaço de trabalho.

Não tem efeito sobre conjuntos de dados não registrados.

name

Retornar o nome do conjunto de dados.

Devoluções

Tipo	Description
str	O nome do conjunto de dados.

state

Retornar o estado do conjunto de dados.

Observação

Este método foi preterido e não será mais suportado.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

Devoluções

Tipo	Description
str	O estado do conjunto de dados.

Observações

O significado e o efeito dos estados são os seguintes:

Ativo. Definições ativas são exatamente o que parecem, todas as ações podem ser executadas em definições ativas.
Preterido. A definição preterida pode ser usada, mas resultará em um aviso sendo registrado nos logs toda vez que os dados subjacentes forem acessados.
Arquivado. Uma definição arquivada não pode ser usada para executar qualquer ação. Para executar ações em uma definição arquivada, ela deve ser reativada.

workspace

Se o Dataset foi registrado em um espaço de trabalho, retorne isso. Caso contrário, retorne Nenhum.

Devoluções

Tipo	Description
Workspace	O espaço de trabalho.

Comentários

Esta página foi útil?

Partilhar via

Dataset Classe

Construtor

Parâmetros

Observações

Variáveis

Métodos

archive

Devoluções

Observações

auto_read_files

Parâmetros

Devoluções

Observações

compare_profiles

Parâmetros

Devoluções

Observações

create_snapshot

Parâmetros

Devoluções

Observações

delete_snapshot

Parâmetros

Devoluções

Observações

deprecate

Parâmetros

Devoluções

Observações

diff

Parâmetros

Devoluções

from_binary_files

Parâmetros

Devoluções

Observações

from_delimited_files

Parâmetros

Devoluções

Observações

from_excel_files

Parâmetros

Devoluções

Observações

from_json_files

Parâmetros

Devoluções

from_pandas_dataframe

Parâmetros

Devoluções

Observações

from_parquet_files

Parâmetros

Devoluções

Observações

from_sql_query

Parâmetros

Devoluções

generate_profile

Parâmetros

Devoluções

Observações

get

Parâmetros

Devoluções

Observações

get_all

Parâmetros

Devoluções

get_all_snapshots

Devoluções

get_by_id

Parâmetros

Devoluções

get_by_name

Parâmetros

Devoluções

get_definition

Parâmetros