TabularDatasetFactory Classe

Contém os métodos para criar um conjunto de dados tabular para Azure Machine Learning.

Um TabularDataset é criado usando os métodos from_* nessa classe, por exemplo, o método from_delimited_files.

Para obter mais informações sobre como trabalhar com conjuntos de dados tabulares, consulte o notebook https://aka.ms/tabulardataset-samplenotebook.

Herança
builtins.object
TabularDatasetFactory

Construtor

TabularDatasetFactory()

Métodos

from_delimited_files

Cria um TabularDataset para representar dados tabulares em arquivos delimitados (por exemplo, CSV e TSV).

from_json_lines_files

Crie um TabularDataset para representar dados tabular em arquivos JSON Lines (http://jsonlines.org/).

from_parquet_files

Crie um TabularDataset para representar dados tabular em arquivos Parquet.

from_sql_query

Crie um TabularDataset para representar dados tabular em bancos de dados SQL.

register_dask_dataframe

Observação

Esse é um método experimental e pode mudar a qualquer momento. Consulte https://aka.ms/azuremlexperimental para obter mais informações.

Criar um conjunto de dados a partir de um dataframe do dask.

register_pandas_dataframe

Criar um conjunto de dados a partir de um dataframe do Pandas.

register_spark_dataframe

Observação

Esse é um método experimental e pode mudar a qualquer momento. Consulte https://aka.ms/azuremlexperimental para obter mais informações.

Criar um conjunto de dados a partir de um dataframe do spark.

from_delimited_files

Cria um TabularDataset para representar dados tabulares em arquivos delimitados (por exemplo, CSV e TSV).

static from_delimited_files(path, validate=True, include_path=False, infer_column_types=True, set_column_types=None, separator=',', header=True, partition_format=None, support_multi_line=False, empty_as_string=False, encoding='utf8')

Parâmetros

path
Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]]
Obrigatório

O caminho para os arquivos de origem, que podem ser um único valor ou lista de cadeia de caracteres de URL (http[s]|abfs[s]|wasb[s]), DataPath objeto ou tupla de Datastore e caminho relativo. Observe que a lista de caminhos não pode incluir URLs e armazenamentos de dados juntos.

validate
bool
Obrigatório

Booliano para validar se os dados poderem ser carregados do conjunto de dados retornado. O padrão é True. A validação requer que a fonte de dados seja acessível a partir da computação atual. Para desabilitar a validação, "infer_column_types" também precisa ser definido como False.

include_path
bool
Obrigatório

Booliano para manter as informações do caminho como coluna no conjunto de dados. Usa False como padrão. É útil ao ler vários arquivos e quer saber de qual arquivo um registro específico foi originado, ou para manter informações úteis no caminho do arquivo.

infer_column_types
bool
Obrigatório

Booliano para inferir tipos de dados de coluna. O padrão é True. A inferência de tipos exige que a fonte de dados esteja acessível por meio da computação atual. No momento, a inferência de tipos só efetuará pull das primeiras 200 linhas. Se os dados contiver vários tipos de valor, será melhor fornecer o tipo desejado como uma substituição por meio do argumento set_column_types. Verifique a seção Comentários para ver exemplos de código sobre set_column_types.

set_column_types
dict[str, DataType]
Obrigatório

Um dicionário para definir o tipo de dados da coluna, em que a chave é o nome da coluna e o valor é DataType.

separator
str
Obrigatório

O separador usado para dividir colunas.

header
bool ou PromoteHeadersBehavior
Obrigatório

Controla como cabeçalhos de coluna são promovidos durante a leitura de arquivos. O padrão é True para todos os arquivos que têm o mesmo cabeçalho. Os arquivos serão lidos como sem nenhum cabeçalho quando header=False. Mais opções podem ser especificadas usando o valor de enumeração de PromoteHeadersBehavior.

partition_format
str
Obrigatório

Especifica o formato de partição do caminho. Assume o valor padrão de Nenhum. As informações de partição de cada caminho serão extraídas em colunas com base no formato especificado. A parte do formato '{column_name}' cria uma coluna de cadeia de caracteres e '{column_name:yyyy/MM/dd/HH/mm/ss}' cria a coluna datetime, na qual 'yyyy', 'MM', 'dd', 'HH', 'mm' e 'ss' são usados para extrair ano, mês, dia, hora, minuto e segundos para o tipo datetime. O formato deve começar da posição da primeira chave de partição até o final do caminho do arquivo. Por exemplo, considerando o caminho '../Accounts/2019/01/01/data.csv' em que a partição é por hora e nome do departamento, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' cria uma coluna de cadeia de caracteres 'Department' com o valor 'Accounts' e uma coluna datetime 'PartitionDate' com o valor '2019-01-01'.

support_multi_line
bool
Obrigatório

Por padrão (support_multi_line=False), todas as quebras de linha, incluindo aquelas em valores de campo entre aspas, serão interpretadas como uma quebra de registro. A leitura de dados dessa maneira é mais rápida e mais otimizada para execução paralela em vários núcleos de CPU. No entanto, isso pode resultar na produção silenciosa de mais registros com valores de campo desalinhados. Isso deve ser definido como True quando os arquivos delimitados são conhecidos por conter quebras de linha entre aspas.

Dado esse arquivo csv como exemplo, os dados serão lidos de maneira diferente com base em support_multi_line.

A,B,C A1,B1,C1 A2,"B 2",C2


   from azureml.core import Dataset, Datastore
   from azureml.data.datapath import DataPath

   # default behavior: support_multi_line=False
   dataset = Dataset.Tabular.from_delimited_files(path=datastore_path)
   print(dataset.to_pandas_dataframe())
   #      A   B     C
   #  0  A1  B1    C1
   #  1  A2   B  None
   #  2  2"  C2  None

   # to handle quoted line breaks
   dataset = Dataset.Tabular.from_delimited_files(path=datastore_path,
                                                  support_multi_line=True)
   print(dataset.to_pandas_dataframe())
   #      A       B   C
   #  0  A1      B1  C1
   #  1  A2  B\r\n2  C2
empty_as_string
bool
Obrigatório

Especifica se os valores de campo vazios devem ser carregados como cadeias de caracteres vazias. O padrão (False) lerá valores de campo vazios como nulos. Passar isso como True fará com que valores de campo vazios sejam lidos como cadeias de caracteres vazias. Se os valores são convertidos em numéricos ou datetime, isso não tem nenhum efeito, pois os valores vazios serão convertidos em nulos.

encoding
str
Obrigatório

Especifica a codificação do arquivo. Codificações com suporte são 'utf8', 'iso88591', 'latin1', 'ascii', 'utf16', 'utf32', 'utf8bom' e 'windows1252'

Retornos

Retorna um objeto TabularDataset.

Tipo de retorno

Comentários

from_delimited_files cria um objeto da classe TabularDataset, que define as operações para carregar dados de arquivos delimitados em representação tabular.

Para que os dados sejam acessíveis pelo Azure Machine Learning, os arquivos delimitados especificados por path devem estar localizados em Datastore ou atrás de URLs da Web públicas ou url de Blob, ADLS Gen1 e ADLS Gen2. O token do AAD dos usuários será usado no notebook ou no programa python local se ele chamar diretamente uma destas funções: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files a identidade do destino de computação será usada em trabalhos enviados pelo Experiment.submit para autenticação de acesso a dados. Saiba mais: https://aka.ms/data-access

Os tipos de dados de coluna são inferidos por padrão de dados nos arquivos delimitados. Se fornecido, set_column_types substituirá o tipo de dados para as colunas especificadas no TabularDataset retornado.


   from azureml.core import Dataset, Datastore

   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/2018/11.csv'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/'))

   # create tabular dataset from all csv files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/**/*.csv'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.csv'), (datastore, 'weather/2018/12.csv')]
   tabular_dataset_4 = Dataset.Tabular.from_delimited_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_delimited_files(path='https://url/weather/2018/12.csv')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.csv',
       'https://url/weather/2018/12.csv'
   ]
   tabular = Dataset.Tabular.from_delimited_files(path=web_path, set_column_types=data_types)

from_json_lines_files

Crie um TabularDataset para representar dados tabular em arquivos JSON Lines (http://jsonlines.org/).

static from_json_lines_files(path, validate=True, include_path=False, set_column_types=None, partition_format=None, invalid_lines='error', encoding='utf8')

Parâmetros

path
Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]]
Obrigatório

O caminho para os arquivos de origem, que podem ser um único valor ou lista de cadeia de caracteres de URL (http[s]|abfs[s]|wasb[s]), DataPath objeto ou tupla de Datastore e caminho relativo. Observe que a lista de caminhos não pode incluir URLs e armazenamentos de dados juntos.

validate
bool
Obrigatório

Booliano para validar se os dados poderem ser carregados do conjunto de dados retornado. O padrão é True. A validação requer que a fonte de dados seja acessível a partir da computação atual.

include_path
bool
Obrigatório

Booliano para manter as informações do caminho como coluna no conjunto de dados. Usa False como padrão. É útil ao ler vários arquivos e quer saber de qual arquivo um registro específico foi originado, ou para manter informações úteis no caminho do arquivo.

set_column_types
dict[str, DataType]
Obrigatório

Um dicionário para definir o tipo de dados da coluna, em que a chave é o nome da coluna e o valor é DataType

partition_format
str
Obrigatório

Especifica o formato de partição do caminho. Assume o valor padrão de Nenhum. As informações de partição de cada caminho serão extraídas em colunas com base no formato especificado. A parte do formato '{column_name}' cria uma coluna de cadeia de caracteres e '{column_name:yyyy/MM/dd/HH/mm/ss}' cria a coluna datetime, na qual 'yyyy', 'MM', 'dd', 'HH', 'mm' e 'ss' são usados para extrair ano, mês, dia, hora, minuto e segundos para o tipo datetime. O formato deve começar da posição da primeira chave de partição até o final do caminho do arquivo. Por exemplo, considerando o caminho '../Accounts/2019/01/01/data.jsonl' em que a partição é por hora e nome do departamento, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' cria uma coluna de cadeia de caracteres 'Department' com o valor 'Accounts' e uma coluna datetime 'PartitionDate' com o valor '2019-01-01'.

invalid_lines
str
Obrigatório

Como lidar com linhas que são um JSON inválido. Os valores com suporte são 'error' e 'drop'.

encoding
str
Obrigatório

Especifica a codificação do arquivo. Codificações com suporte são 'utf8', 'iso88591', 'latin1', 'ascii', 'utf16', 'utf32', 'utf8bom' e 'windows1252'

Retornos

Retorna um objeto TabularDataset.

Tipo de retorno

Comentários

from_json_lines_files cria um objeto da classe TabularDataset, que define as operações para carregar dados de arquivos de linhas JSON em representação tabular.

Para que os dados sejam acessíveis pelo Azure Machine Learning, os arquivos de Linhas JSON especificados por caminho devem estar localizados nas Datastore URLs da Web públicas ou na URL do Blob, do ADLS Gen1 e do ADLS Gen2. O token do AAD dos usuários será usado no notebook ou no programa python local se ele chamar diretamente uma destas funções: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files a identidade do destino de computação será usada em trabalhos enviados pelo Experiment.submit para autenticação de acesso a dados. Saiba mais: https://aka.ms/data-access

Os tipos de dados de coluna são lidos de tipos de dados salvos nos arquivos JSON Lines. Se fornecido, set_column_types substituirá o tipo de dados para as colunas especificadas no TabularDataset retornado.


   from azureml.core import Dataset, Datastore

   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/2018/11.jsonl'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/'))

   # create tabular dataset from all jsonl files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/**/*.jsonl'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.jsonl'), (datastore, 'weather/2018/12.jsonl')]
   tabular_dataset_4 = Dataset.Tabular.from_json_lines_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_json_lines_files(path='https://url/weather/2018/12.jsonl')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.jsonl',
       'https://url/weather/2018/12.jsonl'
   ]
   tabular = Dataset.Tabular.from_json_lines_files(path=web_path, set_column_types=data_types)

from_parquet_files

Crie um TabularDataset para representar dados tabular em arquivos Parquet.

static from_parquet_files(path, validate=True, include_path=False, set_column_types=None, partition_format=None)

Parâmetros

path
Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]]
Obrigatório

O caminho para os arquivos de origem, que podem ser um único valor ou lista de cadeia de caracteres de URL (http[s]|abfs[s]|wasb[s]), DataPath objeto ou tupla de Datastore e caminho relativo. Observe que a lista de caminhos não pode incluir URLs e armazenamentos de dados juntos.

validate
bool
Obrigatório

Booliano para validar se os dados poderem ser carregados do conjunto de dados retornado. O padrão é True. A validação requer que a fonte de dados seja acessível a partir da computação atual.

include_path
bool
Obrigatório

Booliano para manter as informações do caminho como coluna no conjunto de dados. Usa False como padrão. É útil ao ler vários arquivos e quer saber de qual arquivo um registro específico foi originado, ou para manter informações úteis no caminho do arquivo.

set_column_types
dict[str, DataType]
Obrigatório

Um dicionário para definir o tipo de dados da coluna, em que a chave é o nome da coluna e o valor é DataType.

partition_format
str
Obrigatório

Especifica o formato de partição do caminho. Assume o valor padrão de Nenhum. As informações de partição de cada caminho serão extraídas em colunas com base no formato especificado. A parte do formato '{column_name}' cria uma coluna de cadeia de caracteres e '{column_name:yyyy/MM/dd/HH/mm/ss}' cria a coluna datetime, na qual 'yyyy', 'MM', 'dd', 'HH', 'mm' e 'ss' são usados para extrair ano, mês, dia, hora, minuto e segundos para o tipo datetime. O formato deve começar da posição da primeira chave de partição até o final do caminho do arquivo. Por exemplo, considerando o caminho '../Accounts/2019/01/01/data.parquet' em que a partição é por hora e nome do departamento, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' cria uma coluna de cadeia de caracteres 'Department' com o valor 'Accounts' e uma coluna datetime 'PartitionDate' com o valor '2019-01-01'.

Retornos

Retorna um objeto TabularDataset.

Tipo de retorno

Comentários

from_parquet_files cria um objeto da classe TabularDataset, que define as operações para carregar dados de arquivos Parquet em representação tabular.

Para que os dados sejam acessíveis pelo Azure Machine Learning, os arquivos Parquet especificados por caminho devem estar localizados nas Datastore URLs da Web públicas ou na URL do Blob, do ADLS Gen1 e do ADLS Gen2. O token do AAD dos usuários será usado no notebook ou no programa python local se ele chamar diretamente uma destas funções: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files a identidade do destino de computação será usada em trabalhos enviados pelo Experiment.submit para autenticação de acesso a dados. Saiba mais: https://aka.ms/data-access

Os tipos de dados de coluna são lidos de tipos de dados salvos nos arquivos Parquet. Se fornecido, set_column_types substituirá o tipo de dados para as colunas especificadas no TabularDataset retornado.


   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/2018/11.parquet'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/'))

   # create tabular dataset from all parquet files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/**/*.parquet'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.parquet'), (datastore, 'weather/2018/12.parquet')]
   tabular_dataset_4 = Dataset.Tabular.from_parquet_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_parquet_files(path='https://url/weather/2018/12.parquet')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.parquet',
       'https://url/weather/2018/12.parquet'
   ]
   tabular = Dataset.Tabular.from_parquet_files(path=web_path, set_column_types=data_types)

from_sql_query

Crie um TabularDataset para representar dados tabular em bancos de dados SQL.

static from_sql_query(query, validate=True, set_column_types=None, query_timeout=30)

Parâmetros

query
Union[DataPath, (Datastore, str)]
Obrigatório

Um armazenamento de dados de tipo SQL e uma consulta.

validate
bool
Obrigatório

Booliano para validar se os dados poderem ser carregados do conjunto de dados retornado. O padrão é True. A validação requer que a fonte de dados seja acessível a partir da computação atual.

set_column_types
dict[str, DataType]
Obrigatório

Um dicionário para definir o tipo de dados da coluna, em que a chave é o nome da coluna e o valor é DataType.

query_timeout
Obrigatório

Define o tempo de espera (em segundos) antes de encerrar a tentativa de executar um comando e antes de gerar um erro. O padrão é 30 segundos.

Retornos

Retorna um objeto TabularDataset.

Tipo de retorno

Comentários

from_sql_query cria um objeto da classe TabularDataset, que define as operações para carregar dados de bancos de dados SQL em representação tabular. No momento, só damos suporte para MSSQLDataSource.

Para que os dados sejam acessíveis por Azure Machine Learning, o banco de dados SQL especificado por query precisa estar localizado em Datastore e o tipo de armazenamento de dados deve ser SQL.

Os tipos de dados de coluna são lidos de tipos de dados no resultado da consulta SQL. Se fornecido, set_column_types substituirá o tipo de dados para as colunas especificadas no TabularDataset retornado.


   from azureml.core import Dataset, Datastore
   from azureml.data.datapath import DataPath

   # create tabular dataset from a SQL database in datastore
   datastore = Datastore.get(workspace, 'mssql')
   query = DataPath(datastore, 'SELECT * FROM my_table')
   tabular = Dataset.Tabular.from_sql_query(query, query_timeout=10)
   df = tabular.to_pandas_dataframe()

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   tabular = Dataset.Tabular.from_sql_query(query, set_column_types=data_types)

register_dask_dataframe

Observação

Esse é um método experimental e pode mudar a qualquer momento. Consulte https://aka.ms/azuremlexperimental para obter mais informações.

Criar um conjunto de dados a partir de um dataframe do dask.

static register_dask_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True)

Parâmetros

dataframe
<xref:dask.dataframe.core.DataFrame>
Obrigatório

Obrigatório. O dataframe do dask a ser carregado.

target
Union[DataPath, Datastore, tuple(Datastore, str)]
Obrigatório

Obrigatório, o caminho do armazenamento de dados no qual os dados parquet do dataframe serão carregados. Uma pasta guid será gerada no caminho de destino para evitar conflitos.

name
str
Obrigatório

Obrigatório, o nome do conjunto de dados registrado.

description
str
Obrigatório

Opcional. Uma descrição de texto do conjunto de dados. Assume o valor padrão de Nenhum.

tags
dict[str, str]
Obrigatório

Opcional. Dicionário de marcas de chave-valor a serem fornecidas ao conjunto de dados. Assume o valor padrão de Nenhum.

show_progress
bool
Obrigatório

Opcional, indica se é preciso mostrar o progresso do upload no console. O padrão é True.

Retornos

O conjunto de dados registrado.

Tipo de retorno

register_pandas_dataframe

Criar um conjunto de dados a partir de um dataframe do Pandas.

static register_pandas_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True, row_group_size=None, make_target_path_unique=True)

Parâmetros

dataframe
DataFrame
Obrigatório

Obrigatório. O dataframe na memória a ser carregado.

target
Union[DataPath, Datastore, tuple(Datastore, str)]
Obrigatório

Obrigatório, o caminho do armazenamento de dados no qual os dados parquet do dataframe serão carregados. Uma pasta guid será gerada no caminho de destino para evitar conflitos.

name
str
Obrigatório

Obrigatório, o nome do conjunto de dados registrado.

description
int
Obrigatório

Opcional. Uma descrição de texto do conjunto de dados. Assume o valor padrão de Nenhum.

tags
dict[str, str]
Obrigatório

Opcional. Dicionário de marcas de chave-valor a serem fornecidas ao conjunto de dados. Assume o valor padrão de Nenhum.

show_progress
bool
Obrigatório

Opcional, indica se é preciso mostrar o progresso do upload no console. O padrão é True.

row_group_size
Obrigatório

Opcional. Tamanho máximo do grupo de linhas a ser usado ao gravar o arquivo parquet. Assume o valor padrão de Nenhum.

make_target_path_unique
Obrigatório

Opcional, indica se a subpasta exclusiva deve ser criada no destino. O padrão é True.

Retornos

O conjunto de dados registrado.

Tipo de retorno

register_spark_dataframe

Observação

Esse é um método experimental e pode mudar a qualquer momento. Consulte https://aka.ms/azuremlexperimental para obter mais informações.

Criar um conjunto de dados a partir de um dataframe do spark.

static register_spark_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True)

Parâmetros

dataframe
DataFrame
Obrigatório

Obrigatório. O dataframe na memória a ser carregado.

target
Union[DataPath, Datastore, tuple(Datastore, str)]
Obrigatório

Obrigatório, o caminho do armazenamento de dados no qual os dados parquet do dataframe serão carregados. Uma pasta guid será gerada no caminho de destino para evitar conflitos.

name
str
Obrigatório

Obrigatório, o nome do conjunto de dados registrado.

description
str
Obrigatório

Opcional. Uma descrição de texto do conjunto de dados. Assume o valor padrão de Nenhum.

tags
dict[str, str]
Obrigatório

Opcional. Dicionário de marcas de chave-valor a serem fornecidas ao conjunto de dados. Assume o valor padrão de Nenhum.

show_progress
bool
Obrigatório

Opcional, indica se é preciso mostrar o progresso do upload no console. O padrão é True.

Retornos

O conjunto de dados registrado.

Tipo de retorno