FileDatasetFactory Classe

Contém métodos para criar um conjunto de dados de arquivo para o Azure Machine Learning.

Um FileDataset é criado a partir do método from_files definido nesta classe.

Para obter mais informações sobre como trabalhar com conjuntos de dados de arquivos, consulte o notebook https://aka.ms/filedataset-samplenotebook.

Herança
builtins.object
FileDatasetFactory

Construtor

FileDatasetFactory()

Métodos

from_files

Criar um FileDataset para representar fluxos de arquivos.

upload_directory

Criar um conjunto de dados a partir do diretório de origem.

from_files

Criar um FileDataset para representar fluxos de arquivos.

static from_files(path, validate=True, partition_format=None, is_file=False)

Parâmetros

path
Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]]
Obrigatório

O caminho para os arquivos de origem, que podem ser um único valor ou lista de cadeia de caracteres de URL (http[s]|abfs[s]|wasb[s]), DataPath objeto ou tupla de Datastore e caminho relativo. Observe que a lista de caminhos não pode incluir URLs e armazenamentos de dados juntos.

validate
bool
Obrigatório

Indica se é necessário validar se os dados podem ser carregados do conjunto de dados retornado. O padrão é True. A validação requer que a fonte de dados seja acessível a partir da computação atual.

partition_format
str
Obrigatório

Especifica o formato de partição do caminho. Assume o valor padrão de Nenhum. As informações de partição de cada caminho serão extraídas em colunas com base no formato especificado. A parte do formato '{column_name}' cria uma coluna de cadeia de caracteres e '{column_name:yyyy/MM/dd/HH/mm/ss}' cria a coluna datetime, na qual 'yyyy', 'MM', 'dd', 'HH', 'mm' e 'ss' são usados para extrair ano, mês, dia, hora, minuto e segundos para o tipo datetime. O formato deve começar da posição da primeira chave de partição até o final do caminho do arquivo. Por exemplo, considerando o caminho '../Accounts/2019/01/01/data.jsonl' em que a partição é por hora e nome do departamento, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' cria uma coluna de cadeia de caracteres 'Department' com o valor 'Accounts' e uma coluna datetime 'PartitionDate' com o valor '2019-01-01'.

is_file
bool
Obrigatório

Indica se todos os caminhos de entrada apontam para arquivos. Por padrão, o mecanismo de conjunto de dados tenta verificar se os caminhos de entrada apontam para arquivos. Defina esse sinalizador como True quando todos os caminhos de entrada forem arquivos para acelerar a criação de conjuntos de dados.

Retornos

Um objeto FileDataset.

Tipo de retorno

Comentários

from_files cria um objeto da classe FileDataset, que define as operações para carregar fluxos de arquivos do caminho fornecido.

Para que os dados sejam acessíveis pelo Azure Machine Learning, os arquivos especificados por path devem estar localizados em um Datastore ou estar acessíveis com URLs da Web públicas ou url de Blob, ADLS Gen1 e ADLS Gen2.

O token do AAD dos usuários será usado no notebook ou no programa python local se ele chamar diretamente uma destas funções: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files a identidade do destino de computação será usada em trabalhos enviados pelo Experiment.submit para autenticação de acesso a dados. Saiba mais: https://aka.ms/data-access


   from azureml.core import Dataset, Datastore

   # create file dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   file_dataset_1 = Dataset.File.from_files(path=(datastore,'image/dog.jpg'))

   # create file dataset from a single directory in datastore
   file_dataset_2 = Dataset.File.from_files(path=(datastore, 'image/'))

   # create file dataset from all jpeg files in the directory
   file_dataset_3 = Dataset.File.from_files(path=(datastore,'image/**/*.jpg'))

   # create filedataset from multiple paths
   data_paths = [(datastore, 'image/dog.jpg'), (datastore, 'image/cat.jpg')]
   file_dataset_4 = Dataset.File.from_files(path=data_paths)

   # create file dataset from url
   file_dataset_5 = Dataset.File.from_files(path='https://url/image/cat.jpg')

upload_directory

Criar um conjunto de dados a partir do diretório de origem.

static upload_directory(src_dir, target, pattern=None, overwrite=False, show_progress=True)

Parâmetros

src_dir
str
Obrigatório

O diretório local para upload.

target
Union[DataPath, Datastore, tuple(Datastore, str)]
Obrigatório

Obrigatório, o caminho do armazenamento de dados para o qual os arquivos serão carregados.

pattern
str
Obrigatório

Opcional, se fornecido, filtrará todos os nomes de caminho correspondentes ao padrão fornecido, semelhante ao pacote Python glob, compatível com '*', '?' e intervalos de caracteres expressos com [].

show_progress
bool
Obrigatório

Opcional, indica se é preciso mostrar o progresso do upload no console. O padrão é True.

Retornos

O conjunto de dados registrado.

Tipo de retorno