Desempacotar conjuntos de dados compactados

Desempacota conjuntos de os DataSets de um pacote zip no armazenamento do usuário

Categoria: entrada e saída de dados

Observação

aplica-se a: somente Machine Learning Studio (clássico)

Módulos semelhantes do tipo "arrastar e soltar" estão disponíveis no designer do Azure Machine Learning.

Visão geral do módulo

este artigo descreve como usar o módulo desempacotar conjuntos de dados compactados no Machine Learning Studio (clássico), para carregar arquivos de script e de arquivo em formato compactado e, em seguida, descompactá-los para uso em um experimento.

A finalidade desse módulo é reduzir os tempos de transferência de dados ao trabalhar com conjuntos de grandes volumes de dados, salvando e carregando seus arquivos em formato compactado. Em geral, os arquivos compactados são uma boa opção quando o conjunto de seus DataSet é tão grande que você deseja usar a compactação para o upload, para minimizar o tempo de carregamento e os custos associados.

O módulo usa como entrada um conjunto de dados em seu espaço de trabalho. O conjunto de conjuntos deve ter sido carregado em um formato compactado. Em seguida, o módulo descompacta o conjunto de dados e os adiciona ao espaço de trabalho.

Como usar os conjuntos de valores compactados desempacotados

esta seção descreve como preparar seus dados e descompactá-los no Machine Learning Studio (clássico).

Etapa 1. Preparar os arquivos

Antes de carregar o arquivo, verifique se os dados no arquivo podem ser usados no Machine Learning:

  • Verifique se os dados no arquivo usam a codificação UTF-8.

    se o arquivo for pequeno o suficiente, você poderá abri-lo no Bloco de notas e, em seguida, salvar o arquivo na codificação desejada. Muitos outros editores de texto oferecem funcionalidade semelhante. para arquivos CSV, você pode usar os comandos salvar como ou exportar do Excel para especificar um formato e uma codificação de arquivo.

  • Verifique se os arquivos de dados usam um formatocom suporte, como CSV, TSV, ARFF ou SVMLight.

  • Compacte os dados adicionando o arquivo de dados a um .ZIP ou. Arquivo morto de formato GZ. Não há suporte para outros tipos de arquivo.

  • Remova a proteção por senha. Se qualquer um dos arquivos ou a pasta compactada tiver sido criptografada ou protegida por senha, você deverá desbloquear ou descriptografar o arquivo antes de carregá-lo. O módulo não pode detectar tipos de dados criptografados e não oferece suporte a caixas de diálogo para entrada de senha de clientes arbitrários.

Etapa 2. Upload dataset ao seu espaço de trabalho

Em seguida, carregue o conjunto de testes compactado em seu espaço de trabalho de experimento.

  1. Clique em novo, selecione conjuntode e selecione do arquivo local.

  2. Localize o arquivo compactado a ser carregado. Quando você seleciona o arquivo, o tipo deve ser definido automaticamente como arquivo zip (.zip).

Etapa 3. Adicionar conjunto de testes zipado ao experimento

Depois que o conjunto de testes for completamente carregado, adicione-o ao seu experimento no formato compactado.

  1. no painel de navegação à esquerda do Machine Learning Studio (clássico), selecione datasets salvose expanda meus conjuntosde os.

  2. Localize o conjunto de teste compactado que você acabou de carregar e arraste-o para a tela do experimento.

Etapa 4. Desempacotar conjunto de um

A etapa final é desempacotar o conjunto de um.

  1. Conexão o conjunto de dados compactado para a entrada do módulo desempacotar conjuntos de dados compactados .

  2. Em conjunto de um para desempacotar, digite o nome de um único conjunto de um para desempacotar.

    • se você salvou uma planilha com o nome plan1 como um arquivo CSV Excel chamado Test.csv, o nome do conjunto de um será Test.csv, e não Sheet1.

    • O nome que você digitar na caixa de texto conjunto de um para desempacotar deve ser exatamente o mesmo que o nome do arquivo original antes de ser compactado, incluindo a extensão de nome de arquivo. Por exemplo, se você quiser desempacotar um conjunto de um DataSet com base no arquivo de texto Users.txt, digite Users.txt, e não os usuários.

    • Se você colocar vários arquivos em uma pasta compactada, deverá desempacotar um conjunto de um de cada vez.

    Dica

    Se você deixar a propriedade em branco, o módulo obterá o nome de arquivo do arquivo compactado, supondo que o arquivo morto compactado contenha apenas um arquivo de origem. Se o arquivo compactado contiver vários arquivos, um erro em tempo de execução será gerado.

  3. Para o formato de arquivo do conjunto de arquivos, especifique o formato original do conjunto de um: ou seja, o formato antes de ele ser compactado.

    Você pode carregar e descompactar conjuntos de valores que foram criados usando qualquer um destes formatos: CSV, ARFF, TSV, SvmLight.

    Se essa propriedade for deixada vazia, o módulo identificará o conjunto de espaço usando o nome do arquivo de origem.

  4. Selecione a opção, arquivo tem a linha de cabeçalho, se o conjunto de um original tiver uma linha de cabeçalho. Caso contrário, a primeira linha de dados será usada como o cabeçalho. Se isso não for o que você deseja, adicione um cabeçalho antes da entrada.

    Essa opção se aplica somente a .CSV e. Arquivos TSV.

    Observação

    Se você alterar o formato do arquivo, essa opção será redefinida.

  5. Se o arquivo estiver compactado, use a opção formato de arquivo de compactação para especificar o algoritmo que foi usado para compactar ou expandir o arquivo.

    Atualmente, há suporte para os formatos .ZIP e GZ (ou gzip).

  6. Execute o experimento.

Resultados

  • Para verificar se os dados foram importados corretamente, clique com o botão direito do mouse no módulo de conjuntos de dados compactados desempacotados e selecione Visualizar .

  • Para alterar o nome do conjunto de um, clique com o botão direito do mouse no módulo pacotes de conjuntos de bits desempacotados e selecione salvar como conjunto delinhas. Neste ponto, você pode digitar um nome diferente.

    Essa opção será útil se você estiver desempacotando vários conjuntos de arquivos de um único arquivo ZIP.

Exemplos

Para demonstrar como esse módulo funciona, criamos um arquivo de .ZIP de exemplo contendo quatro arquivos CSV diferentes. Todos os arquivos foram salvos de Excel.

Nome do arquivo Descrição
names-uni.csv Arquivo Unicode com títulos de coluna
names-utf.csv Arquivo UTF-8 com cabeçalhos de coluna
nonames-uni.csv Arquivo Unicode sem títulos de coluna
nonames-utf8.csv Arquivo UTF-8 sem títulos de coluna

O arquivo compactado inteiro foi carregado e, em seguida, o módulo desempacotar conjuntos de arquivos compactados foi executado quatro vezes para extrair cada um dos quatro arquivos, usando estas configurações:

  1. Conjunto de linhas a ser desempacotado = names-uni.csv, o arquivo tem a linha de cabeçalho = true
  2. Conjunto de linhas a ser desempacotado = names-utf8.csv, o arquivo tem a linha de cabeçalho = true
  3. Conjunto de linhas para desempacotar = nonames-uni.csv, o arquivo tem cabeçalho linha = falso
  4. Conjunto de linhas para desempacotar = nonames-utf8.csv, o arquivo tem cabeçalho linha = falso

Os resultados foram conforme o esperado:

Nome do arquivo resultado de Upload
names-uni.csv Erro 0049: erro ao analisar o arquivo. O arquivo não é codificado em Unicode (UTF-8)
names-utf8.csv Êxito. Usa nomes de coluna originais do arquivo de origem.
nonames-uni.csv Erro 0049: erro ao analisar o arquivo. O arquivo não é codificado em Unicode (UTF-8)
nonames-utf8.csv Êxito. Nomes de colunas Col1, Col2,... a colunan é adicionada automaticamente ao conjunto de os.

Observação

Se você usar a opção, File tem cabeçalho Row = true e o arquivo de origem não tiver um título de coluna, a primeira linha de dados será usada como o título de coluna.

Observações técnicas

Você não pode usar este módulo para desempacotar pacotes R compactados em seu espaço de trabalho. Os pacotes de R devem ser carregados e consumidos como arquivos compactados.

Para obter mais informações sobre como trabalhar com pacotes de R compactados, consulte Executar script r.

Observação

Confuso sobre a diferença entre UTF-8 e Unicode? Consulte este artigo da Wikipédia: o que é UTF-8

Parâmetros do módulo

Nome Intervalo Type Padrão Descrição
Formato do arquivo de compactação Zip

Gzip
regra de compactação Zip Algoritmo de compactação usado para compactar ou expandir o arquivo.
Conjunto de um para desempacotar Qualquer String nenhum nome do conjunto de registros a ser registrado com o ML Studio do Azure (clássico). Se o nome de um conjunto de um DataSet não for especificado, o nome será obtido do nome do arquivo no arquivo compactado.
Formato de arquivo do conjunto de arquivos CSV

TSV

ARFF

SVMLIGHT
Formato de arquivo CSV Formato de arquivo do conjunto de entrada no arquivo compactado
O arquivo tem uma linha de cabeçalho TRUE/FALSE Booliano Falso Definir como true somente se o arquivo CSV/TSV tiver uma linha de cabeçalho

Entradas esperadas

Nome Tipo Descrição
Dataset Zip Arquivo compactado contendo conjuntos de os

Saída

Nome Tipo Descrição
Conjunto de dados de resultados Tabela de Dados Conjunto de dados de saída

Confira também

Entrada e saída de dados