Importar dados

Artigo
05/06/2019

Importante

O suporte para o Machine Learning Studio (clássico) terminará em 31 de agosto de 2024. É recomendável fazer a transição para o Azure Machine Learning até essa data.

A partir de 1º de dezembro de 2021, você não poderá criar recursos do Machine Learning Studio (clássico). Até 31 de agosto de 2024, você pode continuar usando os recursos existentes do Machine Learning Studio (clássico).

Confira informações sobre como mover projetos de machine learning do ML Studio (clássico) para o Azure Machine Learning.
Saiba mais sobre o Azure Machine Learning.

A documentação do ML Studio (clássico) está sendo desativada e pode não ser atualizada no futuro.

Carrega dados de fontes externas na Web; de várias formas de armazenamento baseado em nuvem no Azure, como tabelas, blobs e bancos de dados SQL; e de bancos de dados SQL Server locais

Categoria: Entrada e saída de dados

Observação

Aplica-se a: somente Machine Learning Studio (clássico)

Módulos semelhantes do tipo "arrastar e soltar" estão disponíveis no designer do Azure Machine Learning.

Visão geral do módulo

Este artigo descreve como usar o módulo Importar Dados no Machine Learning Studio (clássico) para carregar dados em um experimento de machine learning de serviços de dados de nuvem existentes.

O módulo agora apresenta um assistente para ajudá-lo a escolher uma opção de armazenamento e selecionar entre as assinaturas e contas existentes para configurar rapidamente todas as opções. Precisa editar uma conexão de dados existente? Sem problema; o assistente carrega todos os detalhes de configuração anteriores para que você não precise começar novamente do zero.

Depois de definir os dados desejados e se conectar à origem, Importar Dados infere o tipo de dados de cada coluna com base nos valores que ela contém e carrega os dados em seu workspace do Machine Learning Studio (clássico). A saída de Importar Dados é um conjunto de dados que pode ser usado com qualquer experimento.

Importante

Atualmente, há limitações nos tipos de contas de armazenamento com suporte. Para obter mais informações, consulte Notas Técnicas.

Se os dados de origem forem alterados, você poderá atualizar o conjunto de dados e adicionar novos dados executando novamente os Dados de Importação. No entanto, se você não quiser ler novamente da origem sempre que executar o experimento, selecione a opção Usar resultados armazenados em cache para TRUE. Quando essa opção é selecionada, o módulo verifica se o experimento foi executado anteriormente usando a mesma origem e as mesmas opções de entrada. Se uma execução anterior for encontrada, os dados no cache serão usados, em vez de recarregar os dados da origem.

Observação

Este módulo foi anteriormente chamado de Leitor. Se você usou anteriormente o módulo Leitor em um experimento, ele será renomeado para Importar Dados ao atualizar o experimento.

Fontes de dados

O módulo Importar Dados dá suporte às seguintes fontes de dados. Clique nos links para obter instruções detalhadas e exemplos de como usar cada fonte de dados.

Se você não tiver certeza de como ou onde deve armazenar seus dados, consulte este guia para cenários de dados comuns no processo de ciência de dados: cenários de análise avançada em Machine Learning.

Fonte de dados	Usar com
URL da Web via HTTP	Obter dados hospedados em uma URL da Web que usa HTTP e que foram fornecidos nos formatos CSV, TSV, ARFF ou SvmLight
Consulta de Hive	Obtenha dados do armazenamento distribuído no Hadoop. Especifique os dados desejados usando a linguagem HiveQL
Banco de Dados SQL do Azure	Obter dados de Banco de Dados SQL do Azure ou de SQL do Azure Data Warehouse
Tabela do Azure	Obter dados armazenados no serviço de tabela do Azure
Importar do Armazenamento de Blobs do Azure	Obter dados armazenados no serviço de blob do Azure
Provedores de Feed de Dados	Obter dados expostos como um feed no formato OData
Importar de um Banco de dados do SQL Server local	Obter dados de um banco de dados SQL Server local usando o Gateway de Gerenciamento de Dados da Microsoft
Azure Cosmos DB	Obter dados armazenados no formato JSON no Azure Cosmos BD.

Dica

Precisa importar dados no formato JSON? O R e o Python dão suporte a APIs REST, portanto, use os módulos Executar Script Python ou Executar Script R para analisar seus dados e salvá-los como um conjunto de dados do Azure ML.

Ou use a API de banco de dados SQL para CosmosDB, que dá suporte a vários repositórios JSON, incluindo MongoDB, para ler seus dados usando a opção Importar do Azure Cosmos banco de dados. Para obter mais informações, consulte Importar do BD do Cosmos do Azure.

Como usar a importação de dados

Adicione o módulo Importar Dados ao experimento. Você pode encontrar este módulo na categoria Entrada e Saída de Dados no Studio (clássico).
Clique em Iniciar Assistente de Importação de Dados para configurar a fonte de dados usando um assistente.

O assistente obtém o nome e as credenciais da conta e ajuda você a configurar outras opções. Se você estiver editando uma configuração existente, ela carregará os valores atuais primeiro.
Se você não quiser usar o assistente, clique na fonte de dados e escolha o tipo de armazenamento baseado em nuvem do qual está lendo.

As configurações adicionais dependem do tipo de armazenamento escolhido e se o armazenamento está protegido ou não. Talvez seja necessário fornecer o nome da conta, o tipo de arquivo ou as credenciais. Algumas fontes não exigem autenticação; para outras pessoas, talvez seja necessário saber o nome da conta, uma chave ou o nome do contêiner.

Para obter detalhes, consulte a lista de fontes de dados.
Selecione a opção Usar resultados armazenados em cache se quiser armazenar em cache o conjunto de dados para reutilização em execuções sucessivas.

Supondo que não tenha havido outras alterações nos parâmetros do módulo, o experimento carrega os dados apenas na primeira vez em que o módulo é executado e, depois disso, usa uma versão armazenada em cache do conjunto de dados.

Desmarque essa opção se precisar recarregar os dados sempre que executar o experimento.
Execute o experimento.

Quando Importar Dados carrega os dados no Studio (clássico), ele infere o tipo de dados de cada coluna com base nos valores que ele contém, numéricos ou categóricos.
- Se houver um cabeçalho, ele será usado para nomear as colunas do conjunto de dados de saída.
- Se não houver nenhum cabeçalho de coluna existente nos dados, novos nomes de coluna serão gerados usando o formato col1, col2,… ,coln.

Resultados

Quando a importação for concluída, clique no conjunto de dados de saída e selecione Visualizar para ver se os dados foram importados com êxito.

Se você quiser salvar os dados para reutilização, em vez de importar um novo conjunto de dados sempre que o experimento for executado, clique com o botão direito do mouse na saída e selecione Salvar como Conjunto de Dados. Escolha um nome para o conjunto de dados. O conjunto de dados salvo preserva os dados no momento da economia e os dados não são atualizados quando o experimento é executado novamente, mesmo que o conjunto de dados no experimento seja alterado. Isso pode ser útil para tirar instantâneos de dados.

Depois de importar os dados, talvez sejam necessários alguns preparativos adicionais para modelagem e análise:

Gere resumos estatísticos dos dados usando Resumir Dados ou Estatísticas Primárias de Computação.
Use Editar Metadados para alterar nomes de coluna, para manipular uma coluna como um tipo de dados diferente ou para indicar que algumas colunas são rótulos ou recursos.
Use Selecionar Colunas no Conjunto de Dados para selecionar um subconjunto de colunas a serem transformadas ou usadas na modelagem. As colunas transformadas ou removidas podem ser facilmente retornadas ao conjunto de dados original usando o módulo Adicionar Colunas ou o módulo Unir Dados .
Use Particionar e Realizar Amostragem para dividir o conjunto de dados, executar amostragem ou obter as n primeiras linhas.
Use a Transformação Aplicar SQL para agregar dados, filtrar ou transformar usando instruções SQL.
Use esses módulos para limpar colunas de texto e gerar novos recursos de texto:
- Pré-processar Texto
- Extrair recursos N-Gram do texto
- Reconhecimento de entidade nomeada
- Execute o Script Python para implementar o NLP personalizado com base no nltk.

Observações técnicas

Esta seção fornece uma lista de problemas conhecidos com o módulo Importar Dados , bem como algumas informações gerais de solução de problemas não específicas para um tipo de origem.

Tipos de conta com suporte

Frequentemente, o Azure libera novos serviços ou novos tipos de armazenamento; no entanto, normalmente há um atraso enquanto o suporte para novos tipos de conta é implementado no Machine Learning Studio (clássico).

Atualmente, Machine Learning dá suporte a todas as contas de armazenamento de uso geral, exceto aquelas que usam ZRS (armazenamento com redundância de zona).
Há suporte para LRS (armazenamento com redundância local) e opções de armazenamento com redundância geográfica.
Há suporte para blobs de blocos, mas os blobs de acréscimo não são.

Perguntas e problemas comuns

Esta seção descreve alguns problemas conhecidos, perguntas comuns e soluções alternativas.

Cabeçalhos devem ser linhas simples

Se você estiver importando de arquivos CSV, lembre-se de que Machine Learning permite uma única linha de cabeçalho. Não é possível inserir cabeçalhos de várias linhas.

Separadores personalizados com suporte na importação, mas não na exportação

O módulo Importar Dados dá suporte à importação de dados que usam separadores de coluna alternativos, como o ponto e vírgula (;), que geralmente é usado na Europa. Ao importar dados de arquivos CSV no armazenamento externo, selecione o CSV com a opção de codificações e escolha uma codificação com suporte.

No entanto, você não pode gerar separadores alternativos ao preparar dados para exportação usando o módulo Converter em CSV .

Separação de coluna ruim em dados de cadeia de caracteres que contêm vírgulas

Quase todos os caracteres que podem ser especificados como separador de coluna (guias, espaços, vírgulas etc.) também podem ser encontrados aleatoriamente em campos de texto. Importar texto do CSV sempre requer cautela para evitar a separação de texto entre novas colunas desnecessárias. É um problema comum no processamento de texto que você provavelmente encontrou e lidou de maneiras diferentes.

Problemas também podem ocorrer quando você tenta exportar uma coluna de dados de cadeia de caracteres que contém vírgulas. Machine Learning não dá suporte a tratamento especial ou tradução especial desses dados, como incluir cadeias de caracteres entre aspas. Além disso, você não pode usar caracteres de escape antes de uma vírgula para garantir que vírgulas sejam tratadas como um caractere literal. Como consequência, novos campos são criados no arquivo de saída para cada vírgula encontrada no campo de cadeia de caracteres.

Para evitar problemas na exportação, use o módulo Pré-processar Texto para remover caracteres de pontuação dos campos de cadeia de caracteres.

Você também pode usar script R personalizado ou script Python para processar texto complexo e garantir que os dados possam ser importados ou exportados corretamente.

Codificação UTF-8 necessária

Machine Learning requer codificação UTF-8. Se os dados que você está importando usarem uma codificação diferente ou forem exportados de uma fonte de dados que usa uma codificação padrão diferente, vários problemas poderão aparecer no texto.

Por exemplo, a imagem a seguir contém o mesmo conjunto de dados multilanguage exportado de Excel e, em seguida, importado para Machine Learning em quatro combinações diferentes de tipo de arquivo e codificação.

Visualization of import encoding

O terceiro exemplo representa os dados que foram perdidos durante o salvamento de Excel no formato CSV, porque a codificação correta não foi especificada naquele momento. Portanto, se você tiver problemas, verifique não apenas o arquivo do qual você está importando, mas se o arquivo foi exportado corretamente da origem.

O conjunto de dados não tem nomes de coluna

Se o conjunto de dados que você está importando não tiver nomes de coluna, especifique uma das opções "sem cabeçalho". Ao fazer isso, a Importação de Dados adiciona nomes de coluna padrão usando o formato Col1, Col2 etc. Posteriormente, use Editar Metadados para corrigir os nomes das colunas.

Se você estiver exportando um conjunto de dados para um arquivo CSV, use Editar Metadados para adicionar nomes de coluna antes de convertê-lo ou exportá-lo.

Soluções alternativas para fontes de dados sem suporte

Se você precisar obter dados de uma fonte que não esteja na lista, há várias soluções alternativas que você pode tentar:

Para carregar dados de um arquivo em seu computador, clique em Novo no Studio (clássico), selecione Conjunto de Dados e selecione De Arquivo Local. Localize o arquivo e especifique o formato (TSV, CSV, etc.). Para obter mais informações, consulte Importar dados de treinamento para o Studio (clássico).
Use R ou Python. Você pode usar o módulo Executar Script R com um pacote R apropriado para obter dados de outros bancos de dados de nuvem.

O módulo Executar Script Python também permite que você leia e converta dados de uma variedade de fontes. Veja estes exemplos de cientistas de dados da Microsoft na Cortana Intelligence Gallery:

Converter PDF em Texto

Carregar arquivo sem texto do armazenamento de blobs do Azure
Obtenha dados de clusters AWS. Você pode executar uma consulta em um cluster hive genérico com WebHCat ou ponto de extremidade HCatalog habilitado. Ou publique como uma página e leia da URL da Web.
Obtenha dados de MongoDB. O utilitário de migração de dados do Azure Cosmos DB dá suporte a uma ampla variedade de fontes e formatos. Para obter mais informações e exemplos, consulte Azure Cosmos DB: ferramenta de migração de dados

Para obter mais ideias e soluções alternativas, consulte o fórum Machine Learning ou a Galeria de IA do Azure.

Parâmetros do módulo

Cada fonte de dados deve ser configurada usando opções diferentes. Esta tabela lista apenas as opções comuns a todas as fontes de dados.

Nome	Intervalo	Type	Padrão	Descrição
Fonte de dados	Lista	DataSource ou coletor	Serviço blob no Armazenamento do Azure	A fonte de dados pode ser HTTP, HTTPS anônimo, um arquivo no serviço blob ou no serviço Tabela, um banco de dados SQL no Azure, um SQL do Azure Data Warehouse, uma tabela do Hive ou um ponto de extremidade OData.
Usar resultados armazenados em cache	TRUE/FALSE	Boolean	FALSE	Se TRUE, o módulo verificará se o experimento foi executado anteriormente usando a mesma origem e as mesmas opções de entrada e, se uma execução anterior for encontrada, os dados no cache serão usados. Se FOR FALSO ou se forem encontradas alterações, os dados serão recarregados da origem.

Saídas

Nome	Tipo	Descrição
Conjunto de dados de resultados	Tabela de Dados	Conjunto de dados com dados baixados

Exceções

Exceção	Descrição
Erro 0027	Uma exceção ocorre quando dois objetos precisam ser do mesmo tamanho, mas eles não são.
Erro 0003	Ocorrerá uma exceção se uma ou mais das entradas forem nulas ou estiverem vazias.
Erro 0029	Ocorrerá uma exceção quando um URI inválido for passado.
Erro 0030	ocorrerá uma exceção quando não for possível baixar um arquivo.
Erro 0002	Ocorrerá uma exceção se um ou mais parâmetros não puderem ser analisados ou convertidos do tipo especificado para o tipo exigido pelo método de destino.
Erro 0009	Ocorrerá uma exceção se o nome da conta de armazenamento do Azure ou o nome do contêiner foi especificado incorretamente.
Erro 0048	Uma exceção ocorre quando não for possível abrir um arquivo.
Erro 0015	Ocorrerá uma exceção se houve uma falha na conexão de banco de dados.
Erro 0046	Ocorrerá uma exceção quando não for possível criar um diretório no caminho especificado.
Erro 0049	Uma exceção ocorre quando não for possível analisar um arquivo.

Para obter uma lista de erros específicos dos módulos do Studio (clássico), consulte Machine Learning códigos de erro.

Para obter uma lista de exceções de API, consulte Machine Learning códigos de erro da API REST.

Confira também

Entrada e saída de dados
Conversões de Formato de Dados
Exportar dados
Lista de Módulo A-Z