Importar da URL da Web via HTTP

Artigo
05/06/2019

Importante

O suporte para o Machine Learning Studio (clássico) terminará em 31 de agosto de 2024. É recomendável fazer a transição para o Azure Machine Learning até essa data.

A partir de 1º de dezembro de 2021, você não poderá criar recursos do Machine Learning Studio (clássico). Até 31 de agosto de 2024, você pode continuar usando os recursos existentes do Machine Learning Studio (clássico).

Confira informações sobre como mover projetos de machine learning do ML Studio (clássico) para o Azure Machine Learning.
Saiba mais sobre o Azure Machine Learning.

A documentação do ML Studio (clássico) está sendo desativada e pode não ser atualizada no futuro.

Este artigo descreve como usar o módulo Importar Dados no Machine Learning Studio (clássico) para ler dados de uma página da Web pública para uso em um experimento de machine learning.

Observação

Aplica-se a: Machine Learning Studio (clássico) somente

Módulos semelhantes do tipo "arrastar e soltar" estão disponíveis no designer do Azure Machine Learning.

As seguintes restrições se aplicam aos dados publicados em uma página da Web:

Os dados devem estar em um dos formatos com suporte: CSV, TSV, ARFF ou SvmLight. Outros dados causarão erros.
Nenhuma autenticação é necessária ou suportada. Os dados devem estar disponíveis publicamente.

Como importar dados via HTTP

Há duas maneiras de obter dados: usar o assistente para configurar a fonte de dados ou configurá-la manualmente.

Usar o Assistente de Importação de Dados

Adicione o módulo Importar Dados ao seu experimento. Você pode encontrar o módulo no Studio (clássico), na categoria Entrada e Saída de Dados.
Clique em Iniciar Assistente de Importação de Dados e selecione URL da Web via HTTP.
Colar na URL e selecionar um formato de dados.
Quando a configuração for concluída, clique com o botão direito do mouse no módulo e selecione Executar Selecionado.

Para editar uma conexão de dados existente, inicie o assistente novamente. O assistente carrega todos os detalhes de configuração anteriores para que você não tenha que iniciar novamente do zero

Definir propriedades manualmente no módulo Importar Dados

As etapas a seguir descrevem como configurar manualmente a origem da importação.

Adicione o módulo Importar Dados ao seu experimento. Você pode encontrar o módulo no Studio (clássico), na categoria Entrada e Saída de Dados.
Para Fonte de dados, selecione URL da Web via HTTP.
Para URL, digite ou colar a URL completa da página que contém os dados que você deseja carregar.

A URL deve incluir a URL do site e o caminho completo, com nome de arquivo e extensão, para a página que contém os dados a carregar.

Por exemplo, a página a seguir contém o conjunto de dados Iris do repositório de aprendizado de máquina da Universidade da Califórnia, Irvine:

https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data
Para Formato de dados, selecione um dos formatos de dados com suporte na lista.

Recomendamos que você sempre verifique os dados com antecedência para determinar o formato. A página UC Irvine usa o formato CSV. Outros formatos de dados com suporte são TSV, ARFF e SvmLight.
Se os dados estão no formato CSV ou TSV, use a opção Arquivo tem linha de header para indicar se os dados de origem incluem ou não uma linha de header. A linha de header é usada para atribuir nomes de coluna.
Selecione as opções Usar resultados armazenados em cache se você não espera que os dados mudem muito ou se quiser evitar recarregar os dados sempre que executar o experimento.

Quando essa opção é selecionada, o experimento carrega os dados na primeira vez que o módulo é executado e, depois disso, usa uma versão armazenada em cache do conjuntos de dados.

Se você quiser carregar o conjuntos de dados em cada iteração do conjuntos de dados do experimento, desmarque a opção Usar resultados armazenados em cache . Os resultados também serão recarráveis se houver alterações nos parâmetros de Importar Dados.
Execute o experimento.

Resultados

Ao concluir, clique no conjuntos de dados de saída e selecione Visualizar para ver se os dados foram importados com êxito.

Exemplos

Consulte estes exemplos na Galeria de IA do Azure de experimentos de aprendizado de máquina que coletam dados de sites públicos:

Exemplo de Reconhecimento de Letra: obtém um conjuntos de dados de treinamento do repositório de aprendizado de máquina público hospedado pelo UC Irvine.
Baixar o UCI Dataset: lê um conjuntos de dados no formato CSV.

Observações técnicas

Esta seção contém detalhes de implementação, dicas e respostas para perguntas frequentes.

Perguntas comuns

Posso filtrar dados enquanto eles estão sendo lidos da origem

Não. Essa opção não é suportada com essa fonte de dados.

Depois de ler os dados no Machine Learning Studio (clássico), você pode dividir o conjuntos de dados, usar amostragem e assim por diante para obter apenas as linhas que deseja:

Escreva um código R simples no Executar Script R para obter uma parte dos dados por linhas ou colunas.
Use o módulo Dividir Dados com uma expressão relativa ou uma expressão regular para isolar os dados que você deseja.
Se você carregou mais dados do que o necessário, substitui o conjuntos de dados armazenados em cache lendo um novo conjuntos de dados e salvando-o com o mesmo nome.

Como evitar o carregamento dos mesmos dados desnecessariamente

Se os dados de origem mudarem, você poderá atualizar o conjuntos de dados e adicionar novos dados executando importar dados.

Se você não quiser ler a partir da origem sempre que executar o experimento, selecione a opção Usar resultados armazenados em cache como TRUE. Quando essa opção é definida como TRUE, o módulo verifica se o experimento foi executado anteriormente usando a mesma origem e as mesmas opções de entrada. Se uma run anterior for encontrada, os dados no cache serão usados, em vez de carregar os dados da origem.

Por que uma linha extra foi adicionada ao final do meu conjuntos de dados

Se o módulo Importar Dados encontrar uma linha de dados seguida por uma linha vazia ou um caractere de nova linha à parte final, uma linha extra será adicionada ao final da tabela. Essa nova linha contém valores ausentes.

O motivo para interpretar uma nova linha à frente como uma nova linha é que Importar Dados não pode determinar a diferença entre uma linha vazia real e uma linha vazia que é criada pelo usuário pressionando ENTER no final de um arquivo.

Como alguns algoritmos de aprendizado de máquina suportam dados ausentes e, portanto, tratariam essa linha como um caso (que, por sua vez, poderia afetar os resultados), você deve usar Limpar Dados Ausentes para verificar se há valores ausentes (especialmente linhas que estão completamente vazias) e removê-los conforme necessário.

Antes de verificar se há linhas vazias, você também pode querer dividir o conjuntos de dados usando Dividir Dados. Isso separa as linhas com valores inexistentes parciais que representam valores inexistentes reais na fonte de dados. Use a opção Selecionar linhas de cabeçalho N para ler a primeira parte do conjunto de dados em um contêiner separado da última linha.

Por que alguns caracteres no meu arquivo de origem não são exibidos corretamente

Machine Learning dá suporte à codificação UTF-8. Se o arquivo de origem usou um outro tipo de codificação, os caracteres podem não ser importados corretamente.

Parâmetros do módulo

Nome	Intervalo	Type	Padrão	Descrição
Fonte de dados	Lista	Fonte de dados ou sink	Armazenamento do Blobs do Azure	A fonte de dados pode ser HTTP, FTP, HTTPS anônimo ou FTPS, um arquivo no armazenamento de BLOB do Azure, uma tabela do Azure, um Banco de Dados SQL do Azure, um banco de dados SQL Server local, uma tabela hive ou um ponto de extremidade OData.
URL	any	Cadeia de caracteres	nenhum	URL para HTTP
Formato de dados	CSV TSV ARFF SvmLight	Formato de Dados	CSV	Tipo de arquivo da origem HTTP
CSV ou TSV tem uma linha de cabeçalho	TRUE/FALSE	Boolean	false	Indica se o arquivo CSV ou TSV tem uma linha de cabeçalho
Usar resultados em cache	TRUE/FALSE	Boolean	FALSE	O módulo será executado somente se o cache válido não existir. Caso contrário, os dados armazenados em cache da execução anterior serão usados.

Saídas

Nome	Tipo	Descrição
Conjunto de dados de resultados	Tabela de Dados	Conjunto de dados com dados baixados

Exceções

Exceção	Descrição
Erro 0027	Uma exceção ocorre quando dois objetos precisam ser do mesmo tamanho, mas eles não são.
Erro 0003	Ocorrerá uma exceção se uma ou mais das entradas forem nulas ou estiverem vazias.
Erro 0029	Ocorrerá uma exceção quando um URI inválido for passado.
Erro 0030	ocorrerá uma exceção quando não for possível baixar um arquivo.
Erro 0002	Ocorrerá uma exceção se um ou mais parâmetros não puderem ser analisados ou convertidos do tipo especificado para o tipo exigido pelo método de destino.
Erro 0048	Uma exceção ocorre quando não for possível abrir um arquivo.
Erro 0046	Ocorrerá uma exceção quando não for possível criar um diretório no caminho especificado.
Erro 0049	Uma exceção ocorre quando não for possível analisar um arquivo.

para obter uma lista de erros específicos para módulos do Studio (clássicos), consulte Machine Learning códigos de erro.

para obter uma lista de exceções de api, consulte Machine Learning códigos de erro da api REST.

Confira também

Importar dados
Exportar dados
Importar da consulta do Hive
Importar do Banco de Dados SQL do Azure
Importar da Tabela do Azure
Importar do Armazenamento de Blobs do Azure
Importar de provedores de feed de dados
Importar de um Banco de dados do SQL Server local

Share via