Importar a partir do URL da Web através de HTTP

Artigo
05/06/2019

Importante

O suporte para o Estúdio de ML (clássico) terminará a 31 de agosto de 2024. Recomendamos a transição para o Azure Machine Learning até essa data.

A partir de 1 de dezembro de 2021, não poderá criar novos recursos do Estúdio de ML (clássico). Até 31 de agosto de 2024, pode continuar a utilizar os recursos existentes do Estúdio de ML (clássico).

Consulte informações sobre projetos de machine learning em movimento de ML Studio (clássico) para Azure Machine Learning.
Saiba mais sobre Azure Machine Learning.

A documentação do Estúdio de ML (clássico) está a ser descontinuada e poderá não ser atualizada no futuro.

Este artigo descreve como usar o módulo de Dados de Importação em Machine Learning Studio (clássico), para ler dados de uma página web pública para uso em uma experiência de machine learning.

Nota

Aplica-se a: Machine Learning Studio (clássico) apenas

Módulos semelhantes de arrasto e queda estão disponíveis em Azure Machine Learning designer.

As seguintes restrições aplicam-se aos dados publicados numa página web:

Os dados devem estar num dos formatos suportados: CSV, TSV, ARFF ou SvmLight. Outros dados causarão erros.
Não é necessária nenhuma autenticação ou suportada. Os dados devem estar disponíveis ao público.

Como importar dados através de HTTP

Existem duas formas de obter dados: utilizar o assistente para configurar a fonte de dados ou configurá-lo manualmente.

Utilize o assistente de importação de dados

Adicione o módulo de Dados de Importação à sua experiência. Pode encontrar o módulo em Estúdio (clássico), na categoria Entrada e Saída de Dados .
Clique em Lançar O Assistente de Dados de Importação e selecione o URL web através de HTTP.
Cole no URL e selecione um formato de dados.
Quando a configuração estiver completa, clique com o botão direito no módulo e selecione Executar Selecionado.

Para editar uma ligação de dados existente, reinicie o assistente. O assistente carrega todos os detalhes de configuração anteriores para que não tenha que começar de novo do zero

Definir manualmente propriedades no módulo de dados de importação

Os seguintes passos descrevem como configurar manualmente a fonte de importação.

Adicione o módulo de Dados de Importação à sua experiência. Pode encontrar o módulo em Estúdio (clássico), na categoria Entrada e Saída de Dados .
Para obter informações, selecione Web URL via HTTP.
Para URL, escreva ou cole o URL completo da página que contém os dados que pretende carregar.

O URL deve incluir o URL do site e o caminho completo, com nome de ficheiro e extensão, para a página que contém os dados a carregar.

Por exemplo, a página seguinte contém o conjunto de dados da Íris do repositório de aprendizagem automática da Universidade da Califórnia, Irvine:

https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data
Para o formato Dados, selecione um dos formatos de dados suportados da lista.

Recomendamos que verifique sempre previamente os dados para determinar o formato. A página UC Irvine utiliza o formato CSV. Outros formatos de dados suportados são TSV, ARFF e SvmLight.
Se os dados estiverem no formato CSV ou TSV, utilize a opção de linha de cabeçalho para indicar se os dados de origem incluem ou não uma linha de cabeçalho. A linha do cabeçalho é usada para atribuir nomes de colunas.
Selecione as opções de resultados em cache Use se não espera que os dados mudem muito, ou se quiser evitar recarregar os dados cada vez que executar a experiência.

Quando esta opção é selecionada, a experiência carrega os dados na primeira vez que o módulo é executado, e a partir daí utiliza uma versão em cache do conjunto de dados.

Se pretender repor o conjunto de dados em cada iteração do conjunto de dados da experiência, desmarca a opção de resultados em cache Utilização . Os resultados também são reessarregáveis se houver alterações nos parâmetros dos Dados de Importação.
Execute a experimentação.

Resultados

Quando estiver concluído, clique no conjunto de dados de saída e selecione Visualize para ver se os dados foram importados com sucesso.

Exemplos

Veja estes exemplos na Galeria Azure AI de experiências de machine learning que obtêm dados de sites públicos:

Amostra de reconhecimento de carta: Obtém um conjunto de dados de formação do repositório público de aprendizagem de máquinas hospedado pela UC Irvine.
Baixar conjunto de dados UCI: Lê um conjunto de dados no formato CSV.

Notas técnicas

Esta secção contém detalhes de implementação, dicas e respostas a perguntas frequentes.

Perguntas comuns

Posso filtrar os dados como está a ser lido a partir da fonte

N.º Esta opção não é suportada com esta fonte de dados.

Depois de ler os dados no Machine Learning Studio (clássico), pode dividir o conjunto de dados, usar a amostragem, e assim por diante para obter apenas as linhas que deseja:

Escreva um código R simples no Script Executo R para obter uma parte dos dados por linhas ou colunas.
Utilize o módulo Dados Divididos com uma expressão relativa ou uma expressão regular para isolar os dados que pretende.
Se carregou mais dados do que o necessário, substitua o conjunto de dados em cache lendo um novo conjunto de dados e guardando-os com o mesmo nome.

Como posso evitar reessarcando os mesmos dados desnecessariamente

Se os dados de origem alterarem, pode atualizar o conjunto de dados e adicionar novos dados re-executando dados de importação.

Se não quiser relê-lo a partir da fonte cada vez que executar a experiência, selecione a opção de resultados em cache para A VERDADEIRA. Quando esta opção é definida como TRUE, o módulo verifica se a experiência já foi executada anteriormente utilizando a mesma fonte e as mesmas opções de entrada. Se for encontrada uma execução anterior, os dados na cache são utilizados, em vez de ressartar os dados da fonte.

Por que uma linha extra foi adicionada no final do meu conjunto de dados

Se o módulo De Dados de Importação encontrar uma linha de dados que é seguida por uma linha vazia ou um carácter de linha nova, uma linha extra é adicionada no final da tabela. Esta nova linha contém valores em falta.

A razão para interpretar uma nova linha como uma nova linha é que os Dados de Importação não podem determinar a diferença entre uma linha vazia real e uma linha vazia que é criada pelo utilizador pressionando ENTER no final de um ficheiro.

Como alguns algoritmos de aprendizagem automática suportam dados em falta e assim tratariam esta linha como um caso (que por sua vez poderia afetar os resultados), você deve usar Dados Desaparecidos Limpos para verificar se há valores em falta (particularmente linhas que estão completamente vazias) e removê-los conforme necessário.

Antes de verificar se há linhas vazias, também pode querer dividir o conjunto de dados utilizando Dados Divididos. Isto separa as linhas com valores parciais em falta, que representam valores em falta reais nos dados de origem. Utilize a opção 'Selecionar as linhas N' para ler a primeira parte do conjunto de dados num recipiente separado da última linha.

Por que alguns personagens no meu arquivo de origem não são exibidos corretamente

Machine Learning apoia a codificação UTF-8. Se o seu ficheiro de origem utilizar outro tipo de codificação, os caracteres podem não ser importados corretamente.

Parâmetros do módulo

Nome	Intervalo	Tipo	Predefinição	Description
Origem de dados	Lista	Fonte de dados ou pia	Armazenamento de Blobs do Azure	A fonte de dados pode ser HTTP, FTP, HTTPS anónimo ou FTPS, um ficheiro no armazenamento Azure BLOB, uma tabela Azure, uma Base de Dados SQL do Azure, uma base de dados SQL Server no local, uma tabela Hive ou um ponto final OData.
URL	qualquer	String	nenhum	URL para HTTP
Formato de dados	CSV TSV ARFF SvmLight	Formato de Dados	CSV	Tipo de ficheiro de fonte HTTP
CSV ou TSV tem linha de cabeçalho	VERDADEIRO/FALSO	Booleano	false	Indica se o ficheiro CSV ou TSV tem uma linha de cabeçalho
Use resultados em cache	VERDADEIRO/FALSO	Booleano	FALSE	O módulo só executa se não existir cache válido. Caso contrário, são utilizados dados em cache da execução anterior.

Saídas

Nome	Tipo	Description
Conjunto de dados de resultados	Tabela de Dados	Dataset com dados descarregados

Exceções

Exceção	Description
Erro 0027	Uma exceção ocorre quando dois objetos têm que ter o mesmo tamanho, mas não são.
Erro 0003	Uma exceção ocorre se uma ou mais entradas forem nulas ou vazias.
Erro 0029	Uma exceção ocorre quando um URI inválido é passado.
Erro 0030	uma exceção ocorre quando não é possível descarregar um ficheiro.
Erro 0002	Ocorre uma exceção se um ou mais parâmetros não puderem ser analisados ou convertidos do tipo especificado para o tipo exigido pelo método-alvo.
Erro 0048	Uma exceção ocorre quando não é possível abrir um ficheiro.
Erro 0046	Uma exceção ocorre quando não é possível criar um diretório em caminho especificado.
Erro 0049	Uma exceção ocorre quando não é possível analisar um ficheiro.

Para obter uma lista de erros específicos dos módulos Studio (clássicos), consulte Machine Learning Códigos de Erro.

Para obter uma lista de exceções da API, consulte Machine Learning CÓDIGOs de Erro da API REST.

Ver também

Importar Dados
Dados de Exportação
Importação da Consulta de Colmeia
Importar a partir da Base de Dados SQL do Azure
Importação da Tabela Azure
Importação de Azure Blob Armazenamento
Importação de Fornecedores de Feed de Dados
Importação de Bases de Dados SQL Server de Instalações

Share via