Importar de provedores de feed de dados

Artigo
05/06/2019

Importante

O suporte para o Machine Learning Studio (clássico) terminará em 31 de agosto de 2024. É recomendável fazer a transição para o Azure Machine Learning até essa data.

A partir de 1º de dezembro de 2021, você não poderá criar recursos do Machine Learning Studio (clássico). Até 31 de agosto de 2024, você pode continuar usando os recursos existentes do Machine Learning Studio (clássico).

Confira informações sobre como mover projetos de machine learning do ML Studio (clássico) para o Azure Machine Learning.
Saiba mais sobre o Azure Machine Learning.

A documentação do ML Studio (clássico) está sendo desativada e pode não ser atualizada no futuro.

Este artigo descreve como usar o módulo Importar Dados no Machine Learning Studio (clássico) para importar dados fornecidos no formato OData para um experimento de machine learning.

Observação

Aplica-se a: Machine Learning Studio (clássico) somente

Módulos semelhantes do tipo "arrastar e soltar" estão disponíveis no designer do Azure Machine Learning.

Criar um ponto de extremidade OData para um conjunto de dados é uma maneira de disponibilizar um modelo de dados para consumo por meio da URL. Você também pode especificar quais operações OData o ponto de extremidade dará suporte. Para obter mais informações sobre como criar Odata pontos de extremidade, consulte OData v4 (ASP.NET).

Como importar dados de um feed

É recomendável que você faça o perfil dos dados antes da importação para garantir que o esquema seja o esperado. O processo de importação examina algumas linhas de cabeça para determinar o esquema, mas as linhas posteriores podem conter colunas extras ou dados que causam erros.

Usar o Assistente de Importação de Dados

O módulo apresenta um novo assistente para ajudá-lo a escolher uma opção de armazenamento. Use o assistente para selecionar entre assinaturas e contas existentes e configurar rapidamente todas as opções.

Adicione o módulo Importar Dados ao seu experimento. Você pode encontrar o módulo no Studio (clássico), na categoria Entrada e Saída de Dados.
Clique em Iniciar Assistente de Importação de Dados e siga os prompts.
Quando a configuração for concluída, para realmente copiar os dados em seu experimento, clique com o botão direito do mouse no módulo e selecione Executar Selecionado.

Se você precisar editar uma conexão de dados existente, o assistente carregará todos os detalhes de configuração anteriores para que você não precise iniciar novamente do zero.

Definir propriedades manualmente no módulo Importar Dados

Você também pode configurar manualmente a origem da importação.

Adicione o módulo Importar Dados ao seu experimento. Você pode encontrar este módulo no Studio (clássico), na categoria Entrada e Saída de Dados.
Para Fonte de dados, selecione Provedor de Feed de Dados.
Para Tipo de conteúdo de dados, selecione o tipo de feed. Atualmente, há suporte apenas para pontos de extremidade OData.
Para URL de Origem, colar a URL de um site que fornece dados no formato necessário.

Por exemplo, a instrução a seguir obtém a lista de produtos do banco de dados de exemplo Northwind:

https://services.odata.org/northwind/northwind.svc/Products

Para obter mais informações, consulte Sintaxe OData.
Selecione a opção Usar resultados armazenados em cache se você não precisar carregar os dados após a primeira vez. Essa é uma boa opção se não se espera que os dados alterem entre as executações do experimento.

Se não houver nenhuma outra alteração nos parâmetros do módulo, o experimento carregará os dados na primeira vez que o módulo for executado e, depois disso, usará uma versão armazenada em cache do conjuntos de dados.

Se você precisar atualizar regularmente os dados, desmarque essa opção.
Execute o experimento.

Resultados

Ao concluir, clique no conjuntos de dados de saída e selecione Visualizar para ver se os dados foram importados com êxito.

Quando Importar Dados carrega os dados do feed no Studio (clássico), ele infere o tipo de dados de cada coluna com base nos valores que contém, numéricos ou categóricos.

Se houver um cabeçalho, ele será usado para nomear as colunas do conjunto de dados de saída.
Se não houver nenhum headers de coluna existente nos dados, novos nomes de coluna serão gerados usando o formato col1, col2,… ,coln.

Observações técnicas

Esta seção contém detalhes de implementação, dicas e respostas para perguntas frequentes.

Sintaxe OData

A consulta deve retornar uma tabela simples. Não há suporte para o nivelamento de registros OData aninhados.

Algumas colunas incluídas em feeds OData podem ter tipos de dados que não têm suporte no Studio (clássico), como decimais. Você pode ingerir os dados como cadeias de caracteres e convertê-los posteriormente usando os módulos Executar Script R ou Editor de Metadados .

Para obter mais informações sobre sintaxe e URLs do OData, consulte convenções Odata.org - uri

Perguntas comuns

Posso filtrar os dados conforme eles estão sendo lidos da origem?

O módulo Importar Dados geralmente não dá suporte à filtragem à medida que os dados estão sendo lidos. No entanto, você pode especificar uma condição de filtro como parte da URL do recurso de feed.

Para filtrar dados do feed, use instruções com suporte pelo protocolo OData. Por exemplo, essa URL usa a $filter expressão para obter apenas os pedidos relacionados ao funcionário com ID igual a 1.

https://services.odata.org/Northwind/Northwind.svc/Orders?$filter=Employee/EmployeeID eq 1

Para obter mais exemplos de sintaxe de filtro, consulte Usando expressões de filtro em URIs OData.

Como alternativa, você pode obter todos os dados e filtre-os depois de carregá-lo no Machine Learning Studio (clássico):

Use um script R personalizado para obter apenas os dados que você deseja.
Use o módulo Dividir Dados com uma expressão relativa ou uma expressão regular para isolar os dados que você deseja e, em seguida, salvá-los como um conjuntos de dados.

Observação

Se você achar que você carregou dados mais do que o necessário, você pode substituir o conjunto de dados em cache lendo um novo conjunto de dados e salvando-o com o mesmo nome que os dados mais antigos e maiores.

Se eu receber o erro, as credenciais serão necessárias para se conectar à origem do OData. Atualize e forneça credenciais para continuar. Como posso fornecer credenciais?**

O módulo Importar Dados dá suporte apenas a pontos de extremidade OData com acesso anônimo. Se o serviço OData exigir credenciais, você não poderá usar a opção OData para obter os dados.

No entanto, se o serviço estiver no mesmo domínio, a autenticação poderá ocorrer automaticamente sem nenhuma entrada do usuário.

Como alternativa, você pode usar o PowerQuery ou PowerPivot ler dados do feed e, em seguida, obter os dados de Excel.

Como evitar carregar os mesmos dados desnecessariamente?

Se os dados de origem mudarem, você poderá atualizar o conjuntos de dados e adicionar novos dados executando importar dados. No entanto, se você não quiser ler a partir da origem sempre que executar o experimento, selecione a opção Usar resultados armazenados em cache como TRUE. Quando essa opção for definida como TRUE, o módulo verificará se o experimento foi executado anteriormente usando a mesma origem e as mesmas opções de entrada e, se uma versão anterior for encontrada, os dados no cache serão usados, em vez de carregar os dados da origem.

Por que receber uma mensagem de erro "Não há suporte para o tipo Decimal"?

Não decimal há suporte para o tipo de dados Machine Learning. O motivo é que Importar Dados não pode executar automaticamente nenhuma conversão que resultaria em perda de precisão.

Para obter mais informações sobre tipos de dados com suporte, consulte Tipos de dados de módulo.

Como alternativa, você pode ler os dados como um tipo de dados de cadeia de caracteres e, em seguida, usar Editar Metadados para converter os decimais em dados com suporte antes de ler os dados.

Por que alguns caracteres no feed não são exibidos corretamente?

Machine Learning dá suporte à codificação UTF-8. Se a origem usar outro tipo de codificação, os caracteres poderão não ser importados corretamente.

Como alternativa, você pode salvar os dados em um arquivo CSV no armazenamento de tabelas do Azure ou no armazenamento de blob do Azure. Em seguida, use a opção CSV com codificação para especificar parâmetros para delimitadores personalizados, a página de código e assim por diante.

Parâmetros do módulo

Nome	Intervalo	Type	Padrão	Descrição
Fonte de dados	Lista	Fonte de dados ou sink	Armazenamento do Blobs do Azure	a fonte de dados pode ser HTTP, FTP, HTTPS anônimo ou FTPS, um arquivo no armazenamento de blobs do azure, uma tabela do azure, um Banco de Dados SQL do Azure, um banco de dados SQL Server local, uma tabela Hive ou um ponto de extremidade OData.
Tipo de conteúdo de dados	Lista (subconjunto)	Conteúdo da URL	OData	Tipo de formato de dado
URL de origem	any	String		URL para Power Query fonte de dados
Usar resultados em cache	TRUE/FALSE	Boolean	FALSE	descrição

Saídas

Nome	Tipo	Descrição
Conjunto de dados de resultados	Tabela de Dados	Conjunto de dados com dados baixados

Exceções

Exceção	Descrição
Erro 0003	Ocorrerá uma exceção se uma ou mais das entradas forem nulas ou estiverem vazias.
Erro 0029	Ocorrerá uma exceção quando um URI inválido for passado.
Erro 0030	ocorrerá uma exceção quando não for possível baixar um arquivo.
Erro 0002	Ocorrerá uma exceção se um ou mais parâmetros não puderem ser analisados ou convertidos do tipo especificado para o tipo exigido pelo método de destino.

para obter uma lista de erros específicos para módulos do Studio (clássicos), consulte Machine Learning códigos de erro.

para obter uma lista de exceções de api, consulte Machine Learning códigos de erro da api REST.

Confira também

Importar dados
Exportar dados
Importar da URL da Web via HTTP
Importar da consulta do Hive
Importar do Banco de Dados SQL do Azure
Importar da Tabela do Azure
Importar do Armazenamento de Blobs do Azure
Importar de um Banco de dados do SQL Server local

Share via