Share via


Importar da Tabela do Azure

Importante

O suporte para o Machine Learning Studio (clássico) terminará em 31 de agosto de 2024. É recomendável fazer a transição para o Azure Machine Learning até essa data.

A partir de 1º de dezembro de 2021, você não poderá criar recursos do Machine Learning Studio (clássico). Até 31 de agosto de 2024, você pode continuar usando os recursos existentes do Machine Learning Studio (clássico).

A documentação do ML Studio (clássico) está sendo desativada e pode não ser atualizada no futuro.

Este artigo descreve como usar o módulo Importar Dados no Machine Learning Studio (clássico) para importar dados estruturados ou semiestruturados de tabelas do Azure para um experimento de aprendizado de máquina.

Observação

Aplica-se a: Machine Learning Studio (clássico) somente

Módulos semelhantes do tipo "arrastar e soltar" estão disponíveis no designer do Azure Machine Learning.

O serviço tabela do Azure é um serviço de gerenciamento de dados no Azure que pode armazenar grandes quantidades de dados estruturados e não relacionais. É um armazenamento de dados NoSQL que aceita chamadas autenticadas de dentro e fora do Azure.

A importação do armazenamento de tabelas do Azure exige que você escolha um dos dois tipos de conta: uma conta de armazenamento que pode ser acessada usando uma URL de SAS ou uma conta de armazenamento privada que requer credenciais de logon.

Como importar dados de tabelas do Azure

Usar o Assistente de Importação de Dados

O módulo apresenta um novo assistente para ajudá-lo a escolher uma opção de armazenamento, selecionar entre assinaturas e contas existentes e configurar rapidamente todas as opções.

  1. Adicione o módulo Importar Dados ao seu experimento. Você pode encontrar o módulo em Entrada e Saída de Dados.

  2. Clique em Iniciar Assistente de Importação de Dados e siga os prompts.

  3. Quando a configuração for concluída, para realmente copiar os dados em seu experimento, clique com o botão direito do mouse no módulo e selecione Executar Selecionado.

Se você precisar editar uma conexão de dados existente, o assistente carregará todos os detalhes de configuração anteriores para que você não precise iniciar novamente do zero

Definir propriedades manualmente no módulo Importar Dados

As etapas a seguir descrevem como configurar manualmente a origem da importação.

  1. Adicione o módulo Importar Dados ao seu experimento. Você pode encontrar este módulo no grupo Entrada e Saída de Dados na lista de itens de experimento no Machine Learning Studio (clássico).

  2. Para Fonte de dados, selecione Tabela do Azure.

  3. Para Tipo de autenticação, escolha Público (URL SAS) se você sabe que as informações foram fornecidas como uma fonte de dados pública. Uma URL de SAS é uma URL de acesso com limite de tempo que você pode gerar usando um utilitário de armazenamento do Azure.

    Caso contrário, escolha Conta.

  4. Se os dados estão em um blob público que pode ser acessado usando uma URL SAS, você não precisa de credenciais adicionais porque a cadeia de caracteres de URL contém todas as informações necessárias para download e autenticação.

    No campo URI de SAS de Tabela, digite ou colar o URI completo que define a conta e o blob público.

    Observação

    Em uma página acessível por meio da URL de SAS, os dados podem ser armazenados usando apenas estes formatos: CSV, TSV e ARFF.

  5. Se os dados estão em uma conta privada , você deve fornecer credenciais, incluindo o nome da conta e a chave.

    • Em Nome da conta de tabela, digite ou colar o nome da conta que contém o blob que você deseja acessar.

      Por exemplo, se a URL completa da conta de armazenamento for https://myshared.table.core.windows.net, digite myshared.

    • Para Chave de conta de tabela, colar a chave de acesso associada à conta de armazenamento.\

      Se você não conhece a chave de acesso, consulte a seção "Exibir, copiar e regenerar chaves de acesso de armazenamento" neste artigo: Sobre as contas de Armazenamento do Azure.

    • Em Nome da tabela, digite o nome da tabela específica que você deseja ler.

  6. Escolha uma opção que indica quantas linhas a Importação de Dados deve verificar. Importar Dados usa a verificação para obter a lista de colunas nos dados e determinar quais tipos de dados de coluna devem ser.

    • TopN: digitalizar apenas o número especificado de linhas, começando na parte superior do conjuntos de dados.

      Por padrão, 10 linhas são examinadas, mas você pode aumentar ou diminuir esse valor usando a opção Contagem de linhas para TopN .

      Se os dados são homogêneos e previsíveis, selecione TopN e insira um número para N. Para tabelas grandes, isso pode resultar em tempos de leitura mais rápidos.

    • ScanAll: examinar todas as linhas na tabela.

      Se os dados são estruturados com conjuntos de propriedades que variam de acordo com a profundidade e a posição da tabela, escolha a opção ScanAll para examinar todas as linhas. Isso garante a integridade da propriedade resultante e da conversão dos metadados.

  7. Indique se você deseja que os dados sejam atualizados sempre que o experimento for executado. Se você selecionar a opção Usar resultados armazenados em cache (o padrão), o módulo Importar Dados lerá a fonte especificada na primeira vez que o experimento for executado e, depois disso, armazenará os resultados em cache. Se houver alterações nos parâmetros do módulo Importar Dados , os dados serão carregados de novo.

    Se você desmarcar essa opção, os dados serão lidos da origem sempre que o experimento for executado, independentemente de os dados serem os mesmos ou não.

Exemplos

Para ver exemplos de como usar o módulo Exportar Dados , consulte o Galeria de IA do Azure.

Observações técnicas

Esta seção contém detalhes de implementação, dicas e respostas para perguntas frequentes.

Perguntas comuns

Como evitar carregar os mesmos dados desnecessariamente?

Se os dados de origem mudarem, você poderá atualizar o conjuntos de dados e adicionar novos dados executando importar dados. No entanto, se você não quiser ler a partir da origem sempre que executar o experimento, selecione a opção Usar resultados armazenados em cache como TRUE. Quando essa opção é definida como TRUE, o módulo verifica se o experimento foi executado anteriormente usando a mesma origem e as mesmas opções de entrada e, se uma versão anterior for encontrada, os dados no cache serão usados, em vez de carregar os dados da origem.

Posso filtrar os dados conforme eles estão sendo lidos da origem?

O módulo Importar Dados não dá suporte à filtragem à medida que os dados estão sendo lidos. A exceção é a leitura de feeds de dados, que às vezes permitem especificar uma condição de filtro como parte da URL do feed.

No entanto, você pode alterar ou filtrar dados depois de lê-lo no Machine Learning Studio (clássico):

  • Use um script R personalizado para alterar ou filtrar dados.
  • Use o módulo Dividir Dados com uma expressão relativa ou uma expressão regular para isolar os dados que você deseja e, em seguida, salvá-los como um conjuntos de dados.

Observação

Se você achar que você carregou dados mais do que o necessário, você pode substituir o conjunto de dados em cache lendo um novo conjunto de dados e salvando-o com o mesmo nome que os dados mais antigos e maiores.

Como a Importação de Dados lida com os dados carregados de diferentes regiões geográficas?

Se a conta de armazenamento de blob ou tabela estiver em uma região diferente do nó de computação usado para o experimento de aprendizado de máquina, o acesso a dados poderá ser mais lento. Além disso, você será cobrado pela entrada e saída de dados na assinatura.

Por que alguns caracteres na minha tabela não são exibidos corretamente?

Machine Learning dá suporte à codificação UTF-8. Se a tabela usar outra codificação, os caracteres poderão não ser importados corretamente.

Há caracteres ou caracteres proibidos que são alterados durante a importação?

Se os dados de atributos contiverem aspas ou sequências de caracteres de escape, eles serão manipulados usando as regras para esses caracteres no Microsoft Excel. Todos os outros caracteres são tratados usando as seguintes especificações como uma diretriz: RFC 4180.

Parâmetros do módulo

Nome Intervalo Type Padrão Padrão
Fonte de dados Lista Fonte de dados ou sink Armazenamento do Blobs do Azure A fonte de dados pode ser HTTP, FTP, HTTPS anônimo ou FTPS, um arquivo no armazenamento de BLOB do Azure, uma tabela do Azure, um Banco de Dados SQL do Azure, um banco de dados SQL Server local, uma tabela hive ou um ponto de extremidade OData.
Tipo de autenticação PublicOrSas

Conta
tableAuthType Conta Especifique se os dados estão em um contêiner público acessível por meio da URL SAS ou se estão em uma conta de armazenamento privada que requer autenticação para acesso.

Público ou SAS – Opções de armazenamento público

Nome Intervalo Type Padrão Descrição
URI da tabela any Cadeia de caracteres
Linhas para examinar nomes de propriedades via SAS Número inteiro
Contagem de linhas para TopN via SAS

Conta – opções de armazenamento privado

Nome Intervalo Type Padrão Descrição
Nome da conta de tabela
Chave de conta de tabela any SecureString
Nome da tabela any
Linhas para examinar nomes de propriedades TopN

ScanAll
Contagem de linhas para TopN any Número inteiro

Saídas

Nome Tipo Descrição
Conjunto de dados de resultados Tabela de Dados Conjunto de dados com dados baixados

Exceções

Exceção Descrição
Erro 0027 Uma exceção ocorre quando dois objetos precisam ser do mesmo tamanho, mas eles não são.
Erro 0003 Ocorrerá uma exceção se uma ou mais das entradas forem nulas ou estiverem vazias.
Erro 0029 Ocorrerá uma exceção quando um URI inválido for passado.
Erro 0030 ocorrerá uma exceção quando não for possível baixar um arquivo.
Erro 0002 Ocorrerá uma exceção se um ou mais parâmetros não puderem ser analisados ou convertidos do tipo especificado para o tipo exigido pelo método de destino.
Erro 0009 Ocorrerá uma exceção se o nome da conta de armazenamento do Azure ou o nome do contêiner foi especificado incorretamente.
Erro 0048 Uma exceção ocorre quando não for possível abrir um arquivo.
Erro 0046 Ocorrerá uma exceção quando não for possível criar um diretório no caminho especificado.
Erro 0049 Uma exceção ocorre quando não for possível analisar um arquivo.

para obter uma lista de erros específicos para módulos do Studio (clássicos), consulte Machine Learning códigos de erro.

para obter uma lista de exceções de api, consulte Machine Learning códigos de erro da api REST.

Confira também

Importar dados
Exportar dados
Importar da URL da Web via HTTP
Importar da consulta do Hive
Importar do Banco de Dados SQL do Azure
Importar do Armazenamento de Blobs do Azure
Importar de provedores de feed de dados
Importar de um Banco de dados do SQL Server local