Importar dados no designer do Azure Machine Learning

Neste artigo, você aprenderá a importar seus próprios dados para o designer para criar soluções personalizadas. Há duas maneiras de importar dados para o designer:

  • Conjuntos de dados do Azure Machine Learning - Registre conjuntos de dados no Azure Machine Learning para habilitar recursos avançados que ajudam a gerenciar os dados.
  • Componente Importar Dados – Use o componente Importar Dados para acessar diretamente os dados de fontes de dados online.

Importante

Se você não vir os elementos gráficos mencionados neste documento, como botões no estúdio ou no designer, talvez você não tenha o nível de permissões certo para o workspace. Entre em contato com seu administrador de assinatura do Azure para verificar se você recebeu o nível de acesso correto. Para obter mais informações, confira Gerenciar usuários e funções.

Usar conjuntos de dados do Azure Machine Learning

É recomendável que você use conjuntos de dados para importar para o designer. Quando você registra um conjunto de dados, pode aproveitar ao máximo os recursos avançados, como controle de versão e acompanhamento e monitoramento de dados.

Registrar um conjunto de dados

Você pode registrar conjuntos de dados existentes programaticamente com o SDK ou visualmente no Azure Machine Learning Studio.

Além disso, é possível registrar o resultado de qualquer componente do designer como um conjunto de dados.

  1. Selecione o componente que gera os dados que você deseja registrar.

  2. No painel Propriedades, selecione Saídas + logs>Registrar conjunto de dados.

    Captura de tela mostrando como navegar até a opção Registrar conjunto de dados

Se os dados de saída do componente estiverem em formato tabular, você deverá optar por registrar a saída como um conjunto de dados de arquivo ou tabular.

  • O Conjunto de dados de arquivo registra a pasta de saída do componente como um conjunto de dados de arquivo. A pasta de saída contém um arquivo de dados e meta-arquivos que o designer usa internamente. Escolha essa opção se você quer continuar usando o conjunto de dados registrado no designer.

  • O Conjunto de dados tabular registra apenas o arquivo de dados de saída do componente como um conjunto de dados tabular. Esse formato é facilmente consumido por outras ferramentas, por exemplo, no machine learning automatizado ou no SDK de Python. Escolha essa opção se você planeja usar o conjunto de dados registrado fora do designer.

Usar um conjunto de dados

Os conjuntos de dados registrados podem ser encontrados na paleta de componentes em Conjuntos de dados. Para usar um conjunto de dados, arraste-o e solte-o na tela do pipeline. Depois, conecte a porta de saída do conjunto de dados a outros componentes da tela.

Se você registrar um conjunto de dados de arquivo, o tipo de porta de saída do conjunto de dados será AnyDirectory. Se você registrar um conjunto de dados tabular, o tipo de porta de saída do conjunto de dados será DataFrameDirectory. Observe que, se você conectar a porta de saída do conjunto de dados a outros componentes do designer, será necessário alinhar o tipo de porta dos conjuntos de dados e dos componentes.

Captura de tela mostrando o local dos conjuntos de dados salvos na paleta do designer

Observação

O designer dá suporte ao controle de versão do conjunto de dados. Especifique a versão do conjunto de dados no painel Propriedades do componente do conjunto de dados.

Limitações

  • No momento, só é possível exibir o conjunto de dados tabular no designer. Se você registrar um conjunto de dados de arquivo fora do designer, não será possível exibi-lo na tela do designer.
  • Atualmente, o designer só dá suporte às saídas de visualização que são armazenadas no Armazenamento de Blobs do Azure. Verifique e altere o armazenamento de dados de saída em Configurações de saída na guia Parâmetros no painel direito do componente.
  • Se os dados estão armazenados na VNet (rede virtual) e você deseja visualizá-los, é preciso habilitar a identidade gerenciada do workspace do armazenamento de dados.
    1. Acesse o armazenamento de dados relacionado e clique em Atualizar autenticaçãoAtualizar Credenciais
    2. Escolha Sim para habilitar a identidade gerenciada do workspace. Habilitar a identidade gerenciada do workspace

Importar dados usando o componente Importar Dados

Embora seja recomendável usar os conjuntos de dados para importar dados, também é possível usar o componente Importar Dados. O componente Importar Dados ignora o registro do conjunto de dados no Azure Machine Learning e os importa os diretamente de um armazenamento de dados ou URL de HTTP.

Para obter informações detalhadas sobre como usar o componente Importar Dados, confira a página de referência Importar Dados.

Observação

Se o conjunto de dados tiver muitas colunas, você poderá encontrar o seguinte erro: "Falha na validação devido à limitação de tamanho". Para evitar isso, registre o conjunto de dados na interface Conjuntos de dados.

Fontes compatíveis

Esta seção lista as fontes de dados compatíveis com o designer. Os dados são inseridos no designer por meio de um armazenamento de dados ou de um conjunto de dados tabular.

Fontes de armazenamento de dados

Para obter uma lista das fontes de armazenamento de dados compatíveis, consulte Acessar dados nos serviços de armazenamento do Azure.

Fontes de conjunto de dados tabular

O designer oferece suporte a conjuntos de dados tabulares criados a partir das seguintes fontes:

  • Arquivos delimitados
  • Arquivos JSON
  • Arquivos Parquet
  • Consultas SQL

Tipos de dados

O designer reconhece internamente os seguintes tipos de dados:

  • String
  • Integer
  • Decimal
  • Boolean
  • Data

O designer usa um tipo de dados interno chamado para transmitir dados entre componentes. Você pode converter explicitamente os dados no formato de tabela de dados usando o componente Converter em conjunto de dados. Qualquer componente que aceite formatos diferentes do formato interno converterá os dados silenciosamente antes de transmiti-los para o próximo componente.

Restrições de dados

Os módulos no designer são limitados pelo tamanho do destino de computação. Em conjuntos de dados maiores, use um recurso de computação do Azure Machine Learning maior. Para obter mais informações sobre a computação do Azure Machine Learning, consulte O que são os destinos de computação no Azure Machine Learning?

Acessar dados de uma rede virtual

Se o seu workspace estiver em uma rede virtual, você deverá seguir etapas adicionais de configuração para exibir dados no designer. Para obter mais informações sobre como usar armazenamentos de dados e conjuntos de dados em uma rede virtual, confira Usar o Estúdio do Azure Machine Learning em uma rede virtual do Azure.

Próximas etapas

Aprenda as noções básicas do designer com o Tutorial: Prever preço de automóveis com o designer.