Importe seus dados de treinamento para o Machine Learning Studio (clássico) de várias fontes de dados

Artigo
01/02/2019

APLICA-SE A: Aplica-se a. Machine Learning Studio (clássico) Não se aplica a. Azure Machine Learning

Importante

O suporte para o Estúdio de ML (clássico) terminará a 31 de agosto de 2024. Recomendamos a transição para o Azure Machine Learning até essa data.

A partir de 1 de dezembro de 2021, não poderá criar novos recursos do Estúdio de ML (clássico). Até 31 de agosto de 2024, pode continuar a utilizar os recursos existentes do Estúdio de ML (clássico).

Consulte informações sobre como mover projetos de aprendizado de máquina do ML Studio (clássico) para o Azure Machine Learning.
Saiba mais sobre o Azure Machine Learning

A documentação do Estúdio de ML (clássico) está a ser descontinuada e poderá não ser atualizada no futuro.

Para usar seus próprios dados no Machine Learning Studio (clássico) para desenvolver e treinar uma solução de análise preditiva, você pode usar dados de:

Arquivo local - Carregue dados locais com antecedência do seu disco rígido para criar um módulo de conjunto de dados em seu espaço de trabalho
Fontes de dados online - Use o módulo Importar dados para acessar dados de uma das várias fontes online enquanto o experimento está em execução
Experiência do Machine Learning Studio (clássico) - Use dados que foram salvos como um conjunto de dados no Machine Learning Studio (clássico)
Banco de dados do SQL Server - Use dados de um banco de dados do SQL Server sem precisar copiar dados manualmente

Nota

Há vários conjuntos de dados de exemplo disponíveis no Machine Learning Studio (clássico) que você pode usar para dados de treinamento. Para obter informações sobre isso, consulte Usar os conjuntos de dados de exemplo no Machine Learning Studio (clássico).

Preparar dados

O Machine Learning Studio (clássico) foi projetado para trabalhar com dados retangulares ou tabulares, como dados de texto delimitados ou estruturados de um banco de dados, embora em algumas circunstâncias dados não retangulares possam ser usados.

É melhor se os dados estiverem relativamente limpos antes de importá-los para o Studio (clássico). Por exemplo, você vai querer cuidar de problemas como cadeias de caracteres sem aspas.

No entanto, existem módulos disponíveis no Studio (clássico) que permitem alguma manipulação de dados dentro do seu experimento depois de importar os dados. Dependendo dos algoritmos de aprendizado de máquina que você usará, talvez seja necessário decidir como lidará com problemas estruturais de dados, como valores ausentes e dados esparsos, e há módulos que podem ajudar com isso. Procure na seção Transformação de Dados da paleta de módulos os módulos que executam essas funções.

A qualquer momento do experimento, você pode visualizar ou baixar os dados produzidos por um módulo clicando na porta de saída. Dependendo do módulo, pode haver diferentes opções de download disponíveis, ou você pode ser capaz de visualizar os dados dentro do seu navegador da Web no Studio (clássico).

Formatos de dados e tipos de dados suportados

Você pode importar vários tipos de dados para seu experimento, dependendo do mecanismo usado para importar dados e de onde eles vêm:

Texto simples (.txt)
Valores separados por vírgulas (CSV) com um cabeçalho (.csv) ou sem (.nh.csv)
Valores separados por tabulações (TSV) com um cabeçalho (.tsv) ou sem (.nh.tsv)
Ficheiro do Excel
Tabela do Azure
Tabela do Hive
Tabela do banco de dados SQL
Valores OData
Dados SVMLight (.svmlight) (consulte a definição SVMLight para obter informações de formato)
Dados de formato de arquivo de relação de atributo (ARFF) (.arff) (consulte a definição de ARFF para obter informações de formato)
Ficheiro zip (.zip)
Objeto R ou arquivo de espaço de trabalho (. RData)

Se você importar dados em um formato como ARFF que inclui metadados, o Studio (clássico) usará esses metadados para definir o título e o tipo de dados de cada coluna.

Se você importar dados como o formato TSV ou CSV que não inclua esses metadados, o Studio (clássico) inferirá o tipo de dados para cada coluna por amostragem dos dados. Se os dados também não tiverem cabeçalhos de coluna, o Studio (clássico) fornecerá nomes padrão.

Você pode especificar ou alterar explicitamente os títulos e tipos de dados para colunas usando o módulo Editar Metadados .

Os seguintes tipos de dados são reconhecidos pelo Studio (clássico):

String
Número inteiro
Duplo
Boolean
DateTime
TimeSpan

O Studio usa um tipo de dados interno chamado tabela de dados para passar dados entre módulos. Você pode converter explicitamente seus dados em formato de tabela de dados usando o módulo Converter em Conjunto de Dados.

Qualquer módulo que aceite formatos diferentes da tabela de dados converterá os dados em tabela de dados silenciosamente antes de passá-los para o próximo módulo.

Se necessário, você pode converter o formato de tabela de dados de volta para o formato CSV, TSV, ARFF ou SVMLight usando outros módulos de conversão. Procure na seção Conversões de Formato de Dados da paleta de módulos os módulos que executam essas funções.

Capacidade de dados

Os módulos no Machine Learning Studio (clássico) suportam conjuntos de dados de até 10 GB de dados numéricos densos para casos de uso comuns. Se um módulo precisar de mais do que uma entrada, 10 GB é o valor do tamanho total de todas as entradas de dados. Você pode obter exemplos de conjuntos de dados maiores usando consultas do Hive ou do Banco de Dados SQL do Azure ou pode usar o pré-processamento do Learning by Counts antes de importar os dados.

Os seguintes tipos de dados podem ser expandidos para conjuntos de dados de maiores dimensões durante a normalização da funcionalidade, estando limitados a menos de 10 GB:

Dispersos
Categórico
Cadeias
Dados binários

Os seguintes módulos estão limitados a conjuntos de dados inferiores a 10 GB:

Módulos de recomendador
Módulo Synthetic Minority Oversampling Technique (SMOTE)
Módulos de script: R, Python, SQL
Módulos onde o tamanho dos dados de saída pode ser superior ao tamanho dos dados de entrada, tais como Associação ou Hashing de Funcionalidade
Validação Cruzada, Hiperparâmetros do Modelo de Otimização, Regressão Ordinal e Multicasse “One-vs-All”, quando o número de iterações é muito grande

Para conjuntos de dados maiores que alguns GBs, carregue os dados no Armazenamento do Azure ou no Banco de Dados SQL do Azure ou use o Azure HDInsight, em vez de carregar diretamente de um arquivo local.

Você pode encontrar informações sobre dados de imagem na referência do módulo Importar imagens .

Importar de um arquivo local

Você pode carregar um arquivo de dados do seu disco rígido para usar como dados de treinamento no Studio (clássico). Ao importar um arquivo de dados, você cria um módulo de conjunto de dados pronto para uso em experimentos em seu espaço de trabalho.

Para importar dados de um disco rígido local, faça o seguinte:

Clique em +NOVO na parte inferior da janela do Studio (clássico).
Selecione DATASET e FROM LOCAL FILE.
Na caixa de diálogo Carregar um novo conjunto de dados, navegue até o arquivo que deseja carregar.
Insira um nome, identifique o tipo de dados e, opcionalmente, insira uma descrição. Uma descrição é recomendada - permite que você registre quaisquer características sobre os dados que você deseja lembrar ao usar os dados no futuro.
A caixa de seleção Esta é a nova versão de um conjunto de dados existente permite que você atualize um conjunto de dados existente com novos dados. Para fazer isso, clique nessa caixa de seleção e digite o nome de um conjunto de dados existente.

Carregar um novo conjunto de dados

O tempo de carregamento depende do tamanho dos seus dados e da velocidade da sua ligação ao serviço. Se você sabe que o arquivo levará muito tempo, você pode fazer outras coisas dentro do Studio (clássico) enquanto espera. No entanto, fechar o navegador antes que o upload de dados seja concluído faz com que o upload falhe.

Depois que os dados são carregados, eles são armazenados em um módulo de conjunto de dados e ficam disponíveis para qualquer experimento em seu espaço de trabalho.

Ao editar um experimento, você pode encontrar os conjuntos de dados carregados na lista Meus Conjuntos de Dados na lista Conjuntos de Dados Salvos na paleta de módulos. Você pode arrastar e soltar o conjunto de dados na tela do experimento quando quiser usar o conjunto de dados para análises adicionais e aprendizado de máquina.

Importar de fontes de dados online

Usando o módulo Importar dados, seu experimento pode importar dados de várias fontes de dados online enquanto o experimento está em execução.

Nota

Este artigo fornece informações gerais sobre o módulo Importar dados . Para obter informações mais detalhadas sobre os tipos de dados que você pode acessar, formatos, parâmetros e respostas a perguntas comuns, consulte o tópico de referência do módulo para o módulo Importar dados .

Usando o módulo Importar dados , você pode acessar dados de uma das várias fontes de dados online enquanto o experimento está em execução:

Um URL da Web usando HTTP
Hadoop usando HiveQL
Armazenamento de blobs do Azure
Tabela do Azure
Base de Dados SQL do Azure. Instância gerenciada do SQL ou SQL Server
Um provedor de feed de dados, OData atualmente
Azure Cosmos DB

Como esses dados de treinamento são acessados enquanto o experimento está em execução, eles só estão disponíveis nesse experimento. Em comparação, os dados que foram armazenados em um módulo de conjunto de dados estão disponíveis para qualquer experimento em seu espaço de trabalho.

Para acessar fontes de dados online em seu experimento do Studio (clássico), adicione o módulo Importar dados ao experimento. Em seguida, selecione Iniciar Assistente de Importação de Dados em Propriedades para obter instruções guiadas passo a passo para selecionar e configurar a fonte de dados. Como alternativa, você pode selecionar manualmente Fonte de dados em Propriedades e fornecer os parâmetros necessários para acessar os dados.

As fontes de dados online suportadas são discriminadas na tabela abaixo. Esta tabela também resume os formatos de arquivo suportados e os parâmetros usados para acessar os dados.

Importante

Atualmente, os módulos Importar Dados e Exportar Dados podem ler e gravar dados somente do armazenamento do Azure criado usando o modelo de implantação Clássico. Em outras palavras, o novo tipo de conta de Armazenamento de Blob do Azure que oferece uma camada de acesso de armazenamento ativo ou uma camada de acesso de armazenamento legal ainda não é suportada.

Geralmente, quaisquer contas de armazenamento do Azure que você possa ter criado antes que essa opção de serviço esteja disponível não devem ser afetadas. Se você precisar criar uma nova conta, selecione Clássico para o modelo de Implantação ou use o Gerenciador de recursos e selecione Finalidade geral em vez de Armazenamento de Blob para Tipo de conta.

Para obter mais informações, consulte Armazenamento de Blob do Azure: níveis de armazenamento quentes e frios.

Fontes de dados online suportadas

O módulo de importação de dados do Machine Learning Studio (clássico) suporta as seguintes fontes de dados:

Origem de Dados	Description	Parâmetros
Web URL via HTTP	Lê dados em valores separados por vírgulas (CSV), valores separados por tabulações (TSV), formato de arquivo de relação a atributos (ARFF) e formatos de máquinas vetoriais de suporte (SVM-light), de qualquer URL da Web que use HTTP	URL: Especifica o nome completo do arquivo, incluindo a URL do site e o nome do arquivo, com qualquer extensão. Formato de dados: especifica um dos formatos de dados suportados: CSV, TSV, ARFF ou SVM-light. Se os dados tiverem uma linha de cabeçalho, eles serão usados para atribuir nomes de coluna.
Hadoop/HDFS	Lê dados do armazenamento distribuído no Hadoop. Você especifica os dados desejados usando HiveQL, uma linguagem de consulta semelhante a SQL. O HiveQL também pode ser usado para agregar dados e executar filtragem de dados antes de adicionar os dados ao Studio (clássico).	Consulta ao banco de dados do Hive: especifica a consulta do Hive usada para gerar os dados. URI do servidor HCatalog : Especificado o nome do cluster usando o formato <do nome> do cluster.azurehdinsight.net. Nome da conta de usuário do Hadoop: especifica o nome da conta de usuário do Hadoop usado para provisionar o cluster. Senha da conta de usuário do Hadoop: especifica as credenciais usadas ao provisionar o cluster. Para obter mais informações, consulte Criar clusters Hadoop no HDInsight. Local dos dados de saída: especifica se os dados são armazenados em um sistema de arquivos distribuído Hadoop (HDFS) ou no Azure. Se você armazenar dados de saída no HDFS, especifique o URI do servidor HDFS. (Certifique-se de usar o nome do cluster HDInsight sem o prefixo HTTPS://). Se você armazenar seus dados de saída no Azure, deverá especificar o nome da conta de armazenamento do Azure, a chave de acesso ao armazenamento e o nome do contêiner de armazenamento.
Base de dados SQL	Lê dados armazenados no Banco de Dados SQL do Azure, na Instância Gerenciada do SQL ou em um banco de dados do SQL Server em execução em uma máquina virtual do Azure.	Nome do servidor de banco de dados: especifica o nome do servidor no qual o banco de dados está sendo executado. No caso do Banco de Dados SQL do Azure, insira o nome do servidor que é gerado. Normalmente, tem a forma <generated_identifier.database.windows.net>. No caso de um servidor SQL hospedado em uma máquina virtual do Azure, digite tcp:<Virtual Machine DNS Name>, 1433 Nome do banco de dados : Especifica o nome do banco de dados no servidor. Nome da conta de usuário do servidor: especifica um nome de usuário para uma conta que tem permissões de acesso para o banco de dados. Senha da conta de usuário do servidor: especifica a senha da conta de usuário. Consulta ao banco de dados:insira uma instrução SQL que descreva os dados que você deseja ler.
Banco de dados SQL local	Lê dados armazenados em um banco de dados SQL.	Gateway de dados: especifica o nome do Gateway de Gerenciamento de Dados instalado em um computador onde ele pode acessar seu banco de dados do SQL Server. Para obter informações sobre como configurar o gateway, consulte Executar análises avançadas com o Machine Learning Studio (clássico) usando dados de um servidor SQL. Nome do servidor de banco de dados: especifica o nome do servidor no qual o banco de dados está sendo executado. Nome do banco de dados : Especifica o nome do banco de dados no servidor. Nome da conta de usuário do servidor: especifica um nome de usuário para uma conta que tem permissões de acesso para o banco de dados. Nome de usuário e senha: Clique em Inserir valores para inserir suas credenciais de banco de dados. Você pode usar a Autenticação Integrada do Windows ou a Autenticação do SQL Server, dependendo de como o SQL Server está configurado. Consulta ao banco de dados:insira uma instrução SQL que descreva os dados que você deseja ler.
Tabela do Azure	Lê dados do serviço Tabela no Armazenamento do Azure. Se você ler grandes quantidades de dados com pouca frequência, use o Serviço de Tabela do Azure. Ele fornece uma solução de armazenamento flexível, não relacional (NoSQL), massivamente escalável, barata e altamente disponível.	As opções em Importar dados mudam dependendo se você está acessando informações públicas ou uma conta de armazenamento privado que requer credenciais de login. Isso é determinado pelo Tipo de Autenticação que pode ter o valor de "PublicOrSAS" ou "Conta", cada um dos quais tem seu próprio conjunto de parâmetros. URI de Assinatura de Acesso Público ou Compartilhado (SAS): Os parâmetros são: URI da tabela: Especifica a URL Pública ou SAS da tabela. Especifica as linhas a serem verificadas em busca de nomes de propriedades: Os valores são TopN para verificar o número especificado de linhas ou ScanAll para obter todas as linhas na tabela. Se os dados forem homogéneos e previsíveis, recomenda-se que selecione TopN e introduza um número para N. Para tabelas grandes, isso pode resultar em tempos de leitura mais rápidos. Se os dados forem estruturados com conjuntos de propriedades que variam com base na profundidade e posição da tabela, escolha a opção ScanAll para verificar todas as linhas. Isso garante a integridade da propriedade resultante e da conversão de metadados. Conta de armazenamento privado: Os parâmetros são: Nome da conta: especifica o nome da conta que contém a tabela a ser lida. Chave da conta: especifica a chave de armazenamento associada à conta. Nome da tabela : Especifica o nome da tabela que contém os dados a serem lidos. Linhas para procurar nomes de propriedades: Os valores são TopN para verificar o número especificado de linhas ou ScanAll para obter todas as linhas na tabela. Se os dados forem homogéneos e previsíveis, recomendamos que selecione TopN e introduza um número para N. Para tabelas grandes, isso pode resultar em tempos de leitura mais rápidos. Se os dados forem estruturados com conjuntos de propriedades que variam com base na profundidade e posição da tabela, escolha a opção ScanAll para verificar todas as linhas. Isso garante a integridade da propriedade resultante e da conversão de metadados.
Armazenamento de Blobs do Azure	Lê dados armazenados no serviço Blob no Armazenamento do Azure, incluindo imagens, texto não estruturado ou dados binários. Você pode usar o serviço Blob para expor dados publicamente ou para armazenar dados de aplicativos de forma privada. Você pode acessar seus dados de qualquer lugar usando conexões HTTP ou HTTPS.	As opções no módulo Importar dados mudam dependendo se você está acessando informações públicas ou uma conta de armazenamento privada que requer credenciais de login. Isso é determinado pelo Tipo de Autenticação, que pode ter um valor de "PublicOrSAS" ou de "Conta". URI de Assinatura de Acesso Público ou Compartilhado (SAS): Os parâmetros são: URI: Especifica a URL Pública ou SAS para o blob de armazenamento. Formato de arquivo: especifica o formato dos dados no serviço Blob. Os formatos suportados são CSV, TSV e ARFF. Conta de armazenamento privado: Os parâmetros são: Nome da conta: especifica o nome da conta que contém o blob que você deseja ler. Chave da conta: especifica a chave de armazenamento associada à conta. Caminho para contêiner, diretório ou blob : especifica o nome do blob que contém os dados a serem lidos. Formato de arquivo de Blob: especifica o formato dos dados no serviço de blob. Os formatos de dados suportados são CSV, TSV, ARFF, CSV com uma codificação especificada e Excel. Se o formato for CSV ou TSV, certifique-se de indicar se o arquivo contém uma linha de cabeçalho. Você pode usar a opção Excel para ler dados de pastas de trabalho do Excel. Na opção Formato de dados do Excel, indique se os dados estão em um intervalo de planilha do Excel ou em uma tabela do Excel. Na opção Folha do Excel ou tabela incorporada, especifique o nome da folha ou tabela a partir da qual pretende ler.
Provedor de feed de dados	Lê dados de um provedor de feed compatível. Atualmente, apenas o formato Open Data Protocol (OData) é suportado.	Tipo de conteúdo de dados: especifica o formato OData. URL de origem: especifica a URL completa para o feed de dados. Por exemplo, a seguinte URL lê do banco de dados de exemplo Northwind: https://services.odata.org/northwind/northwind.svc/

Importar de outra experiência

Haverá momentos em que você vai querer pegar um resultado intermediário de um experimento e usá-lo como parte de outro experimento. Para fazer isso, salve o módulo como um conjunto de dados:

Clique na saída do módulo que você deseja salvar como um conjunto de dados.
Clique em Salvar como Conjunto de Dados.
Quando solicitado, insira um nome e uma descrição que permitam identificar o conjunto de dados facilmente.
Clique na marca de seleção OK .

Quando o salvamento terminar, o conjunto de dados estará disponível para uso em qualquer experimento em seu espaço de trabalho. Você pode encontrá-lo na lista Conjuntos de dados salvos na paleta de módulos.

Próximos passos

Implantando serviços Web do Machine Learning Studio (clássicos) que usam módulos de Importação e Exportação de Dados

Partilhar via