Carregar dados de treinamento no Model Builder

Saiba como carregar seus conjuntos de dados de treinamento de um arquivo ou banco de dados SQL Server para uso em um dos cenários do Model Builder para ML.NET. Os cenários do Model Builder podem usar bancos de dados SQL Server, arquivos de imagem e formatos de arquivo CSV ou TSV como dados de treinamento.

O Model Builder só aceita arquivos TSV, CSV e TXT com delimitadores de vírgula, tabulação e ponto e vírgula e imagens PNG e JPG.

Cenários do Model Builder

O Model Builder ajuda você a criar modelos para os seguintes cenários de machine learning:

  • Classificação de dados (classificação multiclasse e binária): Classifique dados de texto em duas ou mais categorias.
  • Previsão de valor (regressão): prever um valor numérico.
  • Classificação de imagens (aprendizado profundo): Classifique as imagens em duas ou mais categorias.
  • Recomendação (recomendação): Produza uma lista de itens sugeridos para um determinado usuário.
  • Detecção de objetos (aprendizado profundo): Detecte e identifique objetos em imagens. Isso pode localizar um ou mais objetos e rotulá-los de acordo.

Este artigo aborda a classificação e regressão com dados textuais ou numéricos, classificação de imagens e cenários de detecção de objetos.

Carregar texto ou dados numéricos de um arquivo

Você pode carregar texto ou dados numéricos de um arquivo no Model Builder. Ele aceita formatos de arquivo delimitados por vírgulas (CSV) ou delimitados por tabulações (TSV).

  1. Na etapa de dados do Model Builder, selecione Arquivo como o tipo de fonte de dados.

  2. Selecione o botão Procurar ao lado da caixa de texto e use o Explorador de Arquivos para navegar e selecionar o arquivo de dados.

  3. Escolha uma categoria na lista suspensa Coluna para prever (rótulo).

    Observação

    Cenários de classificação de dados (opcionais): se o tipo de dados de sua coluna de rótulo (o valor na lista suspensa "Coluna para prever (Rótulo)") estiver definido como Booleano (Verdadeiro/Falso), um algoritmo de classificação binária é usado em seu pipeline de treinamento de modelo. Caso contrário, um treinador de classificação multiclasse é usado. Use as Opções de dados avançadas para modificar o tipo de dados para sua coluna de rótulo e informar ao Model Builder qual tipo de treinador ele deve usar para seus dados.

  4. Atualize os dados no link Opções de dados avançadas para definir as configurações da coluna ou para atualizar a formatação dos dados.

Você terminou de configurar seu arquivo de fonte de dados para o Model Builder. Clique no botão Próxima etapa para passar para a próxima etapa no Model Builder.

Carregar dados de um banco de dados SQL Server

O Model Builder oferece suporte ao carregamento de dados de bancos de dados SQL Server locais e remotos.

Arquivo de banco de dados local

Para carregar dados de um arquivo de banco de dados SQL Server no Model Builder:

  1. Na etapa de dados do Model Builder, selecione SQL Server como o tipo de fonte de dados.

  2. Selecione o botão Escolher fonte de dados.

    1. Na caixa de diálogo Escolher a Fonte de Dados , selecione Arquivo de Banco de Dados do Microsoft SQL Server.
    2. Desmarque a caixa de seleção Sempre usar esta seleção e selecione Continuar
    3. Na caixa de diálogo Propriedades da conexão, selecione Procurar e selecione o arquivo .MDF baixado.
    4. Selecione OK
  3. Escolha o nome do conjunto de dados na lista suspensa Nome da tabela.

  4. Na lista suspensa Coluna a ser prevista (Rótulo), escolha a categoria de dados na qual você deseja fazer uma previsão.

    Observação

    Cenários de classificação de dados (opcionais): se o tipo de dados de sua coluna de rótulo (o valor na lista suspensa "Coluna para prever (Rótulo)") estiver definido como Booleano (Verdadeiro/Falso), um algoritmo de classificação binária é usado em seu pipeline de treinamento de modelo. Caso contrário, um treinador de classificação multiclasse é usado. Use as Opções de dados avançadas para modificar o tipo de dados para sua coluna de rótulo e informar ao Model Builder qual tipo de treinador ele deve usar para seus dados.

  5. Atualize os dados no link Opções de dados avançadas para definir as configurações da coluna ou para atualizar a formatação dos dados.

Banco de dados remoto

Para carregar dados de uma conexão de banco de dados SQL Server no Model Builder:

  1. Na etapa de dados do Model Builder, selecione SQL Server como o tipo de fonte de dados.

  2. Selecione o botão Escolher fonte de dados.

    1. Na caixa de diálogo Escolher fonte de dados, selecione Microsoft SQL Server.
  3. Na caixa de diálogo Propriedades da conexão, insira as propriedades de seu banco de dados Microsoft SQL.

    1. Forneça o nome do servidor que contém a tabela à qual você deseja se conectar.
    2. Configure a autenticação para o servidor. Se Autenticação do SQL Server estiver selecionado, insira o nome de usuário e a senha do servidor.
    3. Selecione a qual banco de dados se conectar na lista suspensa Selecionar ou inserir um nome de banco de dados. Isso deve ser preenchido automaticamente se o nome do servidor e as informações de login estiverem corretas.
    4. Selecione OK
  4. Escolha o nome do conjunto de dados na lista suspensa Nome da tabela.

  5. Na lista suspensa Coluna a ser prevista (Rótulo), escolha a categoria de dados na qual você deseja fazer uma previsão.

    Observação

    Cenários de classificação de dados (opcionais): se o tipo de dados de sua coluna de rótulo (o valor na lista suspensa "Coluna para prever (Rótulo)") estiver definido como Booleano (Verdadeiro/Falso), um algoritmo de classificação binária é usado em seu pipeline de treinamento de modelo. Caso contrário, um treinador de classificação multiclasse é usado. Use as Opções de dados avançadas para modificar o tipo de dados para sua coluna de rótulo e informar ao Model Builder qual tipo de treinador ele deve usar para seus dados.

  6. Atualize os dados no link Opções de dados avançadas para definir as configurações da coluna ou para atualizar a formatação dos dados.

Você terminou de configurar seu arquivo de fonte de dados para o Model Builder. Clique no link do botão Próxima etapa para ir para a próxima etapa no Model Builder.

Configurar arquivos de dados de classificação de imagem

O Model Builder espera que os dados de classificação de imagem sejam arquivos JPG ou PNG organizados em pastas que correspondem às categorias da classificação.

Para carregar imagens no Model Builder, forneça o caminho para um único diretório de nível superior:

  • Esse diretório de nível superior contém uma subpasta para cada uma das categorias a serem previstas.
  • Cada subpasta contém os arquivos de imagem pertencentes à sua categoria.

Na estrutura de pastas ilustrada abaixo, o diretório de nível superior é flower_photos. Há cinco subdiretórios correspondentes às categorias que você deseja prever: margarida, dente-de-leão, rosas, girassóis e tulipas. Cada um desses subdiretórios contém imagens pertencentes à sua respectiva categoria.

\---flower_photos
    +---daisy
    |       100080576_f52e8ee070_n.jpg
    |       102841525_bd6628ae3c.jpg
    |       105806915_a9c13e2106_n.jpg
    |
    +---dandelion
    |       10443973_aeb97513fc_m.jpg
    |       10683189_bd6e371b97.jpg
    |       10919961_0af657c4e8.jpg
    |
    +---roses
    |       102501987_3cdb8e5394_n.jpg
    |       110472418_87b6a3aa98_m.jpg
    |       118974357_0faa23cce9_n.jpg
    |
    +---sunflowers
    |       127192624_afa3d9cb84.jpg
    |       145303599_2627e23815_n.jpg
    |       147804446_ef9244c8ce_m.jpg
    |
    \---tulips
            100930342_92e8746431_n.jpg
            107693873_86021ac4ea_n.jpg
            10791227_7168491604.jpg

Configurar arquivos de dados de imagem de detecção de objetos

O Model Builder espera que os dados da imagem de detecção de objetos estejam no formato JSON gerados a partir de VoTT. O arquivo JSON está localizado na pasta vott-json-export no Local de destino especificado nas configurações do projeto.

O arquivo JSON consiste nas seguintes informações geradas a partir do VoTT:

  • Todas as tags que foram criadas
  • Os locais dos arquivos de imagem
  • As informações da caixa delimitadora da imagem
  • A tag associada à imagem

Para obter mais informações sobre como preparar dados para detecção de objetos, consulte Gerar dados de detecção de objetos do VoTT.

Próximas etapas

Siga estes tutoriais para criar aplicativos de aprendizado de máquina com o Model Builder:

Se você estiver treinando um modelo usando código, saiba como carregar dados usando a API ML.NET.