Partilhar via


Carregar dados de treinamento no Construtor de Modelos

Saiba como carregar seus conjuntos de dados de treinamento de um arquivo ou de um banco de dados do SQL Server para uso em um dos cenários do Construtor de Modelos para ML.NET. Os cenários do Construtor de Modelos podem usar bancos de dados do SQL Server, arquivos de imagem e formatos de arquivo CSV ou TSV como dados de treinamento.

O Construtor de Modelos só aceita arquivos TSV, CSV e TXT com delimitadores de vírgula, tabulação e ponto-e-vírgula e imagens PNG e JPG.

Cenários do Construtor de Modelos

O Construtor de Modelos ajuda a criar modelos para os seguintes cenários de aprendizado de máquina:

  • Classificação de dados (classificação binária ou multiclasse): classifique os dados de texto em duas ou mais categorias.
  • Previsão de valor (regressão): preveja um valor numérico.
  • Classificação de imagens (aprendizagem profunda): Classifique as imagens em duas ou mais categorias.
  • Recomendação (recomendação): Produza uma lista de itens sugeridos para um usuário específico.
  • Deteção de objetos (aprendizagem profunda): Detetar e identificar objetos em imagens. Isso pode encontrar um ou mais objetos e rotulá-los de acordo.

Este artigo aborda classificação e regressão com dados textuais ou numéricos, classificação de imagens e cenários de deteção de objetos.

Carregar texto ou dados numéricos de um ficheiro

Você pode carregar texto ou dados numéricos de um arquivo no Construtor de Modelos. Aceita formatos de ficheiro delimitados por vírgulas (CSV) ou por tabulações (TSV).

  1. Na etapa de dados do Construtor de Modelos, selecione Arquivo como o tipo de fonte de dados.

  2. Selecione o botão Procurar ao lado da caixa de texto e use o Explorador de Arquivos para procurar e selecionar o arquivo de dados.

  3. Escolha uma categoria na lista suspensa Coluna para prever (Rótulo ).

    Nota

    Cenários de classificação de dados (Opcional): Se o tipo de dados da coluna de rótulo (o valor no menu suspenso "Coluna para prever (Rótulo)") estiver definido como Booleano (Verdadeiro/Falso), um algoritmo de classificação binária será usado no pipeline de treinamento do modelo. Caso contrário, é utilizado um formador de classificação multiclasse. Use as opções de dados avançadas para modificar o tipo de dados para sua coluna de rótulo e informe ao Construtor de Modelos qual tipo de instrutor ele deve usar para seus dados.

  4. Atualize os dados no link Opções avançadas de dados para definir configurações de coluna ou atualizar a formatação de dados.

Você concluiu a configuração do arquivo de fonte de dados para o Construtor de Modelos. Clique no botão Próxima etapa para passar para a próxima etapa no Construtor de modelos.

Carregar dados de um banco de dados do SQL Server

O Construtor de Modelos oferece suporte ao carregamento de dados de bancos de dados locais e remotos do SQL Server.

Arquivo de banco de dados local

Para carregar dados de um arquivo de banco de dados do SQL Server no Construtor de Modelos:

  1. Na etapa de dados do Construtor de Modelos, selecione SQL Server como o tipo de fonte de dados.

  2. Selecione o botão Escolher fonte de dados.

    1. Na caixa de diálogo Escolher Fonte de Dados, selecione Arquivo de Banco de Dados do Microsoft SQL Server.
    2. Desmarque a caixa de seleção Sempre usar esta seleção e selecione Continuar
    3. Na caixa de diálogo Propriedades da conexão, selecione Procurar e selecione o arquivo baixado . Arquivo MDF.
    4. Selecione OK
  3. Escolha o nome do conjunto de dados na lista suspensa Nome da tabela.

  4. Na lista suspensa Coluna a prever (Rótulo), escolha a categoria de dados na qual deseja fazer uma previsão.

    Nota

    Cenários de classificação de dados (Opcional): Se o tipo de dados da coluna de rótulo (o valor no menu suspenso "Coluna para prever (Rótulo)") estiver definido como Booleano (Verdadeiro/Falso), um algoritmo de classificação binária será usado no pipeline de treinamento do modelo. Caso contrário, é utilizado um formador de classificação multiclasse. Use as opções de dados avançadas para modificar o tipo de dados para sua coluna de rótulo e informe ao Construtor de Modelos qual tipo de instrutor ele deve usar para seus dados.

  5. Atualize os dados no link Opções avançadas de dados para definir configurações de coluna ou atualizar a formatação de dados.

Base de dados remota do

Para carregar dados de uma conexão de banco de dados do SQL Server no Construtor de Modelos:

  1. Na etapa de dados do Construtor de Modelos, selecione SQL Server como o tipo de fonte de dados.

  2. Selecione o botão Escolher fonte de dados.

    1. Na caixa de diálogo Escolher Fonte de Dados, selecione Microsoft SQL Server.
  3. Na caixa de diálogo Propriedades da Conexão, insira as propriedades do seu banco de dados Microsoft SQL.

    1. Forneça o nome do servidor que tem a tabela à qual você deseja se conectar.
    2. Configure a autenticação para o servidor. Se a opção Autenticação do SQL Server estiver selecionada, insira o nome de usuário e a senha do servidor.
    3. Selecione o banco de dados ao qual se conectar na lista suspensa Selecionar ou inserir um nome de banco de dados. Isso deve ser preenchido automaticamente se o nome do servidor e as informações de login estiverem corretos.
    4. Selecione OK
  4. Escolha o nome do conjunto de dados na lista suspensa Nome da tabela.

  5. Na lista suspensa Coluna a prever (Rótulo), escolha a categoria de dados na qual deseja fazer uma previsão.

    Nota

    Cenários de classificação de dados (Opcional): Se o tipo de dados da coluna de rótulo (o valor no menu suspenso "Coluna para prever (Rótulo)") estiver definido como Booleano (Verdadeiro/Falso), um algoritmo de classificação binária será usado no pipeline de treinamento do modelo. Caso contrário, é utilizado um formador de classificação multiclasse. Use as opções de dados avançadas para modificar o tipo de dados para sua coluna de rótulo e informe ao Construtor de Modelos qual tipo de instrutor ele deve usar para seus dados.

  6. Atualize os dados no link Opções avançadas de dados para definir configurações de coluna ou atualizar a formatação de dados.

Você concluiu a configuração do arquivo de fonte de dados para o Construtor de Modelos. Clique no link do botão Próxima etapa para passar para a próxima etapa no Construtor de modelos.

Configurar arquivos de dados de classificação de imagem

O Construtor de Modelos espera que os dados de classificação de imagem sejam arquivos JPG ou PNG organizados em pastas que correspondam às categorias da classificação.

Para carregar imagens no Construtor de Modelos, forneça o caminho para um único diretório de nível superior:

  • Este diretório de nível superior contém uma subpasta para cada uma das categorias a prever.
  • Cada subpasta contém os arquivos de imagem pertencentes à sua categoria.

Na estrutura de pastas ilustrada abaixo, o diretório de nível superior é flower_photos. Há cinco subdiretórios correspondentes às categorias que você deseja prever: margarida, dente de leão, rosas, girassóis e tulipas. Cada um desses subdiretórios contém imagens pertencentes à sua respetiva categoria.

\---flower_photos
    +---daisy
    |       100080576_f52e8ee070_n.jpg
    |       102841525_bd6628ae3c.jpg
    |       105806915_a9c13e2106_n.jpg
    |
    +---dandelion
    |       10443973_aeb97513fc_m.jpg
    |       10683189_bd6e371b97.jpg
    |       10919961_0af657c4e8.jpg
    |
    +---roses
    |       102501987_3cdb8e5394_n.jpg
    |       110472418_87b6a3aa98_m.jpg
    |       118974357_0faa23cce9_n.jpg
    |
    +---sunflowers
    |       127192624_afa3d9cb84.jpg
    |       145303599_2627e23815_n.jpg
    |       147804446_ef9244c8ce_m.jpg
    |
    \---tulips
            100930342_92e8746431_n.jpg
            107693873_86021ac4ea_n.jpg
            10791227_7168491604.jpg

Configurar arquivos de dados de imagem de deteção de objetos

O Construtor de Modelos espera que os dados de imagem de deteção de objetos estejam no formato JSON gerado a partir do VoTT. O arquivo JSON está localizado na pasta vott-json-export no Local de Destino especificado nas configurações do projeto.

O arquivo JSON consiste nas seguintes informações geradas a partir do VoTT:

  • Todas as tags que foram criadas
  • Os locais dos arquivos de imagem
  • As informações da caixa delimitadora de imagem
  • A tag associada à imagem

Para obter mais informações sobre como preparar dados para deteção de objetos, consulte Gerar dados de deteção de objetos do VoTT.

Próximos passos

Siga estes tutoriais para criar aplicativos de aprendizado de máquina com o Model Builder:

Se você estiver treinando um modelo usando código, saiba como carregar dados usando a API ML.NET.