Coletar imagens

Artigo
10/01/2024

Para treinar um modelo de detecção de objetos para reconhecer objetos, você precisa reunir imagens que contenham esses objetos. Siga as diretrizes para a quantidade e a qualidade das imagens para obter melhores resultados.

Formato e tamanho

As imagens que você enviará ao modelo de detecção de objetos precisam ter estas características:

Formato:
- JPG
- PNG
- BMP
Tamanho:
- 6 MB no máximo para treinamento
- largura/altura mínima de 256 x 256 pixels

Quantidade de dados e saldo de dados

É importante carregar imagens suficientes para adaptar o modelo de IA. Um bom ponto de partida é ter pelo menos 15 imagens por objeto para o conjunto de treinamento. Com menos imagens, existe um grande risco de que o seu modelo aprenda conceitos que sejam apenas ruído ou irrelevantes. Adaptar seu modelo com mais imagens deve aumentar a precisão.

Outra consideração é garantir que seus dados estejam balanceados. Se você tiver 500 imagens para um objeto e apenas 50 imagens para outro, seu conjunto de dados de adaptação não está balanceado. Isso pode fazer com que o modelo seja melhor no reconhecimento de um dos objetos. Para obter resultados mais consistentes, mantenha uma proporção de pelo menos 1:2 entre o objeto com o menor número de imagens em relação àquele com o maior número. Por exemplo, se o objeto com mais imagens tiver 500 imagens, o objeto com menos imagens deve ter, no mínimo, 250 imagens para adaptação.

Usar imagens mais diversificadas

Forneça imagens representativas do que será enviado ao modelo durante o uso normal. Por exemplo, digamos que você esteja adaptando um modelo para reconhecer maçãs. Se você adaptá-lo apenas com imagens de maçãs em pratos, talvez ele não reconheça consistentemente maçãs em árvores. Incluir diferentes tipos de imagens garante que o modelo não seja tendencioso e possa fazer generalizações. A seguir, algumas maneiras de tornar o conjunto de adaptação mais diversificado.

Plano de fundo

Use imagens de seus objetos na frente de diferentes telas de fundo—por exemplo, frutas em pratos, nas mãos e em árvores. Fotos em contextos são melhores que fotos na frente de telas de fundo neutras, porque fornecem mais informações ao classificador.

Imagens em segundo plano.

Iluminação

Use imagens de adaptação com iluminação diferente, especialmente se as imagens usadas para detecção puderem ter iluminação diferente. Por exemplo, incluir fotos tiradas com flash, alta exposição e assim por diante. Também é útil incluir imagens com saturação, matiz e brilho variados. A câmera do seu dispositivo provavelmente permite que você controle essas configurações.

Iluminação da imagem.

Tamanho do objeto

Forneça imagens nas quais os objetos sejam de tamanhos variados, capturando diferentes partes do objeto—por exemplo, uma foto de cachos de bananas e um close de uma única banana. O dimensionamento diferente ajuda o modelo a generalizar melhor.

Tamanhos de objeto.

Ângulo da câmera

Tente fornecer imagens obtidas de diferentes ângulos. Se todas as suas fotos forem de um conjunto de câmeras fixas, como câmeras de vigilância, atribua um rótulo diferente a cada câmera. Isso pode ajudar a evitar a modelagem de objetos não relacionados, como postes de luz, como o elemento principal. Atribuir rótulos de câmera, mesmo que as câmeras capturem os mesmos objetos.

Ângulos da câmera.

Resultados inesperados

Os modelos de IA podem aprender incorretamente as características que as imagens têm em comum. Digamos que você queira criar um modelo para distinguir maçãs de frutas cítricas. Se você usar imagens de maçãs na mão e de frutas cítricas em pratos brancos, o modelo poderá ser treinado para mãos versus pratos brancos, e não maçãs versus frutas cítricas.

Resultados inesperados.

Para corrigir isso, use as diretrizes acima sobre adaptação com imagens mais variadas: forneça imagens com diferentes ângulos, telas de fundo, tamanho de objeto, grupos e outras variantes.

Introdução à detecção de objetos

Microsoft Learn Challenge

Compartilhar via

Coletar imagens

Formato e tamanho

Quantidade de dados e saldo de dados