Recopilar imatges

Per entrenar un model de detecció d'objectes per reconèixer els objectes, heu de recopilar imatges que contenen aquests objectes. Seguiu les directrius de quantitat i qualitat de la imatge per obtenir millors resultats.

Format i mida

Les imatges que introduireu al vostre model de detecció d'objectes necessiten aquestes característiques:

Format:
- JPG
- PNG
- BMP
Mida:
- 6 MB màxim per a l'entrenament
- Amplada / alçada mínima de 256 píxels x 256 píxels

Quantitat de dades i balanç de dades

És important penjar prou imatges per entrenar el vostre model d'IA. Un bon punt de partida és tenir almenys 15 imatges per objecte per al conjunt d'entrenament. Amb menys imatges, hi ha un fort risc que el vostre model aprengui conceptes que són només soroll o no són rellevants. L'entrenament del model amb més imatges hauria d'augmentar la precisió.

Una altra consideració és assegurar-se que les vostres dades estiguin equilibrades. Si teniu 500 imatges per a un objecte i només 50 imatges per a un altre, el conjunt de dades d'entrenament no està equilibrat. Això pot fer que el model sigui millor per reconèixer un dels objectes. Per obtenir resultats més coherents, mantingueu almenys una proporció d'1:2 entre l'objecte amb menys imatges i el que en té més. Per exemple, si l'objecte amb el major nombre d'imatges té 500 imatges, l'objecte amb menys imatges hauria de tenir almenys 250 imatges per a l'entrenament.

Utilitza imatges més diverses

Proporcioneu imatges representatives del que s'enviarà al model durant l'ús normal. Per exemple, suposem que esteu entrenant un model per reconèixer pomes. Si només entreneu imatges de pomes en plats, és possible que no reconegui de manera coherent les pomes dels arbres. Incloure diferents tipus d'imatges assegurarà que el vostre model no estigui esbiaixat i es pugui generalitzar bé. A continuació es mostren algunes maneres de fer que el vostre conjunt d'entrenament sigui més divers.

Fons

Utilitza imatges dels teus objectes davant de diferents fons, per exemple, fruites en plats, mans i arbres. Les fotos en context són millors que les fotos davant de fons neutres perquè proporcionen més informació per al classificador.

Fons d'imatge.

Enllumenat

Utilitzeu imatges d'entrenament que tinguin una il·luminació diferent, especialment si les imatges utilitzades per a la detecció poden tenir una il·luminació diferent. Per exemple, inclou imatges preses amb flaix, alta exposició, etc. També és útil incloure imatges amb saturació, tonalitat i brillantor variades. Probablement la càmera del dispositiu us permet controlar aquesta configuració.

Il·luminació d'imatges.

Mida de l'objecte

Proporcioneu imatges en què els objectes siguin de diferents mides, capturant diferents parts de l'objecte, per exemple, una foto de raïms de plàtans i un primer plàtan d'un sol plàtan. Una mida diferent ajuda el model a generalitzar millor.

Mides dels objectes.

Angle de la càmera

Intenta proporcionar imatges preses des de diferents angles. Si totes les fotos són d'un conjunt de càmeres fixes, com ara càmeres de vigilància, assigna una etiqueta diferent a cada càmera. Això pot ajudar a evitar modelar objectes no relacionats com ara fanals com a característica clau. Assigneu etiquetes de càmera encara que les càmeres capturin els mateixos objectes.

Angles de càmera.

Resultats inesperats

Els models d'IA poden aprendre incorrectament les característiques que les vostres imatges tenen en comú. Suposem que voleu crear un model per distingir les pomes dels cítrics. Si utilitzeu imatges de pomes a les mans i de cítrics en plats blancs, el model podria entrenar per a les mans contra plats blancs en lloc de pomes contra cítrics.

Resultats inesperats.

Per corregir-ho, utilitzeu la guia anterior sobre l'entrenament amb imatges més variades: proporcioneu imatges amb diferents angles, fons, mida d'objecte, grups i altres variants.

Introducció a la detecció d'objectes

Retroalimentació

Ha estat útil aquesta pàgina?

Last updated on 2026-01-14