Samla in bilder
Om du vill träna en objektidentifieringsmodell för att identifiera dina objekt måste du samla in bilder som innehåller dessa objekt. Följ riktlinjerna för antalet avbildningar och kvalitet för bättre resultat.
De bilder som du matar in i objektidentifieringsmodellen ska ha följande egenskaper:
Format:
- JPG
- PNG
- BMP
Storlek:
- Högst 6 MB för utbildning
- minsta bredd/höjd på 256 bildpunkter x 256 bildpunkter
Det är viktigt är att du laddar upp tillräckligt med bilder för att kunna träna din AI-modell. Det är bra att börja med minst 15 bilder per objekt som träningsuppsättning. Med färre bilder är risken hög att din modell lär sig begrepp som inte är relevanta. Träna din modell med fler bilder för att öka precisionen.
Du bör också se till att dina data är balanserade. Om du har 500 avbildningar för ett objekt och bara 50 bilder för ett annat är din träningsdatauppsättning inte balanserad. Detta kan innebära att modellen blir bättre på att känna igen ett av objekten. Om du vill ha mer konsekventa resultat bör du behålla minst ett 1:2-förhållande mellan objektet med minst antal bilder och objektet med flest antal bilder. Om till exempel objektet med det högsta antalet bilder har 500 bilder, behöver objektet med minst antal bilder ha minst 250 bilder vid träningen.
Använd bilder som är representativa för det som kommer att skickas till modellen vid normal användning. Anta till exempel att du tränar en modell att identifiera äpplen. Om du bara tränar med bilder på äpplen på tallrikar kanske den inte konsekvent identifierar äpplen i träd. Om du använder en bredd av olika bilder kommer din modell inte vara så ensidig, utan blir mer generaliserad. Nedan visas några exempel på hur du kan göra träningsuppsättningen mer varierad.
Använd bilder av objekten framför olika bakgrunder – t.ex. frukt på fat, i händer och på träd. Foton i sammanhang är bättre än foton framför neutrala bakgrunder, eftersom de ger mer information till klassificeraren.
Använd utbildningsbilder som har olika belysning, särskilt om de bilder som används för identifiering kan ha olika belysning. Det kan till exempel vara bilder som har tagits med blixt, hög exponering och så vidare. Det är också bra att inkludera bilder med varierande mättnad, nyans och ljusstyrka. I enhetskameran kan du förmodligen styra de här inställningarna.
Tillhandahåll bilder i vilka objekten är av varierande storlek, fångar in olika delar av ett objekt till – till exempel ett foto av en klase bananer och en närbild på en banan. Med olika storlekar blir modellgeneraliseringen bättre.
Försök att använda bilder tagna från olika vinklar. Om alla dina foton kommer från en uppsättning fasta kameror som övervakningskameror ska du tilldela unika etiketter för varje kamera. Detta kan bidra till att undvika modellering av orelaterade objekt, till exempel lyktstolpar som nyckel funktion. Tilldela kameraetiketter även om kamerorna fångar samma objekt.
Ibland kan AI-modellen lära sig fel egenskaper som dina bilder har gemensamt. Anta att du vill skapa en modell för att särskilja äpplen från citrusfrukter. Om du använder bilder av äpplen i händerna och av citrusfrukt på vita tallrikar, kan modellen bli tränad för händer och vita tallrikar i stället för äpplen och citrusfrukt.
För att slippa detta kan du använda ovanstående vägledning för att träna med mer varierade bilder: bilder med olika vinklar, bakgrunder, objektstorlek, grupper och andra varianter.