Zbieranie obrazów

Artykuł
10.01.2024

Aby nauczyć model wykrywania obiektów rozpoznawania obiektów, należy zebrać obrazy zawierające te obiekty. Aby uzyskać lepsze wyniki, postępuj zgodnie z wytycznymi dotyczącymi liczby i jakości obrazów.

Format i rozmiar

Obrazy, które będą przekazywane do modelu wykrywania obiektu, muszą mieć następujące cechy:

Format:
- JPG
- PNG
- BMP
Rozmiar:
- Maksymalnie 6 MB na szkolenie
- minimalna szerokość / wysokość to 256 na 256 pikseli

Ilość danych i saldo danych

Ważne jest przekazanie liczby obrazów wystarczającej do wytrenowania modelu AI. Na początek zalecamy użycie co najmniej 15 obrazów na obiekt w każdym zestawie treningowym. Przy mniejszej liczbie obrazów istnieje duże ryzyko, że model będzie uczyć się koncepcji, w których występują zakłócenia lub nieistotne szczegóły. Uczenie modelu z większą liczbą obrazów powinno zwiększyć dokładność.

Kolejna kwestia to zapewnienie równowagi danych. Jeśli masz 500 obrazów dla jednego obiektu i tylko do 50 obrazów dla innego, zestaw danych szkoleniowych nie jest zrównoważony. Może to spowodować, że model będzie lepiej rozpoznawać jeden z obiektów. W celu uzyskania bardziej spójnych wyników należy zachować stosunek co najmniej 1:2 między obiektami o najmniejszej i największej liczbie obrazów. Jeśli na przykład obiekt o największej liczbie obrazów ma 500 obrazów, w celu wyszkolenia modelu element o najmniejszej liczbie obrazów musi ich mieć co najmniej 250.

Korzystanie z bardziej różnorodnych obrazów

Wybierz obrazy reprezentujące informacje, które będą przesyłane do modelu podczas normalnego użytkowania. Załóżmy na przykład, że planujesz nauczyć model rozpoznawać jabłka. Jeśli podczas szkolenia wykorzystasz tylko zdjęcia jabłek na talerzu, model może mieć kłopoty z rozpoznawaniem jabłek na drzewach. Uwzględnienie wielu różnych obrazów sprawia, że model nie jest nieobiektywny i może efektywnie generalizować. Poniżej przedstawiono kilka sposobów, dzięki którym zestaw treningowy będzie bardziej zróżnicowany.

W tle

Skorzystaj z obrazów obiektów z różnymi tłami — na przykład owocami na talerzach, w rękach i na drzewach. Fotografie w kontekście są lepsze niż zdjęcia na tle neutralnym, ponieważ zawierają więcej informacji dla klasyfikatora.

Tła obrazu.

Oświetlenie

Korzystaj z obrazów szkoleniowych mających różne oświetlenie, zwłaszcza jeśli obrazy używane do wykrywania mogą być różnie oświetlone. Dodaj zdjęcia wykonane z lampą błyskową, z długim czasem naświetlania itd. Warto również uwzględnić obrazy o zróżnicowanym nasyceniu, odcieniach i jasności. Aparat urządzenia prawdopodobnie pozwala kontrolować te ustawienia.

Oświetlenie obrazu.

Rozmiar obiektu

Dodaj obrazy, w których występują różne rozmiary obiektów, aby uchwycić poszczególne elementy obiektu — na przykład zdjęcie pęczków bananów i zbliżenie jednego banana. Różne rozmiary umożliwiają modelowi efektywniejsze uogólnianie.

Rozmiary obiektu.

Kąt aparatu

Zapewnij zdjęcia wykonane pod różnymi kątami. Jeśli wszystkie zdjęcia pochodzą z zestawu stałych kamer, takich jak kamery nadzoru, przypisz inną etykietę do każdej kamery. Może to pomóc w uniknięciu modelowania niepowiązanych obiektów, takich jak słupy latarni, jako kluczowych. Przypisuj etykiety kamerom nawet wtedy, gdy rejestrują te same obiekty.

Kąty aparatu.

Nieoczekiwane wyniki

Czasami model AI nieprawidłowo uczy się wspólnych cech obrazów. Załóżmy, że chcesz utworzyć model odróżniający jabłka od owoców cytrusowych. Jeśli użyjesz zdjęć jabłek w rękach i owoców cytrusowych na białych talerzach, model może zamiast tego nauczyć się odróżniać ręce od białych talerzy.

Nieoczekiwane wyniki.

Aby rozwiązać ten problem, skorzystaj z powyższych wskazówek dotyczących trenowania przy użyciu bardziej różnorodnych obrazów: używaj obrazów z różnymi kątami, tłem, rozmiarem obiektów, grupami i innymi wariantami.

Wprowadzenie do wykrywania obiektów

Microsoft Learn Challenge

Udostępnij za pośrednictwem

Zbieranie obrazów

Format i rozmiar

Ilość danych i saldo danych