Udostępnij za pośrednictwem


Uwaga dotycząca przezroczystości: Analiza obrazu

Ważne

Tłumaczenia nieanglojęzyczne są dostępne tylko dla wygody. Aby zapoznać się z wiążącą wersją, sprawdź EN-US wersję tego dokumentu.

Co to jest notatka dotycząca przezroczystości?

System sztucznej inteligencji obejmuje nie tylko technologię, ale także osoby, które będą jej używać, osoby, których to dotyczy, oraz środowisko, w którym jest wdrażana. Utworzenie systemu dopasowanego do zamierzonego celu wymaga zrozumienia, jak działa technologia, jakie są jej możliwości i ograniczenia oraz jak osiągnąć najlepszą wydajność. Notatki dotyczące przejrzystości firmy Microsoft mają na celu ułatwienie zrozumienia sposobu działania naszej technologii sztucznej inteligencji, wyborów, jakie właściciele systemów mogą dokonać, aby wpływać na wydajność i zachowanie systemu oraz znaczenie myślenia o całym systemie, w tym o technologii, ludziach i środowisku. Możesz użyć notatek przezroczystości podczas opracowywania lub wdrażania własnego systemu lub udostępniać je osobom, które będą korzystać z systemu lub mają na nie wpływ.

Informacje o przejrzystości firmy Microsoft są częścią szerszego wysiłku firmy Microsoft na rzecz wprowadzenia zasad sztucznej inteligencji w życie. Aby dowiedzieć się więcej, zobacz zasady dotyczące sztucznej inteligencji firmy Microsoft.

Podstawy analizy obrazów

Wprowadzenie

Organizacje kompilują rozwiązania do przetwarzania zasobów multimedialnych, takich jak pliki cyfrowe i obrazy, i wyodrębniają szczegółowe informacje umożliwiające podejmowanie działań. Te szczegółowe informacje obejmują funkcje wizualne obrazów, takie jak obiekty, osoby i opisy obrazów, które mogą służyć do pozyskiwania wiedzy, automatyzacji procesów biznesowych i ułatwień dostępu do zawartości dla wszystkich użytkowników.

Dostępne za pośrednictwem usług Azure AI, interfejsy API analizy obrazów oferują wstępnie wytrenowane modele uczenia maszynowego w celu przypisania etykiet do obrazów i sklasyfikowania ich w tysiącach wstępnie zdefiniowanych kategorii. Interfejsy API wyodrębniają wiele cech wizualnych z obrazów, w tym obiektów, osób, zawartości dla dorosłych i automatycznie generowanych podpisów obrazów. Korzystając z funkcji Dostosowywanie, klienci mogą szybko trenować modele przetwarzania obrazów przy użyciu własnych danych i definiować własne kategorie.

Kluczowe terminy

Termin Definicja
Wstępnie utworzone modele Modele obsługujące funkcje, które usługa Image Analysis oferuje klientom. Te modele nie wymagają dodatkowego szkolenia.
Model podstawowy Modele podstawowe to kombinacja architektury modelu i danych szkoleniowych używanych do dostrajania tej architektury dla określonego typu zadania (na przykład klasyfikacji obrazów lub wykrywania obiektów). Modele podstawowe są tworzone przez firmę Microsoft i są używane jako punkt wyjścia dla procesu uczenia transferowego dla różnych domen, takich jak Ogólne, Żywność, Punkty orientacyjne, Sprzedaż detaliczna, Logo i Produkty na półkach.
trenowanie modelu Odnosi się to do procesu trenowania modelu na podstawie dostarczonych przez klienta obrazów oznaczonych etykietami podczas korzystania z funkcji dostosowywania modelu.
Uczenie na kilku przykładach W przeciwieństwie do tradycyjnych metod trenowania modeli uczenia maszynowego, w których zwykle używa się dużych ilości danych szkoleniowych, uczenie na podstawie niewielu przykładów korzysta z niewielkiej ilości danych szkoleniowych do trenowania modelu w celu poznania podstawowego wzorca, który pozwala rozpoznawać i klasyfikować nowe dane dostarczone przez klienta podczas korzystania z funkcji dostosowywania.
Uczenie transferowe Użycie danych szkoleniowych dostarczonych przez klienta w funkcji dostosowywania modelu w celu ponownego trenowania modelu podstawowego w celu rozwiązania konkretnego problemu, który klient próbuje rozwiązać. Dane treningowe mogą być kombinacją klas, które chcą rozpoznać lub wykryć, oraz typów obrazów.
Klasa Wytrenowany model ma zestaw klas, które przypisze podczas analizowania obrazu wejściowego. Podczas tworzenia niestandardowego modelu klasyfikacji obrazów za pomocą dostosowywania modelu należy określić zestaw klas, które model powinien generować, i dostarczyć etykietowane dane treningowe dla każdej z klas.
Para dokładności klas Para precyzyjności klasy to zestaw dwóch wartości: nazwa klasy oraz wartość zmiennoprzecinkowa określająca poziom ufności przypisany do wykrywania tej klasy. Na przykład klasa może być gatunkiem owocu, takim jak ananas lub gruszka, reprezentowane w zestawie obrazów. Para klasa-dokładność to określona klasa i wynik ufności, że dana klasa jest obecna na obrazie (np. Ananas: 93,53%).
Klasyfikacja obrazów Ta funkcja przyjmuje obraz jako dane wejściowe i generuje zestaw par dokładności klas, które są właściwościami na poziomie obrazu (nie określają lokalizacji na obrazie). Na przykład para może być owoc i nie-owoc, w której większa część obrazu jest zajęta przez odpowiednią klasę.
Wykrywanie obiektów Ta funkcja przyjmuje obraz jako dane wejściowe, a wyprowadza zestaw par dokładności klas, które zawierają również współrzędne pola ograniczenia, dla których na obrazie wykryto te klasy. Na przykład model może wykryć współrzędne ramki ograniczającej, w której znajduje się pojazd na obrazie.
Ramka ograniczająca Zestaw czterech wartości liczbowych reprezentujących współrzędne x,y pikseli w lewym górnym rogu wykrytego obiektu względem lewego górnego rogu obrazu, szerokości wykrytego obiektu.
Pewność siebie Operacja Analiza obrazu zwraca wartości ufności w zakresie od 0 do 1 dla wszystkich wyodrębnionych danych wyjściowych. Wartość ufności reprezentuje oszacowanie prawdopodobieństwa tagu.
Florencja Florence to nazwa nowego modelu bazowego sztucznej inteligencji, będącego częścią inicjatywy Azure AI Vision, trenowanego na miliardach par tekst-obraz, dzięki któremu osiągnięto wiele ulepszeń jakościowych w wersji 4.0 Azure AI Vision. Ma zdolność rozpoznawania milionów kategorii obiektów zaraz po uruchomieniu i umożliwia szybsze i tańsze dostosowanie do rozpoznawania określonych wzorców przy użyciu mniejszej liczby obrazów szkoleniowych w usłudze dostosowywania modelu.
Planogram Planogram to dokument lub diagram opisujący umieszczanie produktów na półkach lub wyświetlanych w sklepie detalicznym. Służy do pomocy sprzedawcom detalicznym i producentom w optymalizacji umieszczania produktów w celu zwiększenia sprzedaży. W scenariuszach rozpoznawania produktów planogram jest reprezentowany jako dokument JSON.

Możliwości

Funkcje

Ważne

Z wyjątkiem rozpoznawania osobistości żadna z poniższych możliwości analizy obrazów nie może identyfikować ani weryfikować poszczególnych osób. Nie przewidują ani nie klasyfikują atrybutów twarzy i nie tworzą szablonów twarzy (unikatowy zestaw liczb generowanych na podstawie obrazu reprezentującego charakterystyczne cechy twarzy) podczas wykrywania twarzy. Każde uznanie osoby jest wynikiem waszego etykietowania, a nie wynika z naszych możliwości rozpoznawania twarzy ani tworzenia szablonu twarzy. Rozpoznawanie osobistości to funkcja ograniczonego dostępu dostępna tylko dla zatwierdzonych klientów. Gdy rozpoznawanie celebrytów jest używane, analiza obrazów wywołuje interfejs API rozpoznawania twarzy, generuje szablony twarzy dla wykrytych twarzy i porównuje je z przechowywanymi szablonami dla celebrytów (zobacz Rozpoznawanie celebrytów, charakterystycznych obiektów i marek poniżej).

Do przetwarzania obrazów można użyć analizy obrazów:

  • Oznaczanie cech wizualnych: z zestawu tysięcy rozpoznawalnych obiektów, organizmów żywych, scenerii i czynności można identyfikować i oznaczać cechy wizualne na obrazie. Gdy tagi są niejednoznaczne lub tożsamość zawartości nie są powszechną wiedzą, odpowiedź interfejsu API zawiera wskazówki umożliwiające wyjaśnienie kontekstu tagu. Tagowanie nie jest ograniczone do głównego tematu obrazu, takiego jak osoba na pierwszym planie. Tagowanie może również obejmować ustawienie (wewnątrz lub na zewnątrz), meble, narzędzia, rośliny, zwierzęta, akcesoria i gadżety.

  • Wykrywanie obiektów: wykrywanie obiektów jest podobne do tagowania, ale interfejs API zwraca współrzędne pola ograniczenia dla każdego zastosowanego tagu. Jeśli na przykład obraz zawiera psa, kota i osobę, operacja wyświetla listę każdego obiektu i jego współrzędnych na obrazie. Za pomocą tej funkcji można przetwarzać relacje między obiektami na obrazie. Wykrywanie obiektów informuje również, czy na obrazie istnieje wiele wystąpień tego samego tagu.

  • Generowanie opisowych podpisów: Algorytm transkryptowania obrazów używa modeli rozpoznawania osobistości i rozpoznawania punktów orientacyjnych, aby wygenerować bardziej opisowe podpisy, gdy gwiazdy lub charakterystyczne wzory są obecne na obrazie. Rozpoznawanie osobistości jest dostępne tylko dla zatwierdzonych klientów. Zastosuj tutaj , jeśli chcesz użyć rozpoznawania osobistości.

    Uwaga / Notatka

    Wyrażenie "Caption" zastępuje "Describe" w wersji 4.0 jako znacznie ulepszoną funkcję opisywania obrazów, bogatą w szczegóły i zrozumienie semantyczne. Gęste napisy zapewniają więcej szczegółów, generując jednozdaniowe opisy dla maksymalnie 10 obszarów obrazu, oprócz opisywania całego obrazu. Napisy gęste zwracają również współrzędne pola ograniczenia dla opisanych regionów obrazu.

  • Moderowanie zawartości na obrazach: Za pomocą analizy obrazów można wykrywać treści dla dorosłych, nieprzyzwoite i drastyczne na obrazach oraz uzyskiwać wyniki ufności dla tych klasyfikacji. Możesz ustawić próg oznaczania zawartości jako treści dla dorosłych, rasistowskich lub gory na przesuwanej skali, aby dostosować się do swoich preferencji.

  • Uzyskaj obszar zainteresowania i inteligentne uprawy: możesz przeanalizować zawartość obrazu, aby zwrócić współrzędne najważniejszego regionu obrazu lub uzyskać sugerowane przy użyciu sztucznej inteligencji przycinanie obrazu pod kątem różnych współczynników proporcji. Wykrywanie twarzy służy do określania ważnych regionów na obrazie. Wykrywanie nie obejmuje odróżnienia jednej twarzy od innej twarzy, przewidywania lub klasyfikowania atrybutów twarzy ani tworzenia szablonu twarzy (unikatowy zestaw liczb generowanych na podstawie obrazu reprezentującego charakterystyczne cechy twarzy).

  • Wyodrębnianie tekstu na obrazach: Analiza obrazu ma optyczne rozpoznawanie znaków (OCR), których można użyć do wykrywania tekstu drukowanego lub odręcznego na obrazach i zwracania tekstu oraz współrzędnych tekstu.

  • Wykrywanie osób i twarzy: możesz użyć analizy obrazów do wykrywania twarzy i osób na obrazie. API służą do zwracania współrzędnych prostokąta dla każdej wykrytej twarzy i osoby. Weryfikacja twarzy i identyfikacja są oferowane przez usługę rozpoznawania twarzy platformy Azure.

  • Rozpoznawanie osobistości, punktów orientacyjnych i marki: Użyj analizy obrazów do identyfikowania marek komercyjnych, popularnych punktów orientacyjnych i osobistości na obrazach lub filmach wideo z wstępnie ustawionej bazy danych tysięcy globalnych logo, punktów orientacyjnych i osobistości (obejmuje około 1 milionów twarzy w oparciu o często żądane źródła danych, takie jak IMDb, Wikipedia i najważniejsze elementy mające wpływ na LinkedIn). Możesz na przykład użyć tej funkcji, aby dowiedzieć się, które marki są najbardziej popularne w mediach społecznościowych lub markach, które są najbardziej powszechne w umieszczaniu produktów w mediach. Rozpoznawanie twarzy celebrytów jest dostępne tylko dla zatwierdzonych klientów.

  • Dostosowywanie: Dostosowywanie to funkcja usługi Analizy obrazów, która umożliwia tworzenie, wdrażanie i ulepszanie własnego niestandardowego systemu identyfikacji obrazów. Identyfikator obrazu stosuje etykiety do obrazów zgodnie z ich cechami wizualnymi. Każda etykieta reprezentuje klasyfikację lub obiekt. Usługa dostosowywania umożliwia określenie własnych etykiet i przeszkolenie modeli niestandardowych w celu ich wykrywania.

  • Opis produktu: użyj wyspecjalizowanego modelu analizy obrazów, aby wykryć obecność produktów na półkach sklepów detalicznych. Można to połączyć z dostosowywaniem w celu wytrenowania modeli w celu zidentyfikowania określonych produktów na półkach sklepowych.

  • Łączenie obrazów: połącz wiele obrazów, które częściowo nakładają się na jeden duży obraz. Jest to używane w scenariuszu rozpoznawania produktów, aby uzyskać pojedynczy obraz całej półki detalicznej.

  • Recyfikacja obrazu: Cofnij zniekształcenie perspektywy obrazu. Jest to używane w scenariuszu rozpoznawania produktów, aby zapewnić łatwiejsze analizowanie obrazów półek.

  • Dopasowanie planogramu: porównaj wyniki rozpoznawania produktu z dokumentem planogramu, aby zobaczyć, które miejsca są zajęte przez produkty i które mają luki.

  • Usuwanie tła: umożliwia usunięcie tła obrazu. Ta operacja może wygenerować obraz wykrytego obiektu pierwszego planu z przezroczystym tłem lub obraz matowy alfa w skali szarości przedstawiający nieprzezroczystość wykrytego obiektu pierwszego planu.

  • Pobieranie obrazów: Pobieranie obrazu umożliwia użytkownikom wyszukiwanie obrazów w sposób, w jaki myślą: przy użyciu naturalnych faz, pytań, nawet niejasnych opisów. Umożliwia wektoryzację obrazów i zapytań tekstowych. Umożliwia to konwertowanie obrazów i tekstu na współrzędne w przestrzeni wektorów wielowymiarowych. Użyj podobieństwa wektorów, aby dopasować obrazy do terminów wyszukiwania w oparciu o bliskość semantyczną, na przykład do przeszukiwania treści obrazów lub rekomendowania obrazu na podstawie zapytania tekstowego lub podobnego obrazu.

  • Podsumowanie wideo i lokalizator ramek: wyszukiwanie i interakcja z zawartością wideo w taki sam intuicyjny sposób, w jaki myślisz i piszesz. Znajdź odpowiednią zawartość bez konieczności wprowadzania dodatkowych metadanych. Obecnie dostępne tylko w programie Vision Studio

Przypadki użycia

Zamierzone użycia

Oto kilka przykładów użycia analizy obrazów:

  • Możliwość odnajdywania obrazów: obrazy przekazywane do wewnętrznej przestrzeni udostępnionej organizacji i platformy mediów społecznościowych zawierają bogate informacje i metadane. Zazwyczaj jednak te informacje nie są czytelne dla maszyny i są niedostępne do automatycznego tagowania, kategoryzacji i wyszukiwania. Analiza obrazów udostępnia szczegółowe informacje z tych obrazów na potrzeby analizy, wyszukiwania i pobierania. Na przykład firmy handlu elektronicznego mogą sprawić, że biblioteka produktów będzie wyszukiwana lub duża witryna internetowa z zawartością wygenerowaną przez użytkownika może umożliwić zaawansowane rekomendacje dotyczące wyszukiwania i zawartości.
  • Automatyzacja przetwarzania zawartości: za pomocą analizy obrazów można zautomatyzować zadania, takie jak wykrywanie zawartości wizualnej na obrazach i tworzenie metadanych w potoku analizy multimediów. Automatyzacja może skrócić czas, nakład pracy i koszty związane z tworzeniem i tworzeniem zawartości.
  • Moderowanie zawartości obrazów: firmy handlu elektronicznego, wydawcy zawartości generowane przez użytkowników, społeczności gier online i platformy mediów społecznościowych muszą moderować zawartość obrazu. Analiza obrazów umożliwia automatyczne oznaczanie nieodpowiedniej zawartości na obrazach (na przykład dla dorosłych, sugestywnej lub drastycznej). Następnie możesz użyć zwróconych flag zawartości i ich odpowiednich współczynników ufności, aby moderować zawartość w aplikacji zgodnie z potrzebami.
  • Identyfikacja specyficzna dla domeny: Deweloperzy mogą używać analizy obrazów do identyfikowania zawartości specyficznej dla domeny w mediach społecznościowych i aplikacjach fotograficznych. Możesz na przykład zidentyfikować słynne punkty orientacyjne lub logo marki na obrazie, aby udostępnić odpowiednie zalecenia dla użytkowników.
  • Ułatwienia dostępu do zawartości: użyj modeli bazowych analizy obrazów, aby tworzyć rozwiązania, które pomagają osobom, które są ślepe i osoby z niską wizją, wykrywając i opisując zawartość obrazu w języku czytelnym dla człowieka. W tym kontekście włączyliśmy parametr, który pozwoli użytkownikom wybrać opisy specyficzne dla płci, np. "mężczyzna i kobieta siedząca na ławce", lub opisy neutralne pod względem płci, np. "dwie osoby siedzące na ławce".
  • Filtrowanie obrazów na potrzeby prywatności: możesz użyć analizy obrazów do wykrywania twarzy i osób na obrazach. Użyj funkcji wykrywania twarzy i wykrywania osób, aby określić, czy obrazy zawierają potencjalnie poufne informacje na potrzeby zagadnień dotyczących prywatności.
  • Zarządzanie zapasami detalicznymi: interfejsy API rozpoznawania produktów umożliwiają analizowanie zdjęć półek detalicznych, wykrywanie, które produkty są tam, i porównywanie zdjęć z dokumentem planogramu.

Zagadnienia dotyczące wyboru innych przypadków użycia

  • Stosowanie nadzoru ludzkiego w celu udzielenia lub odmowy korzyści: użycie danych wyjściowych analizy obrazów bezpośrednio do przyznania lub odmowy korzyści może spowodować błędy, jeśli wyniki są oparte na nieprawidłowych lub niekompletnych informacjach. Aby zapewnić uczciwe i wysokiej jakości decyzje dla użytkowników, połącz automatyzację dostępną w analizie obrazów z nadzorem człowieka.
  • Nie nadaje się do identyfikacji twarzy lub weryfikacji: Analiza obrazu nie ma możliwości rozpoznawania twarzy. Każde rozpoznawanie osoby korzystającej z analizy obrazów odbywa się w wyniku etykietowania, a nie z rzeczywistej technologii rozpoznawania twarzy. Użyj Azure AI Face.
  • Nie nadaje się do klasyfikacji wieku lub płci: Unikaj używania analizy obrazów w celu klasyfikacji wieku lub płci.
  • Uwzględnianie dodatkowych środków na potrzeby rozpoznawania specyficznego dla domeny: wstępnie utworzone możliwości sztucznej inteligencji, takie jak rozpoznawanie osobistości, rozpoznawanie punktów orientacyjnych i rozpoznawanie logo marki, są szkolone na skończonym zestawie osobistości, punktów orientacyjnych i marek. Usługa rozpoznawania może nie rozpoznawać wszystkich regionalnych osobistości, punktów orientacyjnych ani marek.
  • Nie nadaje się do identyfikacji biometrycznej: Analiza obrazu nie została zaprojektowana ani przetestowana w celu zweryfikowania tożsamości osób na podstawie znaczników biometrycznych, takich jak rozpoznawanie tęczówki, identyfikacja odcisków palców lub paszporty lub inne formy identyfikatora w celu identyfikacji i weryfikacji osoby.
  • Nie należy używać analizy obrazów do diagnostyki medycznej: w tym do użytku jako urządzenia medycznego, pomocy klinicznej, narzędzia diagnostycznego lub innej technologii przeznaczonej do stosowania w diagnozie, leczeniu, leczeniu, leczeniu lub zapobieganiu chorobom lub innym warunkom, a firma Microsoft nie udziela licencji lub prawa do korzystania z tej funkcji w takich celach. Ta możliwość nie jest zaprojektowana ani przeznaczona do wdrożenia lub rozmieszczenia jako zastępca profesjonalnej porady medycznej lub opinii medycznej, diagnozy, leczenia lub oceny klinicznej pracownika służby zdrowia i nie powinna być używana jako taka. Klient jest wyłącznie odpowiedzialny za korzystanie z analizy obrazów, lub personalizacji do diagnostyki medycznej.
  • Zagadnienia prawne i regulacyjne: Organizacje muszą ocenić potencjalne konkretne zobowiązania prawne i prawne w przypadku korzystania z usług i rozwiązań sztucznej inteligencji, które mogą nie być odpowiednie do użycia w każdej branży lub scenariuszu. Ponadto usługi sztucznej inteligencji lub rozwiązania nie są przeznaczone do użytku i mogą nie być używane w sposób zabroniony w odpowiednich warunkach świadczenia usług i odpowiednich kodeksach postępowania.

Wydajność systemu i ograniczenia dotyczące analizy obrazów

Dokładność analizy obrazów

Dokładność funkcji Analiza obrazów to miara tego, jak dobrze generowane przez sztuczną inteligencję dane wyjściowe odpowiadają rzeczywistej zawartości wizualnej obecnej na obrazach. Na przykład funkcja Tag obrazu powinna generować tagi zawartości wizualnej, która jest obecna na obrazach. Aby zmierzyć dokładność, możesz ocenić obraz przy użyciu danych podstawowych i porównać dane wyjściowe modelu sztucznej inteligencji. Porównując podstawę prawdy z wynikami wygenerowanymi przez sztuczną inteligencję, można sklasyfikować zdarzenia na dwa rodzaje poprawnych wyników ("true") i dwa rodzaje nieprawidłowych wyników ("false"):

Termin Definicja
Wynik prawdziwie dodatni Dane wyjściowe generowane przez system poprawnie odpowiadają danym rzeczywistym. Na przykład system poprawnie taguje obraz psa jako psa.
Wyniki prawdziwie ujemne System poprawnie nie generuje wyników, które nie są obecne w danych referencyjnych. Na przykład system poprawnie nie oznacza obrazu jako psa, gdy żaden pies nie jest obecny na obrazie.
Wynik fałszywie dodatni System niepoprawnie generuje dane wyjściowe, które są nieobecne w danych referencyjnych. Na przykład system taguje obraz kota jako psa.
Wynik fałszywie ujemny System nie generuje wyników, które znajdują się w danych podstawowych. Na przykład system nie może oznaczyć obrazu psa, który był obecny na obrazie.

Te kategorie wydarzeń są używane do obliczania precyzji i kompletności:

Termin Definicja
Precyzja Miara poprawności wyodrębnionej zawartości. Na podstawie obrazu zawierającego wiele obiektów dowiesz się, ile z tych obiektów zostało poprawnie wyodrębnionych.
Odwołaj Pomiar całkowitej wyodrębnionej zawartości. Na podstawie obrazu zawierającego wiele obiektów można dowiedzieć się, ile obiektów zostało wykrytych ogólnie, bez względu na ich poprawność.

Definicje precyzji i kompletności oznaczają, że w niektórych przypadkach trudno jest zoptymalizować zarówno precyzję, jak i kompletność w tym samym czasie. W zależności od scenariusza może być konieczne nadanie priorytetu jednemu z nich. Jeśli na przykład opracowujesz rozwiązanie do wykrywania tylko najbardziej dokładnych tagów lub etykiet w zawartości, takich jak wyświetlanie wyników wyszukiwania obrazów, można zoptymalizować pod kątem większej precyzji. Jeśli jednak próbujesz oznaczyć całą możliwą zawartość wizualną na obrazach na potrzeby indeksowania lub wewnętrznego katalogu, należy zoptymalizować pod kątem większej czułości.

Jeśli jesteś właścicielem systemu przetwarzania obrazów, zalecamy zebranie danych oceny podstawowej prawdy, czyli danych zebranych i oznaczonych przez sędziów ludzkich w celu oceny systemu. Wstępnie utworzone modele sztucznej inteligencji dostępne w usłudze Azure AI Vision mogą nie spełniać wymagań twojego przypadku użycia. Korzystając z zestawu danych oceny specyficznego dla danego przypadku użycia, możesz podjąć świadomą decyzję o tym, czy wstępnie utworzone modele analizy obrazów są odpowiednie dla danego scenariusza. Jeśli wstępnie utworzone modele analizy obrazów nie są odpowiednie dla danego scenariusza, możesz utworzyć własne modele przy użyciu funkcji Dostosowywanie opisanej poniżej. Możesz również użyć danych, aby określić, jak próg ufności wpływa na osiągnięcie celów.

Możesz porównać etykiety prawdy podstawowej do danych wyjściowych systemu, aby ustalić ogólną dokładność i wskaźniki błędu. Dystrybucja błędów ułatwia ustawienie odpowiedniego progu dla danego scenariusza. Dane oceny rzeczywistej powinny zawierać odpowiedni dobór reprezentatywnych obrazów, aby zrozumieć różnice w wydajności i podjąć działania naprawcze. Na podstawie wyników oceny możesz iteracyjnie dostosować próg, aż równowaga między dokładnością a odzyskiwaniem spełni twoje cele.

Wpływ na wydajność systemu na podstawie scenariuszy

Implikacje dotyczące wydajności systemu mogą się różnić w zależności od sposobu korzystania z usługi. Na przykład możesz użyć poziomu zaufania, aby skalibrować niestandardowe progi, aby zarządzać treściami i scenariuszami. W zależności od jego wartości ufności, zawartość może być kierowana do przetwarzania bezpośredniego lub przekazywana do procesu z udziałem człowieka. Wynikowe pomiary określają dokładność specyficzną dla scenariusza pod względem dokładności i kompletności metryk, jak pokazano w poniższych przykładach:

  • Aplikacja do udostępniania zdjęć: możesz użyć analizy obrazów, aby automatycznie generować tagi obrazów udostępnianych i przechowywanych przez użytkowników aplikacji. Użytkownicy aplikacji korzystają z tej funkcji, aby wyszukiwać określone zdjęcia, które są udostępniane przez innych użytkowników. W tym przypadku użycia deweloper może preferować wyniki o wysokiej precyzji, ponieważ koszt niepoprawnego wyodrębniania tagów spowoduje niepoprawne wyniki zapytania dla użytkowników aplikacji.
  • Przetwarzanie obrazów: w przypadku aplikacji do obsługi ubezpieczeń i roszczeń, ponieważ nie chcesz przegapić żadnych potencjalnie istotnych informacji, możesz preferować wysoką wydajność przypominania w celu zmaksymalizowania wyodrębnień. W tym scenariuszu recenzent mógłby zaznaczać nieprawidłowe lub niewłaściwe tagi.

Dodatkowe ograniczenia pobierania obrazu

  • Istotność: Pobieranie obrazu zawsze zwraca wynik na zapytanie użytkownika, nawet jeśli nie ma odpowiedniego dopasowania w zestawie obrazów użytkownika. Jeśli na przykład użytkownik wyszukuje frazę "psy grające na podwórku" w zestawie obrazów, który zawiera tylko obrazy osób, system zwróci najbliższą wartość kwerendy wyszukiwania. W tym przypadku może zwrócić obrazy osób. Może się to zdarzyć również w przypadku wykonywania zapytań dotyczących abstrakcyjnych pojęć, które nie odpowiadają obrazom, takim jak emocje i płeć.

  • Stereotyp: Model nauczył się kojarzyć nazwiska ze stereotypowymi płciami i pochodzeniem etnicznym osób z tymi nazwiskami i może kojarzyć nazwiska obywateli prywatnych z obrazami celebrytów.

  • Recency: Nasze modele zostały wytrenowane na zestawach danych, które zawierają pewne informacje o zdarzeniach rzeczywistych, ale w przypadku wykonywania zapytań dotyczących modeli dotyczących zdarzeń, które miały miejsce po wytrenowaniu modeli, nie będą one działać dobrze.

  • Celowe niewłaściwe użycie: jeśli bardzo niepokojące obrazy, w połączeniu z bardzo niepokojącym tekstem, są przesyłane do Pobierania Obrazów, może przywracać szkodliwe i obraźliwe treści jako część wyników. Aby wyeliminować ten niezamierzony wynik, zalecamy kontrolowanie dostępu do systemu i informowanie osób, które będą z niej korzystać w odpowiednim celu.

  • Opis ruchu: funkcja podsumowania wideo i lokalizatora klatek ma ograniczoną możliwość dokładnego zrozumienia ruchu i akcji w filmie wideo. Podczas wykonywania zapytań dotyczących akcji, takich jak "osoba robiąca zdjęcie" lub "osoba spadająca", może to dać niedokładne wyniki.

  • Składnia złożonych zapytań: Zapytania zawierające złożoną składnię, taką jak przyimki, np. "osoba na drabinie" lub "osoba bez drabiny" mogą przynieść niedokładne wyniki.

Najlepsze rozwiązania dotyczące poprawy wydajności systemu

Poniższe wskazówki mogą pomóc zrozumieć i poprawić wydajność interfejsów API analizy obrazów:

  • Analiza obrazów obsługuje obrazy spełniające wymagania dotyczące plików dla każdej wersji.
  • Chociaż analiza obrazów jest odporna, czynniki takie jak rozdzielczość, ekspozycja na światło, kontrast i jakość obrazu mogą mieć wpływ na dokładność wyników. Zapoznaj się ze specyfikacjami produktu i przetestuj usługę na obrazach, aby zweryfikować dopasowanie do danej sytuacji.
  • Przed rozpoczęciem dużej skali wdrożenia dowolnego systemu analizy obrazów, właściciele systemu powinni przeprowadzić etap oceny w ramach użycia systemu i z osobami, które będą z nim wchodziły w interakcję. Ocena przed wdrożeniem pomaga zapewnić dokładność systemu i pomoże w podjęciu działań w celu zwiększenia dokładności systemu, jeśli ma to zastosowanie.
  • Utwórz kanał opinii dla osób podejmujących decyzje na podstawie danych wyjściowych systemu. Uwzględnij dane zadowolenia od osób, które będą polegać na funkcjach analizy obrazów i opiniach z istniejących kanałów głosowych klientów. Użyj opinii, aby dostosować system i poprawić dokładność.
  • Usługa zapewnia współczynnik ufności dla każdego przewidywanego wyniku. Współczynnik ufności reprezentuje dokładność przewidywania jako wartość procentową. Na przykład można ustawić minimalny próg ufności dla systemu, aby automatycznie podpisyć zdjęcie. Jeśli wynik ufności wygenerowanego podpisu jest poniżej progu, należy go przekazać do dalszej weryfikacji.

Ocena analizy obrazów

Metody oceny

Do oceny dokładności każdego modelu analizy obrazów używamy różnych zestawów danych obrazów publicznych, wewnętrznych i przekazanych przez klienta. Te zestawy danych obrazów zawierają obrazy szerokiej gamy zawartości wizualnej i szeroką gamę jakości, aby upewnić się, że modele są oceniane pod kątem wielu możliwych przypadków. Obliczamy dokładność, kompletność i współczynniki F1 dla różnych zestawów danych. Porównujemy każdy model z wewnętrznymi i publicznymi testami porównawczymi oraz z wcześniejszymi wersjami modelu.

Względy uczciwości

Rygorystycznie przetestowaliśmy wszystkie nasze modele sztucznej inteligencji analizy obrazów pod kątem sprawiedliwości w celu zidentyfikowania i nadania priorytetów grupom demograficznym, które mogą być zagrożone pogorszeniem jakości usług i zidentyfikowania wystąpień, w których nasze modele mogą produkować dane wyjściowe, które utrwalają istniejące stereotypy, poniżanie lub wymazywanie niektórych grup osób. Odkryliśmy, że nasze modele działają dobrze dla wszystkich osób, które są przedstawione w danych wejściowych obrazów niezależnie od ich rasy, tożsamości płci, wieku i kultury.

W niektórych rzadkich przypadkach modele oznaczania obrazów i podpisów obrazów popełniły błędy dotyczące równości, przypisując nieprawidłowe etykiety płci i wieku osobom, które pojawiają się na obrazach wejściowych. Te wystąpienia są bardzo rzadkie i nadal ulepszamy nasze modele, aby nowsze modele były mniej narażone na takie błędy. Zalecamy, aby klienci nie używali modeli analizy obrazów do klasyfikacji płci i wieku.

Prosimy klientów o zgłaszanie wszelkich błędów sprawiedliwości i udostępnianie opinii na temat tych problemów za pośrednictwem witryny Azure Portal , abyśmy mogli nadal identyfikować obszary poprawy, ponieważ staramy się zapewnić, że nasze modele działają dobrze dla wszystkich użytkowników. Klienci, którzy szkolą własne modele przy użyciu funkcji Dostosowywanie, będą musieli przeprowadzić dodatkowe testy, aby zapewnić uczciwość.

Ocenianie i integrowanie analizy obrazów na potrzeby użytkownika

Firma Microsoft pomaga klientom w odpowiedzialnym tworzeniu i wdrażaniu rozwiązań korzystających z analizy obrazów. Przyjmujemy oparte na zasadzie podejście do utrzymania osobistej agencji i godności, biorąc pod uwagę sprawiedliwość, niezawodność i bezpieczeństwo systemów sztucznej inteligencji, prywatność i bezpieczeństwo, inkluzywność, przejrzystość i odpowiedzialność człowieka. Te zagadnienia są zgodne z naszym zobowiązaniem do opracowania odpowiedzialnej sztucznej inteligencji.

Ogólne wytyczne dotyczące integracji i odpowiedzialnego używania

W tej sekcji omówiono analizę obrazów i kluczowe zagadnienia dotyczące odpowiedzialnego korzystania z tej technologii. Poniżej przedstawiono ogólne zalecenia dotyczące odpowiedzialnego wdrażania i używania analizy obrazów. Kontekst może wymagać priorytetu i uwzględnienia własnych środków zaradczych zgodnie z potrzebami konkretnego scenariusza wdrażania. Ogólnie rzecz biorąc, udostępniamy następujące najlepsze rozwiązania jako punkt wyjścia, który pomoże Ci.

  • Dowiedz się, co może zrobić : w pełni ocenić potencjał dowolnego systemu sztucznej inteligencji używanego do zrozumienia jego możliwości i ograniczeń. Dowiedz się, jak będzie działać w scenariuszu i kontekście, dokładnie testując je przy użyciu rzeczywistych warunków i danych.
  • Przestrzegaj prawa osoby fizycznej do prywatności : zbieraj dane i informacje od osób fizycznych tylko w celach legalnych i uzasadnionych. Używaj wyłącznie danych i informacji, na których korzystanie masz zgodę, i używaj ich tylko do celów, na które ta zgoda była udzielona.
  • Przegląd prawny: Uzyskaj odpowiednią niezależną poradę prawną, aby przejrzeć rozwiązanie, szczególnie w przypadku korzystania z niego w aplikacjach poufnych lub o wysokim ryzyku. Dowiedz się, jakie ograniczenia mogą być potrzebne do pracy, i dowiedz się, w jaki sposób ponosisz odpowiedzialność za rozwiązanie wszelkich problemów, które mogą pojawić się w przyszłości.
  • Człowiek w pętli: Zachowaj człowieka w pętli i uwzględnij nadzór człowieka jako spójny obszar wzorca do zbadania. Oznacza to stały nadzór człowieka nad analizą obrazu i utrzymanie roli ludzi w podejmowaniu decyzji. Upewnij się, że możesz mieć interwencję człowieka w czasie rzeczywistym w rozwiązaniu, aby zapobiec szkodom. W ten sposób można zarządzać sytuacjami, w których analiza obrazu nie działa zgodnie z oczekiwaniami.
  • Zabezpieczenia: upewnij się, że rozwiązanie jest bezpieczne i ma odpowiednie mechanizmy kontroli, aby zachować integralność zawartości i zapobiec nieautoryzowanemu dostępowi.
  • Lista zablokowanych lub lista dozwolonych: zamiast włączać wszystkie tagi z funkcją tagu Analiza obrazów, skup się na konkretnych, które są najbardziej odpowiednie dla danego przypadku użycia.
  • Określanie struktury interakcji użytkowników przez ograniczenie określonych danych wejściowych: zalecamy monitorowanie wprowadzania tekstu przez użytkownika w przypadku niepożądanej zawartości. Może to obejmować mowę nienawiści, rasowe lub etniczne omyłki oraz wulgarne słowa lub frazy. Dokładna definicja niepożądanej zawartości będzie zależeć od scenariusza i może ulec zmianie w czasie.
  • Kontrola dostępu użytkowników: rozważ wymaganie od klientów i użytkowników zalogowania się, ponieważ ułatwi to firmie reagowanie na nieprawidłowe zdarzenia, jeśli wystąpią. Jeśli to możliwe, rozważ umieszczenie produktu za paywall, aby utrudnić niewłaściwe użycie.
  • Ograniczanie uprzedzeń społecznych: zalecamy uruchamianie testów dla konkretnych przypadków użycia w celu ograniczenia uprzedzeń społecznych.
  • Ustanów kanał opinii i raportowania dla użytkowników: zalecamy tworzenie kanałów w celu zbierania pytań i problemów od użytkowników i osób postronnych, których dotyczy system. Zaproś opinię na temat przydatności i dokładności danych wyjściowych oraz daj użytkownikom wyraźną ścieżkę do zgłaszania problematycznych, obraźliwych, stronniczych lub nieodpowiednich danych wyjściowych. Możliwe mechanizmy obejmują tworzenie funkcji opinii w interfejsie użytkownika i publikowanie adresu e-mail na potrzeby opinii publicznej.

Filtrowanie treści w odpowiedzialny sposób przez SI

Program Vision Studio zawiera system zarządzania treściami, który współpracuje z podstawowymi modelami w celu filtrowania treści dla demonstracji wyszukiwania obrazów oraz podsumowywania wideo i wyszukiwania klatek. Ten system działa przez uruchomienie zarówno monitu wejściowego, jak i zawartości multimedialnej za pośrednictwem zespołu modeli klasyfikacji mających na celu wykrywanie nieprawidłowego użycia. Jeśli system zidentyfikuje szkodliwą zawartość, zostanie wyświetlony komunikat o błędzie informujący o tym, że monit został uznany za nieodpowiedni i przefiltrowany przez usługi odpowiedzialnej sztucznej inteligencji.

Opinie dotyczące systemu filtrowania zawartości można zgłaszać za pośrednictwem pomocy technicznej.

Aby zapewnić prawidłowe ograniczenie ryzyka w aplikacji, należy dokładnie ocenić wszystkie potencjalne szkody, postępuj zgodnie ze wskazówkami w notatce przezroczystości i w razie potrzeby dodaj odpowiednie środki zaradcze.

Rekomendacje dotyczące zachowywania prywatności

Skuteczne podejście do ochrony prywatności umożliwia osobom fizycznym korzystanie z informacji oraz zapewnia mechanizmy kontroli i ochrony w celu zachowania ich prywatności.

  • Jeśli usługa jest częścią rozwiązania, które zostało zaprojektowane w celu uwzględnienia danych związanych z kondycją, należy dokładnie zastanowić się, czy i jak rejestrować te dane. Postępuj zgodnie z obowiązującymi przepisami dotyczącymi ochrony prywatności i zdrowia oraz federalnymi przepisami dotyczącymi ochrony prywatności i zdrowia.
  • Menedżerowie prywatności powinni dokładnie rozważyć, jakie zasady przechowywania mają być używane do wyodrębnionych metadanych i szczegółowych informacji o obrazach, a także dla obrazów bazowych. Zasady przechowywania powinny odzwierciedlać zamierzone użycie aplikacji.
  • Nie udostępniaj żadnych danych bez wyraźnej zgody osób biorących udział w projekcie lub właścicieli danych i minimalizuj ilość udostępnianych danych.

Dostosowywanie w analizie obrazów

Funkcja dostosowywania analizy obrazów ma dodatkowe zagadnienia, które należy wziąć pod uwagę. Dostosowywanie używa uczenia maszynowego do analizowania obrazów. Przesyłasz obrazy, które zawierają i nie mają charakterystyki, o których mowa. Samodzielnie oznaczysz obrazy. Następnie usługa szkoli model przy użyciu tych danych i oblicza dokładność modelu, testując zestaw obrazów z zestawu danych trenowania. Po wytrenowanym modelu możesz testować, trenować i w końcu używać go w aplikacji rozpoznawania obrazów lub rozwiązaniu, aby wywnioskować przewidywania dotyczące nowych obrazów.

Klasyfikacja obrazów niestandardowych stosuje co najmniej jedną etykietę do obrazu. Wykrywanie obiektów niestandardowych zwraca współrzędne na obrazie, na których można znaleźć zastosowane etykiety dla wykrytych obiektów. Obie funkcje są dostarczane za pośrednictwem interfejsów API, zestawów SDK i środowiska bez kodu w usłudze Vision Studio w witrynie https://portal.vision.cognitive.azure.com.

Personalizacja obsługuje tworzenie i używanie niestandardowych modeli wizji za pomocą następujących funkcji na wysokim poziomie. Reprezentują one dwa podstawowe działania, które zostaną ukończone w celu przygotowania modelu do użycia:

  • Etykietowanie danych: to proces dodawania adnotacji do obrazów szkoleniowych z klasami obrazów, które model musi sklasyfikować. W przypadku wykrywania obiektów należy dodać adnotacje do obrazów treningowych z polami ograniczenia, które otaczają obiekt, który ma zostać wykryty na obrazie. Klienci mogą oznaczać dane w narzędziu Azure Machine Labeling Studio lub importować dane oznaczone etykietami w formacie pliku COCO. Po oznaczeniu danych treningowych można go użyć do trenowania modelu za pomocą programu Vision Studio, interfejsu API lub zestawu SDK.
  • Trenowanie modelu: używa podstawowego modelu i uczenia transferowego do trenowania modelu zoptymalizowanego pod kątem obrazów dostarczanych przez klienta i odpowiednich klas. W przypadku poprzedniej technologii dostosowywania modelu do osiągnięcia wysokiej dokładności potrzebne były duże ilości danych treningowych. Dzięki dostosowaniu nowego modelu wymagana jest mniejsza ilość danych do wytrenowania modelu, aby nauczyć się rozpoznawać i klasyfikować nowe dane z taką samą lub wyższą dokładnością/wydajnością. Ponieważ te funkcje dostosowywania korzystają z dużego podstawowego modelu, wytrenowanego za pomocą rozbudowanego zestawu danych, model można wytrenować przy użyciu zaledwie jednego obrazu na etykietę. Model może nadal się ulepszać, gdy jest trenowany przy użyciu niewielkiej liczby obrazów dla każdej etykiety. Uczenie z niewielką liczbą próbek umożliwia dostosowanie bez konieczności obszernego zbierania i etykietowania danych. Dostosowywanie zapewnia metryki dokładności, aby przybliżyć wydajność modelu na podstawie podziału dostarczonych danych treningowych. Podczas trenowania kilku obrazów na etykietę zaleca się przetestowanie dokładności modelu przy użyciu dodatkowego zestawu danych oceny.

Gdy wszystko będzie gotowe do użycia modelu, możesz utworzyć przewidywanie modelu, wysyłając obraz do przetwarzania. Należy pamiętać, że podczas uruchamiania przewidywania z modelami niestandardowymi może wystąpić dłuższe niż oczekiwane opóźnienie, aby otrzymywać wyniki przewidywania. Firma Microsoft pracuje nad wprowadzaniem ulepszeń opóźnień w najbliższej przyszłości. Obecnie nie zaleca się używania modeli niestandardowych w środowiskach o krytycznym znaczeniu dla działania firmy. Należy również pamiętać, że jakość modelu klasyfikatora lub detektora obiektów zbudowanego za pomocą dostosowywania zależy od jakości i różnorodności danych oznaczonych etykiet, które podajesz podczas trenowania modelu. Jakość zależy również od tego, jak zrównoważony jest ogólny zestaw danych między klasami. Jeśli jesteś zadowolony z jakości modelu, możesz wdrożyć i hostować model w usłudze Cognitive Service for Vision.

Ważne

Należy pamiętać, że dostosowywanie nie jest odpowiednie do trenowania modeli niestandardowych dla dużych zestawów obrazów zawierających setki klas i tagów do generowania czytelnych dla człowieka opisów obrazów, które mogą być używane jako tekst alternatywny do celów ułatwień dostępu. Modele oparte na analizie obrazów mają te możliwości i powinny być używane zamiast dostosowywania. Należy pamiętać, że dostosowywanie nie jest również odpowiednie do rozpoznawania twarzy, ponieważ nie zostało zaprojektowane ani przetestowane pod kątem rozpoznawania lub identyfikowania osób na obrazach. Użyj funkcji Azure AI Face. Każde rozpoznanie osoby jest wynikiem Twojego etykietowania, a nie naszych możliwości rozpoznawania twarzy ani z utworzenia szablonu twarzy (unikatowy zestaw liczb generowanych na podstawie obrazu, który reprezentuje charakterystyczne cechy twarzy).

Przypadki użycia

Zamierzone użycia

W następujących scenariuszach możesz użyć funkcji Dostosowywania— funkcji analizy obrazów usług Azure AI Services:

  • Automatyczne alerty wizualne: możliwość monitorowania strumienia wideo i wyzwalania alertów po wykryciu określonych okoliczności. Możesz na przykład chcieć alert, gdy wykryto parę lub pianę na rzece albo zwierzę jest obecne.
  • Większa wydajność inspekcji ręcznej: W sprzedaży detalicznej rozpoznawanie produktów umożliwia skrócenie czasu, jaki ty lub współpracownicy poświęcacie na liczenie unikalnych SKU lub identyfikowanie, czy wszystkie SKU, które powinny znajdować się na półce, są obecne.
  • Rozszerzenie zasięgu inspekcji: Podczas wykrywania wad nie zawsze jest możliwe, aby człowiek przeglądał wszystkie elementy schodzące z linii produkcyjnej. Zamiast tego możesz użyć dostosowania, aby pokryć zestaw elementów, których nie można sprawdzić ręcznie, a także poinformować, które elementy są sprawdzane ręcznie.
  • Zwiększanie możliwości odnajdywania obiektów: etykietowanie obrazów za pomocą metadanych może ułatwić ich późniejsze znalezienie. Możesz na przykład oznaczyć zdjęcia na podstawie katalogu produktów lub innych funkcji wizualnych, które chcesz filtrować. Dostosowanie umożliwia etykietowanie obrazów opisami z metadanymi w momencie importu.

Wydajność funkcji dostosowywania

Po wytrenowanym modelu możesz zobaczyć oszacowanie wydajności projektu w programie Studio https://portal.vision.cognitive.azure.com. Dostosowywanie używa podzestawu obrazów przesłanych przez użytkownika do zestawu danych do trenowania lub zestawu walidacyjnego, aby oszacować średnią precyzję, średnia średnia precyzję, dokładność - top 1 i dokładność - top 5. Te trzy pomiary klasyfikatora obrazu i skuteczności detektora obiektów są definiowane w następujący sposób:

Średnia precyzja to procent zidentyfikowanych klasyfikacji, które były poprawne. Jeśli na przykład model zidentyfikował 100 obrazów jako psy, a 99 z nich było rzeczywiście psami, precyzja wynosi 99 procent.

Średnia precyzja (mAP) to średnia wartość średniej precyzji (AP). AP to obszar pod krzywą precyzji/kompletności (precyzja wykreślona względem kompletności dla każdego przewidywania).

  • Średnia dokładność @ 30: wydajność detektora obiektów we wszystkich tagach, gdy IoU wynosi 30.
  • Średnia precyzja @ 50: Wydajność detektora obiektów dla wszystkich etykiet, gdy IoU wynosi 50.
  • Średnia dokładność przy IoU = 75: Wydajność detektora obiektów dla wszystkich tagów, kiedy współczynnik nałożenia wynosi 75%.

Dokładność to jedna metryka do oceny modeli klasyfikacji. Nieformalnie dokładność to ułamek przewidywań, które model uzyskał prawidłowo. Formalnie dokładność ma następującą definicję:

  • Dokładność — top 1 to konwencjonalna dokładność, przewidywanie modelu (jedno z najwyższym prawdopodobieństwem) musi być dokładnie oczekiwaną odpowiedzią. Mierzy proporcję przykładów, dla których przewidywana etykieta jest zgodna z pojedynczą etykietą docelową.
  • Dokładność — top 5 oznacza, że którakolwiek z 5 odpowiedzi o najwyższym prawdopodobieństwie w modelu odpowiada oczekiwanej odpowiedzi. Uwzględnia poprawną klasyfikację, jeśli którakolwiek z pięciu przewidywań jest zgodna z etykietą docelową.

Najlepsze rozwiązania dotyczące zwiększania dokładności modelu dostosowywania

Proces tworzenia modelu dostosowywania jest iteracyjny. Za każdym razem, gdy trenujesz model, tworzysz nową iterację/ocenę przy użyciu własnych zaktualizowanych metryk wydajności. Wszystkie oceny można wyświetlić w szczegółach projektu w programie Vision Studio. Aby zwiększyć wydajność modelu, rozwiń różnorodność danych oznaczonych etykietami podczas trenowania modelu. Jakość zależy również od tego, jak zrównoważony jest ogólny zestaw danych między klasami.

Model może nauczyć się tworzyć przewidywania na podstawie dowolnych cech wspólnych dla obrazów. Zalecamy przetestowanie modelu pod kątem oceny przy użyciu dodatkowych danych. Po przetestowaniu modelu można opublikować i użyć modelu do wnioskowania.

Na podstawie wydajności modelu należy zdecydować, czy model jest odpowiedni dla twojego przypadku użycia i potrzeb biznesowych. Oto podejście, które można podjąć. Model dostosowywania można wdrożyć w izolowanym środowisku, przetestować wydajność modelu względem przypadku użycia, a następnie użyć przewidywań, aby jeszcze bardziej wytrenować model, dopóki nie osiągnie żądanego poziomu wydajności.

Dowiedz się więcej na temat odpowiedzialnej sztucznej inteligencji

Dowiedz się więcej o analizie obrazów

Dalsze kroki