Wybieranie technologii przetwarzania wideo i obrazu sztucznej inteligencji platformy Azure
Usługi sztucznej inteligencji platformy Azure ułatwiają deweloperom i organizacjom tworzenie inteligentnych, nowoczesnych, gotowych na rynek i odpowiedzialnych aplikacji za pomocą gotowych do użycia i wstępnie utworzonych i dostosowywalnych interfejsów API i modeli.
W tym artykule opisano usługi azure AI, które oferują możliwości przetwarzania wideo i obrazów, takie jak analiza wizualna i generowanie obrazów, wykrywanie obiektów, klasyfikacja obrazów i rozpoznawanie twarzy.
Usługi
Następujące usługi zapewniają możliwości przetwarzania wideo i obrazów dla usług Azure AI:
-
- Użyj usługi Azure OpenAI do generowania obrazów z języka naturalnego przy użyciu wstępnie wytrenowanych modeli tworzenia obrazów generowania. Na przykład generowanie sztuki niestandardowej na żądanie.
- Użyj usługi Azure OpenAI, jeśli musisz wykonać nieokrementową, szeroką analizę obrazów. Na przykład generowanie opisów ułatwień dostępu.
- Nie używaj usługi Azure OpenAI, jeśli chcesz używać modeli generowania obrazów typu open source dostępnych w usłudze Azure Machine Learning.
- Nie używaj usługi Azure OpenAI, jeśli musisz wykonać określone typy przetwarzania obrazów, takie jak wyodrębnianie formularzy, rozpoznawanie twarzy lub wyspecjalizowane w domenie wykrywanie cech obrazu. W tych scenariuszach należy użyć lub utworzyć rozwiązania sztucznej inteligencji zaprojektowane specjalnie do tych celów.
-
- Użyj usługi Vision, gdy potrzebujesz podstawowego optycznego rozpoznawania znaków (OCR), analizy obrazów lub podstawowej analizy wideo w celu wykrywania ruchu i innych zdarzeń.
- Nie używaj usługi Vision do analizy, która obsługuje już duże, wielomodalne modele podstawowe.
- Nie używaj usługi Vision do moderowania zawartości. Zamiast tego użyj usługi Bezpieczeństwo zawartości.
-
- Użyj usługi, jeśli masz określone wymagania, których nie można dostarczyć w podstawowej analizie obrazów usługi Vision. Na przykład dobrze jest rozpoznawać nietypowe obiekty, wady produkcyjne lub dostarczać szczegółowe klasyfikacje niestandardowe.
- Nie używaj usługi, jeśli potrzebujesz podstawowego wykrywania obiektów ani wykrywania twarzy. Zamiast tego używaj usług rozpoznawania twarzy lub przetwarzania obrazów.
- Nie używaj usługi do podstawowej analizy wizualnej. Zamiast tego używaj modeli z obsługą obrazów z poziomu usługi Azure OpenAI lub modeli typu open source w usłudze Azure Machine Learning.
Rozpoznawanie sztucznej inteligencji platformy Azure
- Użyj usługi rozpoznawania twarzy, gdy musisz sprawdzić, czy twarze są na żywo, fałszowane/fałszywe, czy też identyfikować, grupować lub znajdować podobne twarze.
- Nie używaj usługi rozpoznawania twarzy do wykrywania emocji na twarzach ani wykonywania innych przyczyn wysokiego poziomu dotyczących twarzy. Zamiast tego należy używać wielomodalnych modeli językowych dla tych zadań.
-
- Użyj usługi Azure Video Indexer, aby uzyskać bardziej zaawansowane zadania związane z analizą wideo, których podstawowa analiza wideo usługi Vision nie może zapewnić.
- Nie używaj usługi Azure Video Indexer do podstawowych zadań analizy wideo, takich jak liczenie osób i wykrywanie ruchu i zdarzeń. Podstawowa analiza wideo usługi Vision jest bardziej opłacalna dla tych zadań.
Azure OpenAI
Usługa Azure OpenAI zapewnia dostęp do zaawansowanych modeli językowych platformy OpenAI , w tym najnowszej generacji modeli GPT. Obsługują one analizę wizualną i generacje obrazów, a język DALL-E obsługuje generowanie obrazów.
Wizja platformy Azure AI
Usługa Azure AI Vision udostępnia zaawansowane algorytmy, które przetwarzają obrazy i zwracają informacje na podstawie interesujących Cię funkcji wizualnych. Oferuje cztery usługi: OCR, usługi rozpoznawania twarzy, obrazu i analizy przestrzennej.
Możliwości
Poniższa tabela zawiera listę funkcji dostępnych w usłudze Azure AI Vision.
Możliwość | opis |
---|---|
Optyczne rozpoznawanie znaków (OCR) | Usługa optycznego rozpoznawania znaków (OCR) wyodrębnia tekst z obrazów. Interfejs API odczytu umożliwia wyodrębnianie tekstu drukowanego i odręcznego ze zdjęć i dokumentów. Używa modeli opartych na uczeniu głębokim i współpracuje z tekstem na różnych powierzchniach i tłach. Należą do nich dokumenty biznesowe, faktury, paragony, plakaty, wizytówki, listy i tablice. Interfejsy API OCR obsługują wyodrębnianie tekstu drukowanego w kilku językach. |
Analiza obrazu | Usługa Analiza obrazów wyodrębnia wiele cech wizualnych z obrazów, takich jak obiekty, twarze i automatycznie generowane opisy tekstu. Przy użyciu usługi Image Analysis 4.0 opartej na podstawowym modelu Florencji można również tworzyć niestandardowe modele identyfikatorów obrazów. |
Analiza wideo | Analiza wideo obejmuje funkcje związane z wideo, takie jak analiza przestrzenna i pobieranie wideo. Analiza przestrzenna analizuje obecność i ruch osób w kanale wideo i generuje zdarzenia, na które mogą reagować inne systemy. |
Azure AI Custom Vision
Usługa Azure AI Custom Vision to usługa rozpoznawania obrazów, która umożliwia tworzenie, wdrażanie i ulepszanie własnych modeli identyfikatorów obrazów. Identyfikator obrazu stosuje etykiety do obrazów zgodnie z ich cechami wizualnymi. Każda etykieta reprezentuje klasyfikację lub obiekt. Usługa Custom Vision umożliwia określanie własnych etykiet i trenowanie modeli niestandardowych w celu ich wykrywania.
Usługa Custom Vision używa algorytmu uczenia maszynowego do analizowania obrazów pod kątem funkcji niestandardowych. Przesyłasz zestawy obrazów, które nie mają właściwości wizualnych, których szukasz. Następnie należy oznaczyć obrazy własnymi etykietami (tagami) w momencie przesłania. Algorytm trenuje te dane i oblicza własną dokładność, testując się na tych samych obrazach. Po wytrenowanym modelu możesz testować, ponownie trenować i w końcu używać go w aplikacji rozpoznawania obrazów do klasyfikowania obrazów lub wykrywania obiektów. Możesz również wyeksportować model do użycia w trybie offline.
Możliwości
Poniższa tabela zawiera listę funkcji dostępnych w usłudze Azure AI Custom Vision.
Możliwość | opis |
---|---|
Klasyfikacja obrazów | Przewidywanie kategorii lub klasy na podstawie zestawu danych wejściowych, które są nazywane funkcjami. Oblicz wynik prawdopodobieństwa dla każdej możliwej klasy i zwróć etykietę wskazującą klasę, do których najprawdopodobniej należy obiekt. Aby użyć tego modelu, potrzebne są dane składające się z funkcji i ich etykiet. |
Wykrywanie obiektów | Pobieranie współrzędnych obiektu na obrazie. Aby użyć tego modelu, potrzebne są dane składające się z funkcji i ich etykiet |
Przypadki użycia
Poniższa tabela zawiera listę możliwych przypadków użycia dla usługi Azure AI Custom Vision.
Przypadek użycia | opis |
---|---|
Używanie usługi Custom Vision z urządzeniem IoT do raportowania stanów wizualizacji | używanie usługi Custom Vision do trenowania urządzenia za pomocą aparatu w celu wykrywania stanów wizualnych. Ten scenariusz wykrywania można uruchomić na urządzeniu IoT przy użyciu wyeksportowanego modelu ONNX. Stan wizualizacji opisuje zawartość obrazu: pusty pokój lub pokój z osobami, pustym podjazdem lub podjazdem z ciężarówką itd. |
Rozpoznawanie logo na zdjęciach aparatu | Analizuj zdjęcia, wyszukując konkretne logo. |
Rozpoznawanie sztucznej inteligencji platformy Azure
Usługa rozpoznawania twarzy w usłudze Azure AI udostępnia algorytmy sztucznej inteligencji, które wykrywają, rozpoznawają i analizują ludzkie twarze na obrazach. Oprogramowanie do rozpoznawania twarzy jest ważne w wielu scenariuszach, takich jak identyfikacja, bezobsługowa kontrola dostępu i automatyczne rozmycie twarzy w celu zachowania prywatności.
Możliwości
Poniższa tabela zawiera listę funkcji dostępnych w usłudze Rozpoznawanie twarzy w usłudze Azure AI.
Możliwość | opis |
---|---|
Wykrywanie i analiza twarzy | Zidentyfikuj regiony obrazu zawierającego ludzką twarz, zwykle zwracając współrzędne pola ograniczenia, które tworzą prostokąt wokół twarzy. |
Znajdowanie podobnych twarzy | Operacja Znajdź podobne wykonuje dopasowywanie twarzy między twarzą docelową a zestawem twarzy kandydatów, wyszukując mniejszy zestaw twarzy, które wyglądają podobnie do twarzy docelowej. Jest to przydatne w przypadku wyszukiwania twarzy według obrazu. |
Grupowanie twarzy | Operacja Grupa dzieli zestaw nieznanych twarzy na kilka mniejszych grup na podstawie podobieństwa. Każda grupa jest odpowiednim rozłącznym podzestawem oryginalnego zestawu twarzy. Zwraca również jedną tablicę "messyGroup", która zawiera identyfikatory twarzy, dla których nie znaleziono żadnych podobieństw. |
Identyfikator | Identyfikacja twarzy może dotyczyć dopasowania "jeden do wielu" jednej twarzy na obrazie do zestawu twarzy w bezpiecznym repozytorium. Dopasowanie kandydatów jest zwracane na podstawie tego, jak ściśle ich dane twarzy pasują do twarzy zapytania. |
Operacje rozpoznawania twarzy | Nowoczesne przedsiębiorstwa i aplikacje mogą używać technologii rozpoznawania twarzy, w tym weryfikacji twarzy ("dopasowywania "jeden do jednego") i identyfikacji twarzy ("dopasowania jeden do wielu"), aby potwierdzić, że użytkownik jest tym, kto twierdzi, że jest. |
Wykrywanie aktualności | Wykrywanie aktywności to funkcja ochrony przed fałszowaniem, która sprawdza, czy użytkownik jest fizycznie obecny przed kamerą. Służy do zapobiegania atakom fałszowania przy użyciu wydrukowanego zdjęcia, nagranego wideo lub maski 3D twarzy użytkownika. |
Przypadki użycia
Poniższa tabela zawiera listę możliwych przypadków użycia usługi Rozpoznawanie twarzy w usłudze Azure AI.
Przypadek użycia | opis |
---|---|
Zweryfikuj tożsamość użytkownika. | Zweryfikuj osobę pod kątem zaufanego obrazu twarzy. Ta weryfikacja może służyć do udzielania dostępu do właściwości cyfrowych lub fizycznych. W większości przypadków zaufany obraz twarzy może pochodzić z identyfikatora wydanego przez rząd, takiego jak paszport lub prawo jazdy, lub może pochodzić z zdjęcia rejestracji zrobionego osobiście. Podczas weryfikacji wykrywanie dostępności może odgrywać kluczową rolę w weryfikowaniu, czy obraz pochodzi od rzeczywistej osoby, a nie drukowanej fotografii lub maski. |
Redakcja twarzy | Redact lub rozmycie wykryte twarze osób zarejestrowanych w filmie wideo w celu ochrony ich prywatności. |
Bezobsługowa kontrola dostępu. | W porównaniu z metodami, takimi jak karty lub bilety, funkcja identyfikacji twarzy umożliwia ulepszone środowisko kontroli dostępu przy jednoczesnym zmniejszeniu higieny i zagrożeń bezpieczeństwa związanych z udostępnianiem, utratą lub kradzieżą nośników fizycznych. Rozpoznawanie twarzy pomaga w procesie ewidencjonowania z człowiekiem w pętli na lotniskach, stadionach, parkach rozrywki, budynkach, kioskach recepcji w biurach, szpitalach, siłowniach, klubach lub szkołach. |
Azure AI Video Indexer
Azure AI Video Indexer to aplikacja w chmurze, część usług Azure AI, oparta na usługach azure AI (takich jak rozpoznawanie twarzy, translator, usługa Azure AI Vision i mowa). Umożliwia wyodrębnianie szczegółowych informacji z filmów wideo przy użyciu modeli wideo i audio usługi Azure AI Video Indexer.
Możliwości
Poniższa tabela zawiera listę niektórych funkcji dostępnych w usłudze Azure AI Video Indexer.
Możliwość | opis |
---|---|
Identyfikacja i transkrypcja mowy w wielu językach | Identyfikuje język mówiony w różnych segmentach od audio. Wysyła każdy segment pliku multimedialnego do transkrypcji, a następnie łączy transkrypcję z powrotem z jedną ujednoliconą transkrypcją. |
Wykrywanie twarzy | Wykrywa i grupuje twarze wyświetlane w filmie wideo. |
Identyfikacja osobistości | Identyfikuje ponad 1 milion gwiazd — takich jak światowi liderzy, aktorzy, artyści, sportowcy, naukowcy, biznes i liderzy technologii na całym świecie. Dane o tych celebrytach można również znaleźć na różnych stronach internetowych (IMDB, Wikipedia itd.). |
Identyfikacja twarzy na podstawie konta | Trenuje model dla określonego konta. Następnie rozpoznaje twarze w filmie wideo na podstawie wytrenowanego modelu. |
Obserwowane śledzenie osób (wersja zapoznawcza) | Wykrywa obserwowane osoby w filmach wideo i udostępnia informacje, takie jak lokalizacja osoby w ramce wideo (przy użyciu pól ograniczenia) oraz dokładny znacznik czasu (początek, koniec) i pewność siebie, gdy pojawi się osoba. |
Transkrypcja audio | Konwertuje mowę na tekst ponad 50 języków i umożliwia rozszerzenia. |
Wykrywanie języka | Identyfikuje dominujący język mówiony. |
Redukcja szumu | Czyści dźwięk telefoniczny lub hałaśliwe nagrania (na podstawie filtrów Skype'a). |
Tłumaczenie | FTworze tłumaczenia transkrypcji audio do wielu różnych języków. |
Aby przejrzeć więcej możliwości usługi Azure AI Video Indexer, zobacz dokumentację usługi Azure AI Video Indexer.
Przypadki użycia
Poniższa tabela zawiera listę możliwych przypadków użycia usługi Azure AI Video Indexer.
Przypadek użycia | opis |
---|---|
Głębokie wyszukiwanie | Użyj szczegółowych informacji wyodrębnionych z wideo, aby ulepszyć środowisko wyszukiwania w bibliotece wideo. Na przykład indeksowanie wypowiedzianych słów i twarzy może umożliwić wyszukiwanie momentów w filmie wideo, w którym dana osoba mówiła pewne słowa lub kiedy dwie osoby były postrzegane razem. Wyszukiwanie na podstawie takich szczegółowych informacji z filmów ma zastosowanie do agencji informacyjnych, instytutów edukacyjnych, nadawców, właścicieli zawartości rozrywki, aplikacji biznesowych dla przedsiębiorstw i ogólnie dla każdej branży, która ma bibliotekę wideo, którą użytkownicy muszą wyszukiwać. |
Tworzenie zawartości | Twórz zwiastuny, wyróżniaj bębny, zawartość mediów społecznościowych lub klipy informacyjne na podstawie szczegółowych informacji wyodrębnianych z zawartości przez usługę Azure AI Video Indexer. Ramki kluczowe, znaczniki scen i znaczniki czasowe wyglądu osób i etykiet sprawiają, że proces tworzenia jest łagodniejszy i łatwiejszy, dzięki czemu można łatwo uzyskać dostęp do potrzebnych części wideo podczas tworzenia zawartości. |
Ułatwienia dostępu | Niezależnie od tego, czy chcesz udostępnić zawartość osobom niepełnosprawnym, czy też chcesz, aby zawartość została rozpowszechniona w różnych regionach przy użyciu różnych języków, możesz użyć transkrypcji i tłumaczenia dostarczonego przez usługę Azure AI Video Indexer w wielu językach. |
Monetyzacja | Usługa Azure AI Video Indexer może pomóc zwiększyć wartość filmów wideo. Na przykład branże korzystające z przychodów z reklam (mediów informacyjnych, mediów społecznościowych itd.) mogą dostarczać odpowiednie reklamy przy użyciu wyodrębnionych szczegółowych informacji jako dodatkowych sygnałów do serwera reklam. |
Moderowanie zawartości | Używaj modeli kon tryb namiotu ration tekstowych i wizualnych, aby zapewnić użytkownikom bezpieczeństwo przed niewłaściwą zawartością i sprawdzić, czy opublikowana zawartość jest zgodna z wartościami organizacji. Możesz automatycznie zablokować niektóre filmy wideo lub powiadomić użytkowników o zawartości. |
Zalecenia | Szczegółowe informacje wideo mogą służyć do poprawy zaangażowania użytkowników przez wyróżnienie odpowiednich momentów wideo dla użytkowników. Tagując każde wideo z dodatkowymi metadanymi, możesz polecić użytkownikom najbardziej odpowiednie filmy wideo i wyróżnić części filmu wideo zgodne z ich potrzebami. |
Następne kroki
- Co to jest usługa Azure AI Vision?
- Ścieżka szkoleniowa: Opracowywanie rozwiązań przetwarzania języka naturalnego za pomocą usług Azure AI Services
- Ścieżka szkoleniowa: Wprowadzenie do usług Azure AI Services
- Ścieżka szkoleniowa: Podstawy sztucznej inteligencji platformy Microsoft Azure: przetwarzanie obrazów
- Ścieżka szkoleniowa: tworzenie rozwiązań do przetwarzania obrazów za pomocą usługi Azure AI Vision
- Ścieżka szkoleniowa: tworzenie rozwiązania do rozpoznawania obrazów za pomocą usług Azure IoT Edge i Azure AI