Wybierz technologię przetwarzania i generowania obrazów oraz wideo z wykorzystaniem sztucznej inteligencji Azure

2025-06-10

Usługi sztucznej inteligencji platformy Azure ułatwiają deweloperom i organizacjom tworzenie inteligentnych, nowoczesnych, gotowych na rynek i odpowiedzialnych aplikacji za pomocą gotowych do użycia i wstępnie utworzonych i dostosowywalnych interfejsów API i modeli.

W tym artykule opisano usługi sztucznej inteligencji, które zapewniają możliwości przetwarzania wideo i obrazów, takie jak analiza wizualna i generowanie obrazów, wykrywanie obiektów, klasyfikacja obrazów i rozpoznawanie twarzy.

Usługi

Następujące usługi zapewniają możliwości przetwarzania wideo i obrazów dla usług sztucznej inteligencji:

Azure OpenAI Service
- Użyj Azure OpenAI do generowania obrazów z języka naturalnego za pomocą wstępnie wytrenowanych modeli generatywnych. Na przykład możesz użyć usługi Azure OpenAI, aby wygenerować grafikę niestandardową na żądanie.
- Korzystaj z usługi Azure OpenAI, gdy konieczne jest przeprowadzenie nieokreślonej, szerokiej analizy zdjęć. Na przykład możesz użyć usługi Azure OpenAI do generowania opisów ułatwień dostępu.
- Nie używaj Usługa Azure OpenAI, jeśli chcesz używać modeli generowania obrazów typu open source dostępnych w usłudze Azure Machine Learning.
- Nie używaj Usługa Azure OpenAI, jeśli musisz wykonać określone typy przetwarzania obrazów, takie jak wyodrębnianie formularzy, rozpoznawanie twarzy lub wyspecjalizowane w domenie wykrywanie cech obrazu. W tych scenariuszach użyj lub skompiluj rozwiązania sztucznej inteligencji zaprojektowane specjalnie do tych celów.
Microsoft Azure AI Vision
- Użyj Vision, gdy potrzebujesz podstawowego optycznego rozpoznawania znaków (OCR), analizy obrazów lub podstawowej analizy wideo do wykrywania ruchu i innych zdarzeń.
- Nie używaj Vision do analizy, którą już obsługują duże, wielomodalne modele podstawowe.
- Nie używaj Vision do moderowania zawartości. Zamiast tego używaj bezpieczeństwa zawartości sztucznej inteligencji platformy Microsoft Azure.
Microsoft Azure AI Custom Vision
- Użyj usługi Custom Vision dla określonych wymagań, których nie można spełnić przez analizę obrazu zapewnianą przez usługi Vision. Na przykład usługa Custom Vision może rozpoznawać nietypowe obiekty i wady produkcyjne. Może również udostępniać szczegółowe klasyfikacje niestandardowe.
- Nie używaj Usługa Custom Vision, jeśli potrzebujesz podstawowego wykrywania obiektów lub wykrywania twarzy. Użyj Azure AI Face lub Vision.
- Nie używaj Custom Vision do podstawowej analizy wizualnej. Zamiast tego używaj modeli z obsługą obrazów z poziomu usługi Azure OpenAI lub modeli typu open source w usłudze Machine Learning.
Rozpoznawanie sztucznej inteligencji platformy Azure
- Użyj Azure AI Face, gdy musisz sprawdzić, czy twarze są realne czy zmanipulowane, lub aby identyfikować, grupować albo znajdować podobne twarze.
- Nie używaj Azure AI Face do wykrywania emocji na twarzach lub do przeprowadzania innych zaawansowanych analiz dotyczących twarzy. Zamiast tego należy używać wielomodalnych modeli językowych dla tych zadań.
Microsoft Azure AI Video Indexer
- Użyj Video Indexer do wykonywania zaawansowanych zadań analizy wideo, które nie mogą być obsługiwane przez podstawową analizę wideo w Vision.
- Nie używaj Video Indexer do podstawowych zadań analizy wideo, takich jak liczenie osób oraz wykrywanie ruchu i zdarzeń. Podstawowa analiza wideo w usłudze Vision jest bardziej opłacalna dla tych zadań.

Azure OpenAI

Usługa Azure OpenAI zapewnia dostęp do zaawansowanych modeli językowych platformy OpenAI , w tym najnowszej generacji modeli GPT. Te modele obsługują analizę wizualną i generacje obrazów. DALL-E obsługuje również generowanie obrazów.

Widzenie

Usługa Vision udostępnia zaawansowane algorytmy, które przetwarzają obrazy i zwracają informacje na podstawie podanych funkcji wizualnych. Udostępnia cztery usługi: OCR, Rozpoznawanie twarzy w usłudze Azure AI, analizę obrazów i analizę przestrzenną.

Możliwości

Poniższa tabela zawiera listę funkcji dostępnych w usłudze Vision.

Zdolność	opis
Optyczne rozpoznawanie znaków	Funkcja OCR wyodrębnia tekst z obrazów. Interfejs API odczytu umożliwia wyodrębnianie tekstu drukowanego i odręcznego ze zdjęć i dokumentów. Używa modeli opartych na uczeniu głębokim do przetwarzania tekstu na różnych powierzchniach i tłach. Materiały te obejmują dokumenty biznesowe, faktury, paragony, plakaty, wizytówki, listy i tablice. Interfejsy API OCR obsługują wyodrębnianie tekstu drukowanego w kilku językach.
Analiza obrazu usługi Azure AI Vision	Analiza obrazów wyodrębnia wiele cech wizualnych z obrazów, takich jak obiekty, twarze i automatycznie wygenerowane opisy tekstu. Niestandardowe modele identyfikatorów obrazów można tworzyć przy użyciu usługi Image Analysis 4.0 opartej na modelu fundacji Florencji.
Analiza wideo	Analiza wideo obejmuje funkcje związane z wideo, takie jak analiza przestrzenna i pobieranie wideo. Analiza przestrzenna analizuje obecność i ruch osób w kanale wideo i generuje zdarzenia, na które mogą reagować inne systemy.

Wizja Niestandardowa

Custom Vision to usługa rozpoznawania obrazów, której można użyć do tworzenia, wdrażania i ulepszania modeli identyfikatorów obrazów. Identyfikator obrazu stosuje etykiety do obrazów zgodnie z ich cechami wizualnymi. Każda etykieta reprezentuje klasyfikację lub obiekt. Użyj usługi Custom Vision, aby określić własne etykiety i wytrenować modele niestandardowe w celu ich wykrywania.

Usługa Custom Vision używa algorytmu uczenia maszynowego do analizowania obrazów pod kątem funkcji niestandardowych. Przesyłasz zestawy obrazów, które mają i nie mają żądanych cech wizualnych. Następnie oznaczasz obrazy własnymi etykietami lub tagami podczas przesyłania. Algorytm trenuje te dane i oblicza własną dokładność, testując się na tych samych obrazach. Po wytrenowania modelu można testować, ponownie trenować i w końcu używać modelu w aplikacji do rozpoznawania obrazów do klasyfikowania obrazów lub wykrywania obiektów. Możesz również wyeksportować model do użycia w trybie offline.

Możliwości

Poniższa tabela zawiera listę funkcji dostępnych w usłudze Custom Vision.

Zdolność	opis
Klasyfikacja obrazów	Przewidywanie kategorii lub klasy na podstawie zestawu danych wejściowych, które są nazywane funkcjami. Oblicz ocenę prawdopodobieństwa dla każdej możliwej klasy i zwróć etykietę wskazującą klasę, do której najprawdopodobniej należy obiekt. Aby użyć tego modelu, potrzebne są dane składające się z funkcji i ich etykiet.
Wykrywanie obiektów	Pobieranie współrzędnych obiektu na obrazie. Aby użyć tego modelu, potrzebne są dane składające się z funkcji i ich etykiet.

Przypadki użycia

Poniższa tabela zawiera listę możliwych przypadków użycia usługi Custom Vision.

Przypadek użycia	opis
Używanie usługi Custom Vision z urządzeniem IoT do raportowania stanów wizualizacji.	Użyj Custom Vision do szkolenia urządzenia z aparatem w celu wykrywania stanów wizualnych. Ten scenariusz wykrywania można uruchomić na urządzeniu IoT przy użyciu wyeksportowanego modelu ONNX. Stan wizualizacji opisuje zawartość obrazu, taką jak pusty pokój lub pomieszczenie z osobami lub pustym podjazdem lub podjazdem z ciężarówką.
Klasyfikowanie obrazów i obiektów.	Analizuj zdjęcia i skanuj w poszukiwaniu konkretnych logo, poprzez trenowanie modelu niestandardowego.

Rozpoznawanie sztucznej inteligencji platformy Azure

Azure AI Face udostępnia algorytmy sztucznej inteligencji, które wykrywają, rozpoznają i analizują ludzkie twarze na obrazach. Oprogramowanie do rozpoznawania twarzy jest ważne w różnych scenariuszach, takich jak identyfikacja, bezobsługowa kontrola dostępu i automatyczne rozmycie twarzy w celu zachowania prywatności.

Możliwości

Poniższa tabela zawiera listę funkcji dostępnych w usłudze Azure AI Face.

Zdolność	opis
Wykrywanie i analiza twarzy	Zidentyfikuj obszary obrazu, które zawierają ludzką twarz, zazwyczaj przez zwracanie współrzędnych polami ograniczającymi, które tworzą prostokąt wokół twarzy.
Znajdowanie podobnych twarzy	Operacja Znajdź podobne porównuje twarz docelową z zestawem kandydatów. Identyfikuje mniejszą grupę twarzy, które są ściśle podobne do twarzy docelowej. Ta funkcja jest przydatna do wyszukiwania twarzy według obrazu.
Grupowanie twarzy	Operacja Grupa dzieli zestaw nieznanych twarzy na kilka mniejszych grup na podstawie ich podobieństwa. Każda grupa jest odpowiednim rozłącznym podzestawem oryginalnego zestawu twarzy. Zwraca również jedną `messyGroup` tablicę zawierającą identyfikatory twarzy, dla których nie znaleziono żadnych podobieństw.
Identyfikator	Identyfikacja twarzy może dotyczyć dopasowania jednej do wielu twarzy na obrazie do zestawu twarzy w bezpiecznym repozytorium. Wyniki dopasowania kandydatów są zwracane na podstawie tego, jak ściśle ich dane dotyczące twarzy pasują do twarzy w zapytaniu.
Operacje rozpoznawania twarzy	Nowoczesne przedsiębiorstwa i aplikacje mogą używać technologii rozpoznawania twarzy sztucznej inteligencji platformy Azure, w tym weryfikacji twarzy (lub dopasowania jeden do jednego) i identyfikacji twarzy (lub dopasowania jeden do wielu), aby potwierdzić, że użytkownik jest tym, kto twierdzi, że jest.
Wykrywanie żywotności	Wykrywanie aktywności to funkcja ochrony przed fałszowaniem, która sprawdza, czy użytkownik jest fizycznie obecny przed kamerą. Służy do zapobiegania atakom fałszowania, które używają wydrukowanego zdjęcia, nagranego wideo lub maski 3D twarzy użytkownika.

Przypadki użycia

Poniższa tabela zawiera listę możliwych przypadków użycia usługi Azure AI Face.

Przypadek użycia	opis
Weryfikowanie tożsamości użytkownika	Zweryfikuj osobę pod kątem zaufanego obrazu twarzy. Ta weryfikacja może służyć do udzielania dostępu do właściwości cyfrowych lub fizycznych. W większości scenariuszy zaufany obraz twarzy pochodzi z identyfikatora wydanego przez rząd, takiego jak paszport lub prawo jazdy, lub z zdjęcia rejestracji zrobionego osobiście. Podczas weryfikacji detekcja żywotności może odgrywać kluczową rolę w weryfikacji, czy obraz pochodzi od prawdziwej osoby, a nie z drukowanego zdjęcia lub maski.
Anonimizacja twarzy	Zasłoń lub rozmyj wykryte twarze osób zarejestrowanych na nagraniu wideo w celu ochrony ich prywatności.
Bezdotykowa kontrola dostępu	W porównaniu z metodami, takimi jak karty lub bilety, funkcja identyfikacji twarzy umożliwia ulepszone środowisko kontroli dostępu przy jednoczesnym zmniejszeniu higieny i zagrożeń bezpieczeństwa związanych z udostępnianiem, utratą lub kradzieżą nośników fizycznych. Rozpoznawanie twarzy wspomaga proces rejestracji przy udziale człowieka na lotniskach, stadionach, w parkach rozrywki, budynkach, kioskach recepcyjnych w biurach, szpitalach, siłowniach, klubach lub szkołach.

Indeksator filmów

Video Indexer to aplikacja w chmurze, która jest częścią usług sztucznej inteligencji. Jest ona tworzona przy użyciu narzędzi sztucznej inteligencji platformy Azure, takich jak rozpoznawanie twarzy, translator, przetwarzanie obrazów i mowa. Umożliwia wyodrębnianie szczegółowych informacji z filmów wideo przy użyciu modeli wideo i audio usługi Video Indexer.

Możliwości

Poniższa tabela zawiera listę niektórych funkcji dostępnych w usłudze Video Indexer.

Zdolność	opis
Identyfikacja i transkrypcja mowy w wielu językach	Identyfikuje język mówiony w różnych segmentach z nagrania. Wysyła każdy segment pliku multimedialnego do transkrypcji, a następnie łączy transkrypcję z powrotem z jedną ujednoliconą transkrypcją.
Wykrywanie twarzy	Wykrywa i grupuje twarze wyświetlane w filmie wideo.
Identyfikacja osobistości	Identyfikuje ponad 1 milion gwiazd, takich jak światowi liderzy, aktorzy, artyści, sportowcy, naukowcy i liderzy biznesowi i technologiczni na całym świecie. Dane o tych celebrytach można również znaleźć na różnych stronach internetowych, takich jak IMDB i Wikipedia.
Identyfikacja twarzy na podstawie konta	Trenuje model dla konkretnego konta. Następnie rozpoznaje twarze w filmie wideo na podstawie wytrenowanego modelu.
Śledzenie obserwowanych osób (zapowiedź)	Wykrywa obserwowane osoby w filmach wideo. Zawiera informacje, takie jak lokalizacja osoby w ramce wideo przy użyciu pól ograniczenia. Zawiera również dokładne znaczniki czasu rozpoczęcia i zakończenia dla obecności osoby oraz poziom pewności w wykrywaniu.
Transkrypcja audio	Konwertuje mowę na tekst w ponad 50 językach i umożliwia rozszerzenia.
Wykrywanie języka	Identyfikuje dominujący język mówiony.
Redukcja szumu	Czyści dźwięk telefoniczny lub hałaśliwe nagrania (na podstawie filtrów Skype'a).
Tłumaczenie	Tworzy tłumaczenia transkrypcji audio na wiele języków.

Aby uzyskać więcej informacji, zobacz dokumentację usługi Video Indexer.

Przypadki użycia

Poniższa tabela zawiera listę możliwych przypadków użycia usługi Video Indexer.

Przypadek użycia	opis
Głębokie wyszukiwanie	Użyj informacji wyodrębnionych z wideo, aby ulepszyć doświadczenie wyszukiwania w bibliotece wideo. Na przykład indeksowanie wypowiedzianych słów i twarzy może umożliwić wyszukiwanie momentów w filmie wideo, w którym dana osoba mówiła pewne słowa lub kiedy dwie osoby były postrzegane razem. Wyszukiwanie na podstawie takich szczegółowych informacji z filmów ma zastosowanie do agencji informacyjnych, instytutów edukacyjnych, nadawców, właścicieli zawartości rozrywki, aplikacji biznesowych dla przedsiębiorstw i ogólnie dla każdej branży, która ma bibliotekę wideo, którą użytkownicy muszą wyszukiwać.
Tworzenie zawartości	Twórz zwiastuny, montaże, treści na media społecznościowe lub klipy informacyjne na podstawie szczegółowych informacji wyodrębnianych z Twojej zawartości przez usługę Video Indexer. Ramki kluczowe, znaczniki scen i znaczniki czasu pojawień się osób i etykiet upraszczają proces tworzenia. Te elementy ułatwiają szybkie znajdowanie potrzebnych części filmu wideo podczas tworzenia zawartości.
Ułatwienia dostępu	Niezależnie od tego, czy chcesz udostępnić zawartość osobom niepełnosprawnym, czy chcesz, aby zawartość została rozpowszechniona w różnych regionach korzystających z różnych języków, możesz użyć transkrypcji i tłumaczenia udostępnianego przez usługę Video Indexer w wielu językach.
Monetyzacja	Usługa Video Indexer może pomóc zwiększyć wartość filmów wideo. Na przykład branże, które opierają się na przychodach z reklam, takich jak media informacyjne i media społecznościowe, mogą dostarczać odpowiednie reklamy przy użyciu wyodrębnionych szczegółowych informacji jako dodatkowych sygnałów do serwera reklam.
Moderowanie zawartości	Używaj modeli moderowania zawartości tekstowej i wizualnej, aby chronić użytkowników przed niewłaściwą zawartością i sprawdzić, czy opublikowana zawartość jest zgodna z wartościami organizacji. Możesz automatycznie zablokować niektóre filmy wideo lub powiadomić użytkowników o zawartości.
Zalecenia	Analizy wideo mogą służyć do poprawy zaangażowania użytkowników przez wyróżnienie momentów wideo istotnych dla użytkowników. Tagując każde wideo z dodatkowymi metadanymi, możesz polecić użytkownikom najbardziej odpowiednie filmy wideo i wyróżnić części wideo, które odpowiadają ich potrzebom.

Udostępnij za pośrednictwem

Wybierz technologię przetwarzania i generowania obrazów oraz wideo z wykorzystaniem sztucznej inteligencji Azure

Usługi

Azure OpenAI

Widzenie

Możliwości

Wizja Niestandardowa

Możliwości

Przypadki użycia

Rozpoznawanie sztucznej inteligencji platformy Azure

Możliwości

Przypadki użycia

Indeksator filmów

Możliwości

Przypadki użycia

Następne kroki

Powiązane zasoby

Opinia

Dodatkowe zasoby