Uzyskiwanie szczegółowych informacji o wnioskowaniu tematów

Artykuł
07/26/2024

Ważne

Termin migracji zawartości usługi Azure Video Indexer z powodu wycofania usługi Azure Media Services upłynął. Aby uzyskać więcej informacji, zobacz przewodnik po wycofaniu.

Wnioskowanie tematów

Wnioskowanie tematów tworzy wnioskowane szczegółowe informacje pochodzące z transkrypcji dźwięku, zawartości OCR w tekście wizualnym i osobistości rozpoznawane w filmie za pomocą modelu rozpoznawania twarzy usługi Video Indexer.

W portalu internetowym wyodrębnione tematy i kategorie (jeśli są dostępne) są wyświetlane na karcie Szczegółowe informacje. Aby przejść do tematu w pliku multimedialnym, wybierz pozycję Temat —> Odtwórz poprzedni lub Odtwórz dalej.

Przypadki użycia wnioskowania tematów

Personalizacja przy użyciu wnioskowania tematów w celu dopasowania do zainteresowań klientów, na przykład witryn internetowych dotyczących anglii publikujące promocje na temat angielskich filmów lub festiwali.
Głębokie wyszukiwanie archiwów w celu uzyskania szczegółowych informacji na temat konkretnych tematów w celu tworzenia historii funkcji dotyczących firm, osób lub technologii, na przykład przez agencję informacyjną.
Zarabianie, zwiększając wartość wyodrębnionych szczegółowych informacji. Na przykład branże, takie jak wiadomości lub media społecznościowe, które opierają się na przychodach z reklam, mogą dostarczać odpowiednie reklamy przy użyciu wyodrębnionych szczegółowych informacji jako dodatkowych sygnałów do serwera reklam.

Wyświetlanie kodu JSON szczegółowych informacji za pomocą portalu internetowego

Po przekazaniu i zaindeksowaniu klipu wideo szczegółowe informacje są dostępne w formacie JSON do pobrania przy użyciu portalu internetowego.

Wybierz kartę Biblioteka .
Wybierz multimedia, z którym chcesz pracować.
Wybierz pozycję Pobierz i Szczegółowe informacje (JSON). Plik JSON zostanie otwarty na nowej karcie przeglądarki.
Poszukaj pary kluczy opisanej w przykładowej odpowiedzi.

Używanie interfejsu API

Użyj żądania Pobierz indeks wideo. Zalecamy przekazanie &includeSummarizedInsights=falseelementu .
Poszukaj pary kluczy opisanej w przykładowej odpowiedzi.

Przykładowa odpowiedź

    "topics": [
      {
        "id": 1,
        "name": "Pens",
        "referenceId": "Category:Pens",
        "referenceUrl": "https://en.wikipedia.org/wiki/Category:Pens",
        "referenceType": "Wikipedia",
        "confidence": 0.6833,
        "iabName": null,
        "language": "en-US",
        "instances": [
          {
            "adjustedStart": "0:00:30",
            "adjustedEnd": "0:01:17.5",
            "start": "0:00:30",
            "end": "0:01:17.5"
          }
        ]
      },
      {
        "id": 2,
        "name": "Musical groups",
        "referenceId": "Category:Musical_groups",
        "referenceUrl": "https://en.wikipedia.org/wiki/Category:Musical_groups",
        "referenceType": "Wikipedia",
        "confidence": 0.6812,
        "iabName": null,
        "language": "en-US",
        "instances": [
          {
            "adjustedStart": "0:01:10",
            "adjustedEnd": "0:01:17.5",
            "start": "0:01:10",
            "end": "0:01:17.5"
          }
        ]
      },

Elementy

Składnik	Definicja
Język źródłowy	Użytkownik przekazuje plik źródłowy do indeksowania.
Wstępnego przetwarzania	Transkrypcja, OCR i sztuczna inteligencja rozpoznawania twarzy wyodrębnia szczegółowe informacje z pliku multimedialnego.
Przetwarzanie szczegółowych informacji	Tematy AI analizuje transkrypcję, OCR i szczegółowe informacje dotyczące rozpoznawania twarzy wyodrębnione podczas wstępnego przetwarzania: - Transkrypcja tekstu, każdy wiersz transkrypcji wglądu w tekst jest badany przy użyciu technologii sztucznej inteligencji opartej na analizie ontologii. - Szczegółowe informacje o rozpoznawaniu twarzy i rozpoznawania twarzy są analizowane razem przy użyciu technologii sztucznej inteligencji opartej na analizie ontologii.
Przetwarzanie końcowe	- Transkrypcja tekstu, szczegółowe informacje są wyodrębniane i powiązane z kategorią Temat wraz z numerem wiersza transkrypowanego tekstu. Na przykład polityka w wierszu 7. - OCR i rozpoznawanie twarzy każdy wgląd jest powiązany z kategorią Temat wraz z czasem wystąpienia tematu w pliku multimedialnym. Na przykład Freddie Mercury w kategoriach People and Music na 20.00.
Wartość ufności	Szacowany poziom ufności każdego tematu jest obliczany jako zakres od 0 do 1. Wskaźnik ufności reprezentuje pewność dokładności wyniku. Na przykład 82% pewność jest reprezentowana jako wynik 0,82.

Uwagi dotyczące przezroczystości

Ważne

Ważne jest, aby zapoznać się z omówieniem noty przejrzystości dla wszystkich funkcji VI. Każda analiza zawiera również własne uwagi dotyczące przejrzystości:

Podczas przekazywania pliku zawsze używaj wysokiej jakości zawartości wideo. Zalecany maksymalny rozmiar ramki to HD, a szybkość klatek na sekundę to 30 KLATEK NA SEKUNDĘ. Ramka powinna zawierać nie więcej niż 10 osób. Podczas wyprowadzania ramek z filmów wideo do modeli sztucznej inteligencji wysyłaj tylko około dwóch lub trzech ramek na sekundę. Przetwarzanie 10 i więcej ramek może opóźnić wynik sztucznej inteligencji.
Podczas przekazywania pliku zawsze używaj wysokiej jakości zawartości audio i wideo. Do przeprowadzenia analizy wymagane jest co najmniej 1 minuta spontanicznej mowy konwersacyjnej. Efekty dźwiękowe są wykrywane tylko w segmentach innych niż speech. Minimalny czas trwania sekcji nonspeech wynosi 2 sekundy. Polecenia głosowe i śpiew nie są obsługiwane.
Zazwyczaj małe osoby lub obiekty poniżej 200 pikseli i osoby siedzące mogą nie zostać wykryte. Osoby noszące podobne ubrania lub mundury mogą być wykrywane jako ta sama osoba i otrzymują ten sam numer identyfikacyjny. Osoby lub obiekty, które są utrudnione, mogą nie zostać wykryte. Ślady osób z przednimi i tylnymi pozycjami mogą być podzielone na różne wystąpienia.

Przykładowy kod

Zobacz wszystkie przykłady dla vi

Udostępnij za pośrednictwem