Uzyskiwanie szczegółowych informacji dotyczących wyodrębniania słów kluczowych

Artykuł
07/26/2024

Ważne

Termin migracji zawartości usługi Azure Video Indexer z powodu wycofania usługi Azure Media Services upłynął. Aby uzyskać więcej informacji, zobacz przewodnik po wycofaniu.

Wyodrębnianie słów kluczowych

Wyodrębnianie słów kluczowych wykrywa szczegółowe informacje o różnych słowach kluczowych omówionych w plikach multimedialnych. Wyodrębnia szczegółowe informacje zarówno w plikach multimedialnych w jednym języku, jak i w wielu językach.

Przypadki użycia wyodrębniania słów kluczowych

Personalizacja słów kluczowych zgodnych z zainteresowaniami klientów, na przykład witryny internetowe o Anglii publikujące promocje na temat angielskich filmów lub festiwali.
Głębokie wyszukiwanie archiwów w celu uzyskania szczegółowych informacji na temat określonych słów kluczowych w celu tworzenia historii funkcji dotyczących firm, osób lub technologii, na przykład przez agencję informacyjną.

Wyświetlanie kodu JSON szczegółowych informacji za pomocą portalu internetowego

Po przekazaniu i zaindeksowaniu klipu wideo szczegółowe informacje są dostępne w formacie JSON do pobrania przy użyciu portalu internetowego.

Wybierz kartę Biblioteka .
Wybierz multimedia, z którym chcesz pracować.
Wybierz pozycję Pobierz i Szczegółowe informacje (JSON). Plik JSON zostanie otwarty na nowej karcie przeglądarki.
Poszukaj pary kluczy opisanej w przykładowej odpowiedzi.

Używanie interfejsu API

Użyj żądania Pobierz indeks wideo. Zalecamy przekazanie &includeSummarizedInsights=falseelementu .
Poszukaj pary kluczy opisanej w przykładowej odpowiedzi.

Przykładowa odpowiedź

    "keywords": [
      {
        "id": 1,
        "text": "office insider",
        "confidence": 1,
        "language": "en-US",
        "instances": [
          {
            "adjustedStart": "0:00:00",
            "adjustedEnd": "0:00:05.75",
            "start": "0:00:00",
            "end": "0:00:05.75"
          },
          {
            "adjustedStart": "0:01:21.82",
            "adjustedEnd": "0:01:24.7",
            "start": "0:01:21.82",
            "end": "0:01:24.7"
          },
          {
            "adjustedStart": "0:01:31.32",
            "adjustedEnd": "0:01:32.76",
            "start": "0:01:31.32",
            "end": "0:01:32.76"
          },
          {
            "adjustedStart": "0:01:35.8",
            "adjustedEnd": "0:01:37.84",
            "start": "0:01:35.8",
            "end": "0:01:37.84"
          }
        ]
      },
      {
        "id": 2,
        "text": "insider tip",
        "confidence": 0.9975,
        "language": "en-US",
        "instances": [
          {
            "adjustedStart": "0:01:14.91",
            "adjustedEnd": "0:01:19.51",
            "start": "0:01:14.91",
            "end": "0:01:19.51"
          }
        ]
      }

Składniki

Podczas procedury Słowa kluczowe pliki audio i obrazy w pliku multimedialnym są przetwarzane w następujący sposób:

Składnik	Definicja
Język źródłowy	Użytkownik przekazuje plik źródłowy do indeksowania.
Interfejs API transkrypcji	Plik dźwiękowy jest wysyłany do usług azure AI, a przetłumaczone dane wyjściowe transkrypcji są zwracane. Jeśli określono język, jest on przetwarzany.
OCR wideo	Obrazy w pliku multimedialnym są przetwarzane przy użyciu interfejsu API odczytu usługi Azure AI Vision w celu wyodrębnienia tekstu, jego lokalizacji i innych szczegółowych informacji.
Wyodrębnianie słów kluczowych	Algorytm wyodrębniania przetwarza transkrypowany dźwięk. Wyniki są następnie łączone ze szczegółowymi informacjami wykrytymi w filmie wideo podczas procesu OCR. Słowa kluczowe i miejsce ich wyświetlania w nośniku, a następnie wykryte i zidentyfikowane.
Poziom ufności	Szacowany poziom ufności każdego słowa kluczowego jest obliczany jako zakres od 0 do 1. Wskaźnik ufności reprezentuje pewność dokładności wyniku. Na przykład 82% pewność jest reprezentowana jako wynik 0,82.

Uwagi dotyczące przezroczystości

Ważne

Ważne jest, aby zapoznać się z omówieniem noty przejrzystości dla wszystkich funkcji VI. Każda analiza zawiera również własne uwagi dotyczące przejrzystości:

Zawsze przekazuj wysokiej jakości zawartość audio i wideo. Zalecany maksymalny rozmiar ramki to HD, a szybkość klatek na sekundę to 30 KLATEK NA SEKUNDĘ. Ramka powinna zawierać nie więcej niż 10 osób. Podczas wyprowadzania ramek z filmów wideo do modeli sztucznej inteligencji wysyłaj tylko około 2 lub 3 klatek na sekundę. Przetwarzanie 10 i więcej ramek może opóźnić wynik sztucznej inteligencji. Do przeprowadzenia analizy wymagane jest co najmniej 1 minuta spontanicznej mowy konwersacyjnej. Efekty dźwiękowe są wykrywane tylko w segmentach innych niż speech. Minimalny czas trwania sekcji nonspeech wynosi 2 sekundy. Polecenia głosowe i śpiew nie są obsługiwane.

Przykładowy kod

Link do przykładowego kodu korzystającego z szczegółowych informacji

Udostępnij za pośrednictwem