Udostępnij za pośrednictwem


Uzyskiwanie szczegółowych informacji dotyczących transkrypcji, tłumaczenia i identyfikacji języka multimediów

Transkrypcja, tłumaczenie i identyfikacja języka multimediów

Transkrypcja, tłumaczenie i identyfikacja języka wykrywa, transkrybuje i tłumaczy mowę w plikach multimedialnych na ponad 50 języków.

Usługa Azure AI Video Indexer (VI) przetwarza mowę w pliku audio w celu wyodrębnienia transkrypcji, która jest następnie tłumaczona na wiele języków. Podczas wybierania tłumaczenia na określony język transkrypcja i szczegółowe informacje, takie jak słowa kluczowe, tematy, etykiety lub OCR, są tłumaczone na określony język. Transkrypcja może być używana jako lub łączyć się ze szczegółowymi informacjami osoby mówiącej, które mapują i przypisują transkrypcje do głośników. W pliku audio można wykryć wiele głośników. Identyfikator jest przypisywany do każdego osoby mówiącej i jest wyświetlany w ramach transkrypcji mowy.

Identyfikacja języka (LID) rozpoznaje obsługiwany dominujący język mówiony w pliku wideo. Aby uzyskać więcej informacji, zobacz Stosowanie pokrywy.

Funkcja identyfikacji wielojęzycznej (MLID) automatycznie rozpoznaje języki mówione w różnych segmentach w pliku audio i wysyła każdy segment do transkrypcji w zidentyfikowanych językach. Na końcu tego procesu wszystkie transkrypcje są łączone w ten sam plik. Aby uzyskać więcej informacji, zobacz Stosowanie identyfikatora MLID. Wynikowe szczegółowe informacje są generowane na liście podzielonej na kategorie w pliku JSON, który zawiera identyfikator, język, transkrybowany tekst, czas trwania i współczynnik ufności.

Podczas indeksowania plików multimedialnych z wieloma głośnikami usługa Azure AI Video Indexer wykonuje diaryzacja osoby mówiącej, która identyfikuje każdego głośnika w wideo i przypisuje każdemu transkrypcji wiersz do osoby mówiącej. Prelegenci otrzymują unikatową tożsamość, taką jak Speaker #1 i Speaker #2. Pozwala to na identyfikację osób mówiących podczas rozmów i może być przydatna w różnych scenariuszach, takich jak rozmowy lekarza-pacjenta, interakcje agenta-klienta i postępowanie sądowe.

Przypadki użycia transkrypcji, tłumaczenia i identyfikacji języka multimediów

  • Promowanie ułatwień dostępu dzięki udostępnieniu zawartości osobom niepełnosprawnym słuchowo przy użyciu usługi Azure AI Video Indexer w celu wygenerowania transkrypcji mowy na tekst i tłumaczenia na wiele języków.
  • Ulepszanie dystrybucji zawartości dla różnych odbiorców w różnych regionach i językach przez dostarczanie zawartości w wielu językach przy użyciu funkcji transkrypcji i tłumaczenia usługi Azure AI Video Indexer.
  • Ulepszanie i ulepszanie ręcznego tworzenia podpisów i napisów przy użyciu funkcji transkrypcji i tłumaczenia usługi Azure AI Video Indexer oraz używania podpisów zamkniętych generowanych przez usługę Azure AI Video Indexer w jednym z obsługiwanych formatów.
  • Używanie identyfikacji języka (LID) lub identyfikacji wielojęzycznej (MLID) do transkrypcji filmów wideo w nieznanych językach, aby umożliwić usłudze Azure AI Video Indexer automatyczne identyfikowanie języków wyświetlanych w filmie wideo i generowanie odpowiednio transkrypcji.

Wyświetlanie kodu JSON szczegółowych informacji za pomocą portalu internetowego

Po przekazaniu i zaindeksowaniu klipu wideo szczegółowe informacje są dostępne w formacie JSON do pobrania przy użyciu portalu internetowego.

  1. Wybierz kartę Biblioteka .
  2. Wybierz multimedia, z którym chcesz pracować.
  3. Wybierz pozycję Pobierz i Szczegółowe informacje (JSON). Plik JSON zostanie otwarty na nowej karcie przeglądarki.
  4. Poszukaj pary kluczy opisanej w przykładowej odpowiedzi.

Używanie interfejsu API

  1. Użyj żądania Pobierz indeks wideo. Zalecamy przekazanie &includeSummarizedInsights=falseelementu .
  2. Poszukaj par kluczy opisanych w przykładowej odpowiedzi.

Przykładowa odpowiedź

Wszystkie języki wykryte w filmie wideo znajdują się w obszarze sourceLanauge, a każde wystąpienie w sectin transkrypcji obejmuje język trakrypcyjny.

    "insights": {
      "version": "1.0.0.0",
      "duration": "0:01:50.486",
      "sourceLanguage": "en-US",
      "sourceLanguages": [
        "es-ES",
        "en-US"
      ],
      "language": "en-US",
      "languages": [
        "en-US"
      ],
      "transcript": [
        {
          "id": 1,
          "text": "Hi, I'm Doug from office. We're talking about new features that office insiders will see first and I have a program manager,",
          "confidence": 0.8879,
          "speakerId": 1,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:00",
              "adjustedEnd": "0:00:05.75",
              "start": "0:00:00",
              "end": "0:00:05.75"
            }
          ]
        },
        {
          "id": 2,
          "text": "Emily Tran, with office graphics.",
          "confidence": 0.8879,
          "speakerId": 1,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:05.75",
              "adjustedEnd": "0:00:07.01",
              "start": "0:00:05.75",
              "end": "0:00:07.01"
            }
          ]
        },

Ważne

Ważne jest, aby zapoznać się z omówieniem noty przejrzystości dla wszystkich funkcji VI. Każda analiza zawiera również własne uwagi dotyczące przejrzystości:

Transkrypcja, tłumaczenie i notatki identyfikacyjne języka

W przypadku odpowiedzialnego i dokładnego użycia usługa Azure AI Video Indexer jest cennym narzędziem dla wielu branż. Należy zawsze przestrzegać prywatności i bezpieczeństwa innych osób oraz przestrzegać lokalnych i globalnych przepisów. Zalecamy:

  • Starannie zastanów się nad dokładnością wyników, aby podwyższyć poziom dokładności danych, sprawdzić jakość dźwięku, dźwięk o niskiej jakości może mieć wpływ na wykryte szczegółowe informacje.
  • Usługa Video Indexer nie wykonuje rozpoznawania osoby mówiącej, dlatego osoby mówiące nie mają przypisanego identyfikatora w wielu plikach. Nie możesz wyszukać osoby mówiącej w wielu plikach lub transkrypcjach.
  • Identyfikatory osoby mówiącej są przypisywane losowo i mogą służyć tylko do rozróżniania różnych osób mówiących w jednym pliku.
  • Mowę krzyżową i nakładającą się mowę: gdy wielu mówców rozmawia jednocześnie lub przerywa siebie, model staje się trudny do dokładnego odróżnienia i przypisania poprawnego tekstu do odpowiednich osób mówiących.
  • Nakładają się na siebie osoby mówiące: czasami osoby mówiące mogą mieć podobne wzorce mowy, akcenty lub użyć podobnego słownictwa, co utrudnia modelowi rozróżnienie między nimi.
  • Hałaśliwy dźwięk: Niska jakość dźwięku, szum tła lub nagrania o niskiej jakości mogą utrudniać zdolność modelu do poprawnego identyfikowania i transkrypcji głośników.
  • Mowa emocjonalna: emocjonalne różnice w mowie, takie jak krzycząc, płacz lub skrajne emocje, mogą mieć wpływ na zdolność modelu do dokładnego diarize głośników.
  • Przebranie osoby mówiącej lub personifikacja: Jeśli prelegent celowo próbuje naśladować lub ukryć swój głos, model może błędnie zidentyfikować głośnika.
  • Niejednoznaczna identyfikacja osoby mówiącej: Niektóre segmenty mowy mogą nie mieć wystarczającej liczby unikatowych cech dla modelu, aby pewnie przypisywać określonemu głośnikowi.
  • Dźwięk, który zawiera języki inne niż wybrane, generuje nieoczekiwane wyniki.
  • Minimalna długość segmentu do wykrywania każdego języka wynosi 15 sekund.
  • Przesunięcie wykrywania języka wynosi średnio 3 sekundy.
  • Oczekuje się, że mowa będzie ciągła. Częste zmiany między językami mogą mieć wpływ na wydajność modelu.
  • Mowa osób niebędących prelegentami natywnymi może mieć wpływ na wydajność modelu (na przykład gdy prelegenci używają pierwszego języka i przełączają się na inny język).
  • Model został zaprojektowany tak, aby rozpoznawał spontaniczną mowę konwersacyjną przy użyciu rozsądnej akustyki audio (nie poleceń głosowych, śpiewu itp.).
  • Tworzenie i edytowanie projektu nie jest dostępne dla wideo w wielu językach.
  • Niestandardowe modele językowe nie są dostępne w przypadku korzystania z wykrywania wielu języków.
  • Dodawanie słów kluczowych nie jest obsługiwane.
  • Oznaczenie języka nie jest zawarte w wyeksportowanym pliku napisów.
  • Transkrypcja aktualizacji w interfejsie API nie obsługuje wielu plików języków.
  • Model jest przeznaczony do rozpoznawania spontanicznej mowy konwersacyjnej (nie poleceń głosowych, śpiewu itd.).
  • Jeśli usługa Azure AI Video Indexer nie może zidentyfikować języka z wystarczającą ufnością (większą niż 0,6), rezerwowy język to angielski.

Oto lista obsługiwanych języków.

Składniki transkrypcji, tłumaczenia i identyfikacji języka

Podczas procedury transkrypcji, tłumaczenia i identyfikacji języka przetwarzana jest mowa w pliku multimedialnym w następujący sposób:

Składnik Definicja
Język źródłowy Użytkownik przekazuje plik źródłowy do indeksowania i:
- Określa język źródłowy wideo.
— Wybiera automatyczne wykrywanie pojedynczego języka (LID), aby zidentyfikować język pliku. Dane wyjściowe są zapisywane oddzielnie.
— Wybiera automatyczne wykrywanie wielu języków (MLID), aby zidentyfikować wiele języków w pliku. Dane wyjściowe każdego języka są zapisywane oddzielnie.
Interfejs API transkrypcji Plik audio jest wysyłany do usług azure AI w celu uzyskania transkrypcji i przetłumaczonych danych wyjściowych. Jeśli określono język, jest on odpowiednio przetwarzany. Jeśli nie określono żadnego języka, zostanie uruchomiony proces LID lub MLID w celu zidentyfikowania języka, po którym plik jest przetwarzany.
Zjednoczenie danych wyjściowych Transkrypcja i przetłumaczone pliki są ujednolicone w tym samym pliku. Dane wyjściowe zawierają identyfikator osoby mówiącej każdego wyodrębnionego zdania wraz z poziomem ufności.
Wartość ufności Szacowany poziom ufności każdego zdania jest obliczany jako zakres od 0 do 1. Wskaźnik ufności reprezentuje pewność dokładności wyniku. Na przykład 82% pewność jest reprezentowana jako wynik 0,82.

Przykładowy kod

Zobacz wszystkie przykłady dla vi