Transkrypcja multimediów, tłumaczenie i identyfikacja języka

Artykuł
03/25/2024

Ważne

Ze względu na ogłoszenie wycofania usługi Azure Media Services usługa Azure AI Video Indexer ogłasza zmiany funkcji usługi Azure AI Video Indexer. Zobacz Zmiany związane z wycofaniem usługi Azure Media Service (AMS), aby dowiedzieć się, co to oznacza dla konta usługi Azure AI Video Indexer. Zobacz Przewodnik Przygotowywanie do wycofania usługi AMS: VI aktualizacji i migracji.

Transkrypcja, tłumaczenie i identyfikacja języka usługi Azure AI Video Indexer automatycznie wykrywa, transkrybuje i tłumaczy mowę w plikach multimedialnych na ponad 50 języków.

Usługa Azure AI Video Indexer przetwarza mowę w pliku audio w celu wyodrębnienia transkrypcji, która jest następnie tłumaczona na wiele języków. Podczas wybierania tłumaczenia na określony język transkrypcja i szczegółowe informacje, takie jak słowa kluczowe, tematy, etykiety lub OCR, są tłumaczone na określony język. Transkrypcja może być używana jako lub łączyć się ze szczegółowymi informacjami osoby mówiącej, które mapują i przypisują transkrypcje do głośników. W pliku audio można wykryć wiele głośników. Identyfikator jest przypisywany do każdego osoby mówiącej i jest wyświetlany w ramach transkrypcji mowy.
Identyfikacja języka usługi Azure AI Video Indexer (LID) automatycznie rozpoznaje obsługiwany dominujący język mówiony w pliku wideo. Aby uzyskać więcej informacji, zobacz Stosowanie pokrywy.
Funkcja identyfikacji wielojęzycznej (MLID) usługi Azure AI Video Indexer automatycznie rozpoznaje języki mówione w różnych segmentach w pliku audio i wysyła każdy segment do transkrypcji w zidentyfikowanych językach. Na końcu tego procesu wszystkie transkrypcje są łączone w ten sam plik. Aby uzyskać więcej informacji, zobacz Stosowanie identyfikatora MLID. Wynikowe szczegółowe informacje są generowane na liście podzielonej na kategorie w pliku JSON, który zawiera identyfikator, język, transkrybowany tekst, czas trwania i współczynnik ufności.
Podczas indeksowania plików multimedialnych z wieloma głośnikami usługa Azure AI Video Indexer wykonuje diaryzacja osoby mówiącej, która identyfikuje każdego głośnika w wideo i przypisuje każdemu transkrypcji wiersz do osoby mówiącej. Prelegenci otrzymują unikatową tożsamość, taką jak Speaker #1 i Speaker #2. Pozwala to na identyfikację osób mówiących podczas rozmów i może być przydatna w różnych scenariuszach, takich jak rozmowy lekarza-pacjenta, interakcje agenta-klienta i postępowanie sądowe.

Wymagania wstępne

Przegląd noty przezroczystości

Zasady ogólne

W tym artykule omówiono transkrypcję, tłumaczenie i identyfikację języka oraz kluczowe zagadnienia dotyczące odpowiedzialnego korzystania z tej technologii. Istnieje wiele kwestii, które należy wziąć pod uwagę podczas podejmowania decyzji o sposobie używania i implementowania funkcji opartej na sztucznej inteligencji:

Czy ta funkcja będzie działać dobrze w moim scenariuszu? Przed użyciem transkrypcji, tłumaczenia i identyfikacji języka w scenariuszu przetestuj, jak działa przy użyciu danych rzeczywistych i upewnij się, że może ona zapewnić potrzebną dokładność.
Czy jesteśmy w stanie identyfikować błędy i reagować na nie? Produkty i funkcje oparte na sztucznej inteligencji nie będą dokładne w 100%, dlatego należy rozważyć sposób identyfikowania i reagowania na wszelkie błędy, które mogą wystąpić.

Wyświetlanie szczegółowych informacji

Aby wyświetlić szczegółowe informacje w witrynie internetowej:

Przejdź do obszaru Szczegółowe informacje i przewiń do pozycji Transkrypcja i tłumaczenie.

Aby wyświetlić szczegółowe informacje o języku w programie insights.json, wykonaj następujące czynności:

Wybierz pozycję Pobierz —> Szczegółowe informacje (JSON).

Skopiuj żądany element w obszarze insightsi wklej go do przeglądarki JSON online.

"insights": {
  "version": "1.0.0.0",
  "duration": "0:01:50.486",
  "sourceLanguage": "en-US",
  "sourceLanguages": [
    "en-US"
  ],
  "language": "en-US",
  "languages": [
    "en-US"
  ],
  "transcript": [
    {
      "id": 1,
      "text": "Hi, I'm Doug from office. We're talking about new features that office insiders will see first and I have a program manager,",
      "confidence": 0.8879,
      "speakerId": 1,
      "language": "en-US",
      "instances": [
        {
          "adjustedStart": "0:00:00",
          "adjustedEnd": "0:00:05.75",
          "start": "0:00:00",
          "end": "0:00:05.75"
        }
      ]
    },
    {
      "id": 2,
      "text": "Emily Tran, with office graphics.",
      "confidence": 0.8879,
      "speakerId": 1,
      "language": "en-US",
      "instances": [
        {
          "adjustedStart": "0:00:05.75",
          "adjustedEnd": "0:00:07.01",
          "start": "0:00:05.75",
          "end": "0:00:07.01"
        }
      ]
    },

Aby pobrać plik JSON za pośrednictwem interfejsu API, użyj portalu deweloperów usługi Azure AI Video Indexer.

Składniki transkrypcji, tłumaczenia i identyfikacji języka

Podczas procedury transkrypcji, tłumaczenia i identyfikacji języka przetwarzana jest mowa w pliku multimedialnym w następujący sposób:

Składnik	Definicja
Język źródłowy	Użytkownik przekazuje plik źródłowy do indeksowania i: - Określa język źródłowy wideo. — Wybiera automatyczne wykrywanie pojedynczego języka (LID), aby zidentyfikować język pliku. Dane wyjściowe są zapisywane oddzielnie. — Wybiera automatyczne wykrywanie wielu języków (MLID), aby zidentyfikować wiele języków w pliku. Dane wyjściowe każdego języka są zapisywane oddzielnie.
Interfejs API transkrypcji	Plik audio jest wysyłany do usług azure AI w celu uzyskania transkrypcji i przetłumaczonych danych wyjściowych. Jeśli język został określony, jest on odpowiednio przetwarzany. Jeśli nie określono żadnego języka, zostanie uruchomiony proces LID lub MLID w celu zidentyfikowania języka, po którym plik jest przetwarzany.
Zjednoczenie danych wyjściowych	Transkrypcja i przetłumaczone pliki są ujednolicone w tym samym pliku. Dane wyjściowe zawierają identyfikator osoby mówiącej każdego wyodrębnionego zdania wraz z poziomem ufności.
Wartość ufności	Szacowany poziom ufności każdego zdania jest obliczany jako zakres od 0 do 1. Wskaźnik ufności reprezentuje pewność dokładności wyniku. Na przykład 82% pewność jest reprezentowana jako wynik 0,82.

Przykładowe przypadki użycia

Promowanie ułatwień dostępu dzięki udostępnieniu zawartości osobom niepełnosprawnym słuchowo przy użyciu usługi Azure AI Video Indexer w celu wygenerowania transkrypcji mowy na tekst i tłumaczenia na wiele języków.
Ulepszanie dystrybucji zawartości dla różnych odbiorców w różnych regionach i językach przez dostarczanie zawartości w wielu językach przy użyciu funkcji transkrypcji i tłumaczenia usługi Azure AI Video Indexer.
Ulepszanie i ulepszanie ręcznego generowania zamkniętych podpis i podtytułów dzięki wykorzystaniu możliwości transkrypcji i tłumaczenia usługi Azure AI Video Indexer oraz używania zamkniętych podpis generowanych przez usługę Azure AI Video Indexer w jednym z obsługiwanych formatów.
Używanie identyfikacji języka (LID) lub identyfikacji wielojęzycznej (MLID) do transkrypcji filmów wideo w nieznanych językach, aby umożliwić usłudze Azure AI Video Indexer automatyczne identyfikowanie języków wyświetlanych w filmie wideo i generowanie odpowiednio transkrypcji.

Zagadnienia i ograniczenia dotyczące wybierania przypadku użycia

W przypadku odpowiedzialnego i dokładnego użycia usługa Azure AI Video Indexer jest cennym narzędziem dla wielu branż. Aby przestrzegać prywatności i bezpieczeństwa innych osób oraz przestrzegać lokalnych i globalnych przepisów, zalecamy:

Dokładnie zastanów się nad dokładnością wyników, aby podwyższyć poziom dokładności danych, sprawdzić jakość dźwięku, dźwięk o niskiej jakości może mieć wpływ na wykryte szczegółowe informacje.
Zawsze przestrzegaj prawa osoby fizycznej do prywatności i pozyskiwania tylko filmów wideo do celów legalnych i uzasadnionych.
Nie ujawniaj celowo nieodpowiednich mediów pokazujących małe dzieci lub członków rodziny celebrytów lub innych treści, które mogą być szkodliwe lub stanowią zagrożenie dla wolności osobistej osoby.
Zaangażuj się w przestrzeganie i promowanie praw człowieka w projektowaniu i wdrażaniu analizowanych mediów.
W przypadku korzystania z materiałów innych firm należy pamiętać o wszelkich istniejących prawach autorskich lub uprawnieniach wymaganych przed ich dystrybucją.
Zawsze szukaj porad prawnych podczas korzystania z mediów z nieznanych źródeł.
Zawsze uzyskaj odpowiednie porady prawne i profesjonalne, aby upewnić się, że przekazane filmy wideo są zabezpieczone i mają odpowiednie mechanizmy kontroli w celu zachowania integralności zawartości oraz zapobiegania nieautoryzowanemu dostępowi.
Podaj kanał opinii, który umożliwia użytkownikom i osobom zgłaszanie problemów z usługą.
Należy pamiętać o wszelkich obowiązujących przepisach prawach lub przepisach dotyczących przetwarzania, analizowania i udostępniania multimediów zawierających osoby.
Zachowaj człowieka w pętli. Nie należy używać żadnego rozwiązania jako zamiennika nadzoru ludzkiego i podejmowania decyzji.
W pełni zbadaj i przejrzyj potencjał dowolnego modelu sztucznej inteligencji, którego używasz, aby zrozumieć jego możliwości i ograniczenia.
Usługa Video Indexer nie wykonuje rozpoznawania osoby mówiącej, dlatego osoby mówiące nie mają przypisanego identyfikatora w wielu plikach. Nie można wyszukać osoby mówiącej w wielu plikach lub transkrypcjach.
Identyfikatory osoby mówiącej są przypisywane losowo i mogą służyć tylko do rozróżniania różnych osób mówiących w jednym pliku.
Mowę krzyżową i nakładającą się mowę: gdy wielu mówców rozmawia jednocześnie lub przerywa siebie, model staje się trudny do dokładnego odróżnienia i przypisania poprawnego tekstu do odpowiednich osób mówiących.
Nakładają się osoby mówiące: czasami osoby mówiące mogą mieć podobne wzorce mowy, akcenty lub użyć podobnego słownictwa, co utrudnia modelowi rozróżnienie między nimi.
Hałaśliwy dźwięk: Niska jakość dźwięku, szum tła lub nagrania o niskiej jakości mogą utrudniać zdolność modelu do poprawnego identyfikowania i transkrypcji głośników.
Mowa emocjonalna: emocjonalne różnice w mowie, takie jak krzycząc, płacz lub skrajne emocje, mogą mieć wpływ na zdolność modelu do dokładnego diarize głośników.
Przebranie osoby mówiącej lub personifikacja: Jeśli prelegent celowo próbuje naśladować lub ukryć swój głos, model może błędnie zidentyfikować głośnika.
Niejednoznaczna identyfikacja osoby mówiącej: Niektóre segmenty mowy mogą nie mieć wystarczającej liczby unikatowych cech dla modelu, aby pewnie przypisywać określonemu głośnikowi.

Aby uzyskać więcej informacji, zobacz: wskazówki i ograniczenia dotyczące wykrywania i transkrypcji języka.

Udostępnij za pośrednictwem