Udostępnij za pośrednictwem


Transkrypcja multimediów, tłumaczenie i identyfikacja języka

Ważne

Ze względu na ogłoszenie wycofania usługi Azure Media Services usługa Azure AI Video Indexer ogłasza zmiany funkcji usługi Azure AI Video Indexer. Zobacz Zmiany związane z wycofaniem usługi Azure Media Service (AMS), aby dowiedzieć się, co to oznacza dla konta usługi Azure AI Video Indexer. Zobacz Przewodnik Przygotowywanie do wycofania usługi AMS: VI aktualizacji i migracji.

Transkrypcja, tłumaczenie i identyfikacja języka usługi Azure AI Video Indexer automatycznie wykrywa, transkrybuje i tłumaczy mowę w plikach multimedialnych na ponad 50 języków.

  • Usługa Azure AI Video Indexer przetwarza mowę w pliku audio w celu wyodrębnienia transkrypcji, która jest następnie tłumaczona na wiele języków. Podczas wybierania tłumaczenia na określony język transkrypcja i szczegółowe informacje, takie jak słowa kluczowe, tematy, etykiety lub OCR, są tłumaczone na określony język. Transkrypcja może być używana jako lub łączyć się ze szczegółowymi informacjami osoby mówiącej, które mapują i przypisują transkrypcje do głośników. W pliku audio można wykryć wiele głośników. Identyfikator jest przypisywany do każdego osoby mówiącej i jest wyświetlany w ramach transkrypcji mowy.
  • Identyfikacja języka usługi Azure AI Video Indexer (LID) automatycznie rozpoznaje obsługiwany dominujący język mówiony w pliku wideo. Aby uzyskać więcej informacji, zobacz Stosowanie pokrywy.
  • Funkcja identyfikacji wielojęzycznej (MLID) usługi Azure AI Video Indexer automatycznie rozpoznaje języki mówione w różnych segmentach w pliku audio i wysyła każdy segment do transkrypcji w zidentyfikowanych językach. Na końcu tego procesu wszystkie transkrypcje są łączone w ten sam plik. Aby uzyskać więcej informacji, zobacz Stosowanie identyfikatora MLID. Wynikowe szczegółowe informacje są generowane na liście podzielonej na kategorie w pliku JSON, który zawiera identyfikator, język, transkrybowany tekst, czas trwania i współczynnik ufności.
  • Podczas indeksowania plików multimedialnych z wieloma głośnikami usługa Azure AI Video Indexer wykonuje diaryzacja osoby mówiącej, która identyfikuje każdego głośnika w wideo i przypisuje każdemu transkrypcji wiersz do osoby mówiącej. Prelegenci otrzymują unikatową tożsamość, taką jak Speaker #1 i Speaker #2. Pozwala to na identyfikację osób mówiących podczas rozmów i może być przydatna w różnych scenariuszach, takich jak rozmowy lekarza-pacjenta, interakcje agenta-klienta i postępowanie sądowe.

Wymagania wstępne

Przegląd noty przezroczystości

Zasady ogólne

W tym artykule omówiono transkrypcję, tłumaczenie i identyfikację języka oraz kluczowe zagadnienia dotyczące odpowiedzialnego korzystania z tej technologii. Istnieje wiele kwestii, które należy wziąć pod uwagę podczas podejmowania decyzji o sposobie używania i implementowania funkcji opartej na sztucznej inteligencji:

  • Czy ta funkcja będzie działać dobrze w moim scenariuszu? Przed użyciem transkrypcji, tłumaczenia i identyfikacji języka w scenariuszu przetestuj, jak działa przy użyciu danych rzeczywistych i upewnij się, że może ona zapewnić potrzebną dokładność.
  • Czy jesteśmy w stanie identyfikować błędy i reagować na nie? Produkty i funkcje oparte na sztucznej inteligencji nie będą dokładne w 100%, dlatego należy rozważyć sposób identyfikowania i reagowania na wszelkie błędy, które mogą wystąpić.

Wyświetlanie szczegółowych informacji

Aby wyświetlić szczegółowe informacje w witrynie internetowej:

  1. Przejdź do obszaru Szczegółowe informacje i przewiń do pozycji Transkrypcja i tłumaczenie.

Aby wyświetlić szczegółowe informacje o języku w programie insights.json, wykonaj następujące czynności:

  1. Wybierz pozycję Pobierz —> Szczegółowe informacje (JSON).

  2. Skopiuj żądany element w obszarze insightsi wklej go do przeglądarki JSON online.

    "insights": {
      "version": "1.0.0.0",
      "duration": "0:01:50.486",
      "sourceLanguage": "en-US",
      "sourceLanguages": [
        "en-US"
      ],
      "language": "en-US",
      "languages": [
        "en-US"
      ],
      "transcript": [
        {
          "id": 1,
          "text": "Hi, I'm Doug from office. We're talking about new features that office insiders will see first and I have a program manager,",
          "confidence": 0.8879,
          "speakerId": 1,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:00",
              "adjustedEnd": "0:00:05.75",
              "start": "0:00:00",
              "end": "0:00:05.75"
            }
          ]
        },
        {
          "id": 2,
          "text": "Emily Tran, with office graphics.",
          "confidence": 0.8879,
          "speakerId": 1,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:05.75",
              "adjustedEnd": "0:00:07.01",
              "start": "0:00:05.75",
              "end": "0:00:07.01"
            }
          ]
        },
    

Aby pobrać plik JSON za pośrednictwem interfejsu API, użyj portalu deweloperów usługi Azure AI Video Indexer.

Składniki transkrypcji, tłumaczenia i identyfikacji języka

Podczas procedury transkrypcji, tłumaczenia i identyfikacji języka przetwarzana jest mowa w pliku multimedialnym w następujący sposób:

Składnik Definicja
Język źródłowy Użytkownik przekazuje plik źródłowy do indeksowania i:
- Określa język źródłowy wideo.
— Wybiera automatyczne wykrywanie pojedynczego języka (LID), aby zidentyfikować język pliku. Dane wyjściowe są zapisywane oddzielnie.
— Wybiera automatyczne wykrywanie wielu języków (MLID), aby zidentyfikować wiele języków w pliku. Dane wyjściowe każdego języka są zapisywane oddzielnie.
Interfejs API transkrypcji Plik audio jest wysyłany do usług azure AI w celu uzyskania transkrypcji i przetłumaczonych danych wyjściowych. Jeśli język został określony, jest on odpowiednio przetwarzany. Jeśli nie określono żadnego języka, zostanie uruchomiony proces LID lub MLID w celu zidentyfikowania języka, po którym plik jest przetwarzany.
Zjednoczenie danych wyjściowych Transkrypcja i przetłumaczone pliki są ujednolicone w tym samym pliku. Dane wyjściowe zawierają identyfikator osoby mówiącej każdego wyodrębnionego zdania wraz z poziomem ufności.
Wartość ufności Szacowany poziom ufności każdego zdania jest obliczany jako zakres od 0 do 1. Wskaźnik ufności reprezentuje pewność dokładności wyniku. Na przykład 82% pewność jest reprezentowana jako wynik 0,82.

Przykładowe przypadki użycia

  • Promowanie ułatwień dostępu dzięki udostępnieniu zawartości osobom niepełnosprawnym słuchowo przy użyciu usługi Azure AI Video Indexer w celu wygenerowania transkrypcji mowy na tekst i tłumaczenia na wiele języków.
  • Ulepszanie dystrybucji zawartości dla różnych odbiorców w różnych regionach i językach przez dostarczanie zawartości w wielu językach przy użyciu funkcji transkrypcji i tłumaczenia usługi Azure AI Video Indexer.
  • Ulepszanie i ulepszanie ręcznego generowania zamkniętych podpis i podtytułów dzięki wykorzystaniu możliwości transkrypcji i tłumaczenia usługi Azure AI Video Indexer oraz używania zamkniętych podpis generowanych przez usługę Azure AI Video Indexer w jednym z obsługiwanych formatów.
  • Używanie identyfikacji języka (LID) lub identyfikacji wielojęzycznej (MLID) do transkrypcji filmów wideo w nieznanych językach, aby umożliwić usłudze Azure AI Video Indexer automatyczne identyfikowanie języków wyświetlanych w filmie wideo i generowanie odpowiednio transkrypcji.

Zagadnienia i ograniczenia dotyczące wybierania przypadku użycia

W przypadku odpowiedzialnego i dokładnego użycia usługa Azure AI Video Indexer jest cennym narzędziem dla wielu branż. Aby przestrzegać prywatności i bezpieczeństwa innych osób oraz przestrzegać lokalnych i globalnych przepisów, zalecamy:

  • Dokładnie zastanów się nad dokładnością wyników, aby podwyższyć poziom dokładności danych, sprawdzić jakość dźwięku, dźwięk o niskiej jakości może mieć wpływ na wykryte szczegółowe informacje.
  • Zawsze przestrzegaj prawa osoby fizycznej do prywatności i pozyskiwania tylko filmów wideo do celów legalnych i uzasadnionych.
  • Nie ujawniaj celowo nieodpowiednich mediów pokazujących małe dzieci lub członków rodziny celebrytów lub innych treści, które mogą być szkodliwe lub stanowią zagrożenie dla wolności osobistej osoby.
  • Zaangażuj się w przestrzeganie i promowanie praw człowieka w projektowaniu i wdrażaniu analizowanych mediów.
  • W przypadku korzystania z materiałów innych firm należy pamiętać o wszelkich istniejących prawach autorskich lub uprawnieniach wymaganych przed ich dystrybucją.
  • Zawsze szukaj porad prawnych podczas korzystania z mediów z nieznanych źródeł.
  • Zawsze uzyskaj odpowiednie porady prawne i profesjonalne, aby upewnić się, że przekazane filmy wideo są zabezpieczone i mają odpowiednie mechanizmy kontroli w celu zachowania integralności zawartości oraz zapobiegania nieautoryzowanemu dostępowi.
  • Podaj kanał opinii, który umożliwia użytkownikom i osobom zgłaszanie problemów z usługą.
  • Należy pamiętać o wszelkich obowiązujących przepisach prawach lub przepisach dotyczących przetwarzania, analizowania i udostępniania multimediów zawierających osoby.
  • Zachowaj człowieka w pętli. Nie należy używać żadnego rozwiązania jako zamiennika nadzoru ludzkiego i podejmowania decyzji.
  • W pełni zbadaj i przejrzyj potencjał dowolnego modelu sztucznej inteligencji, którego używasz, aby zrozumieć jego możliwości i ograniczenia.
  • Usługa Video Indexer nie wykonuje rozpoznawania osoby mówiącej, dlatego osoby mówiące nie mają przypisanego identyfikatora w wielu plikach. Nie można wyszukać osoby mówiącej w wielu plikach lub transkrypcjach.
  • Identyfikatory osoby mówiącej są przypisywane losowo i mogą służyć tylko do rozróżniania różnych osób mówiących w jednym pliku.
  • Mowę krzyżową i nakładającą się mowę: gdy wielu mówców rozmawia jednocześnie lub przerywa siebie, model staje się trudny do dokładnego odróżnienia i przypisania poprawnego tekstu do odpowiednich osób mówiących.
  • Nakładają się osoby mówiące: czasami osoby mówiące mogą mieć podobne wzorce mowy, akcenty lub użyć podobnego słownictwa, co utrudnia modelowi rozróżnienie między nimi.
  • Hałaśliwy dźwięk: Niska jakość dźwięku, szum tła lub nagrania o niskiej jakości mogą utrudniać zdolność modelu do poprawnego identyfikowania i transkrypcji głośników.
  • Mowa emocjonalna: emocjonalne różnice w mowie, takie jak krzycząc, płacz lub skrajne emocje, mogą mieć wpływ na zdolność modelu do dokładnego diarize głośników.
  • Przebranie osoby mówiącej lub personifikacja: Jeśli prelegent celowo próbuje naśladować lub ukryć swój głos, model może błędnie zidentyfikować głośnika.
  • Niejednoznaczna identyfikacja osoby mówiącej: Niektóre segmenty mowy mogą nie mieć wystarczającej liczby unikatowych cech dla modelu, aby pewnie przypisywać określonemu głośnikowi.

Aby uzyskać więcej informacji, zobacz: wskazówki i ograniczenia dotyczące wykrywania i transkrypcji języka.