Uzyskiwanie szczegółowych informacji dotyczących transkrypcji, tłumaczenia i identyfikacji języka multimediów
Transkrypcja, tłumaczenie i identyfikacja języka multimediów
Transkrypcja, tłumaczenie i identyfikacja języka wykrywa, transkrybuje i tłumaczy mowę w plikach multimedialnych na ponad 50 języków.
Usługa Azure AI Video Indexer (VI) przetwarza mowę w pliku audio w celu wyodrębnienia transkrypcji, która jest następnie tłumaczona na wiele języków. Podczas wybierania tłumaczenia na określony język transkrypcja i szczegółowe informacje, takie jak słowa kluczowe, tematy, etykiety lub OCR, są tłumaczone na określony język. Transkrypcja może być używana jako lub łączyć się ze szczegółowymi informacjami osoby mówiącej, które mapują i przypisują transkrypcje do głośników. W pliku audio można wykryć wiele głośników. Identyfikator jest przypisywany do każdego osoby mówiącej i jest wyświetlany w ramach transkrypcji mowy.
Identyfikacja języka (LID) rozpoznaje obsługiwany dominujący język mówiony w pliku wideo. Aby uzyskać więcej informacji, zobacz Stosowanie pokrywy.
Funkcja identyfikacji wielojęzycznej (MLID) automatycznie rozpoznaje języki mówione w różnych segmentach w pliku audio i wysyła każdy segment do transkrypcji w zidentyfikowanych językach. Na końcu tego procesu wszystkie transkrypcje są łączone w ten sam plik. Aby uzyskać więcej informacji, zobacz Stosowanie identyfikatora MLID. Wynikowe szczegółowe informacje są generowane na liście podzielonej na kategorie w pliku JSON, który zawiera identyfikator, język, transkrybowany tekst, czas trwania i współczynnik ufności.
Podczas indeksowania plików multimedialnych z wieloma głośnikami usługa Azure AI Video Indexer wykonuje diaryzacja osoby mówiącej, która identyfikuje każdego głośnika w wideo i przypisuje każdemu transkrypcji wiersz do osoby mówiącej. Prelegenci otrzymują unikatową tożsamość, taką jak Speaker #1 i Speaker #2. Pozwala to na identyfikację osób mówiących podczas rozmów i może być przydatna w różnych scenariuszach, takich jak rozmowy lekarza-pacjenta, interakcje agenta-klienta i postępowanie sądowe.
Przypadki użycia transkrypcji, tłumaczenia i identyfikacji języka multimediów
- Promowanie ułatwień dostępu dzięki udostępnieniu zawartości osobom niepełnosprawnym słuchowo przy użyciu usługi Azure AI Video Indexer w celu wygenerowania transkrypcji mowy na tekst i tłumaczenia na wiele języków.
- Ulepszanie dystrybucji zawartości dla różnych odbiorców w różnych regionach i językach przez dostarczanie zawartości w wielu językach przy użyciu funkcji transkrypcji i tłumaczenia usługi Azure AI Video Indexer.
- Ulepszanie i ulepszanie ręcznego tworzenia podpisów i napisów przy użyciu funkcji transkrypcji i tłumaczenia usługi Azure AI Video Indexer oraz używania podpisów zamkniętych generowanych przez usługę Azure AI Video Indexer w jednym z obsługiwanych formatów.
- Używanie identyfikacji języka (LID) lub identyfikacji wielojęzycznej (MLID) do transkrypcji filmów wideo w nieznanych językach, aby umożliwić usłudze Azure AI Video Indexer automatyczne identyfikowanie języków wyświetlanych w filmie wideo i generowanie odpowiednio transkrypcji.
Wyświetlanie kodu JSON szczegółowych informacji za pomocą portalu internetowego
Po przekazaniu i zaindeksowaniu klipu wideo szczegółowe informacje są dostępne w formacie JSON do pobrania przy użyciu portalu internetowego.
- Wybierz kartę Biblioteka .
- Wybierz multimedia, z którym chcesz pracować.
- Wybierz pozycję Pobierz i Szczegółowe informacje (JSON). Plik JSON zostanie otwarty na nowej karcie przeglądarki.
- Poszukaj pary kluczy opisanej w przykładowej odpowiedzi.
Używanie interfejsu API
- Użyj żądania Pobierz indeks wideo. Zalecamy przekazanie
&includeSummarizedInsights=false
elementu . - Poszukaj par kluczy opisanych w przykładowej odpowiedzi.
Przykładowa odpowiedź
Wszystkie języki wykryte w filmie wideo znajdują się w obszarze sourceLanauge, a każde wystąpienie w sectin transkrypcji obejmuje język trakrypcyjny.
"insights": {
"version": "1.0.0.0",
"duration": "0:01:50.486",
"sourceLanguage": "en-US",
"sourceLanguages": [
"es-ES",
"en-US"
],
"language": "en-US",
"languages": [
"en-US"
],
"transcript": [
{
"id": 1,
"text": "Hi, I'm Doug from office. We're talking about new features that office insiders will see first and I have a program manager,",
"confidence": 0.8879,
"speakerId": 1,
"language": "en-US",
"instances": [
{
"adjustedStart": "0:00:00",
"adjustedEnd": "0:00:05.75",
"start": "0:00:00",
"end": "0:00:05.75"
}
]
},
{
"id": 2,
"text": "Emily Tran, with office graphics.",
"confidence": 0.8879,
"speakerId": 1,
"language": "en-US",
"instances": [
{
"adjustedStart": "0:00:05.75",
"adjustedEnd": "0:00:07.01",
"start": "0:00:05.75",
"end": "0:00:07.01"
}
]
},
Ważne
Ważne jest, aby zapoznać się z omówieniem noty przejrzystości dla wszystkich funkcji VI. Każda analiza zawiera również własne uwagi dotyczące przejrzystości:
Transkrypcja, tłumaczenie i notatki identyfikacyjne języka
W przypadku odpowiedzialnego i dokładnego użycia usługa Azure AI Video Indexer jest cennym narzędziem dla wielu branż. Należy zawsze przestrzegać prywatności i bezpieczeństwa innych osób oraz przestrzegać lokalnych i globalnych przepisów. Zalecamy:
- Starannie zastanów się nad dokładnością wyników, aby podwyższyć poziom dokładności danych, sprawdzić jakość dźwięku, dźwięk o niskiej jakości może mieć wpływ na wykryte szczegółowe informacje.
- Usługa Video Indexer nie wykonuje rozpoznawania osoby mówiącej, dlatego osoby mówiące nie mają przypisanego identyfikatora w wielu plikach. Nie możesz wyszukać osoby mówiącej w wielu plikach lub transkrypcjach.
- Identyfikatory osoby mówiącej są przypisywane losowo i mogą służyć tylko do rozróżniania różnych osób mówiących w jednym pliku.
- Mowę krzyżową i nakładającą się mowę: gdy wielu mówców rozmawia jednocześnie lub przerywa siebie, model staje się trudny do dokładnego odróżnienia i przypisania poprawnego tekstu do odpowiednich osób mówiących.
- Nakładają się na siebie osoby mówiące: czasami osoby mówiące mogą mieć podobne wzorce mowy, akcenty lub użyć podobnego słownictwa, co utrudnia modelowi rozróżnienie między nimi.
- Hałaśliwy dźwięk: Niska jakość dźwięku, szum tła lub nagrania o niskiej jakości mogą utrudniać zdolność modelu do poprawnego identyfikowania i transkrypcji głośników.
- Mowa emocjonalna: emocjonalne różnice w mowie, takie jak krzycząc, płacz lub skrajne emocje, mogą mieć wpływ na zdolność modelu do dokładnego diarize głośników.
- Przebranie osoby mówiącej lub personifikacja: Jeśli prelegent celowo próbuje naśladować lub ukryć swój głos, model może błędnie zidentyfikować głośnika.
- Niejednoznaczna identyfikacja osoby mówiącej: Niektóre segmenty mowy mogą nie mieć wystarczającej liczby unikatowych cech dla modelu, aby pewnie przypisywać określonemu głośnikowi.
- Dźwięk, który zawiera języki inne niż wybrane, generuje nieoczekiwane wyniki.
- Minimalna długość segmentu do wykrywania każdego języka wynosi 15 sekund.
- Przesunięcie wykrywania języka wynosi średnio 3 sekundy.
- Oczekuje się, że mowa będzie ciągła. Częste zmiany między językami mogą mieć wpływ na wydajność modelu.
- Mowa osób niebędących prelegentami natywnymi może mieć wpływ na wydajność modelu (na przykład gdy prelegenci używają pierwszego języka i przełączają się na inny język).
- Model został zaprojektowany tak, aby rozpoznawał spontaniczną mowę konwersacyjną przy użyciu rozsądnej akustyki audio (nie poleceń głosowych, śpiewu itp.).
- Tworzenie i edytowanie projektu nie jest dostępne dla wideo w wielu językach.
- Niestandardowe modele językowe nie są dostępne w przypadku korzystania z wykrywania wielu języków.
- Dodawanie słów kluczowych nie jest obsługiwane.
- Oznaczenie języka nie jest zawarte w wyeksportowanym pliku napisów.
- Transkrypcja aktualizacji w interfejsie API nie obsługuje wielu plików języków.
- Model jest przeznaczony do rozpoznawania spontanicznej mowy konwersacyjnej (nie poleceń głosowych, śpiewu itd.).
- Jeśli usługa Azure AI Video Indexer nie może zidentyfikować języka z wystarczającą ufnością (większą niż 0,6), rezerwowy język to angielski.
Oto lista obsługiwanych języków.
Składniki transkrypcji, tłumaczenia i identyfikacji języka
Podczas procedury transkrypcji, tłumaczenia i identyfikacji języka przetwarzana jest mowa w pliku multimedialnym w następujący sposób:
Składnik | Definicja |
---|---|
Język źródłowy | Użytkownik przekazuje plik źródłowy do indeksowania i: - Określa język źródłowy wideo. — Wybiera automatyczne wykrywanie pojedynczego języka (LID), aby zidentyfikować język pliku. Dane wyjściowe są zapisywane oddzielnie. — Wybiera automatyczne wykrywanie wielu języków (MLID), aby zidentyfikować wiele języków w pliku. Dane wyjściowe każdego języka są zapisywane oddzielnie. |
Interfejs API transkrypcji | Plik audio jest wysyłany do usług azure AI w celu uzyskania transkrypcji i przetłumaczonych danych wyjściowych. Jeśli określono język, jest on odpowiednio przetwarzany. Jeśli nie określono żadnego języka, zostanie uruchomiony proces LID lub MLID w celu zidentyfikowania języka, po którym plik jest przetwarzany. |
Zjednoczenie danych wyjściowych | Transkrypcja i przetłumaczone pliki są ujednolicone w tym samym pliku. Dane wyjściowe zawierają identyfikator osoby mówiącej każdego wyodrębnionego zdania wraz z poziomem ufności. |
Wartość ufności | Szacowany poziom ufności każdego zdania jest obliczany jako zakres od 0 do 1. Wskaźnik ufności reprezentuje pewność dokładności wyniku. Na przykład 82% pewność jest reprezentowana jako wynik 0,82. |