Transkrypcja multimediów, tłumaczenie i identyfikacja języka
Ważne
Ze względu na ogłoszenie wycofania usługi Azure Media Services usługa Azure AI Video Indexer ogłasza zmiany funkcji usługi Azure AI Video Indexer. Zobacz Zmiany związane z wycofaniem usługi Azure Media Service (AMS), aby dowiedzieć się, co to oznacza dla konta usługi Azure AI Video Indexer. Zobacz Przewodnik Przygotowywanie do wycofania usługi AMS: VI aktualizacji i migracji.
Transkrypcja, tłumaczenie i identyfikacja języka usługi Azure AI Video Indexer automatycznie wykrywa, transkrybuje i tłumaczy mowę w plikach multimedialnych na ponad 50 języków.
- Usługa Azure AI Video Indexer przetwarza mowę w pliku audio w celu wyodrębnienia transkrypcji, która jest następnie tłumaczona na wiele języków. Podczas wybierania tłumaczenia na określony język transkrypcja i szczegółowe informacje, takie jak słowa kluczowe, tematy, etykiety lub OCR, są tłumaczone na określony język. Transkrypcja może być używana jako lub łączyć się ze szczegółowymi informacjami osoby mówiącej, które mapują i przypisują transkrypcje do głośników. W pliku audio można wykryć wiele głośników. Identyfikator jest przypisywany do każdego osoby mówiącej i jest wyświetlany w ramach transkrypcji mowy.
- Identyfikacja języka usługi Azure AI Video Indexer (LID) automatycznie rozpoznaje obsługiwany dominujący język mówiony w pliku wideo. Aby uzyskać więcej informacji, zobacz Stosowanie pokrywy.
- Funkcja identyfikacji wielojęzycznej (MLID) usługi Azure AI Video Indexer automatycznie rozpoznaje języki mówione w różnych segmentach w pliku audio i wysyła każdy segment do transkrypcji w zidentyfikowanych językach. Na końcu tego procesu wszystkie transkrypcje są łączone w ten sam plik. Aby uzyskać więcej informacji, zobacz Stosowanie identyfikatora MLID. Wynikowe szczegółowe informacje są generowane na liście podzielonej na kategorie w pliku JSON, który zawiera identyfikator, język, transkrybowany tekst, czas trwania i współczynnik ufności.
- Podczas indeksowania plików multimedialnych z wieloma głośnikami usługa Azure AI Video Indexer wykonuje diaryzacja osoby mówiącej, która identyfikuje każdego głośnika w wideo i przypisuje każdemu transkrypcji wiersz do osoby mówiącej. Prelegenci otrzymują unikatową tożsamość, taką jak Speaker #1 i Speaker #2. Pozwala to na identyfikację osób mówiących podczas rozmów i może być przydatna w różnych scenariuszach, takich jak rozmowy lekarza-pacjenta, interakcje agenta-klienta i postępowanie sądowe.
Wymagania wstępne
Przegląd noty przezroczystości
Zasady ogólne
W tym artykule omówiono transkrypcję, tłumaczenie i identyfikację języka oraz kluczowe zagadnienia dotyczące odpowiedzialnego korzystania z tej technologii. Istnieje wiele kwestii, które należy wziąć pod uwagę podczas podejmowania decyzji o sposobie używania i implementowania funkcji opartej na sztucznej inteligencji:
- Czy ta funkcja będzie działać dobrze w moim scenariuszu? Przed użyciem transkrypcji, tłumaczenia i identyfikacji języka w scenariuszu przetestuj, jak działa przy użyciu danych rzeczywistych i upewnij się, że może ona zapewnić potrzebną dokładność.
- Czy jesteśmy w stanie identyfikować błędy i reagować na nie? Produkty i funkcje oparte na sztucznej inteligencji nie będą dokładne w 100%, dlatego należy rozważyć sposób identyfikowania i reagowania na wszelkie błędy, które mogą wystąpić.
Wyświetlanie szczegółowych informacji
Aby wyświetlić szczegółowe informacje w witrynie internetowej:
- Przejdź do obszaru Szczegółowe informacje i przewiń do pozycji Transkrypcja i tłumaczenie.
Aby wyświetlić szczegółowe informacje o języku w programie insights.json
, wykonaj następujące czynności:
Wybierz pozycję Pobierz —> Szczegółowe informacje (JSON).
Skopiuj żądany element w obszarze
insights
i wklej go do przeglądarki JSON online."insights": { "version": "1.0.0.0", "duration": "0:01:50.486", "sourceLanguage": "en-US", "sourceLanguages": [ "en-US" ], "language": "en-US", "languages": [ "en-US" ], "transcript": [ { "id": 1, "text": "Hi, I'm Doug from office. We're talking about new features that office insiders will see first and I have a program manager,", "confidence": 0.8879, "speakerId": 1, "language": "en-US", "instances": [ { "adjustedStart": "0:00:00", "adjustedEnd": "0:00:05.75", "start": "0:00:00", "end": "0:00:05.75" } ] }, { "id": 2, "text": "Emily Tran, with office graphics.", "confidence": 0.8879, "speakerId": 1, "language": "en-US", "instances": [ { "adjustedStart": "0:00:05.75", "adjustedEnd": "0:00:07.01", "start": "0:00:05.75", "end": "0:00:07.01" } ] },
Aby pobrać plik JSON za pośrednictwem interfejsu API, użyj portalu deweloperów usługi Azure AI Video Indexer.
Składniki transkrypcji, tłumaczenia i identyfikacji języka
Podczas procedury transkrypcji, tłumaczenia i identyfikacji języka przetwarzana jest mowa w pliku multimedialnym w następujący sposób:
Składnik | Definicja |
---|---|
Język źródłowy | Użytkownik przekazuje plik źródłowy do indeksowania i: - Określa język źródłowy wideo. — Wybiera automatyczne wykrywanie pojedynczego języka (LID), aby zidentyfikować język pliku. Dane wyjściowe są zapisywane oddzielnie. — Wybiera automatyczne wykrywanie wielu języków (MLID), aby zidentyfikować wiele języków w pliku. Dane wyjściowe każdego języka są zapisywane oddzielnie. |
Interfejs API transkrypcji | Plik audio jest wysyłany do usług azure AI w celu uzyskania transkrypcji i przetłumaczonych danych wyjściowych. Jeśli język został określony, jest on odpowiednio przetwarzany. Jeśli nie określono żadnego języka, zostanie uruchomiony proces LID lub MLID w celu zidentyfikowania języka, po którym plik jest przetwarzany. |
Zjednoczenie danych wyjściowych | Transkrypcja i przetłumaczone pliki są ujednolicone w tym samym pliku. Dane wyjściowe zawierają identyfikator osoby mówiącej każdego wyodrębnionego zdania wraz z poziomem ufności. |
Wartość ufności | Szacowany poziom ufności każdego zdania jest obliczany jako zakres od 0 do 1. Wskaźnik ufności reprezentuje pewność dokładności wyniku. Na przykład 82% pewność jest reprezentowana jako wynik 0,82. |
Przykładowe przypadki użycia
- Promowanie ułatwień dostępu dzięki udostępnieniu zawartości osobom niepełnosprawnym słuchowo przy użyciu usługi Azure AI Video Indexer w celu wygenerowania transkrypcji mowy na tekst i tłumaczenia na wiele języków.
- Ulepszanie dystrybucji zawartości dla różnych odbiorców w różnych regionach i językach przez dostarczanie zawartości w wielu językach przy użyciu funkcji transkrypcji i tłumaczenia usługi Azure AI Video Indexer.
- Ulepszanie i ulepszanie ręcznego generowania zamkniętych podpis i podtytułów dzięki wykorzystaniu możliwości transkrypcji i tłumaczenia usługi Azure AI Video Indexer oraz używania zamkniętych podpis generowanych przez usługę Azure AI Video Indexer w jednym z obsługiwanych formatów.
- Używanie identyfikacji języka (LID) lub identyfikacji wielojęzycznej (MLID) do transkrypcji filmów wideo w nieznanych językach, aby umożliwić usłudze Azure AI Video Indexer automatyczne identyfikowanie języków wyświetlanych w filmie wideo i generowanie odpowiednio transkrypcji.
Zagadnienia i ograniczenia dotyczące wybierania przypadku użycia
W przypadku odpowiedzialnego i dokładnego użycia usługa Azure AI Video Indexer jest cennym narzędziem dla wielu branż. Aby przestrzegać prywatności i bezpieczeństwa innych osób oraz przestrzegać lokalnych i globalnych przepisów, zalecamy:
- Dokładnie zastanów się nad dokładnością wyników, aby podwyższyć poziom dokładności danych, sprawdzić jakość dźwięku, dźwięk o niskiej jakości może mieć wpływ na wykryte szczegółowe informacje.
- Zawsze przestrzegaj prawa osoby fizycznej do prywatności i pozyskiwania tylko filmów wideo do celów legalnych i uzasadnionych.
- Nie ujawniaj celowo nieodpowiednich mediów pokazujących małe dzieci lub członków rodziny celebrytów lub innych treści, które mogą być szkodliwe lub stanowią zagrożenie dla wolności osobistej osoby.
- Zaangażuj się w przestrzeganie i promowanie praw człowieka w projektowaniu i wdrażaniu analizowanych mediów.
- W przypadku korzystania z materiałów innych firm należy pamiętać o wszelkich istniejących prawach autorskich lub uprawnieniach wymaganych przed ich dystrybucją.
- Zawsze szukaj porad prawnych podczas korzystania z mediów z nieznanych źródeł.
- Zawsze uzyskaj odpowiednie porady prawne i profesjonalne, aby upewnić się, że przekazane filmy wideo są zabezpieczone i mają odpowiednie mechanizmy kontroli w celu zachowania integralności zawartości oraz zapobiegania nieautoryzowanemu dostępowi.
- Podaj kanał opinii, który umożliwia użytkownikom i osobom zgłaszanie problemów z usługą.
- Należy pamiętać o wszelkich obowiązujących przepisach prawach lub przepisach dotyczących przetwarzania, analizowania i udostępniania multimediów zawierających osoby.
- Zachowaj człowieka w pętli. Nie należy używać żadnego rozwiązania jako zamiennika nadzoru ludzkiego i podejmowania decyzji.
- W pełni zbadaj i przejrzyj potencjał dowolnego modelu sztucznej inteligencji, którego używasz, aby zrozumieć jego możliwości i ograniczenia.
- Usługa Video Indexer nie wykonuje rozpoznawania osoby mówiącej, dlatego osoby mówiące nie mają przypisanego identyfikatora w wielu plikach. Nie można wyszukać osoby mówiącej w wielu plikach lub transkrypcjach.
- Identyfikatory osoby mówiącej są przypisywane losowo i mogą służyć tylko do rozróżniania różnych osób mówiących w jednym pliku.
- Mowę krzyżową i nakładającą się mowę: gdy wielu mówców rozmawia jednocześnie lub przerywa siebie, model staje się trudny do dokładnego odróżnienia i przypisania poprawnego tekstu do odpowiednich osób mówiących.
- Nakładają się osoby mówiące: czasami osoby mówiące mogą mieć podobne wzorce mowy, akcenty lub użyć podobnego słownictwa, co utrudnia modelowi rozróżnienie między nimi.
- Hałaśliwy dźwięk: Niska jakość dźwięku, szum tła lub nagrania o niskiej jakości mogą utrudniać zdolność modelu do poprawnego identyfikowania i transkrypcji głośników.
- Mowa emocjonalna: emocjonalne różnice w mowie, takie jak krzycząc, płacz lub skrajne emocje, mogą mieć wpływ na zdolność modelu do dokładnego diarize głośników.
- Przebranie osoby mówiącej lub personifikacja: Jeśli prelegent celowo próbuje naśladować lub ukryć swój głos, model może błędnie zidentyfikować głośnika.
- Niejednoznaczna identyfikacja osoby mówiącej: Niektóre segmenty mowy mogą nie mieć wystarczającej liczby unikatowych cech dla modelu, aby pewnie przypisywać określonemu głośnikowi.
Aby uzyskać więcej informacji, zobacz: wskazówki i ograniczenia dotyczące wykrywania i transkrypcji języka.
Opinia
https://aka.ms/ContentUserFeedback.
Dostępne już wkrótce: W 2024 r. będziemy stopniowo wycofywać zgłoszenia z serwisu GitHub jako mechanizm przesyłania opinii na temat zawartości i zastępować go nowym systemem opinii. Aby uzyskać więcej informacji, sprawdź:Prześlij i wyświetl opinię dla