Co to jest transkrypcja spotkań? (Wersja zapoznawcza)

Transkrypcja spotkań to rozwiązanie zamiany mowy na tekst , które zapewnia transkrypcję w czasie rzeczywistym lub asynchroniczną dowolnego spotkania. Ta funkcja, która jest obecnie dostępna w wersji zapoznawczej, łączy rozpoznawanie mowy, identyfikację osoby mówiącej i przypisywanie zdań, aby określić, kto powiedział, co i kiedy, na spotkaniu.

Ważne

Nazwa byłego scenariusza "transkrypcji konwersacji" została zmieniona na "transkrypcja spotkań". Na przykład należy użyć MeetingTranscriber zamiast ConversationTranscriber, i zamiast CreateConversationAsync.CreateMeetingAsync Nowa funkcja "transkrypcji konwersacji" jest udostępniana bez korzystania z profilów użytkowników i podpisów głosowych. Aby uzyskać więcej informacji, zobacz informacje o wersji.

Najważniejsze funkcje

Przydatne mogą być następujące funkcje transkrypcji spotkań:

  • Sygnatury czasowe: Każda wypowiedź osoby mówiącej ma znacznik czasu, dzięki czemu można łatwo znaleźć, kiedy zostało powiedziane wyrażenie.
  • Czytelne transkrypcje: Transkrypcje mają automatycznie dodane formatowanie i interpunkcje, aby zapewnić, że tekst jest ściśle zgodny z tym, co zostało powiedziane.
  • Profile użytkowników: Profile użytkowników są generowane przez zbieranie przykładów głosowych użytkowników i wysyłanie ich do generowania podpisów.
  • Identyfikacja osoby mówiącej: Prelegenci są identyfikowani przy użyciu profilów użytkowników, a do każdego z nich jest przypisywany identyfikator osoby mówiącej .
  • Diaryzacja wielu osób mówiących: Określ, kto powiedział, co, synthesizing strumienia audio przy użyciu każdego identyfikatora osoby mówiącej.
  • Transkrypcja w czasie rzeczywistym: Podaj transkrypcje na żywo, kto mówi, co i kiedy, podczas spotkania.
  • Transkrypcja asynchroniczna: Zapewnij transkrypcje z większą dokładnością przy użyciu strumienia audio wielokanałowego.

Uwaga

Chociaż transkrypcja spotkań nie ogranicza liczby osób mówiących w pomieszczeniu, jest zoptymalizowana pod kątem 2–10 osób na sesję.

Rozpoczęcie pracy

Zobacz przewodnik Szybki start dotyczący transkrypcji spotkań w czasie rzeczywistym, aby rozpocząć pracę.

Przypadki zastosowań

Aby włączyć spotkania dla wszystkich, takich jak uczestnicy, którzy są głuchi i niedosłysi, ważne jest, aby transkrypcja była w czasie rzeczywistym. Transkrypcja spotkania w trybie czasu rzeczywistego przyjmuje dźwięk spotkania i określa, kto mówi, co, dzięki czemu wszyscy uczestnicy spotkania mogą śledzić transkrypcję i uczestniczyć w spotkaniu, bez opóźnień.

Uczestnicy spotkania mogą skupić się na spotkaniu i pozostawić zapis na spotkaniu. Uczestnicy mogą aktywnie zaangażować się w spotkanie i szybko kontynuować kolejne kroki, korzystając z transkrypcji zamiast tworzenia notatek i potencjalnie brakuje ich podczas spotkania.

Jak to działa

Na poniższym diagramie przedstawiono ogólne omówienie działania funkcji.

Diagram przedstawiający relacje między różnymi elementami rozwiązania do transkrypcji spotkania.

Oczekiwane dane wejściowe

Transkrypcja spotkania używa dwóch typów danych wejściowych:

  • Strumień audio z wieloma kanałami: Aby uzyskać szczegółowe informacje o specyfikacji i projekcie, zobacz Zalecenia dotyczące tablicy mikrofonów.
  • Przykłady głosu użytkownika: Obsługa transkrypcji wymaga profilów użytkowników przed rozmową w celu identyfikacji osoby mówiącej. Zbierz nagrania audio od każdego użytkownika, a następnie wyślij nagrania do usługi generowania podpisów , aby zweryfikować dźwięk i wygenerować profile użytkowników.

Uwaga

Konfiguracja dźwięku pojedynczego kanału na potrzeby transkrypcji spotkań jest obecnie dostępna tylko w prywatnej wersji zapoznawczej.

Próbki głosu użytkownika dla podpisów głosowych są wymagane do identyfikacji osoby mówiącej. Osoby mówiące, które nie mają próbek głosowych, są rozpoznawane jako niezidentyfikowane. Niezidentyfikowane osoby mówiące mogą być nadal rozróżniane, gdy DifferentiateGuestSpeakers właściwość jest włączona (zobacz poniższy przykład). Następnie dane wyjściowe transkrypcji pokazują osoby mówiące, na przykład Guest_0 i Guest_1, zamiast rozpoznawać je jako wstępnie zarejestrowane nazwy osób mówiących.

config.SetProperty("DifferentiateGuestSpeakers", "true");

W czasie rzeczywistym a asynchroniczna

Poniższe sekcje zawierają więcej szczegółów na temat trybów transkrypcji, które można wybrać.

Przesyłanie w czasie rzeczywistym

Dane audio są przetwarzane na żywo w celu zwrócenia identyfikatora osoby mówiącej i transkrypcji. Wybierz ten tryb, jeśli wymaganie rozwiązania do transkrypcji polega na udostępniniu uczestnikom spotkania podglądu na żywo trwającego spotkania. Na przykład utworzenie aplikacji w celu zwiększenia dostępności spotkań dla uczestników z utratą słuchu lub głuchotą jest idealnym przypadkiem użycia w przypadku transkrypcji w czasie rzeczywistym.

Asynchroniczny

Dane audio są przetwarzane wsadowe w celu zwrócenia identyfikatora osoby mówiącej i transkrypcji. Wybierz ten tryb, jeśli wymaganie rozwiązania do transkrypcji ma zapewnić większą dokładność bez widoku transkrypcji na żywo. Jeśli na przykład chcesz utworzyć aplikację, aby umożliwić uczestnikom spotkania łatwe nadrobienie zaległości podczas nieodebranych spotkań, użyj trybu transkrypcji asynchronicznej, aby uzyskać wyniki transkrypcji o wysokiej dokładności.

Czas rzeczywisty i asynchroniczny

Dane audio są przetwarzane na żywo, aby zwrócić identyfikator osoby mówiącej i transkrypcję, a ponadto żąda transkrypcji o wysokiej dokładności za pośrednictwem przetwarzania asynchronicznego. Wybierz ten tryb, jeśli aplikacja potrzebuje transkrypcji w czasie rzeczywistym, a także wymaga wyższej dokładności transkrypcji do użycia po wystąpieniu spotkania.

Obsługa języków

Obecnie transkrypcja spotkań obsługuje wszystkie języki zamiany mowy na języki tekstowe w następujących regionach: centralus, eastasia, eastus, westeurope.

Następne kroki