Sdílet prostřednictvím


Co je přepis schůzky? (Preview)

Přepis schůzky je řešení převodu řeči na text , které poskytuje přepis všech schůzek v reálném čase nebo asynchronní. Tato funkce, která je aktuálně ve verzi Preview, kombinuje rozpoznávání řeči, identifikaci mluvčího a přisuzování vět a určuje, kdo na schůzce co řekl a kdy.

Důležité

Předchozí scénář "přepisu konverzace" se přejmenoval na "přepis schůzky". Použijte například MeetingTranscriber místo a ConversationTranscribermísto použijte CreateMeetingAsyncCreateConversationAsync. Je vydána nová funkce přepisu konverzace bez použití uživatelských profilů a hlasových podpisů. Další informace najdete v poznámkách k verzi.

Klíčové funkce

Pro vás můžou být užitečné následující funkce přepisu schůzek:

  • Časová razítka: Každá promluva mluvčího má časové razítko, abyste mohli snadno zjistit, kdy byla fráze vyslovena.
  • Přepisy pro čtení: U přepisů se automaticky přidává formátování a interpunkční znaména, aby se text přesně shodoval s tím, co bylo řečeno.
  • Profily uživatelů: Profily uživatelů se generují shromažďováním uživatelských hlasových ukázek a jejich odesláním do generování podpisu.
  • Identifikace mluvčího: Mluvčí jsou identifikováni pomocí profilů uživatelů a každému z nich je přiřazen identifikátor mluvčího .
  • Diarizace s více mluvčími: Zjistěte, kdo co řekl, syntetizací zvukového streamu s identifikátorem každého mluvčího.
  • Přepis v reálném čase: Uveďte živé přepisy toho, kdo co říká a kdy během schůzky.
  • Asynchronní přepis: Poskytovat přepisy s vyšší přesností pomocí vícekanálového zvukového streamu.

Poznámka

I když přepis schůzky neomezuje počet mluvčích v místnosti, je optimalizovaný pro 2 až 10 mluvčích na relaci.

Začínáme

Začněte tím, že si projdete rychlý start k přepisu schůzek v reálném čase.

Případy použití

Aby schůzky byly inkluzivní pro všechny, například neslyšící a sluchově postižené účastníky, je důležité mít přepis v reálném čase. Přepis schůzky v režimu v reálném čase přebírá zvuk schůzky a určuje, kdo co říká, a umožňuje všem účastníkům schůzky bez zpoždění sledovat přepis a účastnit se schůzky.

Účastníci schůzky se můžou soustředit na schůzku a nechat si dělat poznámky do přepisu schůzky. Účastníci se můžou aktivně zapojit do schůzky a rychle sledovat další kroky pomocí přepisu místo pořizování poznámek a potenciálně chybět během schůzky.

Jak to funguje

Následující diagram znázorňuje základní přehled toho, jak tato funkce funguje.

Diagram znázorňující vztahy mezi různými částmi řešení přepisu schůzky

Očekávané vstupy

Přepis schůzky používá dva typy vstupů:

  • Vícekanálový zvukový stream: Podrobnosti o specifikaci a návrhu najdete v tématu Doporučení pro pole mikrofonu.
  • Ukázky uživatelského hlasu: Přepis schůzky vyžaduje před konverzací profily uživatelů pro identifikaci mluvčího. Shromážděte zvukové záznamy od každého uživatele a pak je odešlete službě generování podpisů , která ověří zvuk a vygeneruje uživatelské profily.

Poznámka

Konfigurace zvuku s jedním kanálem pro přepis schůzky je aktuálně dostupná jenom v privátní verzi Preview.

K identifikaci mluvčího se vyžadují ukázky hlasu uživatele pro hlasové podpisy. Mluvčí, kteří nemají hlasové ukázky, se rozpozná jako neidentifikovaní. Pokud je vlastnost povolená, dají se neidentifikovaní DifferentiateGuestSpeakers mluvčí pořád odlišit (viz následující příklad). Ve výstupu přepisu se pak mluvčí zobrazují například jako Guest_0 a Guest_1, místo toho, abyste je rozpoznali jako předem zaregistrovaná jména mluvčího.

config.SetProperty("DifferentiateGuestSpeakers", "true");

V reálném čase vs. asynchronní

Následující části obsahují další podrobnosti o režimech přepisu, které můžete zvolit.

Reálný čas

Zvuková data se zpracovávají živě, aby se vrátil identifikátor a přepis mluvčího. Tento režim vyberte, pokud vaším požadavkem řešení pro přepis je poskytnout účastníkům schůzky zobrazení živého přepisu jejich probíhající schůzky. Například vytvoření aplikace pro zpřístupnění schůzek účastníkům se ztrátou sluchu nebo neslyšící je ideálním případem pro přepis v reálném čase.

Asynchronní

Zvuková data se zpracovávají dávkově, aby se vrátil identifikátor mluvčího a přepis. Tento režim vyberte, pokud vaše řešení přepisu požaduje vyšší přesnost bez zobrazení živého přepisu. Pokud například chcete vytvořit aplikaci, která účastníkům schůzky umožní snadno dohnat zmeškané schůzky, použijte režim asynchronního přepisu a získejte vysoce přesné výsledky přepisu.

V reálném čase a asynchronní

Zvuková data se zpracovávají živě, aby se vrátil identifikátor mluvčího a přepis, a navíc se vyžaduje vysoce přesný přepis prostřednictvím asynchronního zpracování. Tento režim vyberte, pokud vaše aplikace potřebuje přepis v reálném čase a také vyžaduje vyšší přesnost přepisu pro použití po schůzce.

Podpora jazyků

Přepis schůzek v současné době podporuje všechny jazyky převodu řeči na text v následujících oblastech: centralus, eastasia, eastus, . westeurope

Další kroky