Co je přepis konverzace?
Přepis konverzace je řešení převodu řeči na text , které poskytuje přepis jakékoli konverzace v reálném čase nebo asynchronní přepis. Tato funkce, která je aktuálně ve verzi Preview, kombinuje rozpoznávání řeči, identifikaci mluvčího a přiřazení vět a určuje, kdo co a kdy v konverzaci řekl.
Poznámka
Přístup ke konverzaci na více zařízeních je funkce ve verzi Preview.
Klíčové funkce
Pro vás můžou být užitečné následující funkce přepisu konverzace:
- Časová razítka: Každá promluva mluvčího má časové razítko, takže můžete snadno zjistit, kdy byla fráze vyslovena.
- Čitelné přepisy: Přepisy mají automaticky přidané formátování a interpunkci, aby se zajistilo, že text přesně odpovídá tomu, co bylo řečeno.
- Profily uživatelů: Profily uživatelů se generují shromažďováním ukázek uživatelského hlasu a jejich odesláním do generování podpisů.
- Identifikace mluvčího: Mluvčí se identifikují pomocí profilů uživatelů a každému z nich je přiřazen identifikátor mluvčího .
- Diarizace s více mluvčími: Zjistěte, kdo co řekl, syntezací zvukového streamu s každým identifikátorem reproduktoru.
- Přepis v reálném čase: Poskytněte živé přepisy toho, kdo co říká a kdy, zatímco probíhá konverzace.
- Asynchronní přepis: Pomocí vícekanálového zvukového streamu můžete poskytovat přepisy s vyšší přesností.
Poznámka
Přestože přepis konverzace neomezuje počet mluvčích v místnosti, je optimalizovaný pro 2 až 10 mluvčích na relaci.
Začínáme
Začněte tím, že si projdete rychlý start k přepisu konverzace v reálném čase.
Případy použití
Aby schůzky byly inkluzivní pro všechny, například neslyšící a sluchově postižené účastníky, je důležité mít přepis v reálném čase. Přepis konverzace v režimu v reálném čase přebírá zvuk schůzky a určuje, kdo co říká, a umožňuje všem účastníkům schůzky bez zpoždění sledovat přepis a účastnit se schůzky.
Účastníci schůzky se můžou soustředit na schůzku a nechat zápis poznámek do přepisu konverzace. Účastníci se můžou aktivně zapojit do schůzky a rychle pokračovat v dalších krocích, a to pomocí přepisu místo pořizování poznámek a potenciálně chybět něco během schůzky.
Jak to funguje
Následující diagram znázorňuje základní přehled toho, jak funkce funguje.
Očekávané vstupy
Přepis konverzace používá dva typy vstupů:
- Vícekanálový zvukový stream: Podrobnosti o specifikaci a návrhu najdete v tématu Doporučení k polím mikrofonu.
- Ukázky hlasu uživatele: Přepis konverzace vyžaduje před konverzací profily uživatelů pro identifikaci mluvčího. Shromážděte zvukové záznamy od každého uživatele a pak je odešlete do služby generování podpisů , aby se ověřil zvuk a vygenerovaly uživatelské profily.
Poznámka
Konfigurace zvuku s jedním kanálem pro přepis konverzace je v současné době dostupná jenom v privátní verzi Preview.
K identifikaci mluvčího se vyžadují ukázky hlasu uživatele pro hlasové podpisy. Mluvčí, kteří nemají vzorky hlasu, jsou rozpoznáni jako neidentifikovaní. I když DifferentiateGuestSpeakers
je vlastnost povolená, můžou být neidentifikovaní mluvčí stále odlišeni (viz následující příklad). Výstup přepisu pak zobrazí reproduktory například jako Guest_0 a Guest_1, místo toho, abyste je rozpoznali jako předem zaregistrovaná konkrétní jména mluvčího.
config.SetProperty("DifferentiateGuestSpeakers", "true");
Real-time versus asynchronní
Další podrobnosti o režimech přepisu, které můžete zvolit, najdete v následujících částech.
Reálný čas
Zvuková data se zpracovávají živě, aby se vrátil identifikátor mluvčího a přepis. Tento režim vyberte, pokud vaše řešení přepisu požaduje, aby účastníkům konverzace poskytlo zobrazení živého přepisu jejich probíhající konverzace. Například vytvoření aplikace, která by účastníkům se sluchovou vadou nebo hluchostí zpřístupnili schůzky, je ideálním případem pro přepis v reálném čase.
Asynchronní
Zvuková data jsou dávkově zpracována, aby se vrátil identifikátor a přepis mluvčího. Tento režim vyberte, pokud vaše řešení přepisu požaduje vyšší přesnost bez zobrazení živého přepisu. Pokud například chcete vytvořit aplikaci, která účastníkům schůzky umožní snadno dohánět zmeškané schůzky, použijte režim asynchronního přepisu k získání vysoce přesných výsledků přepisu.
V reálném čase plus asynchronní
Zvuková data se zpracovávají živě, aby se vrátil identifikátor a přepis mluvčího, a navíc si vyžádá vysoce přesný přepis prostřednictvím asynchronního zpracování. Tento režim vyberte, pokud vaše aplikace potřebuje přepis v reálném čase a také vyžaduje vyšší přesnost přepisu pro použití po konverzaci nebo schůzce.
Podpora jazyků
Přepis konverzace v současné době podporuje všechny jazyky převodu řeči na text v následujících oblastech: centralus
, eastasia
, eastus
, . westeurope