Sdílet prostřednictvím


Co je diarizace přepisu konverzace s vícechannel? (Preview)

Poznámka:

Tato funkce je v současné době ve verzi Public Preview. Tato verze Preview je poskytována bez smlouvy o úrovni služeb a nedoporučuje se pro produkční úlohy. Některé funkce se nemusí podporovat nebo mohou mít omezené možnosti. Další informace najdete v dodatečných podmínkách použití pro verze Preview v Microsoft Azure.

Diarizace přepisu konverzace je řešení převodu řeči na text , které poskytuje přepis jakékoli schůzky v reálném čase nebo asynchronní přepis. Tato funkce kombinuje rozpoznávání řeči, identifikaci mluvčího a přisuzování vět a určuje, kdo řekl, co a kdy na schůzce.

Důležité

28. března 2025 se vyřazuje přepis konverzace s vícechannel diarizací (Preview). Další informace o migraci na jiné funkce řeči na text naleznete v tématu Migrace mimo přepis konverzace multichannel diarization.

Migrace z vícekanálové diarizace přepisu konverzace

28. března 2025 se vyřazuje přepis konverzace s vícechannel diarizací (Preview).

Pokud chcete dál používat řeč na text s diarizací, použijte místo toho následující funkce:

Tyto funkce převodu řeči na text podporují pouze diarizaci zvuku v jednom kanálu. Multichannel zvuk, který jste použili s přepisem konverzace, není podporováno diarizace multichannel.

Klíčové funkce

Může se vám hodit následující funkce přepisu konverzace:

  • Časová razítka: Každá promluva mluvčího má časové razítko, abyste mohli snadno najít, kdy byla fráze řečeno.
  • Čitelné přepisy: Přepisy mají formátování a interpunkci přidané automaticky, aby text přesně odpovídal tomu, co bylo řečeno.
  • Profily uživatelů: Profily uživatelů se generují shromažďováním ukázek uživatelského hlasu a jejich odesláním do generování podpisu.
  • Identifikace mluvčího: Mluvčí jsou identifikováni pomocí profilů uživatelů a každému z nich je přiřazen identifikátor mluvčího.
  • Diarizace více mluvčích: Určete, kdo řekl, co syntetizuje zvukový stream s každým identifikátorem mluvčího.
  • Přepis v reálném čase: Zadejte živé přepisy toho, kdo říká, co a kdy, když se schůzka děje.
  • Asynchronní přepis: Poskytnutí přepisů s vyšší přesností pomocí vícekanálového zvukového streamu.

Poznámka:

I když přepis konverzace neomezuje počet mluvčích v místnosti, je optimalizovaný pro 2 až 10 mluvčích na relaci.

Případy použití

Pokud chcete, aby schůzky byly inkluzivní pro všechny, například pro účastníky, kteří jsou neslyšící a neslyšící, je důležité mít přepis v reálném čase. Přepis konverzace v režimu v reálném čase trvá zvuk schůzky a určuje, kdo říká, co, což umožňuje všem účastníkům schůzky sledovat přepis a účastnit se schůzky bez zpoždění.

Účastníci schůzky se můžou soustředit na schůzku a nechat přepis konverzace v poznámce. Účastníci se mohou aktivně zapojit do schůzky a rychle pokračovat v dalších krocích pomocí přepisu místo pořizování poznámek a potenciálně chybět během schůzky.

Jak to funguje

Následující diagram znázorňuje základní přehled fungování funkce.

Diagram znázorňující vztahy mezi různými částmi řešení přepisu konverzace

Očekávané vstupy

Přepis konverzace používá dva typy vstupů:

  • Stream zvuku s více kanály: Podrobnosti o specifikaci a návrhu najdete v tématu Doporučení pro pole mikrofonu.
  • Ukázky uživatelského hlasu: Přepis konverzace vyžaduje profily uživatelů před identifikací mluvčího. Shromážděte zvukové nahrávky od každého uživatele a potom je odešlete do služby generování podpisu, aby se ověřil zvuk a vygenerovaly profily uživatelů.

K identifikaci mluvčího se vyžadují ukázky hlasu pro hlasovou ukázku. Mluvčí, kteří nemají hlasové vzorky, se rozpoznávají jako neidentifikované. Neidentifikovaní mluvčí se stále dají odlišit, když DifferentiateGuestSpeakers je tato vlastnost povolená (viz následující příklad). Výstup přepisu pak zobrazuje mluvčí jako například Guest_0 a Guest_1, místo abyste je rozpoznali jako předem zaregistrované konkrétní názvy mluvčích.

config.SetProperty("DifferentiateGuestSpeakers", "true");

V reálném čase nebo asynchronně

Následující části obsahují podrobnější informace o režimech přepisu, které můžete zvolit.

V reálném čase

Zvuková data se zpracovávají živě, aby se vrátil identifikátor mluvčího a přepis. Tento režim vyberte, pokud je vaším požadavkem řešení přepisu poskytnout účastníkům schůzky živé zobrazení přepisu probíhající schůzky. Vytvoření aplikace pro usnadnění přístupu ke schůzkám účastníkům se ztrátou sluchu nebo neslyšícím je ideální případ použití pro přepis v reálném čase.

Asynchronní

Zvuková data se zpracovávají tak, aby vrátila identifikátor a přepis mluvčího. Tento režim vyberte, pokud je vaším požadavkem na řešení přepisu vyšší přesnost bez živého zobrazení přepisu. Pokud například chcete vytvořit aplikaci, která účastníkům schůzky umožní snadno sehnat zmeškané schůzky, pak pomocí režimu asynchronního přepisu získat výsledky přepisu s vysokou přesností.

Asynchronní zpracování v reálném čase

Zvuková data se zpracovávají živě, aby se vrátil identifikátor mluvčího a přepis, a navíc vyžaduje přepis s vysokou přesností prostřednictvím asynchronního zpracování. Tento režim vyberte, pokud vaše aplikace potřebuje přepis v reálném čase a vyžaduje také vyšší přesnost přepisu pro použití po schůzce.

Podpora jazyků a oblastí

Přepis konverzace v současné době podporuje všechny jazyky řeči na text v následujících oblastech: centralus, eastasia, eastus, westeurope.