Konfigurace funkcí hlasu

2025-05-12

Tento článek popisuje funkce, které jsou k dispozici v Copilot Studio pro interaktivní hlasový systém s Dynamics 365 Customer Service.

Chcete-li svého agenta připravit na hlasové služby, přečtěte si téma Integrace hlasového agenta s Dynamics 365 Customer Service.

Přehled hlasových služeb naleznete v tématu Použití interaktivního hlasového systému u agentů.

Modalita řeči a tónové volby

Hlasový agent se liší od chatovacího agenta. Hlasový agent obsahuje konkrétní témata hlasového systému pro zpracování hlasových scénářů. Agent založený na chatu používá text jako výchozí modalitu. Hlasový agent používá modalitu Speech & DTMF. Tyto dva způsoby nejsou vzájemně kompatibilní.

Optimalizovat pro hlas umožňuje vytvářet hlasové agenty napříč různými modalitami a zajišťuje správné vytváření funkcí propojených s řečí.

Optimalizovat pro hlasové hovory

Pokud jste agenta nespustili s hlasovou šablonou, v Nastavení agenta musíte povolit možnost Optimalizovat pro hlas.

S otevřeným agentem přejděte do Nastavení>Hlas.
Vyberte Optimalizovat pro hlas. Ve výchozím nastavení je také nastavena možnost Použít hlas jako primární režim vytváření.

Když povolíte možnosti Optimalizovat pro hlas a Použít hlas jako primární režim vytváření, agent získá následující aktualizace:

Možnost vytvářet hlasové funkce při přepnutí z textu na řeč a tónovou volbu.
Systémová témata hlasu Detekce ticha, Řeč nerozpoznána a Stisk neznámé číselné klávesy jsou automaticky přidány, aby zvládly scénáře související s řečí.
Zvýšit přesnost pomocí dat agenta (ve výchozím nastavení zapnuto), což zlepšuje přesnost rozpoznávání řeči.
Stávající tok agenta (například téma Hlavní nabídka pro zahájení konverzací s mapovanými triggery DTMF) se nemění.

Důležité

Nastavení Optimalizace pro hlas pouze mění funkce vytváření obsahu pomocí hlasu, nikoli nastavení kanálu. Zapněte kanál Telefonie pro plně hlasového agenta.
Kromě toho nastavení Optimalizovat pro hlas u agenta, který nebyl původně nakonfigurovaný pro hlasové funkce, znamená, že agent neobsahuje téma Hlavní nabídka (Preview). V případě potřeby musíte toto téma znovu vytvořit.
Pokud nemůžete zapnout Optimalizaci pro hlas, zkontrolujte prostředí Power Platform, které hostuje vašeho agenta, a ujistěte se, že je pro toto prostředí vypnuta funkce Získejte nové funkce dříve. Další informace naleznete v tématu Nelze zapnout optimalizaci pro hlas.

Deaktivace optimalizace pro hlas

Pokud nepoužíváte kanál Telefonie, můžete vypnout možnost Optimalizovat pro hlas při vytváření agentů. Po vypnutí optimalizace pro hlas se projeví následující změny:

Žádné vytváření agentů pro hlasové funkce, jako je tónová volba a přerušení.
Je nastavena výchozí modalita text.
Žádné zlepšení rozpoznávání řeči, protože neexistuje žádné rozpoznávání řeči.
Žádná témata hlasového systému ani globální téma tónové volby.

Poznámka:

Některá témata mohou hlásit chyby během publikování, pokud stále odkazují na téma DTMF (nyní vypnuté).
Tok agenta a nastavení kanálu se nemění, protože vypnutím optimalizace nedojde k odebrání kanálu telefonního subsystému.
Zapnutí nebo vypnutí možnosti Optimalizovat pro hlas se neprojeví, dokud agenta nepublikujete. Pokud jej omylem zapnete nebo vypnete a agent přepíná mezi modalitami, máte čas to opravit.

Důležité

Pokud jsou zapnuty kanály Telefonie, vypnutí možnosti Optimalizovat pro hlas může agenta rozbít, protože všechny triggery tónové volby jsou automaticky deaktivovány.

Použití hlasu jako primárního režimu vytváření

Pro každý uzel při vytváření hlasových funkcí by měla být vybrána modalita řeč a tónová volba. Předvolbu vytváření agenta můžete vybrat jako Použít hlas jako primární režim vytváření. Toto nastavení zajišťuje, že všechna vstupní pole mají správnou modalitu. Pokud jste již zapnuli Optimalizovat pro hlas, možnost Použít hlas jako primární režim vytváření je ve výchozím nastavení zapnutá.

Dostupnost zprávy

Použití textové nebo řečové modality může ovlivnit váš kanál jinak.

Textová modalita	Modalita řeči	Textový a řečový kanál agenta
Zpráva je k dispozici	Zpráva je prázdná	Zpráva je k dispozici
Zpráva je prázdná	Zpráva je k dispozici	Zpráva není k dispozici

Přizpůsobené automatické rozpoznávání řeči

U hlasových agentů pro konkrétní doménu, jako je zdravotnictví nebo finance, mohou uživatelé používat finanční termíny nebo lékařský žargon. Převedení řeči na text u některých termínů a žargonu jsou pro hlasového agenta obtížné.

Chcete-li zajistit přesné rozpoznání hlasového vstupu, můžete zlepšit rozpoznávání řeči:

Otevřete agenta a vyberte Nastavení>Hlas.
Výběrem možnosti Zvýšit přesnost pomocí dat agenta povolíte výchozí přizpůsobené nastavení automatického rozpoznávání řeči agenta.
Výběrem možnosti Uložit potvrdíte změny.
Publikujte agenta, aby se nové změny projevily.

Referenční informace k možnostem hlasu na úrovni agenta

Stránka nastavení Podrobnosti agenta umožňuje konfigurovat časové limity pro různé funkce související s hlasem. Nastavení použitá na této stránce se stanou výchozími pro témata vytvořená ve vašem agentu.

Chcete-li změnit možnosti časového limitu na úrovni agenta:

S otevřeným agentem vyberte Nastavení>Hlas.
Vyberte požadovaná nastavení a upravte výchozí nastavení agenta.
Výběrem možnosti Uložit potvrdíte změny.

Nastavení na úrovni agenta

V následující tabulce jsou uvedeny jednotlivé možnosti a jejich vztah k nastavení na úrovni uzlů.

Sekce na úrovni hlasového agenta	Nastavení	Description	Default value	Přepsání na úrovni uzlu
Tónová volba	Časový limit mezi čísly	Maximální doba (milisekundy) povolená při čekání na další zadání klávesy tónové volby. Použije vícemístný vstup tónové volby pouze v případě, že uživatelé nesplňují maximální délku vstupu.	3000 ms	Uzel otázky s hlasovými vlastnostmi pro Vícemístné zadání DTMF
Tónová volba	Časový limit ukončení	Maximální doba (milisekundy) čekání na ukončovací klíč tónové volby. Limit platí, když uživatel dosáhne maximální vstupní délky a nestiskl klávesu ukončení. Platí pouze pro vícemístný vstup tónové volby. Když vyprší časový limit a nedorazí ukončovací klíč tónové volby, agent ukončí rozpoznávání a vrátí výsledek do tohoto bodu. Pokud je nastavená možnost "pokračovat bez čekání", agent nečeká na ukončovací klíč. Agent se vrátí ihned poté, co uživatel zadá maximální délku.	2000 ms	Uzel otázky s hlasovými vlastnostmi pro Vícemístné zadání DTMF
Detekce ticha	Časový limit detekce ticha	Maximální ticho (milisekundy) povolená při čekání na uživatelský vstup. Limit platí v případě, že agent nezjistí žádný vstup uživatele. Výchozí hodnota je „Bez časového limitu ticha“. Agent čeká donekonečna na vstup uživatele. Detekce ticha pro hlas krát dobu poté, co hlas skončí mluvit.	Žádný časový limit ztišení	Uzel otázky s hlasovými vlastnostmi pro Vícemístné zadání DTMF Systémové téma (vlastnosti triggeru detekce ticha) pro Konfigurace detekce ticha a časových limitů
Shromáždění řeči	Časový limit ukončení výroku	Limit platí, když uživatel udělá pauzu během řeči nebo po ní. Pokud je pauza delší než časový limit, agent předpokládá, že uživatel dokončil řeč. Maximální hodnota časového limitu ukončení promluvy je 3000 ms. Cokoli nad 3000 ms se sníží na 3000 ms.	1500 ms	Uzel otázky s hlasovými vlastnostmi
Shromáždění řeči	Časový limit rozpoznávání řeči	Určuje, kolik času agent povolí pro vstup uživatele poté, co začne mluvit. Výchozí hodnota je 12 000 milisekund (kolem 12 sekund). Žádný časový limit pro rozpoznání znamená nekonečný čas. Agent znovu vyzve k otázce. Pokud není žádná odpověď, hlas je mimo Časový limit vypršení rozpoznávání řeči.	12,000 ms	Uzel otázky s hlasovými vlastnostmi
Zprávy o latenci	Prodleva před odesláním zprávy	Určuje, jak dlouho agent čeká, než doručí zprávu o latenci po spuštění požadavku na operaci na pozadí. Časování je nastaveno v milisekundách.	500 ms	Vlastnosti uzlu akce pro dlouhotrvající provoz
Zprávy o latenci	Minimální doba přehrávání	Zpráva o latenci se přehrává po minimální dobu, i když se operace na pozadí dokončí během přehrávání zprávy. Časování je nastaveno v milisekundách.	5000 ms	Vlastnosti režimu akce pro dlouhotrvající provoz
Citlivost řeči	Utajení	Řídí, jak systém vyvažuje detekci řeči a hluku na pozadí. Snižte citlivost v hlučných prostředích, veřejných prostorech a při použití hands-free. Zvyšte citlivost v tichých prostředích, pro tiché uživatele nebo při detekci hlasových příkazů. Výchozí nastavení je 0,5.	0.5	Pro tento ovládací prvek neexistují žádná přepsání na úrovni uzlů.

Zapnutí vpadnutí

Povolením funkce přerušení umožníte uživatelům agenta přerušit vašeho agenta. Tato funkce může být užitečná v případě, že nepotřebujete, aby uživatel agenta slyšel celou zprávu. Volající už například mohou znát možnosti nabídky, protože je slyšeli v minulosti. Pomocí funkce přerušení může uživatel agenta zadat požadovanou možnost, a to i v případě, že agent ještě nedokončil výčet všech možností.

Scénáře deaktivace vpadnutí

Zakažte funkci přerušení, pokud jste nedávno aktualizovali zprávu agenta nebo pokud by zpráva o dodržování předpisů neměla být přerušena.
Zakažte funkci přerušení pro první zprávu agenta, abyste zajistili, že uživatelé agenta budou informováni o nových nebo důležitých informacích.

Specifikace

Barge-in podporuje přerušení na základě DTMF a hlasu ze strany uživatele agenta.
vpadnutí lze ovládat s každou zprávou v jedné dávce. Umístěte uzly barge-in-disabled v pořadí před každý uzel, kde je povoleno vpadnutí. V opačném případě se s deaktivací vpadnutí zachází jako se zprávou s povoleným vpadnutím.

Jakmile je dokončena jedna fronta dávek, pak se automatické nastavení přivádění resetuje pro další dávku a řídí se příznakem přivádění při každé následující zprávě. Jakmile sekvence začne znovu, můžete umisťovat uzly s deaktivovaným vpadnutím.

Tip

Pokud existují po sobě jdoucí uzly zpráv, za nimiž následuje uzel s otázkou, hlasové zprávy pro tyto uzly jsou definovány jako jedna dávka. Jedna dávka začíná uzlem zprávy a končí v uzlu otázky, který čeká na zadání uživatele.

Nezakazujte funkci přerušení pro dlouhé zprávy, zejména pokud očekáváte, že uživatelé agenta budou s agentem často komunikovat. Pokud váš uživatel agenta již zná možnosti nabídky, umožněte mu samoobsluhu tam, kam chce přejít.

Nastavení vpadnutí

S vybraným uzlem Zpráva nebo Otázka nastavte požadovanou modalitu na Řeč a tónová volba.
Vyberte ikonu Další (…) uzlu a poté vyberte Vlastnosti.
1. U uzlů Zpráva se panel Vlastnosti aktivity odesílání otevře na straně plátna pro vytváření obsahu.
  
  Vyberte Povolit vpadnutí.
2. Pro uzly Otázka se otevře panel Vlastnosti otázky a poté vyberte Hlas.
  
  Ve vlastnostech Hlas vyberte Povolit vpadnutí.
Uložte téma.

Konfigurace detekce ticha a časových limitů

Detekce ticha umožňuje nakonfigurovat, jak dlouho má agent čekat na vstup uživatele a jakou akci provede, pokud není přijat žádný vstup. Detekce ticha je nejužitečnější v reakci na otázku na úrovni uzlů nebo když agent čeká na spouštěcí frázi, aby mohl začít nové téma.

Můžete nakonfigurovat výchozí časové limity pro témata.

Přepsání výchozích hodnot pro uzel:

Vyberte ikonu Další (…) uzlu a poté vyberte Vlastnosti.

Otevře se panel Vlastnosti otázky.

Vyberte Hlas a proveďte úpravy následujících nastavení:

Možnost časového limitu detekce ticha	Description
Použití nastavení agenta	Uzel používá pro detekci ticha globální nastavení.
Zakázat pro tento uzel	Agent čeká na odpověď neomezeně dlouho.
Přizpůsobení v milisekundách	Agent čeká po určitou dobu, než otázku zopakuje.

Náhradní akce

Některá chování můžete nakonfigurovat jako záložní akci:

Kolikrát by měl agent zopakovat otázku
Co by měla oznamovací zpráva obsahovat
Co by měl agent udělat po zadaném počtu opakování

Hlasový vstup

Pro hlasový vstup můžete zadat:

Časový limit ukončení výroku: Jak dlouho agent čeká, než uživatel domluví
Časový limit rozpoznávání řeči: Kolik času agent poskytne uživateli, jakmile začne reagovat

Chcete-li nakonfigurovat chování detekce ticha, když agent čeká na spouštěcí frázi, upravte nastavení v systémovém tématu Při tichu.

Přidání zprávy o latenci pro dlouho běžící operace

U dlouhých backendových operací může agent odeslat zprávu uživatelům, aby je upozornil na delší procesy. Agenti v kanálu pro zasílání zpráv mohou také odeslat zprávu o latenci.

Přehrávání zvuku zprávy s latencí	Zpráva o latenci v chatu
Pokračuje ve smyčce, dokud se operace nedokončí.	Odesláno pouze jednou při dosažení zadané latence.

V Copilot Studio může agent po spuštění toku Power Automate zopakovat zprávu:

Přidejte uzel Akce, který spustí tok.
Vyberte ikonu Další (…) uzlu a poté vyberte Vlastnosti. Otevře se panel Vlastnosti akce.
Vyberte položku Odeslat zprávu.
V sekci Zpráva zadejte, co má agent říct. Pomocí SSML můžete upravit zvuk zprávy. Agent opakuje zprávu, dokud není tok dokončen.

V části Zpoždění můžete upravit, jak dlouho má agent čekat, než zopakuje zprávu. Můžete nastavit minimální dobu čekání, i když se tok dokončí.

Konfigurace ukončení hovoru

Pokud chcete nakonfigurovat, aby agent ukončil hovor a zavěsil, přidejte nový uzel (+) a pak vyberte Správa témat>Ukončit konverzaci.

Snímek obrazovky nové nabídky uzlu se zvýrazněnými možnostmi Správa tématu a Ukončit konverzaci.

Formátování syntézy řeči pomocí SSML

Pomocí jazyka SSML (speech synthesis markup language) můžete změnit způsob, jakým agent zní, když čte zprávy nahlas. Můžete například změnit výšku nebo frekvenci mluvených slov, rychlost a hlasitost.

SSML používá značky k uzavření textu, který chcete upravit, podobně jako HTML. V Copilot Studio můžete použít následující značky:

Značka SSML	Description	Odkaz na dokumentaci hlasové služby
`<audio src="_URL to an audio file_"/>`	Přidejte adresu URL do zvukového souboru v rámci značky. K souboru musí mít přístup uživatel agenta.	Přidání nahraného zvuku
`<break />`	Mezi slova vkládejte pauzy nebo přestávky. Do značky vložte možnosti přerušení.	Přidání přerušení
`<emphasis>` Text, který chcete upravit`</emphasis>`	Přidávejte ke slovům nebo frázím stupně důrazu. Přidejte možnosti zvýraznění do úvodní značky. Přidejte uzavírací značku za text, který chcete upravit.	Úprava možností zvýraznění
`<prosody>` Text, který chcete upravit`</prosody>`	Určete změny výšky, obrysu, rozsahu, rychlosti a hlasitosti. Přidejte možnosti prozodie do úvodní značky. Přidejte uzavírací značku za text, který chcete upravit.	Upravte možnosti prozódie
`<lang xml:lang="xx-XX">` Text, který chcete upravit`</lang>`	Při použití vícejazyčného neurálního hlasu můžete upravit jazyk řeči v téže zprávě.	Úprava jazyků řeči

Poznámka:

Pokud je adresa URL při použití značky <audio src="_URL to an audio file_"/> uložena v proměnné, před vložením do značky audio src SSML ve zprávě musí být zakódovaná. Doporučujeme použít funkci PowerFx EncodeHTML ke kódování adresy URL při jejím přiřazení k proměnné v akci přiřazení.

Screenshot hlasové zprávy s přidanými značkami SSML.

Nalezení a použití značky

SSML používá značky k uzavření textu, který chcete upravit, jako HTML.

V Copilot Studio můžete použít následující značky:

S vybraným uzlem Zpráva nebo Otázka změňte režim na Řeč a tónová volba.
Vyberte nabídku Značky SSML a vyberte značku.

Okno zprávy je vyplněno značkou. Pokud již ve schránce se zprávou máte text, připojí se kód značky na konec vaší zprávy.
Obklopte text, který chcete upravit, úvodní a závěrečnou značkou. Můžete kombinovat více značek a přizpůsobit jednotlivé části zprávy jednotlivými značkami.

Tip

Můžete ručně zadat značky SSML, které se nezobrazují v nabídce pomocníka. Chcete-li se dozvědět více o dalších značkách, které můžete použít, podívejte se do tématu Zlepšení syntézy pomocí značkovacího jazyka pro syntézu řeči.

Přepojení hovoru na zástupce nebo externí telefonní číslo

Agent může přepojit hovor na externí telefonní číslo. Copilot Studio podporuje slepý přenos na telefonní číslo veřejné telefonní sítě a číslo přímého směrování.

Předání hovoru na externí telefonní číslo:

V tématu, které chcete upravit, přidejte nový uzel (+). V nabídce uzlu vyberte Správa témat a potom Převést konverzaci.
V části Typ převodu vyberte Přenos externího telefonního čísla a zadejte číslo převodu.
(Volitelně) Přidejte záhlaví SIP UUI do telefonního hovoru.

Tato hlavička je řetězec párů key=value, bez mezer nebo speciálních znaků, zobrazený pro externí systémy ke čtení.
1. Vyberte ikonu Další (…) uzlu a poté vyberte Vlastnosti. Otevře se panel Přenést vlastnosti konverzace.
2. V části Záhlaví SIP UUI zadejte informace, které chcete odeslat s přesměrováním hovoru. Při přenosu na externí telefonní číslo nejsou proměnné podporovány.
Upozornění

Odesílá se pouze prvních 128 znaků v řetězci.

Záhlaví přijímá pouze čísla, písmena, rovnítko (=) a středníky (;). Všechny ostatní znaky, včetně mezer, složených závorek a závorek nebo vzorců, nejsou podporovány a mohou způsobit selhání přenosu.

Tip

Uveďte a + ve svém telefonním čísle pro odpovídající kód země.

Výstup přenosu pomocí SIP UUI pro cílové telefonní číslo musí používat přímé směrování. Telefonní čísla veřejné telefonní sítě (PSTN) nepodporují přenosy hlaviček SIP UUI.

Chcete-li provést předání zástupci, přečtěte si část Explicitní triggery.

Použití hlasových proměnných

Copilot Studio podporuje vyplňování proměnných. Můžete použít předdefinované proměnné nebo vytvořit vlastní.

Poznámka:

Další informace, jak používat a vytvářet proměnné v Copilot Studio, najdete v části Práce s proměnnými.
Informace o proměnných dalších aktivit a konverzací, které jsou k dispozici pro hlasové agenty, najdete v tématu Proměnné pro hlasové agenty.

Hlasový agent v Copilot Studio podporuje kontextové proměnné. Tyto proměnné vám pomohou integrovat konverzace agenta s Dynamics 365 Customer Service při přepojování hovoru.

Další informace o kontextových proměnných v Dynamics 365 Customer Service najdete v tématu Kontextové proměnné pro roboty Copilot Studio.

Tato integrace podporuje tyto scénáře s následujícími proměnnými při přenosu:

Proměnná	Type	Description
`System.Activity.From.Name`	Řetězcové	ID volajícího uživatele agenta
`System.Activity.Recipient.Name`	Řetězcové	Číslo použité k volání nebo připojení k agentovi
`System.Conversation.SipUuiHeaderValue`	Řetězcové	Hodnota SIP hlavičky při přenosu přes telefonní číslo přímého směrování
`System.Activity.UserInputType`	Řetězcové	Zda uživatel agenta použil v konverzaci tónovou volbu nebo řeč
`System.Activity.InputDTMFKey`	Řetězcové	Nezpracovaná tónová volba uživatele agenta
`System.Conversation.OnlyAllowDTMF`	Logické	Hlas ignoruje hlasový vstup, když je nastaven na hodnotu true
`System.Activity.SpeechRecognition.Confidence`	Počet	Hodnota spolehlivosti (mezi 0 a 1) z poslední události rozpoznávání řeči
`System.Activity.SpeechRecognition.MinimalFormattedText`	Řetězcové	Výsledky rozpoznávání řeči (jako nezpracovaný text) před tím, než Copilot Studio použil svůj vyhrazený model porozumění přirozenému jazyku

Poznámka:

Publikování agenta s velkými aktivačními frázemi a velikostí entit trvá déle.
Pokud více uživatelů publikuje stejného agenta současně, akce publikování se zablokuje. Agenta musíte znovu publikovat, jakmile ostatní dokončí úpravy existujícího agenta.

Další informace o základech publikování najdete v tématu Klíčové koncepty – publikování a nasazení agenta.

Sdílet prostřednictvím

Konfigurace funkcí hlasu

Modalita řeči a tónové volby

Optimalizovat pro hlasové hovory

Deaktivace optimalizace pro hlas

Použití hlasu jako primárního režimu vytváření

Dostupnost zprávy

Přizpůsobené automatické rozpoznávání řeči

Referenční informace k možnostem hlasu na úrovni agenta

Nastavení na úrovni agenta

Zapnutí vpadnutí

Scénáře deaktivace vpadnutí

Specifikace

Nastavení vpadnutí

Konfigurace detekce ticha a časových limitů

Náhradní akce

Hlasový vstup

Přidání zprávy o latenci pro dlouho běžící operace

Konfigurace ukončení hovoru

Formátování syntézy řeči pomocí SSML

Nalezení a použití značky

Přepojení hovoru na zástupce nebo externí telefonní číslo

Použití hlasových proměnných

Váš názor

Další materiály