Distribuzione delle estensioni necessarie

5 minuti

Il comportamento di base di un agente di Microsoft Copilot Studio abilitato alla comunicazione vocale non è del tutto diverso da un agente tradizionale. Dal punto di vista della progettazione non occorre fare nulla di diverso rispetto alla creazione dell'agente. Elementi come argomenti, entità e altro sono progettati allo stesso modo. La differenza principale è che, invece di interagire con un cliente attraverso una forma di comunicazione basata su testo, l'agente interagisce attraverso una conversazione vocale. Per garantire che questo processo si svolga come previsto, è necessario installare più estensioni nell'ambiente per assicurare una gestione corretta di ogni aspetto.

È necessario eseguire una configurazione per impostare le funzionalità vocali dell'agente. Tutte le impostazioni vocali sono disponibili accedendo a Impostazioni>Voce. Inizialmente l'agente non è ottimizzato per l'uso delle funzionalità vocali. Se si seleziona Ottimizza per la voce, diventano disponibili altre funzionalità vocali.

Dopo aver abilitato Ottimizza per la voce si possono aggiornare le impostazioni seguenti:

Uso della voce come modalità Autore principale:
Aumento della precisione dei dati dell'agente: permette di aggiungere al modello di riconoscimento vocale dati specifici per la funzionalità vocale basati sul contenuto dell'agente. Questa impostazione aumenta il tempo necessario all'agente per la pubblicazione.
Timeout:
- DTMF: include diverse impostazioni che aiutano a definire il modo in cui l'agente riceve l'input da un tastierino numerico. Sono presenti due impostazioni da modificare:
  - Timeout tra cifre: questo limite di timeout si applica quando l'utente non ha raggiunto la lunghezza massima di input. Si applica solo all'input DTMF con più cifre.
  - Timeout di terminazione: questo limite di timeout si applica quando l'utente ha raggiunto la lunghezza massima di input e non ha premuto il tasto di terminazione. Si applica solo all'input DTMF con più cifre.
- Rilevamento del silenzio: consente di specificare come deve rispondere l'agente se non rileva alcun input dall'utente finale. L'impostazione è binaria e può essere abilitata o disabilitata.
- Raccolta discorsi: permette di impostare i limiti sul tempo durante il quale l'agente tenta di rilevare e raccogliere dati di input. Include le impostazioni seguenti:
  - Timeout di fine espressione: questo limite di timeout si applica quando l'utente fa una pausa durante o dopo il discorso. Se la pausa continua oltre il limite di timeout, l'agente si comporta come se l'utente avesse finito di parlare.
  - Timeout del riconoscimento vocale: questo limite di timeout determina per quanto tempo l'agente concede all'utente di inserire input una volta che inizia a parlare.
- Messaggistica di latenza: consente di scegliere come e quando gli utenti ascoltano un messaggio di latenza quando le operazioni in background richiedono più tempo del previsto. Include le impostazioni seguenti:
  - Ritardo sull'invio del messaggio: questa impostazione determina per quanto tempo l'agente attende prima di inviare il messaggio di latenza dopo l'avvio di una richiesta di operazione in background.
  - Tempo minimo di riproduzione: il messaggio di latenza viene riprodotto per almeno questo lasso di tempo, anche se l'operazione in background viene completata durante la riproduzione del messaggio.
- Sensibilità del parlato: controlla il livello di sensibilità rispetto al parlato. Le impostazioni più basse filtrano maggiormente il rumore di fondo. Le impostazioni più elevate sono più adatte agli ambienti silenziosi.

Commenti e suggerimenti

Questa pagina è stata utile?