Che cos'è la trascrizione delle riunioni? (anteprima)

Articolo
04/24/2024

La trascrizione delle riunioni è una soluzione di conversione della voce in testo scritto che fornisce la trascrizione in tempo reale o asincrona di qualsiasi riunione. Questa funzionalità, attualmente in anteprima, combina il riconoscimento vocale, l'identificazione voce e l'attribuzione delle frasi per determinare chi ha detto cosa e quando, durante una riunione.

Importante

Lo scenario "trascrizione conversazione" precedente è stato rinominato in "trascrizione riunioni". Ad esempio, usare MeetingTranscriber anziché ConversationTranscriber e usare CreateMeetingAsync invece di CreateConversationAsync. Viene rilasciata una nuova funzionalità di “trascrizione conversazione” senza l'uso di profili utente e firme vocali. Per altre informazioni, vedere le note sulla versione.

Funzionalità chiave

Potrebbero essere utili le seguenti funzionalità della trascrizione riunioni:

Timestamp: ogni espressione del parlante ha un timestamp, il che permette di sapere facilmente quando è stata pronunciata una determinata frase.
Trascrizioni leggibili: le trascrizioni hanno formattazione e punteggiatura aggiunte automaticamente per garantire che il testo corrisponda fedelmente a quanto pronunciato.
Profili utente: i profili utente vengono generati raccogliendo campioni vocali degli utenti e inviandoli alla generazione della firma.
Identificazione voce: i parlanti vengono identificati tramite i profili utente e a ognuno viene assegnato un identificatore voce.
Diarizzazione multi-parlante: consente di determinare chi ha detto cosa sintetizzando il flusso audio con l’identificatore di ogni parlante.
Trascrizione in tempo reale: vengono fornite trascrizioni in tempo reale che riportano chi sta dicendo cosa e quando, mentre si sta svolgendo la riunione.
Trascrizione asincrona: vengono fornite trascrizioni con maggiore accuratezza usando un flusso audio multicanale.

Nota

Anche se la trascrizione riunioni non prevede un limite per il numero di parlanti nella stanza, è ottimizzata per 2-10 parlanti per sessione.

Operazioni preliminari

Per iniziare, vedere la guida di avvio rapido alla trascrizione delle riunioni in tempo reale.

Utilizzare casi

Per rendere inclusive le riunioni per tutti, ad esempio per i partecipanti non udenti o con difficoltà uditive, è importante avere trascrizione in tempo reale. La trascrizione della riunione in modalità in tempo reale acquisisce l'audio della riunione e determina chi sta dicendo cosa, consentendo a chiunque partecipi alla riunione di seguire la trascrizione e di partecipare alla riunione, senza ritardi.

I partecipanti possono concentrarsi sulla riunione e lasciare alla trascrizione della riunione il compito di prendere appunti. I partecipanti possono seguire attivamente la riunione e occuparsi rapidamente dei passaggi successivi, usando la trascrizione invece di prendere appunti con la possibilità di perdersi qualcosa durante la riunione.

Funzionamento

Il diagramma seguente mostra una panoramica generale del funzionamento della funzionalità.

Diagram that shows the relationships among different pieces of the meeting transcription solution.

Input previsti

La trascrizione delle riunioni usa due tipi di input:

Flusso audio multicanale: per informazioni dettagliate sulle specifiche e sulla progettazione, vedere Raccomandazioni sulla matrice di microfoni.
Campioni vocali utenti: la trascrizione delle riunioni richiede i profili degli utente della conversazione in anticipo per l'identificazione della voce. Raccogliere registrazioni audio da ogni utente e quindi inviare le registrazioni al servizio di generazione della firma per convalidare l'audio e generare i profili utente.

Nota

La configurazione audio a canale singolo per la trascrizione delle riunioni è attualmente disponibile solo in anteprima privata.

I campioni vocali degli utenti per le firme vocali sono necessari per l'identificazione della voce. I parlanti che non hanno campioni vocali vengono riconosciuti come non identificati. I parlanti non identificati possono comunque essere differenziati quando la proprietà DifferentiateGuestSpeakers è abilitata (vedere l'esempio seguente). L'output della trascrizione mostra quindi i parlanti come, ad esempio, Guest_0 e Guest_1, invece di riconoscerli con nomi di parlanti specifici pre-registrati.

config.SetProperty("DifferentiateGuestSpeakers", "true");

Confronto tra tempo reale e asincrono

Le sezioni seguenti forniscono maggiori dettagli sulle modalità di trascrizione che è possibile scegliere.

In tempo reale

I dati audio vengono elaborati in tempo reale per restituire l'identificatore voce e la trascrizione. Selezionare questa modalità se il requisito della soluzione di trascrizione consiste nel fornire ai partecipanti alla riunione una visualizzazione della trascrizione in tempo reale della riunione in corso. Ad esempio, la creazione di un'applicazione per rendere le riunioni più accessibili ai partecipanti non udenti o con difficoltà uditive è un caso d'uso ideale per la trascrizione in tempo reale.

Asincrona

I dati audio vengono elaborati in batch per restituire l'identificatore voce e la trascrizione. Selezionare questa modalità se il requisito della soluzione di trascrizione consiste nel fornire un'accuratezza maggiore, senza la visualizzazione della trascrizione in tempo reale. Ad esempio, se si vuole creare un'applicazione per consentire ai partecipanti alla riunione di recuperare facilmente le riunioni perse, usare la modalità di trascrizione asincrona per ottenere risultati di trascrizione ad alta accuratezza.

In tempo reale più asincrono

I dati audio vengono elaborati in tempo reale per restituire l'identificatore voce e la trascrizione, inoltre, è richiesta una trascrizione ad alta accuratezza tramite l'elaborazione asincrona. Selezionare questa modalità se l'applicazione ha bisogno di una trascrizione in tempo reale e allo stesso tempo di una trascrizione più accurata da poter usare dopo la riunione.

Supporto di versioni in lingue diverse

Attualmente, la trascrizione delle riunioni supporta tutte le lingue di riconoscimento vocale nelle aree seguenti: centralus, eastasia, eastus, westeurope.

Passaggi successivi

Avvio rapido: Trascrizione di riunioni in tempo reale

Condividi tramite