Qu’est-ce qu’une transcription de réunion ? (Préversion)

Article
01/21/2024

La transcription de réunion est une solution de reconnaissance vocale qui permet la transcription en temps réel ou asynchrone des réunions. Cette fonctionnalité, qui est actuellement en préversion, combine la reconnaissance vocale, l’identification de l’orateur et l’attribution de phrases pour déterminer qui a dit quoi et quand pendant une réunion.

Important

L’ancien scénario de « transcription de conversation » est renommé en « transcription de réunion ». Par exemple, utilisez MeetingTranscriber au lieu de ConversationTranscriberet CreateMeetingAsync au lieu de CreateConversationAsync. Une nouvelle fonctionnalité de « transcription de conversation » est publiée sans l’utilisation de profils utilisateur et de signatures vocales. Pour plus d’informations, consultez les notes de publication.

Fonctionnalités clés

Les fonctionnalités suivantes de transcription de réunion peuvent vous être utiles :

Horodatages : chaque énoncé d’orateur inclut un horodatage, ce qui vous permet de retrouver facilement le moment où une expression a été dite.
Transcriptions lisibles : une mise en forme et une ponctuation sont automatiquement ajoutées aux transcriptions pour que le texte corresponde exactement à ce qui a été dit.
Profils utilisateur : des profils utilisateur sont générés via la collecte d’échantillons de voix d’utilisateurs, et leur envoi au service de génération de signatures.
Identification de l’orateur : les orateurs sont identifiés à l’aide de profils utilisateur. Un identificateur d’orateur est affecté à chacun d’entre eux.
Diarisation de plusieurs orateurs : déterminez qui a dit quoi en synthétisant le flux audio avec chaque identificateur d’orateur.
Transcription en temps réel : Fournit des transcriptions en direct de qui dit quoi et quand pendant la réunion.
Transcription asynchrone : fournissez des transcriptions d’une plus grande justesse à l’aide d’un flux audio multicanal.

Notes

Bien que la transcription de réunion ne limite pas le nombre d’orateurs dans la salle, elle est optimisée pour 2 à 10 orateurs par session.

Bien démarrer

Consultez le démarrage rapide sur la transcription de réunion en temps réel pour commencer.

Cas d'utilisation

Pour inclure tout le monde dans les réunions, par exemple les participants sourds et malentendants, il est important de disposer d’une transcription en temps réel. La transcription de réunion en temps réel enregistre le son de la réunion et détermine qui dit quoi, permettant ainsi à tous les participants à la réunion de suivre la transcription et de participer à la réunion, sans délai.

Les participants à la réunion peuvent se concentrer sur la réunion et laisser la transcription de réunion prendre les notes. Les participants peuvent participer activement à la réunion et suivre rapidement les étapes suivantes grâce à la transcription au lieu de prendre des notes et éventuellement de manquer des éléments pendant la réunion.

Fonctionnement

Le diagramme suivant montre une vue d’ensemble de la fonctionnalité.

Diagramme présentant les relations entre les différents éléments de la solution de transcription de réunion.

Entrées attendues

La transcription de réunion utilise deux types d’entrée :

Flux audio multicanal : pour plus d’informations sur les spécifications et la conception, consultez les recommandations sur le réseau de microphones.
Exemples de voix d’utilisateur : La transcription de réunion a besoin des profils utilisateur avant la conversation pour pouvoir identifier les orateurs. Collectez les enregistrements audio de chaque utilisateur, puis envoyez-les au service de génération de signatures pour valider le contenu audio et générer des profils utilisateur.

Notes

La configuration audio à canal unique de la transcription de réunion est actuellement disponible uniquement en préversion privée.

Les exemples de voix d’utilisateur pour les signatures vocales sont obligatoires pour identifier les orateurs. Les orateurs qui n’ont pas d’échantillons de voix sont reconnus comme étant non identifiés. Les orateurs non identifiés peuvent toujours être différenciés quand la propriété DifferentiateGuestSpeakers est activée (consultez l’exemple suivant). La sortie de transcription affiche ensuite les orateurs sous la forme, par exemple, de Guest_0 et Guest_1, au lieu de les reconnaître en tant que noms d’orateurs spécifiques préinscrits.

config.SetProperty("DifferentiateGuestSpeakers", "true");

Comparaison entre temps réel et asynchrone

Les sections suivantes fournissent plus de détails sur les modes de transcription que vous pouvez choisir.

Temps réel

Les données audio sont traitées en temps réel pour retourner l’identificateur de l’orateur et la transcription de ses propos. Sélectionnez ce mode si votre solution de transcription doit fournir aux participants à la réunion une vue de la transcription en direct de leur réunion en cours. Par exemple, la création d’une application permettant de rendre les réunions plus accessibles aux participants sourds ou malentendants est un cas d’usage idéal pour la transcription en temps réel.

Asynchrone

Les données audio sont traitées par lots pour retourner l’identificateur de l’orateur et la transcription de ses propos. Sélectionnez ce mode si votre solution de transcription doit être d’une plus grande justesse, sans affichage de la transcription en temps réel. Par exemple, si vous souhaitez créer une application pour permettre aux participants à des réunions de rattraper facilement les réunions manquées, utilisez le mode de transcription asynchrone pour obtenir des résultats de transcription haute précision.

Temps réel plus asynchrone

Les données audio sont traitées en temps réel pour retourner l’identificateur de l’orateur et la transcription de ses propos. Une requête est créée pour obtenir une transcription d’une grande justesse via un traitement asynchrone. Sélectionnez ce mode si votre application a besoin d’une transcription en temps réel, et si elle nécessite également l’utilisation d’une transcription d’une plus grande exactitude après la réunion.

Support multilingue

La transcription de réunion prend actuellement en charge toutes les langues de reconnaissance vocale dans les régions suivantes : centralus, eastasia, eastus et westeurope.

Étapes suivantes

Démarrage rapide : Transcription en temps réel de la réunion

Partage via