Qu’est-ce qu’une transcription de réunion ? (Préversion)
La transcription de réunion est une solution de reconnaissance vocale qui permet la transcription en temps réel ou asynchrone des réunions. Cette fonctionnalité, qui est actuellement en préversion, combine la reconnaissance vocale, l’identification de l’orateur et l’attribution de phrases pour déterminer qui a dit quoi et quand pendant une réunion.
Important
L’ancien scénario de « transcription de conversation » est renommé en « transcription de réunion ». Par exemple, utilisez MeetingTranscriber
au lieu de ConversationTranscriber
et CreateMeetingAsync
au lieu de CreateConversationAsync
. Une nouvelle fonctionnalité de « transcription de conversation » est publiée sans l’utilisation de profils utilisateur et de signatures vocales. Pour plus d’informations, consultez les notes de publication.
Fonctionnalités clés
Les fonctionnalités suivantes de transcription de réunion peuvent vous être utiles :
- Horodatages : chaque énoncé d’orateur inclut un horodatage, ce qui vous permet de retrouver facilement le moment où une expression a été dite.
- Transcriptions lisibles : une mise en forme et une ponctuation sont automatiquement ajoutées aux transcriptions pour que le texte corresponde exactement à ce qui a été dit.
- Profils utilisateur : des profils utilisateur sont générés via la collecte d’échantillons de voix d’utilisateurs, et leur envoi au service de génération de signatures.
- Identification de l’orateur : les orateurs sont identifiés à l’aide de profils utilisateur. Un identificateur d’orateur est affecté à chacun d’entre eux.
- Diarisation de plusieurs orateurs : déterminez qui a dit quoi en synthétisant le flux audio avec chaque identificateur d’orateur.
- Transcription en temps réel : Fournit des transcriptions en direct de qui dit quoi et quand pendant la réunion.
- Transcription asynchrone : fournissez des transcriptions d’une plus grande justesse à l’aide d’un flux audio multicanal.
Notes
Bien que la transcription de réunion ne limite pas le nombre d’orateurs dans la salle, elle est optimisée pour 2 à 10 orateurs par session.
Bien démarrer
Consultez le démarrage rapide sur la transcription de réunion en temps réel pour commencer.
Cas d'utilisation
Pour inclure tout le monde dans les réunions, par exemple les participants sourds et malentendants, il est important de disposer d’une transcription en temps réel. La transcription de réunion en temps réel enregistre le son de la réunion et détermine qui dit quoi, permettant ainsi à tous les participants à la réunion de suivre la transcription et de participer à la réunion, sans délai.
Les participants à la réunion peuvent se concentrer sur la réunion et laisser la transcription de réunion prendre les notes. Les participants peuvent participer activement à la réunion et suivre rapidement les étapes suivantes grâce à la transcription au lieu de prendre des notes et éventuellement de manquer des éléments pendant la réunion.
Fonctionnement
Le diagramme suivant montre une vue d’ensemble de la fonctionnalité.
Entrées attendues
La transcription de réunion utilise deux types d’entrée :
- Flux audio multicanal : pour plus d’informations sur les spécifications et la conception, consultez les recommandations sur le réseau de microphones.
- Exemples de voix d’utilisateur : La transcription de réunion a besoin des profils utilisateur avant la conversation pour pouvoir identifier les orateurs. Collectez les enregistrements audio de chaque utilisateur, puis envoyez-les au service de génération de signatures pour valider le contenu audio et générer des profils utilisateur.
Notes
La configuration audio à canal unique de la transcription de réunion est actuellement disponible uniquement en préversion privée.
Les exemples de voix d’utilisateur pour les signatures vocales sont obligatoires pour identifier les orateurs. Les orateurs qui n’ont pas d’échantillons de voix sont reconnus comme étant non identifiés. Les orateurs non identifiés peuvent toujours être différenciés quand la propriété DifferentiateGuestSpeakers
est activée (consultez l’exemple suivant). La sortie de transcription affiche ensuite les orateurs sous la forme, par exemple, de Guest_0 et Guest_1, au lieu de les reconnaître en tant que noms d’orateurs spécifiques préinscrits.
config.SetProperty("DifferentiateGuestSpeakers", "true");
Comparaison entre temps réel et asynchrone
Les sections suivantes fournissent plus de détails sur les modes de transcription que vous pouvez choisir.
Temps réel
Les données audio sont traitées en temps réel pour retourner l’identificateur de l’orateur et la transcription de ses propos. Sélectionnez ce mode si votre solution de transcription doit fournir aux participants à la réunion une vue de la transcription en direct de leur réunion en cours. Par exemple, la création d’une application permettant de rendre les réunions plus accessibles aux participants sourds ou malentendants est un cas d’usage idéal pour la transcription en temps réel.
Asynchrone
Les données audio sont traitées par lots pour retourner l’identificateur de l’orateur et la transcription de ses propos. Sélectionnez ce mode si votre solution de transcription doit être d’une plus grande justesse, sans affichage de la transcription en temps réel. Par exemple, si vous souhaitez créer une application pour permettre aux participants à des réunions de rattraper facilement les réunions manquées, utilisez le mode de transcription asynchrone pour obtenir des résultats de transcription haute précision.
Temps réel plus asynchrone
Les données audio sont traitées en temps réel pour retourner l’identificateur de l’orateur et la transcription de ses propos. Une requête est créée pour obtenir une transcription d’une grande justesse via un traitement asynchrone. Sélectionnez ce mode si votre application a besoin d’une transcription en temps réel, et si elle nécessite également l’utilisation d’une transcription d’une plus grande exactitude après la réunion.
Support multilingue
La transcription de réunion prend actuellement en charge toutes les langues de reconnaissance vocale dans les régions suivantes : centralus
, eastasia
, eastus
et westeurope
.
Étapes suivantes
Commentaires
https://aka.ms/ContentUserFeedback.
Bientôt disponible : Tout au long de l’année 2024, nous abandonnerons progressivement le mécanisme de retour d’information GitHub Issues pour le remplacer par un nouveau système de commentaires. Pour plus d’informations, consultez :Soumettre et afficher des commentaires pour