Partage via


Obtenir les résultats de reconnaissance vocale

Documentation de référence | Package (NuGet) | Exemples supplémentaires sur GitHub

Dans ce guide pratique, vous allez découvrir comment utiliser les résultats de la reconnaissance vocale.

Synchronisation de Speech

Vous pouvez synchroniser les transcriptions avec une piste audio, qu’elle soit effectuée en temps réel ou avec un préenregistrement.

Le service Speech retourne le décalage et la durée de la reconnaissance vocale.

  • Décalage : décalage dans le flux audio reconnu, exprimé sous forme de durée. Le décalage est mesuré en cycles, à partir de 0 (zéro) cycle, associé au premier octet audio traité par le kit SDK. Par exemple, le décalage commence lorsque vous démarrez la reconnaissance, car c’est le moment où le kit SDK démarre le traitement du flux audio. Un cycle représente cent nanosecondes ou un dix-millionième de seconde.
  • Durée : durée de l’énoncé reconnu. La durée des cycles n’inclut pas le silence de fin ou de début.

La fin d’un énoncé est déterminé en écoutant le silence de fin. Vous n’obtiendrez pas le résultat final de la reconnaissance tant qu’un énoncé n’est pas terminé. La reconnaissance des événements fournit des résultats intermédiaires qui sont sujets à modification pendant qu’un flux audio est traité. Les événements reconnus fournissent le texte transcrit final une fois le traitement d’un énoncé terminé.

Reconnaître le décalage et la durée

Avec l’événement Recognizing, vous pouvez obtenir le décalage et la durée de la reconnaissance vocale. Les décalages et la durée par mot ne sont pas disponibles lorsque la reconnaissance est en cours. Chaque événement Recognizing est fourni avec une estimation textuelle de la parole reconnue jusqu’à présent.

Cet extrait de code montre comment obtenir le décalage et la durée d’un événement Recognizing.

speechRecognizer.Recognizing += (object sender, SpeechRecognitionEventArgs e) =>
    {
        if (e.Result.Reason == ResultReason.RecognizingSpeech)
        {        
            Console.WriteLine(String.Format ("RECOGNIZING: {0}", e.Result.Text));
            Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
            Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
        }
    };

Décalage et durée reconnue

Une fois qu’un énoncé a été reconnu, vous pouvez obtenir le décalage et la durée de la parole reconnue. Avec l’événement Recognized, vous pouvez également obtenir le décalage et la durée par mot. Pour demander le décalage et la durée par mot, vous devez d’abord définir la propriété SpeechConfig correspondante comme indiqué ici :

speechConfig.RequestWordLevelTimestamps();

Cet extrait de code montre comment obtenir le décalage et la durée d’un événement Recognized.

speechRecognizer.Recognized += (object sender, SpeechRecognitionEventArgs e) =>
    {
        if (ResultReason.RecognizedSpeech == e.Result.Reason && e.Result.Text.Length > 0)
        {            
            Console.WriteLine($"RECOGNIZED: Text={e.Result.Text}");
            Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
            Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
                        
            var detailedResults = e.Result.Best();
            if(detailedResults != null && detailedResults.Any())
            {
                // The first item in detailedResults corresponds to the recognized text.
                // This is not necessarily the item with the highest confidence number.
                var bestResults = detailedResults?.ToList()[0];
                Console.WriteLine(String.Format("\tConfidence: {0}\n\tText: {1}\n\tLexicalForm: {2}\n\tNormalizedForm: {3}\n\tMaskedNormalizedForm: {4}",
                    bestResults.Confidence, bestResults.Text, bestResults.LexicalForm, bestResults.NormalizedForm, bestResults.MaskedNormalizedForm));
                // You must set speechConfig.RequestWordLevelTimestamps() to get word-level timestamps.
                Console.WriteLine($"\tWord-level timing:");
                Console.WriteLine($"\t\tWord | Offset | Duration");
                Console.WriteLine($"\t\t----- | ----- | ----- ");

                foreach (var word in bestResults.Words)
                {
                    Console.WriteLine($"\t\t{word.Word} | {word.Offset} | {word.Duration}");
                }
            }
        }
    };

exemple de décalage et de durée

Le tableau suivant montre un décalage potentiel et une durée dans les cycles lorsqu’un orateur indique « Bienvenue dans le cours mathématiques appliqué 201 ». Dans cet exemple, le décalage ne change pas tout au long des événements Recognizing et Recognized. Toutefois, ne vous attendez pas à ce que le décalage reste le même entre les événements Recognizing et Recognized, car le résultat final peut être différent.

Événement Texte Décalage (en cycles) Durée (en cycles)
RECONNAÎTRE bienvenue 17000000 5000000
RECONNAÎTRE bienvenue dans 17000000 6400000
RECONNAÎTRE bienvenue dans les mathématiques appliquées 17000000 13600000
RECONNAÎTRE bienvenue dans les mathématiques appliquées 17000000 17200000
RECONNAÎTRE bienvenue dans le cours de mathématiques appliquées 17000000 23700000
RECONNAÎTRE bienvenue dans le cours de mathématiques appliquées 2 17000000 26700000
RECONNAÎTRE bienvenue dans le cours de mathématiques appliquées 201 17000000 33400000
RECONNU Bienvenue dans le cours de mathématiques appliquées 201. 17000000 34500000

La durée totale du premier énoncé était de 3,45 secondes. Il a été reconnu à 1,7 à 5,15 secondes de décalage à partir du début de la reconnaissance vocale (00:00:01.700 --> 00:00:05.150).

Si l’orateur continue de dire « Commençons », un nouveau décalage est calculé à partir du début du flux audio reconnu, jusqu’au début du nouvel énoncé. Le tableau suivant montre le décalage potentiel et la durée d’un énoncé qui a commencé deux secondes après la fin de l’énoncé précédent.

Événement Texte Décalage (en cycles) Durée (en cycles)
RECONNAÎTRE OK 71500000 3100000
RECONNAÎTRE OK, maintenant 71500000 10300000
RECONNAÎTRE OK, maintenant, nous allons 71500000 14700000
RECONNAÎTRE Ok, maintenant, commençons 71500000 18500000
RECONNU Ok, maintenant, commençons. 71500000 20600000

La durée totale du deuxième énoncé était de 2,06 secondes. Il a été reconnu à 7,15 à 9,21 secondes de décalage à partir du début de la reconnaissance vocale (00:00:07.150 --> 00:00:09.210).

Documentation de référence | Package (NuGet) | Exemples supplémentaires sur GitHub

Dans ce guide pratique, vous allez découvrir comment utiliser les résultats de la reconnaissance vocale.

Synchronisation de Speech

Vous pouvez synchroniser les transcriptions avec une piste audio, qu’elle soit effectuée en temps réel ou avec un préenregistrement.

Le service Speech retourne le décalage et la durée de la reconnaissance vocale.

  • Décalage : décalage dans le flux audio reconnu, exprimé sous forme de durée. Le décalage est mesuré en cycles, à partir de 0 (zéro) cycle, associé au premier octet audio traité par le kit SDK. Par exemple, le décalage commence lorsque vous démarrez la reconnaissance, car c’est le moment où le kit SDK démarre le traitement du flux audio. Un cycle représente cent nanosecondes ou un dix-millionième de seconde.
  • Durée : durée de l’énoncé reconnu. La durée des cycles n’inclut pas le silence de fin ou de début.

La fin d’un énoncé est déterminé en écoutant le silence de fin. Vous n’obtiendrez pas le résultat final de la reconnaissance tant qu’un énoncé n’est pas terminé. La reconnaissance des événements fournit des résultats intermédiaires qui sont sujets à modification pendant qu’un flux audio est traité. Les événements reconnus fournissent le texte transcrit final une fois le traitement d’un énoncé terminé.

Reconnaître le décalage et la durée

Avec l’événement Recognizing, vous pouvez obtenir le décalage et la durée de la reconnaissance vocale. Les décalages et la durée par mot ne sont pas disponibles lorsque la reconnaissance est en cours. Chaque événement Recognizing est fourni avec une estimation textuelle de la parole reconnue jusqu’à présent.

Cet extrait de code montre comment obtenir le décalage et la durée d’un événement Recognizing.

speechRecognizer->Recognizing.Connect([](const SpeechRecognitionEventArgs& e)
    {
        cout << "Recognizing:" << e.Result->Text << std::endl;
        cout << "Offset in Ticks:" << e.Result->Offset() << std::endl;
        cout << "Duration in Ticks:" << e.Result->Duration() << std::endl;
    });

Décalage et durée reconnue

Une fois qu’un énoncé a été reconnu, vous pouvez obtenir le décalage et la durée de la parole reconnue. Avec l’événement Recognized, vous pouvez également obtenir le décalage et la durée par mot. Pour demander le décalage et la durée par mot, vous devez d’abord définir la propriété SpeechConfig correspondante comme indiqué ici :

speechConfig->RequestWordLevelTimestamps();

exemple de décalage et de durée

Le tableau suivant montre un décalage potentiel et une durée dans les cycles lorsqu’un orateur indique « Bienvenue dans le cours mathématiques appliqué 201 ». Dans cet exemple, le décalage ne change pas tout au long des événements Recognizing et Recognized. Toutefois, ne vous attendez pas à ce que le décalage reste le même entre les événements Recognizing et Recognized, car le résultat final peut être différent.

Événement Texte Décalage (en cycles) Durée (en cycles)
RECONNAÎTRE bienvenue 17000000 5000000
RECONNAÎTRE bienvenue dans 17000000 6400000
RECONNAÎTRE bienvenue dans les mathématiques appliquées 17000000 13600000
RECONNAÎTRE bienvenue dans les mathématiques appliquées 17000000 17200000
RECONNAÎTRE bienvenue dans le cours de mathématiques appliquées 17000000 23700000
RECONNAÎTRE bienvenue dans le cours de mathématiques appliquées 2 17000000 26700000
RECONNAÎTRE bienvenue dans le cours de mathématiques appliquées 201 17000000 33400000
RECONNU Bienvenue dans le cours de mathématiques appliquées 201. 17000000 34500000

La durée totale du premier énoncé était de 3,45 secondes. Il a été reconnu à 1,7 à 5,15 secondes de décalage à partir du début de la reconnaissance vocale (00:00:01.700 --> 00:00:05.150).

Si l’orateur continue de dire « Commençons », un nouveau décalage est calculé à partir du début du flux audio reconnu, jusqu’au début du nouvel énoncé. Le tableau suivant montre le décalage potentiel et la durée d’un énoncé qui a commencé deux secondes après la fin de l’énoncé précédent.

Événement Texte Décalage (en cycles) Durée (en cycles)
RECONNAÎTRE OK 71500000 3100000
RECONNAÎTRE OK, maintenant 71500000 10300000
RECONNAÎTRE OK, maintenant, nous allons 71500000 14700000
RECONNAÎTRE Ok, maintenant, commençons 71500000 18500000
RECONNU Ok, maintenant, commençons. 71500000 20600000

La durée totale du deuxième énoncé était de 2,06 secondes. Il a été reconnu à 7,15 à 9,21 secondes de décalage à partir du début de la reconnaissance vocale (00:00:07.150 --> 00:00:09.210).

Documentation de référence | Package (Go) | Exemples supplémentaires sur GitHub

Dans ce guide pratique, vous allez découvrir comment utiliser les résultats de la reconnaissance vocale.

Synchronisation de Speech

Vous pouvez synchroniser les transcriptions avec une piste audio, qu’elle soit effectuée en temps réel ou avec un préenregistrement.

Le service Speech retourne le décalage et la durée de la reconnaissance vocale.

  • Décalage : décalage dans le flux audio reconnu, exprimé sous forme de durée. Le décalage est mesuré en cycles, à partir de 0 (zéro) cycle, associé au premier octet audio traité par le kit SDK. Par exemple, le décalage commence lorsque vous démarrez la reconnaissance, car c’est le moment où le kit SDK démarre le traitement du flux audio. Un cycle représente cent nanosecondes ou un dix-millionième de seconde.
  • Durée : durée de l’énoncé reconnu. La durée des cycles n’inclut pas le silence de fin ou de début.

La fin d’un énoncé est déterminé en écoutant le silence de fin. Vous n’obtiendrez pas le résultat final de la reconnaissance tant qu’un énoncé n’est pas terminé. La reconnaissance des événements fournit des résultats intermédiaires qui sont sujets à modification pendant qu’un flux audio est traité. Les événements reconnus fournissent le texte transcrit final une fois le traitement d’un énoncé terminé.

Reconnaître le décalage et la durée

Avec l’événement Recognizing, vous pouvez obtenir le décalage et la durée de la reconnaissance vocale. Les décalages et la durée par mot ne sont pas disponibles lorsque la reconnaissance est en cours. Chaque événement Recognizing est fourni avec une estimation textuelle de la parole reconnue jusqu’à présent.

Cet extrait de code montre comment obtenir le décalage et la durée d’un événement Recognizing.

func recognizingHandler(event speech.SpeechRecognitionEventArgs) {
    defer event.Close()
    fmt.Println("Recognizing:", event.Result.Text)
    fmt.Println("Offset in Ticks:", event.Result.Offset)
    fmt.Println("Duration in Ticks:", event.Result.Duration)
}

Décalage et durée reconnue

Une fois qu’un énoncé a été reconnu, vous pouvez obtenir le décalage et la durée de la parole reconnue. Avec l’événement Recognized, vous pouvez également obtenir le décalage et la durée par mot. Pour demander le décalage et la durée par mot, vous devez d’abord définir la propriété SpeechConfig correspondante comme indiqué ici :

speechConfig.RequestWordLevelTimestamps();

exemple de décalage et de durée

Le tableau suivant montre un décalage potentiel et une durée dans les cycles lorsqu’un orateur indique « Bienvenue dans le cours mathématiques appliqué 201 ». Dans cet exemple, le décalage ne change pas tout au long des événements Recognizing et Recognized. Toutefois, ne vous attendez pas à ce que le décalage reste le même entre les événements Recognizing et Recognized, car le résultat final peut être différent.

Événement Texte Décalage (en cycles) Durée (en cycles)
RECONNAÎTRE bienvenue 17000000 5000000
RECONNAÎTRE bienvenue dans 17000000 6400000
RECONNAÎTRE bienvenue dans les mathématiques appliquées 17000000 13600000
RECONNAÎTRE bienvenue dans les mathématiques appliquées 17000000 17200000
RECONNAÎTRE bienvenue dans le cours de mathématiques appliquées 17000000 23700000
RECONNAÎTRE bienvenue dans le cours de mathématiques appliquées 2 17000000 26700000
RECONNAÎTRE bienvenue dans le cours de mathématiques appliquées 201 17000000 33400000
RECONNU Bienvenue dans le cours de mathématiques appliquées 201. 17000000 34500000

La durée totale du premier énoncé était de 3,45 secondes. Il a été reconnu à 1,7 à 5,15 secondes de décalage à partir du début de la reconnaissance vocale (00:00:01.700 --> 00:00:05.150).

Si l’orateur continue de dire « Commençons », un nouveau décalage est calculé à partir du début du flux audio reconnu, jusqu’au début du nouvel énoncé. Le tableau suivant montre le décalage potentiel et la durée d’un énoncé qui a commencé deux secondes après la fin de l’énoncé précédent.

Événement Texte Décalage (en cycles) Durée (en cycles)
RECONNAÎTRE OK 71500000 3100000
RECONNAÎTRE OK, maintenant 71500000 10300000
RECONNAÎTRE OK, maintenant, nous allons 71500000 14700000
RECONNAÎTRE Ok, maintenant, commençons 71500000 18500000
RECONNU Ok, maintenant, commençons. 71500000 20600000

La durée totale du deuxième énoncé était de 2,06 secondes. Il a été reconnu à 7,15 à 9,21 secondes de décalage à partir du début de la reconnaissance vocale (00:00:07.150 --> 00:00:09.210).

Documentation de référence | Exemples supplémentaires sur GitHub

Dans ce guide pratique, vous allez découvrir comment utiliser les résultats de la reconnaissance vocale.

Synchronisation de Speech

Vous pouvez synchroniser les transcriptions avec une piste audio, qu’elle soit effectuée en temps réel ou avec un préenregistrement.

Le service Speech retourne le décalage et la durée de la reconnaissance vocale.

  • Décalage : décalage dans le flux audio reconnu, exprimé sous forme de durée. Le décalage est mesuré en cycles, à partir de 0 (zéro) cycle, associé au premier octet audio traité par le kit SDK. Par exemple, le décalage commence lorsque vous démarrez la reconnaissance, car c’est le moment où le kit SDK démarre le traitement du flux audio. Un cycle représente cent nanosecondes ou un dix-millionième de seconde.
  • Durée : durée de l’énoncé reconnu. La durée des cycles n’inclut pas le silence de fin ou de début.

La fin d’un énoncé est déterminé en écoutant le silence de fin. Vous n’obtiendrez pas le résultat final de la reconnaissance tant qu’un énoncé n’est pas terminé. La reconnaissance des événements fournit des résultats intermédiaires qui sont sujets à modification pendant qu’un flux audio est traité. Les événements reconnus fournissent le texte transcrit final une fois le traitement d’un énoncé terminé.

Reconnaître le décalage et la durée

Avec l’événement Recognizing, vous pouvez obtenir le décalage et la durée de la reconnaissance vocale. Les décalages et la durée par mot ne sont pas disponibles lorsque la reconnaissance est en cours. Chaque événement Recognizing est fourni avec une estimation textuelle de la parole reconnue jusqu’à présent.

Cet extrait de code montre comment obtenir le décalage et la durée d’un événement Recognizing.

speechRecognizer.recognizing.addEventListener((s, e) -> {
    System.out.println("RECOGNIZING: " + e.getResult().getText());
    System.out.println("Offset in Ticks: " + e.getResult().getOffset());
    System.out.println("Duration in Ticks: " + e.getResult().getDuration());
});

Décalage et durée reconnue

Une fois qu’un énoncé a été reconnu, vous pouvez obtenir le décalage et la durée de la parole reconnue. Avec l’événement Recognized, vous pouvez également obtenir le décalage et la durée par mot. Pour demander le décalage et la durée par mot, vous devez d’abord définir la propriété SpeechConfig correspondante comme indiqué ici :

speechConfig.requestWordLevelTimestamps();

exemple de décalage et de durée

Le tableau suivant montre un décalage potentiel et une durée dans les cycles lorsqu’un orateur indique « Bienvenue dans le cours mathématiques appliqué 201 ». Dans cet exemple, le décalage ne change pas tout au long des événements Recognizing et Recognized. Toutefois, ne vous attendez pas à ce que le décalage reste le même entre les événements Recognizing et Recognized, car le résultat final peut être différent.

Événement Texte Décalage (en cycles) Durée (en cycles)
RECONNAÎTRE bienvenue 17000000 5000000
RECONNAÎTRE bienvenue dans 17000000 6400000
RECONNAÎTRE bienvenue dans les mathématiques appliquées 17000000 13600000
RECONNAÎTRE bienvenue dans les mathématiques appliquées 17000000 17200000
RECONNAÎTRE bienvenue dans le cours de mathématiques appliquées 17000000 23700000
RECONNAÎTRE bienvenue dans le cours de mathématiques appliquées 2 17000000 26700000
RECONNAÎTRE bienvenue dans le cours de mathématiques appliquées 201 17000000 33400000
RECONNU Bienvenue dans le cours de mathématiques appliquées 201. 17000000 34500000

La durée totale du premier énoncé était de 3,45 secondes. Il a été reconnu à 1,7 à 5,15 secondes de décalage à partir du début de la reconnaissance vocale (00:00:01.700 --> 00:00:05.150).

Si l’orateur continue de dire « Commençons », un nouveau décalage est calculé à partir du début du flux audio reconnu, jusqu’au début du nouvel énoncé. Le tableau suivant montre le décalage potentiel et la durée d’un énoncé qui a commencé deux secondes après la fin de l’énoncé précédent.

Événement Texte Décalage (en cycles) Durée (en cycles)
RECONNAÎTRE OK 71500000 3100000
RECONNAÎTRE OK, maintenant 71500000 10300000
RECONNAÎTRE OK, maintenant, nous allons 71500000 14700000
RECONNAÎTRE Ok, maintenant, commençons 71500000 18500000
RECONNU Ok, maintenant, commençons. 71500000 20600000

La durée totale du deuxième énoncé était de 2,06 secondes. Il a été reconnu à 7,15 à 9,21 secondes de décalage à partir du début de la reconnaissance vocale (00:00:07.150 --> 00:00:09.210).

Documentation de référence | Package (npm) | Exemples supplémentaires sur GitHub | Code source de la bibliothèque

Dans ce guide pratique, vous allez découvrir comment utiliser les résultats de la reconnaissance vocale.

Synchronisation de Speech

Vous pouvez synchroniser les transcriptions avec une piste audio, qu’elle soit effectuée en temps réel ou avec un préenregistrement.

Le service Speech retourne le décalage et la durée de la reconnaissance vocale.

  • Décalage : décalage dans le flux audio reconnu, exprimé sous forme de durée. Le décalage est mesuré en cycles, à partir de 0 (zéro) cycle, associé au premier octet audio traité par le kit SDK. Par exemple, le décalage commence lorsque vous démarrez la reconnaissance, car c’est le moment où le kit SDK démarre le traitement du flux audio. Un cycle représente cent nanosecondes ou un dix-millionième de seconde.
  • Durée : durée de l’énoncé reconnu. La durée des cycles n’inclut pas le silence de fin ou de début.

La fin d’un énoncé est déterminé en écoutant le silence de fin. Vous n’obtiendrez pas le résultat final de la reconnaissance tant qu’un énoncé n’est pas terminé. La reconnaissance des événements fournit des résultats intermédiaires qui sont sujets à modification pendant qu’un flux audio est traité. Les événements reconnus fournissent le texte transcrit final une fois le traitement d’un énoncé terminé.

Reconnaître le décalage et la durée

Avec l’événement Recognizing, vous pouvez obtenir le décalage et la durée de la reconnaissance vocale. Les décalages et la durée par mot ne sont pas disponibles lorsque la reconnaissance est en cours. Chaque événement Recognizing est fourni avec une estimation textuelle de la parole reconnue jusqu’à présent.

Cet extrait de code montre comment obtenir le décalage et la durée d’un événement Recognizing.

speechRecognizer.recognizing = function (s, e) {
    console.log("RECOGNIZING: " + e.result.text);
    console.log("Offset in Ticks: " + e.result.offset);
    console.log("Duration in Ticks: " + e.result.duration);
};

Décalage et durée reconnue

Une fois qu’un énoncé a été reconnu, vous pouvez obtenir le décalage et la durée de la parole reconnue. Avec l’événement Recognized, vous pouvez également obtenir le décalage et la durée par mot. Pour demander le décalage et la durée par mot, vous devez d’abord définir la propriété SpeechConfig correspondante comme indiqué ici :

speechConfig.requestWordLevelTimestamps();

exemple de décalage et de durée

Le tableau suivant montre un décalage potentiel et une durée dans les cycles lorsqu’un orateur indique « Bienvenue dans le cours mathématiques appliqué 201 ». Dans cet exemple, le décalage ne change pas tout au long des événements Recognizing et Recognized. Toutefois, ne vous attendez pas à ce que le décalage reste le même entre les événements Recognizing et Recognized, car le résultat final peut être différent.

Événement Texte Décalage (en cycles) Durée (en cycles)
RECONNAÎTRE bienvenue 17000000 5000000
RECONNAÎTRE bienvenue dans 17000000 6400000
RECONNAÎTRE bienvenue dans les mathématiques appliquées 17000000 13600000
RECONNAÎTRE bienvenue dans les mathématiques appliquées 17000000 17200000
RECONNAÎTRE bienvenue dans le cours de mathématiques appliquées 17000000 23700000
RECONNAÎTRE bienvenue dans le cours de mathématiques appliquées 2 17000000 26700000
RECONNAÎTRE bienvenue dans le cours de mathématiques appliquées 201 17000000 33400000
RECONNU Bienvenue dans le cours de mathématiques appliquées 201. 17000000 34500000

La durée totale du premier énoncé était de 3,45 secondes. Il a été reconnu à 1,7 à 5,15 secondes de décalage à partir du début de la reconnaissance vocale (00:00:01.700 --> 00:00:05.150).

Si l’orateur continue de dire « Commençons », un nouveau décalage est calculé à partir du début du flux audio reconnu, jusqu’au début du nouvel énoncé. Le tableau suivant montre le décalage potentiel et la durée d’un énoncé qui a commencé deux secondes après la fin de l’énoncé précédent.

Événement Texte Décalage (en cycles) Durée (en cycles)
RECONNAÎTRE OK 71500000 3100000
RECONNAÎTRE OK, maintenant 71500000 10300000
RECONNAÎTRE OK, maintenant, nous allons 71500000 14700000
RECONNAÎTRE Ok, maintenant, commençons 71500000 18500000
RECONNU Ok, maintenant, commençons. 71500000 20600000

La durée totale du deuxième énoncé était de 2,06 secondes. Il a été reconnu à 7,15 à 9,21 secondes de décalage à partir du début de la reconnaissance vocale (00:00:07.150 --> 00:00:09.210).

Documentation de référence | Package (téléchargement) | Exemples supplémentaires sur GitHub

Dans ce guide pratique, vous allez découvrir comment utiliser les résultats de la reconnaissance vocale.

Synchronisation de Speech

Vous pouvez synchroniser les transcriptions avec une piste audio, qu’elle soit effectuée en temps réel ou avec un préenregistrement.

Le service Speech retourne le décalage et la durée de la reconnaissance vocale.

  • Décalage : décalage dans le flux audio reconnu, exprimé sous forme de durée. Le décalage est mesuré en cycles, à partir de 0 (zéro) cycle, associé au premier octet audio traité par le kit SDK. Par exemple, le décalage commence lorsque vous démarrez la reconnaissance, car c’est le moment où le kit SDK démarre le traitement du flux audio. Un cycle représente cent nanosecondes ou un dix-millionième de seconde.
  • Durée : durée de l’énoncé reconnu. La durée des cycles n’inclut pas le silence de fin ou de début.

La fin d’un énoncé est déterminé en écoutant le silence de fin. Vous n’obtiendrez pas le résultat final de la reconnaissance tant qu’un énoncé n’est pas terminé. La reconnaissance des événements fournit des résultats intermédiaires qui sont sujets à modification pendant qu’un flux audio est traité. Les événements reconnus fournissent le texte transcrit final une fois le traitement d’un énoncé terminé.

Reconnaître le décalage et la durée

Avec l’événement Recognizing, vous pouvez obtenir le décalage et la durée de la reconnaissance vocale. Les décalages et la durée par mot ne sont pas disponibles lorsque la reconnaissance est en cours. Chaque événement Recognizing est fourni avec une estimation textuelle de la parole reconnue jusqu’à présent.

Décalage et durée reconnue

Une fois qu’un énoncé a été reconnu, vous pouvez obtenir le décalage et la durée de la parole reconnue. Avec l’événement Recognized, vous pouvez également obtenir le décalage et la durée par mot. Pour demander le décalage et la durée par mot, vous devez d’abord définir la propriété SpeechConfig correspondante comme indiqué ici :

[speechConfig requestWordLevelTimestamps];

exemple de décalage et de durée

Le tableau suivant montre un décalage potentiel et une durée dans les cycles lorsqu’un orateur indique « Bienvenue dans le cours mathématiques appliqué 201 ». Dans cet exemple, le décalage ne change pas tout au long des événements Recognizing et Recognized. Toutefois, ne vous attendez pas à ce que le décalage reste le même entre les événements Recognizing et Recognized, car le résultat final peut être différent.

Événement Texte Décalage (en cycles) Durée (en cycles)
RECONNAÎTRE bienvenue 17000000 5000000
RECONNAÎTRE bienvenue dans 17000000 6400000
RECONNAÎTRE bienvenue dans les mathématiques appliquées 17000000 13600000
RECONNAÎTRE bienvenue dans les mathématiques appliquées 17000000 17200000
RECONNAÎTRE bienvenue dans le cours de mathématiques appliquées 17000000 23700000
RECONNAÎTRE bienvenue dans le cours de mathématiques appliquées 2 17000000 26700000
RECONNAÎTRE bienvenue dans le cours de mathématiques appliquées 201 17000000 33400000
RECONNU Bienvenue dans le cours de mathématiques appliquées 201. 17000000 34500000

La durée totale du premier énoncé était de 3,45 secondes. Il a été reconnu à 1,7 à 5,15 secondes de décalage à partir du début de la reconnaissance vocale (00:00:01.700 --> 00:00:05.150).

Si l’orateur continue de dire « Commençons », un nouveau décalage est calculé à partir du début du flux audio reconnu, jusqu’au début du nouvel énoncé. Le tableau suivant montre le décalage potentiel et la durée d’un énoncé qui a commencé deux secondes après la fin de l’énoncé précédent.

Événement Texte Décalage (en cycles) Durée (en cycles)
RECONNAÎTRE OK 71500000 3100000
RECONNAÎTRE OK, maintenant 71500000 10300000
RECONNAÎTRE OK, maintenant, nous allons 71500000 14700000
RECONNAÎTRE Ok, maintenant, commençons 71500000 18500000
RECONNU Ok, maintenant, commençons. 71500000 20600000

La durée totale du deuxième énoncé était de 2,06 secondes. Il a été reconnu à 7,15 à 9,21 secondes de décalage à partir du début de la reconnaissance vocale (00:00:07.150 --> 00:00:09.210).

Documentation de référence | Package (téléchargement) | Exemples supplémentaires sur GitHub

Dans ce guide pratique, vous allez découvrir comment utiliser les résultats de la reconnaissance vocale.

Synchronisation de Speech

Vous pouvez synchroniser les transcriptions avec une piste audio, qu’elle soit effectuée en temps réel ou avec un préenregistrement.

Le service Speech retourne le décalage et la durée de la reconnaissance vocale.

  • Décalage : décalage dans le flux audio reconnu, exprimé sous forme de durée. Le décalage est mesuré en cycles, à partir de 0 (zéro) cycle, associé au premier octet audio traité par le kit SDK. Par exemple, le décalage commence lorsque vous démarrez la reconnaissance, car c’est le moment où le kit SDK démarre le traitement du flux audio. Un cycle représente cent nanosecondes ou un dix-millionième de seconde.
  • Durée : durée de l’énoncé reconnu. La durée des cycles n’inclut pas le silence de fin ou de début.

La fin d’un énoncé est déterminé en écoutant le silence de fin. Vous n’obtiendrez pas le résultat final de la reconnaissance tant qu’un énoncé n’est pas terminé. La reconnaissance des événements fournit des résultats intermédiaires qui sont sujets à modification pendant qu’un flux audio est traité. Les événements reconnus fournissent le texte transcrit final une fois le traitement d’un énoncé terminé.

Reconnaître le décalage et la durée

Avec l’événement Recognizing, vous pouvez obtenir le décalage et la durée de la reconnaissance vocale. Les décalages et la durée par mot ne sont pas disponibles lorsque la reconnaissance est en cours. Chaque événement Recognizing est fourni avec une estimation textuelle de la parole reconnue jusqu’à présent.

Décalage et durée reconnue

Une fois qu’un énoncé a été reconnu, vous pouvez obtenir le décalage et la durée de la parole reconnue. Avec l’événement Recognized, vous pouvez également obtenir le décalage et la durée par mot. Pour demander le décalage et la durée par mot, vous devez d’abord définir la propriété SpeechConfig correspondante comme indiqué ici :

[speechConfig requestWordLevelTimestamps];

exemple de décalage et de durée

Le tableau suivant montre un décalage potentiel et une durée dans les cycles lorsqu’un orateur indique « Bienvenue dans le cours mathématiques appliqué 201 ». Dans cet exemple, le décalage ne change pas tout au long des événements Recognizing et Recognized. Toutefois, ne vous attendez pas à ce que le décalage reste le même entre les événements Recognizing et Recognized, car le résultat final peut être différent.

Événement Texte Décalage (en cycles) Durée (en cycles)
RECONNAÎTRE bienvenue 17000000 5000000
RECONNAÎTRE bienvenue dans 17000000 6400000
RECONNAÎTRE bienvenue dans les mathématiques appliquées 17000000 13600000
RECONNAÎTRE bienvenue dans les mathématiques appliquées 17000000 17200000
RECONNAÎTRE bienvenue dans le cours de mathématiques appliquées 17000000 23700000
RECONNAÎTRE bienvenue dans le cours de mathématiques appliquées 2 17000000 26700000
RECONNAÎTRE bienvenue dans le cours de mathématiques appliquées 201 17000000 33400000
RECONNU Bienvenue dans le cours de mathématiques appliquées 201. 17000000 34500000

La durée totale du premier énoncé était de 3,45 secondes. Il a été reconnu à 1,7 à 5,15 secondes de décalage à partir du début de la reconnaissance vocale (00:00:01.700 --> 00:00:05.150).

Si l’orateur continue de dire « Commençons », un nouveau décalage est calculé à partir du début du flux audio reconnu, jusqu’au début du nouvel énoncé. Le tableau suivant montre le décalage potentiel et la durée d’un énoncé qui a commencé deux secondes après la fin de l’énoncé précédent.

Événement Texte Décalage (en cycles) Durée (en cycles)
RECONNAÎTRE OK 71500000 3100000
RECONNAÎTRE OK, maintenant 71500000 10300000
RECONNAÎTRE OK, maintenant, nous allons 71500000 14700000
RECONNAÎTRE Ok, maintenant, commençons 71500000 18500000
RECONNU Ok, maintenant, commençons. 71500000 20600000

La durée totale du deuxième énoncé était de 2,06 secondes. Il a été reconnu à 7,15 à 9,21 secondes de décalage à partir du début de la reconnaissance vocale (00:00:07.150 --> 00:00:09.210).

Documentation de référence | Package (PyPi) | Exemples supplémentaires sur GitHub

Dans ce guide pratique, vous allez découvrir comment utiliser les résultats de la reconnaissance vocale.

Synchronisation de Speech

Vous pouvez synchroniser les transcriptions avec une piste audio, qu’elle soit effectuée en temps réel ou avec un préenregistrement.

Le service Speech retourne le décalage et la durée de la reconnaissance vocale.

  • Décalage : décalage dans le flux audio reconnu, exprimé sous forme de durée. Le décalage est mesuré en cycles, à partir de 0 (zéro) cycle, associé au premier octet audio traité par le kit SDK. Par exemple, le décalage commence lorsque vous démarrez la reconnaissance, car c’est le moment où le kit SDK démarre le traitement du flux audio. Un cycle représente cent nanosecondes ou un dix-millionième de seconde.
  • Durée : durée de l’énoncé reconnu. La durée des cycles n’inclut pas le silence de fin ou de début.

La fin d’un énoncé est déterminé en écoutant le silence de fin. Vous n’obtiendrez pas le résultat final de la reconnaissance tant qu’un énoncé n’est pas terminé. La reconnaissance des événements fournit des résultats intermédiaires qui sont sujets à modification pendant qu’un flux audio est traité. Les événements reconnus fournissent le texte transcrit final une fois le traitement d’un énoncé terminé.

Reconnaître le décalage et la durée

Avec l’événement Recognizing, vous pouvez obtenir le décalage et la durée de la reconnaissance vocale. Les décalages et la durée par mot ne sont pas disponibles lorsque la reconnaissance est en cours. Chaque événement Recognizing est fourni avec une estimation textuelle de la parole reconnue jusqu’à présent.

Cet extrait de code montre comment obtenir le décalage et la durée d’un événement Recognizing.

def recognizing_handler(e : speechsdk.SpeechRecognitionEventArgs) :
    if speechsdk.ResultReason.RecognizingSpeech == e.result.reason and len(e.result.text) > 0 :
        print("Recognized: {}".format(result.text))
        print("Offset in Ticks: {}".format(result.offset))
        print("Duration in Ticks: {}".format(result.duration))

Décalage et durée reconnue

Une fois qu’un énoncé a été reconnu, vous pouvez obtenir le décalage et la durée de la parole reconnue. Avec l’événement Recognized, vous pouvez également obtenir le décalage et la durée par mot. Pour demander le décalage et la durée par mot, vous devez d’abord définir la propriété SpeechConfig correspondante comme indiqué ici :

speech_config.request_word_level_timestamps()

exemple de décalage et de durée

Le tableau suivant montre un décalage potentiel et une durée dans les cycles lorsqu’un orateur indique « Bienvenue dans le cours mathématiques appliqué 201 ». Dans cet exemple, le décalage ne change pas tout au long des événements Recognizing et Recognized. Toutefois, ne vous attendez pas à ce que le décalage reste le même entre les événements Recognizing et Recognized, car le résultat final peut être différent.

Événement Texte Décalage (en cycles) Durée (en cycles)
RECONNAÎTRE bienvenue 17000000 5000000
RECONNAÎTRE bienvenue dans 17000000 6400000
RECONNAÎTRE bienvenue dans les mathématiques appliquées 17000000 13600000
RECONNAÎTRE bienvenue dans les mathématiques appliquées 17000000 17200000
RECONNAÎTRE bienvenue dans le cours de mathématiques appliquées 17000000 23700000
RECONNAÎTRE bienvenue dans le cours de mathématiques appliquées 2 17000000 26700000
RECONNAÎTRE bienvenue dans le cours de mathématiques appliquées 201 17000000 33400000
RECONNU Bienvenue dans le cours de mathématiques appliquées 201. 17000000 34500000

La durée totale du premier énoncé était de 3,45 secondes. Il a été reconnu à 1,7 à 5,15 secondes de décalage à partir du début de la reconnaissance vocale (00:00:01.700 --> 00:00:05.150).

Si l’orateur continue de dire « Commençons », un nouveau décalage est calculé à partir du début du flux audio reconnu, jusqu’au début du nouvel énoncé. Le tableau suivant montre le décalage potentiel et la durée d’un énoncé qui a commencé deux secondes après la fin de l’énoncé précédent.

Événement Texte Décalage (en cycles) Durée (en cycles)
RECONNAÎTRE OK 71500000 3100000
RECONNAÎTRE OK, maintenant 71500000 10300000
RECONNAÎTRE OK, maintenant, nous allons 71500000 14700000
RECONNAÎTRE Ok, maintenant, commençons 71500000 18500000
RECONNU Ok, maintenant, commençons. 71500000 20600000

La durée totale du deuxième énoncé était de 2,06 secondes. Il a été reconnu à 7,15 à 9,21 secondes de décalage à partir du début de la reconnaissance vocale (00:00:07.150 --> 00:00:09.210).

Dans ce guide pratique, vous allez découvrir comment utiliser les résultats de la reconnaissance vocale.

Synchronisation de Speech

Vous pouvez synchroniser les transcriptions avec une piste audio, qu’elle soit effectuée en temps réel ou avec un préenregistrement.

Le service Speech retourne le décalage et la durée de la reconnaissance vocale.

  • Décalage : décalage dans le flux audio reconnu, exprimé sous forme de durée. Le décalage est mesuré en cycles, à partir de 0 (zéro) cycle, associé au premier octet audio traité par le kit SDK. Par exemple, le décalage commence lorsque vous démarrez la reconnaissance, car c’est le moment où le kit SDK démarre le traitement du flux audio. Un cycle représente cent nanosecondes ou un dix-millionième de seconde.
  • Durée : durée de l’énoncé reconnu. La durée des cycles n’inclut pas le silence de fin ou de début.

La fin d’un énoncé est déterminé en écoutant le silence de fin. Vous n’obtiendrez pas le résultat final de la reconnaissance tant qu’un énoncé n’est pas terminé. La reconnaissance des événements fournit des résultats intermédiaires qui sont sujets à modification pendant qu’un flux audio est traité. Les événements reconnus fournissent le texte transcrit final une fois le traitement d’un énoncé terminé.

Reconnaître le décalage et la durée

Vous devez synchroniser les sous-titres avec la piste audio, qu’elle soit effectuée en temps réel ou avec un préenregistrement. Avec l’événement Recognizing, vous pouvez obtenir le décalage et la durée de la reconnaissance vocale. Les décalages et la durée par mot ne sont pas disponibles lorsque la reconnaissance est en cours. Chaque événement Recognizing est fourni avec une estimation textuelle de la parole reconnue jusqu’à présent.

Par exemple, exécutez la commande suivante pour obtenir le décalage et la durée de la reconnaissance vocale :

spx recognize --file caption.this.mp4 --format any --output each file - @output.each.detailed

Étant donné que l’argument @output.each.detailed a été défini, la sortie inclut les en-têtes de colonne suivants :

audio.input.id  event   event.sessionid result.reason   result.latency  result.text     result.json

La colonne result.json présente des détails qui incluent le décalage et la durée des événements Recognizing et Recognized :

{
	"Id": "492574cd8555481a92c22f5ff757ef17",
	"RecognitionStatus": "Success",
	"DisplayText": "Welcome to applied Mathematics course 201.",
	"Offset": 1800000,
	"Duration": 30500000
}

Pour plus d’informations, consultez la configuration du magasin de données et les options de sortie de l’interface CLI Speech.

exemple de décalage et de durée

Le tableau suivant montre un décalage potentiel et une durée dans les cycles lorsqu’un orateur indique « Bienvenue dans le cours mathématiques appliqué 201 ». Dans cet exemple, le décalage ne change pas tout au long des événements Recognizing et Recognized. Toutefois, ne vous attendez pas à ce que le décalage reste le même entre les événements Recognizing et Recognized, car le résultat final peut être différent.

Événement Texte Décalage (en cycles) Durée (en cycles)
RECONNAÎTRE bienvenue 17000000 5000000
RECONNAÎTRE bienvenue dans 17000000 6400000
RECONNAÎTRE bienvenue dans les mathématiques appliquées 17000000 13600000
RECONNAÎTRE bienvenue dans les mathématiques appliquées 17000000 17200000
RECONNAÎTRE bienvenue dans le cours de mathématiques appliquées 17000000 23700000
RECONNAÎTRE bienvenue dans le cours de mathématiques appliquées 2 17000000 26700000
RECONNAÎTRE bienvenue dans le cours de mathématiques appliquées 201 17000000 33400000
RECONNU Bienvenue dans le cours de mathématiques appliquées 201. 17000000 34500000

La durée totale du premier énoncé était de 3,45 secondes. Il a été reconnu à 1,7 à 5,15 secondes de décalage à partir du début de la reconnaissance vocale (00:00:01.700 --> 00:00:05.150).

Si l’orateur continue de dire « Commençons », un nouveau décalage est calculé à partir du début du flux audio reconnu, jusqu’au début du nouvel énoncé. Le tableau suivant montre le décalage potentiel et la durée d’un énoncé qui a commencé deux secondes après la fin de l’énoncé précédent.

Événement Texte Décalage (en cycles) Durée (en cycles)
RECONNAÎTRE OK 71500000 3100000
RECONNAÎTRE OK, maintenant 71500000 10300000
RECONNAÎTRE OK, maintenant, nous allons 71500000 14700000
RECONNAÎTRE Ok, maintenant, commençons 71500000 18500000
RECONNU Ok, maintenant, commençons. 71500000 20600000

La durée totale du deuxième énoncé était de 2,06 secondes. Il a été reconnu à 7,15 à 9,21 secondes de décalage à partir du début de la reconnaissance vocale (00:00:07.150 --> 00:00:09.210).

Étapes suivantes