Obtenir les résultats de la reconnaissance vocale : Service Speech - Azure AI services

Documentation de référence Package (NuGet)Exemples supplémentaires sur GitHub

Dans ce guide pratique, vous allez découvrir comment utiliser les résultats de la reconnaissance vocale.

Synchronisation de Speech

Vous pouvez synchroniser les transcriptions avec une piste audio, qu’elle soit effectuée en temps réel ou avec un préenregistrement.

Le service Speech retourne le décalage et la durée de la reconnaissance vocale.

Décalage : décalage dans le flux audio reconnu, exprimé sous forme de durée. Le décalage est mesuré en cycles, à partir de 0 (zéro) cycle, associé au premier octet audio traité par le kit SDK. Par exemple, le décalage commence lorsque vous démarrez la reconnaissance, car c’est le moment où le kit SDK démarre le traitement du flux audio. Un cycle représente cent nanosecondes ou un dix-millionième de seconde.
Durée : durée de l’énoncé reconnu. La durée des cycles n’inclut pas le silence de fin ou de début.

La fin d’un énoncé est déterminé en écoutant le silence de fin. Vous n’obtiendrez pas le résultat final de la reconnaissance tant qu’un énoncé n’est pas terminé. La reconnaissance des événements fournit des résultats intermédiaires qui sont sujets à modification pendant qu’un flux audio est traité. Les événements reconnus fournissent le texte transcrit final une fois le traitement d’un énoncé terminé.

Reconnaître le décalage et la durée

Avec l’événement Recognizing, vous pouvez obtenir le décalage et la durée de la reconnaissance vocale. Les décalages et la durée par mot ne sont pas disponibles lorsque la reconnaissance est en cours. Chaque événement Recognizing est fourni avec une estimation textuelle de la parole reconnue jusqu’à présent.

Cet extrait de code montre comment obtenir le décalage et la durée d’un événement Recognizing.

speechRecognizer.Recognizing += (object sender, SpeechRecognitionEventArgs e) =>
    {
        if (e.Result.Reason == ResultReason.RecognizingSpeech)
        {        
            Console.WriteLine(String.Format ("RECOGNIZING: {0}", e.Result.Text));
            Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
            Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
        }
    };

Décalage et durée reconnue

Une fois qu’un énoncé a été reconnu, vous pouvez obtenir le décalage et la durée de la parole reconnue. Avec l’événement Recognized, vous pouvez également obtenir le décalage et la durée par mot. Pour demander le décalage et la durée par mot, vous devez d’abord définir la propriété SpeechConfig correspondante comme indiqué ici :

speechConfig.RequestWordLevelTimestamps();

Cet extrait de code montre comment obtenir le décalage et la durée d’un événement Recognized.

speechRecognizer.Recognized += (object sender, SpeechRecognitionEventArgs e) =>
    {
        if (ResultReason.RecognizedSpeech == e.Result.Reason && e.Result.Text.Length > 0)
        {            
            Console.WriteLine($"RECOGNIZED: Text={e.Result.Text}");
            Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
            Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
                        
            var detailedResults = e.Result.Best();
            if(detailedResults != null && detailedResults.Any())
            {
                // The first item in detailedResults corresponds to the recognized text.
                // This is not necessarily the item with the highest confidence number.
                var bestResults = detailedResults?.ToList()[0];
                Console.WriteLine(String.Format("\tConfidence: {0}\n\tText: {1}\n\tLexicalForm: {2}\n\tNormalizedForm: {3}\n\tMaskedNormalizedForm: {4}",
                    bestResults.Confidence, bestResults.Text, bestResults.LexicalForm, bestResults.NormalizedForm, bestResults.MaskedNormalizedForm));
                // You must set speechConfig.RequestWordLevelTimestamps() to get word-level timestamps.
                Console.WriteLine($"\tWord-level timing:");
                Console.WriteLine($"\t\tWord | Offset | Duration");
                Console.WriteLine($"\t\t----- | ----- | ----- ");

                foreach (var word in bestResults.Words)
                {
                    Console.WriteLine($"\t\t{word.Word} | {word.Offset} | {word.Duration}");
                }
            }
        }
    };

exemple de décalage et de durée

Le tableau suivant montre un décalage potentiel et une durée dans les cycles lorsqu’un orateur indique « Bienvenue dans le cours mathématiques appliqué 201 ». Dans cet exemple, le décalage ne change pas tout au long des événements Recognizing et Recognized. Toutefois, ne vous attendez pas à ce que le décalage reste le même entre les événements Recognizing et Recognized, car le résultat final peut être différent.

Événement	Texte	Décalage (en cycles)	Durée (en cycles)
RECONNAÎTRE	bienvenue	17000000	5000000
RECONNAÎTRE	bienvenue dans	17000000	6400000
RECONNAÎTRE	bienvenue dans les mathématiques appliquées	17000000	13600000
RECONNAÎTRE	bienvenue dans les mathématiques appliquées	17000000	17200000
RECONNAÎTRE	bienvenue dans le cours de mathématiques appliquées	17000000	23700000
RECONNAÎTRE	bienvenue dans le cours de mathématiques appliquées 2	17000000	26700000
RECONNAÎTRE	bienvenue dans le cours de mathématiques appliquées 201	17000000	33400000
RECONNU	Bienvenue dans le cours de mathématiques appliquées 201.	17000000	34500000

La durée totale du premier énoncé était de 3,45 secondes. Il a été reconnu à 1,7 à 5,15 secondes de décalage à partir du début de la reconnaissance vocale (00:00:01.700 --> 00:00:05.150).

Si l’orateur continue de dire « Commençons », un nouveau décalage est calculé à partir du début du flux audio reconnu, jusqu’au début du nouvel énoncé. Le tableau suivant montre le décalage potentiel et la durée d’un énoncé qui a commencé deux secondes après la fin de l’énoncé précédent.

Événement	Texte	Décalage (en cycles)	Durée (en cycles)
RECONNAÎTRE	OK	71500000	3100000
RECONNAÎTRE	OK, maintenant	71500000	10300000
RECONNAÎTRE	OK, maintenant, nous allons	71500000	14700000
RECONNAÎTRE	Ok, maintenant, commençons	71500000	18500000
RECONNU	Ok, maintenant, commençons.	71500000	20600000

La durée totale du deuxième énoncé était de 2,06 secondes. Il a été reconnu à 7,15 à 9,21 secondes de décalage à partir du début de la reconnaissance vocale (00:00:07.150 --> 00:00:09.210).

Documentation de référence Package (NuGet)Exemples supplémentaires sur GitHub

Dans ce guide pratique, vous allez découvrir comment utiliser les résultats de la reconnaissance vocale.

Synchronisation de Speech

Vous pouvez synchroniser les transcriptions avec une piste audio, qu’elle soit effectuée en temps réel ou avec un préenregistrement.

Le service Speech retourne le décalage et la durée de la reconnaissance vocale.

Décalage : décalage dans le flux audio reconnu, exprimé sous forme de durée. Le décalage est mesuré en cycles, à partir de 0 (zéro) cycle, associé au premier octet audio traité par le kit SDK. Par exemple, le décalage commence lorsque vous démarrez la reconnaissance, car c’est le moment où le kit SDK démarre le traitement du flux audio. Un cycle représente cent nanosecondes ou un dix-millionième de seconde.
Durée : durée de l’énoncé reconnu. La durée des cycles n’inclut pas le silence de fin ou de début.

La fin d’un énoncé est déterminé en écoutant le silence de fin. Vous n’obtiendrez pas le résultat final de la reconnaissance tant qu’un énoncé n’est pas terminé. La reconnaissance des événements fournit des résultats intermédiaires qui sont sujets à modification pendant qu’un flux audio est traité. Les événements reconnus fournissent le texte transcrit final une fois le traitement d’un énoncé terminé.

Reconnaître le décalage et la durée

Avec l’événement Recognizing, vous pouvez obtenir le décalage et la durée de la reconnaissance vocale. Les décalages et la durée par mot ne sont pas disponibles lorsque la reconnaissance est en cours. Chaque événement Recognizing est fourni avec une estimation textuelle de la parole reconnue jusqu’à présent.

Cet extrait de code montre comment obtenir le décalage et la durée d’un événement Recognizing.

speechRecognizer->Recognizing.Connect([](const SpeechRecognitionEventArgs& e)
    {
        cout << "Recognizing:" << e.Result->Text << std::endl;
        cout << "Offset in Ticks:" << e.Result->Offset() << std::endl;
        cout << "Duration in Ticks:" << e.Result->Duration() << std::endl;
    });

Décalage et durée reconnue

Une fois qu’un énoncé a été reconnu, vous pouvez obtenir le décalage et la durée de la parole reconnue. Avec l’événement Recognized, vous pouvez également obtenir le décalage et la durée par mot. Pour demander le décalage et la durée par mot, vous devez d’abord définir la propriété SpeechConfig correspondante comme indiqué ici :

speechConfig->RequestWordLevelTimestamps();

exemple de décalage et de durée

Le tableau suivant montre un décalage potentiel et une durée dans les cycles lorsqu’un orateur indique « Bienvenue dans le cours mathématiques appliqué 201 ». Dans cet exemple, le décalage ne change pas tout au long des événements Recognizing et Recognized. Toutefois, ne vous attendez pas à ce que le décalage reste le même entre les événements Recognizing et Recognized, car le résultat final peut être différent.

Événement	Texte	Décalage (en cycles)	Durée (en cycles)
RECONNAÎTRE	bienvenue	17000000	5000000
RECONNAÎTRE	bienvenue dans	17000000	6400000
RECONNAÎTRE	bienvenue dans les mathématiques appliquées	17000000	13600000
RECONNAÎTRE	bienvenue dans les mathématiques appliquées	17000000	17200000
RECONNAÎTRE	bienvenue dans le cours de mathématiques appliquées	17000000	23700000
RECONNAÎTRE	bienvenue dans le cours de mathématiques appliquées 2	17000000	26700000
RECONNAÎTRE	bienvenue dans le cours de mathématiques appliquées 201	17000000	33400000
RECONNU	Bienvenue dans le cours de mathématiques appliquées 201.	17000000	34500000

La durée totale du premier énoncé était de 3,45 secondes. Il a été reconnu à 1,7 à 5,15 secondes de décalage à partir du début de la reconnaissance vocale (00:00:01.700 --> 00:00:05.150).

Si l’orateur continue de dire « Commençons », un nouveau décalage est calculé à partir du début du flux audio reconnu, jusqu’au début du nouvel énoncé. Le tableau suivant montre le décalage potentiel et la durée d’un énoncé qui a commencé deux secondes après la fin de l’énoncé précédent.

Événement	Texte	Décalage (en cycles)	Durée (en cycles)
RECONNAÎTRE	OK	71500000	3100000
RECONNAÎTRE	OK, maintenant	71500000	10300000
RECONNAÎTRE	OK, maintenant, nous allons	71500000	14700000
RECONNAÎTRE	Ok, maintenant, commençons	71500000	18500000
RECONNU	Ok, maintenant, commençons.	71500000	20600000

La durée totale du deuxième énoncé était de 2,06 secondes. Il a été reconnu à 7,15 à 9,21 secondes de décalage à partir du début de la reconnaissance vocale (00:00:07.150 --> 00:00:09.210).

Documentation de référence Package (Go)Exemples supplémentaires sur GitHub

Dans ce guide pratique, vous allez découvrir comment utiliser les résultats de la reconnaissance vocale.

Synchronisation de Speech

Vous pouvez synchroniser les transcriptions avec une piste audio, qu’elle soit effectuée en temps réel ou avec un préenregistrement.

Le service Speech retourne le décalage et la durée de la reconnaissance vocale.

Décalage : décalage dans le flux audio reconnu, exprimé sous forme de durée. Le décalage est mesuré en cycles, à partir de 0 (zéro) cycle, associé au premier octet audio traité par le kit SDK. Par exemple, le décalage commence lorsque vous démarrez la reconnaissance, car c’est le moment où le kit SDK démarre le traitement du flux audio. Un cycle représente cent nanosecondes ou un dix-millionième de seconde.
Durée : durée de l’énoncé reconnu. La durée des cycles n’inclut pas le silence de fin ou de début.

La fin d’un énoncé est déterminé en écoutant le silence de fin. Vous n’obtiendrez pas le résultat final de la reconnaissance tant qu’un énoncé n’est pas terminé. La reconnaissance des événements fournit des résultats intermédiaires qui sont sujets à modification pendant qu’un flux audio est traité. Les événements reconnus fournissent le texte transcrit final une fois le traitement d’un énoncé terminé.

Reconnaître le décalage et la durée

Avec l’événement Recognizing, vous pouvez obtenir le décalage et la durée de la reconnaissance vocale. Les décalages et la durée par mot ne sont pas disponibles lorsque la reconnaissance est en cours. Chaque événement Recognizing est fourni avec une estimation textuelle de la parole reconnue jusqu’à présent.

Cet extrait de code montre comment obtenir le décalage et la durée d’un événement Recognizing.

func recognizingHandler(event speech.SpeechRecognitionEventArgs) {
    defer event.Close()
    fmt.Println("Recognizing:", event.Result.Text)
    fmt.Println("Offset in Ticks:", event.Result.Offset)
    fmt.Println("Duration in Ticks:", event.Result.Duration)
}

Décalage et durée reconnue

Une fois qu’un énoncé a été reconnu, vous pouvez obtenir le décalage et la durée de la parole reconnue. Avec l’événement Recognized, vous pouvez également obtenir le décalage et la durée par mot. Pour demander le décalage et la durée par mot, vous devez d’abord définir la propriété SpeechConfig correspondante comme indiqué ici :

speechConfig.RequestWordLevelTimestamps();

exemple de décalage et de durée

Le tableau suivant montre un décalage potentiel et une durée dans les cycles lorsqu’un orateur indique « Bienvenue dans le cours mathématiques appliqué 201 ». Dans cet exemple, le décalage ne change pas tout au long des événements Recognizing et Recognized. Toutefois, ne vous attendez pas à ce que le décalage reste le même entre les événements Recognizing et Recognized, car le résultat final peut être différent.

Événement	Texte	Décalage (en cycles)	Durée (en cycles)
RECONNAÎTRE	bienvenue	17000000	5000000
RECONNAÎTRE	bienvenue dans	17000000	6400000
RECONNAÎTRE	bienvenue dans les mathématiques appliquées	17000000	13600000
RECONNAÎTRE	bienvenue dans les mathématiques appliquées	17000000	17200000
RECONNAÎTRE	bienvenue dans le cours de mathématiques appliquées	17000000	23700000
RECONNAÎTRE	bienvenue dans le cours de mathématiques appliquées 2	17000000	26700000
RECONNAÎTRE	bienvenue dans le cours de mathématiques appliquées 201	17000000	33400000
RECONNU	Bienvenue dans le cours de mathématiques appliquées 201.	17000000	34500000

La durée totale du premier énoncé était de 3,45 secondes. Il a été reconnu à 1,7 à 5,15 secondes de décalage à partir du début de la reconnaissance vocale (00:00:01.700 --> 00:00:05.150).

Si l’orateur continue de dire « Commençons », un nouveau décalage est calculé à partir du début du flux audio reconnu, jusqu’au début du nouvel énoncé. Le tableau suivant montre le décalage potentiel et la durée d’un énoncé qui a commencé deux secondes après la fin de l’énoncé précédent.

Événement	Texte	Décalage (en cycles)	Durée (en cycles)
RECONNAÎTRE	OK	71500000	3100000
RECONNAÎTRE	OK, maintenant	71500000	10300000
RECONNAÎTRE	OK, maintenant, nous allons	71500000	14700000
RECONNAÎTRE	Ok, maintenant, commençons	71500000	18500000
RECONNU	Ok, maintenant, commençons.	71500000	20600000

La durée totale du deuxième énoncé était de 2,06 secondes. Il a été reconnu à 7,15 à 9,21 secondes de décalage à partir du début de la reconnaissance vocale (00:00:07.150 --> 00:00:09.210).

Documentation de référence | Exemples supplémentaires sur GitHub

Dans ce guide pratique, vous allez découvrir comment utiliser les résultats de la reconnaissance vocale.

Synchronisation de Speech

Vous pouvez synchroniser les transcriptions avec une piste audio, qu’elle soit effectuée en temps réel ou avec un préenregistrement.

Le service Speech retourne le décalage et la durée de la reconnaissance vocale.

Décalage : décalage dans le flux audio reconnu, exprimé sous forme de durée. Le décalage est mesuré en cycles, à partir de 0 (zéro) cycle, associé au premier octet audio traité par le kit SDK. Par exemple, le décalage commence lorsque vous démarrez la reconnaissance, car c’est le moment où le kit SDK démarre le traitement du flux audio. Un cycle représente cent nanosecondes ou un dix-millionième de seconde.
Durée : durée de l’énoncé reconnu. La durée des cycles n’inclut pas le silence de fin ou de début.

La fin d’un énoncé est déterminé en écoutant le silence de fin. Vous n’obtiendrez pas le résultat final de la reconnaissance tant qu’un énoncé n’est pas terminé. La reconnaissance des événements fournit des résultats intermédiaires qui sont sujets à modification pendant qu’un flux audio est traité. Les événements reconnus fournissent le texte transcrit final une fois le traitement d’un énoncé terminé.

Reconnaître le décalage et la durée

Avec l’événement Recognizing, vous pouvez obtenir le décalage et la durée de la reconnaissance vocale. Les décalages et la durée par mot ne sont pas disponibles lorsque la reconnaissance est en cours. Chaque événement Recognizing est fourni avec une estimation textuelle de la parole reconnue jusqu’à présent.

Cet extrait de code montre comment obtenir le décalage et la durée d’un événement Recognizing.

speechRecognizer.recognizing.addEventListener((s, e) -> {
    System.out.println("RECOGNIZING: " + e.getResult().getText());
    System.out.println("Offset in Ticks: " + e.getResult().getOffset());
    System.out.println("Duration in Ticks: " + e.getResult().getDuration());
});

Décalage et durée reconnue

Une fois qu’un énoncé a été reconnu, vous pouvez obtenir le décalage et la durée de la parole reconnue. Avec l’événement Recognized, vous pouvez également obtenir le décalage et la durée par mot. Pour demander le décalage et la durée par mot, vous devez d’abord définir la propriété SpeechConfig correspondante comme indiqué ici :

speechConfig.requestWordLevelTimestamps();

exemple de décalage et de durée

Le tableau suivant montre un décalage potentiel et une durée dans les cycles lorsqu’un orateur indique « Bienvenue dans le cours mathématiques appliqué 201 ». Dans cet exemple, le décalage ne change pas tout au long des événements Recognizing et Recognized. Toutefois, ne vous attendez pas à ce que le décalage reste le même entre les événements Recognizing et Recognized, car le résultat final peut être différent.

Événement	Texte	Décalage (en cycles)	Durée (en cycles)
RECONNAÎTRE	bienvenue	17000000	5000000
RECONNAÎTRE	bienvenue dans	17000000	6400000
RECONNAÎTRE	bienvenue dans les mathématiques appliquées	17000000	13600000
RECONNAÎTRE	bienvenue dans les mathématiques appliquées	17000000	17200000
RECONNAÎTRE	bienvenue dans le cours de mathématiques appliquées	17000000	23700000
RECONNAÎTRE	bienvenue dans le cours de mathématiques appliquées 2	17000000	26700000
RECONNAÎTRE	bienvenue dans le cours de mathématiques appliquées 201	17000000	33400000
RECONNU	Bienvenue dans le cours de mathématiques appliquées 201.	17000000	34500000

La durée totale du premier énoncé était de 3,45 secondes. Il a été reconnu à 1,7 à 5,15 secondes de décalage à partir du début de la reconnaissance vocale (00:00:01.700 --> 00:00:05.150).

Si l’orateur continue de dire « Commençons », un nouveau décalage est calculé à partir du début du flux audio reconnu, jusqu’au début du nouvel énoncé. Le tableau suivant montre le décalage potentiel et la durée d’un énoncé qui a commencé deux secondes après la fin de l’énoncé précédent.

Événement	Texte	Décalage (en cycles)	Durée (en cycles)
RECONNAÎTRE	OK	71500000	3100000
RECONNAÎTRE	OK, maintenant	71500000	10300000
RECONNAÎTRE	OK, maintenant, nous allons	71500000	14700000
RECONNAÎTRE	Ok, maintenant, commençons	71500000	18500000
RECONNU	Ok, maintenant, commençons.	71500000	20600000

La durée totale du deuxième énoncé était de 2,06 secondes. Il a été reconnu à 7,15 à 9,21 secondes de décalage à partir du début de la reconnaissance vocale (00:00:07.150 --> 00:00:09.210).

Documentation de référence Package (npm)Exemples supplémentaires sur GitHub Code source de la bibliothèque

Dans ce guide pratique, vous allez découvrir comment utiliser les résultats de la reconnaissance vocale.

Synchronisation de Speech

Vous pouvez synchroniser les transcriptions avec une piste audio, qu’elle soit effectuée en temps réel ou avec un préenregistrement.

Le service Speech retourne le décalage et la durée de la reconnaissance vocale.

Décalage : décalage dans le flux audio reconnu, exprimé sous forme de durée. Le décalage est mesuré en cycles, à partir de 0 (zéro) cycle, associé au premier octet audio traité par le kit SDK. Par exemple, le décalage commence lorsque vous démarrez la reconnaissance, car c’est le moment où le kit SDK démarre le traitement du flux audio. Un cycle représente cent nanosecondes ou un dix-millionième de seconde.
Durée : durée de l’énoncé reconnu. La durée des cycles n’inclut pas le silence de fin ou de début.

La fin d’un énoncé est déterminé en écoutant le silence de fin. Vous n’obtiendrez pas le résultat final de la reconnaissance tant qu’un énoncé n’est pas terminé. La reconnaissance des événements fournit des résultats intermédiaires qui sont sujets à modification pendant qu’un flux audio est traité. Les événements reconnus fournissent le texte transcrit final une fois le traitement d’un énoncé terminé.

Reconnaître le décalage et la durée

Avec l’événement Recognizing, vous pouvez obtenir le décalage et la durée de la reconnaissance vocale. Les décalages et la durée par mot ne sont pas disponibles lorsque la reconnaissance est en cours. Chaque événement Recognizing est fourni avec une estimation textuelle de la parole reconnue jusqu’à présent.

Cet extrait de code montre comment obtenir le décalage et la durée d’un événement Recognizing.

speechRecognizer.recognizing = function (s, e) {
    console.log("RECOGNIZING: " + e.result.text);
    console.log("Offset in Ticks: " + e.result.offset);
    console.log("Duration in Ticks: " + e.result.duration);
};

Décalage et durée reconnue

Une fois qu’un énoncé a été reconnu, vous pouvez obtenir le décalage et la durée de la parole reconnue. Avec l’événement Recognized, vous pouvez également obtenir le décalage et la durée par mot. Pour demander le décalage et la durée par mot, vous devez d’abord définir la propriété SpeechConfig correspondante comme indiqué ici :

speechConfig.requestWordLevelTimestamps();

exemple de décalage et de durée

Le tableau suivant montre un décalage potentiel et une durée dans les cycles lorsqu’un orateur indique « Bienvenue dans le cours mathématiques appliqué 201 ». Dans cet exemple, le décalage ne change pas tout au long des événements Recognizing et Recognized. Toutefois, ne vous attendez pas à ce que le décalage reste le même entre les événements Recognizing et Recognized, car le résultat final peut être différent.

Événement	Texte	Décalage (en cycles)	Durée (en cycles)
RECONNAÎTRE	bienvenue	17000000	5000000
RECONNAÎTRE	bienvenue dans	17000000	6400000
RECONNAÎTRE	bienvenue dans les mathématiques appliquées	17000000	13600000
RECONNAÎTRE	bienvenue dans les mathématiques appliquées	17000000	17200000
RECONNAÎTRE	bienvenue dans le cours de mathématiques appliquées	17000000	23700000
RECONNAÎTRE	bienvenue dans le cours de mathématiques appliquées 2	17000000	26700000
RECONNAÎTRE	bienvenue dans le cours de mathématiques appliquées 201	17000000	33400000
RECONNU	Bienvenue dans le cours de mathématiques appliquées 201.	17000000	34500000

La durée totale du premier énoncé était de 3,45 secondes. Il a été reconnu à 1,7 à 5,15 secondes de décalage à partir du début de la reconnaissance vocale (00:00:01.700 --> 00:00:05.150).

Si l’orateur continue de dire « Commençons », un nouveau décalage est calculé à partir du début du flux audio reconnu, jusqu’au début du nouvel énoncé. Le tableau suivant montre le décalage potentiel et la durée d’un énoncé qui a commencé deux secondes après la fin de l’énoncé précédent.

Événement	Texte	Décalage (en cycles)	Durée (en cycles)
RECONNAÎTRE	OK	71500000	3100000
RECONNAÎTRE	OK, maintenant	71500000	10300000
RECONNAÎTRE	OK, maintenant, nous allons	71500000	14700000
RECONNAÎTRE	Ok, maintenant, commençons	71500000	18500000
RECONNU	Ok, maintenant, commençons.	71500000	20600000

La durée totale du deuxième énoncé était de 2,06 secondes. Il a été reconnu à 7,15 à 9,21 secondes de décalage à partir du début de la reconnaissance vocale (00:00:07.150 --> 00:00:09.210).

Documentation de référence Package (Télécharger)Exemples supplémentaires sur GitHub

Dans ce guide pratique, vous allez découvrir comment utiliser les résultats de la reconnaissance vocale.

Synchronisation de Speech

Vous pouvez synchroniser les transcriptions avec une piste audio, qu’elle soit effectuée en temps réel ou avec un préenregistrement.

Le service Speech retourne le décalage et la durée de la reconnaissance vocale.

Décalage : décalage dans le flux audio reconnu, exprimé sous forme de durée. Le décalage est mesuré en cycles, à partir de 0 (zéro) cycle, associé au premier octet audio traité par le kit SDK. Par exemple, le décalage commence lorsque vous démarrez la reconnaissance, car c’est le moment où le kit SDK démarre le traitement du flux audio. Un cycle représente cent nanosecondes ou un dix-millionième de seconde.
Durée : durée de l’énoncé reconnu. La durée des cycles n’inclut pas le silence de fin ou de début.

La fin d’un énoncé est déterminé en écoutant le silence de fin. Vous n’obtiendrez pas le résultat final de la reconnaissance tant qu’un énoncé n’est pas terminé. La reconnaissance des événements fournit des résultats intermédiaires qui sont sujets à modification pendant qu’un flux audio est traité. Les événements reconnus fournissent le texte transcrit final une fois le traitement d’un énoncé terminé.

Reconnaître le décalage et la durée

Avec l’événement Recognizing, vous pouvez obtenir le décalage et la durée de la reconnaissance vocale. Les décalages et la durée par mot ne sont pas disponibles lorsque la reconnaissance est en cours. Chaque événement Recognizing est fourni avec une estimation textuelle de la parole reconnue jusqu’à présent.

Décalage et durée reconnue

Une fois qu’un énoncé a été reconnu, vous pouvez obtenir le décalage et la durée de la parole reconnue. Avec l’événement Recognized, vous pouvez également obtenir le décalage et la durée par mot. Pour demander le décalage et la durée par mot, vous devez d’abord définir la propriété SpeechConfig correspondante comme indiqué ici :

[speechConfig requestWordLevelTimestamps];

exemple de décalage et de durée

Le tableau suivant montre un décalage potentiel et une durée dans les cycles lorsqu’un orateur indique « Bienvenue dans le cours mathématiques appliqué 201 ». Dans cet exemple, le décalage ne change pas tout au long des événements Recognizing et Recognized. Toutefois, ne vous attendez pas à ce que le décalage reste le même entre les événements Recognizing et Recognized, car le résultat final peut être différent.

Événement	Texte	Décalage (en cycles)	Durée (en cycles)
RECONNAÎTRE	bienvenue	17000000	5000000
RECONNAÎTRE	bienvenue dans	17000000	6400000
RECONNAÎTRE	bienvenue dans les mathématiques appliquées	17000000	13600000
RECONNAÎTRE	bienvenue dans les mathématiques appliquées	17000000	17200000
RECONNAÎTRE	bienvenue dans le cours de mathématiques appliquées	17000000	23700000
RECONNAÎTRE	bienvenue dans le cours de mathématiques appliquées 2	17000000	26700000
RECONNAÎTRE	bienvenue dans le cours de mathématiques appliquées 201	17000000	33400000
RECONNU	Bienvenue dans le cours de mathématiques appliquées 201.	17000000	34500000

La durée totale du premier énoncé était de 3,45 secondes. Il a été reconnu à 1,7 à 5,15 secondes de décalage à partir du début de la reconnaissance vocale (00:00:01.700 --> 00:00:05.150).

Si l’orateur continue de dire « Commençons », un nouveau décalage est calculé à partir du début du flux audio reconnu, jusqu’au début du nouvel énoncé. Le tableau suivant montre le décalage potentiel et la durée d’un énoncé qui a commencé deux secondes après la fin de l’énoncé précédent.

Événement	Texte	Décalage (en cycles)	Durée (en cycles)
RECONNAÎTRE	OK	71500000	3100000
RECONNAÎTRE	OK, maintenant	71500000	10300000
RECONNAÎTRE	OK, maintenant, nous allons	71500000	14700000
RECONNAÎTRE	Ok, maintenant, commençons	71500000	18500000
RECONNU	Ok, maintenant, commençons.	71500000	20600000

La durée totale du deuxième énoncé était de 2,06 secondes. Il a été reconnu à 7,15 à 9,21 secondes de décalage à partir du début de la reconnaissance vocale (00:00:07.150 --> 00:00:09.210).

Documentation de référence Package (Télécharger)Exemples supplémentaires sur GitHub

Dans ce guide pratique, vous allez découvrir comment utiliser les résultats de la reconnaissance vocale.

Synchronisation de Speech

Vous pouvez synchroniser les transcriptions avec une piste audio, qu’elle soit effectuée en temps réel ou avec un préenregistrement.

Le service Speech retourne le décalage et la durée de la reconnaissance vocale.

Décalage : décalage dans le flux audio reconnu, exprimé sous forme de durée. Le décalage est mesuré en cycles, à partir de 0 (zéro) cycle, associé au premier octet audio traité par le kit SDK. Par exemple, le décalage commence lorsque vous démarrez la reconnaissance, car c’est le moment où le kit SDK démarre le traitement du flux audio. Un cycle représente cent nanosecondes ou un dix-millionième de seconde.
Durée : durée de l’énoncé reconnu. La durée des cycles n’inclut pas le silence de fin ou de début.

La fin d’un énoncé est déterminé en écoutant le silence de fin. Vous n’obtiendrez pas le résultat final de la reconnaissance tant qu’un énoncé n’est pas terminé. La reconnaissance des événements fournit des résultats intermédiaires qui sont sujets à modification pendant qu’un flux audio est traité. Les événements reconnus fournissent le texte transcrit final une fois le traitement d’un énoncé terminé.

Reconnaître le décalage et la durée

Avec l’événement Recognizing, vous pouvez obtenir le décalage et la durée de la reconnaissance vocale. Les décalages et la durée par mot ne sont pas disponibles lorsque la reconnaissance est en cours. Chaque événement Recognizing est fourni avec une estimation textuelle de la parole reconnue jusqu’à présent.

Décalage et durée reconnue

Une fois qu’un énoncé a été reconnu, vous pouvez obtenir le décalage et la durée de la parole reconnue. Avec l’événement Recognized, vous pouvez également obtenir le décalage et la durée par mot. Pour demander le décalage et la durée par mot, vous devez d’abord définir la propriété SpeechConfig correspondante comme indiqué ici :

[speechConfig requestWordLevelTimestamps];

exemple de décalage et de durée

Le tableau suivant montre un décalage potentiel et une durée dans les cycles lorsqu’un orateur indique « Bienvenue dans le cours mathématiques appliqué 201 ». Dans cet exemple, le décalage ne change pas tout au long des événements Recognizing et Recognized. Toutefois, ne vous attendez pas à ce que le décalage reste le même entre les événements Recognizing et Recognized, car le résultat final peut être différent.

Événement	Texte	Décalage (en cycles)	Durée (en cycles)
RECONNAÎTRE	bienvenue	17000000	5000000
RECONNAÎTRE	bienvenue dans	17000000	6400000
RECONNAÎTRE	bienvenue dans les mathématiques appliquées	17000000	13600000
RECONNAÎTRE	bienvenue dans les mathématiques appliquées	17000000	17200000
RECONNAÎTRE	bienvenue dans le cours de mathématiques appliquées	17000000	23700000
RECONNAÎTRE	bienvenue dans le cours de mathématiques appliquées 2	17000000	26700000
RECONNAÎTRE	bienvenue dans le cours de mathématiques appliquées 201	17000000	33400000
RECONNU	Bienvenue dans le cours de mathématiques appliquées 201.	17000000	34500000

La durée totale du premier énoncé était de 3,45 secondes. Il a été reconnu à 1,7 à 5,15 secondes de décalage à partir du début de la reconnaissance vocale (00:00:01.700 --> 00:00:05.150).

Si l’orateur continue de dire « Commençons », un nouveau décalage est calculé à partir du début du flux audio reconnu, jusqu’au début du nouvel énoncé. Le tableau suivant montre le décalage potentiel et la durée d’un énoncé qui a commencé deux secondes après la fin de l’énoncé précédent.

Événement	Texte	Décalage (en cycles)	Durée (en cycles)
RECONNAÎTRE	OK	71500000	3100000
RECONNAÎTRE	OK, maintenant	71500000	10300000
RECONNAÎTRE	OK, maintenant, nous allons	71500000	14700000
RECONNAÎTRE	Ok, maintenant, commençons	71500000	18500000
RECONNU	Ok, maintenant, commençons.	71500000	20600000

La durée totale du deuxième énoncé était de 2,06 secondes. Il a été reconnu à 7,15 à 9,21 secondes de décalage à partir du début de la reconnaissance vocale (00:00:07.150 --> 00:00:09.210).

Documentation de référence Package (PyPi)Exemples supplémentaires sur GitHub

Dans ce guide pratique, vous allez découvrir comment utiliser les résultats de la reconnaissance vocale.

Synchronisation de Speech

Vous pouvez synchroniser les transcriptions avec une piste audio, qu’elle soit effectuée en temps réel ou avec un préenregistrement.

Le service Speech retourne le décalage et la durée de la reconnaissance vocale.

Décalage : décalage dans le flux audio reconnu, exprimé sous forme de durée. Le décalage est mesuré en cycles, à partir de 0 (zéro) cycle, associé au premier octet audio traité par le kit SDK. Par exemple, le décalage commence lorsque vous démarrez la reconnaissance, car c’est le moment où le kit SDK démarre le traitement du flux audio. Un cycle représente cent nanosecondes ou un dix-millionième de seconde.
Durée : durée de l’énoncé reconnu. La durée des cycles n’inclut pas le silence de fin ou de début.

La fin d’un énoncé est déterminé en écoutant le silence de fin. Vous n’obtiendrez pas le résultat final de la reconnaissance tant qu’un énoncé n’est pas terminé. La reconnaissance des événements fournit des résultats intermédiaires qui sont sujets à modification pendant qu’un flux audio est traité. Les événements reconnus fournissent le texte transcrit final une fois le traitement d’un énoncé terminé.

Reconnaître le décalage et la durée

Avec l’événement Recognizing, vous pouvez obtenir le décalage et la durée de la reconnaissance vocale. Les décalages et la durée par mot ne sont pas disponibles lorsque la reconnaissance est en cours. Chaque événement Recognizing est fourni avec une estimation textuelle de la parole reconnue jusqu’à présent.

Cet extrait de code montre comment obtenir le décalage et la durée d’un événement Recognizing.

def recognizing_handler(e : speechsdk.SpeechRecognitionEventArgs) :
    if speechsdk.ResultReason.RecognizingSpeech == e.result.reason and len(e.result.text) > 0 :
        print("Recognized: {}".format(result.text))
        print("Offset in Ticks: {}".format(result.offset))
        print("Duration in Ticks: {}".format(result.duration))

Décalage et durée reconnue

Une fois qu’un énoncé a été reconnu, vous pouvez obtenir le décalage et la durée de la parole reconnue. Avec l’événement Recognized, vous pouvez également obtenir le décalage et la durée par mot. Pour demander le décalage et la durée par mot, vous devez d’abord définir la propriété SpeechConfig correspondante comme indiqué ici :

speech_config.request_word_level_timestamps()

exemple de décalage et de durée

Le tableau suivant montre un décalage potentiel et une durée dans les cycles lorsqu’un orateur indique « Bienvenue dans le cours mathématiques appliqué 201 ». Dans cet exemple, le décalage ne change pas tout au long des événements Recognizing et Recognized. Toutefois, ne vous attendez pas à ce que le décalage reste le même entre les événements Recognizing et Recognized, car le résultat final peut être différent.

Événement	Texte	Décalage (en cycles)	Durée (en cycles)
RECONNAÎTRE	bienvenue	17000000	5000000
RECONNAÎTRE	bienvenue dans	17000000	6400000
RECONNAÎTRE	bienvenue dans les mathématiques appliquées	17000000	13600000
RECONNAÎTRE	bienvenue dans les mathématiques appliquées	17000000	17200000
RECONNAÎTRE	bienvenue dans le cours de mathématiques appliquées	17000000	23700000
RECONNAÎTRE	bienvenue dans le cours de mathématiques appliquées 2	17000000	26700000
RECONNAÎTRE	bienvenue dans le cours de mathématiques appliquées 201	17000000	33400000
RECONNU	Bienvenue dans le cours de mathématiques appliquées 201.	17000000	34500000

La durée totale du premier énoncé était de 3,45 secondes. Il a été reconnu à 1,7 à 5,15 secondes de décalage à partir du début de la reconnaissance vocale (00:00:01.700 --> 00:00:05.150).

Si l’orateur continue de dire « Commençons », un nouveau décalage est calculé à partir du début du flux audio reconnu, jusqu’au début du nouvel énoncé. Le tableau suivant montre le décalage potentiel et la durée d’un énoncé qui a commencé deux secondes après la fin de l’énoncé précédent.

Événement	Texte	Décalage (en cycles)	Durée (en cycles)
RECONNAÎTRE	OK	71500000	3100000
RECONNAÎTRE	OK, maintenant	71500000	10300000
RECONNAÎTRE	OK, maintenant, nous allons	71500000	14700000
RECONNAÎTRE	Ok, maintenant, commençons	71500000	18500000
RECONNU	Ok, maintenant, commençons.	71500000	20600000

La durée totale du deuxième énoncé était de 2,06 secondes. Il a été reconnu à 7,15 à 9,21 secondes de décalage à partir du début de la reconnaissance vocale (00:00:07.150 --> 00:00:09.210).

Dans ce guide pratique, vous allez découvrir comment utiliser les résultats de la reconnaissance vocale.

Synchronisation de Speech

Vous pouvez synchroniser les transcriptions avec une piste audio, qu’elle soit effectuée en temps réel ou avec un préenregistrement.

Le service Speech retourne le décalage et la durée de la reconnaissance vocale.

Décalage : décalage dans le flux audio reconnu, exprimé sous forme de durée. Le décalage est mesuré en cycles, à partir de 0 (zéro) cycle, associé au premier octet audio traité par le kit SDK. Par exemple, le décalage commence lorsque vous démarrez la reconnaissance, car c’est le moment où le kit SDK démarre le traitement du flux audio. Un cycle représente cent nanosecondes ou un dix-millionième de seconde.
Durée : durée de l’énoncé reconnu. La durée des cycles n’inclut pas le silence de fin ou de début.

La fin d’un énoncé est déterminé en écoutant le silence de fin. Vous n’obtiendrez pas le résultat final de la reconnaissance tant qu’un énoncé n’est pas terminé. La reconnaissance des événements fournit des résultats intermédiaires qui sont sujets à modification pendant qu’un flux audio est traité. Les événements reconnus fournissent le texte transcrit final une fois le traitement d’un énoncé terminé.

Reconnaître le décalage et la durée

Vous devez synchroniser les sous-titres avec la piste audio, qu’elle soit effectuée en temps réel ou avec un préenregistrement. Avec l’événement Recognizing, vous pouvez obtenir le décalage et la durée de la reconnaissance vocale. Les décalages et la durée par mot ne sont pas disponibles lorsque la reconnaissance est en cours. Chaque événement Recognizing est fourni avec une estimation textuelle de la parole reconnue jusqu’à présent.

Par exemple, exécutez la commande suivante pour obtenir le décalage et la durée de la reconnaissance vocale :

spx recognize --file caption.this.mp4 --format any --output each file - @output.each.detailed

Étant donné que l’argument @output.each.detailed a été défini, la sortie inclut les en-têtes de colonne suivants :

audio.input.id  event   event.sessionid result.reason   result.latency  result.text     result.json

La colonne result.json présente des détails qui incluent le décalage et la durée des événements Recognizing et Recognized :

{
	"Id": "492574cd8555481a92c22f5ff757ef17",
	"RecognitionStatus": "Success",
	"DisplayText": "Welcome to applied Mathematics course 201.",
	"Offset": 1800000,
	"Duration": 30500000
}

Pour plus d’informations, consultez la configuration du magasin de données et les options de sortie de l’interface CLI Speech.

exemple de décalage et de durée

Le tableau suivant montre un décalage potentiel et une durée dans les cycles lorsqu’un orateur indique « Bienvenue dans le cours mathématiques appliqué 201 ». Dans cet exemple, le décalage ne change pas tout au long des événements Recognizing et Recognized. Toutefois, ne vous attendez pas à ce que le décalage reste le même entre les événements Recognizing et Recognized, car le résultat final peut être différent.

Événement	Texte	Décalage (en cycles)	Durée (en cycles)
RECONNAÎTRE	bienvenue	17000000	5000000
RECONNAÎTRE	bienvenue dans	17000000	6400000
RECONNAÎTRE	bienvenue dans les mathématiques appliquées	17000000	13600000
RECONNAÎTRE	bienvenue dans les mathématiques appliquées	17000000	17200000
RECONNAÎTRE	bienvenue dans le cours de mathématiques appliquées	17000000	23700000
RECONNAÎTRE	bienvenue dans le cours de mathématiques appliquées 2	17000000	26700000
RECONNAÎTRE	bienvenue dans le cours de mathématiques appliquées 201	17000000	33400000
RECONNU	Bienvenue dans le cours de mathématiques appliquées 201.	17000000	34500000

La durée totale du premier énoncé était de 3,45 secondes. Il a été reconnu à 1,7 à 5,15 secondes de décalage à partir du début de la reconnaissance vocale (00:00:01.700 --> 00:00:05.150).

Si l’orateur continue de dire « Commençons », un nouveau décalage est calculé à partir du début du flux audio reconnu, jusqu’au début du nouvel énoncé. Le tableau suivant montre le décalage potentiel et la durée d’un énoncé qui a commencé deux secondes après la fin de l’énoncé précédent.

Événement	Texte	Décalage (en cycles)	Durée (en cycles)
RECONNAÎTRE	OK	71500000	3100000
RECONNAÎTRE	OK, maintenant	71500000	10300000
RECONNAÎTRE	OK, maintenant, nous allons	71500000	14700000
RECONNAÎTRE	Ok, maintenant, commençons	71500000	18500000
RECONNU	Ok, maintenant, commençons.	71500000	20600000

La durée totale du deuxième énoncé était de 2,06 secondes. Il a été reconnu à 7,15 à 9,21 secondes de décalage à partir du début de la reconnaissance vocale (00:00:07.150 --> 00:00:09.210).

Obtenir les résultats de reconnaissance vocale

Synchronisation de Speech

Reconnaître le décalage et la durée

Décalage et durée reconnue

exemple de décalage et de durée

Synchronisation de Speech

Reconnaître le décalage et la durée

Décalage et durée reconnue

exemple de décalage et de durée

Synchronisation de Speech

Reconnaître le décalage et la durée

Décalage et durée reconnue

exemple de décalage et de durée

Synchronisation de Speech

Reconnaître le décalage et la durée

Décalage et durée reconnue

exemple de décalage et de durée

Synchronisation de Speech

Reconnaître le décalage et la durée

Décalage et durée reconnue

exemple de décalage et de durée

Synchronisation de Speech

Reconnaître le décalage et la durée

Décalage et durée reconnue

exemple de décalage et de durée

Synchronisation de Speech

Reconnaître le décalage et la durée

Décalage et durée reconnue

exemple de décalage et de durée

Synchronisation de Speech

Reconnaître le décalage et la durée

Décalage et durée reconnue

exemple de décalage et de durée

Synchronisation de Speech

Reconnaître le décalage et la durée

exemple de décalage et de durée

Étapes suivantes

Ressources supplémentaires