Obtenir les résultats de reconnaissance vocale
Documentation de référence | Package (NuGet) | Exemples supplémentaires sur GitHub
Dans ce guide pratique, vous allez découvrir comment utiliser les résultats de la reconnaissance vocale.
Synchronisation de Speech
Vous pouvez synchroniser les transcriptions avec une piste audio, qu’elle soit effectuée en temps réel ou avec un préenregistrement.
Le service Speech retourne le décalage et la durée de la reconnaissance vocale.
- Décalage : décalage dans le flux audio reconnu, exprimé sous forme de durée. Le décalage est mesuré en cycles, à partir de
0
(zéro) cycle, associé au premier octet audio traité par le kit SDK. Par exemple, le décalage commence lorsque vous démarrez la reconnaissance, car c’est le moment où le kit SDK démarre le traitement du flux audio. Un cycle représente cent nanosecondes ou un dix-millionième de seconde. - Durée : durée de l’énoncé reconnu. La durée des cycles n’inclut pas le silence de fin ou de début.
La fin d’un énoncé est déterminé en écoutant le silence de fin. Vous n’obtiendrez pas le résultat final de la reconnaissance tant qu’un énoncé n’est pas terminé. La reconnaissance des événements fournit des résultats intermédiaires qui sont sujets à modification pendant qu’un flux audio est traité. Les événements reconnus fournissent le texte transcrit final une fois le traitement d’un énoncé terminé.
Reconnaître le décalage et la durée
Avec l’événement Recognizing
, vous pouvez obtenir le décalage et la durée de la reconnaissance vocale. Les décalages et la durée par mot ne sont pas disponibles lorsque la reconnaissance est en cours. Chaque événement Recognizing
est fourni avec une estimation textuelle de la parole reconnue jusqu’à présent.
Cet extrait de code montre comment obtenir le décalage et la durée d’un événement Recognizing
.
speechRecognizer.Recognizing += (object sender, SpeechRecognitionEventArgs e) =>
{
if (e.Result.Reason == ResultReason.RecognizingSpeech)
{
Console.WriteLine(String.Format ("RECOGNIZING: {0}", e.Result.Text));
Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
}
};
Décalage et durée reconnue
Une fois qu’un énoncé a été reconnu, vous pouvez obtenir le décalage et la durée de la parole reconnue. Avec l’événement Recognized
, vous pouvez également obtenir le décalage et la durée par mot. Pour demander le décalage et la durée par mot, vous devez d’abord définir la propriété SpeechConfig
correspondante comme indiqué ici :
speechConfig.RequestWordLevelTimestamps();
Cet extrait de code montre comment obtenir le décalage et la durée d’un événement Recognized
.
speechRecognizer.Recognized += (object sender, SpeechRecognitionEventArgs e) =>
{
if (ResultReason.RecognizedSpeech == e.Result.Reason && e.Result.Text.Length > 0)
{
Console.WriteLine($"RECOGNIZED: Text={e.Result.Text}");
Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
var detailedResults = e.Result.Best();
if(detailedResults != null && detailedResults.Any())
{
// The first item in detailedResults corresponds to the recognized text.
// This is not necessarily the item with the highest confidence number.
var bestResults = detailedResults?.ToList()[0];
Console.WriteLine(String.Format("\tConfidence: {0}\n\tText: {1}\n\tLexicalForm: {2}\n\tNormalizedForm: {3}\n\tMaskedNormalizedForm: {4}",
bestResults.Confidence, bestResults.Text, bestResults.LexicalForm, bestResults.NormalizedForm, bestResults.MaskedNormalizedForm));
// You must set speechConfig.RequestWordLevelTimestamps() to get word-level timestamps.
Console.WriteLine($"\tWord-level timing:");
Console.WriteLine($"\t\tWord | Offset | Duration");
Console.WriteLine($"\t\t----- | ----- | ----- ");
foreach (var word in bestResults.Words)
{
Console.WriteLine($"\t\t{word.Word} | {word.Offset} | {word.Duration}");
}
}
}
};
exemple de décalage et de durée
Le tableau suivant montre un décalage potentiel et une durée dans les cycles lorsqu’un orateur indique « Bienvenue dans le cours mathématiques appliqué 201 ». Dans cet exemple, le décalage ne change pas tout au long des événements Recognizing
et Recognized
. Toutefois, ne vous attendez pas à ce que le décalage reste le même entre les événements Recognizing
et Recognized
, car le résultat final peut être différent.
Événement | Texte | Décalage (en cycles) | Durée (en cycles) |
---|---|---|---|
RECONNAÎTRE | bienvenue | 17000000 | 5000000 |
RECONNAÎTRE | bienvenue dans | 17000000 | 6400000 |
RECONNAÎTRE | bienvenue dans les mathématiques appliquées | 17000000 | 13600000 |
RECONNAÎTRE | bienvenue dans les mathématiques appliquées | 17000000 | 17200000 |
RECONNAÎTRE | bienvenue dans le cours de mathématiques appliquées | 17000000 | 23700000 |
RECONNAÎTRE | bienvenue dans le cours de mathématiques appliquées 2 | 17000000 | 26700000 |
RECONNAÎTRE | bienvenue dans le cours de mathématiques appliquées 201 | 17000000 | 33400000 |
RECONNU | Bienvenue dans le cours de mathématiques appliquées 201. | 17000000 | 34500000 |
La durée totale du premier énoncé était de 3,45 secondes. Il a été reconnu à 1,7 à 5,15 secondes de décalage à partir du début de la reconnaissance vocale (00:00:01.700 --> 00:00:05.150).
Si l’orateur continue de dire « Commençons », un nouveau décalage est calculé à partir du début du flux audio reconnu, jusqu’au début du nouvel énoncé. Le tableau suivant montre le décalage potentiel et la durée d’un énoncé qui a commencé deux secondes après la fin de l’énoncé précédent.
Événement | Texte | Décalage (en cycles) | Durée (en cycles) |
---|---|---|---|
RECONNAÎTRE | OK | 71500000 | 3100000 |
RECONNAÎTRE | OK, maintenant | 71500000 | 10300000 |
RECONNAÎTRE | OK, maintenant, nous allons | 71500000 | 14700000 |
RECONNAÎTRE | Ok, maintenant, commençons | 71500000 | 18500000 |
RECONNU | Ok, maintenant, commençons. | 71500000 | 20600000 |
La durée totale du deuxième énoncé était de 2,06 secondes. Il a été reconnu à 7,15 à 9,21 secondes de décalage à partir du début de la reconnaissance vocale (00:00:07.150 --> 00:00:09.210).
Documentation de référence | Package (NuGet) | Exemples supplémentaires sur GitHub
Dans ce guide pratique, vous allez découvrir comment utiliser les résultats de la reconnaissance vocale.
Synchronisation de Speech
Vous pouvez synchroniser les transcriptions avec une piste audio, qu’elle soit effectuée en temps réel ou avec un préenregistrement.
Le service Speech retourne le décalage et la durée de la reconnaissance vocale.
- Décalage : décalage dans le flux audio reconnu, exprimé sous forme de durée. Le décalage est mesuré en cycles, à partir de
0
(zéro) cycle, associé au premier octet audio traité par le kit SDK. Par exemple, le décalage commence lorsque vous démarrez la reconnaissance, car c’est le moment où le kit SDK démarre le traitement du flux audio. Un cycle représente cent nanosecondes ou un dix-millionième de seconde. - Durée : durée de l’énoncé reconnu. La durée des cycles n’inclut pas le silence de fin ou de début.
La fin d’un énoncé est déterminé en écoutant le silence de fin. Vous n’obtiendrez pas le résultat final de la reconnaissance tant qu’un énoncé n’est pas terminé. La reconnaissance des événements fournit des résultats intermédiaires qui sont sujets à modification pendant qu’un flux audio est traité. Les événements reconnus fournissent le texte transcrit final une fois le traitement d’un énoncé terminé.
Reconnaître le décalage et la durée
Avec l’événement Recognizing
, vous pouvez obtenir le décalage et la durée de la reconnaissance vocale. Les décalages et la durée par mot ne sont pas disponibles lorsque la reconnaissance est en cours. Chaque événement Recognizing
est fourni avec une estimation textuelle de la parole reconnue jusqu’à présent.
Cet extrait de code montre comment obtenir le décalage et la durée d’un événement Recognizing
.
speechRecognizer->Recognizing.Connect([](const SpeechRecognitionEventArgs& e)
{
cout << "Recognizing:" << e.Result->Text << std::endl;
cout << "Offset in Ticks:" << e.Result->Offset() << std::endl;
cout << "Duration in Ticks:" << e.Result->Duration() << std::endl;
});
Décalage et durée reconnue
Une fois qu’un énoncé a été reconnu, vous pouvez obtenir le décalage et la durée de la parole reconnue. Avec l’événement Recognized
, vous pouvez également obtenir le décalage et la durée par mot. Pour demander le décalage et la durée par mot, vous devez d’abord définir la propriété SpeechConfig
correspondante comme indiqué ici :
speechConfig->RequestWordLevelTimestamps();
exemple de décalage et de durée
Le tableau suivant montre un décalage potentiel et une durée dans les cycles lorsqu’un orateur indique « Bienvenue dans le cours mathématiques appliqué 201 ». Dans cet exemple, le décalage ne change pas tout au long des événements Recognizing
et Recognized
. Toutefois, ne vous attendez pas à ce que le décalage reste le même entre les événements Recognizing
et Recognized
, car le résultat final peut être différent.
Événement | Texte | Décalage (en cycles) | Durée (en cycles) |
---|---|---|---|
RECONNAÎTRE | bienvenue | 17000000 | 5000000 |
RECONNAÎTRE | bienvenue dans | 17000000 | 6400000 |
RECONNAÎTRE | bienvenue dans les mathématiques appliquées | 17000000 | 13600000 |
RECONNAÎTRE | bienvenue dans les mathématiques appliquées | 17000000 | 17200000 |
RECONNAÎTRE | bienvenue dans le cours de mathématiques appliquées | 17000000 | 23700000 |
RECONNAÎTRE | bienvenue dans le cours de mathématiques appliquées 2 | 17000000 | 26700000 |
RECONNAÎTRE | bienvenue dans le cours de mathématiques appliquées 201 | 17000000 | 33400000 |
RECONNU | Bienvenue dans le cours de mathématiques appliquées 201. | 17000000 | 34500000 |
La durée totale du premier énoncé était de 3,45 secondes. Il a été reconnu à 1,7 à 5,15 secondes de décalage à partir du début de la reconnaissance vocale (00:00:01.700 --> 00:00:05.150).
Si l’orateur continue de dire « Commençons », un nouveau décalage est calculé à partir du début du flux audio reconnu, jusqu’au début du nouvel énoncé. Le tableau suivant montre le décalage potentiel et la durée d’un énoncé qui a commencé deux secondes après la fin de l’énoncé précédent.
Événement | Texte | Décalage (en cycles) | Durée (en cycles) |
---|---|---|---|
RECONNAÎTRE | OK | 71500000 | 3100000 |
RECONNAÎTRE | OK, maintenant | 71500000 | 10300000 |
RECONNAÎTRE | OK, maintenant, nous allons | 71500000 | 14700000 |
RECONNAÎTRE | Ok, maintenant, commençons | 71500000 | 18500000 |
RECONNU | Ok, maintenant, commençons. | 71500000 | 20600000 |
La durée totale du deuxième énoncé était de 2,06 secondes. Il a été reconnu à 7,15 à 9,21 secondes de décalage à partir du début de la reconnaissance vocale (00:00:07.150 --> 00:00:09.210).
Documentation de référence | Package (Go) | Exemples supplémentaires sur GitHub
Dans ce guide pratique, vous allez découvrir comment utiliser les résultats de la reconnaissance vocale.
Synchronisation de Speech
Vous pouvez synchroniser les transcriptions avec une piste audio, qu’elle soit effectuée en temps réel ou avec un préenregistrement.
Le service Speech retourne le décalage et la durée de la reconnaissance vocale.
- Décalage : décalage dans le flux audio reconnu, exprimé sous forme de durée. Le décalage est mesuré en cycles, à partir de
0
(zéro) cycle, associé au premier octet audio traité par le kit SDK. Par exemple, le décalage commence lorsque vous démarrez la reconnaissance, car c’est le moment où le kit SDK démarre le traitement du flux audio. Un cycle représente cent nanosecondes ou un dix-millionième de seconde. - Durée : durée de l’énoncé reconnu. La durée des cycles n’inclut pas le silence de fin ou de début.
La fin d’un énoncé est déterminé en écoutant le silence de fin. Vous n’obtiendrez pas le résultat final de la reconnaissance tant qu’un énoncé n’est pas terminé. La reconnaissance des événements fournit des résultats intermédiaires qui sont sujets à modification pendant qu’un flux audio est traité. Les événements reconnus fournissent le texte transcrit final une fois le traitement d’un énoncé terminé.
Reconnaître le décalage et la durée
Avec l’événement Recognizing
, vous pouvez obtenir le décalage et la durée de la reconnaissance vocale. Les décalages et la durée par mot ne sont pas disponibles lorsque la reconnaissance est en cours. Chaque événement Recognizing
est fourni avec une estimation textuelle de la parole reconnue jusqu’à présent.
Cet extrait de code montre comment obtenir le décalage et la durée d’un événement Recognizing
.
func recognizingHandler(event speech.SpeechRecognitionEventArgs) {
defer event.Close()
fmt.Println("Recognizing:", event.Result.Text)
fmt.Println("Offset in Ticks:", event.Result.Offset)
fmt.Println("Duration in Ticks:", event.Result.Duration)
}
Décalage et durée reconnue
Une fois qu’un énoncé a été reconnu, vous pouvez obtenir le décalage et la durée de la parole reconnue. Avec l’événement Recognized
, vous pouvez également obtenir le décalage et la durée par mot. Pour demander le décalage et la durée par mot, vous devez d’abord définir la propriété SpeechConfig
correspondante comme indiqué ici :
speechConfig.RequestWordLevelTimestamps();
exemple de décalage et de durée
Le tableau suivant montre un décalage potentiel et une durée dans les cycles lorsqu’un orateur indique « Bienvenue dans le cours mathématiques appliqué 201 ». Dans cet exemple, le décalage ne change pas tout au long des événements Recognizing
et Recognized
. Toutefois, ne vous attendez pas à ce que le décalage reste le même entre les événements Recognizing
et Recognized
, car le résultat final peut être différent.
Événement | Texte | Décalage (en cycles) | Durée (en cycles) |
---|---|---|---|
RECONNAÎTRE | bienvenue | 17000000 | 5000000 |
RECONNAÎTRE | bienvenue dans | 17000000 | 6400000 |
RECONNAÎTRE | bienvenue dans les mathématiques appliquées | 17000000 | 13600000 |
RECONNAÎTRE | bienvenue dans les mathématiques appliquées | 17000000 | 17200000 |
RECONNAÎTRE | bienvenue dans le cours de mathématiques appliquées | 17000000 | 23700000 |
RECONNAÎTRE | bienvenue dans le cours de mathématiques appliquées 2 | 17000000 | 26700000 |
RECONNAÎTRE | bienvenue dans le cours de mathématiques appliquées 201 | 17000000 | 33400000 |
RECONNU | Bienvenue dans le cours de mathématiques appliquées 201. | 17000000 | 34500000 |
La durée totale du premier énoncé était de 3,45 secondes. Il a été reconnu à 1,7 à 5,15 secondes de décalage à partir du début de la reconnaissance vocale (00:00:01.700 --> 00:00:05.150).
Si l’orateur continue de dire « Commençons », un nouveau décalage est calculé à partir du début du flux audio reconnu, jusqu’au début du nouvel énoncé. Le tableau suivant montre le décalage potentiel et la durée d’un énoncé qui a commencé deux secondes après la fin de l’énoncé précédent.
Événement | Texte | Décalage (en cycles) | Durée (en cycles) |
---|---|---|---|
RECONNAÎTRE | OK | 71500000 | 3100000 |
RECONNAÎTRE | OK, maintenant | 71500000 | 10300000 |
RECONNAÎTRE | OK, maintenant, nous allons | 71500000 | 14700000 |
RECONNAÎTRE | Ok, maintenant, commençons | 71500000 | 18500000 |
RECONNU | Ok, maintenant, commençons. | 71500000 | 20600000 |
La durée totale du deuxième énoncé était de 2,06 secondes. Il a été reconnu à 7,15 à 9,21 secondes de décalage à partir du début de la reconnaissance vocale (00:00:07.150 --> 00:00:09.210).
Documentation de référence | Exemples supplémentaires sur GitHub
Dans ce guide pratique, vous allez découvrir comment utiliser les résultats de la reconnaissance vocale.
Synchronisation de Speech
Vous pouvez synchroniser les transcriptions avec une piste audio, qu’elle soit effectuée en temps réel ou avec un préenregistrement.
Le service Speech retourne le décalage et la durée de la reconnaissance vocale.
- Décalage : décalage dans le flux audio reconnu, exprimé sous forme de durée. Le décalage est mesuré en cycles, à partir de
0
(zéro) cycle, associé au premier octet audio traité par le kit SDK. Par exemple, le décalage commence lorsque vous démarrez la reconnaissance, car c’est le moment où le kit SDK démarre le traitement du flux audio. Un cycle représente cent nanosecondes ou un dix-millionième de seconde. - Durée : durée de l’énoncé reconnu. La durée des cycles n’inclut pas le silence de fin ou de début.
La fin d’un énoncé est déterminé en écoutant le silence de fin. Vous n’obtiendrez pas le résultat final de la reconnaissance tant qu’un énoncé n’est pas terminé. La reconnaissance des événements fournit des résultats intermédiaires qui sont sujets à modification pendant qu’un flux audio est traité. Les événements reconnus fournissent le texte transcrit final une fois le traitement d’un énoncé terminé.
Reconnaître le décalage et la durée
Avec l’événement Recognizing
, vous pouvez obtenir le décalage et la durée de la reconnaissance vocale. Les décalages et la durée par mot ne sont pas disponibles lorsque la reconnaissance est en cours. Chaque événement Recognizing
est fourni avec une estimation textuelle de la parole reconnue jusqu’à présent.
Cet extrait de code montre comment obtenir le décalage et la durée d’un événement Recognizing
.
speechRecognizer.recognizing.addEventListener((s, e) -> {
System.out.println("RECOGNIZING: " + e.getResult().getText());
System.out.println("Offset in Ticks: " + e.getResult().getOffset());
System.out.println("Duration in Ticks: " + e.getResult().getDuration());
});
Décalage et durée reconnue
Une fois qu’un énoncé a été reconnu, vous pouvez obtenir le décalage et la durée de la parole reconnue. Avec l’événement Recognized
, vous pouvez également obtenir le décalage et la durée par mot. Pour demander le décalage et la durée par mot, vous devez d’abord définir la propriété SpeechConfig
correspondante comme indiqué ici :
speechConfig.requestWordLevelTimestamps();
exemple de décalage et de durée
Le tableau suivant montre un décalage potentiel et une durée dans les cycles lorsqu’un orateur indique « Bienvenue dans le cours mathématiques appliqué 201 ». Dans cet exemple, le décalage ne change pas tout au long des événements Recognizing
et Recognized
. Toutefois, ne vous attendez pas à ce que le décalage reste le même entre les événements Recognizing
et Recognized
, car le résultat final peut être différent.
Événement | Texte | Décalage (en cycles) | Durée (en cycles) |
---|---|---|---|
RECONNAÎTRE | bienvenue | 17000000 | 5000000 |
RECONNAÎTRE | bienvenue dans | 17000000 | 6400000 |
RECONNAÎTRE | bienvenue dans les mathématiques appliquées | 17000000 | 13600000 |
RECONNAÎTRE | bienvenue dans les mathématiques appliquées | 17000000 | 17200000 |
RECONNAÎTRE | bienvenue dans le cours de mathématiques appliquées | 17000000 | 23700000 |
RECONNAÎTRE | bienvenue dans le cours de mathématiques appliquées 2 | 17000000 | 26700000 |
RECONNAÎTRE | bienvenue dans le cours de mathématiques appliquées 201 | 17000000 | 33400000 |
RECONNU | Bienvenue dans le cours de mathématiques appliquées 201. | 17000000 | 34500000 |
La durée totale du premier énoncé était de 3,45 secondes. Il a été reconnu à 1,7 à 5,15 secondes de décalage à partir du début de la reconnaissance vocale (00:00:01.700 --> 00:00:05.150).
Si l’orateur continue de dire « Commençons », un nouveau décalage est calculé à partir du début du flux audio reconnu, jusqu’au début du nouvel énoncé. Le tableau suivant montre le décalage potentiel et la durée d’un énoncé qui a commencé deux secondes après la fin de l’énoncé précédent.
Événement | Texte | Décalage (en cycles) | Durée (en cycles) |
---|---|---|---|
RECONNAÎTRE | OK | 71500000 | 3100000 |
RECONNAÎTRE | OK, maintenant | 71500000 | 10300000 |
RECONNAÎTRE | OK, maintenant, nous allons | 71500000 | 14700000 |
RECONNAÎTRE | Ok, maintenant, commençons | 71500000 | 18500000 |
RECONNU | Ok, maintenant, commençons. | 71500000 | 20600000 |
La durée totale du deuxième énoncé était de 2,06 secondes. Il a été reconnu à 7,15 à 9,21 secondes de décalage à partir du début de la reconnaissance vocale (00:00:07.150 --> 00:00:09.210).
Documentation de référence | Package (npm) | Exemples supplémentaires sur GitHub | Code source de la bibliothèque
Dans ce guide pratique, vous allez découvrir comment utiliser les résultats de la reconnaissance vocale.
Synchronisation de Speech
Vous pouvez synchroniser les transcriptions avec une piste audio, qu’elle soit effectuée en temps réel ou avec un préenregistrement.
Le service Speech retourne le décalage et la durée de la reconnaissance vocale.
- Décalage : décalage dans le flux audio reconnu, exprimé sous forme de durée. Le décalage est mesuré en cycles, à partir de
0
(zéro) cycle, associé au premier octet audio traité par le kit SDK. Par exemple, le décalage commence lorsque vous démarrez la reconnaissance, car c’est le moment où le kit SDK démarre le traitement du flux audio. Un cycle représente cent nanosecondes ou un dix-millionième de seconde. - Durée : durée de l’énoncé reconnu. La durée des cycles n’inclut pas le silence de fin ou de début.
La fin d’un énoncé est déterminé en écoutant le silence de fin. Vous n’obtiendrez pas le résultat final de la reconnaissance tant qu’un énoncé n’est pas terminé. La reconnaissance des événements fournit des résultats intermédiaires qui sont sujets à modification pendant qu’un flux audio est traité. Les événements reconnus fournissent le texte transcrit final une fois le traitement d’un énoncé terminé.
Reconnaître le décalage et la durée
Avec l’événement Recognizing
, vous pouvez obtenir le décalage et la durée de la reconnaissance vocale. Les décalages et la durée par mot ne sont pas disponibles lorsque la reconnaissance est en cours. Chaque événement Recognizing
est fourni avec une estimation textuelle de la parole reconnue jusqu’à présent.
Cet extrait de code montre comment obtenir le décalage et la durée d’un événement Recognizing
.
speechRecognizer.recognizing = function (s, e) {
console.log("RECOGNIZING: " + e.result.text);
console.log("Offset in Ticks: " + e.result.offset);
console.log("Duration in Ticks: " + e.result.duration);
};
Décalage et durée reconnue
Une fois qu’un énoncé a été reconnu, vous pouvez obtenir le décalage et la durée de la parole reconnue. Avec l’événement Recognized
, vous pouvez également obtenir le décalage et la durée par mot. Pour demander le décalage et la durée par mot, vous devez d’abord définir la propriété SpeechConfig
correspondante comme indiqué ici :
speechConfig.requestWordLevelTimestamps();
exemple de décalage et de durée
Le tableau suivant montre un décalage potentiel et une durée dans les cycles lorsqu’un orateur indique « Bienvenue dans le cours mathématiques appliqué 201 ». Dans cet exemple, le décalage ne change pas tout au long des événements Recognizing
et Recognized
. Toutefois, ne vous attendez pas à ce que le décalage reste le même entre les événements Recognizing
et Recognized
, car le résultat final peut être différent.
Événement | Texte | Décalage (en cycles) | Durée (en cycles) |
---|---|---|---|
RECONNAÎTRE | bienvenue | 17000000 | 5000000 |
RECONNAÎTRE | bienvenue dans | 17000000 | 6400000 |
RECONNAÎTRE | bienvenue dans les mathématiques appliquées | 17000000 | 13600000 |
RECONNAÎTRE | bienvenue dans les mathématiques appliquées | 17000000 | 17200000 |
RECONNAÎTRE | bienvenue dans le cours de mathématiques appliquées | 17000000 | 23700000 |
RECONNAÎTRE | bienvenue dans le cours de mathématiques appliquées 2 | 17000000 | 26700000 |
RECONNAÎTRE | bienvenue dans le cours de mathématiques appliquées 201 | 17000000 | 33400000 |
RECONNU | Bienvenue dans le cours de mathématiques appliquées 201. | 17000000 | 34500000 |
La durée totale du premier énoncé était de 3,45 secondes. Il a été reconnu à 1,7 à 5,15 secondes de décalage à partir du début de la reconnaissance vocale (00:00:01.700 --> 00:00:05.150).
Si l’orateur continue de dire « Commençons », un nouveau décalage est calculé à partir du début du flux audio reconnu, jusqu’au début du nouvel énoncé. Le tableau suivant montre le décalage potentiel et la durée d’un énoncé qui a commencé deux secondes après la fin de l’énoncé précédent.
Événement | Texte | Décalage (en cycles) | Durée (en cycles) |
---|---|---|---|
RECONNAÎTRE | OK | 71500000 | 3100000 |
RECONNAÎTRE | OK, maintenant | 71500000 | 10300000 |
RECONNAÎTRE | OK, maintenant, nous allons | 71500000 | 14700000 |
RECONNAÎTRE | Ok, maintenant, commençons | 71500000 | 18500000 |
RECONNU | Ok, maintenant, commençons. | 71500000 | 20600000 |
La durée totale du deuxième énoncé était de 2,06 secondes. Il a été reconnu à 7,15 à 9,21 secondes de décalage à partir du début de la reconnaissance vocale (00:00:07.150 --> 00:00:09.210).
Documentation de référence | Package (téléchargement) | Exemples supplémentaires sur GitHub
Dans ce guide pratique, vous allez découvrir comment utiliser les résultats de la reconnaissance vocale.
Synchronisation de Speech
Vous pouvez synchroniser les transcriptions avec une piste audio, qu’elle soit effectuée en temps réel ou avec un préenregistrement.
Le service Speech retourne le décalage et la durée de la reconnaissance vocale.
- Décalage : décalage dans le flux audio reconnu, exprimé sous forme de durée. Le décalage est mesuré en cycles, à partir de
0
(zéro) cycle, associé au premier octet audio traité par le kit SDK. Par exemple, le décalage commence lorsque vous démarrez la reconnaissance, car c’est le moment où le kit SDK démarre le traitement du flux audio. Un cycle représente cent nanosecondes ou un dix-millionième de seconde. - Durée : durée de l’énoncé reconnu. La durée des cycles n’inclut pas le silence de fin ou de début.
La fin d’un énoncé est déterminé en écoutant le silence de fin. Vous n’obtiendrez pas le résultat final de la reconnaissance tant qu’un énoncé n’est pas terminé. La reconnaissance des événements fournit des résultats intermédiaires qui sont sujets à modification pendant qu’un flux audio est traité. Les événements reconnus fournissent le texte transcrit final une fois le traitement d’un énoncé terminé.
Reconnaître le décalage et la durée
Avec l’événement Recognizing
, vous pouvez obtenir le décalage et la durée de la reconnaissance vocale. Les décalages et la durée par mot ne sont pas disponibles lorsque la reconnaissance est en cours. Chaque événement Recognizing
est fourni avec une estimation textuelle de la parole reconnue jusqu’à présent.
Décalage et durée reconnue
Une fois qu’un énoncé a été reconnu, vous pouvez obtenir le décalage et la durée de la parole reconnue. Avec l’événement Recognized
, vous pouvez également obtenir le décalage et la durée par mot. Pour demander le décalage et la durée par mot, vous devez d’abord définir la propriété SpeechConfig
correspondante comme indiqué ici :
[speechConfig requestWordLevelTimestamps];
exemple de décalage et de durée
Le tableau suivant montre un décalage potentiel et une durée dans les cycles lorsqu’un orateur indique « Bienvenue dans le cours mathématiques appliqué 201 ». Dans cet exemple, le décalage ne change pas tout au long des événements Recognizing
et Recognized
. Toutefois, ne vous attendez pas à ce que le décalage reste le même entre les événements Recognizing
et Recognized
, car le résultat final peut être différent.
Événement | Texte | Décalage (en cycles) | Durée (en cycles) |
---|---|---|---|
RECONNAÎTRE | bienvenue | 17000000 | 5000000 |
RECONNAÎTRE | bienvenue dans | 17000000 | 6400000 |
RECONNAÎTRE | bienvenue dans les mathématiques appliquées | 17000000 | 13600000 |
RECONNAÎTRE | bienvenue dans les mathématiques appliquées | 17000000 | 17200000 |
RECONNAÎTRE | bienvenue dans le cours de mathématiques appliquées | 17000000 | 23700000 |
RECONNAÎTRE | bienvenue dans le cours de mathématiques appliquées 2 | 17000000 | 26700000 |
RECONNAÎTRE | bienvenue dans le cours de mathématiques appliquées 201 | 17000000 | 33400000 |
RECONNU | Bienvenue dans le cours de mathématiques appliquées 201. | 17000000 | 34500000 |
La durée totale du premier énoncé était de 3,45 secondes. Il a été reconnu à 1,7 à 5,15 secondes de décalage à partir du début de la reconnaissance vocale (00:00:01.700 --> 00:00:05.150).
Si l’orateur continue de dire « Commençons », un nouveau décalage est calculé à partir du début du flux audio reconnu, jusqu’au début du nouvel énoncé. Le tableau suivant montre le décalage potentiel et la durée d’un énoncé qui a commencé deux secondes après la fin de l’énoncé précédent.
Événement | Texte | Décalage (en cycles) | Durée (en cycles) |
---|---|---|---|
RECONNAÎTRE | OK | 71500000 | 3100000 |
RECONNAÎTRE | OK, maintenant | 71500000 | 10300000 |
RECONNAÎTRE | OK, maintenant, nous allons | 71500000 | 14700000 |
RECONNAÎTRE | Ok, maintenant, commençons | 71500000 | 18500000 |
RECONNU | Ok, maintenant, commençons. | 71500000 | 20600000 |
La durée totale du deuxième énoncé était de 2,06 secondes. Il a été reconnu à 7,15 à 9,21 secondes de décalage à partir du début de la reconnaissance vocale (00:00:07.150 --> 00:00:09.210).
Documentation de référence | Package (téléchargement) | Exemples supplémentaires sur GitHub
Dans ce guide pratique, vous allez découvrir comment utiliser les résultats de la reconnaissance vocale.
Synchronisation de Speech
Vous pouvez synchroniser les transcriptions avec une piste audio, qu’elle soit effectuée en temps réel ou avec un préenregistrement.
Le service Speech retourne le décalage et la durée de la reconnaissance vocale.
- Décalage : décalage dans le flux audio reconnu, exprimé sous forme de durée. Le décalage est mesuré en cycles, à partir de
0
(zéro) cycle, associé au premier octet audio traité par le kit SDK. Par exemple, le décalage commence lorsque vous démarrez la reconnaissance, car c’est le moment où le kit SDK démarre le traitement du flux audio. Un cycle représente cent nanosecondes ou un dix-millionième de seconde. - Durée : durée de l’énoncé reconnu. La durée des cycles n’inclut pas le silence de fin ou de début.
La fin d’un énoncé est déterminé en écoutant le silence de fin. Vous n’obtiendrez pas le résultat final de la reconnaissance tant qu’un énoncé n’est pas terminé. La reconnaissance des événements fournit des résultats intermédiaires qui sont sujets à modification pendant qu’un flux audio est traité. Les événements reconnus fournissent le texte transcrit final une fois le traitement d’un énoncé terminé.
Reconnaître le décalage et la durée
Avec l’événement Recognizing
, vous pouvez obtenir le décalage et la durée de la reconnaissance vocale. Les décalages et la durée par mot ne sont pas disponibles lorsque la reconnaissance est en cours. Chaque événement Recognizing
est fourni avec une estimation textuelle de la parole reconnue jusqu’à présent.
Décalage et durée reconnue
Une fois qu’un énoncé a été reconnu, vous pouvez obtenir le décalage et la durée de la parole reconnue. Avec l’événement Recognized
, vous pouvez également obtenir le décalage et la durée par mot. Pour demander le décalage et la durée par mot, vous devez d’abord définir la propriété SpeechConfig
correspondante comme indiqué ici :
[speechConfig requestWordLevelTimestamps];
exemple de décalage et de durée
Le tableau suivant montre un décalage potentiel et une durée dans les cycles lorsqu’un orateur indique « Bienvenue dans le cours mathématiques appliqué 201 ». Dans cet exemple, le décalage ne change pas tout au long des événements Recognizing
et Recognized
. Toutefois, ne vous attendez pas à ce que le décalage reste le même entre les événements Recognizing
et Recognized
, car le résultat final peut être différent.
Événement | Texte | Décalage (en cycles) | Durée (en cycles) |
---|---|---|---|
RECONNAÎTRE | bienvenue | 17000000 | 5000000 |
RECONNAÎTRE | bienvenue dans | 17000000 | 6400000 |
RECONNAÎTRE | bienvenue dans les mathématiques appliquées | 17000000 | 13600000 |
RECONNAÎTRE | bienvenue dans les mathématiques appliquées | 17000000 | 17200000 |
RECONNAÎTRE | bienvenue dans le cours de mathématiques appliquées | 17000000 | 23700000 |
RECONNAÎTRE | bienvenue dans le cours de mathématiques appliquées 2 | 17000000 | 26700000 |
RECONNAÎTRE | bienvenue dans le cours de mathématiques appliquées 201 | 17000000 | 33400000 |
RECONNU | Bienvenue dans le cours de mathématiques appliquées 201. | 17000000 | 34500000 |
La durée totale du premier énoncé était de 3,45 secondes. Il a été reconnu à 1,7 à 5,15 secondes de décalage à partir du début de la reconnaissance vocale (00:00:01.700 --> 00:00:05.150).
Si l’orateur continue de dire « Commençons », un nouveau décalage est calculé à partir du début du flux audio reconnu, jusqu’au début du nouvel énoncé. Le tableau suivant montre le décalage potentiel et la durée d’un énoncé qui a commencé deux secondes après la fin de l’énoncé précédent.
Événement | Texte | Décalage (en cycles) | Durée (en cycles) |
---|---|---|---|
RECONNAÎTRE | OK | 71500000 | 3100000 |
RECONNAÎTRE | OK, maintenant | 71500000 | 10300000 |
RECONNAÎTRE | OK, maintenant, nous allons | 71500000 | 14700000 |
RECONNAÎTRE | Ok, maintenant, commençons | 71500000 | 18500000 |
RECONNU | Ok, maintenant, commençons. | 71500000 | 20600000 |
La durée totale du deuxième énoncé était de 2,06 secondes. Il a été reconnu à 7,15 à 9,21 secondes de décalage à partir du début de la reconnaissance vocale (00:00:07.150 --> 00:00:09.210).
Documentation de référence | Package (PyPi) | Exemples supplémentaires sur GitHub
Dans ce guide pratique, vous allez découvrir comment utiliser les résultats de la reconnaissance vocale.
Synchronisation de Speech
Vous pouvez synchroniser les transcriptions avec une piste audio, qu’elle soit effectuée en temps réel ou avec un préenregistrement.
Le service Speech retourne le décalage et la durée de la reconnaissance vocale.
- Décalage : décalage dans le flux audio reconnu, exprimé sous forme de durée. Le décalage est mesuré en cycles, à partir de
0
(zéro) cycle, associé au premier octet audio traité par le kit SDK. Par exemple, le décalage commence lorsque vous démarrez la reconnaissance, car c’est le moment où le kit SDK démarre le traitement du flux audio. Un cycle représente cent nanosecondes ou un dix-millionième de seconde. - Durée : durée de l’énoncé reconnu. La durée des cycles n’inclut pas le silence de fin ou de début.
La fin d’un énoncé est déterminé en écoutant le silence de fin. Vous n’obtiendrez pas le résultat final de la reconnaissance tant qu’un énoncé n’est pas terminé. La reconnaissance des événements fournit des résultats intermédiaires qui sont sujets à modification pendant qu’un flux audio est traité. Les événements reconnus fournissent le texte transcrit final une fois le traitement d’un énoncé terminé.
Reconnaître le décalage et la durée
Avec l’événement Recognizing
, vous pouvez obtenir le décalage et la durée de la reconnaissance vocale. Les décalages et la durée par mot ne sont pas disponibles lorsque la reconnaissance est en cours. Chaque événement Recognizing
est fourni avec une estimation textuelle de la parole reconnue jusqu’à présent.
Cet extrait de code montre comment obtenir le décalage et la durée d’un événement Recognizing
.
def recognizing_handler(e : speechsdk.SpeechRecognitionEventArgs) :
if speechsdk.ResultReason.RecognizingSpeech == e.result.reason and len(e.result.text) > 0 :
print("Recognized: {}".format(result.text))
print("Offset in Ticks: {}".format(result.offset))
print("Duration in Ticks: {}".format(result.duration))
Décalage et durée reconnue
Une fois qu’un énoncé a été reconnu, vous pouvez obtenir le décalage et la durée de la parole reconnue. Avec l’événement Recognized
, vous pouvez également obtenir le décalage et la durée par mot. Pour demander le décalage et la durée par mot, vous devez d’abord définir la propriété SpeechConfig
correspondante comme indiqué ici :
speech_config.request_word_level_timestamps()
exemple de décalage et de durée
Le tableau suivant montre un décalage potentiel et une durée dans les cycles lorsqu’un orateur indique « Bienvenue dans le cours mathématiques appliqué 201 ». Dans cet exemple, le décalage ne change pas tout au long des événements Recognizing
et Recognized
. Toutefois, ne vous attendez pas à ce que le décalage reste le même entre les événements Recognizing
et Recognized
, car le résultat final peut être différent.
Événement | Texte | Décalage (en cycles) | Durée (en cycles) |
---|---|---|---|
RECONNAÎTRE | bienvenue | 17000000 | 5000000 |
RECONNAÎTRE | bienvenue dans | 17000000 | 6400000 |
RECONNAÎTRE | bienvenue dans les mathématiques appliquées | 17000000 | 13600000 |
RECONNAÎTRE | bienvenue dans les mathématiques appliquées | 17000000 | 17200000 |
RECONNAÎTRE | bienvenue dans le cours de mathématiques appliquées | 17000000 | 23700000 |
RECONNAÎTRE | bienvenue dans le cours de mathématiques appliquées 2 | 17000000 | 26700000 |
RECONNAÎTRE | bienvenue dans le cours de mathématiques appliquées 201 | 17000000 | 33400000 |
RECONNU | Bienvenue dans le cours de mathématiques appliquées 201. | 17000000 | 34500000 |
La durée totale du premier énoncé était de 3,45 secondes. Il a été reconnu à 1,7 à 5,15 secondes de décalage à partir du début de la reconnaissance vocale (00:00:01.700 --> 00:00:05.150).
Si l’orateur continue de dire « Commençons », un nouveau décalage est calculé à partir du début du flux audio reconnu, jusqu’au début du nouvel énoncé. Le tableau suivant montre le décalage potentiel et la durée d’un énoncé qui a commencé deux secondes après la fin de l’énoncé précédent.
Événement | Texte | Décalage (en cycles) | Durée (en cycles) |
---|---|---|---|
RECONNAÎTRE | OK | 71500000 | 3100000 |
RECONNAÎTRE | OK, maintenant | 71500000 | 10300000 |
RECONNAÎTRE | OK, maintenant, nous allons | 71500000 | 14700000 |
RECONNAÎTRE | Ok, maintenant, commençons | 71500000 | 18500000 |
RECONNU | Ok, maintenant, commençons. | 71500000 | 20600000 |
La durée totale du deuxième énoncé était de 2,06 secondes. Il a été reconnu à 7,15 à 9,21 secondes de décalage à partir du début de la reconnaissance vocale (00:00:07.150 --> 00:00:09.210).
Dans ce guide pratique, vous allez découvrir comment utiliser les résultats de la reconnaissance vocale.
Synchronisation de Speech
Vous pouvez synchroniser les transcriptions avec une piste audio, qu’elle soit effectuée en temps réel ou avec un préenregistrement.
Le service Speech retourne le décalage et la durée de la reconnaissance vocale.
- Décalage : décalage dans le flux audio reconnu, exprimé sous forme de durée. Le décalage est mesuré en cycles, à partir de
0
(zéro) cycle, associé au premier octet audio traité par le kit SDK. Par exemple, le décalage commence lorsque vous démarrez la reconnaissance, car c’est le moment où le kit SDK démarre le traitement du flux audio. Un cycle représente cent nanosecondes ou un dix-millionième de seconde. - Durée : durée de l’énoncé reconnu. La durée des cycles n’inclut pas le silence de fin ou de début.
La fin d’un énoncé est déterminé en écoutant le silence de fin. Vous n’obtiendrez pas le résultat final de la reconnaissance tant qu’un énoncé n’est pas terminé. La reconnaissance des événements fournit des résultats intermédiaires qui sont sujets à modification pendant qu’un flux audio est traité. Les événements reconnus fournissent le texte transcrit final une fois le traitement d’un énoncé terminé.
Reconnaître le décalage et la durée
Vous devez synchroniser les sous-titres avec la piste audio, qu’elle soit effectuée en temps réel ou avec un préenregistrement. Avec l’événement Recognizing
, vous pouvez obtenir le décalage et la durée de la reconnaissance vocale. Les décalages et la durée par mot ne sont pas disponibles lorsque la reconnaissance est en cours. Chaque événement Recognizing
est fourni avec une estimation textuelle de la parole reconnue jusqu’à présent.
Par exemple, exécutez la commande suivante pour obtenir le décalage et la durée de la reconnaissance vocale :
spx recognize --file caption.this.mp4 --format any --output each file - @output.each.detailed
Étant donné que l’argument @output.each.detailed
a été défini, la sortie inclut les en-têtes de colonne suivants :
audio.input.id event event.sessionid result.reason result.latency result.text result.json
La colonne result.json
présente des détails qui incluent le décalage et la durée des événements Recognizing
et Recognized
:
{
"Id": "492574cd8555481a92c22f5ff757ef17",
"RecognitionStatus": "Success",
"DisplayText": "Welcome to applied Mathematics course 201.",
"Offset": 1800000,
"Duration": 30500000
}
Pour plus d’informations, consultez la configuration du magasin de données et les options de sortie de l’interface CLI Speech.
exemple de décalage et de durée
Le tableau suivant montre un décalage potentiel et une durée dans les cycles lorsqu’un orateur indique « Bienvenue dans le cours mathématiques appliqué 201 ». Dans cet exemple, le décalage ne change pas tout au long des événements Recognizing
et Recognized
. Toutefois, ne vous attendez pas à ce que le décalage reste le même entre les événements Recognizing
et Recognized
, car le résultat final peut être différent.
Événement | Texte | Décalage (en cycles) | Durée (en cycles) |
---|---|---|---|
RECONNAÎTRE | bienvenue | 17000000 | 5000000 |
RECONNAÎTRE | bienvenue dans | 17000000 | 6400000 |
RECONNAÎTRE | bienvenue dans les mathématiques appliquées | 17000000 | 13600000 |
RECONNAÎTRE | bienvenue dans les mathématiques appliquées | 17000000 | 17200000 |
RECONNAÎTRE | bienvenue dans le cours de mathématiques appliquées | 17000000 | 23700000 |
RECONNAÎTRE | bienvenue dans le cours de mathématiques appliquées 2 | 17000000 | 26700000 |
RECONNAÎTRE | bienvenue dans le cours de mathématiques appliquées 201 | 17000000 | 33400000 |
RECONNU | Bienvenue dans le cours de mathématiques appliquées 201. | 17000000 | 34500000 |
La durée totale du premier énoncé était de 3,45 secondes. Il a été reconnu à 1,7 à 5,15 secondes de décalage à partir du début de la reconnaissance vocale (00:00:01.700 --> 00:00:05.150).
Si l’orateur continue de dire « Commençons », un nouveau décalage est calculé à partir du début du flux audio reconnu, jusqu’au début du nouvel énoncé. Le tableau suivant montre le décalage potentiel et la durée d’un énoncé qui a commencé deux secondes après la fin de l’énoncé précédent.
Événement | Texte | Décalage (en cycles) | Durée (en cycles) |
---|---|---|---|
RECONNAÎTRE | OK | 71500000 | 3100000 |
RECONNAÎTRE | OK, maintenant | 71500000 | 10300000 |
RECONNAÎTRE | OK, maintenant, nous allons | 71500000 | 14700000 |
RECONNAÎTRE | Ok, maintenant, commençons | 71500000 | 18500000 |
RECONNU | Ok, maintenant, commençons. | 71500000 | 20600000 |
La durée totale du deuxième énoncé était de 2,06 secondes. Il a été reconnu à 7,15 à 9,21 secondes de décalage à partir du début de la reconnaissance vocale (00:00:07.150 --> 00:00:09.210).