Obtención de resultados del reconocimiento de voz: servicio de voz - Azure AI services

Documentación de referencia Paquete (NuGet)Ejemplos adicionales en GitHub

En esta guía paso a paso, obtendrá información sobre cómo usar los resultados del reconocimiento de voz.

Sincronización de voz

Es posible que deba sincronizar las transcripciones con una pista de audio, ya sea en tiempo real o mediante una grabación previa.

El servicio de voz devuelve el desplazamiento y la duración de la voz reconocida.

Desplazamiento: es el desplazamiento en la secuencia de audio que se reconoce, expresado en forma de duración. El desplazamiento se mide en tics, empezando por el tic 0 (cero), que está asociado al primer byte de audio que procesa el SDK. Es decir, el desplazamiento comienza cuando se inicia el reconocimiento, ya que es cuando el SDK comienza a procesar la secuencia de audio. Un tic representa cien nanosegundos o una diezmillonésima parte de un segundo.
Duración: es la duración de la expresión que se reconoce. La duración en tics no incluye el silencio final ni el inicial.

El final de una unidad de expresión se determina si se escucha un silencio que indica su final. No obtendrá el resultado final del reconocimiento hasta que se haya completado una expresión. Los eventos de reconocimiento (Recognizing) proporcionarán resultados intermedios que estarán sujetos a cambios mientras se procese una secuencia de audio. Los eventos ya reconocidos (Recognized) proporcionarán el texto transcrito final una vez que se haya completado el procesamiento de una expresión.

Desplazamiento y duración de eventos de reconocimiento

Mediante el evento Recognizing, podrá obtener el desplazamiento y la duración de la voz que se va a reconocer. El desplazamiento y la duración por palabra no estarán disponibles mientras el reconocimiento esté en curso. Cada evento Recognizing incluirá una estimación textual de la voz reconocida hasta ese momento.

Este fragmento de código muestra cómo obtener el desplazamiento y la duración de un evento Recognizing.

speechRecognizer.Recognizing += (object sender, SpeechRecognitionEventArgs e) =>
    {
        if (e.Result.Reason == ResultReason.RecognizingSpeech)
        {        
            Console.WriteLine(String.Format ("RECOGNIZING: {0}", e.Result.Text));
            Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
            Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
        }
    };

Desplazamiento y duración de eventos reconocidos

Una vez que se haya reconocido una expresión, podrá obtener el desplazamiento y la duración de la voz reconocida. Mediante el evento Recognized, también podrá obtener el desplazamiento y la duración por palabra. Para solicitar el desplazamiento y la duración por palabra, primero deberá establecer la propiedad SpeechConfig correspondiente, como se muestra a continuación:

speechConfig.RequestWordLevelTimestamps();

Este fragmento de código muestra cómo obtener el desplazamiento y la duración de un evento Recognized.

speechRecognizer.Recognized += (object sender, SpeechRecognitionEventArgs e) =>
    {
        if (ResultReason.RecognizedSpeech == e.Result.Reason && e.Result.Text.Length > 0)
        {            
            Console.WriteLine($"RECOGNIZED: Text={e.Result.Text}");
            Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
            Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
                        
            var detailedResults = e.Result.Best();
            if(detailedResults != null && detailedResults.Any())
            {
                // The first item in detailedResults corresponds to the recognized text.
                // This is not necessarily the item with the highest confidence number.
                var bestResults = detailedResults?.ToList()[0];
                Console.WriteLine(String.Format("\tConfidence: {0}\n\tText: {1}\n\tLexicalForm: {2}\n\tNormalizedForm: {3}\n\tMaskedNormalizedForm: {4}",
                    bestResults.Confidence, bestResults.Text, bestResults.LexicalForm, bestResults.NormalizedForm, bestResults.MaskedNormalizedForm));
                // You must set speechConfig.RequestWordLevelTimestamps() to get word-level timestamps.
                Console.WriteLine($"\tWord-level timing:");
                Console.WriteLine($"\t\tWord | Offset | Duration");
                Console.WriteLine($"\t\t----- | ----- | ----- ");

                foreach (var word in bestResults.Words)
                {
                    Console.WriteLine($"\t\t{word.Word} | {word.Offset} | {word.Duration}");
                }
            }
        }
    };

Ejemplo de desplazamiento y duración

En la siguiente tabla se muestran el desplazamiento y la duración posibles, en tics, que se calculan cuando un orador dice: "Le damos la bienvenida al curso de matemáticas aplicadas 201." En este ejemplo, el desplazamiento no cambia nunca en los eventos Recognizing y Recognized. Sin embargo, no confíe en el desplazamiento será el mismo en los eventos Recognizing y Recognized, ya que el resultado final podría diferir.

Evento	Texto	Desplazamiento (en tics)	Duración (en tics)
RECOGNIZING	bienvenido	17 000 000	5000000
RECOGNIZING	Le damos la	17 000 000	6 400 000
RECOGNIZING	Le damos la bienvenida al	17 000 000	13 600 000
RECOGNIZING	Le damos la bienvenida al curso de	17 000 000	17 200 000
RECOGNIZING	Le damos la bienvenida al curso de matemáticas	17 000 000	23 700 000
RECOGNIZING	Le damos la bienvenida al curso de matemáticas aplicadas 2	17 000 000	26 700 000
RECOGNIZING	Le damos la bienvenida al curso de matemáticas aplicadas 201	17 000 000	33 400 000
RECOGNIZED	Le damos la bienvenida al curso de matemáticas aplicadas 201.	17 000 000	34 500 000

La duración total de la primera expresión fue de 3,45 segundos. Esta se reconoció en el desplazamiento a los 1,7 a 5,15 segundos del inicio del reconocimiento de voz (00:00:01.700 --> 00:00:05.150).

Si el hablante continúa diciendo "Comencemos", se calcula un nuevo desplazamiento desde el principio de la secuencia de audio en reconocimiento, hasta el inicio de la nueva expresión. En la siguiente tabla se muestra el posible desplazamiento y la duración de una expresión que se reconoció dos segundos después de finalizar la expresión anterior.

Evento	Texto	Desplazamiento (en tics)	Duración (en tics)
RECOGNIZING	Aceptar	71 500 000	3 100 000
RECOGNIZING	Muy bien	71 500 000	10 300 000
RECOGNIZING	Muy bien, ahora	71 500 000	14 700 000
RECOGNIZING	Muy bien, ahora comencemos.	71 500 000	18 500 000
RECOGNIZED	Muy bien, ahora comencemos.	71 500 000	20 600 000

La duración total de la segunda expresión fue de 2,06 segundos. Esta se reconoció en el desplazamiento a los 7,15 a 9,21 segundos del inicio del reconocimiento de voz (00:00:07.150 --> 00:00:09.210).

Documentación de referencia Paquete (NuGet)Ejemplos adicionales en GitHub

En esta guía paso a paso, obtendrá información sobre cómo usar los resultados del reconocimiento de voz.

Sincronización de voz

Es posible que deba sincronizar las transcripciones con una pista de audio, ya sea en tiempo real o mediante una grabación previa.

El servicio de voz devuelve el desplazamiento y la duración de la voz reconocida.

Desplazamiento: es el desplazamiento en la secuencia de audio que se reconoce, expresado en forma de duración. El desplazamiento se mide en tics, empezando por el tic 0 (cero), que está asociado al primer byte de audio que procesa el SDK. Es decir, el desplazamiento comienza cuando se inicia el reconocimiento, ya que es cuando el SDK comienza a procesar la secuencia de audio. Un tic representa cien nanosegundos o una diezmillonésima parte de un segundo.
Duración: es la duración de la expresión que se reconoce. La duración en tics no incluye el silencio final ni el inicial.

El final de una unidad de expresión se determina si se escucha un silencio que indica su final. No obtendrá el resultado final del reconocimiento hasta que se haya completado una expresión. Los eventos de reconocimiento (Recognizing) proporcionarán resultados intermedios que estarán sujetos a cambios mientras se procese una secuencia de audio. Los eventos ya reconocidos (Recognized) proporcionarán el texto transcrito final una vez que se haya completado el procesamiento de una expresión.

Desplazamiento y duración de eventos de reconocimiento

Mediante el evento Recognizing, podrá obtener el desplazamiento y la duración de la voz que se va a reconocer. El desplazamiento y la duración por palabra no estarán disponibles mientras el reconocimiento esté en curso. Cada evento Recognizing incluirá una estimación textual de la voz reconocida hasta ese momento.

Este fragmento de código muestra cómo obtener el desplazamiento y la duración de un evento Recognizing.

speechRecognizer->Recognizing.Connect([](const SpeechRecognitionEventArgs& e)
    {
        cout << "Recognizing:" << e.Result->Text << std::endl;
        cout << "Offset in Ticks:" << e.Result->Offset() << std::endl;
        cout << "Duration in Ticks:" << e.Result->Duration() << std::endl;
    });

Desplazamiento y duración de eventos reconocidos

Una vez que se haya reconocido una expresión, podrá obtener el desplazamiento y la duración de la voz reconocida. Mediante el evento Recognized, también podrá obtener el desplazamiento y la duración por palabra. Para solicitar el desplazamiento y la duración por palabra, primero deberá establecer la propiedad SpeechConfig correspondiente, como se muestra a continuación:

speechConfig->RequestWordLevelTimestamps();

Ejemplo de desplazamiento y duración

En la siguiente tabla se muestran el desplazamiento y la duración posibles, en tics, que se calculan cuando un orador dice: "Le damos la bienvenida al curso de matemáticas aplicadas 201." En este ejemplo, el desplazamiento no cambia nunca en los eventos Recognizing y Recognized. Sin embargo, no confíe en el desplazamiento será el mismo en los eventos Recognizing y Recognized, ya que el resultado final podría diferir.

Evento	Texto	Desplazamiento (en tics)	Duración (en tics)
RECOGNIZING	bienvenido	17 000 000	5000000
RECOGNIZING	Le damos la	17 000 000	6 400 000
RECOGNIZING	Le damos la bienvenida al	17 000 000	13 600 000
RECOGNIZING	Le damos la bienvenida al curso de	17 000 000	17 200 000
RECOGNIZING	Le damos la bienvenida al curso de matemáticas	17 000 000	23 700 000
RECOGNIZING	Le damos la bienvenida al curso de matemáticas aplicadas 2	17 000 000	26 700 000
RECOGNIZING	Le damos la bienvenida al curso de matemáticas aplicadas 201	17 000 000	33 400 000
RECOGNIZED	Le damos la bienvenida al curso de matemáticas aplicadas 201.	17 000 000	34 500 000

La duración total de la primera expresión fue de 3,45 segundos. Esta se reconoció en el desplazamiento a los 1,7 a 5,15 segundos del inicio del reconocimiento de voz (00:00:01.700 --> 00:00:05.150).

Si el hablante continúa diciendo "Comencemos", se calcula un nuevo desplazamiento desde el principio de la secuencia de audio en reconocimiento, hasta el inicio de la nueva expresión. En la siguiente tabla se muestra el posible desplazamiento y la duración de una expresión que se reconoció dos segundos después de finalizar la expresión anterior.

Evento	Texto	Desplazamiento (en tics)	Duración (en tics)
RECOGNIZING	Aceptar	71 500 000	3 100 000
RECOGNIZING	Muy bien	71 500 000	10 300 000
RECOGNIZING	Muy bien, ahora	71 500 000	14 700 000
RECOGNIZING	Muy bien, ahora comencemos.	71 500 000	18 500 000
RECOGNIZED	Muy bien, ahora comencemos.	71 500 000	20 600 000

La duración total de la segunda expresión fue de 2,06 segundos. Esta se reconoció en el desplazamiento a los 7,15 a 9,21 segundos del inicio del reconocimiento de voz (00:00:07.150 --> 00:00:09.210).

Documentación de referencia Paquete (Go)Ejemplos adicionales en GitHub

En esta guía paso a paso, obtendrá información sobre cómo usar los resultados del reconocimiento de voz.

Sincronización de voz

Es posible que deba sincronizar las transcripciones con una pista de audio, ya sea en tiempo real o mediante una grabación previa.

El servicio de voz devuelve el desplazamiento y la duración de la voz reconocida.

Desplazamiento: es el desplazamiento en la secuencia de audio que se reconoce, expresado en forma de duración. El desplazamiento se mide en tics, empezando por el tic 0 (cero), que está asociado al primer byte de audio que procesa el SDK. Es decir, el desplazamiento comienza cuando se inicia el reconocimiento, ya que es cuando el SDK comienza a procesar la secuencia de audio. Un tic representa cien nanosegundos o una diezmillonésima parte de un segundo.
Duración: es la duración de la expresión que se reconoce. La duración en tics no incluye el silencio final ni el inicial.

El final de una unidad de expresión se determina si se escucha un silencio que indica su final. No obtendrá el resultado final del reconocimiento hasta que se haya completado una expresión. Los eventos de reconocimiento (Recognizing) proporcionarán resultados intermedios que estarán sujetos a cambios mientras se procese una secuencia de audio. Los eventos ya reconocidos (Recognized) proporcionarán el texto transcrito final una vez que se haya completado el procesamiento de una expresión.

Desplazamiento y duración de eventos de reconocimiento

Mediante el evento Recognizing, podrá obtener el desplazamiento y la duración de la voz que se va a reconocer. El desplazamiento y la duración por palabra no estarán disponibles mientras el reconocimiento esté en curso. Cada evento Recognizing incluirá una estimación textual de la voz reconocida hasta ese momento.

Este fragmento de código muestra cómo obtener el desplazamiento y la duración de un evento Recognizing.

func recognizingHandler(event speech.SpeechRecognitionEventArgs) {
    defer event.Close()
    fmt.Println("Recognizing:", event.Result.Text)
    fmt.Println("Offset in Ticks:", event.Result.Offset)
    fmt.Println("Duration in Ticks:", event.Result.Duration)
}

Desplazamiento y duración de eventos reconocidos

Una vez que se haya reconocido una expresión, podrá obtener el desplazamiento y la duración de la voz reconocida. Mediante el evento Recognized, también podrá obtener el desplazamiento y la duración por palabra. Para solicitar el desplazamiento y la duración por palabra, primero deberá establecer la propiedad SpeechConfig correspondiente, como se muestra a continuación:

speechConfig.RequestWordLevelTimestamps();

Ejemplo de desplazamiento y duración

En la siguiente tabla se muestran el desplazamiento y la duración posibles, en tics, que se calculan cuando un orador dice: "Le damos la bienvenida al curso de matemáticas aplicadas 201." En este ejemplo, el desplazamiento no cambia nunca en los eventos Recognizing y Recognized. Sin embargo, no confíe en el desplazamiento será el mismo en los eventos Recognizing y Recognized, ya que el resultado final podría diferir.

Evento	Texto	Desplazamiento (en tics)	Duración (en tics)
RECOGNIZING	bienvenido	17 000 000	5000000
RECOGNIZING	Le damos la	17 000 000	6 400 000
RECOGNIZING	Le damos la bienvenida al	17 000 000	13 600 000
RECOGNIZING	Le damos la bienvenida al curso de	17 000 000	17 200 000
RECOGNIZING	Le damos la bienvenida al curso de matemáticas	17 000 000	23 700 000
RECOGNIZING	Le damos la bienvenida al curso de matemáticas aplicadas 2	17 000 000	26 700 000
RECOGNIZING	Le damos la bienvenida al curso de matemáticas aplicadas 201	17 000 000	33 400 000
RECOGNIZED	Le damos la bienvenida al curso de matemáticas aplicadas 201.	17 000 000	34 500 000

La duración total de la primera expresión fue de 3,45 segundos. Esta se reconoció en el desplazamiento a los 1,7 a 5,15 segundos del inicio del reconocimiento de voz (00:00:01.700 --> 00:00:05.150).

Si el hablante continúa diciendo "Comencemos", se calcula un nuevo desplazamiento desde el principio de la secuencia de audio en reconocimiento, hasta el inicio de la nueva expresión. En la siguiente tabla se muestra el posible desplazamiento y la duración de una expresión que se reconoció dos segundos después de finalizar la expresión anterior.

Evento	Texto	Desplazamiento (en tics)	Duración (en tics)
RECOGNIZING	Aceptar	71 500 000	3 100 000
RECOGNIZING	Muy bien	71 500 000	10 300 000
RECOGNIZING	Muy bien, ahora	71 500 000	14 700 000
RECOGNIZING	Muy bien, ahora comencemos.	71 500 000	18 500 000
RECOGNIZED	Muy bien, ahora comencemos.	71 500 000	20 600 000

La duración total de la segunda expresión fue de 2,06 segundos. Esta se reconoció en el desplazamiento a los 7,15 a 9,21 segundos del inicio del reconocimiento de voz (00:00:07.150 --> 00:00:09.210).

Documentación de referencia | Ejemplos adicionales en GitHub

En esta guía paso a paso, obtendrá información sobre cómo usar los resultados del reconocimiento de voz.

Sincronización de voz

Es posible que deba sincronizar las transcripciones con una pista de audio, ya sea en tiempo real o mediante una grabación previa.

El servicio de voz devuelve el desplazamiento y la duración de la voz reconocida.

Desplazamiento: es el desplazamiento en la secuencia de audio que se reconoce, expresado en forma de duración. El desplazamiento se mide en tics, empezando por el tic 0 (cero), que está asociado al primer byte de audio que procesa el SDK. Es decir, el desplazamiento comienza cuando se inicia el reconocimiento, ya que es cuando el SDK comienza a procesar la secuencia de audio. Un tic representa cien nanosegundos o una diezmillonésima parte de un segundo.
Duración: es la duración de la expresión que se reconoce. La duración en tics no incluye el silencio final ni el inicial.

El final de una unidad de expresión se determina si se escucha un silencio que indica su final. No obtendrá el resultado final del reconocimiento hasta que se haya completado una expresión. Los eventos de reconocimiento (Recognizing) proporcionarán resultados intermedios que estarán sujetos a cambios mientras se procese una secuencia de audio. Los eventos ya reconocidos (Recognized) proporcionarán el texto transcrito final una vez que se haya completado el procesamiento de una expresión.

Desplazamiento y duración de eventos de reconocimiento

Mediante el evento Recognizing, podrá obtener el desplazamiento y la duración de la voz que se va a reconocer. El desplazamiento y la duración por palabra no estarán disponibles mientras el reconocimiento esté en curso. Cada evento Recognizing incluirá una estimación textual de la voz reconocida hasta ese momento.

Este fragmento de código muestra cómo obtener el desplazamiento y la duración de un evento Recognizing.

speechRecognizer.recognizing.addEventListener((s, e) -> {
    System.out.println("RECOGNIZING: " + e.getResult().getText());
    System.out.println("Offset in Ticks: " + e.getResult().getOffset());
    System.out.println("Duration in Ticks: " + e.getResult().getDuration());
});

Desplazamiento y duración de eventos reconocidos

Una vez que se haya reconocido una expresión, podrá obtener el desplazamiento y la duración de la voz reconocida. Mediante el evento Recognized, también podrá obtener el desplazamiento y la duración por palabra. Para solicitar el desplazamiento y la duración por palabra, primero deberá establecer la propiedad SpeechConfig correspondiente, como se muestra a continuación:

speechConfig.requestWordLevelTimestamps();

Ejemplo de desplazamiento y duración

En la siguiente tabla se muestran el desplazamiento y la duración posibles, en tics, que se calculan cuando un orador dice: "Le damos la bienvenida al curso de matemáticas aplicadas 201." En este ejemplo, el desplazamiento no cambia nunca en los eventos Recognizing y Recognized. Sin embargo, no confíe en el desplazamiento será el mismo en los eventos Recognizing y Recognized, ya que el resultado final podría diferir.

Evento	Texto	Desplazamiento (en tics)	Duración (en tics)
RECOGNIZING	bienvenido	17 000 000	5000000
RECOGNIZING	Le damos la	17 000 000	6 400 000
RECOGNIZING	Le damos la bienvenida al	17 000 000	13 600 000
RECOGNIZING	Le damos la bienvenida al curso de	17 000 000	17 200 000
RECOGNIZING	Le damos la bienvenida al curso de matemáticas	17 000 000	23 700 000
RECOGNIZING	Le damos la bienvenida al curso de matemáticas aplicadas 2	17 000 000	26 700 000
RECOGNIZING	Le damos la bienvenida al curso de matemáticas aplicadas 201	17 000 000	33 400 000
RECOGNIZED	Le damos la bienvenida al curso de matemáticas aplicadas 201.	17 000 000	34 500 000

La duración total de la primera expresión fue de 3,45 segundos. Esta se reconoció en el desplazamiento a los 1,7 a 5,15 segundos del inicio del reconocimiento de voz (00:00:01.700 --> 00:00:05.150).

Si el hablante continúa diciendo "Comencemos", se calcula un nuevo desplazamiento desde el principio de la secuencia de audio en reconocimiento, hasta el inicio de la nueva expresión. En la siguiente tabla se muestra el posible desplazamiento y la duración de una expresión que se reconoció dos segundos después de finalizar la expresión anterior.

Evento	Texto	Desplazamiento (en tics)	Duración (en tics)
RECOGNIZING	Aceptar	71 500 000	3 100 000
RECOGNIZING	Muy bien	71 500 000	10 300 000
RECOGNIZING	Muy bien, ahora	71 500 000	14 700 000
RECOGNIZING	Muy bien, ahora comencemos.	71 500 000	18 500 000
RECOGNIZED	Muy bien, ahora comencemos.	71 500 000	20 600 000

La duración total de la segunda expresión fue de 2,06 segundos. Esta se reconoció en el desplazamiento a los 7,15 a 9,21 segundos del inicio del reconocimiento de voz (00:00:07.150 --> 00:00:09.210).

Documentación de referencia Paquete (npm)Ejemplos adicionales en GitHub Código fuente de la biblioteca

En esta guía paso a paso, obtendrá información sobre cómo usar los resultados del reconocimiento de voz.

Sincronización de voz

Es posible que deba sincronizar las transcripciones con una pista de audio, ya sea en tiempo real o mediante una grabación previa.

El servicio de voz devuelve el desplazamiento y la duración de la voz reconocida.

Desplazamiento: es el desplazamiento en la secuencia de audio que se reconoce, expresado en forma de duración. El desplazamiento se mide en tics, empezando por el tic 0 (cero), que está asociado al primer byte de audio que procesa el SDK. Es decir, el desplazamiento comienza cuando se inicia el reconocimiento, ya que es cuando el SDK comienza a procesar la secuencia de audio. Un tic representa cien nanosegundos o una diezmillonésima parte de un segundo.
Duración: es la duración de la expresión que se reconoce. La duración en tics no incluye el silencio final ni el inicial.

El final de una unidad de expresión se determina si se escucha un silencio que indica su final. No obtendrá el resultado final del reconocimiento hasta que se haya completado una expresión. Los eventos de reconocimiento (Recognizing) proporcionarán resultados intermedios que estarán sujetos a cambios mientras se procese una secuencia de audio. Los eventos ya reconocidos (Recognized) proporcionarán el texto transcrito final una vez que se haya completado el procesamiento de una expresión.

Desplazamiento y duración de eventos de reconocimiento

Mediante el evento Recognizing, podrá obtener el desplazamiento y la duración de la voz que se va a reconocer. El desplazamiento y la duración por palabra no estarán disponibles mientras el reconocimiento esté en curso. Cada evento Recognizing incluirá una estimación textual de la voz reconocida hasta ese momento.

Este fragmento de código muestra cómo obtener el desplazamiento y la duración de un evento Recognizing.

speechRecognizer.recognizing = function (s, e) {
    console.log("RECOGNIZING: " + e.result.text);
    console.log("Offset in Ticks: " + e.result.offset);
    console.log("Duration in Ticks: " + e.result.duration);
};

Desplazamiento y duración de eventos reconocidos

Una vez que se haya reconocido una expresión, podrá obtener el desplazamiento y la duración de la voz reconocida. Mediante el evento Recognized, también podrá obtener el desplazamiento y la duración por palabra. Para solicitar el desplazamiento y la duración por palabra, primero deberá establecer la propiedad SpeechConfig correspondiente, como se muestra a continuación:

speechConfig.requestWordLevelTimestamps();

Ejemplo de desplazamiento y duración

En la siguiente tabla se muestran el desplazamiento y la duración posibles, en tics, que se calculan cuando un orador dice: "Le damos la bienvenida al curso de matemáticas aplicadas 201." En este ejemplo, el desplazamiento no cambia nunca en los eventos Recognizing y Recognized. Sin embargo, no confíe en el desplazamiento será el mismo en los eventos Recognizing y Recognized, ya que el resultado final podría diferir.

Evento	Texto	Desplazamiento (en tics)	Duración (en tics)
RECOGNIZING	bienvenido	17 000 000	5000000
RECOGNIZING	Le damos la	17 000 000	6 400 000
RECOGNIZING	Le damos la bienvenida al	17 000 000	13 600 000
RECOGNIZING	Le damos la bienvenida al curso de	17 000 000	17 200 000
RECOGNIZING	Le damos la bienvenida al curso de matemáticas	17 000 000	23 700 000
RECOGNIZING	Le damos la bienvenida al curso de matemáticas aplicadas 2	17 000 000	26 700 000
RECOGNIZING	Le damos la bienvenida al curso de matemáticas aplicadas 201	17 000 000	33 400 000
RECOGNIZED	Le damos la bienvenida al curso de matemáticas aplicadas 201.	17 000 000	34 500 000

La duración total de la primera expresión fue de 3,45 segundos. Esta se reconoció en el desplazamiento a los 1,7 a 5,15 segundos del inicio del reconocimiento de voz (00:00:01.700 --> 00:00:05.150).

Si el hablante continúa diciendo "Comencemos", se calcula un nuevo desplazamiento desde el principio de la secuencia de audio en reconocimiento, hasta el inicio de la nueva expresión. En la siguiente tabla se muestra el posible desplazamiento y la duración de una expresión que se reconoció dos segundos después de finalizar la expresión anterior.

Evento	Texto	Desplazamiento (en tics)	Duración (en tics)
RECOGNIZING	Aceptar	71 500 000	3 100 000
RECOGNIZING	Muy bien	71 500 000	10 300 000
RECOGNIZING	Muy bien, ahora	71 500 000	14 700 000
RECOGNIZING	Muy bien, ahora comencemos.	71 500 000	18 500 000
RECOGNIZED	Muy bien, ahora comencemos.	71 500 000	20 600 000

La duración total de la segunda expresión fue de 2,06 segundos. Esta se reconoció en el desplazamiento a los 7,15 a 9,21 segundos del inicio del reconocimiento de voz (00:00:07.150 --> 00:00:09.210).

Documentación de referencia Paquete (Download)Ejemplos adicionales en GitHub

En esta guía paso a paso, obtendrá información sobre cómo usar los resultados del reconocimiento de voz.

Sincronización de voz

Es posible que deba sincronizar las transcripciones con una pista de audio, ya sea en tiempo real o mediante una grabación previa.

El servicio de voz devuelve el desplazamiento y la duración de la voz reconocida.

Desplazamiento: es el desplazamiento en la secuencia de audio que se reconoce, expresado en forma de duración. El desplazamiento se mide en tics, empezando por el tic 0 (cero), que está asociado al primer byte de audio que procesa el SDK. Es decir, el desplazamiento comienza cuando se inicia el reconocimiento, ya que es cuando el SDK comienza a procesar la secuencia de audio. Un tic representa cien nanosegundos o una diezmillonésima parte de un segundo.
Duración: es la duración de la expresión que se reconoce. La duración en tics no incluye el silencio final ni el inicial.

El final de una unidad de expresión se determina si se escucha un silencio que indica su final. No obtendrá el resultado final del reconocimiento hasta que se haya completado una expresión. Los eventos de reconocimiento (Recognizing) proporcionarán resultados intermedios que estarán sujetos a cambios mientras se procese una secuencia de audio. Los eventos ya reconocidos (Recognized) proporcionarán el texto transcrito final una vez que se haya completado el procesamiento de una expresión.

Desplazamiento y duración de eventos de reconocimiento

Mediante el evento Recognizing, podrá obtener el desplazamiento y la duración de la voz que se va a reconocer. El desplazamiento y la duración por palabra no estarán disponibles mientras el reconocimiento esté en curso. Cada evento Recognizing incluirá una estimación textual de la voz reconocida hasta ese momento.

Desplazamiento y duración de eventos reconocidos

Una vez que se haya reconocido una expresión, podrá obtener el desplazamiento y la duración de la voz reconocida. Mediante el evento Recognized, también podrá obtener el desplazamiento y la duración por palabra. Para solicitar el desplazamiento y la duración por palabra, primero deberá establecer la propiedad SpeechConfig correspondiente, como se muestra a continuación:

[speechConfig requestWordLevelTimestamps];

Ejemplo de desplazamiento y duración

En la siguiente tabla se muestran el desplazamiento y la duración posibles, en tics, que se calculan cuando un orador dice: "Le damos la bienvenida al curso de matemáticas aplicadas 201." En este ejemplo, el desplazamiento no cambia nunca en los eventos Recognizing y Recognized. Sin embargo, no confíe en el desplazamiento será el mismo en los eventos Recognizing y Recognized, ya que el resultado final podría diferir.

Evento	Texto	Desplazamiento (en tics)	Duración (en tics)
RECOGNIZING	bienvenido	17 000 000	5000000
RECOGNIZING	Le damos la	17 000 000	6 400 000
RECOGNIZING	Le damos la bienvenida al	17 000 000	13 600 000
RECOGNIZING	Le damos la bienvenida al curso de	17 000 000	17 200 000
RECOGNIZING	Le damos la bienvenida al curso de matemáticas	17 000 000	23 700 000
RECOGNIZING	Le damos la bienvenida al curso de matemáticas aplicadas 2	17 000 000	26 700 000
RECOGNIZING	Le damos la bienvenida al curso de matemáticas aplicadas 201	17 000 000	33 400 000
RECOGNIZED	Le damos la bienvenida al curso de matemáticas aplicadas 201.	17 000 000	34 500 000

La duración total de la primera expresión fue de 3,45 segundos. Esta se reconoció en el desplazamiento a los 1,7 a 5,15 segundos del inicio del reconocimiento de voz (00:00:01.700 --> 00:00:05.150).

Si el hablante continúa diciendo "Comencemos", se calcula un nuevo desplazamiento desde el principio de la secuencia de audio en reconocimiento, hasta el inicio de la nueva expresión. En la siguiente tabla se muestra el posible desplazamiento y la duración de una expresión que se reconoció dos segundos después de finalizar la expresión anterior.

Evento	Texto	Desplazamiento (en tics)	Duración (en tics)
RECOGNIZING	Aceptar	71 500 000	3 100 000
RECOGNIZING	Muy bien	71 500 000	10 300 000
RECOGNIZING	Muy bien, ahora	71 500 000	14 700 000
RECOGNIZING	Muy bien, ahora comencemos.	71 500 000	18 500 000
RECOGNIZED	Muy bien, ahora comencemos.	71 500 000	20 600 000

La duración total de la segunda expresión fue de 2,06 segundos. Esta se reconoció en el desplazamiento a los 7,15 a 9,21 segundos del inicio del reconocimiento de voz (00:00:07.150 --> 00:00:09.210).

Documentación de referencia Paquete (Download)Ejemplos adicionales en GitHub

En esta guía paso a paso, obtendrá información sobre cómo usar los resultados del reconocimiento de voz.

Sincronización de voz

Es posible que deba sincronizar las transcripciones con una pista de audio, ya sea en tiempo real o mediante una grabación previa.

El servicio de voz devuelve el desplazamiento y la duración de la voz reconocida.

Desplazamiento: es el desplazamiento en la secuencia de audio que se reconoce, expresado en forma de duración. El desplazamiento se mide en tics, empezando por el tic 0 (cero), que está asociado al primer byte de audio que procesa el SDK. Es decir, el desplazamiento comienza cuando se inicia el reconocimiento, ya que es cuando el SDK comienza a procesar la secuencia de audio. Un tic representa cien nanosegundos o una diezmillonésima parte de un segundo.
Duración: es la duración de la expresión que se reconoce. La duración en tics no incluye el silencio final ni el inicial.

El final de una unidad de expresión se determina si se escucha un silencio que indica su final. No obtendrá el resultado final del reconocimiento hasta que se haya completado una expresión. Los eventos de reconocimiento (Recognizing) proporcionarán resultados intermedios que estarán sujetos a cambios mientras se procese una secuencia de audio. Los eventos ya reconocidos (Recognized) proporcionarán el texto transcrito final una vez que se haya completado el procesamiento de una expresión.

Desplazamiento y duración de eventos de reconocimiento

Mediante el evento Recognizing, podrá obtener el desplazamiento y la duración de la voz que se va a reconocer. El desplazamiento y la duración por palabra no estarán disponibles mientras el reconocimiento esté en curso. Cada evento Recognizing incluirá una estimación textual de la voz reconocida hasta ese momento.

Desplazamiento y duración de eventos reconocidos

Una vez que se haya reconocido una expresión, podrá obtener el desplazamiento y la duración de la voz reconocida. Mediante el evento Recognized, también podrá obtener el desplazamiento y la duración por palabra. Para solicitar el desplazamiento y la duración por palabra, primero deberá establecer la propiedad SpeechConfig correspondiente, como se muestra a continuación:

[speechConfig requestWordLevelTimestamps];

Ejemplo de desplazamiento y duración

En la siguiente tabla se muestran el desplazamiento y la duración posibles, en tics, que se calculan cuando un orador dice: "Le damos la bienvenida al curso de matemáticas aplicadas 201." En este ejemplo, el desplazamiento no cambia nunca en los eventos Recognizing y Recognized. Sin embargo, no confíe en el desplazamiento será el mismo en los eventos Recognizing y Recognized, ya que el resultado final podría diferir.

Evento	Texto	Desplazamiento (en tics)	Duración (en tics)
RECOGNIZING	bienvenido	17 000 000	5000000
RECOGNIZING	Le damos la	17 000 000	6 400 000
RECOGNIZING	Le damos la bienvenida al	17 000 000	13 600 000
RECOGNIZING	Le damos la bienvenida al curso de	17 000 000	17 200 000
RECOGNIZING	Le damos la bienvenida al curso de matemáticas	17 000 000	23 700 000
RECOGNIZING	Le damos la bienvenida al curso de matemáticas aplicadas 2	17 000 000	26 700 000
RECOGNIZING	Le damos la bienvenida al curso de matemáticas aplicadas 201	17 000 000	33 400 000
RECOGNIZED	Le damos la bienvenida al curso de matemáticas aplicadas 201.	17 000 000	34 500 000

La duración total de la primera expresión fue de 3,45 segundos. Esta se reconoció en el desplazamiento a los 1,7 a 5,15 segundos del inicio del reconocimiento de voz (00:00:01.700 --> 00:00:05.150).

Si el hablante continúa diciendo "Comencemos", se calcula un nuevo desplazamiento desde el principio de la secuencia de audio en reconocimiento, hasta el inicio de la nueva expresión. En la siguiente tabla se muestra el posible desplazamiento y la duración de una expresión que se reconoció dos segundos después de finalizar la expresión anterior.

Evento	Texto	Desplazamiento (en tics)	Duración (en tics)
RECOGNIZING	Aceptar	71 500 000	3 100 000
RECOGNIZING	Muy bien	71 500 000	10 300 000
RECOGNIZING	Muy bien, ahora	71 500 000	14 700 000
RECOGNIZING	Muy bien, ahora comencemos.	71 500 000	18 500 000
RECOGNIZED	Muy bien, ahora comencemos.	71 500 000	20 600 000

La duración total de la segunda expresión fue de 2,06 segundos. Esta se reconoció en el desplazamiento a los 7,15 a 9,21 segundos del inicio del reconocimiento de voz (00:00:07.150 --> 00:00:09.210).

Documentación de referencia Paquete (PyPi)Ejemplos adicionales en GitHub

En esta guía paso a paso, obtendrá información sobre cómo usar los resultados del reconocimiento de voz.

Sincronización de voz

Es posible que deba sincronizar las transcripciones con una pista de audio, ya sea en tiempo real o mediante una grabación previa.

El servicio de voz devuelve el desplazamiento y la duración de la voz reconocida.

Desplazamiento: es el desplazamiento en la secuencia de audio que se reconoce, expresado en forma de duración. El desplazamiento se mide en tics, empezando por el tic 0 (cero), que está asociado al primer byte de audio que procesa el SDK. Es decir, el desplazamiento comienza cuando se inicia el reconocimiento, ya que es cuando el SDK comienza a procesar la secuencia de audio. Un tic representa cien nanosegundos o una diezmillonésima parte de un segundo.
Duración: es la duración de la expresión que se reconoce. La duración en tics no incluye el silencio final ni el inicial.

El final de una unidad de expresión se determina si se escucha un silencio que indica su final. No obtendrá el resultado final del reconocimiento hasta que se haya completado una expresión. Los eventos de reconocimiento (Recognizing) proporcionarán resultados intermedios que estarán sujetos a cambios mientras se procese una secuencia de audio. Los eventos ya reconocidos (Recognized) proporcionarán el texto transcrito final una vez que se haya completado el procesamiento de una expresión.

Desplazamiento y duración de eventos de reconocimiento

Mediante el evento Recognizing, podrá obtener el desplazamiento y la duración de la voz que se va a reconocer. El desplazamiento y la duración por palabra no estarán disponibles mientras el reconocimiento esté en curso. Cada evento Recognizing incluirá una estimación textual de la voz reconocida hasta ese momento.

Este fragmento de código muestra cómo obtener el desplazamiento y la duración de un evento Recognizing.

def recognizing_handler(e : speechsdk.SpeechRecognitionEventArgs) :
    if speechsdk.ResultReason.RecognizingSpeech == e.result.reason and len(e.result.text) > 0 :
        print("Recognized: {}".format(result.text))
        print("Offset in Ticks: {}".format(result.offset))
        print("Duration in Ticks: {}".format(result.duration))

Desplazamiento y duración de eventos reconocidos

Una vez que se haya reconocido una expresión, podrá obtener el desplazamiento y la duración de la voz reconocida. Mediante el evento Recognized, también podrá obtener el desplazamiento y la duración por palabra. Para solicitar el desplazamiento y la duración por palabra, primero deberá establecer la propiedad SpeechConfig correspondiente, como se muestra a continuación:

speech_config.request_word_level_timestamps()

Ejemplo de desplazamiento y duración

En la siguiente tabla se muestran el desplazamiento y la duración posibles, en tics, que se calculan cuando un orador dice: "Le damos la bienvenida al curso de matemáticas aplicadas 201." En este ejemplo, el desplazamiento no cambia nunca en los eventos Recognizing y Recognized. Sin embargo, no confíe en el desplazamiento será el mismo en los eventos Recognizing y Recognized, ya que el resultado final podría diferir.

Evento	Texto	Desplazamiento (en tics)	Duración (en tics)
RECOGNIZING	bienvenido	17 000 000	5000000
RECOGNIZING	Le damos la	17 000 000	6 400 000
RECOGNIZING	Le damos la bienvenida al	17 000 000	13 600 000
RECOGNIZING	Le damos la bienvenida al curso de	17 000 000	17 200 000
RECOGNIZING	Le damos la bienvenida al curso de matemáticas	17 000 000	23 700 000
RECOGNIZING	Le damos la bienvenida al curso de matemáticas aplicadas 2	17 000 000	26 700 000
RECOGNIZING	Le damos la bienvenida al curso de matemáticas aplicadas 201	17 000 000	33 400 000
RECOGNIZED	Le damos la bienvenida al curso de matemáticas aplicadas 201.	17 000 000	34 500 000

La duración total de la primera expresión fue de 3,45 segundos. Esta se reconoció en el desplazamiento a los 1,7 a 5,15 segundos del inicio del reconocimiento de voz (00:00:01.700 --> 00:00:05.150).

Si el hablante continúa diciendo "Comencemos", se calcula un nuevo desplazamiento desde el principio de la secuencia de audio en reconocimiento, hasta el inicio de la nueva expresión. En la siguiente tabla se muestra el posible desplazamiento y la duración de una expresión que se reconoció dos segundos después de finalizar la expresión anterior.

Evento	Texto	Desplazamiento (en tics)	Duración (en tics)
RECOGNIZING	Aceptar	71 500 000	3 100 000
RECOGNIZING	Muy bien	71 500 000	10 300 000
RECOGNIZING	Muy bien, ahora	71 500 000	14 700 000
RECOGNIZING	Muy bien, ahora comencemos.	71 500 000	18 500 000
RECOGNIZED	Muy bien, ahora comencemos.	71 500 000	20 600 000

La duración total de la segunda expresión fue de 2,06 segundos. Esta se reconoció en el desplazamiento a los 7,15 a 9,21 segundos del inicio del reconocimiento de voz (00:00:07.150 --> 00:00:09.210).

En esta guía paso a paso, obtendrá información sobre cómo usar los resultados del reconocimiento de voz.

Sincronización de voz

Es posible que deba sincronizar las transcripciones con una pista de audio, ya sea en tiempo real o mediante una grabación previa.

El servicio de voz devuelve el desplazamiento y la duración de la voz reconocida.

Desplazamiento: es el desplazamiento en la secuencia de audio que se reconoce, expresado en forma de duración. El desplazamiento se mide en tics, empezando por el tic 0 (cero), que está asociado al primer byte de audio que procesa el SDK. Es decir, el desplazamiento comienza cuando se inicia el reconocimiento, ya que es cuando el SDK comienza a procesar la secuencia de audio. Un tic representa cien nanosegundos o una diezmillonésima parte de un segundo.
Duración: es la duración de la expresión que se reconoce. La duración en tics no incluye el silencio final ni el inicial.

El final de una unidad de expresión se determina si se escucha un silencio que indica su final. No obtendrá el resultado final del reconocimiento hasta que se haya completado una expresión. Los eventos de reconocimiento (Recognizing) proporcionarán resultados intermedios que estarán sujetos a cambios mientras se procese una secuencia de audio. Los eventos ya reconocidos (Recognized) proporcionarán el texto transcrito final una vez que se haya completado el procesamiento de una expresión.

Desplazamiento y duración de eventos de reconocimiento

Es posible que deba sincronizar los subtítulos con la pista de audio, ya sea en tiempo real o con una grabación previa. Mediante el evento Recognizing, podrá obtener el desplazamiento y la duración de la voz que se va a reconocer. El desplazamiento y la duración por palabra no estarán disponibles mientras el reconocimiento esté en curso. Cada evento Recognizing incluirá una estimación textual de la voz reconocida hasta ese momento.

Por ejemplo, ejecute el siguiente comando para obtener el desplazamiento y la duración de la voz reconocida:

spx recognize --file caption.this.mp4 --format any --output each file - @output.each.detailed

Dado que se estableció el argumento @output.each.detailed, la salida incluye los siguientes encabezados de columna:

audio.input.id  event   event.sessionid result.reason   result.latency  result.text     result.json

En la columna result.json, puede encontrar detalles que incluyen desplazamiento y duración de los eventos Recognizing y Recognized:

{
	"Id": "492574cd8555481a92c22f5ff757ef17",
	"RecognitionStatus": "Success",
	"DisplayText": "Welcome to applied Mathematics course 201.",
	"Offset": 1800000,
	"Duration": 30500000
}

Para más información, consulte las opciones de configuración de almacén de datos y opciones de salida de la CLI de Voz.

Ejemplo de desplazamiento y duración

En la siguiente tabla se muestran el desplazamiento y la duración posibles, en tics, que se calculan cuando un orador dice: "Le damos la bienvenida al curso de matemáticas aplicadas 201." En este ejemplo, el desplazamiento no cambia nunca en los eventos Recognizing y Recognized. Sin embargo, no confíe en el desplazamiento será el mismo en los eventos Recognizing y Recognized, ya que el resultado final podría diferir.

Evento	Texto	Desplazamiento (en tics)	Duración (en tics)
RECOGNIZING	bienvenido	17 000 000	5000000
RECOGNIZING	Le damos la	17 000 000	6 400 000
RECOGNIZING	Le damos la bienvenida al	17 000 000	13 600 000
RECOGNIZING	Le damos la bienvenida al curso de	17 000 000	17 200 000
RECOGNIZING	Le damos la bienvenida al curso de matemáticas	17 000 000	23 700 000
RECOGNIZING	Le damos la bienvenida al curso de matemáticas aplicadas 2	17 000 000	26 700 000
RECOGNIZING	Le damos la bienvenida al curso de matemáticas aplicadas 201	17 000 000	33 400 000
RECOGNIZED	Le damos la bienvenida al curso de matemáticas aplicadas 201.	17 000 000	34 500 000

La duración total de la primera expresión fue de 3,45 segundos. Esta se reconoció en el desplazamiento a los 1,7 a 5,15 segundos del inicio del reconocimiento de voz (00:00:01.700 --> 00:00:05.150).

Si el hablante continúa diciendo "Comencemos", se calcula un nuevo desplazamiento desde el principio de la secuencia de audio en reconocimiento, hasta el inicio de la nueva expresión. En la siguiente tabla se muestra el posible desplazamiento y la duración de una expresión que se reconoció dos segundos después de finalizar la expresión anterior.

Evento	Texto	Desplazamiento (en tics)	Duración (en tics)
RECOGNIZING	Aceptar	71 500 000	3 100 000
RECOGNIZING	Muy bien	71 500 000	10 300 000
RECOGNIZING	Muy bien, ahora	71 500 000	14 700 000
RECOGNIZING	Muy bien, ahora comencemos.	71 500 000	18 500 000
RECOGNIZED	Muy bien, ahora comencemos.	71 500 000	20 600 000

La duración total de la segunda expresión fue de 2,06 segundos. Esta se reconoció en el desplazamiento a los 7,15 a 9,21 segundos del inicio del reconocimiento de voz (00:00:07.150 --> 00:00:09.210).

Share via

Obtención de resultados de reconocimiento de voz

Sincronización de voz

Desplazamiento y duración de eventos de reconocimiento

Desplazamiento y duración de eventos reconocidos

Ejemplo de desplazamiento y duración

Sincronización de voz

Desplazamiento y duración de eventos de reconocimiento

Desplazamiento y duración de eventos reconocidos

Ejemplo de desplazamiento y duración

Sincronización de voz

Desplazamiento y duración de eventos de reconocimiento

Desplazamiento y duración de eventos reconocidos

Ejemplo de desplazamiento y duración

Sincronización de voz

Desplazamiento y duración de eventos de reconocimiento

Desplazamiento y duración de eventos reconocidos

Ejemplo de desplazamiento y duración

Sincronización de voz

Desplazamiento y duración de eventos de reconocimiento

Desplazamiento y duración de eventos reconocidos

Ejemplo de desplazamiento y duración

Sincronización de voz

Desplazamiento y duración de eventos de reconocimiento

Desplazamiento y duración de eventos reconocidos

Ejemplo de desplazamiento y duración

Sincronización de voz

Desplazamiento y duración de eventos de reconocimiento

Desplazamiento y duración de eventos reconocidos

Ejemplo de desplazamiento y duración

Sincronización de voz

Desplazamiento y duración de eventos de reconocimiento

Desplazamiento y duración de eventos reconocidos

Ejemplo de desplazamiento y duración

Sincronización de voz

Desplazamiento y duración de eventos de reconocimiento

Ejemplo de desplazamiento y duración

Pasos siguientes

Recursos adicionales