Inicio rápido: Reconocimiento y conversión de voz en texto

Artigo
10/16/2024

Documentación de referencia | Paquete (NuGet) | Ejemplos adicionales en GitHub

En este inicio rápido, se ejecuta una aplicación para trasladar interactivamente la voz de un idioma a texto en otro idioma.

Sugerencia

Pruebe el Azure AI Speech Toolkit para compilar y ejecutar fácilmente ejemplos en Visual Studio Code.

Requisitos previos

Suscripción a Azure. Puede crear una de forma gratuita.
Creación de un recurso de Voz en Azure Portal.
Obtenga la clave y la región del recurso de Voz. Una vez implementado el recurso de Voz, seleccione Ir al recurso para ver y administrar claves.

Configuración del entorno

El SDK de Voz está disponible como paquete NuGet e implementa .NET Standard 2.0. La instalación del SDK de Voz se describe en una sección más adelante de esta guía; primero consulte la SDK installation guide, (guía de instalación del SDK), para conocer otros requisitos.

Establecimiento de variables de entorno

Debe autenticar la aplicación para acceder a los servicios de Azure AI. En este artículo se muestra cómo usar variables de entorno para almacenar las credenciales. A continuación, puede acceder a las variables de entorno desde el código para autenticar la aplicación. Para producción, use una manera más segura de almacenar y acceder a sus credenciales.

Importante

Se recomienda la autenticación de Microsoft Entra ID con identidades administradas para los recursos de Azure para evitar almacenar credenciales con sus aplicaciones que se ejecutan en la nube.

Si usa una clave de API, almacénela de forma segura en otro lugar, como en Azure Key Vault. No incluya la clave de API directamente en el código ni la exponga nunca públicamente.

Para más información sobre la seguridad de los servicios de AI, consulte Autenticación de solicitudes a los servicios de Azure AI.

Para establecer las variables de entorno de su clave de recursos de voz y de su región, abra una ventana de la consola y siga las instrucciones correspondientes a su sistema operativo y a su entorno de desarrollo.

Para establecer la variable de entorno de SPEECH_KEY, reemplace su clave por una de las claves del recurso.
Para establecer la variable de entorno de SPEECH_REGION, reemplace su región por una de las regiones del recurso.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Nota:

Si solo necesita acceder a las variables de entorno en la consola actual, puede establecer la variable de entorno con set en vez de setx.

Después de agregar las variables de entorno, puede que tenga que reiniciar cualquier programa que necesite leer las variables de entorno, incluida la ventana de consola. Por ejemplo, si usa Visual Studio como editor, reinícielo antes de ejecutar el ejemplo.

Bash

Edite el archivo .bashrc y agregue las variables de entorno:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Después de agregar las variables de entorno ejecute source ~/.bashrc en la ventana de consola para que los cambios surtan efecto.

Bash

Edite su archivo .bash_profile y agregue las variables de entorno:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Después de agregar las variables de entorno ejecute source ~/.bash_profile en la ventana de consola para que los cambios surtan efecto.

Xcode

Para el desarrollo de iOS y macOS, establezca las variables de entorno en Xcode. Por ejemplo, siga estos pasos para establecer la variable de entorno en Xcode 13.4.1.

Seleccione Producto>Esquema>Editar esquema.
Seleccione Argumentos en la página de Ejecutar (Depurar la ejecución).
En Variables de entorno, seleccione el signo más (+) para agregar una nueva variable de entorno.
Escriba SPEECH_KEY en Nombre y la clave de recurso de Voz en Valor.

Para establecer la variable de entorno en la región de recursos de Voz, siga los mismos pasos. Establezca SPEECH_REGION en la región del recurso. Por ejemplo, westus.

Para obtener más opciones de configuración, consulte la documentación de Xcode.

Traslado de voz a través de un micrófono

Siga estos pasos para crear una nueva aplicación de consola e instalar el SDK de Voz.

Abra un símbolo del sistema donde quiera el nuevo proyecto y cree una aplicación de consola con la CLI de .NET. El archivo Program.cs debe crearse en el directorio del proyecto.
```
dotnet new console
```
Instale el SDK de Voz en el nuevo proyecto con la CLI de .NET.
```
dotnet add package Microsoft.CognitiveServices.Speech
```

Reemplace el contenido de Program.cs por el código siguiente.

using System;
using System.IO;
using System.Threading.Tasks;
using Microsoft.CognitiveServices.Speech;
using Microsoft.CognitiveServices.Speech.Audio;
using Microsoft.CognitiveServices.Speech.Translation;

class Program 
{
    // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
    static string speechKey = Environment.GetEnvironmentVariable("SPEECH_KEY");
    static string speechRegion = Environment.GetEnvironmentVariable("SPEECH_REGION");

    static void OutputSpeechRecognitionResult(TranslationRecognitionResult translationRecognitionResult)
    {
        switch (translationRecognitionResult.Reason)
        {
            case ResultReason.TranslatedSpeech:
                Console.WriteLine($"RECOGNIZED: Text={translationRecognitionResult.Text}");
                foreach (var element in translationRecognitionResult.Translations)
                {
                    Console.WriteLine($"TRANSLATED into '{element.Key}': {element.Value}");
                }
                break;
            case ResultReason.NoMatch:
                Console.WriteLine($"NOMATCH: Speech could not be recognized.");
                break;
            case ResultReason.Canceled:
                var cancellation = CancellationDetails.FromResult(translationRecognitionResult);
                Console.WriteLine($"CANCELED: Reason={cancellation.Reason}");

                if (cancellation.Reason == CancellationReason.Error)
                {
                    Console.WriteLine($"CANCELED: ErrorCode={cancellation.ErrorCode}");
                    Console.WriteLine($"CANCELED: ErrorDetails={cancellation.ErrorDetails}");
                    Console.WriteLine($"CANCELED: Did you set the speech resource key and region values?");
                }
                break;
        }
    }

    async static Task Main(string[] args)
    {
        var speechTranslationConfig = SpeechTranslationConfig.FromSubscription(speechKey, speechRegion);        
        speechTranslationConfig.SpeechRecognitionLanguage = "en-US";
        speechTranslationConfig.AddTargetLanguage("it");

        using var audioConfig = AudioConfig.FromDefaultMicrophoneInput();
        using var translationRecognizer = new TranslationRecognizer(speechTranslationConfig, audioConfig);

        Console.WriteLine("Speak into your microphone.");
        var translationRecognitionResult = await translationRecognizer.RecognizeOnceAsync();
        OutputSpeechRecognitionResult(translationRecognitionResult);
    }
}

Para cambiar el idioma de reconocimiento de voz, reemplace en-US por otro en-US. Especifique la configuración regional completa con un separador de guiones (-). Por ejemplo, es-ES para Español (España). El idioma predeterminado es en-US si no especifica un idioma. Para obtener más información sobre cómo identificar uno de los distintos idiomas que se pueden hablar, consulte Identificación del idioma.
Para cambiar el idioma de destino de la traducción, reemplace it por otro idioma admitido. Con pocas excepciones, solo se especifica el código de idioma que precede al separador de guiones (-) local. Por ejemplo, use es para español (España) en lugar de es-ES. El idioma predeterminado es en si no especifica un idioma.

Ejecute la nueva aplicación de consola para iniciar el reconocimiento de voz a través de un micrófono:

dotnet run

Hable por el micrófono cuando se le solicite. Lo que diga debe ser la salida como texto traducido en el idioma de destino:

Speak into your microphone.
RECOGNIZED: Text=I'm excited to try speech translation.
TRANSLATED into 'it': Sono entusiasta di provare la traduzione vocale.

Comentarios

Ahora que ha completado el artículo de inicio rápido, estas son algunas consideraciones adicionales:

En este ejemplo se usa la operación RecognizeOnceAsync para transcribir expresiones de hasta 30 segundos, o hasta que se detecta el silencio. Para obtener información sobre el reconocimiento continuo de audio más largo, incluidas las conversaciones en varios idiomas, consulte Traducción de voz.
Para reconocer la voz de un archivo de audio, use FromWavFileInput en lugar de FromDefaultMicrophoneInput:
```
using var audioConfig = AudioConfig.FromWavFileInput("YourAudioFile.wav");
```
Para archivos de audio comprimidos como MP4, instale GStreamer y utilice PullAudioInputStream o PushAudioInputStream. Para más información, consulte Uso de entradas de audio comprimido.

Limpieza de recursos

Puede usar Azure Portal o la Interfaz de la línea de comandos (CLI) de Azure para quitar el recurso de Voz que creó.

Documentación de referencia | Paquete (NuGet) | Ejemplos adicionales en GitHub

En este inicio rápido, se ejecuta una aplicación para trasladar interactivamente la voz de un idioma a texto en otro idioma.

Sugerencia

Pruebe el Azure AI Speech Toolkit para compilar y ejecutar fácilmente ejemplos en Visual Studio Code.

Requisitos previos

Suscripción a Azure. Puede crear una de forma gratuita.
Creación de un recurso de Voz en Azure Portal.
Obtenga la clave y la región del recurso de Voz. Una vez implementado el recurso de Voz, seleccione Ir al recurso para ver y administrar claves.

Configuración del entorno

Establecimiento de variables de entorno

Importante

Se recomienda la autenticación de Microsoft Entra ID con identidades administradas para los recursos de Azure para evitar almacenar credenciales con sus aplicaciones que se ejecutan en la nube.

Si usa una clave de API, almacénela de forma segura en otro lugar, como en Azure Key Vault. No incluya la clave de API directamente en el código ni la exponga nunca públicamente.

Para más información sobre la seguridad de los servicios de AI, consulte Autenticación de solicitudes a los servicios de Azure AI.

Para establecer la variable de entorno de SPEECH_KEY, reemplace su clave por una de las claves del recurso.
Para establecer la variable de entorno de SPEECH_REGION, reemplace su región por una de las regiones del recurso.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Nota:

Si solo necesita acceder a las variables de entorno en la consola actual, puede establecer la variable de entorno con set en vez de setx.

Bash

Edite el archivo .bashrc y agregue las variables de entorno:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Después de agregar las variables de entorno ejecute source ~/.bashrc en la ventana de consola para que los cambios surtan efecto.

Bash

Edite su archivo .bash_profile y agregue las variables de entorno:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Después de agregar las variables de entorno ejecute source ~/.bash_profile en la ventana de consola para que los cambios surtan efecto.

Xcode

Para el desarrollo de iOS y macOS, establezca las variables de entorno en Xcode. Por ejemplo, siga estos pasos para establecer la variable de entorno en Xcode 13.4.1.

Seleccione Producto>Esquema>Editar esquema.
Seleccione Argumentos en la página de Ejecutar (Depurar la ejecución).
En Variables de entorno, seleccione el signo más (+) para agregar una nueva variable de entorno.
Escriba SPEECH_KEY en Nombre y la clave de recurso de Voz en Valor.

Para establecer la variable de entorno en la región de recursos de Voz, siga los mismos pasos. Establezca SPEECH_REGION en la región del recurso. Por ejemplo, westus.

Para obtener más opciones de configuración, consulte la documentación de Xcode.

Traslado de voz a través de un micrófono

Siga estos pasos para crear una nueva aplicación de consola e instalar el SDK de Voz.

Cree un proyecto de consola de C++ en Visual Studio Community 2022 denominado SpeechTranslation.
Instale el SDK de Voz en el nuevo proyecto con el administrador de paquetes NuGet.
```
Install-Package Microsoft.CognitiveServices.Speech
```

Reemplace el contenido de SpeechTranslation.cpp por el código siguiente:

#include <iostream> 
#include <stdlib.h>
#include <speechapi_cxx.h>

using namespace Microsoft::CognitiveServices::Speech;
using namespace Microsoft::CognitiveServices::Speech::Audio;
using namespace Microsoft::CognitiveServices::Speech::Translation;

std::string GetEnvironmentVariable(const char* name);

int main()
{
    // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
    auto speechKey = GetEnvironmentVariable("SPEECH_KEY");
    auto speechRegion = GetEnvironmentVariable("SPEECH_REGION");

    auto speechTranslationConfig = SpeechTranslationConfig::FromSubscription(speechKey, speechRegion);
    speechTranslationConfig->SetSpeechRecognitionLanguage("en-US");
    speechTranslationConfig->AddTargetLanguage("it");

    auto audioConfig = AudioConfig::FromDefaultMicrophoneInput();
    auto translationRecognizer = TranslationRecognizer::FromConfig(speechTranslationConfig, audioConfig);

    std::cout << "Speak into your microphone.\n";
    auto result = translationRecognizer->RecognizeOnceAsync().get();

    if (result->Reason == ResultReason::TranslatedSpeech)
    {
        std::cout << "RECOGNIZED: Text=" << result->Text << std::endl;
        for (auto pair : result->Translations)
        {
            auto language = pair.first;
            auto translation = pair.second;
            std::cout << "Translated into '" << language << "': " << translation << std::endl;
        }
    }
    else if (result->Reason == ResultReason::NoMatch)
    {
        std::cout << "NOMATCH: Speech could not be recognized." << std::endl;
    }
    else if (result->Reason == ResultReason::Canceled)
    {
        auto cancellation = CancellationDetails::FromResult(result);
        std::cout << "CANCELED: Reason=" << (int)cancellation->Reason << std::endl;

        if (cancellation->Reason == CancellationReason::Error)
        {
            std::cout << "CANCELED: ErrorCode=" << (int)cancellation->ErrorCode << std::endl;
            std::cout << "CANCELED: ErrorDetails=" << cancellation->ErrorDetails << std::endl;
            std::cout << "CANCELED: Did you set the speech resource key and region values?" << std::endl;
        }
    }
}

std::string GetEnvironmentVariable(const char* name)
{
#if defined(_MSC_VER)
    size_t requiredSize = 0;
    (void)getenv_s(&requiredSize, nullptr, 0, name);
    if (requiredSize == 0)
    {
        return "";
    }
    auto buffer = std::make_unique<char[]>(requiredSize);
    (void)getenv_s(&requiredSize, buffer.get(), requiredSize, name);
    return buffer.get();
#else
    auto value = getenv(name);
    return value ? value : "";
#endif
}

Para cambiar el idioma de reconocimiento de voz, reemplace en-US por otro en-US. Especifique la configuración regional completa con un separador de guiones (-). Por ejemplo, es-ES para Español (España). El idioma predeterminado es en-US si no especifica un idioma. Para obtener más información sobre cómo identificar uno de los distintos idiomas que se pueden hablar, consulte Identificación del idioma.
Para cambiar el idioma de destino de la traducción, reemplace it por otro idioma admitido. Con pocas excepciones, solo se especifica el código de idioma que precede al separador de guiones (-) local. Por ejemplo, use es para español (España) en lugar de es-ES. El idioma predeterminado es en si no especifica un idioma.

Compile y ejecute la nueva aplicación de consola para iniciar el reconocimiento de voz a través de un micrófono.

Hable por el micrófono cuando se le solicite. Lo que diga debe ser la salida como texto traducido en el idioma de destino:

Speak into your microphone.
RECOGNIZED: Text=I'm excited to try speech translation.
Translated into 'it': Sono entusiasta di provare la traduzione vocale.

Comentarios

Ahora que ha completado el artículo de inicio rápido, estas son algunas consideraciones adicionales:

En este ejemplo se usa la operación RecognizeOnceAsync para transcribir expresiones de hasta 30 segundos, o hasta que se detecta el silencio. Para obtener información sobre el reconocimiento continuo de audio más largo, incluidas las conversaciones en varios idiomas, consulte Traducción de voz.
Para reconocer la voz de un archivo de audio, use FromWavFileInput en lugar de FromDefaultMicrophoneInput:
```
auto audioInput = AudioConfig::FromWavFileInput("YourAudioFile.wav");
```
Para archivos de audio comprimidos como MP4, instale GStreamer y utilice PullAudioInputStream o PushAudioInputStream. Para más información, consulte Uso de entradas de audio comprimido.

Limpieza de recursos

Puede usar Azure Portal o la Interfaz de la línea de comandos (CLI) de Azure para quitar el recurso de Voz que creó.

Documentación de referencia | Paquete (Go) | Ejemplos adicionales en GitHub

El SDK de Voz para Go no admite traducción de voz. Seleccione otro lenguaje de programación o la referencia de Go y los ejemplos vinculados desde el principio de este artículo.

Documentación de referencia | Ejemplos adicionales en GitHub

En este inicio rápido, se ejecuta una aplicación para trasladar interactivamente la voz de un idioma a texto en otro idioma.

Sugerencia

Pruebe el Azure AI Speech Toolkit para compilar y ejecutar fácilmente ejemplos en Visual Studio Code.

Requisitos previos

Suscripción a Azure. Puede crear una de forma gratuita.
Creación de un recurso de Voz en Azure Portal.
Obtenga la clave y la región del recurso de Voz. Una vez implementado el recurso de Voz, seleccione Ir al recurso para ver y administrar claves.

Configuración del entorno

En primer lugar, deberá instalar el SDK de Voz. El ejemplo de esta guía de inicio rápido funciona con el entorno de ejecución de Java.

Instalación de Apache Maven. A continuación, ejecute mvn -v para confirmar que la instalación se ha realizado correctamente.

Cree un nuevo archivo pom.xml en la raíz del proyecto y copie lo siguiente en él:

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>
    <groupId>com.microsoft.cognitiveservices.speech.samples</groupId>
    <artifactId>quickstart-eclipse</artifactId>
    <version>1.0.0-SNAPSHOT</version>
    <build>
        <sourceDirectory>src</sourceDirectory>
        <plugins>
        <plugin>
            <artifactId>maven-compiler-plugin</artifactId>
            <version>3.7.0</version>
            <configuration>
            <source>1.8</source>
            <target>1.8</target>
            </configuration>
        </plugin>
        </plugins>
    </build>
    <dependencies>
        <dependency>
        <groupId>com.microsoft.cognitiveservices.speech</groupId>
        <artifactId>client-sdk</artifactId>
        <version>1.42.0</version>
        </dependency>
    </dependencies>
</project>

Instale el SDK de Voz y las dependencias.
```
mvn clean dependency:copy-dependencies
```

Establecimiento de variables de entorno

Importante

Se recomienda la autenticación de Microsoft Entra ID con identidades administradas para los recursos de Azure para evitar almacenar credenciales con sus aplicaciones que se ejecutan en la nube.

Si usa una clave de API, almacénela de forma segura en otro lugar, como en Azure Key Vault. No incluya la clave de API directamente en el código ni la exponga nunca públicamente.

Para más información sobre la seguridad de los servicios de AI, consulte Autenticación de solicitudes a los servicios de Azure AI.

Para establecer la variable de entorno de SPEECH_KEY, reemplace su clave por una de las claves del recurso.
Para establecer la variable de entorno de SPEECH_REGION, reemplace su región por una de las regiones del recurso.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Nota:

Si solo necesita acceder a las variables de entorno en la consola actual, puede establecer la variable de entorno con set en vez de setx.

Bash

Edite el archivo .bashrc y agregue las variables de entorno:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Después de agregar las variables de entorno ejecute source ~/.bashrc en la ventana de consola para que los cambios surtan efecto.

Bash

Edite su archivo .bash_profile y agregue las variables de entorno:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Después de agregar las variables de entorno ejecute source ~/.bash_profile en la ventana de consola para que los cambios surtan efecto.

Xcode

Para el desarrollo de iOS y macOS, establezca las variables de entorno en Xcode. Por ejemplo, siga estos pasos para establecer la variable de entorno en Xcode 13.4.1.

Seleccione Producto>Esquema>Editar esquema.
Seleccione Argumentos en la página de Ejecutar (Depurar la ejecución).
En Variables de entorno, seleccione el signo más (+) para agregar una nueva variable de entorno.
Escriba SPEECH_KEY en Nombre y la clave de recurso de Voz en Valor.

Para establecer la variable de entorno en la región de recursos de Voz, siga los mismos pasos. Establezca SPEECH_REGION en la región del recurso. Por ejemplo, westus.

Para obtener más opciones de configuración, consulte la documentación de Xcode.

Traslado de voz a través de un micrófono

Siga estos pasos para crear una nueva aplicación de consola para el reconocimiento de voz.

Cree un nuevo archivo denominado SpeechTranslation.java en el mismo directorio raíz del proyecto.

Copie el siguiente código en SpeechTranslation.java:

import com.microsoft.cognitiveservices.speech.*;
import com.microsoft.cognitiveservices.speech.audio.AudioConfig;
import com.microsoft.cognitiveservices.speech.translation.*;

import java.util.concurrent.ExecutionException;
import java.util.concurrent.Future;
import java.util.Map;

public class SpeechTranslation {
    // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
    private static String speechKey = System.getenv("SPEECH_KEY");
    private static String speechRegion = System.getenv("SPEECH_REGION");

    public static void main(String[] args) throws InterruptedException, ExecutionException {
        SpeechTranslationConfig speechTranslationConfig = SpeechTranslationConfig.fromSubscription(speechKey, speechRegion);
        speechTranslationConfig.setSpeechRecognitionLanguage("en-US");

        String[] toLanguages = { "it" };
        for (String language : toLanguages) {
            speechTranslationConfig.addTargetLanguage(language);
        }

        recognizeFromMicrophone(speechTranslationConfig);
    }

    public static void recognizeFromMicrophone(SpeechTranslationConfig speechTranslationConfig) throws InterruptedException, ExecutionException {
        AudioConfig audioConfig = AudioConfig.fromDefaultMicrophoneInput();
        TranslationRecognizer translationRecognizer = new TranslationRecognizer(speechTranslationConfig, audioConfig);

        System.out.println("Speak into your microphone.");
        Future<TranslationRecognitionResult> task = translationRecognizer.recognizeOnceAsync();
        TranslationRecognitionResult translationRecognitionResult = task.get();

        if (translationRecognitionResult.getReason() == ResultReason.TranslatedSpeech) {
            System.out.println("RECOGNIZED: Text=" + translationRecognitionResult.getText());
            for (Map.Entry<String, String> pair : translationRecognitionResult.getTranslations().entrySet()) {
                System.out.printf("Translated into '%s': %s\n", pair.getKey(), pair.getValue());
            }
        }
        else if (translationRecognitionResult.getReason() == ResultReason.NoMatch) {
            System.out.println("NOMATCH: Speech could not be recognized.");
        }
        else if (translationRecognitionResult.getReason() == ResultReason.Canceled) {
            CancellationDetails cancellation = CancellationDetails.fromResult(translationRecognitionResult);
            System.out.println("CANCELED: Reason=" + cancellation.getReason());

            if (cancellation.getReason() == CancellationReason.Error) {
                System.out.println("CANCELED: ErrorCode=" + cancellation.getErrorCode());
                System.out.println("CANCELED: ErrorDetails=" + cancellation.getErrorDetails());
                System.out.println("CANCELED: Did you set the speech resource key and region values?");
            }
        }

        System.exit(0);
    }
}

Para cambiar el idioma de reconocimiento de voz, reemplace en-US por otro en-US. Especifique la configuración regional completa con un separador de guiones (-). Por ejemplo, es-ES para Español (España). El idioma predeterminado es en-US si no especifica un idioma. Para obtener más información sobre cómo identificar uno de los distintos idiomas que se pueden hablar, consulte Identificación del idioma.
Para cambiar el idioma de destino de la traducción, reemplace it por otro idioma admitido. Con pocas excepciones, solo se especifica el código de idioma que precede al separador de guiones (-) local. Por ejemplo, use es para español (España) en lugar de es-ES. El idioma predeterminado es en si no especifica un idioma.

Ejecute la nueva aplicación de consola para iniciar el reconocimiento de voz a través de un micrófono:

javac SpeechTranslation.java -cp ".;target\dependency\*"
java -cp ".;target\dependency\*" SpeechTranslation

Hable por el micrófono cuando se le solicite. Lo que diga debe ser la salida como texto traducido en el idioma de destino:

Speak into your microphone.
RECOGNIZED: Text=I'm excited to try speech translation.
Translated into 'it': Sono entusiasta di provare la traduzione vocale.

Comentarios

Ahora que ha completado el artículo de inicio rápido, estas son algunas consideraciones adicionales:

En este ejemplo se usa la operación RecognizeOnceAsync para transcribir expresiones de hasta 30 segundos, o hasta que se detecta el silencio. Para obtener información sobre el reconocimiento continuo de audio más largo, incluidas las conversaciones en varios idiomas, consulte Traducción de voz.
Para reconocer la voz de un archivo de audio, use fromWavFileInput en lugar de fromDefaultMicrophoneInput:
```
AudioConfig audioConfig = AudioConfig.fromWavFileInput("YourAudioFile.wav");
```
Para archivos de audio comprimidos como MP4, instale GStreamer y utilice PullAudioInputStream o PushAudioInputStream. Para más información, consulte Uso de entradas de audio comprimido.

Limpieza de recursos

Puede usar Azure Portal o la Interfaz de la línea de comandos (CLI) de Azure para quitar el recurso de Voz que creó.

Documentación de referencia | Paquete (npm) | Ejemplos adicionales en GitHub | Código fuente de la biblioteca

En este inicio rápido, se ejecuta una aplicación para trasladar interactivamente la voz de un idioma a texto en otro idioma.

Sugerencia

Pruebe el Azure AI Speech Toolkit para compilar y ejecutar fácilmente ejemplos en Visual Studio Code.

Requisitos previos

Suscripción a Azure. Puede crear una de forma gratuita.
Creación de un recurso de Voz en Azure Portal.
Obtenga la clave y la región del recurso de Voz. Una vez implementado el recurso de Voz, seleccione Ir al recurso para ver y administrar claves.

Configuración del entorno

En primer lugar, deberá instalar el SDK de Voz para JavaScript. Si solo desea el nombre del paquete que se va a instalar, ejecute npm install microsoft-cognitiveservices-speech-sdk. Para obtener instrucciones de instalación guiadas, consulte la guía de instalación del SDK.

Establecimiento de variables de entorno

Importante

Se recomienda la autenticación de Microsoft Entra ID con identidades administradas para los recursos de Azure para evitar almacenar credenciales con sus aplicaciones que se ejecutan en la nube.

Si usa una clave de API, almacénela de forma segura en otro lugar, como en Azure Key Vault. No incluya la clave de API directamente en el código ni la exponga nunca públicamente.

Para más información sobre la seguridad de los servicios de AI, consulte Autenticación de solicitudes a los servicios de Azure AI.

Para establecer la variable de entorno de SPEECH_KEY, reemplace su clave por una de las claves del recurso.
Para establecer la variable de entorno de SPEECH_REGION, reemplace su región por una de las regiones del recurso.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Nota:

Si solo necesita acceder a las variables de entorno en la consola actual, puede establecer la variable de entorno con set en vez de setx.

Bash

Edite el archivo .bashrc y agregue las variables de entorno:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Después de agregar las variables de entorno ejecute source ~/.bashrc en la ventana de consola para que los cambios surtan efecto.

Bash

Edite su archivo .bash_profile y agregue las variables de entorno:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Después de agregar las variables de entorno ejecute source ~/.bash_profile en la ventana de consola para que los cambios surtan efecto.

Xcode

Para el desarrollo de iOS y macOS, establezca las variables de entorno en Xcode. Por ejemplo, siga estos pasos para establecer la variable de entorno en Xcode 13.4.1.

Seleccione Producto>Esquema>Editar esquema.
Seleccione Argumentos en la página de Ejecutar (Depurar la ejecución).
En Variables de entorno, seleccione el signo más (+) para agregar una nueva variable de entorno.
Escriba SPEECH_KEY en Nombre y la clave de recurso de Voz en Valor.

Para establecer la variable de entorno en la región de recursos de Voz, siga los mismos pasos. Establezca SPEECH_REGION en la región del recurso. Por ejemplo, westus.

Para obtener más opciones de configuración, consulte la documentación de Xcode.

Traducción de voz a partir de un archivo

Siga estos pasos para crear una aplicación de consola de Node.js para el reconocimiento de voz.

Abra un símbolo del sistema donde quiera el nuevo proyecto y cree un archivo llamado SpeechTranslation.js.

Instale el SDK de voz para JavaScript:

npm install microsoft-cognitiveservices-speech-sdk

Copie el siguiente código en SpeechTranslation.js:

const fs = require("fs");
const sdk = require("microsoft-cognitiveservices-speech-sdk");

// This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
const speechTranslationConfig = sdk.SpeechTranslationConfig.fromSubscription(process.env.SPEECH_KEY, process.env.SPEECH_REGION);
speechTranslationConfig.speechRecognitionLanguage = "en-US";

var language = "it";
speechTranslationConfig.addTargetLanguage(language);

function fromFile() {
    let audioConfig = sdk.AudioConfig.fromWavFileInput(fs.readFileSync("YourAudioFile.wav"));
    let translationRecognizer = new sdk.TranslationRecognizer(speechTranslationConfig, audioConfig);

    translationRecognizer.recognizeOnceAsync(result => {
        switch (result.reason) {
            case sdk.ResultReason.TranslatedSpeech:
                console.log(`RECOGNIZED: Text=${result.text}`);
                console.log("Translated into [" + language + "]: " + result.translations.get(language));

                break;
            case sdk.ResultReason.NoMatch:
                console.log("NOMATCH: Speech could not be recognized.");
                break;
            case sdk.ResultReason.Canceled:
                const cancellation = sdk.CancellationDetails.fromResult(result);
                console.log(`CANCELED: Reason=${cancellation.reason}`);

                if (cancellation.reason == sdk.CancellationReason.Error) {
                    console.log(`CANCELED: ErrorCode=${cancellation.ErrorCode}`);
                    console.log(`CANCELED: ErrorDetails=${cancellation.errorDetails}`);
                    console.log("CANCELED: Did you set the speech resource key and region values?");
                }
                break;
        }
        translationRecognizer.close();
    });
}
fromFile();

En SpeechTranslation.js, reemplace YourAudioFile.wav por su propio archivo WAV. Este ejemplo solo reconoce la voz desde un archivo WAV. Para obtener información sobre otros formatos de audio, consulte Uso de entradas de audio comprimidas. Este ejemplo admite hasta 30 segundos de audio.
Para cambiar el idioma de reconocimiento de voz, reemplace en-US por otro en-US. Especifique la configuración regional completa con un separador de guiones (-). Por ejemplo, es-ES para Español (España). El idioma predeterminado es en-US si no especifica un idioma. Para obtener más información sobre cómo identificar uno de los distintos idiomas que se pueden hablar, consulte Identificación del idioma.
Para cambiar el idioma de destino de la traducción, reemplace it por otro idioma admitido. Con pocas excepciones, solo se especifica el código de idioma que precede al separador de guiones (-) local. Por ejemplo, use es para español (España) en lugar de es-ES. El idioma predeterminado es en si no especifica un idioma.

Ejecute la nueva aplicación de consola para iniciar el reconocimiento de voz desde un archivo:

node.exe SpeechTranslation.js

La voz del archivo de audio debe ser la salida como texto traducido en el idioma de destino:

RECOGNIZED: Text=I'm excited to try speech translation.
Translated into [it]: Sono entusiasta di provare la traduzione vocale.

Comentarios

Ahora que ha completado el artículo de inicio rápido, estas son algunas consideraciones adicionales:

En este ejemplo se usa la operación recognizeOnceAsync para transcribir expresiones de hasta 30 segundos, o hasta que se detecta el silencio. Para obtener información sobre el reconocimiento continuo de audio más largo, incluidas las conversaciones en varios idiomas, consulte Traducción de voz.

Nota:

No se admite el reconocimiento de voz a través de un micrófono en Node.js. Solo se admite en un entorno de JavaScript basado en explorador.

Limpieza de recursos

Puede usar Azure Portal o la Interfaz de la línea de comandos (CLI) de Azure para quitar el recurso de Voz que creó.

Documentación de referencia | Paquete (descarga) | Ejemplos adicionales en GitHub

El SDK de Voz para Objective-C admite la traducción de voz, aunque no tenemos ninguna guía disponible aún. Seleccione otro lenguaje de programación para empezar a trabajar y conocer los conceptos, o consulte la referencia de Objective-C y los ejemplos vinculados desde el principio de este artículo.

Documentación de referencia | Paquete (descarga) | Ejemplos adicionales en GitHub

El SDK de Voz para Swift admite la traducción de voz, aunque no tenemos ninguna guía disponible aún. Seleccione otro lenguaje de programación para empezar a trabajar y conocer los conceptos, o consulte la referencia de Swift y los ejemplos vinculados desde el principio de este artículo.

Documentación de referencia | Paquete (PyPi) | Ejemplos adicionales en GitHub

En este inicio rápido, se ejecuta una aplicación para trasladar interactivamente la voz de un idioma a texto en otro idioma.

Sugerencia

Pruebe el Azure AI Speech Toolkit para compilar y ejecutar fácilmente ejemplos en Visual Studio Code.

Requisitos previos

Suscripción a Azure. Puede crear una de forma gratuita.
Creación de un recurso de Voz en Azure Portal.
Obtenga la clave y la región del recurso de Voz. Una vez implementado el recurso de Voz, seleccione Ir al recurso para ver y administrar claves.

Configuración del entorno

El SDK de Voz para Python está disponible como módulo de índice de paquetes de Python (PyPI). El SDK de Voz para Python es compatible con Windows, Linux y macOS.

Debe instalar Microsoft Visual C++ Redistributable para Visual Studio 2015, 2017, 2019 y 2022 para su plataforma. Durante la primera instalación del paquete, es posible que deba reiniciar.
En Linux, debe usar la arquitectura de destino x64.

Instale una versión de Python desde la 3.7 en adelante. Primero consulte la guía de instalación del SDK para conocer más requisitos.

Establecimiento de variables de entorno

Importante

Se recomienda la autenticación de Microsoft Entra ID con identidades administradas para los recursos de Azure para evitar almacenar credenciales con sus aplicaciones que se ejecutan en la nube.

Si usa una clave de API, almacénela de forma segura en otro lugar, como en Azure Key Vault. No incluya la clave de API directamente en el código ni la exponga nunca públicamente.

Para más información sobre la seguridad de los servicios de AI, consulte Autenticación de solicitudes a los servicios de Azure AI.

Para establecer la variable de entorno de SPEECH_KEY, reemplace su clave por una de las claves del recurso.
Para establecer la variable de entorno de SPEECH_REGION, reemplace su región por una de las regiones del recurso.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Nota:

Si solo necesita acceder a las variables de entorno en la consola actual, puede establecer la variable de entorno con set en vez de setx.

Bash

Edite el archivo .bashrc y agregue las variables de entorno:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Después de agregar las variables de entorno ejecute source ~/.bashrc en la ventana de consola para que los cambios surtan efecto.

Bash

Edite su archivo .bash_profile y agregue las variables de entorno:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Después de agregar las variables de entorno ejecute source ~/.bash_profile en la ventana de consola para que los cambios surtan efecto.

Xcode

Para el desarrollo de iOS y macOS, establezca las variables de entorno en Xcode. Por ejemplo, siga estos pasos para establecer la variable de entorno en Xcode 13.4.1.

Seleccione Producto>Esquema>Editar esquema.
Seleccione Argumentos en la página de Ejecutar (Depurar la ejecución).
En Variables de entorno, seleccione el signo más (+) para agregar una nueva variable de entorno.
Escriba SPEECH_KEY en Nombre y la clave de recurso de Voz en Valor.

Para establecer la variable de entorno en la región de recursos de Voz, siga los mismos pasos. Establezca SPEECH_REGION en la región del recurso. Por ejemplo, westus.

Para obtener más opciones de configuración, consulte la documentación de Xcode.

Traslado de voz a través de un micrófono

Siga estos pasos para crear una nueva aplicación de consola.

Abra un símbolo del sistema donde quiera el nuevo proyecto y cree un archivo llamado speech_translation.py.
Ejecute este comando para instalar el SDK de voz:
```
pip install azure-cognitiveservices-speech
```

Copie el siguiente código en speech_translation.py:

import os
import azure.cognitiveservices.speech as speechsdk

def recognize_from_microphone():
    # This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
    speech_translation_config = speechsdk.translation.SpeechTranslationConfig(subscription=os.environ.get('SPEECH_KEY'), region=os.environ.get('SPEECH_REGION'))
    speech_translation_config.speech_recognition_language="en-US"

    to_language ="it"
    speech_translation_config.add_target_language(to_language)

    audio_config = speechsdk.audio.AudioConfig(use_default_microphone=True)
    translation_recognizer = speechsdk.translation.TranslationRecognizer(translation_config=speech_translation_config, audio_config=audio_config)

    print("Speak into your microphone.")
    translation_recognition_result = translation_recognizer.recognize_once_async().get()

    if translation_recognition_result.reason == speechsdk.ResultReason.TranslatedSpeech:
        print("Recognized: {}".format(translation_recognition_result.text))
        print("""Translated into '{}': {}""".format(
            to_language, 
            translation_recognition_result.translations[to_language]))
    elif translation_recognition_result.reason == speechsdk.ResultReason.NoMatch:
        print("No speech could be recognized: {}".format(translation_recognition_result.no_match_details))
    elif translation_recognition_result.reason == speechsdk.ResultReason.Canceled:
        cancellation_details = translation_recognition_result.cancellation_details
        print("Speech Recognition canceled: {}".format(cancellation_details.reason))
        if cancellation_details.reason == speechsdk.CancellationReason.Error:
            print("Error details: {}".format(cancellation_details.error_details))
            print("Did you set the speech resource key and region values?")

recognize_from_microphone()

Para cambiar el idioma de reconocimiento de voz, reemplace en-US por otro en-US. Especifique la configuración regional completa con un separador de guiones (-). Por ejemplo, es-ES para Español (España). El idioma predeterminado es en-US si no especifica un idioma. Para obtener más información sobre cómo identificar uno de los distintos idiomas que se pueden hablar, consulte Identificación del idioma.
Para cambiar el idioma de destino de la traducción, reemplace it por otro idioma admitido. Con pocas excepciones, solo se especifica el código de idioma que precede al separador de guiones (-) local. Por ejemplo, use es para español (España) en lugar de es-ES. El idioma predeterminado es en si no especifica un idioma.

Ejecute la nueva aplicación de consola para iniciar el reconocimiento de voz a través de un micrófono:

python speech_translation.py

Hable por el micrófono cuando se le solicite. Lo que diga debe ser la salida como texto traducido en el idioma de destino:

Speak into your microphone.
Recognized: I'm excited to try speech translation.
Translated into 'it': Sono entusiasta di provare la traduzione vocale.

Comentarios

Ahora que ha completado el artículo de inicio rápido, estas son algunas consideraciones adicionales:

En este ejemplo se usa la operación recognize_once_async para transcribir expresiones de hasta 30 segundos, o hasta que se detecta el silencio. Para obtener información sobre el reconocimiento continuo de audio más largo, incluidas las conversaciones en varios idiomas, consulte Traducción de voz.
Para reconocer la voz de un archivo de audio, use filename en lugar de use_default_microphone:
```
audio_config = speechsdk.audio.AudioConfig(filename="YourAudioFile.wav")
```
Para archivos de audio comprimidos como MP4, instale GStreamer y utilice PullAudioInputStream o PushAudioInputStream. Para más información, consulte Uso de entradas de audio comprimido.

Limpieza de recursos

Puede usar Azure Portal o la Interfaz de la línea de comandos (CLI) de Azure para quitar el recurso de Voz que creó.

Referencia de la API de REST en la conversión de voz en texto | Referencia de la API de REST de conversión de voz en texto para audios de corta duración | Ejemplos adicionales sobre GitHub

La API de REST no admite la traducción de voz. Seleccione otra herramienta o lenguaje de programación en la parte superior de esta página.

En este inicio rápido, se ejecuta una aplicación para trasladar interactivamente la voz de un idioma a texto en otro idioma.

Sugerencia

Pruebe el Azure AI Speech Toolkit para compilar y ejecutar fácilmente ejemplos en Visual Studio Code.

Requisitos previos

Suscripción a Azure. Puede crear una de forma gratuita.
Creación de un recurso de Voz en Azure Portal.
Obtenga la clave y la región del recurso de Voz. Una vez implementado el recurso de Voz, seleccione Ir al recurso para ver y administrar claves.

Configuración del entorno

Siga estos pasos y consulte el inicio rápido de la CLI de Voz para conocer los otros requisitos de la plataforma.

Ejecute el siguiente comando de la CLI de .NET para instalar la CLI de Voz:
```
dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
```
Configure la clave de recurso de Voz y la región mediante la ejecución de los siguientes comandos. Reemplace SUBSCRIPTION-KEY por la clave del recurso de Voz y REGION por la región del recurso de Voz.
- Terminal
- PowerShell
```
spx config @key --set SUBSCRIPTION-KEY
spx config @region --set REGION
```
```
spx --% config @key --set SUBSCRIPTION-KEY
spx --% config @region --set REGION
```

Traslado de voz a través de un micrófono

Ejecute el siguiente comando para traducir la voz del micrófono de inglés a italiano:

spx translate --source en-US --target it --microphone

Hable al micrófono y verá la transcripción de la voz traducida en tiempo real. La CLI de Voz se detendrá después de un período de silencio, 30 segundos, o cuando presione Ctrl+C.

Connection CONNECTED...
TRANSLATING into 'it': Sono (from 'I'm')
TRANSLATING into 'it': Sono entusiasta (from 'I'm excited to')
TRANSLATING into 'it': Sono entusiasta di provare la parola (from 'I'm excited to try speech')
TRANSLATED into 'it': Sono entusiasta di provare la traduzione vocale. (from 'I'm excited to try speech translation.')

Observaciones

Ahora que ha completado el artículo de inicio rápido, estas son algunas consideraciones adicionales:

Para obtener la voz de un archivo de audio, use --file en lugar de --microphone. Para archivos de audio comprimidos como MP4, instale GStreamer y utilice --format. Para más información, consulte Uso de entradas de audio comprimido.

Terminal
PowerShell

spx translate --source en-US --target it --file YourAudioFile.wav
spx translate --source en-US --target it --file YourAudioFile.mp4 --format any

spx translate --source en-US --target it --file YourAudioFile.wav
spx translate --source en-US --target it --file YourAudioFile.mp4 --format any

Para mejorar la precisión del reconocimiento de palabras o expresiones específicas, use una lista de frases. Incluya una lista de frases en línea o con un archivo de texto:

Terminal
PowerShell

spx translate --source en-US --target it --microphone --phrases "Contoso;Jessie;Rehaan;"
spx translate --source en-US --target it --microphone --phrases @phrases.txt

spx --% translate --source en-US --target it --microphone --phrases "Contoso;Jessie;Rehaan;"
spx --% translate --source en-US --target it --microphone --phrases @phrases.txt

Para cambiar el idioma de reconocimiento de voz, reemplace en-US por otro en-US. Especifique la configuración regional completa con un separador de guiones (-). Por ejemplo, es-ES para Español (España). El idioma predeterminado es en-US si no especifica un idioma.
```
spx translate --microphone --source es-ES
```
Para cambiar el idioma de destino de la traducción, reemplace it por otro idioma admitido. Con pocas excepciones, solo se especifica el código de idioma que precede al separador de guiones (-) local. Por ejemplo, use es para español (España) en lugar de es-ES. El idioma predeterminado es en si no especifica un idioma.
```
spx translate --microphone --target es
```
Para el reconocimiento continuo del audio durante más de 30 segundos, anexe --continuous:
```
spx translate --source en-US --target it --microphone --continuous
```

Ejecute este comando para obtener información sobre opciones adicionales de traducción de voz, como la entrada y la salida de archivos:

spx help translate

Limpieza de recursos

Puede usar Azure Portal o la Interfaz de la línea de comandos (CLI) de Azure para quitar el recurso de Voz que creó.

Pasos siguientes

Más información sobre la traducción de voz

Compartir por

Inicio rápido: Reconocimiento y conversión de voz en texto

Requisitos previos

Configuración del entorno

Establecimiento de variables de entorno

Traslado de voz a través de un micrófono

Comentarios

Limpieza de recursos

Requisitos previos

Configuración del entorno

Establecimiento de variables de entorno

Traslado de voz a través de un micrófono

Comentarios

Limpieza de recursos

Requisitos previos

Configuración del entorno

Establecimiento de variables de entorno

Traslado de voz a través de un micrófono

Comentarios

Limpieza de recursos

Requisitos previos

Configuración del entorno

Establecimiento de variables de entorno

Traducción de voz a partir de un archivo

Comentarios

Limpieza de recursos

Requisitos previos

Configuración del entorno

Establecimiento de variables de entorno

Traslado de voz a través de un micrófono

Comentarios

Limpieza de recursos

Requisitos previos

Configuración del entorno

Traslado de voz a través de un micrófono

Observaciones

Limpieza de recursos

Pasos siguientes

Comentarios

Recursos adicionais