¿Cuáles son las novedades de Voz de Azure AI?

Artículo
04/22/2024

Voz de Azure AI se actualiza de forma continua. Para mantenerse al día con los avances recientes, en este artículo se proporciona información sobre las nuevas versiones y características.

Aspectos destacados recientes

El servicio Voz de Azure AI admite las voces de texto a voz de OpenAI. Para obtener más información, consulte ¿Qué son las voces de conversión de texto a voz de OpenAI?
La API de voz personalizada está disponible para crear y administrar profesionales y modelos de voz neuronal personalizados personal.
Voz de Azure AI ahora admite el modelo Whisper de OpenAI a través de la API de transcripción por lotes. Para más información, consulte la guía Creación de una transcripción por lotes.

Notas de la versión

Elección de un servicio o recurso

Próximos planes para usuarios de Linux y Android:

Precaución

En este artículo se hace referencia a CentOS, una distribución de Linux que está cerca de su estado Final de ciclo vida (EOL). Tenga en cuenta su uso y planeación en consecuencia. Para más información, consulte la Guía de fin de ciclo de vida de CentOS.

Ubuntu 18.04 también alcanzó el final de la vida en abril de 2023, por lo que nuestros usuarios deben prepararse para que podamos mover nuestra versión mínima hasta Ubuntu 20.04.

SDK de Voz 1.37.0: versión de abril de 2024

Nuevas características

Se ha agregado compatibilidad con la transmisión de texto de entrada en la síntesis de voz.
Cambie la voz de síntesis de voz predeterminada a en-US-AvaMultilingualNeural.
Actualice las compilaciones de Android para usar OpenSSL 3.x.

Corrección de errores

Se ha corregido el bloqueo ocasional de la JVM durante la eliminación de SpeechRecognizer al utilizar MAS. (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2125)
Mejora de la detección de dispositivos de audio predeterminados en Linux. (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2292)

Ejemplos

Se ha actualizado para las nuevas características.

SDK de Voz 1.36.0: versión de marzo de 2024

Nuevas características

Se ha agregado compatibilidad con la identificación del idioma en la traducción multilingüe en puntos de conexión v2 mediante AutoDetectSourceLanguageConfig::FromOpenRange().

Corrección de errores

Corregir el evento SynthesisCanceled no se desencadena si se llama a stop durante el evento SynthesisStarted.
Se ha corregido un problema de ruido en la síntesis de voz insertada.
Se ha corregido un bloqueo en el reconocimiento de voz incrustado al ejecutar varios reconocedores en paralelo.
Corrija la configuración del modo de detección de frases en los puntos de conexión v1/v2.
Corrige varios problemas con Microsoft Audio Stack.

Ejemplos

Actualizaciones de nuevas características.

SDK de Voz 1.35.0: versión de febrero de 2024

Nuevas características

Cambie la voz de conversión de texto a voz predeterminada de en-US-JennyMultilingualNeural a en-US-AvaNeural.
Admitir detalles de nivel de palabra en los resultados de la traducción de voz insertada mediante el formato de salida detallado.

Corrección de errores

Corregir la API de captador de posición AudioDataStream en Python.
Corregir la traducción de voz mediante puntos de conexión v2 sin detección de idioma.
Corregir un bloqueo aleatorio y eventos de límite de palabra duplicados en la conversión de texto a voz insertado.
Devolver un código de error de cancelación correcto para un error interno del servidor en conexiones WebSocket.
Corregir el error al cargar la biblioteca FPIEProcessor.dll cuando se usa MAS con C#.

Ejemplos

Actualizaciones de formato secundarias para ejemplos de reconocimiento insertado.

SDK de Voz 1.34.1: versión de enero de 2024

Cambios importantes

Solo correcciones de errores

Nuevas características

Solo correcciones de errores

Corrección de errores

Se ha corregido la regresión introducida en la versión 1.34.0, donde la dirección URL del punto de conexión de servicio se construyó con información regional incorrecta para los usuarios de varias regiones de China.

SDK de Voz 1.34.0: versión de noviembre de 2023

Cambios importantes

SpeechRecognizer se ha actualizado para usar un nuevo punto de conexión de forma predeterminada (es decir, cuando no se especifica explícitamente una dirección URL), que ya no admite parámetros de cadena de consulta para la mayoría de las propiedades. En lugar de establecer parámetros de cadena de consulta directamente con ServicePropertyChannel.UriQueryParameter, use las funciones de API correspondientes.

Nuevas características

Compatibilidad con .NET 8 (corrección para https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2170 excepto la advertencia sobre centos7-x64)
Compatibilidad con métricas de rendimiento de voz insertadas que se pueden usar para evaluar la capacidad de un dispositivo para ejecutar voz insertada.
Compatibilidad con la identificación del idioma de origen en la traducción multilingüe insertada.
Compatibilidad con la conversión de voz en texto incrustada, texto a voz y traducción para iOS y Swift/Objective-C publicada en versión preliminar.
La compatibilidad insertada se proporciona en MicrosoftCognitiveServicesSpeechEmbedded-iOS Cocoapod.

Corrección de errores

Corrección para el SDK de iOS dos veces el crecimiento de tamaño binario · Incidencia 2113 · Azure-Samples/cognitive-services-speech-sdk (github.com)
Corrección para No se pueden obtener marcas de tiempo de nivel de palabra de la API de conversión de voz en texto de Azure· Incidencia 2156 · Azure-Samples/cognitive-services-speech-sdk (github.com)
Se ha corregido la fase de destrucción dialogServiceConnector para desconectar los eventos correctamente. Esto provocaba bloqueos ocasionales.
Corrección para la excepción durante la creación de un reconocedor cuando se usa MAS.
FPIEProcessor.dll del paquete NuGet Microsoft.CognitiveServices.Speech.Extension.MAS para Windows UWP x64 y ARM64 tenían dependencia de bibliotecas en runtime de VC para C++nativo. La incidencia se ha rectificado actualizando la dependencia para corregir las bibliotecas en runtime de VC (para UWP).
Corrección para las llamadas recurrentes a recognizeOnceAsync que conducen a SPXERR_ALREADY_INITIALIZED al usar MAS · Incidencia 2124 · Azure-Samples/cognitive-services-speech-sdk (github.com)
Se ha corregido el bloqueo del reconocimiento de voz incrustado cuando se usan listas de frases.

Ejemplos

Ejemplos de iOS insertados para conversión de voz en texto, texto a voz y traducción.

CLI de Voz 1.34.0: versión de noviembre de 2023

Nuevas características

Compatibilidad con la salida de eventos de límite de palabras al sintetizar voz.

Corrección de errores

Se ha actualizado la dependencia de JMESPath a la versión más reciente y se han mejorado las evaluaciones de cadenas

SDK de Voz 1.33.0: versión de octubre de 2023

Aviso de cambio importante

Ahora es necesario que las aplicaciones que utilicen Microsoft Audio Stack (MAS) incluyan el nuevo paquete NuGet añadido para MAS en sus archivos de configuración de paquetes.

Nuevas características

Se ha agregado el nuevo paquete NuGet Microsoft.CognitiveServices.Speech.Extension.MAS.nupkg, que proporciona un rendimiento mejorado de cancelación de eco al usar MAS
Evaluación de la pronunciación: se ha agregado compatibilidad con la evaluación de la prosodia y el contenido, que puede evaluar el discurso hablado en términos de prosodia, vocabulario, gramática y tema.

Correcciones de errores

Se han corregido los desplazamientos de resultados del reconocimiento de palabras clave para que coincidan correctamente con la secuencia de audio de entrada desde el principio. La corrección se aplica tanto al reconocimiento de palabras clave independiente como al reconocimiento de voz desencadenado por palabras clave.
Se ha corregido que stopSpeaking no devuelva inmediatamente método stopSynthesizer stopSpeaking() de SPXSpeechSynthesizer no puede devolver inmediatamente en iOS 17: problema n.º 2081
Se ha corregido el problema de importación de Mac Catalyst en el módulo Swift Compatibilidad del módulo Swift para Mac Catalyst con Apple Silicon. Problema n.º 1948
JS: las cargas del módulo AudioWorkletNode ahora usa una dirección URL de confianza, con reserva para el explorador de CDN.
JS: los archivos lib empaquetados ahora están destinados a ES6 JS, y se ha eliminado la compatibilidad con ES5 JS.
JS: los eventos intermedios para el punto de conexión v2 del escenario de traducción se controlan correctamente
JS: La propiedad language de TranslationRecognitionEventArgs ahora está establecida para los eventos translation.hypothesis.
Síntesis de voz: se garantiza que el evento SynthesisCompleted se emita después de todos los eventos de metadatos, por lo que podría usarse para indicar el final de los eventos. ¿Cómo detectar cuándo se reciben por completo los visemas? Problema n.º 2093 Azure-Samples/cognitive-services-speech-sdk

Ejemplos

Se ha agregado un ejemplo para demostrar el streaming MULAW con Python)
Corrección del ejemplo NAudio de voz a texto

CLI de voz 1.33.0: versión de octubre de 2023

Nuevas características

Compatibilidad con la salida de eventos de límite de palabras al sintetizar voz.

Correcciones de errores

None

SDK de Voz 1.32.1: versión de septiembre de 2023

Correcciones de errores

Actualizaciones de paquetes de Android con las correcciones de seguridad más recientes de OpenSSL1.1.1v
JS: se agregó la propiedad WebWorkerLoadType para permitir la omisión de la carga de direcciones URL de datos para el trabajo de tiempo de espera
JS: se corrigió la desconexión de la traducción de conversación después de 10 minutos
JS: el token de autenticación de traducción de conversación a partir de la conversación ahora se propaga a la conexión del servicio de traducción

Ejemplos

Transcripción de conversaciones con API de Swift

SDK de Voz 1.31.0: versión de agosto de 2023

Nuevas características

La compatibilidad con la diarización en tiempo real está disponible en versión preliminar pública con el SDK de Voz 1.31.0. Esta característica está disponible en los siguientes SDK: C#, C++, Java, JavaScript, Python y Objective-C/Swift.
Eventos de límite de palabra de síntesis de voz sincronizada y visema con reproducción de audio

Últimos cambios

El primer escenario de "transcripción de conversaciones" cambia de nombre a "transcripción de reuniones". Por ejemplo, use MeetingTranscriber en lugar de ConversationTranscriber, y use CreateMeetingAsync en lugar de CreateConversationAsync. Aunque los nombres de los objetos y métodos del SDK han cambiado, el cambio de nombre no modifica la propia característica. Use objetos de transcripción de reuniones para la transcripción de reuniones con perfiles de usuario y firmas de voz. Consulte Transcripción de reuniones para obtener más información. Los objetos y métodos de "traducción de conversaciones" no se ven afectados por estos cambios. Todavía puede usar el objeto ConversationTranslator y sus métodos para escenarios de traducción de reuniones.

Para la diarización en tiempo real, se introduce un nuevo objeto ConversationTranscriber. El nuevo modelo de objetos "transcripción de conversaciones" y los patrones de llamada son similares al reconocimiento continuo con el objeto SpeechRecognizer. Una diferencia clave es que el objeto ConversationTranscriber está diseñado para usarse en un escenario de conversación en el que se desea diferenciar varios hablantes (diarización). Los perfiles de usuario y las firmas de voz no son aplicables. Consulte el inicio rápido de diarización en tiempo real para obtener más información.

En esta tabla, se muestran los nombres de objeto anteriores y nuevos para la diarización en tiempo real y la transcripción de reuniones. El nombre del escenario se encuentra en la primera columna; los nombres de objeto anteriores se encuentran en la segunda columna; y los nuevos nombres de objeto se encuentran en la tercera columna.

Nombre del escenario	Nombres de objeto anteriores	Nuevos nombres de objeto
Diarización en tiempo real	N/D	`ConversationTranscriber`
Transcripción de reuniones	`ConversationTranscriber` `ConversationTranscriptionEventArgs` `ConversationTranscriptionCanceledEventArgs` `ConversationTranscriptionResult` `RemoteConversationTranscriptionResult` `RemoteConversationTranscriptionClient` `RemoteConversationTranscriptionResult` `Participant`¹ `ParticipantChangedReason`¹ `User`¹	`MeetingTranscriber` `MeetingTranscriptionEventArgs` `MeetingTranscriptionCanceledEventArgs` `MeetingTranscriptionResult` `RemoteMeetingTranscriptionResult` `RemoteMeetingTranscriptionClient` `RemoteMeetingTranscriptionResult` `Participant` `ParticipantChangedReason` `User` `Meeting`²

¹ Los objetos Participant, ParticipantChangedReason y User son aplicables tanto a escenarios de transcripción de reuniones como de traducción de reuniones.

² El objeto Meeting es nuevo y se usa con el objeto MeetingTranscriber.

Correcciones de errores

Se ha corregido la versión mínima admitida de macOS https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2017
Se ha corregido el error de evaluación de pronunciación:
- Se ha corregido el problema de las puntuaciones de precisión de phoneme, asegurándose de que ahora reflejan con precisión solo el phoneme mal anunciado. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1917
- Se ha resuelto un problema por el que la característica Evaluación de pronunciación identificaba inexactamente las pronunciaciones totalmente correctas como erróneas, especialmente en situaciones en las que las palabras podían tener varias pronunciaciones válidas. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1530

Ejemplos

SDK de Voz 1.30.0: versión de julio de 2023

Características nuevas

C++, C#, Java: se ha agregado compatibilidad con DisplayWords en el resultado detallado del reconocimiento de voz insertado.
Objective-C/Swift: se ha agregado compatibilidad con el evento ConnectionMessageReceived en Objective-C/Swift.
Objective-C/Swift: modelos de detección de palabras clave mejorados para iOS. Este cambio ha aumentado el tamaño de determinados paquetes que contienen archivos binarios de iOS (como NuGet, XCFramework). Estamos trabajando para reducir el tamaño en las futuras versiones.

Correcciones de errores

Se ha corregido una fuga de memoria al usar el reconocedor de voz con PhraseListGrammar, según lo notificado por un cliente (problema de GitHub).
Se ha corregido un interbloqueo en texto a la API de conexión abierta de voz.

Notas adicionales

Java: algunos métodos de API de Java public, usados internamente, se cambiaron a un paquete internal, protected o private. Este cambio no debe tener ningún efecto en los desarrolladores, ya que no esperamos que las aplicaciones usen estos paquetes. Se indica esto aquí para fines de transparencia.

Ejemplos

Nuevos ejemplos de evaluación de pronunciación sobre cómo especificar un lenguaje de aprendizaje en su propia aplicación
- C#: consulte código de ejemplo.
- C++: consulte código de ejemplo.
- JavaScript: consulte código de ejemplo.
- Objective-C: consulte el código de ejemplo.
- Python: consulte el código de ejemplo.
- Swift: consulte el código de ejemplo.

SDK de Voz 1.29.0: versión de junio de 2023

Características nuevas

C++, C#, Java: Versión preliminar de las API de traducción de voz integrada. Ahora puede realizar la traducción de voz sin conexión en la nube.
JavaScript: Identificación continua de idioma (LID) ahora habilitada para traducción de voz.
JavaScript: Contribución de la comunidad para agregar la propiedad LocaleName a la clase VoiceInfo. Gracias, usuario de GitHub, shivsarthak por la solicitud de incorporación de cambios.
C++, C#, Java: se ha agregado compatibilidad para volver a muestrear la salida de texto a voz integrada de 16 kHz a 48 kHz de frecuencia de muestreo.
Se agregó compatibilidad con la configuración regional hi-IN en Reconocedor de intenciones (Intent Recognizer) con coincidencia de patrones simple.

Corrección de errores

Se corrigió un bloqueo causado por una condición de carrera en el Reconocedor de voz durante la destrucción de objetos, como se vio en algunas de nuestras pruebas de Android
Se corrigieron posibles interbloqueos en Reconocedor de intenciones (Intent Recognizer) con coincidencia de patrones simple

Ejemplos

Nuevos ejemplos de traducción de voz insertada

SDK de Voz 1.28.0: versión de mayo de 2023

Cambio importante

SDK de JavaScript: se quitó el Protocolo de estado de certificado en línea (OCSP). Esto permite a los clientes ajustarse mejor a los estándares del explorador y de los nodos para la gestión de certificados. La versión 1.28 y posteriores ya no incluirán nuestro módulo OCSP personalizado.

Características nuevas

El reconocimiento de voz insertado ahora devuelve NoMatchReason::EndSilenceTimeout cuando se produce un tiempo de espera de silencio al final de una expresión. Esto coincide con el comportamiento al realizar el reconocimiento mediante el servicio de voz en tiempo real.
SDK de JavaScript: definir propiedades en SpeechTranslationConfig mediante valores de enumeración de PropertyId.

Corrección de errores

C# en Windows: corregir la posible condición de carrera o interbloqueo en la extensión de audio de Windows. En escenarios en los que se elimina el representador de audio rápidamente y también se usa el método Sintetizador para dejar de hablar, el evento subyacente no se restablece por detención y podría hacer que el objeto representador nunca se elimine, todo ello mientras se mantiene un bloqueo global para la eliminación, bloqueando el subproceso de GC de dotnet.

Ejemplos

Se ha agregado un ejemplo de voz insertado para MAUI.
Se ha actualizado el ejemplo de voz insertado para Java de Android para que incluya texto a voz.

SDK de voz 1.27.0: versión de abril de 2023

Notificación acerca de los próximos cambios

Tenemos previsto quitar el Protocolo de estado de certificados en línea (OCSP) en la próxima versión del SDK de JavaScript. Esto permite a los clientes ajustarse mejor a los estándares del explorador y de los nodos para la gestión de certificados. La versión 1.27 es la última versión que incluye nuestro módulo OCSP personalizado.

Características nuevas

JavaScript: se ha agregado compatibilidad con la entrada de micrófono desde el explorador con la verificación e identificación del hablante.
Reconocimiento de voz insertado: se ha actualizado la compatibilidad con la configuración PropertyId::Speech_SegmentationSilenceTimeoutMs.

Corrección de errores

General: actualizaciones de confiabilidad en la lógica de reconexión de servicio (todos los lenguajes de programación excepto JavaScript).
General: corrección de las conversiones de cadenas que pierden memoria en Windows (todos los lenguajes de programación pertinentes excepto JavaScript).
Reconocimiento de voz insertado: se ha corregido el bloqueo en el reconocimiento de voz en francés al usar determinadas entradas de lista gramatical.
Documentación del código fuente: correcciones en los comentarios de la documentación de referencia del SDK relacionados con el registro de audio en el servicio.
Reconocimiento de intención: corrija las prioridades de las coincidencias de patrones relacionadas con las entidades de lista.

Ejemplos

Controlar correctamente el error de autenticación en el ejemplo de transcripción de conversaciones (CTS) en C#.
Se ha agregado un ejemplo de evaluación de pronunciación de streaming para Python, JavaScript, Objective-C y Swift.

SDK de Voz 1.26.0: versión de marzo de 2023

Cambios importantes

Bitcode se ha deshabilitado en todos los destinos de iOS en los siguientes paquetes: Cocoapod con xcframework, Nuget (para Xamarin y MAUI) y Unity. El cambio se debe a que Apple ha dejado de admitir bitcode de Xcode 14 y versiones posteriores. Este cambio también significa que si usa la versión 13 de Xcode o si ha habilitado explícitamente el bitcode en la aplicación mediante el SDK de Voz, puede producirse un error que indique que "el marco no contiene bitcode y debe recompilarlo". Para resolver este problema, asegúrese de que los destinos han deshabilitado bitcode.
El destino de implementación de iOS mínimo se ha actualizado a la versión 11.0 en esta versión, lo que significa que ya no se admite armv7 HW.

Nuevas características

El reconocimiento de voz integrado (en el dispositivo) ahora admite audio de entrada de frecuencia de muestreo de 8 y 16 kHz (16 bits por muestra, PCM mono).
La síntesis de voz ahora notifica latencias de conexión, red y servicio en el resultado para contribuir a la optimización de la latencia de un extremo a otro.
Nuevas reglas de desempate para Reconocimiento de la intención con coincidencia de patrones simples. Cuantos más bytes de caracteres coincidan, ganarán las coincidencias de patrones con un número de bytes de caracteres inferior. Ejemplo: El patrón "Seleccione {algo} en la parte superior derecha" le ganará a "Seleccione {algo}"

Correcciones de errores

Síntesis de voz: corrija el error en el que el emoji no es correcto en eventos de límite de palabra.
Reconocimiento de la intención con reconocimiento del lenguaje conversacional (CLU):
- Las intenciones del flujo de trabajo de orquestador de CLU aparecen ahora correctamente.
- El resultado JSON ya está disponible a través del id. de propiedad LanguageUnderstandingServiceResponse_JsonResult.
Reconocimiento de voz con activación de palabras clave: se ha corregido el audio de ~150 ms que faltaba después de un reconocimiento de palabras clave.
Corrección de la compilación de versión de NuGet para iOS MAUI del SDK de Voz, notificada por el cliente (problema de GitHub)

Ejemplos

Corrección del ejemplo de Swift iOS, notificado por el cliente (problema de GitHub)

SDK de voz 1.25.0: versión de enero de 2023

Cambios importantes

Se han simplificado las API de identificación de idioma (versión preliminar). Si actualiza el SDK de Voz 1.25 y ve un salto de compilación, visite la página Identificación de idioma para obtener información sobre la nueva propiedad SpeechServiceConnection_LanguageIdMode. Esta propiedad única reemplaza a las dos anteriores SpeechServiceConnection_SingleLanguageIdPriority y SpeechServiceConnection_ContinuousLanguageIdPriority. La priorización entre baja latencia y alta precisión ya no es necesaria después de las mejoras recientes del modelo. Ahora, solo tiene que seleccionar si ejecutar la identificación de idioma al principio o la identificación de idioma continua al realizar el reconocimiento de voz continuo o la traducción.

Nuevas características

C#/C++/Java: el SDK de voz insertado se publica ahora en versión preliminar pública controlada. Consulte la documentación Voz insertada (versión preliminar). Ahora puede realizar conversión de voz en texto en el dispositivo y de texto a voz cuando la conectividad en la nube es intermitente o no está disponible. Compatible con plataformas Android, Linux, MacOS y Windows
MAUI de C#: compatibilidad agregada para destinos de iOS y Mac Catalyst en NuGet del SDK de voz (incidencia del cliente)
Unity: arquitectura de x86_64 de Android agregada al paquete de Unity (incidencia del cliente)
Go:
- Compatibilidad con streaming directo de ALAW/MULAW agregada para el reconocimiento de voz (incidencia del cliente)
- Se ha agregado compatibilidad con PhraseListGrammar. Gracias al usuario de GitHub czkoko por la contribución a la comunidad.
C#/C++: Intent Recognizer ahora admite modelos de reconocimiento del lenguaje conversacional en C++ y C# con orquestación en el servicio Microsoft.

Corrección de errores

Corrección de un bloqueo ocasional en KeywordRecognizer al intentar detenerlo
Python:
- Corrección para obtener los resultados de la evaluación de pronunciación cuando se establece PronunciationAssessmentGranularity.FullText (incidencia del cliente)
- Corrección de la propiedad de género para las voces masculinas que no se recuperan al obtener voces de síntesis de voz
JavaScript
- Corrección para analizar algunos archivos WAV que se grabaron en dispositivos iOS (incidencia del cliente)
- El SDK de JS ahora se compila sin usar npm-force-resolutions (incidencia del cliente)
- Conversation Translator ahora establece correctamente el punto de conexión de servicio cuando se usa una instancia de speechConfig creada mediante SpeechConfig.fromEndpoint()

Ejemplos

Se han agregado ejemplos que muestran cómo usar la voz insertada.
Se ha agregado un ejemplo de conversión de voz en texto para MAUI

Consulte el repositorio de ejemplos del SDK de voz.

SDK de voz 1.24.2: versión de noviembre de 2022

Nuevas características

No hay características nuevas, solo una corrección del motor insertado para admitir nuevos archivos de modelo.

Corrección de errores

Todos los lenguajes de programación
- Se ha corregido un problema con el cifrado de modelos de reconocimiento de voz insertados.

SDK de voz 1.24.1: versión de noviembre de 2022

Nuevas características

Paquetes publicados para la versión preliminar de Embedded Speech. Consulte https://aka.ms/embedded-speech para obtener más información.

Corrección de errores

Todos los lenguajes de programación
- Se ha corregido el bloqueo de TTS incrustado cuando no se admite la fuente de voz
- Se ha corregido que stopSpeaking() no pudiera detener la reproducción en Linux (#1686)
SDK de JavaScript
- Se ha corregido la regresión en cómo el transcriptor de conversación transmitía el audio.
Java
- Se publicaron temporalmente archivos POM y Javadocs actualizados en Maven Central para permitir que la canalización de documentos actualice los documentos de referencia en línea.
Python
- Se ha corregido la regresión en la que speak_text(ssml) de Python devuelve void.

SDK de Voz 1.24.0: versión de octubre de 2022

Nuevas características

Todos los lenguajes de programación: AMR-WB (16 khz) se ha agregado a la lista admitida de formatos de salida de audio de texto a voz
Python: se ha agregado un paquete para Linux ARM64 para distribuciones de Linux compatibles.
C#/C++/Java/Python: se ha agregado compatibilidad con el streaming directo de ALAW y MULAW al servicio de voz (además de la secuencia PCM existente) mediante AudioStreamWaveFormat.
MAUI de C#: actualización del paquete NuGet para admitir destinos de Android para desarrolladores de .NET MAUI (Incidencia del cliente)
Mac: se ha agregado XCframework independiente para Mac, que no contiene ningún archivo binario de iOS. Esto ofrece una opción para los desarrolladores que solo necesitan archivos binarios de Mac mediante un paquete XCframework más pequeño.
Microsoft Audio Stack (MAS):
- Cuando se especifican ángulos de formación de haz, el sonido que se origina fuera del intervalo especificado se suprimirá mejor.
- Reducción aproximada del 70 % en el tamaño de libMicrosoft.CognitiveServices.Speech.extension.mas.so para Linux ARM32 y Linux ARM64.
Reconocimiento de la intención mediante coincidencia de patrones:
- Se ha agregado compatibilidad con ortografía para los idiomas fr, de, es, jp
- Se ha agregado compatibilidad con enteros pregenerados para el idioma es.

Correcciones de errores

iOS: corrección del error de síntesis de voz en iOS 16 causado por un error de descodificación de audio comprimido (Incidencia del cliente).
JavaScript:
- Corrección del token de autenticación que no funciona al obtener la lista de voz de síntesis de voz (Incidencia del cliente).
- Uso de la dirección URL de datos para la carga de trabajo (Incidencia del cliente).
- Creación de un worklet de procesador de audio solo cuando AudioWorklet se admita en el explorador (Incidencia del cliente). Esta fue una contribución comunitaria de William Wong. ¡Gracias William!
- Corrección de la devolución de llamada reconocida cuando la respuesta connectionMessage de LUIS está vacía (Incidencia del cliente).
- Establecimiento correcto del tiempo de espera de segmentación de voz.
Reconocimiento de la intención mediante coincidencia de patrones:
- Los caracteres que no son json dentro de modelos ahora se cargarán correctamente.
- Corrección del problema de bloqueo cuando se llamó a recognizeOnceAsync(text) durante el reconocimiento continuo.

SDK de Voz 1.23.0: versión de julio de 2022

Nuevas características

C#, C++, Java: se ha agregado compatibilidad para los idiomas zh-cn y zh-hk en Reconocimiento de la intención con coincidencia de patrones.
C#: se ha agregado compatibilidad con compilaciones de .NET Framework de AnyCPU.

Corrección de errores

Android: se ha corregido la vulnerabilidad CVE-2022-2068 de OpenSSL mediante la actualización de OpenSSL a 1.1.1q
Python: se ha corregido el bloqueo al usar PushAudioInputStream
iOS: se ha corregido el error "EXC_BAD_ACCESS: Se ha intentado desreferenciar un puntero nulo" como se notificó en iOS (problema de GitHub)

SDK de Voz 1.22.0: versión de junio de 2022

Nuevas características

Java: API IntentRecognitionResult para getEntities(), applyLanguageModels() y recognizeOnceAsync(text) se ha agregado para admitir el motor de "coincidencia de patrones simples".
Unity: se ha agregado compatibilidad con Mac M1 (Apple Silicon) para el paquete de Unity (incidencia de GitHub)
C#: Se ha agregado compatibilidad con x86_64 para Xamarin Android (incidencia de GitHub)
C#: Se ha retirado la versión mínima de .NET Framework actualizada a v4.6.2 para el paquete de C# del SDK, ya que v4.6.1 se ha retirado (vea Directiva de ciclo de vida de componentes de Microsoft .NET Framework)
Linux: se ha agregado compatibilidad con Debian 11 y Ubuntu 22.04 LTS. Para Ubuntu 22.04 LTS se necesita la instalación manual de libssl1.1 como un paquete binario desde aquí (por ejemplo, libssl1.1_1.1.1l-1ubuntu1.3_amd64.deb o posterior para x64), o la compilación desde código fuente.

Corrección de errores

UWP: la dependencia de OpenSSL se ha quitado de las bibliotecas de UWP y se ha reemplazado por las API websocket y HTTP de WinRT para satisfacer el cumplimiento de seguridad y una superficie binaria más pequeña.
Mac: se ha corregido el problema "No se ha podido encontrar el módulo MicrosoftCognitiveServicesSpeech" al usar proyectos de Swift destinados a la plataforma macOS
Windows, Mac: se ha corregido un problema específico de la plataforma por el que los orígenes de audio configurados mediante propiedades para transmitir a una velocidad en tiempo real a veces se retrasaban y, finalmente, superaban la capacidad

Ejemplos (GitHub)

C#: se han actualizado los ejemplos de .NET Framework para usar v4.6.2
Unity: se ha corregido el ejemplo de asistente virtual para Android y UWP
Unity: los ejemplos de Unity se ha actualizado para la versión de Unity 2020 LTS

SDK de Voz 1.21.0: versión de abril de 2022

Nuevas características

Java y JavaScript: se ha agregado compatibilidad con la identificación continua de idioma al usar el objeto SpeechRecognizer.
JavaScript: se han agregado la API de diagnóstico para habilitar el nivel de registro de consola y el registro de archivos (solo nodo) para ayudar a Microsoft a solucionar problemas notificados por el cliente.
Python: se ha agregado compatibilidad con la transcripción de conversaciones.
Go: se ha agregado compatibilidad con Speaker Recognition.
C++ y C#: se ha agregado compatibilidad con un grupo requerido de palabras en Intent Recognizer (coincidencia de patrones simple). Por ejemplo: "(set|start|begin) un temporizador", donde "set", "start" o "begin" deben estar presentes para que se reconozca la intención.
Todos los lenguajes de programación, síntesis de voz: se ha agregado la propiedad duration en los eventos de límite de palabras. Se ha agregado compatibilidad con el límite de puntuación y el límite de oración.
Objective-C/Swift/Java: se han agregado resultados de nivel de palabra en el objeto de resultado de evaluación de pronunciación (similar a C#). La aplicación ya no necesita analizar una cadena de resultado JSON para obtener información de nivel de palabra (problema de GitHub).
Plataforma iOS: se ha agregado compatibilidad experimental para la arquitectura ARMv7.

Corrección de errores

Plataforma iOS: se ha corregido para permitir la compilación para el destino "Cualquier dispositivo iOS", al usar CocoaPod (problema de GitHub)
Plataforma Android: la versión de OpenSSL se ha actualizado a la versión 1.1.1n para corregir la vulnerabilidad de seguridad CVE-2022-0778
JavaScript: se ha corregido un problema por el que el encabezado wav no se actualizaba con el tamaño de archivo (problema de GitHub)
JavaScript: se ha corregido el problema de desincronización del identificador de solicitud: escenarios de traducción importantes (problema de GitHub)
JavaScript: se ha corregido un problema al crear una instancia de SpeakerAudioDestination sin secuencia (problema de GitHub]
C++: se han corregido los encabezados de C++ para quitar una advertencia al compilar para C++17 o una versión más reciente.

Samples GitHub

Nuevos ejemplos de Java para reconocimiento de voz con identificación de idioma
Nuevos ejemplos de Python y Java para transcripción de conversaciones
Nuevo ejemplo de Go para Speaker Recognition
Nueva herramienta de C++ y C# para Windows que enumera todos los dispositivos de representación y captura de audio para buscar su identificador de dispositivo. El SDK de Voz necesita este identificador si planea capturar audio o representar audio en un dispositivo no predeterminado.

SDK de voz 1.20.0: versión de enero de 2022

Nuevas características

Objective-C, Swift y Python: se ha agregado compatibilidad con DialogServiceConnector, que se usa en escenarios de Asistente de voz.
Python: se ha agregado compatibilidad con Python 3.10. Se quitó la compatibilidad con Python 3.6, por el final del ciclo de vida de Python para la versión 3.6.
Unity: el SDK de voz ahora es compatible con las aplicaciones de Unity en Linux.
C++, C#: IntentRecognizer con coincidencia de patrones ahora se admite en C#. Además, los escenarios con entidades personalizadas, grupos opcionales y roles de entidad ahora se admiten en C++ y C#.
C++, C#: registro de seguimiento de diagnóstico mejorado mediante las nuevas clases FileLogger, MemoryLogger y EventLogger. Los registros del SDK son una herramienta importante para el diagnóstico por parte de Microsoft de los problemas notificados por los clientes. Estas nuevas clases facilitan a los clientes la integración de los registros del SDK de voz en su propio sistema de registro.
Todos los lenguajes de programación: PronunciationAssessmentConfig ahora tiene propiedades para establecer el alfabeto de fonemas deseado (IPA o SAPI) y N-Best Phoneme Count (lo que evita la necesidad de crear un archivo JSON de configuración según la incidencia 1284 de GitHub). Además, ahora se admite la salida de nivel de sílaba.
Android, iOS y macOS (todos los lenguajes de programación): GStreamer ya no es necesario para admitir redes de ancho de banda limitado. SpeechSynthesizer ahora usa las funcionalidades de descodificación de audio del sistema operativo para descodificar el audio comprimido transmitido desde el servicio de texto a voz.
Todos los lenguajes de programación: SpeechSynthesizer ahora admite tres nuevos formatos de salida sin procesar (sin contenedor), que se usan ampliamente en escenarios de streaming en vivo.
JavaScript: se ha agregado la API getVoicesAsync() a SpeechSynthesizer para recuperar la lista de voces de síntesis admitidas (incidencia 1350 de GitHub)
JavaScript: se ha agregado la API getWaveFormat() a AudioStreamFormat para admitir formatos de onda que no son PCM (incidencia 452 de GitHub)
JavaScript: se han agregado API de getter/setter y mute()/unmute() a SpeakerAudioDestination (incidencia 463 de GitHub)

Corrección de errores

C++, C#, Java, JavaScript, Objective-C y Swift: corrección para quitar un retraso de 10 segundos al detener un reconocedor de voz que usa pushAudioInputStream. Esto es para el caso en el que no se inserta ningún audio nuevo después de llamar a StopContinuousRecognition (incidencias 1318, 331 de GitHub)
Unity en Android y UWP: se han corregido los metadatos de Unity para UWP, Android ARM64 y el subsistema de Windows para Android (WSA) ARM64 (incidencia 1360 de GitHub)
iOS: ahora se ha corregido la compilación de la aplicación del SDK de voz en cualquier dispositivo iOS al usar CocoaPods (incidencia 1320 de GitHub)
iOS: cuando SpeechSynthesizer está configurado para transmitir audio directamente a un hablante, la reproducción se detiene al principio en condiciones poco frecuentes. Este problema se ha corregido.
JavaScript: use la reserva del procesador de scripts para la entrada del micrófono si no se encuentra ningún worklet de audio (incidencia 455 de GitHub)
JavaScript: se ha agregado el protocolo al agente para mitigar los errores encontrados con la integración de Sentry (incidencia 465 de GitHub)

Samples GitHub

Ejemplos de C++, C#, Python y Java que muestran cómo obtener resultados detallados del reconocimiento. Los detalles incluyen resultados de reconocimiento alternativos, puntuación de confianza, forma léxica, formulario normalizado, formulario normalizado enmascarado, con temporización de nivel de palabra para cada uno.
Se ha agregado un ejemplo de iOS mediante AVFoundation como origen de audio externo.
Se ha agregado un ejemplo de Java para mostrar cómo obtener el formato SRT (texto SubRip) mediante el evento WordBoundary.
Ejemplos de Android para Pronunciation Assessment.
C++, C# que muestran el uso de las nuevas clases de registro de diagnóstico.

SDK de Voz 1.19.0: versión de noviembre de 2021

Aspectos destacados

El servicio Speaker Recognition ya está disponible con carácter general (GA). Las API del SDK de Voz están disponibles en C++, C#, Java y JavaScript. Con Speaker Recognition puede verificar de forma precisa a los hablantes e identificarlos por sus características de voz únicas. Para más información sobre este tema, consulte la documentación.
Se ha eliminado la compatibilidad con Ubuntu 16.04 junto con Azure DevOps y GitHub. Ubuntu 16.04 llegó al final de su ciclo de vida en abril de 2021. Migre los flujos de trabajo de Ubuntu 16.04 a Ubuntu 18.04 o posterior.
La vinculación de OpenSSL en archivos binarios de Linux ha cambiado a dinámica. El tamaño de archivo binario de Linux se ha reducido en aproximadamente un 50 %.
Se ha agregado compatibilidad con Mac M1 basado en ARM de silicio.

Nuevas características

C++/C#/Java: se han agregado nuevas API para habilitar la compatibilidad del procesamiento de audio con la entrada de voz con Microsoft Audio Stack. Se documenta aquí.
C++ : nuevas API para el reconocimiento de la intención a fin de facilitar una coincidencia de patrones más avanzada. Esto incluye las entidades List y Prebuilt Integer, así como la compatibilidad con la agrupación de intenciones y entidades como modelos (la documentación, las actualizaciones y los ejemplos están en desarrollo y se van a publicar en un futuro próximo).
Mac: compatibilidad con Silicon basado en ARM64 (M1) para paquetes CocoaPod, Python, Java y NuGet relacionados con el problema 1244 de GitHub.
iOS/Mac: los archivos binarios de iOS y macOS ahora se empaquetan en paquetes xcframework relacionados con el problema 919 de GitHub.
iOS/Mac: compatibilidad con Mac Catalyst relacionado con el problema 1171 de GitHub.
Linux: nuevo paquete tar agregado para CentOS7 Acerca del SDK de Voz. El paquete .tar de Linux ahora contiene bibliotecas específicas para RHEL/CentOS 7 en lib/centos7-x64. Las bibliotecas del SDK de Voz de lib/x64 todavía son aplicables a todas las demás distribuciones x64 de Linux compatibles (incluido RHEL/CentOS 8) y no funcionan en RHEL/CentOS 7.
JavaScript: API de VoiceProfile y SpeakerRecognizer ahora admiten async/await.
JavaScript: se ha agregado compatibilidad con las regiones de Azure del gobierno de los Estados Unidos.
Windows: se ha agregado compatibilidad con la reproducción en Plataforma universal de Windows (UWP).

Corrección de errores

Android: actualización de seguridad de OpenSSL (actualizado a la versión 1.1.1l) para paquetes Android.
Python: se ha resuelto un error que se generaba al seleccionar un dispositivo de altavoz en Python.
Core: vuelve a conectarse automáticamente cuando se produce un error en un intento de conexión.
iOS: compresión de audio deshabilitada en paquetes iOS debido a problemas de compilación de bitcode e inestabilidad al usar GStreamer. Los detalles están disponibles en el problema 1209 de GitHub.

Samples GitHub

Mac/iOS: se han actualizado ejemplos e inicios rápidos para usar un paquete xcframework.
.NET: ejemplos actualizados para usar la versión 3.1 de .NET Core.
JavaScript: se ha agregado un ejemplo de asistentes para voz.

SDK de Voz 1.18.0: versión de julio de 2021

Nota: Empiece a usar el SDK de Voz aquí.

Resumen de los aspectos destacados

Ubuntu 16.04 alcanzó el final del ciclo de vida en abril de 2021. Con Azure DevOps y GitHub, se quitará la compatibilidad con la versión 16.04 en septiembre de 2021. Migre los flujos de trabajo de ubuntu-16.04 a ubuntu-18.04 o posterior antes de ese momento.

Nuevas características

C++ : la coincidencia de patrones de lenguaje simple con el reconocedor de intenciones ahora facilita la implementación de escenarios de reconocimiento de intenciones simples.
C++/C#/Java: se ha agregado una nueva API GetActivationPhrasesAsync() a la clase VoiceProfileClient para recibir una lista de frases de activación válidas en la fase de inscripción de Speaker Recognition para escenarios de reconocimiento independientes.
- Importante: la característica Speaker Recognition está en versión preliminar. Todos los perfiles de voz creados en la versión preliminar se interrumpirán 90 días después de que la característica Speaker Recognition se haya movido de la versión preliminar a disponibilidad general. En ese momento, los perfiles de voz de la versión preliminar dejarán de funcionar.
Python: se ha agregado compatibilidad con la identificación continua del lenguaje (LID) en los objetos SpeechRecognizer y TranslationRecognizer existentes.
Python: se ha agregado un nuevo objeto de Python llamado SourceLanguageRecognizer para realizar una operación de LID única o continua (sin reconocimiento ni traducción).
JavaScript: se ha agregado la API getActivationPhrasesAsync a la clase VoiceProfileClient para recibir una lista de frases de activación válidas en la fase de inscripción de Speaker Recognition para escenarios de reconocimiento independientes.
JavaScript: la API enrollProfileAsync de VoiceProfileClient ahora se puede esperar asincrónicamente. Consulte este código de identificación independiente para ver un ejemplo de uso.

Mejoras

Java: se ha agregado compatibilidad con AutoCloseable a muchos objetos de Java. Ahora se admite el modelo try-with-resources para liberar recursos. Consulte este ejemplo que usa try-with-resources. Consulte también el tutorial de la documentación de Java de Oracle sobre la instrucción try-with-resources para obtener información sobre este patrón.
Se ha reducido significativamente la superficie de disco para muchas plataformas y arquitecturas. Ejemplos del archivo binario Microsoft.CognitiveServices.Speech.core: en Linux x64 es 475 KB más pequeño (reducción del 8,0 %), en Windows UWP ARM64 es 464 KB más pequeño (reducción del 11,5 %), en Windows x86 es 343 KB más pequeño (reducción del 17,5 %) y en Windows x64 es 451 KB más pequeño (reducción del 19,4 %).

Corrección de errores

Java: se ha corregido un error de síntesis cuando el texto de síntesis contiene caracteres suplentes. Consulte los detalles aquí.
JavaScript: el procesamiento de audio del micrófono del explorador ahora usa AudioWorkletNode en lugar de ScriptProcessorNode (en desuso). Consulte los detalles aquí.
JavaScript: se mantienen correctamente las conversaciones activas durante escenarios de traducción de conversación de larga duración. Consulte los detalles aquí.
JavaScript: se ha corregido un problema con la reconexión del reconocedor a una secuencia multimedia en el reconocimiento continuo. Consulte los detalles aquí.
JavaScript: se ha corregido un problema con la reconexión del reconocedor a un elemento pushStream en el reconocimiento continuo. Consulte los detalles aquí.
JavaScript: se ha corregido el cálculo de desplazamiento de nivel de palabra en los resultados detallados del reconocimiento. Consulte los detalles aquí.

Ejemplos

Puede encontrar ejemplos de inicios rápidos de Java actualizados aquí.
Ejemplos de Speaker Recognition de JavaScript actualizados para mostrar el nuevo uso de enrollProfileAsync(). Consulte los ejemplos aquí.

SDK de voz 1.17.0: versión de mayo de 2021

Nota

Empiece a usar el SDK de voz aquí.

Resumen de los aspectos destacados

Superficie más pequeña: seguimos disminuyendo la superficie de memoria y disco del SDK de voz y sus componentes.
Una nueva API de identificación de idioma independiente permite reconocer qué idioma se habla.
Desarrolle aplicaciones de realidad mixta y juegos habilitadas para voz con Unity en macOS.
Ahora puede usar la característica de Texto a voz además del reconocimiento de voz con el lenguaje de programación Go.
Varias correcciones de errores para solucionar los problemas que nuestros valiosos clientes han marcado en GitHub. Gracias. No deje de enviar sus comentarios.

Nuevas características

C++/C#: nueva detección de idioma continua y al inicio gracias a la API SourceLanguageRecognizer. Si solo quiere detectar los idiomas hablados en el contenido del audio, esta es la API para hacerlo. Consulte los detalles para C++ y C#.
C++/C#: el reconocimiento de voz y el reconocimiento de traducción ahora admiten la identificación de idioma continua y al inicio para que pueda determinar mediante programación qué idiomas se hablan antes de que se transcriban o traduzcan. Consulte la documentación aquí sobre el reconocimiento de voz y aquí sobre la traducción de voz.
C#: se ha agregado compatibilidad con Unity para macOS (x64). Esta funcionalidad hace posible los casos de uso de reconocimiento de voz y síntesis de voz en realidad mixta y juegos.
Go: se ha agregado compatibilidad con la síntesis de voz/texto a voz al lenguaje de programación Go para que la síntesis de voz esté disponible incluso en más casos de uso. Consulte nuestro inicio rápido o nuestra documentación de referencia.
C++/C#/Java/Python/Objective-C/Go: el sintetizador de voz ahora admite el objeto connection. Este objeto ayuda a administrar y supervisar la conexión al servicio Voz y es especialmente útil para conectarse previamente a fin de reducir la latencia. Consulte la documentación aquí.
C++/C#/Java/Python/Objective-C/Go: ahora se expone la latencia y el tiempo en ejecución en SpeechSynthesisResult para ayudarle a supervisar y diagnosticar los problemas de latencia de la síntesis de voz. Consulte los detalles para C++, C#, Java, Python, Objective-C y Go.
C++/C#/Java/Python/Objective-C: Texto a voz ahora usa voces neuronales de forma predeterminada si no especifica la voz que desea utilizar. Esto proporciona una salida de mayor fidelidad de forma predeterminada, pero también aumenta el precio predeterminado. Puede especificar cualquiera de nuestras más de 70 voces estándar o más de 130 voces neuronales para cambiar el valor predeterminado.
C++/C#/Java/Python/Objective-C/Go: hemos agregado una propiedad Gender a la información de síntesis de voz para facilitar la selección de voces en función del sexo. Así se soluciona el problema n.º 1055 de GitHub.
C++, C#, Java, JavaScript: ahora se admiten retrieveEnrollmentResultAsync, getAuthorizationPhrasesAsync y getAllProfilesAsync() en Speaker Recognition para facilitar la administración de usuarios de todos los perfiles de voz de una cuenta dada. Consulte la documentación de C++, C#, Java, JavaScript. Así se soluciona el problema n.º 338 de GitHub.
JavaScript: se han agregado reintentos para errores de conexión que harán que las aplicaciones de voz basadas en JavaScript sean más sólidas.

Mejoras

Los archivos binarios del SDK de voz de Linux y Android se han actualizado para usar la versión más reciente de OpenSSL (1.1.1k).
Mejoras en el tamaño del código:
- Language Understanding ahora se divide en una biblioteca "lu" independiente.
- El tamaño del archivo binario principal de Windows x64 disminuyó en un 14,4 %.
- El tamaño de archivo binario del núcleo ARM64 de Android disminuyó en un 13,7 %.
- El tamaño de otros componentes también ha disminuido.

Corrección de errores

Todos: se ha corregido el problema n.º 842 de GitHub para ServiceTimeout. Ahora puede transcribir archivos de audio largos mediante el SDK de voz sin que la conexión al servicio termine con este error. Sin embargo, todavía se recomienda usar la transcripción por lotes para archivos largos.
C# : se ha corregido el problema n.º 947 de GitHub donde ninguna entrada de voz podía dejar la aplicación en mal estado.
Java: se ha corregido el problema n.º 997 de GitHub donde el SDK de voz para Java 1.16 se bloqueaba al usar DialogServiceConnector sin una conexión de red o una clave de suscripción no válida.
Se ha corregido un bloqueo al detener repentinamente el reconocimiento de voz (por ejemplo, mediante CTRL+C en la aplicación de consola).
Java: se ha agregado una corrección para eliminar archivos temporales en Windows cuando se usa el SDK de voz para Java.
Java: se ha corregido el problema n.º994 de GitHub donde al llamar a DialogServiceConnector.stopListeningAsync podía producirse un error.
Java: se ha corregido un problema del cliente en el inicio rápido del asistente virtual.
JavaScript: se ha corregido el problema n.º 366 de GitHub donde ConversationTranslator producía el error "this.cancelSpeech no es una función".
JavaScript: se ha corregido el problema n.º 298 de GitHub donde el ejemplo "Get result as an in-memory stream" (Obtener resultado como una secuencia en memoria) reproducido sonaba muy alto.
JavaScript: se ha corregido el problema n.º 350 de GitHub donde al llamar a AudioConfig podía producirse el error "ReferenceError: MediaStream no está definido".
JavaScript: se ha corregido una advertencia UnhandledPromiseRejection en Node.js en sesiones de larga duración.

Ejemplos

Se ha actualizado la documentación de ejemplos de Unity para macOS aquí.
Ahora hay un ejemplo de React Native para el servicio de reconocimiento de Voz de Azure AI disponible aquí.

SDK de Voz 1.16.0: versión marzo de 2021

Nota

El SDK de voz en Windows depende de Microsoft Visual C++ Redistributable compartido para Visual Studio 2015, 2017 y 2019. Descárguela aquí.

Nuevas características

C++/C#/Java/Python: se ha pasado a la versión más reciente de GStreamer (1.18.3) para agregar compatibilidad con la transcripción de cualquier formato multimedia en Windows, Linux y Android. Consulte la documentación aquí.
C++/C#/Java/Objective-C/Python: se ha agregado compatibilidad con la descodificación de TTS/audio sintetizado comprimidos en el SDK. Si establece el formato de audio de salida en PCM y GStreamer está disponible en el sistema, el SDK solicitará automáticamente el audio comprimido del servicio para ahorrar ancho de banda y descodificar el audio en el cliente. Para deshabilitar esta función, puede configurar SpeechServiceConnection_SynthEnableCompressedAudioTransmission a false. Detalles de C++, C#, Java, Objective-C, Python.
JavaScript: los usuarios de Node.js ya pueden usar la AudioConfig.fromWavFileInput API. Esto soluciona el problema de GitHub n.º 252.
C++/C#/Java/Objective-C/Python: se ha agregado el método GetVoicesAsync() para que TTS devuelva todas las voces de síntesis disponibles. Detalles de C++, C#, Java, Objective-C, Python.
C++/C#Java/JavaScript/Objective-C/Python: se ha agregado un evento VisemeReceived para la síntesis de voz y TTS para devolver la animación sincrónica de visema. Consulte la documentación aquí.
C++/C#/Java/JavaScript/Objective-C/Python: evento BookmarkReached agregado para TTS. Puede establecer marcadores en el SSML de entrada y obtener los desplazamientos de audio de cada marcador. Consulte la documentación aquí.
Java: se ha agregado compatibilidad con las API de Speaker Recognition. Consulte los detalles aquí.
C++/C#/Java/JavaScript/Objective-C/Python: se han agregado dos nuevos formatos de audio de salida con el contenedor WebM para TTS (Webm16Khz16BitMonoOpus y Webm24Khz16BitMonoOpus). Se trata de formatos mejores para el streaming de audio con el códec Opus. Detalles de C++, C#, Java, JavaScript, Objective-C, Python.
C++/C#/Java: se ha agregado compatibilidad con la recuperación del perfil de voz para el escenario de Speaker Recognition. Detalles de C++, C# y Java.
C++/C#/Java/Objective-C/Python: se ha agregado compatibilidad con una biblioteca compartida independiente para el micrófono de audio y el control de altavoces, Esto permite al desarrollador usar el SDK en entornos que no tienen dependencias de biblioteca de audio necesarias.
Objective-C/Swift: se ha agregado compatibilidad con el marco de módulos con encabezado umbrella. Esto permite al desarrollador importar el SDK de voz como un módulo en las aplicaciones de Objective-C/Swift de iOS/Mac. Esto soluciona el problema de GitHub n.º 452.
Python: se ha agregado compatibilidad con Python 3.9 y la compatibilidad anulada con Python 3.5 por final de ciclo de vida de Python para 3.5.

Problemas conocidos

C++/C#/Java:DialogServiceConnector no se puede utilizar CustomCommandsConfig para tener acceso a una aplicación de comandos personalizados y, en su lugar, se producirá un error de conexión. Esto puede solucionarse agregando manualmente el id. de la aplicación a la solicitud con config.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter). El comportamiento esperado de CustomCommandsConfig se restaurará en la próxima versión.

Mejoras

Como parte de nuestro esfuerzo para reducir el uso de la memoria y la superficie de memoria de disco del SDK de voz, los archivos binarios de Android ahora son entre un 3 % y un 5 % más pequeños.
Además, se han mejorado la precisión y la legibilidad. Consulte también las secciones de nuestra documentación de referencia de C# aquí.

Corrección de errores

JavaScript: los encabezados de archivos WAV grandes ahora se analizan correctamente (aumenta el sector del encabezado a 512 bytes). Esto soluciona el problema de GitHub n.º 962.
JavaScript: problema corregido de temporización del micrófono si la secuencia de micro finaliza antes de detener el reconocimiento, solucionar un problema con el reconocimiento de voz no funciona en Firefox.
JavaScript: ahora se controla correctamente la promesa de inicialización cuando el explorador fuerza el micrófono antes de que se complete la activación.
JavaScript: se ha reemplazado la dependencia de la dirección URL con el análisis de direcciones URL. Esto soluciona el problema de GitHub n.º 264.
Android: las devoluciones de llamada fijas no funcionan cuando minifyEnabled se establece en true.
C++/C#/Java/Objective-C/Python: se TCP_NODELAY establecerá correctamente en la E/S de socket subyacente para TTS a fin de reducir la latencia.
C++/C#Java/Python/Objective-C/Go: se corrigió un bloqueo ocasional cuando el reconocedor se destruyó justo después de iniciar un reconocimiento.
C++/C#/Java: se ha corregido un bloqueo ocasional en la destrucción del reconocedor del hablante.

Ejemplos

JavaScript: las muestras del explorador ya no requieren la descarga de archivos de biblioteca de JavaScript independiente.

SDK de Voz 1.15.0: Versión de enero de 2021

Nota

El SDK de voz en Windows depende de Microsoft Visual C++ Redistributable compartido para Visual Studio 2015, 2017 y 2019. Descárguela aquí.

Resumen de los aspectos destacados

Menor superficie de memoria y disco para que el SDK sea más eficaz.
Formatos de salida con una mayor fidelidad disponibles para la versión preliminar privada de la voz neuronal personalizada.
Ahora el Reconocedor de intenciones puede devolverse más que la intención superior, lo que le ofrece la posibilidad de realizar una evaluación independiente de la intención del cliente.
Ahora es más fácil configurar el asistente para voz o los bots, y puede hacer que deje de escuchar inmediatamente, y ejercer un mayor control sobre cómo responde a los errores.
Se ha mejorado el rendimiento del dispositivo haciendo que la compresión sea opcional.
Use el SDK de Voz en ARM/ARM64 de Windows.
Se ha mejorado la depuración de nivel inferior.
La característica de evaluación de la pronunciación está ahora más disponible.
Varias correcciones de errores para solucionar los problemas que nuestros valiosos clientes han marcado en GitHub. Gracias. No deje de enviar sus comentarios.

Mejoras

El SDK de Voz es ahora más eficaz y ligero. Se ha iniciado un esfuerzo en versiones múltiples para reducir el uso de memoria y la superficie del disco del SDK de voz. Como primer paso, se han reducido considerablemente los tamaños de archivo en las bibliotecas compartidas de la mayoría de las plataformas. En comparación con la versión 1.14:
- Las bibliotecas de Windows compatibles con UWP de 64 bits son aproximadamente un 30 % más pequeñas.
- En las bibliotecas de Windows de 32 bits todavía no se ha mejorado el tamaño.
- Las bibliotecas de Linux son entre un 20-25 % más pequeñas.
- Las bibliotecas de Android son entre un 3-5 % más pequeñas.

Nuevas características

Todos: nuevos formatos de salida de 48 KHz disponibles para la versión preliminar privada de voz neuronal personalizada a través de la API de síntesis de voz de TTS: Audio48Khz192KBitRateMonoMp3, audio-48khz-192kbitrate-mono-mp3, Audio48Khz96KBitRateMonoMp3, audio-48khz-96kbitrate-mono-mp3, Raw48Khz16BitMonoPcm, raw-48khz-16bit-mono-pcm, Riff48Khz16BitMonoPcm, riff-48khz-16bit-mono-pcm.
Todos: Voz personalizada también es más fácil de usar. Se ha agregado compatibilidad para configurar Voz personalizada mediante EndpointId (EndpointId, C#, Java, JavaScript, Objective-C, Python). Antes de este cambio, los usuarios de Voz personalizada debían establecer la dirección URL del punto de conexión con el método FromEndpoint. Ahora los clientes pueden usar el método FromSubscription como si fueran voces precompiladas. Después, pueden especificar el id. de implementación mediante el establecimiento de EndpointId. Esto simplifica la configuración de voces personalizadas.
C++/C#/Java/Objective-C/Python: consiga más intenciones que la principal con IntentRecognizer. Ahora admite la configuración del resultado JSON que contiene todas las intenciones y no solo la principal con el método LanguageUnderstandingModel FromEndpoint mediante el parámetro de URI verbose=true. Esto soluciona el problema nº 880 de GitHub. Vea aquí la documentación actualizada.
C++/C#/Java: haga que el asistente para voz o el bot dejen de escuchar de forma inmediata. DialogServiceConnector (C++, C#, Java) ahora tiene un método StopListeningAsync() para acompañar a ListenOnceAsync(). Esto detiene de forma inmediata la captura de audio y espera correctamente un resultado, lo que lo convierte en perfecto para su uso con escenarios de pulsación de botones "Detener ahora".
C++/C#/Java/JavaScript: Haga que el asistente para voz o el bot reaccione mejor a los errores del sistema subyacentes. DialogServiceConnector (C++, C#, Java, JavaScript) ahora tiene un nuevo controlador de eventos TurnStatusReceived. Estos eventos opcionales se corresponden con todas las resoluciones ITurnContext del bot y notificarán los errores de ejecución cuando se produzcan, por ejemplo, como resultado de una excepción no controlada, un tiempo de espera o una caída de la red entre Direct Line Speech y el bot. TurnStatusReceived facilita la respuesta a las condiciones de error. Por ejemplo, si un bot tarda demasiado en una consulta de la base de datos de back-end (por ejemplo, al buscar un producto), TurnStatusReceived permite que el cliente sepa que tiene que volver a preguntar con "Lo sentimos, no lo he entendido, vuelva a intentarlo" o algo similar.
C++/C# : Use el SDK de Voz en más plataformas. Ahora el paquete NuGet del SDK de Voz es compatible con los archivos binarios nativos de escritorio ARM/ARM64 de Windows (UWP ya lo era antes), con el fin de que el SDK de Voz sea más útil en más tipos de máquinas.
Java: DialogServiceConnector ahora tiene un método setSpeechActivityTemplate() que antes se había excluido accidentalmente del lenguaje. Esto equivale a establecer la propiedad Conversation_Speech_Activity_Template y solicitará que todas las actividades futuras de Bot Framework originadas por el servicio Direct Line Speech combinen el contenido proporcionado en sus cargas de JSON.
Java: se ha mejorado la depuración de bajo nivel. Ahora la clase Connection tiene un evento MessageReceived, similar a otros lenguajes de programación (C++, C#). Este evento proporciona acceso de bajo nivel a los datos entrantes del servicio y puede ser útil para tareas de diagnóstico y depuración.
JavaScript: configuración más sencilla para los asistentes de voz y bots mediante BotFrameworkConfig, que ahora tiene los métodos de fábrica fromHost() y fromEndpoint() que simplifican el uso de ubicaciones de servicio personalizadas frente a la configuración manual de propiedades. También se ha estandarizado la especificación opcional de botId para usar un bot no predeterminado en los generadores de configuración.
JavaScript: Se ha mejorado el rendimiento del dispositivo mediante la propiedad de control de cadena agregada para la compresión de WebSocket. Por motivos de rendimiento, se ha deshabilitado la compresión de WebSocket de forma predeterminada. Se puede volver a habilitar en el caso de escenarios de ancho de banda bajo. Más detalles aquí. Esto soluciona el problema de GitHub n.º 242.
JavaScript: Se ha agregado compatibilidad con la evaluación de la pronunciación para permitir la evaluación de la pronunciación de voz. Vea este inicio rápido.

Corrección de errores

Todos (excepto JavaScript): Se ha corregido una regresión en la versión 1.14, en la que el reconocedor asignaba demasiada memoria.
C++: se ha corregido un problema de recolección de elementos no utilizados con DialogServiceConnector, lo que soluciona el problema de GitHub n.º 794.
C# : Se ha corregido un problema con el cierre de subprocesos que provocaba el bloqueo de los objetos durante aproximadamente un segundo al eliminarlos.
C++/C#/Java: se ha corregido una excepción que impide que una aplicación establezca el token de autorización de voz o la plantilla de actividad más de una vez en un objeto DialogServiceConnector.
C++/C#/Java: Se ha corregido un bloqueo del reconocedor debido a una condición de carrera en el desmontaje.
JavaScript: DialogServiceConnector no respetaba anteriormente el parámetro botId opcional especificado en las fábricas de BotFrameworkConfig. Por esto era necesario establecer el parámetro de cadena de consulta botId manualmente para usar un bot no predeterminado. El error se ha corregido y se respetarán y usarán los valores botId proporcionados para los generadores de BotFrameworkConfig, incluidas las nuevas adiciones de fromHost() y fromEndpoint(). Esto también se aplica al parámetro applicationId para CustomCommandsConfig.
JavaScript: Se ha corregido la incidencia 881 de GitHub, lo que permite volver a usar el objeto de reconocedor.
JavaScript: se ha corregido un problema que hacía que el SKD enviara speech.config varias veces en una sesión de TTS, lo que desperdiciaba ancho de banda.
JavaScript: se ha simplificado el control de errores en la autorización del micrófono, lo que permite que se muestre un mensaje más descriptivo cuando el usuario no ha permitido la entrada del micrófono en el explorador.
JavaScript: se ha corregido el problema de GitHub n.º 249 en el que los errores de tipo en ConversationTranslator y ConversationTranscriber generaban un error de compilación para los usuarios de TypeScript.
Objective-C: Se ha corregido un problema por el que se producía un error en la compilación de GStreamer para iOS en Xcode 11.4, lo que soluciona el problema de GitHub n.º 911.
Python: se ha corregido el problema 870 de GitHub y se quita "DeprecationWarning: el módulo imp ha quedado en desuso en favor de importlib".

Ejemplos

Ahora en el ejemplo de archivo para el explorador de JavaScript se usan archivos para el reconocimiento de voz. Esto soluciona el problema de GitHub n.º 884.

SDK de voz 1.14.0: Versión de octubre de 2020

Nota

El SDK de voz en Windows depende de Microsoft Visual C++ Redistributable compartido para Visual Studio 2015, 2017 y 2019. Descárguela aquí.

Nuevas características

Linux: se agregó compatibilidad con Debian 10 y Ubuntu 20.04 LTS.
Python/Objective-C: se agregó compatibilidad para la API de KeywordRecognizer. La documentación estará aquí.
C++/Java/C#: se agregó compatibilidad para establecer cualquier HttpHeaderpar clave-valor a través de ServicePropertyChannel::HttpHeader.
JavaScript: se agregó compatibilidad con la API de ConversationTranscriber. Consulte la documentación aquí.
C++/C#: se agregó el nuevo método AudioDataStream FromWavFileInput (para leer archivos .WAV) aquí (C++) y aquí (C#).
C++/C#/Java/Python/Objective-C/Swift: se agregó un método stopSpeakingAsync() para detener la síntesis de texto a voz. Lea la documentación de referencia aquí (C++), aquí (C#), aquí (Java), aquí (Python) y aquí (Objective-C/Swift).
C#, C++, Java: se agregó la función FromDialogServiceConnector() a la clase Connection, que se puede utilizar para supervisar los eventos de conexión y desconexión de DialogServiceConnector. Lea la documentación de referencia aquí (C#), aquí (C++) y aquí (Java).
C++/C#/Java/Python/Objective-C/Swift: se ha agregado compatibilidad con la evaluación de la pronunciación, que evalúa la pronunciación de la voz y ofrece a los oradores información sobre la precisión y la fluidez del audio hablado. Consulte la documentación aquí.

Cambio importante

JavaScript: PullAudioOutputStream.read() tiene un cambio del tipo de retorno de una promesa interna a una promesa de JavaScript nativa.

Correcciones de errores

En todos: se corrigió la regresión de 1.13 en SetServiceProperty, donde se omitían los valores con determinados caracteres especiales.
C# : se corrigieron ejemplos de la consola de Windows en Visual Studio 2019 en los que no se podían encontrar los archivos DLL nativos.
C#: se corrigió el bloqueo con la administración de memoria cuando se usaba la secuencia como entrada KeywordRecognizer.
ObjectiveC/Swift: se corrigió el bloqueo con la administración de memoria cuando se usaba la secuencia como entrada del reconocedor.
Windows: se corrigió el problema de coexistencia con BT HFP/A2DP en UWP.
JavaScript: se corrigió la asignación de identificadores de sesión para mejorar el registro y la ayuda en las correlaciones internas de depuración y servicio.
JavaScript: se agregó una corrección para que DialogServiceConnector deshabilite las llamadas a ListenOnce después de realizar la primera llamada.
JavaScript: se corrigió un problema que hacía que la salida de resultados solo fuera "simple".
JavaScript: se corrigió un problema de reconocimiento continuo en Safari en macOS.
JavaScript: mitigación de la carga de CPU en escenarios de procesamiento elevado de solicitudes.
JavaScript: se permite el acceso a los detalles del resultado de la inscripción de perfil de voz.
JavaScript: se agregó una corrección para el reconocimiento continuo en IntentRecognizer.
C++/C#/Java/Python/Swift/ObjectiveC: se corrigió una dirección URL incorrecta para australiaeast y brazilsouth en IntentRecognizer.
C++/C#: se agregó VoiceProfileType como argumento al crear un objeto VoiceProfile.
C++/C#/Java/Python/Swift/ObjectiveC: se corrigió el argumento potencial SPX_INVALID_ARG al intentar leer AudioDataStream desde una posición determinada.
IOS: se corrigió un bloqueo con el reconocimiento de voz en Unity.

Ejemplos

ObjectiveC: se agregó un ejemplo para el reconocimiento de palabras clave aquí.
C#/JavaScript: se agregó un inicio rápido para la transcripción de conversaciones aquí (C#) y aquí (JavaScript).
C++/C#/Java/Python/Swift/ObjectiveC: se ha agregado un ejemplo de evaluación de la pronunciación aquí
Xamarin: se actualizó el inicio rápido a la última plantilla de Visual Studio aquí.

Problema conocido

El certificado DigiCert Global Root G2 no se admite de forma predeterminada en HoloLens 2 y Android 4.4 (KitKat) y debe agregarse al sistema para que el SDK de voz sea funcional. El certificado se agregará a las imágenes del sistema operativo de HoloLens 2 en un futuro próximo. Los clientes de Android 4.4 deben agregar el certificado actualizado al sistema.

Pruebas reducidas ante la COVID-19

Debido al trabajo de forma remota en las últimas semanas, no pudimos realizar tantas pruebas manuales de comprobación de como normalmente hacemos. No hemos hecho ningún cambio que creemos que pueda haber generado algún error y se han superado todas las pruebas automatizadas. En el improbable caso de que falte algo, háganoslo saber en GitHub.
Y sigan sanos.

SDK de voz 1.13.0: versión de julio de 2020

Nota

El SDK de voz en Windows depende de Microsoft Visual C++ Redistributable compartido para Visual Studio 2015, 2017 y 2019. Descárguelo e instálelo aquí.

Nuevas características

C# : se ha agregado compatibilidad para la transcripción de conversaciones asincrónicas. Consulte la documentación aquí.
JavaScript: se ha agregado compatibilidad con Speaker Recognition tanto para el explorador como para Node.js.
JavaScript: se ha agregado compatibilidad para la identificación del idioma. Consulte la documentación aquí.
Objective-C: se ha agregado compatibilidad para la conversación entre varios dispositivos y la transcripción de conversaciones.
Python: se ha agregado compatibilidad con audio comprimido para Python en Windows y Linux. Consulte la documentación aquí.

Corrección de errores

Todos: se ha corregido un problema que provocaba que KeywordRecognizer no hiciera avanzar los flujos después de un reconocimiento.
Todos: se ha corregido un problema que provocaba que el flujo obtenido de KeywordRecognitionResult no incluyera la palabra clave.
Todos: se ha corregido un problema por el que SendMessageAsync no enviaba realmente el mensaje a través de la conexión después de que hubiese terminado la espera de los usuarios.
Todos: se ha corregido un bloqueo en las API de Speaker Recognition cuando los usuarios llamaban al método VoiceProfileClient::SpeakerRecEnrollProfileAsync varias veces y no esperaban a que las llamadas finalizaran.
Todos: se ha corregido la habilitación del registro de archivos en las clases VoiceProfileClient y SpeakerRecognizer.
JavaScript: se ha corregido un problema con la limitación al minimizar el explorador.
JavaScript: se ha corregido un problema con la fuga de memoria en los flujos.
JavaScript: se ha agregado almacenamiento en caché para las respuestas de OCSP de NodeJS.
Java: se ha corregido un problema que provocaba que los campos BigInteger devolvieran siempre 0.
iOS: Se ha corregido un problema con la publicación de aplicaciones basadas en el SDK de Voz en iOS App Store.

Ejemplos

C++ : se ha agregado código de ejemplo para Speaker Recognition aquí.

Pruebas reducidas ante la COVID-19

SDK de voz 1.12.1: Versión de junio de 2020

Nuevas características

C#, y C++ : Versión preliminar de Speaker Recognition: Esta característica permite la identificación del hablante (¿quién habla?) y la verificación del hablante (¿es quien dice ser?). Empiece con la introducción, lea el artículo sobre los aspectos básicos de Speaker Recognition o los documentos de referencia de las API.

Corrección de errores

C#, C++: se ha corregido la grabación del micrófono que no funcionaba en la versión 1.12 de Speaker Recognition.
JavaScript: correcciones para la conversión de texto a voz en Firefox y Safari, tanto en macOS como en iOS.
Corrección del bloqueo por infracción de acceso del comprobador de aplicaciones Windows en la transcripción de conversaciones cuando se usa el flujo de ocho canales.
Corrección del bloqueo de la violación del acceso al comprobador de aplicaciones Windows en la traducción de conversaciones entre varios dispositivos.

Ejemplos

C#: código de ejemplo de Speaker Recognition.
C#: código de ejemplo de Speaker Recognition.
Java: ejemplo de código para el reconocimiento de la intención en Android.

Pruebas reducidas ante la COVID-19

SDK de voz 1.12.0: Versión de mayo de 2020

Nuevas características

Go: nueva compatibilidad del lenguaje Go con el reconocimiento de voz y el asistente para voz personalizada. Configure el entorno de desarrollo aquí. Para ver el código de ejemplo, consulte la sección Ejemplos más adelante.
JavaScript: se ha agregado compatibilidad con el explorador para texto a voz. Consulte la documentación aquí.
C++, C#, Java: nuevo objeto KeywordRecognizer y las API compatibles con las plataformas Windows, Android, Linux e iOS. Consulte la documentación aquí. Para ver el código de ejemplo, consulte la sección Ejemplos más adelante.
Java: Se ha agregado la conversación con varios dispositivos con compatibilidad con traducción. Vea el documento de referencia aquí.

Mejoras y optimizaciones

JavaScript: Implementación optimizada del micrófono del explorador para mejorar la precisión del reconocimiento de voz.
Java: enlaces refactorizados mediante la implementación directa de JNI sin SWIG. Este cambio reduce en 10 veces el tamaño de los enlaces de todos los paquetes de Java usados para Windows, Android, Linux y Mac, y facilita el desarrollo de la implementación de Java del SDK de voz.
Linux: Documentación de compatibilidad actualizada con las notas específicas de RHEL 7 más recientes.
Se ha mejorado la lógica de conexión para intentar conectarse varias veces cuando se producen errores de servicio y de red.
Se ha actualizado la página de inicio rápido de Voz de portal.azure.com para ayudar a los desarrolladores a realizar el siguiente paso en el recorrido de Voz de Azure AI.

Corrección de errores

C#, Java: Se ha corregido un problema con la carga de bibliotecas de SDK en Linux ARM (de 32 y 64 bits).
C#: se ha corregido la cancelación explícita de identificadores nativos para los objetos TranslationRecognizer, IntentRecognizer y Connection.
C# : Se ha corregido la administración de la duración de la entrada de audio para el objeto ConversationTranscriber.
Se ha corregido un problema por el que la razón del resultado de IntentRecognizer no se establecía correctamente al reconocer la intención de frases simples.
Se ha corregido un problema por el que el desplazamiento del resultado de SpeechRecognitionEventArgs no se establecía correctamente.
Se ha corregido una condición de carrera en la que el SDK intentaba enviar un mensaje de red antes de abrir la conexión de WebSocket. Era reproducible para TranslationRecognizer al agregar participantes.
Se han corregido las fugas de memoria en el motor de reconocedor de palabras clave.

Ejemplos

Go: Se han agregado inicios rápidos para el reconocimiento de voz y el asistente de Voz personalizada. Encuentre el código de ejemplo aquí.
JavaScript: se han agregado inicios rápidos para Texto a voz, Traducción y Reconocimiento de la intención.
Ejemplos de reconocimiento de palabras clave para C# y Java (Android).

Pruebas reducidas ante la COVID-19

Debido al trabajo de forma remota en las últimas semanas, no pudimos realizar tantas pruebas manuales de comprobación de como normalmente hacemos. No hemos hecho ningún cambio que creemos que pueda haber generado algún error y se han superado todas las pruebas automatizadas. Si falta algo, háganoslo saber en GitHub.
Y sigan sanos.

SDK de voz 1.11.0: Versión de marzo de 2020

Nuevas características

Linux: se ha agregado compatibilidad con Red Hat Enterprise Linux (RHEL)/CentOS 7 para x64 con instrucciones sobre cómo configurar el sistema para el SDK de voz.
Linux: se ha agregado compatibilidad con C# de .Net Core en Linux ARM32 y ARM64. Obtenga más información aquí.
C#, C++: se ha agregado UtteranceId en ConversationTranscriptionResult, un identificador coherente en todos los intermedios y el resultado final del reconocimiento de voz. Detalles de C#, C++.
Python: se ha agregado compatibilidad con Language ID Consulte speech_sample.py en el repositorio de GitHub.
Windows: se ha agregado compatibilidad con el formato de entrada de audio comprimido en la plataforma Windows para todas las aplicaciones de consola win32. Consulte los detalles aquí.
JavaScript: compatibilidad con síntesis de voz (texto a voz) en NodeJS. Obtenga más información aquí.
JavaScript: se han agregado nuevas API para habilitar la inspección de todos los mensajes enviados y recibidos. Obtenga más información aquí.

Corrección de errores

C#, C++: se ha corregido un problema y ahora SendMessageAsync envía el mensaje binario como tipo binario. Detalles de C#, C++.
C#, C++: se ha corregido un problema por el cual el uso del evento Connection MessageReceived puede causar un bloqueo si se elimina Recognizer antes del objeto Connection. Detalles de C#, C++.
Android: el tamaño del búfer del audio desde el micrófono ha disminuido de 800 ms a 100 ms para mejorar la latencia.
Android: se ha corregido un problema con el emulador de Android para x86 en Android Studio.
JavaScript: se ha agregado compatibilidad con regiones en China con la API fromSubscription. Consulte los detalles aquí.
JavaScript: se ha agregado más información para los errores de conexión de NodeJS.

Ejemplos

Unity: se ha corregido el ejemplo público de reconocimiento de la intención, en el que se produjo un error en la importación de JSON de LUIS. Consulte los detalles aquí.
Python: Ejemplo agregado para Language ID. Consulte los detalles aquí.

Pruebas abreviadas de COVID-19: Debido al trabajo de forma remota en las últimas semanas, no pudimos realizar tantas pruebas manuales de comprobación de dispositivos como normalmente hacemos. Por ejemplo, no hemos podido probar la entrada y salida del micrófono en Linux, iOS y macOS. No hemos hecho ningún cambio que creemos que pudiera haber producido algún error en estas plataformas y todas las pruebas automatizadas han pasado. En el improbable caso de que falte algo, háganoslo saber en GitHub.
Gracias por su asistencia continuada. Como siempre, publique las preguntas o comentarios en GitHub o en Stack Overflow.
Y sigan sanos.

Speech SDK 1.10.0: versión de febrero de 2020

Nuevas características

Se han agregado paquetes de Python para admitir la nueva versión 3.8 de Python.
Compatibilidad con Red Hat Enterprise Linux (RHEL) y CentOS 8 x64 (C++, C#, Java y Python).

Nota

Los clientes deben configurar OpenSSL según estas instrucciones.
Compatibilidad de Linux ARM32 con Debian y Ubuntu.
DialogServiceConnector ahora admite un parámetro opcional "bot ID" en BotFrameworkConfig. Este parámetro permite el uso de varios bots de Direct Line Speech con un solo recurso de voz. Si no se especifica el parámetro, se utilizará el bot predeterminado (el que se determine en la página de configuración del canal de Direct Line Speech).
DialogServiceConnector ahora tiene una propiedad SpeechActivityTemplate. Direct Line Speech usa el contenido de esta cadena JSON para rellenar previamente una gran variedad de campos admitidos en todas las actividades que acceden a un bot de Direct Line Speech, incluidas las actividades generadas automáticamente en respuesta a eventos como el reconocimiento de voz.
TTS ahora usa la clave de suscripción para la autenticación, lo que reduce la latencia del primer byte del primer resultado de la síntesis después de crear un sintetizador.
Se han actualizado los modelos de reconocimiento de voz de 19 configuraciones regionales, con lo que se ha logrado una reducción media de la tasa de errores de palabras del 18,6 % (es-ES, es-MX, FR-CA, fr-FR, TI-IT, ja-JP, ko-KR, pt-BR, zh-CN, ZH-HK, NB-NO, fi-FL, ru-RU, pl-PL, CA-ES, zh-TW, TH-TH, pt-PT y tr-TR). Los nuevos modelos aportan mejoras significativas en varios dominios, entre los que se incluyen los escenarios de dictado, transcripción del centro de llamadas e indexación de vídeo.

Corrección de errores

Corrección del error por el que la transcripción de conversaciones no esperaba correctamente en las API de Java
Revisión del emulador de Android x86 para Xamarin problema de GitHub
Adición de métodos Property (Get|Set) a AudioConfig
Corrección de un error de TTS en el que audioDataStream no se puede detener cuando se produce un error en la conexión
El uso de un punto de conexión sin una región provocaría errores en el USP para el traductor de conversaciones
La generación de identificadores en las aplicaciones universales de Windows ahora usa un algoritmo de GUID único; cuyo valor predeterminado anterior y no intencionado es una implementación con código auxiliar que a menudo producía colisiones en conjuntos de interacciones grandes.

Ejemplos

Muestra de Unity con la que usar Speech SDK Micrófono de Unity y streaming en modo de inserción

Otros cambios

Documentación de la configuración de OpenSSL actualizada para Linux

Acerca del SDK de Voz 1.9.0: Versión de enero de 2020

Nuevas características

Conversación entre varios dispositivos: conecte varios dispositivos a la misma conversación basada en texto o en voz y, opcionalmente, traduzca los mensajes que se envían entre ellos. Más información en este artículo.
Se ha agregado compatibilidad con el reconocimiento de palabras clave para el paquete .aar de Android y se ha agregado compatibilidad con las versiones x86 y x64.
Objective-C: se han agregado los métodos SendMessage y SetMessageProperty al objeto Connection. Consulte la documentación aquí.
La API de C++ para TTS ahora admite std::wstring como entrada de texto de síntesis, lo que elimina la necesidad de convertir un valor wstring en string antes de pasarlo al SDK. Consulte los detalles aquí.
C#: El identificador de idioma y la configuración del idioma de origen ya están disponibles.
JavaScript: se ha agregado una característica al objeto Connection para pasar por los mensajes personalizados desde el servicio de Voz como objeto receivedServiceMessage de devolución de llamada.
JavaScript: se ha agregado compatibilidad con FromHost API para facilitar su uso con contenedores locales y nubes soberanas. Consulte la documentación aquí.
JavaScript: ahora se admite NODE_TLS_REJECT_UNAUTHORIZED gracias a una contribución de NODE_TLS_REJECT_UNAUTHORIZED. Consulte los detalles aquí.

Cambios importantes

OpenSSL se ha actualizado a la versión 1.1.1b y está vinculada estáticamente a la biblioteca principal del SDK de Voz para Linux. Esto puede producir una interrupción si la bandeja de entrada OpenSSL no se ha instalado en el directorio /usr/lib/ssl del sistema. Consulte nuestra documentación en los documentos sobre el SDK de Voz para solucionar el problema.
Se ha cambiado el tipo de datos devuelto para C# WordLevelTimingResult.Offset de int a long para permitir el acceso a WordLevelTimingResults cuando los datos de voz duren más de 2 minutos.
PushAudioInputStream y PullAudioInputStream envían ahora información de los encabezados WAV al servicio de Voz basado en AudioStreamFormat, que se especificó como opción cuando se crearon. Los clientes deben utilizar ahora el formato de entrada de audio admitido. Cualquier otro formato obtendrá resultados de reconocimiento no óptimos o podría causar otros problemas.

Corrección de errores

Consulte la actualización de OpenSSL en cambios importantes anteriores. Hemos corregido un bloqueo intermitente y un problema de rendimiento (contención de bloqueo bajo carga alta) en Linux y Java.
Java: Se han realizado mejoras en la clausura de objetos en escenarios de alta simultaneidad.
Se ha reestructurado nuestro paquete NuGet. Se han eliminado las tres copias de Microsoft.CognitiveServices.Speech.core.dll y Microsoft.CognitiveServices.Speech.extension.kws.dll en las carpetas lib, con lo cual el paquete NuGet es ahora más pequeño y su descarga es más rápida, y se han agregado los encabezados necesarios para compilar algunas aplicaciones nativas en C++.
Aquí puede encontrar ejemplos corregidos del inicio rápido. Estos estaban saliendo sin mostrar la excepción "No se encontró el micrófono" en Linux, macOS y Windows.
Se ha corregido un bloqueo del SDK por el que se producían resultados de reconocimientos de voz largos en determinadas rutas de acceso al código como en este ejemplo.
Se ha corregido un error en la implementación del SDK en el entorno de Azure Web App para solucionar este problema del cliente.
Se ha corregido un error de TTS al usar varias etiquetas <voice> o <audio> para solucionar <voice>.
Se ha corregido un error TTS 401 cuando se recupera el SDK del estado suspendido.
JavaScript: Se ha corregido una importación circular de datos de audio gracias a una contribución de euirim.
JavaScript: se ha agregado compatibilidad para establecer las propiedades del servicio, como se hizo en 1.7.
JavaScript: se ha corregido un problema por el que un error de conexión podría provocar intentos de reconexión de WebSocket continuos e incorrectos.

Ejemplos

Se ha agregado el ejemplo de reconocimiento de palabras clave para Android aquí.
Se ha agregado el ejemplo de TTS para el escenario de servidor aquí.
Se han agregado inicios rápidos de conversación entre varios dispositivos para C# y C++ aquí.

Otros cambios

Se ha optimizado el tamaño de la biblioteca principal del SDK en Android.
El SDK de las versiones 1.9.0 y posteriores admite los tipos int y string en el campo Versión de la firma de voz para la transcripción de conversaciones.

SDK de Voz 1.8.0: Versión de noviembre de 2019

Nuevas características

Se ha agregado una API FromHost() para facilitar su uso con contenedores locales y nubes soberanas.
Se ha agregado la identificación del idioma de origen para el reconocimiento de voz (en Java y C++)
Se ha agregado el objeto SourceLanguageConfig para el reconocimiento de voz, que se usa para especificar los idiomas de origen esperados (en Java y C++).
Se ha agregado compatibilidad con KeywordRecognizer en Windows (UWP), Android e iOS mediante los paquetes de NuGet y Unity.
Se ha agregado la API de Java de conversación remota para realizar la transcripción de conversaciones en lotes asincrónicos.

Cambios importantes

Las funcionalidades de transcripción de conversaciones se han movido al espacio de nombres Microsoft.CognitiveServices.Speech.Transcription.
Partes de los métodos de transcripción de conversaciones se han movido a la nueva clase Conversation.
Compatibilidad eliminada para iOS de 32 bits (ARMv7 y x86)

Corrección de errores

Se ha corregido un bloqueo si se usa KeywordRecognizer local sin una clave de suscripción válida al servicio de voz.

Ejemplos

Ejemplo de Xamarin para KeywordRecognizer
Ejemplo de Unity para KeywordRecognizer
Ejemplos de C++ y Java de identificación automática del idioma de origen.

SDK de voz 1.7.0: versión de septiembre de 2019

Nuevas características

Compatibilidad con la versión beta agregada para Xamarin en la Plataforma universal de Windows (UWP), Android e iOS
Compatibilidad con iOS agregada para Unity
Se ha agregado compatibilidad con entradas Compressed para ALaw, Mulaw, FLAC en Android, iOS y Linux.
Se ha agregado SendMessageAsync en la clase Connection para enviar un mensaje al servicio.
Se ha agregado SetMessageProperty en la clase Connection para establecer la propiedad de un mensaje.
TTS agregó enlaces para Java (JRE y Android), Python, Swift y Objective-C.
TTS agregó compatibilidad de reproducción para macOS, iOS y Android
Se ha agregado información de "límite de palabras" para TTS

Corrección de errores

Se ha corregido un problema de compilación de IL2CPP en Unity 2019 para Android
Se ha corregido un problema con los encabezados con formato incorrecto en la entrada de archivo WAV que se procesa de forma incorrecta
Se ha corregido un problema con UUID que no es único en algunas propiedades de conexión
Se han corregido algunas advertencias sobre los especificadores de nulabilidad en los enlaces SWIFT (puede que se requieran pequeños cambios en el código)
Se ha corregido un error que provocaba que las conexiones de WebSocket se cerraran de manera incorrecta en la carga de red
Se ha corregido un problema en Android que a veces provoca que DialogServiceConnector use identificadores de impresión duplicados.
Se han introducido mejoras en la estabilidad de las conexiones entre interacciones multiproceso y la generación de informes de errores (a través de eventos Canceled) cuando se producen con DialogServiceConnector.
Los inicios de sesión de DialogServiceConnector ahora proporcionarán eventos correctamente, incluso si se llama a ListenOnceAsync() durante una operación StartKeywordRecognitionAsync() activa.
Se ha resuelto un bloqueo asociado a la recepción de actividades DialogServiceConnector.

Ejemplos

Inicio rápido para Xamarin
Se ha actualizado el inicio rápido de CPP con información de ARM64 de Linux
Se ha actualizado el inicio rápido de Unity con información de iOS

SDK de Voz 1.6.0: versión de junio de 2019

Ejemplos

Ejemplos de inicio rápido para Texto a voz en UWP y Unity
Ejemplo de inicio rápido para Swift en iOS
Ejemplos de Unity para Traducción y Reconocimiento de la intención comunicativa y Voz
Ejemplos de inicios rápidos actualizados para DialogServiceConnector

Mejoras y cambios

Espacio de nombres de cuadro de diálogo:
- El nombre de SpeechBotConnector ha cambiado a DialogServiceConnector
- El nombre de BotConfig ha cambiado a DialogServiceConfig
- BotConfig::FromChannelSecret() se ha reasignado a DialogServiceConfig::FromBotSecret()
- Todos los clientes de Voz de Direct Line existentes siguen siendo compatibles después del cambio de nombre
Actualización del adaptador REST de TTS para admitir una conexión persistente de proxy
Un mejor mensaje de error cuando se pasa una región no válida
Swift/Objective-C:
- Mejores informes de errores: los métodos que pueden generar un error ahora se encuentran en dos versiones: una que expone un objeto NSError para el control de errores y una que genera una excepción. La primera se expone a Swift. Este cambio requiere adaptaciones en el código Swift existente.
- Mejor control de eventos

Corrección de errores

Corrección de TTS: donde el futuro de SpeakTextAsync se devolvió sin esperar al fin de la representación del audio
Corrección para la serialización de las cadenas en C# para permitir la compatibilidad total con idiomas
Corrección del problema de las aplicaciones centrales de .NET para cargar la biblioteca principal con un marco de destino net461 en ejemplos
Corrección de problemas ocasionales para implementar bibliotecas nativas en la carpeta de salida en los ejemplos
Corrección para cerrar el socket web de manera confiable
Corrección de un posible bloqueo al abrir una conexión con sobrecarga en Linux
Corrección de metadatos faltantes en el paquete de marcos para macOS
Corrección de problemas con pip install --user en Windows

Speech SDK 1.5.1

Se trata de una versión de corrección de errores y solo afecta al SDK nativo o administrado. No afecta a la versión de JavaScript del SDK.

Corrección de errores

Corrección de FromSubscription cuando se usa con la transcripción de la conversación.
Corrección de errores en la detección de palabras clave en los asistentes para voz.

Speech SDK 1.5.0 Versión de mayo de 2019

Nuevas características

La detección de palabras clave (KWS) ahora está disponible para Windows y Linux. La funcionalidad KWS podría funcionar con cualquier tipo de micrófono; no obstante, la compatibilidad oficial de KWS está limitada actualmente a las matrices de micrófonos que se encuentran en el hardware de Azure Kinect DK o el SDK de dispositivos de voz.
La funcionalidad de sugerencia de frases está disponible a través del SDK. Para más información, consulte esta página.
La funcionalidad de transcripción de conversaciones está disponible a través del SDK.
Compatibilidad agregada con los asistentes para voz mediante el canal Direct Line Speech.

Ejemplos

Se han agregado ejemplos para nuevas características o nuevos servicios admitidos por el SDK.

Mejoras y cambios

Se han agregado varias propiedades de reconocimiento para ajustar el comportamiento del servicio o los resultados del servicio (por ejemplo, enmascaramiento de palabras soeces etc.).
Ahora puede configurar el reconocimiento a través de las propiedades de configuración estándar, incluso si ha creado el valor de FromEndpoint del reconocedor.
Objective-C: se agregó la propiedad OutputFormat a SPXSpeechConfiguration.
El SDK ahora admite Debian 9 como una distribución de Linux.

Corrección de errores

Se ha corregido un problema donde el recurso de altavoz se destruía demasiado pronto en la conversión de texto a voz.

Speech SDK 1.4.2

Se trata de una versión de corrección de errores y solo afecta al SDK nativo o administrado. No afecta a la versión de JavaScript del SDK.

Speech SDK 1.4.1

Esta es una versión solo para JavaScript. No se agregó ninguna característica. Se realizaron las siguientes correcciones:

Se impide que el paquete web cargue https-proxy-agent.

Speech SDK 1.4.0 Versión de abril de 2019

Nuevas características

El SDK admite ahora el servicio de Texto a voz en versión beta. Se admite en Windows y Linux Desktop desde C++ y C#. Para más información, consulte la información general sobre Texto a voz.
El SDK ahora admite archivos de audio MP3 y Opus/OGG como archivos de entrada de secuencia. Esta característica solo está disponible en Linux desde C++ y C# y está actualmente en versión beta (más detalles aquí).
Speech SDK para Java, .NET Core, C++ y Objective-C ha conseguido compatibilidad con macOS. La compatibilidad de Objective-C con macOS está actualmente en versión beta.
iOS: Speech SDK para iOS (Objective-C) ahora también se publica como una instancia de CocoaPod.
JavaScript: compatibilidad con micrófono no predeterminada como dispositivo de entrada.
JavaScript: compatibilidad con servidores proxy para Node.js.

Ejemplos

se han agregado ejemplos para usar Speech SDK con C++ y con Objective-C en macOS.
Se han agregado ejemplos que muestran el uso del servicio de Texto a voz.

Mejoras y cambios

Python: ahora se exponen propiedades adicionales de los resultados del reconocimiento mediante la propiedad properties.
Para la compatibilidad adicional con el desarrollo y la depuración, puede redirigir la información de registro y diagnóstico del SDK a un archivo de registro (más información aquí).
JavaScript: mejora del rendimiento del procesamiento de audio.

Corrección de errores

Mac/iOS: se corrigió un error que daba lugar a una larga espera cuando no se podía establecer una conexión con el servicio de Voz.
Python: mejora del control de errores en los argumentos de las devoluciones de llamada de Python.
JavaScript: se corrigieron los informes de estado erróneos de la voz que finalizaban en RequestSession.

Speech SDK 1.3.1 Actualización de febrero de 2019

Se trata de una versión de corrección de errores y solo afecta al SDK nativo o administrado. No afecta a la versión de JavaScript del SDK.

Corrección de error

Se ha corregido una fuga de memoria cuando se usa la entrada de micrófono. No afecta a la entrada de archivos o basada en secuencias.

Speech SDK 1.3.0: versión de febrero de 2019

Nuevas características

El SDK de voz admite la selección del micrófono de entrada mediante la clase AudioConfig. Esto permite transmitir datos de audio al servicio de voz desde un micrófono no predeterminado. Para más información, consulte la documentación en la que se describe cómo seleccionar un dispositivo de entrada de audio. Esta característica aún no está disponible en JavaScript.
Speech SDK ahora es compatible con Unity en una versión beta. Proporcione sus comentarios en la sección de problemas en el repositorio de ejemplos de GitHub. Esta versión es compatible con Unity en Windows x86 y x64 (aplicaciones de escritorio o de la Plataforma universal de Windows) y Android (ARM32/64, x86). Puede encontrar más información en nuestra guía de inicio rápido sobre Unity.
El archivo Microsoft.CognitiveServices.Speech.csharp.bindings.dll (incluido en versiones anteriores) ya no es necesario. La funcionalidad está ahora integrada en el SDK principal.

Ejemplos

El siguiente contenido nuevo está disponible en nuestro repositorio de ejemplo:

Ejemplos adicionales para AudioConfig.FromMicrophoneInput.
Ejemplos adicionales de Python para traducción y reconocimiento de intenciones.
Ejemplos adicionales para usar el objeto Connection en iOS.
Ejemplos adicionales de Java para la traducción con la salida de audio.
Nuevo ejemplo de uso de la API de REST de transcripción de lotes.

Mejoras y cambios

Python
- Mensajes de error y verificación de parámetros mejorada en SpeechConfig.
- Adición de compatibilidad para el objeto Connection.
- Compatibilidad con Python (x86) de 32 bits en Windows.
- Speech SDK para Python ya no está disponible como beta.
iOS
- El SDK ahora se compila en función de la versión 12.1 del SDK de iOS.
- El SDK ahora es compatible con las versiones 9.2 y posteriores de iOS.
- Documentación de referencia mejorada y corrección de varios nombres de propiedad.
JavaScript
- Adición de compatibilidad para el objeto Connection.
- Archivos de definición de tipos agregados para JavaScript agrupado.
- Compatibilidad e implementación iniciales para sugerencias de frases.
- Colección de propiedades devuelta con JSON del servicio para reconocimiento.
Los archivos DLL de Windows contienen ahora un recurso de versión.
Si crea un valor de FromEndpoint de reconocedor, puede agregar parámetros directamente a la dirección URL del punto de conexión. Con FromEndpoint no puede configurar el reconocedor mediante las propiedades de configuración estándar.

Corrección de errores

La contraseña de proxy y el nombre de usuario de proxy vacíos no se administraron correctamente. Con esta versión, si establece el nombre de usuario de proxy y la contraseña de proxy en una cadena vacía, no se enviarán al conectarse al proxy.
El identificador de sesión creado por el SDK no siempre es realmente aleatorio para algunos lenguajes o entornos. Se ha agregado la inicialización del generador aleatorio para corregir este problema.
Control mejorado del token de autorización. Si desea usar un token de autorización, especifíquelo en SpeechConfig y deje la clave de suscripción vacía. A continuación, cree el reconocedor como de costumbre.
En algunos casos, el objeto Connection no se publicó correctamente. Ahora se ha corregido.
Se corrigió el ejemplo de JavaScript para admitir la salida de audio para la síntesis de traducción también en Safari.

Speech SDK 1.2.1

Esta es una versión solo para JavaScript. No se agregó ninguna característica. Se realizaron las siguientes correcciones:

Activar el final del flujo en turn.end, y no en speech.end.
Corrección del error de la bomba de audio por el que no se programaba el siguiente envío en caso de error del envío actual.
Corregir el reconocimiento continuo con el token de autenticación.
Corrección de errores de diferentes reconocedores y puntos de conexión.
Mejoras en la documentación.

Speech SDK 1.2.0: Versión de diciembre de 2018

Nuevas características

Python
- La versión beta de la compatibilidad con Python (3.5 y versiones posteriores) está disponible con esta versión. Para más información, consulte aquí](quickstart-python.md).
JavaScript
- Speech SDK para JavaScript ha sido de código abierto. El código fuente está disponible en GitHub.
- Ya se admite Node.js; puede encontrar más información aquí.
- Se quitó la restricción de longitud para las sesiones de audio; la reconexión se realizará automáticamente en la portada.
Objecto Connection
- Desde el objeto Recognizer, puede acceder al objeto Connection. Este objeto le permite iniciar la conexión al servicio y suscribirse para conectar y desconectar eventos explícitamente. (Esta característica no está disponible aún ni en JavaScript ni en Python).
Compatibilidad con Ubuntu 18.04.
Android
- Compatibilidad con ProGuard habilitada durante la generación del APK.

Mejoras

Mejoras en el uso de subprocesos internos, lo que reduce el número de subprocesos, bloqueos y exclusiones mutuas.
Se mejoraron los informes de errores y la información. En algunos casos, los mensajes de error no se propagan totalmente.
Se actualizaron las dependencias de desarrollo en JavaScript para usar los módulos actualizados.

Corrección de errores

Se han corregido las fugas de causadas por un error de coincidencia de tipos en RecognizeAsync.
En algunos casos, se perdieron excepciones.
Corrección de las fugas de memoria en los argumentos de eventos de traducción.
Se ha corregido un problema de bloqueo al volver a conectar en sesiones de larga ejecución.
Se ha corregido un problema que podría dar lugar a que faltase el resultado final para las traducciones con errores.
C#: Si no se esperaba una operación async en el subproceso principal, es posible que se pudiese desechar el reconocedor antes de completarse la tarea asincrónica.
Java: Se ha corregido un problema que provocaba un bloqueo de la VM de Java.
Objective-C: Se ha corregido la asignación de la enumeración; se devolvió RecognizedIntent en lugar de RecognizingIntent.
JavaScript: Se ha establecido el formato de salida predeterminado en "simple" en SpeechConfig.
JavaScript: Se ha quitado una incoherencia entre las propiedades del objeto de configuración en JavaScript y otros lenguajes.

Ejemplos

Se han actualizado y corregido varios ejemplos, como las voces de salida para la traducción, etc.
Se han agregado ejemplos de Node.js en el repositorio de ejemplo.

Speech SDK 1.1.0

Nuevas características

Compatibilidad con Android x86/x64.
Compatibilidad con proxy: En el objeto SpeechConfig, ahora puede llamar a una función para establecer la información del proxy (nombre de host, puerto, nombre de usuario y contraseña). Esta característica no está disponible aún en iOS.
Mensajes y códigos de error mejorados. Si un reconocimiento devolvió un error, esto ya ha establecido Reason (en el evento cancelado) o CancellationDetails (en el resultado del reconocimiento) en Error. El evento cancelado ahora contiene dos miembros adicionales, ErrorCode y ErrorDetails. Si el servidor devolvió información de error adicional con el error notificado, ahora estará disponible en los nuevos miembros.

Mejoras

Verificación adicional agregada en la configuración del reconocedor y mensaje de error adicional agregado.
Control mejorado del silencio prolongado en medio de un archivo de audio.
Paquete NuGet: para proyectos de .NET Framework, evita la compilación con la configuración de AnyCPU.

Corrección de errores

En los reconocedores se han encontrado varias excepciones corregidas. Además, las excepciones se detectan y se convierten en un evento Canceled.
Corrección de una fuga de memoria en la administración de propiedades.
Se corrigió el error en el que un archivo de entrada de audio podría bloquear el reconocedor.
Se corrigió un error donde se podrían recibir eventos después de un evento de detención de la sesión.
Se corrigieron algunas condiciones de subprocesos.
Se corrigió un problema de compatibilidad de iOS que podría dar lugar a un bloqueo.
Mejoras de estabilidad para la compatibilidad del micrófono en Android.
Se corrigió un error donde un reconocedor en JavaScript ignoraría el lenguaje de reconocimiento.
Se corrigió un error que impedía establecer el valor EndpointId (en algunos casos) en JavaScript.
Se cambió el orden de los parámetros en AddIntent en JavaScript y se agregó la firma de JavaScript AddIntent que faltaba.

Ejemplos

Se han agregado ejemplos de C++ y C# para el uso de transmisiones de inserción y extracción en el repositorio de ejemplos.

Speech SDK 1.0.1

Mejoras en la confiabilidad y correcciones de errores:

Corrección de un potencial error grave debido a una condición de carrera al desechar un reconocedor
Corrección de un posible error grave cuando hay propiedades sin establecer.
Comprobación adicional de errores y parámetros.
Objective-C: corrección de posibles errores graves causados por la invalidación de nombres en NSString.
Objective-C: ajuste de visibilidad en la API
JavaScript: corrección con respecto a los eventos y sus cargas.
Mejoras en la documentación.

Se ha agregado un nuevo ejemplo de Javascript en nuestro repositorio de ejemplos.

SDK de Voz de Azure AI 1.0.0: versión de septiembre de 2018

Nuevas características

Compatibilidad con Objective-C en iOS. Consulte la Guía de inicio rápido de Objective-C para iOS.
Se admite JavaScript en el explorador. Consulte la Guía de inicio rápido de JavaScript.

Cambios importantes

Con esta versión se presentan una serie de cambios importantes. Consulte esta página para más información.

SDK de Voz de Azure AI 0.6.0: versión de agosto de 2018

Nuevas características

Ahora, las aplicaciones de UWP creadas con SDK de Voz superan el Kit para la certificación de aplicaciones en Windows (WACK). Consulte la Guía de inicio rápido de UWP.
Compatibilidad con .NET Standard 2.0 en Linux (Ubuntu 16.04 x64).
Experimental: compatibilidad con Java 8 en Windows (64 bits) y Linux (Ubuntu 16.04 x 64). Consulte la Guía de inicio rápido de Java Runtime Environment.

Cambios funcionales

Se expone más información detallada sobre los errores de conexión.

Cambios importantes

En Java (Android), la función SpeechFactory.configureNativePlatformBindingWithDefaultCertificate ya no requiere un parámetro de ruta de acceso. Ahora, la ruta de acceso se detecta automáticamente en todas las plataformas compatibles.
En Java y C#, se ha quitado el descriptor de acceso get- de la propiedad EndpointUrl.

Corrección de errores

En Java, se implementa ahora el resultado de la síntesis de audio en el reconocedor de traducción.
Se ha corregido un error que podía provocar subprocesos inactivos y un mayor número de sockets abiertos y sin usar.
Se ha corregido un problema por el que un proceso de reconocimiento de larga ejecución podía terminar en mitad de la transmisión.
Se ha corregido una condición de carrera en el proceso de apagado del reconocedor.

SDK de Voz de Azure AI 0.5.0: versión de julio de 2018

Nuevas características

Compatibilidad con la plataforma Android (API 23: Android Marshmallow 6.0 o posterior). Consulte el inicio rápido de Android.
Compatibilidad con .NET Standard 2.0 en Windows. Consulte el inicio rápido de .NET Core.
Experimental: compatibilidad con UWP en Windows (versión 1709 o posterior).
- Consulte la Guía de inicio rápido de UWP.
- Tenga en cuenta que las aplicaciones para UWP creadas con el SDK de Voz aún no pasan el kit para la certificación de aplicaciones en Windows (WACK).
Compatibilidad con el reconocimiento de ejecución prolongada con reconexión automática.

Cambios funcionales

StartContinuousRecognitionAsync() admite reconocimiento de ejecución prolongada.
El resultado del reconocimiento contiene más campos. Tienen un desplazamiento desde el principio del audio y la duración (ambos en tics) del texto reconocido y valores adicionales que representan el estado de reconocimiento, por ejemplo, InitialSilenceTimeout e InitialBabbleTimeout.
Compatibilidad con AuthorizationToken para la creación de instancias de fábrica.

Cambios importantes

Eventos de reconocimiento: el tipo de evento NoMatch se combina con el evento Error.
SpeechOutputFormat en C# se llama ahora OutputFormat para concordar con C++.
El tipo de valor devuelto de algunos métodos de la interfaz AudioInputStream se ha modificado ligeramente:
- En Java, el método read ahora devuelve long en lugar de int.
- En C#, el método Read ahora devuelve uint en lugar de int.
- En C++, los métodos Read y GetFormat ahora devuelven size_t en lugar de int.
C++: las instancias de secuencias de entrada de audio ahora solo se pueden pasar como un valor shared_ptr.

Corrección de errores

Se han corregido los valores devueltos incorrectos cuando se agota el tiempo de espera de RecognizeAsync().
Se ha eliminado la dependencia de las bibliotecas de Media Foundation en Windows. El SDK ahora usa las API de audio básicas.
Corrección de la documentación: se ha agregado una página de regiones para describir cuáles son las regiones admitidas.

Problema conocido

SDK de Voz para Android no informa de los resultados de la síntesis de voz para la traducción. Este problema se solucionará en la próxima versión.

SDK de Voz de Azure AI 0.4.0: versión de junio de 2018

Cambios funcionales

AudioInputStream

Un reconocedor ahora puede consumir una secuencia como origen de audio. Para más información, consulte la guía de procedimientos relacionada.
Formato de salida detallado

Al crear un elemento SpeechRecognizer, puede solicitar el formato de salida Detailed o Simple. DetailedSpeechRecognitionResult contiene una puntuación de confianza, texto reconocido, formato léxico sin formato, formato normalizado y formato normalizado con palabras soeces enmascaradas.

Cambio importante

En C# se cambia de SpeechRecognitionResult.RecognizedText a SpeechRecognitionResult.Text.

Corrección de errores

Se ha corregido un posible problema de devolución de llamada en la capa USP durante el apagado.
Si un reconocedor usaba un archivo de entrada de audio, mantenía el identificador de archivo más tiempo del necesario.
Se han eliminado varios interbloqueos entre el suministro de mensajes y el reconocedor.
Se desencadena un resultado NoMatch cuando se agota la respuesta del servicio.
Las bibliotecas de Media Foundation en Windows son de carga retrasada. Esta biblioteca solo es necesaria para la entrada del micrófono.
La velocidad de carga de los datos de audio se limita al doble de la velocidad de audio original.
En Windows, los ensamblados .NET de C# ahora son de nombre seguro.
Corrección de la documentación: Region necesita información para crear un reconocedor.

Se han agregado más ejemplos y se actualizan constantemente. Para obtener el conjunto más reciente de ejemplos, consulte el repositorio de GitHub de ejemplos de SDK de Voz.

SDK de Voz de Azure AI 0.2.12733: versión de mayo de 2018

Esta versión es la primera versión preliminar pública del SDK de Voz de Azure AI.

CLI de Voz 1.37.0: versión de abril de 2024

Se ha actualizado para usar Speech SDK 1.37.0

Nuevas características

None

Corrección de errores

None

CLI de Voz 1.36.0: versión de marzo de 2024

Se ha actualizado para usar SDK de Voz 1.36.0

Nuevas características

None

Corrección de errores

None

CLI de Voz 1.35.0: versión de febrero de 2024

Se ha actualizado para usar SDK de Voz 1.35.0

Nuevas características

None

Corrección de errores

Actualizar la dependencia de JMESPath a la versión más reciente

CLI de Voz 1.34.0: versión de noviembre de 2023

Se ha actualizado para usar SDK de Voz 1.34.0

CLI de voz 1.33.0: versión de octubre de 2023

Se ha actualizado para usar SDK de Voz 1.34.0

CLI de Voz 1.31.0: versión de agosto de 2023

Se actualizó para usar el SDK de Voz 1.31.0

CLI de Voz 1.30.0: versión de julio de 2023

Se actualizó para usar el SDK de Voz 1.30.0

CLI de Voz 1.29.0: versión de junio de 2023

Se actualizó para usar SDK de Voz 1.29.0

CLI de Voz 1.28.0: versión de mayo de 2023

Se ha actualizado para usar SDK de Voz 1.28.0

CLI de Voz 1.27.0: versión de abril de 2023

Actualizaciones

Se ha actualizado para usar SDK de Voz 1.27.0
Actualice el punto de conexión predeterminado a fin de usar las API REST v3.1 para el reconocimiento de habla personalizada y el reconocimiento de voz por lotes.

Corrección de errores

Correcciones relacionadas con cómo se analizan o configuran los parámetros de consulta.

CLI de Voz 1.26.0: versión de marzo de 2023

Se ha actualizado para usar SDK de Voz 1.26.0.

CLI de Voz 1.25.0: versión de enero de 2023

Se ha actualizado para usar SDK de Voz 1.25.0.

CLI de Voz 1.24.0: versión de octubre de 2022

Usa el SDK de Voz 1.24.0.

Nuevas características

Se ha expandido "spx check" para admitir consultas de JMESPath en todos los eventos spx

Corrección de errores

Varias mejoras en la solidez con respecto a las evaluaciones de consultas de JMESPath
Corrección para truncamientos en escritura de archivos que pueden producirse en máquinas restringidas por recursos

CLI de Voz 1.23.0: versión de julio de 2022

Usa el SDK de Voz 1.23.0.

Nuevas características

Mejores subtítulos (--output vtt y --output srt) y división de resultados grandes (37 caracteres máximo, 3 líneas)
Se han documentado las opciones spx synthesize--format (consulte spx help synthesize format)
Documentados la mayoría de loscomandos/opciones spx csr (ver spx help csr)
Se ha agregado el comando spx csr model copy (consulte spx help csr model copy).
Se ha agregado la opción --check result mediante consultas JMES (consulte spx help check result).
Mensajes de error mejorados al especificar opciones de comando no válidas
Se ha trasladado de .NET Core 3.1 a .NET 6.0. Para ejecutar la CLI de Voz, tendrá que instalar el entorno de ejecución de .NET 6.0 (o superior).

Corrección de errores

Se han actualizado todas las direcciones URL para quitar el idioma (por ejemplo, "en-US")
Se ha corregido la información de versión para notificar correctamente en todos los casos (anteriormente, a veces, aparecía un espacio en blanco).

CLI de Voz 1.22.0: versión de junio de 2022

Usa el SDK de Voz 1.22.0.

Nuevas características

Se ha agregado el comando spx init para guiar a los usuarios por la creación de la clave de recurso de Voz sin ir al portal web de Azure.
Ahora los contenedores de Docker de Voz tienen la CLI de Azure incluida, por lo que el comando spx init funciona de forma predeterminada.
Se ha agregado la marca de tiempo como opción de salida de eventos para que SPX sea más útil al calcular latencias.

CLI de Voz 1.21.0: versión de abril de 2022

Usa el SDK de Voz 1.21.0.

Nuevas características

Generación de subtítulos de WEBVTT
- Se ha agregado compatibilidad de --output vtt con spx translate
- Admite --output vtt file FILENAME para invalidar el nombre de archivo VTT predeterminado.
- Admite --output vtt file - para escribir en la salida estándar.
- Los archivos VTT individuales se crean para cada idioma de destino (por ejemplo, --target en;de;fr)
Generación de subtítulos de SRT
- Se ha agregado compatibilidad con --output srt, spx recognize, spx intent y spx translate.
- Admite --output srt file FILENAME para invalidar el nombre de archivo de SRT predeterminado.
- Admite --output srt file - para escribir en la salida estándar.
- Para los archivos SRT individuales de spx translate se crean para cada idioma de destino (por ejemplo, --target en;de;fr)

Corrección de errores

Salida de intervalo de tiempo WEBVTT corregida para usar correctamente el formato hh:mm:ss.fff.

CLI de Voz 1.20.0: versión de enero de 2022

Nuevas características

Reconocimiento del hablante
- spx profile enroll y spx speaker [identify/verify] ahora admiten la entrada de micrófono
Reconocimiento de intenciones (spx intent).
- --keyword FILE.table
- --pattern y --patterns
- --output all/each intentid
- --output all/each entity json
- --output all/each ENTITY entity
- --once, --once+, --continuous (ahora continuo de forma predeterminada)
- --output all/each connection EVENT
- --output all/each connection message (por ejemplo, text, path)
Comprobación y creación de la expectativa de salida de la consola de la CLI:
- Compatibilidad con --expect PATTERN y --not expect PATTERN en todos los comandos.
- --auto expect para ayudar a crear patrones esperados.
Comprobación y creación de expectativas de salida de registro del SDK
- Compatibilidad con --log expect PATTERN y --not log expect PATTERN en todos los comandos.
- Compatibilidad con --log auto expect [FILTER] en todos los comandos.
- Compatibilidad con --log FILE en spx profile y spx speaker
Entrada de archivo de audio
- Compatibilidad con --format ANY en todos los comandos.
- Compatibilidad con --file - (lectura de la entrada estándar, que permite escenarios de canalización)
Salida de archivo de audio
- Escritura de --audio output - en la salida estándar, lo que permite escenarios de canalización.
Archivos de salida
- Escritura de --output all/each file - en la salida estándar.
- Escritura de --output batch file - en la salida estándar.
- Escritura de --output vtt file - en la salida estándar.
- Escritura de --output json file - en la salida estándar, para los comandos spx csr y spx batch.
Propiedades de salida
- --output […] result XXX property (PropertyId o cadena)
- --output […] connection message received XXX property (PropertyId o cadena)
- --output […] recognizer XXX property (PropertyId o cadena)
Integración de Azure WebJobs
- spx webjob ahora sigue el patrón de subcomando.
- Se ha actualizado la ayuda de WebJob para reflejar el patrón de subcomando (consulte spx help webjob).

Corrección de errores

Se ha corregido un error cuando se usan --output vtt FILE y --output batch FILE al mismo tiempo.
spx [...] --zip ZIPFILENAME ahora incluye todos los archivos binarios necesarios para todos los escenarios (si existe).
Los comandos spx profile y spx speaker ahora devuelven información de error detallada sobre la cancelación.

Versión de mayo de 2021

Nuevas características

SPX ahora admite perfil, identificador del hablante y verificación del hablante: pruebe spx profile y spx speaker desde la línea de comandos.
También se ha agregado compatibilidad con diálogos; pruebe spx dialog desde la línea de comandos.
Se ha mejorado la ayuda de spx. Para enviarnos comentarios sobre cómo funciona esta mejora, abra una incidencia de GitHub.
Se ha reducido el tamaño de la instalación de la herramienta .NET.

Pruebas reducidas ante la COVID-19

Mientras la pandemia actual siga exigiendo que nuestros ingenieros trabajen desde casa, los scripts de verificación manual anteriores a la pandemia se han reducido significativamente. Las pruebas se realizan en menos dispositivos con menos configuraciones y es posible que aumente la probabilidad de que se produzcan errores específicos del entorno. Se siguen realizando validaciones rigurosas con un gran conjunto de automatización. En el improbable caso de que falte algo, háganoslo saber en GitHub.
Y sigan sanos.

Versión de marzo de 2021

Nuevas características

Se ha agregado el comando spx intent para el reconocimiento de intención y se reemplaza spx recognize intent.
El reconocimiento y la intención ahora pueden usar Azure Functions para calcular la tasa de errores de palabra mediante spx recognize --wer url <URL>.
Recognize ahora puede generar resultados como archivos VTT mediante spx recognize --output vtt file <FILENAME>.
La información de clave confidencial ahora está oculta en la salida de depuración/verbose.
Se ha agregado la comprobación de URL y el mensaje de error para el campo de contenido en la creación de transcripción por lotes.

Pruebas reducidas ante la COVID-19

Versión de enero de 2021

Nuevas características

Ahora la CLI de Voz está disponible como paquete NuGet y se puede instalar a través de la CLI de .NET como una herramienta global de .NET a la que se puede llamar desde la línea de comandos o el shell.
El repositorio de plantillas de DevOps de habla personalizada se ha actualizado a fin de usar la CLI de Voz para sus flujos de trabajo de habla personalizada.

Pruebas reducidas ante la COVID-19

versión de octubre de 2020

SPX es la interfaz de línea de comandos para usar el servicio de Voz sin escribir código. Descargue la última versión aquí.

Nuevas características

spx csr dataset upload --kind audio|language|acoustic: creación de conjuntos de datos a partir de datos locales, no solo desde direcciones URL.
spx csr evaluation create|status|list|update|delete: comparación de nuevos modelos con los modelos verdaderos de base de referencia y de otro tipo.
spx * list: admite la experiencia no paginada (no se requiere --top X --skip X).
spx * --http header A=B: admite encabezados personalizados (se agregaron para Office para la autenticación personalizada).
spx help: texto mejorado y código de color del texto con comillas simples (azul).

Versión de junio de 2020

Se han agregado las características de búsqueda en la ayuda en la CLI:
- spx help find --text TEXT
- spx help find --topic NAME
Se ha actualizado para que funcione con la versión 3.0 de las API Batch y de habla personalizada:
- spx help batch examples
- spx help csr examples

Pruebas reducidas ante la COVID-19

CLI de Voz (también conocida como SPX): versión de mayo de 2020

SPX es una nueva herramienta de línea de comandos que permite realizar el reconocimiento, la síntesis, la traducción, la transcripción por lotes y la administración de habla personalizada desde la línea de comandos. Úsela para probar el servicio de Voz o para crear scripts de las tareas de dicho servicio que debe realizar. Descargue la herramienta y lea la documentación aquí.

Versión de abril de 2024

Avatar de texto a voz

Ahora puede establecer una imagen de fondo estática para sus avatares. Para usar esta característica, simplemente use la propiedad avatarConfig.backgroundImage y especifique una dirección URL que apunte a la imagen deseada. Para obtener iniciales, consulte Cómo editar el fondo.

Versión de marzo de 2024

Voz neuronal pregenerada

9 voces multilingües están disponibles con carácter general en todas las regiones: en-US-AvaMultilingualNeural, en-US-AndrewMultilingualNeural, en-US-EmmaMultilingualNeural, en-US-BrianMultilingualNeural, de-DE-FlorianMultilingualNeural, de-DE-SeraphinaMultilingualNeural, fr-FR-RemyMultilingualNeural, fr-FR-VivienneMultilingualNeural y zh-CN-XiaoxiaoMultilingualNeural. Consulte la lista de idiomas y voces completa para más información.
Presentación de una nueva voz multilingüe para la versión preliminar pública: ja-JP-MasaruMultilingualNeural. Consulte la lista de idiomas y voces completa para más información.
Actualizaciones adicionales:
- en-US-RyanMultilingualNeural está disponible con carácter general en todas las regiones.
- en-US-JennyMultilingualV2Neural está disponible con carácter general en todas las regiones, en combinación con en-US-JennyMultilingualNeural.
- Versión preliminar disponible para los nuevos estilos actualizados en-IN-NeerjaNeural y hi-IN-SwaraNeural, con 3 nuevos estilos en Este de EE. UU., Oeste de Europa y Sudeste de Asia.
- Versión preliminar disponible para las nuevas voces femeninas en Centro de la India: en-IN-KavyaNeural, en-IN-AnanyaNeural, en-IN-AashiNeural, hi-IN-KavyaNeural y hi-IN-AnanyaNeural.

Avatar de texto a voz

Se ha quitado la dependencia de TURN de Azure Communication Services (ACS) para el avatar en tiempo real. El código de ejemplo se ha actualizado según corresponda para reflejar este cambio.
Precios del avatar de texto publicado en voz. Consulte la página de precios para obtener más información. Tenga en cuenta que los precios del avatar solo serán visibles para las regiones de servicio en las que la característica está disponible, incluidos Oeste de EE. UU. 2, Oeste de Europa y Sudeste asiático.

Versión de febrero de 2024

Voces de OpenAI

El servicio Voz de Azure AI admite voces de conversión de texto a voz de OpenAI en las siguientes regiones: Centro-norte de EE. UU. y Centro de Suecia. Al igual que las voces de Voz de Azure AI, las voces de texto a voz de OpenAI ofrecen una síntesis de voz de alta calidad para convertir texto escrito en audio hablado de sonido natural. Esto desbloquea una amplia gama de posibilidades para experiencias de usuario envolventes e interactivas. Para obtener más información, consulte ¿Qué son las voces de conversión de texto a voz de OpenAI?

Nota:

Las voces de conversión de texto a voz de OpenAI también están disponibles en Azure OpenAI Service.
Con esta actualización, se ajustaron los precios de las voces neuronales precompiladas con Voz de Azure AI. Consulte los precios actualizados aquí.

Voz personal

La característica de voz personal ahora admite modelos DragonLatestNeural y PhoenixLatestNeural. Con estos nuevos modelos, las voces sintetizadas tienen un sonido más natural, que se asemeja más a las características de la voz en la consulta. Para obtener más información, consulte Integrar voz personal en la aplicación.

Versión de diciembre de 2023

API de voz personalizada

La API de voz personalizada está disponible para crear y administrar profesionales y modelos de voz neuronal personalizados personal.

Voz neuronal personalizada

Los modelos de voz recién entrenados ahora admiten la frecuencia de muestreo de 48 kHz, independientemente de la versión del modelo. Para los modelos de voz entrenados anteriormente, es necesario actualizar la versión del motor al menos la versión 2023.11.13.0 para mejorar la frecuencia de muestreo a 48 kHz.

Voz neuronal pregenerada

Presentación de nuevas voces multilingües para la versión preliminar pública:

Configuración regional (BCP-47)	Idioma	Voces de Texto a voz
`de-DE`	Alemán (Alemania)	`de-DE-FlorianMultilingualNeural` (masculina)
`de-DE`	Alemán (Alemania)	`de-DE-SeraphinaMultilingualNeural` (femenina)
`en-US`	Spanish (Traditional Sort) - Spain	`en-US-AvaMultilingualNeural` (femenina)
`en-US`	Spanish (Traditional Sort) - Spain	`en-US-EmmaMultilingualNeural` (femenina)
`fr-FR`	Francés (Francia)	`fr-FR-RemyMultilingualNeural` (masculina)
`en-US`	Spanish (Traditional Sort) - Spain	`en-US-BrianMultilingualNeural` (masculina)
`en-US`	Spanish (Traditional Sort) - Spain	`en-US-AndrewMultilingualNeural` (masculina)
`fr-FR`	Francés (Francia)	`fr-FR-VivienneMultilingualNeural` (femenina)
`zh-CN`	Chino (mandarín, simplificado)	`zh-CN-XiaoxiaoMultilingualNeural` (femenina)
`zh-CN`	Chino (mandarín, simplificado)	`zh-CN-XiaochenMultilingualNeural` (femenina)
`zh-CN`	Chino (mandarín, simplificado)	`zh-CN-YunyiMultilingualNeural` (masculina)

Presentación de nuevas voces zh-CN-XiaoxiaoDialectsNeural para la versión preliminar pública que admite varios dialectos y acentos chinos:

Voicename	Lenguaje secundario	Dialecto/Acento
`zh-CN-XiaoxiaoDialectsNeural`	`zh-CN-shaanxi`	Chino (mandarín zhongyuan de Shaanxi, simplificado)
	`zh-CN-sichuan`	Chino (mandarín suroeste, simplificado)
	`zh-CN-shanxi`	Chino (mandarín con acento de Guangxi, simplificado)
	`nan-CN`	Chino (min del sur, simplificado)
	`zh-CN-anhui`	Chino (mandarín jianghuai de Anhui, simplificado)
	`zh-CN-hunan`	Chino (mandarín con acento de Hunan, simplificado)
	`zh-CN-gansu`	Chino (mandarín lanyin de Gansu, simplificado)
	`zh-CN-shandong`	Chino (mandarín jilu, simplificado)
	`zh-CN-henan`	Chino (mandarín zhongyuan de Henan, simplificado)
	`zh-CN-liaoning`	Chino (mandarín del nordeste, simplificado)
	`zh-TW`	Chino (mandarín taiwanés, tradicional)

Versión de noviembre de 2023

Voz personal

La voz personal está disponible en versión preliminar en las siguientes regiones: Oeste de Europa, Este de EE. UU. y Sudeste de Asia. Con voz personal (versión preliminar), puede obtener la replicación generada por IA de la voz (o los usuarios de la aplicación) en unos segundos. Proporcione un ejemplo de voz de un minuto como símbolo del sistema de audio y después úselo para generar voz en cualquiera de los más de 90 idiomas admitidos en más de 100 configuraciones regionales.

Para obtener más información, consulte voz personal.

Avatar de texto a voz

El avatar de texto a voz está disponible en versión preliminar en las siguientes regiones: Oeste de EE. UU. 2, Oeste de Europa y Sudeste Asiático.

El avatar de texto a voz convierte el texto en un vídeo digital de un ser humano fotorrealista (ya sea un avatar precompilado o un avatar de texto a voz personalizado) que habla con una voz de sonido natural. El vídeo del avatar de texto a voz se puede sintetizar de forma asincrónica o en tiempo real. Los desarrolladores pueden compilar aplicaciones integradas con el avatar de texto a voz a través de una API o usar una herramienta de creación de contenido en Speech Studio para crear contenido de vídeo sin codificar.

Para obtener más información, consulte avatar de texto a voz, notas sobre transparencia y divulgación para talentos de voz y avatar.

Voz neuronal personalizada

Se ha agregado compatibilidad con las 24 nuevas configuraciones regionales para la voz entre idiomas. Consulte la lista de idiomas completa para más información.

Voz neuronal pregenerada

Presentación de nuevas voces para la versión preliminar pública:

Configuración regional (BCP-47)	Idioma	Voces de Texto a voz
`de-DE`	Alemán (Alemania)	`SeraphinaNeural` (femenina)
`es-ES`	Español (España)	`XimenaNeural` (femenina)
`fr-CA`	Francés (Canadá)	`ThierryNeural` (masculina)
`fr-FR`	Francés (Francia)	`VivienneNeural` (femenina)
`it-IT`	Italiano (Italia)	`GiuseppeNeural` (masculina)
`ko-KR`	Coreano (Corea)	`HyunsuNeural` (masculina)
`pt-BR`	Portugués (Brasil)	`ThalitaNeural` (femenina)

Modelos actualizados con errores corregidos y mejoras de calidad:

Configuración regional (BCP-47)	Idioma	Voces de Texto a voz
`es-ES`	Español (España)	`AlvaroNeural` (masculina)
`en-GB`	Inglés (Reino Unido)	`RyanNeural` (masculina)
`ko-KR`	Coreano (Corea)	`InjoonNeural` (masculina)

Consulte la lista de idiomas y voces completa para más información.

Versión de octubre de 2023

Voz neuronal personalizada

Se ha agregado compatibilidad con las 12 nuevas configuraciones regionales con la voz neuronal personalizada Pro. Consulte la lista de idiomas completa para más información.

Versión de septiembre de 2023

Voz neuronal pregenerada

Presentación de nuevas voces para la versión preliminar pública:

Configuración regional (BCP-47)	Idioma	Voces de Texto a voz
`en-US`	Spanish (Traditional Sort) - Spain	`en-US-EmmaNeural` (femenina)
`en-US`	Spanish (Traditional Sort) - Spain	`en-US-AndrewNeural` (masculina)
`en-US`	Spanish (Traditional Sort) - Spain	`en-US-BrianNeural` (masculina)

Consulte la lista de idiomas y voces completa para más información.

Voz neuronal incrustada

Las 147 configuraciones regionales (excepto fa-IR, persa (Irán)) están disponibles de forma inmediata con una voz femenina y una voz masculina seleccionadas.

Versión de agosto de 2023

Voz neuronal personalizada

La versión más reciente de la receta de entrenamiento de CNV Lite se ha publicado ahora. Esta versión aporta varias mejoras en la calidad de los modelos de lenguaje. Prueba Speech Studio.

Versión de julio de 2023

Voz neuronal personalizada

La voz de varios estilos está disponible con carácter general.
Se han agregado dos configuraciones regionales nuevas en versión preliminar pública para la voz de varios estilos: ja-JP y zh-CN. Consulte la lista de idiomas y voces completa para más información. Consulte la lista de estilos preestablecidos para distintos idiomas.
La voz multilingüe está disponible con carácter general.
Se han agregado dos nuevas configuraciones regionales para la voz entre idiomas: id-ID y nl-NL. Consulte la lista de idiomas y voces completa para más información.

Voces TTS neuronales precompiladas

Introducción a la nueva voz de género neutro en-US para la versión preliminar pública:

Configuración regional (BCP-47)	Idioma	Voces de Texto a voz
`en-US`	Spanish (Traditional Sort) - Spain	`en-US-BlueNeural` (Neutra)

Presentación de nuevas voces multilingües para la versión preliminar pública:

Configuración regional (BCP-47)	Idioma	Voces de Texto a voz
`en-US`	Spanish (Traditional Sort) - Spain	`en-US-JennyMultilingualV2Neural` (femenina)
`en-US`	Spanish (Traditional Sort) - Spain	`en-US-RyanMultilingualNeural` (masculina)

Las voces multilingües en-US-JennyMultilingualV2Neural y en-US-RyanMultilingualNeural detectan automáticamente el idioma del texto de entrada. Sin embargo, todavía puede usar el elemento <lang> para ajustar el idioma de habla para estas voces.

Estas nuevas voces multilingües pueden hablar en 41 idiomas y acentos: Arabic (Egypt), Arabic (Saudi Arabia), Catalan, Czech (Czechia), Danish (Denmark), German (Austria), German (Switzerland), German (Germany), English (Australia), English (Canada), English (United Kingdom), English (Hong Kong SAR), English (Ireland), English (India), English (United States), Spanish (Spain), Spanish (Mexico), Finnish (Finland), French (Belgium), French (Canada), French (Switzerland), French (France), Hindi (India), Hungarian (Hungary), Indonesian (Indonesia), Italian (Italy), Japanese (Japan), Korean (Korea), Norwegian Bokmål (Norway), Dutch (Belgium), Dutch (Netherlands), Polish (Poland), Portuguese (Brazil), Portuguese (Portugal), Russian (Russia), Swedish (Sweden), Thai (Thailand), Turkish (Türkiye), Chinese (Mandarin, Simplified), Chinese (Cantonese, Traditional), Chinese (Taiwanese Mandarin, Traditional).

Estas voces multilingües no admiten completamente ciertos elementos SSML, como pausa, énfasis, silencio y sub.

Importante

La voz en-US-JennyMultilingualV2Neural se proporciona temporalmente en versión preliminar pública con fines de evaluación. Se eliminará en el futuro.

Para hablar en un idioma distinto del inglés, la implementación actual de la voz en-US-JennyMultilingualNeural requiere que establezca el elemento <lang xml:lang>. Se prevé que durante el trimestre 4 del año natural 2023, la voz en-US-JennyMultilingualNeural se actualizará para hablar en el idioma del texto de entrada sin el elemento <lang xml:lang>. Esto estará en paridad con la voz en-US-JennyMultilingualV2Neural.

Introducción a las nuevas características en versión preliminar pública para las voces siguientes:

Se ha agregado una entrada latina para las voces sr-RS serbias (Serbia): sr-latn-RS-SophieNeural y sr-latn-RS-NicholasNeural.
Se ha agregado compatibilidad con la pronunciación en inglés para las voces sq-AL albanesas (Albania): sq-AL-AnilaNeural y sq-AL-IlirNeural.

Versión de mayo de 2023

Audio Content Creation

Todas las voces preconfiguradas con estilos de habla y las voces personalizadas multiestilo admiten el ajuste del grado de estilo.
Ahora puede corregir la pronunciación de una palabra enunciando la palabra y grabándola. Los fonemas se pueden reconocer automáticamente desde la grabación. La característica Recognize by speaking está ahora en la versión preliminar pública.

Versión de abril de 2023

Voces TTS neuronales precompiladas

Las siguientes características de estas voces pasaron de la versión preliminar pública a la disponibilidad general:

Estilo	Voces de Texto a voz
style="chat"	`en-GB-RyanNeural`, `es-MX-JorgeNeural` y `it-IT-IsabellaNeural`
style="cheerful"	`en-GB-RyanNeural`, `en-GB-SoniaNeural`, `es-MX-JorgeNeural`, `fr-FR-DeniseNeural`, `fr-FR-HenriNeural` y `it-IT-IsabellaNeural`
style="sad"	`en-GB-SoniaNeural`, `fr-FR-DeniseNeural` y `fr-FR-HenriNeural`

Mejora de la pronunciación en inglés para las voces hi-IN, ta-IN y te-IN, ahora lanzada como paquete piloto en regiones de versión preliminar pública

Para más información, consulte la lista de idiomas y voces.

Versión de marzo de 2023

Nuevas características

El lenguaje de marcado de síntesis de voz (SSML) se actualiza para admitir elementos del procesador de efectos de audio que optimizan la calidad de la salida de voz sintetizada para escenarios específicos en los dispositivos. Obtenga más información en marcado de síntesis de voz.

Voz neuronal personalizada

Se ha agregado compatibilidad con la configuración regional nl-BE con voz neuronal personalizada Pro. Consulte la lista de idiomas y voces completa para más información.

Voces TTS neuronales precompiladas

Las voces siguientes están ahora disponibles con carácter general. Consulte la lista de idiomas y voces completa para más información.

Configuración regional (BCP-47)	Idioma	Voces de Texto a voz
`en-AU`	Inglés (Australia)	`en-AU-AnnetteNeural` (femenina) `en-AU-CarlyNeural` (femenina) `en-AU-DarrenNeural` (masculina) `en-AU-DuncanNeural` (masculina) `en-AU-ElsieNeural` (femenina) `en-AU-FreyaNeural` (femenina) `en-AU-JoanneNeural` (femenina) `en-AU-KenNeural` (masculina) `en-AU-KimNeural` (femenina) `en-AU-NeilNeural` (masculina) `en-AU-TimNeural` (masculina) `en-AU-TinaNeural` (femenina) `en-AU-WilliamNeural` (masculina)
`en-GB`	Inglés (Reino Unido)	`en-GB-RyanNeural` (masculina) `en-GB-SoniaNeural` (femenina)
`es-ES`	Español (España)	`es-ES-AbrilNeural` (femenina) `es-ES-ArnauNeural` (masculina) `es-ES-DarioNeural` (masculina) `es-ES-EliasNeural` (masculina) `es-ES-EstrellaNeural` (femenina) `es-ES-IreneNeural` (femenina) `es-ES-LaiaNeural` (femenina) `es-ES-LiaNeural` (femenina) `es-ES-NilNeural` (masculina) `es-ES-SaulNeural` (masculina) `es-ES-TeoNeural` (masculina) `es-ES-TrianaNeural` (femenina) `es-ES-VeraNeural` (femenina)
`es-MX`	Español (México)	`es-MX-JorgeNeural` (masculina)
`fr-FR`	Francés (Francia)	`fr-FR-HenriNeural` (masculina)
`it-IT`	Italiano (Italia)	`it-IT-IsabellaNeural` (femenina)
`ja-JP`	Japonés (Japón)	`ja-JP-AoiNeural` (femenina) `ja-JP-DaichiNeural` (masculina) `ja-JP-MayuNeural` (femenina) `ja-JP-NaokiNeural` (masculina) `ja-JP-ShioriNeural` (femenina)

Se ha agregado compatibilidad con el estilo cheerful con la voz de de-DE-ConradNeural.

Versión de febrero de 2023

Voces TTS neuronales precompiladas

Las voces siguientes están ahora disponibles con carácter general. Consulte la lista de idiomas y voces completa para más información.

Configuración regional (BCP-47)	Idioma	Voces de Texto a voz
`zh-CN`	Chino (mandarín, simplificado)	`zh-CN-XiaomengNeural` (femenina) `zh-CN-XiaoyiNeural` (femenina) `zh-CN-XiaozhenNeural` (femenina) `zh-CN-YunfengNeural` (masculina) `zh-CN-YunhaoNeural` (masculina) `zh-CN-YunjianNeural` (masculina) `zh-CN-YunxiaNeural` (masculina) `zh-CN-YunzeNeural` (masculina)
`zh-CN-henan`	Chino (mandarín zhongyuan de Henan, simplificado)	`zh-CN-henan-YundengNeural` (masculina)

Versión de diciembre de 2022

API REST de síntesis por lotes (versión preliminar)

Batch synthesis API se encuentra actualmente en versión preliminar pública. Una vez que esté disponible con carácter general, Long Audio API está en desuso. Para obtener más información, consulte Migración a Batch synthesis API.

Versión de noviembre de 2022

Voces TTS neuronales precompiladas (disponibilidad general)

Las voces siguientes están ahora disponibles con carácter general. Consulte la lista de idiomas y voces completa para más información.

Configuración regional (BCP-47)	Idioma	Voces de Texto a voz
`es-MX`	Español (México)	`es-MX-BeatrizNeural` (femenina) `es-MX-CandelaNeural` (femenina) `es-MX-CarlotaNeural` (femenina) `es-MX-CecilioNeural` (masculina) `es-MX-GerardoNeural` (masculina) `es-MX-LarissaNeural` (femenina) `es-MX-LibertoNeural` (masculina) `es-MX-LucianoNeural` (masculina) `es-MX-MarinaNeural` (femenina) `es-MX-NuriaNeural` (femenina) `es-MX-PelayoNeural` (masculina) `es-MX-RenataNeural` (femenina) `es-MX-YagoNeural` (masculina)
`it-IT`	Italiano (Italia)	`it-IT-BenignoNeural` (masculina) `it-IT-CalimeroNeural` (masculina) `it-IT-CataldoNeural` (masculina) `it-IT-FabiolaNeural` (femenina) `it-IT-FiammaNeural` (femenina) `it-IT-GianniNeural` (masculina) `it-IT-ImeldaNeural` (femenina) `it-IT-IrmaNeural` (femenina) `it-IT-LisandroNeural` (masculina) `it-IT-PalmiraNeural` (femenina) `it-IT-PierinaNeural` (femenina) `it-IT-RinaldoNeural` (masculina)
`pt-BR`	Portugués (Brasil)	`pt-BR-BrendaNeural` (femenina) `pt-BR-DonatoNeural` (masculina) `pt-BR-ElzaNeural` (femenina) `pt-BR-FabioNeural` (masculina) `pt-BR-GiovannaNeural` (femenina) `pt-BR-HumbertoNeural` (masculina) `pt-BR-JulioNeural` (masculina) `pt-BR-LeilaNeural` (femenina) `pt-BR-LeticiaNeural` (femenina) `pt-BR-ManuelaNeural` (femenina) `pt-BR-NicolauNeural` (masculina) `pt-BR-ValerioNeural` (masculina) `pt-BR-YaraNeural` (femenina)

Voz neuronal personalizada

Se ha agregado la siguiente compatibilidad con la configuración regional para la voz neuronal personalizada. Consulte la lista de idiomas y voces completa para más información.

Se ha agregado compatibilidad con la configuración regional fr-BE con voz neuronal personalizada Pro.
Se ha agregado compatibilidad con la configuración regional es-ES con la voz neuronal personalizada lite.

Versión de octubre de 2022

Voces TTS neuronales precompiladas (disponibilidad general)

Las voces siguientes están ahora disponibles con carácter general. Consulte la lista de idiomas y voces completa para más información.

Configuración regional (BCP-47)	Idioma	Voces de Texto a voz
`eu-ES`	Vasco	`eu-ES-AinhoaNeural` (femenina) `eu-ES-AnderNeural` (masculina)
`hy-AM`	Armenio (Armenia)	`hy-AM-AnahitNeural` (femenina) `hy-AM-HaykNeural` (masculina)

Voces TTS neuronales precompiladas (versión preliminar)

Las voces siguientes están disponibles ahora en versión preliminar pública. Consulte la lista de idiomas y voces completa para más información.

Configuración regional (BCP-47)	Idioma	Voces de Texto a voz
`en-AU`	Inglés (Australia)	`en-AU-AnnetteNeural`(mujer) `en-AU-CarlyNeural`(mujer) `en-AU-DarrenNeural`(hombre) `en-AU-DuncanNeural`(hombre) `en-AU-ElsieNeural`(mujer) `en-AU-FreyaNeural`(mujer) `en-AU-JoanneNeural`(mujer) `en-AU-KenNeural`(hombre) `en-AU-KimNeural`(mujer) `en-AU-NeilNeural`(hombre) `en-AU-TimNeural`(hombre) `en-AU-TinaNeural`(mujer)
`es-ES`	Español (España)	`es-ES-AbrilNeural`(mujer) `es-ES-AlvaroNeural`(hombre) `es-ES-ArnauNeural`(hombre) `es-ES-DarioNeural`(hombre) `es-ES-EliasNeural`(hombre) `es-ES-EstrellaNeural`(mujer) `es-ES-IreneNeural`(mujer) `es-ES-LaiaNeural`(mujer) `es-ES-LiaNeural`(mujer) `es-ES-NilNeural`(hombre) `es-ES-SaulNeural`(hombre) `es-ES-TeoNeural`(hombre) `es-ES-TrianaNeural`(mujer) `es-ES-VeraNeural`(mujer)
`ja-JP`	Japonés (Japón)	`ja-JP-AoiNeural`(mujer) `ja-JP-DaichiNeural`(hombre) `ja-JP-MayuNeural`(mujer) `ja-JP-NaokiNeural`(hombre) `ja-JP-ShioriNeural`(mujer)
`ko-KR`	Coreano (Corea)	`ko-KR-BongJinNeural`(hombre) `ko-KR-GookMinNeural`(hombre) `ko-KR-JiMinNeural`(mujer) `ko-KR-SeoHyeonNeural`(mujer) `ko-KR-SoonBokNeural`(mujer) `ko-KR-YuJinNeural`(mujer)
`wuu-CN`	Chino (wu, simplificado)	`wuu-CN-XiaotongNeural` (femenina) `wuu-CN-YunzheNeural` (masculina)
`yue-CN`	Chino (cantonés, simplificado)	`yue-CN-XiaoMinNeural` (femenina) `yue-CN-YunSongNeural` (masculina)

Actualizaciones generales de voz de TTS

Calidad mejorada para las voces fil-PH-AngeloNeural y fil-PH-BlessicaNeural.
Las reglas de normalización de texto se actualizan para las voces con las configuraciones regionales español (Chile) es-CL y Uzbek (Uzbekistán) uz-UZ.
Se han agregado letras en inglés para las voces con las configuraciones regionales albanés (Albania) sq-AL y azerbaiyano (Azerbaiyán) az-AZ.
Se ha mejorado la pronunciación del inglés para la voz zh-HK-WanLungNeural.
Tono de pregunta mejorado para las voces nl-NL-MaartenNeural y pt-BR-AntonioNeural.
Se ha agregado compatibilidad de la etiqueta <lang ="en-US"> para una mejor pronunciación del inglés con las siguientes voces: de-DE-ConradNeural, de-DE-KatjaNeural, es-ES-AlvaroNeural, es-MX-DaliaNeural, es-MX-JorgeNeural, fr-CA-SylvieNeural, fr-FR-DeniseNeural, fr-FR-HenriNeural, it-IT-DiegoNeural y it-IT-IsabellaNeural.
Se ha agregado compatibilidad de la etiqueta style="chat" con las voces siguientes: en-GB-RyanNeural, es-MX-JorgeNeural y it-IT-IsabellaNeural.
Se ha agregado compatibilidad de la etiqueta style="cheerful" con las voces siguientes: en-GB-RyanNeural, en-GB-SoniaNeural, es-MX-JorgeNeural, fr-FR-DeniseNeural, fr-FR-HenriNeural y it-IT-IsabellaNeural.
Se ha agregado compatibilidad de la etiqueta style="sad" con las voces siguientes: en-GB-SoniaNeural, fr-FR-DeniseNeural y fr-FR-HenriNeural.

Versión de septiembre de 2022

Voz TTS neuronal precompilada

Todas las voces neuronales precompiladas se han actualizado a voces de alta fidelidad con frecuencia de muestreo de 48 kHz.

Versión de agosto de 2022

Voz TTS neuronal precompilada

Se han publicado nuevas voces en versión preliminar pública:

Voces para inglés (Estados Unidos): en-US-AIGenerate1Neural y en-US-AIGenerate2Neural.
Voces para idiomas regionales chinos: zh-CN-henan-YundengNeural, zh-CN-shaanxi-XiaoniNeural y zh-CN-shandong-YunxiangNeural.

Para más información, consulte la lista de idiomas y voces.

Versión de julio de 2022

Voz TTS neuronal precompilada

Se han agregado 5 nuevas voces de chino (mandarín, simplificado) (zh-CN) y 1 nueva voz de inglés (Estados Unidos) (en-US) en versión preliminar pública. Consulte la lista completa de idiomas y voces.

Idioma	Configuración regional	Sexo	Nombre de voz	Compatibilidad de estilo
Chino (mandarín, simplificado)	`zh-CN`	Female	`zh-CN-XiaomengNeural`^Nueva	General, varios estilos disponibles mediante SSML
Chino (mandarín, simplificado)	`zh-CN`	Female	`zh-CN-XiaoyiNeural`^Nueva	General, varios estilos disponibles mediante SSML
Chino (mandarín, simplificado)	`zh-CN`	Female	`zh-CN-XiaozhenNeural`^Nueva	General, varios estilos disponibles mediante SSML
Chino (mandarín, simplificado)	`zh-CN`	Male	`zh-CN-YunxiaNeural`^Nueva	General, varios estilos disponibles mediante SSML
Chino (mandarín, simplificado)	`zh-CN`	Male	`zh-CN-YunzeNeural`^Nueva	General, varios estilos disponibles mediante SSML
Spanish (Traditional Sort) - Spain	`en-US`	Male	`en-US-RogerNeural`^Nueva	General

Estilos y roles admitidos para las voces neuronales agregadas.

Voz	Estilos	Grado de estilo	Roles
^{Versión preliminar pública} de zh-CN-XiaomengNeural	`chat`	Compatible
^{Versión preliminar pública} de zh-CN-XiaoyiNeura	`affectionate`, `angry`, `cheerful`, `disgruntled`, `embarrassed`, `fearful`, `gentle`, `sad`, `serious`	Compatible
^{Versión preliminar pública} de zh-CN-XiaozhenNeural	`angry`, `cheerful`, `disgruntled`, `fearful`, `sad`, `serious`	Compatible
^{Versión preliminar pública} de zh-CN-YunhaoNeural	`angry`, `calm`, `cheerful`, `fearful`, `sad`	Compatible
^{versión preliminar pública} de zh-CN-YunhaoNeural	`angry`, `calm`, `cheerful`, `depressed`, `disgruntled`, `documentary-narration`, `fearful`, `sad`, `serious`	Compatible	Compatible

Obtención de la posición facial con visema

Se ha agregado compatibilidad con formas de combinación para impulsar los movimientos faciales de un personaje 3D diseñado por el usuario. Obtenga más información sobre cómo obtener la posición facial con visema.
Se ha actualizado SSML para que admita el elemento de visema. Consulte Marcado de síntesis de voz.

Versión de junio de 2022

Voz TTS neuronal precompilada

Se han agregado 9 nuevos idiomas y variantes para la conversión de texto a voz neuronal:

Idioma	Configuración regional	Sexo	Nombre de voz	Compatibilidad de estilo
Árabe (Líbano)	`ar-LB`	Female	`ar-LB-LaylaNeural`^Nueva	General
Árabe (Líbano)	`ar-LB`	Male	`ar-LB-RamiNeural`^Nueva	General
Árabe (Omán)	`ar-OM`	Female	`ar-OM-AyshaNeural`^Nueva	General
Árabe (Omán)	`ar-OM`	Male	`ar-OM-AbdullahNeural`^Nueva	General
Azerbaiyano (Azerbaiyán)	`az-AZ`	Female	`az-AZ-BabekNeural`^Nueva	General
Azerbaiyano (Azerbaiyán)	`az-AZ`	Male	`az-AZ-BanuNeural`^Nueva	General
Bosnio (Bosnia y Herzegovina)	`bs-BA`	Female	`bs-BA-VesnaNeural`^Nueva	General
Bosnio (Bosnia y Herzegovina)	`bs-BA`	Male	`bs-BA-GoranNeural`^Nueva	General
Georgiano (Georgia)	`ka-GE`	Female	`ka-GE-EkaNeural`^Nueva	General
Georgiano (Georgia)	`ka-GE`	Male	`ka-GE-GiorgiNeural`^Nueva	General
Mongol (Mongolia)	`mn-MN`	Female	`mn-MN-YesuiNeural`^Nueva	General
Mongol (Mongolia)	`mn-MN`	Male	`mn-MN-BataaNeural`^Nueva	General
Nepalí (Nepal)	`ne-NP`	Female	`ne-NP-HemkalaNeural`^Nueva	General
Nepalí (Nepal)	`ne-NP`	Male	`ne-NP-SagarNeural`^Nueva	General
Albanés (Albania)	`sq-AL`	Female	`sq-AL-AnilaNeural`^Nueva	General
Albanés (Albania)	`sq-AL`	Male	`sq-AL-IlirNeural`^Nueva	General
Tamil (Malasia)	`ta-MY`	Female	`ta-MY-KaniNeural`^Nueva	General
Tamil (Malasia)	`ta-MY`	Male	`ta-MY-SuryaNeural`^Nueva	General

Disponibilidad general de 36 voces de versión preliminar pública para en-GB inglés (Reino Unido), fr-FR francés (Francia) y de-DE alemán (Alemania):

Idioma	Configuración regional	Sexo	Nombre de voz	Compatibilidad de estilo
Inglés (Reino Unido)	`en-GB`	Female	`en-GB-AbbiNeural`	General
Inglés (Reino Unido)	`en-GB`	Female	`en-GB-BellaNeural`	General
Inglés (Reino Unido)	`en-GB`	Female	`en-GB-HollieNeural`	General
Inglés (Reino Unido)	`en-GB`	Female	`en-GB-MaisieNeural`	General, voz de niño
Inglés (Reino Unido)	`en-GB`	Female	`en-GB-OliviaNeural`	General
Inglés (Reino Unido)	`en-GB`	Female	`en-GB-SoniaNeural`	General
Inglés (Reino Unido)	`en-GB`	Male	`en-GB-AlfieNeural`	General
Inglés (Reino Unido)	`en-GB`	Male	`en-GB-ElliotNeural`	General
Inglés (Reino Unido)	`en-GB`	Male	`en-GB-EthanNeural`	General
Inglés (Reino Unido)	`en-GB`	Male	`en-GB-NoahNeural`	General
Inglés (Reino Unido)	`en-GB`	Male	`en-GB-OliverNeural`	General
Inglés (Reino Unido)	`en-GB`	Male	`en-GB-ThomasNeural`	General
Francés (Francia)	`fr-FR`	Female	`fr-FR-BrigitteNeural`	General
Francés (Francia)	`fr-FR`	Female	`fr-FR-CelesteNeural`	General
Francés (Francia)	`fr-FR`	Female	`fr-FR-CoralieNeural`	General
Francés (Francia)	`fr-FR`	Female	`fr-FR-EloiseNeural`	General, voz de niño
Francés (Francia)	`fr-FR`	Female	`fr-FR-JacquelineNeural`	General
Francés (Francia)	`fr-FR`	Female	`fr-FR-JosephineNeural`	General
Francés (Francia)	`fr-FR`	Female	`fr-FR-YvetteNeural`	General
Francés (Francia)	`fr-FR`	Male	`fr-FR-AlainNeural`	General
Francés (Francia)	`fr-FR`	Male	`fr-FR-ClaudeNeural`	General
Francés (Francia)	`fr-FR`	Male	`fr-FR-JeromeNeural`	General
Francés (Francia)	`fr-FR`	Male	`fr-FR-MauriceNeural`	General
Francés (Francia)	`fr-FR`	Male	`fr-FR-YvesNeural`	General
Alemán (Alemania)	`de-DE`	Female	`de-DE-AmalaNeural`	General
Alemán (Alemania)	`de-DE`	Female	`de-DE-ElkeNeural`	General
Alemán (Alemania)	`de-DE`	Female	`de-DE-GiselaNeural`	General, voz de niño
Alemán (Alemania)	`de-DE`	Female	`de-DE-KlarissaNeural`	General
Alemán (Alemania)	`de-DE`	Female	`de-DE-LouisaNeural`	General
Alemán (Alemania)	`de-DE`	Female	`de-DE-MajaNeural`	General
Alemán (Alemania)	`de-DE`	Female	`de-DE-TanjaNeural`	General
Alemán (Alemania)	`de-DE`	Male	`de-DE-BerndNeural`	General
Alemán (Alemania)	`de-DE`	Male	`de-DE-ChristophNeural`	General
Alemán (Alemania)	`de-DE`	Male	`de-DE-KasperNeural`	General
Alemán (Alemania)	`de-DE`	Male	`de-DE-KillianNeural`	General
Alemán (Alemania)	`de-DE`	Male	`de-DE-KlausNeural`	General
Alemán (Alemania)	`de-DE`	Male	`de-DE-RalfNeural`	General

Se han agregado 40 nuevas voces de es-MX español (México), it-ITitaliano (Italia), pt-BR portugués (Brasil) y 2 acentos para zh-CN chino (mandarín, simplificado) en versión preliminar pública:

Idioma	Configuración regional	Sexo	Nombre de voz	Compatibilidad de estilo
Español (México)	`es-MX`	Female	`es-MX-BeatrizNeural`^Nueva	General
Español (México)	`es-MX`	Female	`es-MX-CarlotaNeural`^Nueva	General
Español (México)	`es-MX`	Female	`es-MX-NuriaNeural`^Nueva	General
Español (México)	`es-MX`	Female	`es-MX-RenataNeural`^Nueva	General
Español (México)	`es-MX`	Female	`es-MX-LarissaNeural`^Nueva	General
Español (México)	`es-MX`	Female	`es-MX-CandelaNeural`^Nueva	General
Español (México)	`es-MX`	Female	`es-MX-MarinaNeural`^Nueva	General
Italiano (Italia)	`it-IT`	Female	`it-IT-FiammaNeural`^Nueva	General
Italiano (Italia)	`it-IT`	Female	`it-IT-IrmaNeural`^Nueva	General
Italiano (Italia)	`it-IT`	Female	`it-IT-FabiolaNeural`^Nueva	General
Italiano (Italia)	`it-IT`	Female	`it-IT-PalmiraNeural`^Nueva	General
Italiano (Italia)	`it-IT`	Female	`it-IT-ImeldaNeural`^Nueva	General
Italiano (Italia)	`it-IT`	Female	`it-IT-PierinaNeural`^Nueva	General
Portugués (Brasil)	`pt-BR`	Female	`pt-BR-ElzaNeural`^Nueva	General
Portugués (Brasil)	`pt-BR`	Female	`pt-BR-ManuelaNeural`^Nueva	General
Portugués (Brasil)	`pt-BR`	Female	`pt-BR-BrendaNeural`^Nueva	General
Portugués (Brasil)	`pt-BR`	Female	`pt-BR-LeilaNeural`^Nueva	General
Portugués (Brasil)	`pt-BR`	Female	`pt-BR-YaraNeural`^Nueva	General
Portugués (Brasil)	`pt-BR`	Female	`pt-BR-GiovannaNeural`^Nueva	General
Portugués (Brasil)	`pt-BR`	Female	`pt-BR-LeticiaNeural`^Nueva	General
Español (México)	`es-MX`	Male	`es-MX-CecilioNeural`^Nueva	General
Español (México)	`es-MX`	Male	`es-MX-LibertoNeural`^Nueva	General
Español (México)	`es-MX`	Male	`es-MX-LucianoNeural`^Nueva	General
Español (México)	`es-MX`	Male	`es-MX-PelayoNeural`^Nueva	General
Español (México)	`es-MX`	Male	`es-MX-YagoNeural`^Nueva	General
Español (México)	`es-MX`	Male	`es-MX-GerardoNeural`^Nueva	General
Italiano (Italia)	`it-IT`	Male	`it-IT-BenignoNeural`^Nueva	General
Italiano (Italia)	`it-IT`	Male	`it-IT-CataldoNeural`^Nueva	General
Italiano (Italia)	`it-IT`	Male	`it-IT-LisandroNeural`^Nueva	General
Italiano (Italia)	`it-IT`	Male	`it-IT-CalimeroNeural`^Nueva	General
Italiano (Italia)	`it-IT`	Male	`it-IT-RinaldoNeural`^Nueva	General
Italiano (Italia)	`it-IT`	Male	`it-IT-GianniNeural`^Nueva	General
Portugués (Brasil)	`pt-BR`	Male	`pt-BR-DonatoNeural`^Nueva	General
Portugués (Brasil)	`pt-BR`	Male	`pt-BR-HumbertoNeural`^Nueva	General
Portugués (Brasil)	`pt-BR`	Male	`pt-BR-FabioNeural`^Nueva	General
Portugués (Brasil)	`pt-BR`	Male	`pt-BR-JulioNeural`^Nueva	General
Portugués (Brasil)	`pt-BR`	Male	`pt-BR-ValerioNeural`^Nueva	General
Portugués (Brasil)	`pt-BR`	Male	`pt-BR-NicolauNeural`^Nueva	General
Chino (mandarín, simplificado)	`zh-CN-sichuan`	Male	`zh-CN-sichuan-YunxiSichuanNeural`^Nueva	General, acento de Sichuan
Chino (mandarín, simplificado)	`zh-CN-liaoning`	Female	`zh-CN-liaoning-XiaobeiNeural`^Nueva	General, acento de Liaoning

Calidad mejorada para en-SG-LunaNeural y en-SG-WayneNeural
Compatibilidad de salida de 48 kHz para la versión preliminar pública con en-US-JennyNeural, en-US-AriaNeural y zh-CN-XiaoxiaoNeural

Voz neuronal personalizada

Se ha habilitado para corregir problemas de datos en línea. Obtenga más información sobre cómo resolver problemas de datos en Speech Studio.
Se ha agregado la versión de la receta de entrenamiento. Obtenga más información sobre cómo seleccionar la versión de la receta de entrenamiento para el modelo de voz.

Herramienta de Creación de contenido de audio

Se ha admitido la paginación.
Se ha habilitado para ordenar de manera global por nombre, tipo de archivo y hora de actualización en la página del archivo de trabajo.

Versión de mayo de 2022

Voz TTS neuronal precompilada

Se han lanzado cinco voces nuevas en versión preliminar pública con varios estilos para enriquecer la variedad de inglés americano. Consulte la lista completa de idiomas y voces.
Se admiten los nuevos estilos Angry, Excited, Friendly, Hopeful, Sad, Shouting, Unfriendly, Terrified y Whispering en versión preliminar pública para en-US-AriaNeural.
Se admiten los nuevos estilos Angry, Cheerful, Excited, Friendly, Hopeful, Sad, Shouting, Unfriendly, Terrified y Whispering en versión preliminar pública para en-US-GuyNeural y en-US-JennyNeural.
Se admiten los nuevos estilos Excited, Friendly, Hopeful, Shouting, Unfriendly, Terrified y Whispering en versión preliminar pública para en-US-SaraNeural. Consulte estilos y roles de voz.
Se han publicado nuevas voces zh-CN-YunjianNeural, zh-CN-YunhaoNeural y zh-CN-YunfengNeural en versión preliminar pública. Consulte la lista completa de idiomas y voces.
Se admiten dos nuevos estilos sports-commentary, sports-commentary-excited en la versión preliminar pública para zh-CN-YunjianNeural. Consulte estilos y roles de voz.
Se admite un nuevo estilo advertisement-upbeat en la versión preliminar pública para zh-CN-YunhaoNeural. Consulte estilos y roles de voz.
Los estilos cheerful y sad para fr-FR-DeniseNeural están disponibles con carácter general en todas las regiones.
Se ha actualizado SSML a fin de admitir elementos MathML para las voces en-US y en-AU. Obtenga más información en marcado de síntesis de voz.

Voz neuronal personalizada

Se ha habilitado para cancelar el entrenamiento durante el entrenamiento del modelo de voz. Obtenga más información sobre cómo cancelar el entrenamiento.
Se ha habilitado para clonar el modelo (cambiar el nombre del modelo de voz). Obtenga más información sobre cómo cambiar el nombre del modelo de voz.
Se ha habilitado para probar el modelo de voz agregando su propio script de prueba. Obtenga más información sobre cómo cargar el script de prueba.
Se ha habilitado para actualizar la versión del motor del modelo de voz. Obtenga más información sobre cómo actualizar la versión del motor del modelo.
Se han admitido más regiones de entrenamiento. Consulte las regiones admitidas.
Se admiten 10 configuraciones regionales para la voz neuronal personalizada lite (versión preliminar). Consulte los idiomas admitidos.

Herramienta de Creación de contenido de audio

Se ha habilitado para probar la herramienta Creación de contenido de audio sin iniciar sesión.
Se ha mejorado el diseño para ajustar los fonemas.
Se ha mejorado el rendimiento: se ha especificado el número máximo (200) de archivos que se van a cargar al mismo tiempo.
Se ha mejorado el rendimiento: se ha especificado el nivel máximo de profundidad de directorio (5 niveles).

Versión de marzo de 2022

Voz TTS neuronal precompilada

Se ha agregado compatibilidad en la versión preliminar pública para los estilos Cheerful y Sad con fr-FR-DeniseNeural. Consulte estilos y roles de voz.
Se han publicado contenedores desconectados para voces TTS neuronales precompiladas en la versión preliminar pública. Consulte uso de contenedores Docker en entornos desconectados.

Voz neuronal personalizada

Control de acceso basado en rol admitido. Obtenga más información sobre el control de acceso basado en rol de Azure en Speech Studio
Puntos de conexión privados y puntos de conexión de servicio de red virtual admitidos. Obtenga más información sobre cómo usar puntos de conexión privados con el servicio Voz.

Herramienta de Creación de contenido de audio

Se ha actualizado el tamaño de archivo y el límite de simultaneidad de los recursos de nivel libre (F0) para que la experiencia sea coherente con el SDK de Voz y las API. Consulte cuotas y límites del servicio Voz.

Versión de febrero de 2022

Voz neuronal personalizada

Se publicó voz neuronal personalizada lite en versión preliminar pública. Obtenga más información sobre qué es la voz neuronal personalizada lite.
Se ha ampliado la compatibilidad de idioma a 49 configuraciones regionales. Consulte los idiomas admitidos.
Se admiten más regiones y centros de datos. Consulte las regiones admitidas.

Herramienta de Creación de contenido de audio

Se ha quitado el límite de longitud de salida para descargar audios.

Versión de enero de 2022

Nuevos idiomas y voces

Se han agregado 10 nuevos idiomas y variantes para la conversión de texto a voz neuronal:

Idioma	Configuración regional	Sexo	Nombre de voz	Compatibilidad de estilo
Bengali (India)	`bn-IN`	Female	`bn-IN-TanishaaNeural`^Nueva	General
Bengali (India)	`bn-IN`	Male	`bn-IN-BashkarNeural`^Nueva	General
Islandés (Islandia)	`is-IS`	Female	`is-IS-GudrunNeural`^Nueva	General
Islandés (Islandia)	`is-IS`	Male	`is-IS-GunnarNeural`^Nueva	General
Canarés (India)	`kn-IN`	Female	`kn-IN-SapnaNeural`^Nueva	General
Canarés (India)	`kn-IN`	Male	`kn-IN-GaganNeural`^Nueva	General
Kazajo (Kazajistán)	`kk-KZ`	Female	`kk-KZ-AigulNeural`^Nueva	General
Kazajo (Kazajistán)	`kk-KZ`	Male	`kk-KZ-DauletNeural`^Nueva	General
Lao (Laos)	`lo-LA`	Female	`lo-LA-KeomanyNeural`^Nueva	General
Lao (Laos)	`lo-LA`	Male	`lo-LA-ChanthavongNeural`^Nueva	General
Macedonio (República de Macedonia del Norte)	`mk-MK`	Female	`mk-MK-MarijaNeural`^Nueva	General
Macedonio (República de Macedonia del Norte)	`mk-MK`	Male	`mk-MK-AleksandarNeural`^Nueva	General
Malayalam (India)	`ml-IN`	Female	`ml-IN-SobhanaNeural`^Nueva	General
Malayalam (India)	`ml-IN`	Male	`ml-IN-MidhunNeural`^Nueva	General
Pastún (Afganistán)	`ps-AF`	Female	`ps-AF-LatifaNeural`^Nueva	General
Pastún (Afganistán)	`ps-AF`	Male	`ps-AF-GulNawazNeural`^Nueva	General
Serbio (cirílico, Serbia)	`sr-RS`	Female	`sr-RS-SophieNeural`^Nueva	General
Serbio (cirílico, Serbia)	`sr-RS`	Male	`sr-RS-NicholasNeural`^Nueva	General
Cingalés (Sri Lanka)	`si-LK`	Female	`si-LK-ThiliniNeural`^Nueva	General
Cingalés (Sri Lanka)	`si-LK`	Male	`si-LK-SameeraNeural`^Nueva	General

Hay una lista completa de voces disponibles en Idiomas admitidos.

Nueva voces en versión preliminar

Se han agregado nuevas voces para en-GB, fr-FR y de-DE en versión preliminar:

Idioma	Configuración regional	Sexo	Nombre de voz	Compatibilidad de estilo
Inglés (Reino Unido)	`en-GB`	Female	`en-GB-AbbiNeural`^Nueva	General
Inglés (Reino Unido)	`en-GB`	Female	`en-GB-BellaNeural`^Nueva	General
Inglés (Reino Unido)	`en-GB`	Female	`en-GB-HollieNeural`^Nueva	General
Inglés (Reino Unido)	`en-GB`	Female	`en-GB-OliviaNeural`^Nueva	General
Inglés (Reino Unido)	`en-GB`	Girl	`en-GB-MaisieNeural`^Nueva	General
Inglés (Reino Unido)	`en-GB`	Male	`en-GB-AlfieNeural`^Nueva	General
Inglés (Reino Unido)	`en-GB`	Male	`en-GB-ElliotNeural`^Nueva	General
Inglés (Reino Unido)	`en-GB`	Male	`en-GB-EthanNeural`^Nueva	General
Inglés (Reino Unido)	`en-GB`	Male	`en-GB-NoahNeural`^Nueva	General
Inglés (Reino Unido)	`en-GB`	Male	`en-GB-OliverNeural`^Nueva	General
Inglés (Reino Unido)	`en-GB`	Male	`en-GB-ThomasNeural`^Nueva	General
Francés (Francia)	`fr-FR`	Female	`fr-FR-BrigitteNeural`^Nueva	General
Francés (Francia)	`fr-FR`	Female	`fr-FR-CelesteNeural`^Nueva	General
Francés (Francia)	`fr-FR`	Female	`fr-FR-CoralieNeural`^Nueva	General
Francés (Francia)	`fr-FR`	Female	`fr-FR-JacquelineNeural`^Nueva	General
Francés (Francia)	`fr-FR`	Female	`fr-FR-JosephineNeural`^Nueva	General
Francés (Francia)	`fr-FR`	Female	`fr-FR-YvetteNeural`^Nueva	General
Francés (Francia)	`fr-FR`	Girl	`fr-FR-EloiseNeural`^Nueva	General
Francés (Francia)	`fr-FR`	Male	`fr-FR-AlainNeural`^Nueva	General
Francés (Francia)	`fr-FR`	Male	`fr-FR-ClaudeNeural`^Nueva	General
Francés (Francia)	`fr-FR`	Male	`fr-FR-JeromeNeural`^Nueva	General
Francés (Francia)	`fr-FR`	Male	`fr-FR-MauriceNeural`^Nueva	General
Francés (Francia)	`fr-FR`	Male	`fr-FR-YvesNeural`^Nueva	General
Alemán (Alemania)	`de-DE`	Female	`de-DE-AmalaNeural`^Nueva	General
Alemán (Alemania)	`de-DE`	Female	`de-DE-ElkeNeural`^Nueva	General
Alemán (Alemania)	`de-DE`	Female	`de-DE-KlarissaNeural`^Nueva	General
Alemán (Alemania)	`de-DE`	Female	`de-DE-LouisaNeural`^Nueva	General
Alemán (Alemania)	`de-DE`	Female	`de-DE-MajaNeural`^Nueva	General
Alemán (Alemania)	`de-DE`	Female	`de-DE-TanjaNeural`^Nueva	General
Alemán (Alemania)	`de-DE`	Girl	`de-DE-GiselaNeural`^Nueva	General
Alemán (Alemania)	`de-DE`	Male	`de-DE-BerndNeural`^Nueva	General
Alemán (Alemania)	`de-DE`	Male	`de-DE-ChristophNeural`^Nueva	General
Alemán (Alemania)	`de-DE`	Male	`de-DE-KasperNeural`^Nueva	General
Alemán (Alemania)	`de-DE`	Male	`de-DE-KillianNeural`^Nueva	General
Alemán (Alemania)	`de-DE`	Male	`de-DE-KlausNeural`^Nueva	General
Alemán (Alemania)	`de-DE`	Male	`de-DE-RalfNeural`^Nueva	General

Hay una lista completa de voces disponibles en Idiomas admitidos.

Precisión de la pronunciación

Pronunciación mejorada de palabras en inglés para todas las voces de he-IL.
Se ha mejorado la precisión de la pronunciación a nivel de palabra para cs-CZ y da-DK.
Se ha mejorado el control de los diacríticos árabes y los nikud hebreos.
Se ha mejorado la lectura de entidades para ja-JP.

Speech Studio

Voz neuronal personalizada: habilitó pruebas de modelos adicionales mediante la API por lotes (API de audio larga)
Creación de contenido de audio: se han habilitado más formatos de salida

Versión de octubre de 2021

Nuevos idiomas y voces

Se han agregado 49 nuevos idiomas y 98 voces para la conversión de texto a voz neuronal:

Adri en af-ZA afrikáans (Sudáfrica), Willem en af-ZA afrikáans (Sudáfrica), Mekdes en am-ET amárico (Etiopía), Ameha en am-ET amárico (Etiopía), Fátima en ar-AE árabe (Emiratos Árabes Unidos), Hamdan en ar-AE árabe (Emiratos Árabes Unidos), Laila en ar-BH árabe (Bahréin), Ali en ar-BH árabe (Bahréin), Amina en ar-DZ árabe (Argelia), Ismael en ar-DZ árabe (Argelia), Rana en ar-IQ árabe (Irak), Bassel en ar-IQ árabe (Irak), Sana en ar-JO árabe (Jordania), Taim en ar-JO árabe (Jordania), Noura en ar-KW árabe (Kuwait), Fahed en ar-KW árabe (Kuwait), Iman en ar-LY árabe (Libia), Omar en ar-LY árabe (Libia), Mouna en ar-MA árabe (Marruecos), Jamal en ar-MA árabe (Marruecos), Amal en ar-QA árabe (Catar), Moaz en ar-QA árabe (Catar), Amany en ar-SY árabe (Siria), Laith en ar-SY árabe (Siria), Reem en ar-TN árabe (Túnez), Hedi en ar-TN árabe (Túnez), Maryam en ar-YE árabe (Yemen ), Saleh en ar-YE árabe (Yemen), Nabanita en bn-BD bengalí (Bangladesh), Pradeep en bn-BD bengalí (Bangladesh), Asilia en en-KE inglés (Kenia), Chilemba en en-KE inglés (Kenia), Ezinne en en-NG inglés (Nigeria), Abeo en en-NG inglés (Nigeria), Imani en en-TZ inglés (Tanzania), Elimu en en-TZ inglés (Tanzania), Sofia en es-BO español (Bolivia), Marcelo en es-BO español (Bolivia), Catalina en es-CL español (Chile), Lorenzo en es-CL español (Chile), María en es-CR español (Costa Rica), Juan en es-CR español (Costa Rica), Belkys en es-CU español (Cuba), Manuel en es-CU español (Cuba), Ramona en es-DO español (República Dominicana), Emilio en es-DO español (República Dominicana), Andrea en es-EC español (Ecuador), Luis en es-EC español (Ecuador), Teresa en es-GQ español (Guinea Ecuatorial), Javier en es-GQ español (Guinea Ecuatorial), Marta en es-GT español (Guatemala), Andrés en es-GT español (Guatemala), Karla en es-HN español (Honduras), Carlos en es-HN español (Honduras), Yolanda en es-NI español (Nicaragua), Federico en es-NI español (Nicaragua), Margarita en es-PA español (Panamá), Roberto en es-PA español (Panamá), Camila en es-PE español (Perú), Alex en es-PE español (Perú), Karina en es-PR español (Puerto Rico), Víctor en es-PR español (Puerto Rico), Tania en es-PY español (Paraguay), Mario en es-PY español (Paraguay), Lorena en es-SV español (El Salvador), Rodrigo en es-SV español (El Salvador), Valentina en es-UY español (Uruguay), Mateo en es-UY español (Uruguay), Paola en es-VE español (Venezuela), Sebastián en es-VE español (Venezuela), Dilara en fa-IR persa (Irán), Farid en fa-IR persa (Irán), Blessica en fil-PH filipino (Filipinas), Angelo en fil-PH filipino (Filipinas), Sabela en gl-ES gallego (España), Roi en gl-ES gallego (España), Siti en jv-ID javanés (Indonesia), Dimas en jv-ID javanés (Indonesia), Sreymom en km-KH jemer (Camboya), Piseth en km-KH jemer (Camboya), Nilar en my-MM birmano (Myanmar), Thiha en my-MM birmano (Myanmar), Ubax en so-SO somalí (Somalia), Muuse en so-SO somalí (Somalia), Tuti en su-ID sundanés (Indonesia), Jajang en su-ID sundanés (Indonesia), Rehema en sw-TZ swahili (Tanzania), Daudi en sw-TZ swahili (Tanzania), Saranya en ta-LK tamil (Sri Lanka), Kumar en ta-LK tamil (Sri Lanka), Venba en ta-SG tamil (Singapur), Anbu en ta-SG tamil (Singapur), Gul en ur-IN urdu (India), Salman en ur-IN urdu (India), Madina en uz-UZ uzbeko (Uzbekistán), Sardor en uz-UZ uzbeko (Uzbekistán), Thando en zu-ZA zulú (Sudáfrica), Themba en zu-ZA zulú (Sudáfrica).

Versión de septiembre de 2021

Nueva voz del bot de chat en en-US inglés (EE. UU.): Sara, representa a una mujer joven adulta que habla de manera más informal y se adapta mejor a los escenarios de bots de chat.
Nuevos estilos agregados para la ja-JP voz japonesa de Nanami: ahora hay tres estilos nuevos disponibles con el chat, el servicio al cliente y el ambiente.
Mejora general de la pronunciación: Ardi en id-ID, Premwadee en th-TH, Christel en da-DK, HoaiMy y NamMinh en vi-VN.
Dos nuevas voces en zh-CN chino (mandarín, China) en versión preliminar: Xiaochen y Xiaoyan, optimizadas para situaciones de habla espontánea y servicio al cliente.

Versión de julio de 2021

Actualizaciones de texto a voz neuronal

Se han reducido los errores de pronunciación en hebreo en un 20 %.

Actualizaciones de Speech Studio

Voz neuronal personalizada: Se ha actualizado la canalización de entrenamiento a UniTTSv3, con lo que se mejora la calidad del modelo, mientras que el tiempo de entrenamiento se reduce en un 50 % para los modelos acústicos.
Creación de contenido de audio: se ha corregido el problema de rendimiento al "Exportar" y el error en la selección de voz neuronal personalizada.

Versión de junio de 2021

Actualizaciones de Speech Studio

Voz neuronal personalizada: Se ha extendido el entrenamiento de Voz neuronal personalizada para admitir el Sudeste de Asia. Nuevas características publicadas para admitir la comprobación de estado de carga de datos.
Creación de contenido de audio: se ha publicado una nueva característica para admitir léxico personalizado. Con esta característica, los usuarios pueden crear fácilmente sus archivos de léxico y definir la pronunciación personalizada para su salida de audio.

Versión de mayo de 2021

Se han agregado nuevos idiomas y voces a TTS neuronal

Se han introducido diez nuevos idiomas: 20 nuevas voces en 10 nuevas configuraciones regionales se han agregado a la lista de idiomas de TTS neuronales: Yan en en-HK inglés (Hong Kong), Sam en en-HK inglés (Hong Kong), Molly en en-NZ inglés (Nueva Zelanda), Mitchell en en-NZ inglés (Nueva Zelanda), Luna en en-SG inglés (Singapur), Wayne en en-SG inglés (Singapur), Leah en en-ZA inglés (Sudáfrica), Luke en en-ZA inglés (Sudáfrica), Dhwani en gu-IN gujarati (India), Niranjan en gu-IN gujarati (India), Aarohi en mr-IN marathi (India), Manohar en mr-IN marathi (India), Elena en es-AR español (Argentina), Tomás en es-AR español (Argentina), Salomé en es-CO español (Colombia), Gonzalo en es-CO español (Colombia), Paloma in es-US español (Estados Unidos), Alonso en es-US español (Estados Unidos), Zuri en sw-KE swahili (Kenya), Rafiki en sw-KE swahili (Kenya).
Once nuevas voces de en-US en versión preliminar: se han agregado 11 nuevas voces de en-US en versión preliminar a inglés americano, que son: Ashley, Amber, Ana, Brandon, Christopher, Cora, Elizabeth, Eric, Michelle, Monica, Jacob.
Cinco zh-CN voces chinas (mandarín, simplificado) están disponibles con carácter general: cinco voces chinas (mandarín, simplificado) han cambiado de versión preliminar a disponible con carácter general. Y son Yunxi, Xiaomo, Xiaoman, Xiaoxuan, Xiaorui. Ahora, estas voces están disponibles en todas las regiones. Yunxi se ha agregado con un nuevo estilo de "asistente", que es adecuado para los bots de chat y el agente de voz. Los estilos de voz de Xiaomo se refinan para que sean más naturales y característicos.

Versión de abril de 2021

La conversión de texto a voz neuronal está disponible en 21 regiones

Se han agregado doce nuevas regiones - Texto a voz neuronal ya está disponible en estas 12 nuevas regiones: Japan East, Japan West, Korea Central, North Central US, North Europe, South Central US, Southeast Asia, UK South, west Central US, West Europe, West US, West US 2. Consulte aquí la lista completa de las 21 regiones admitidas.

Versión de marzo de 2021

Se han agregado nuevos idiomas y voces a TTS neuronal

Se han introducido seis nuevos idiomas: doce nuevas voces en seis nuevas configuraciones regionales se agregan a la lista de idiomas de TTS neuronal: Nia en cy-GB galés (Reino Unido), Aled en cy-GB galés (Reino Unido), Rosa en en-PH inglés (Filipinas), James en en-PH inglés (Filipinas), Charline en fr-BE francés (Bélgica), Gerard en fr-BE francés (Bélgica), Dena en nl-BE holandés (Bélgica), Arnaud en nl-BE holandés (Bélgica), Polina en uk-UA ucraniano (Ucrania), Ostap en uk-UA ucraniano (Pakistán), Uzma en ur-PK urdu (Pakistán) y ur-PK Asad en urdu (Pakistán).
Cinco idiomas de la versión preliminar a disponibilidad general: diez voces en cinco configuraciones regionales introducidas en noviembre ahora son de disponibilidad general: Kert en estonio et-EE (Estonia), Colm en ga-IE irlandés (Irlanda), Nils en lv-LV letón (Letonia), Leonas en lt-LT lituano (Lituania), Joseph en mt-MT maltés (Malta).
Se ha agregado una nueva voz de masculina para francés (Canadá): hay una nueva voz, Antoine, disponible para fr-CA francés (Canadá).
Aumento de la calidad - reducción de la tasa de errores en la pronunciación en hu-HU húngaro: 48,17 %, nb-NO noruego: 52,76 % y nl-NL neerlandés (Países Bajos): 22,11 %.

Con esta versión, ahora se admiten un total de 142 voces neuronales en 60 idiomas o configuraciones regionales. Además, hay disponibles más de 70 voces estándar en 49 idiomas o configuraciones regionales. Consulte Compatibilidad con idiomas para obtener la lista completa.

Obtención de eventos de postura facial para animar caracteres

Texto a voz neuronal ahora incluye el evento viseme. Los eventos viseme permiten a los usuarios obtener una secuencia de poses faciales junto con voz sintetizada. Los eventos viseme se pueden usar para controlar el movimiento de los modelos de avatar 2D y 3D, de modo que los movimientos de la boca coincidan con la voz sintetizada. Por ahora, los eventos viseme solo están disponibles para la voz en-US-AriaNeural.

Incorporación del elemento marcador en el lenguaje de marcado de síntesis de voz (SSML)

El elemento marcador permite insertar marcadores personalizados en SSML para obtener el desplazamiento de cada marcador en la secuencia de audio. Se puede usar para hacer referencia a una ubicación específica en la secuencia de texto o etiqueta.

Versión de febrero de 2021

Voz neuronal personalizada en versión GA

La voz neuronal personalizada está disponible en febrero en 13 idiomas: chino (mandarín, simplificado), inglés (Australia), inglés (India), inglés (Reino Unido), inglés (Estados Unidos), francés (Canadá), francés (Francia), alemán (Alemania), italiano (Italia), japonés (Japón), coreano (Corea), portugués (Brasil), español (México) y español (España). Obtenga más información sobre qué es Voz neuronal personalizada y cómo usarla de manera responsable. La característica de voz neuronal personalizada requiere registro y Microsoft puede limitar el acceso en función de los criterios de idoneidad de Microsoft. Más información sobre la limitación del acceso.

Versión de diciembre de 2020

Nuevas voces neuronales disponibles de forma general y en versión preliminar

Se han lanzado 51 voces nuevas para un total de 129 voces neuronales en 54 idiomas o configuraciones regionales:

46 nuevas voces en configuraciones regionales con GA: Shakir en ar-EG árabe (Egipto), Hamed en ar-SA árabe (Arabia Saudí), Borislav en bg-BG búlgaro (Bulgaria), Joana en ca-ES catalán, Antonin en cs-CZ checo (República Checa), Jeppe en da-DK danés (Dinamarca), Jonas en de-AT alemán (Austria), Jan en de-CH alemán (Suiza), Nestoras en el-GR griego (Grecia), Liam en en-CA inglés (Canadá), Connor en en-IE inglés (Irlanda), Madhur en en-IN hindi (India), Mohan en en-IN telugu (India), Prabhat en en-IN inglés (India), Valluvar enen-IN tamil (India), Enric en es-ES catalán, Kert en et-EE estonio (Estonia), Harri en fi-FI finés (Finlandia), Selma en fi-FI finés (Finlandia), Fabrice en fr-CH francés (Suiza), Colm en ga-IE irlandés (Irlanda), Avri en he-IL hebreo (Israel), Srecko en hr-HR croata (Croacia), Tamas en hu-HU húngaro (Hungría), Gadis en id-ID indonesio (Indonesia), Leonas en lt-LT lituano (Lituania), Nils en lv-LV letón (Letonia), Osman en ms-MY malayo (Malasia), Joseph en mt-MT maltés (Malta), Finn en nb-NO noruego, Bokmål (Noruega), Pernille en nb-NO noruego, Bokmål (Noruega), Fenna en nl-NL neerlandés (Países Bajos), Maarten en nl-NL neerlandés (Países Bajos), Agnieszka en pl-PL polaco (Polonia), Marek en pl-PL polaco (Polonia), Duarte en pt-BR portugués (Brasil), Raquel en pt-PT portugués (Portugal), Emil en ro-RO rumano (Rumanía), Dmitry en ru-RU ruso (Rusia), Svetlana en ru-RU ruso (Rusia), Lukas en sk-SK eslovaco (Eslovaquia), Rok en sl-SI esloveno (Eslovenia), Mattias en sv-SE sueco (Suecia), Sofie en sv-SE sueco (Suecia), Niwat en th-TH tailandés (Tailandia), Ahmet en tr-TR turco (Turquía), NamMinh en vi-VN vietnamita (Vietnam), HsiaoChen en zh-TW mandarín taiwanés (Taiwán), YunJhe en zh-TW mandarín taiwanés (Taiwán), HiuMaan en zh-HK chino cantonés (Región Administrativa Especial de Hong Kong), WanLung en zh-HK chino cantonés (Región Administrativa Especial de Hong Kong).
5 nuevas voces en configuraciones regionales en versión preliminar: Kert en et-EE estonio (Estonia), Colm en ga-IE irlandés (Irlanda), Nils en lv-LV letón (Letonia), Leonas en lt-LT lituano (Lituania), Joseph en mt-MT maltés (Malta).

Con esta versión, ahora se admiten un total de 129 voces neuronal en 54 idiomas o configuraciones regionales. Además, hay disponibles más de 70 voces estándar en 49 idiomas o configuraciones regionales. Consulte Compatibilidad con idiomas para obtener la lista completa.

Actualizaciones para la creación de contenido de audio

Interfaz de usuario de selección con voz mejorada, con categorías de voz y descripciones detalladas de voz.
Se ha habilitado la optimización de la entonación en todas las voces neuronales de distintos idiomas.
Se ha automatizado la localización de la interfaz de usuario en función del idioma del explorador.
Se han habilitado controles StyleDegree en todas las voces neuronales de zh-CN. Consulte la herramienta de creación de contenido de audio para echar un vistazo a las nuevas características.

Actualizaciones para las voces de zh-CN

Se actualizaron todas voces neuronales de zh-CN para que admitan el inglés.
Se han habilitado todas las voces neuronales de zh-CN para admitir el ajuste de entonación. La herramienta de creación de contenido de audio o SSML se puede usar para obtener la mejor entonación.
Se actualizaron todas voces neuronales de zh-CN de estilo múltiple para admitir el control StyleDegree. La intensidad de las emociones (suave o fuerte) es ajustable.
Se ha actualizado zh-CN-YunyeNeural para que admita varios estilos que pueden mostrar diferentes emociones.

Versión de noviembre de 2020

Nuevas configuraciones regionales y voces en versión preliminar

Se han agregado cinco voces e idiomas nuevos en la cartera de texto a voz neuronal. Son las siguientes: Grace en maltés (Malta), Ona en lituano (Lituania), Anu en estonio (Estonia), Orla en irlandés (Irlanda) y Everita en letón (Letonia).
Cinco nuevas voces de zh-CN con varios estilos y roles que admiten: Xiaohan, Xiaomo, Xiaorui, Xiaoxuan y Yunxi.

Estas voces están disponibles en la versión preliminar pública de tres regiones de Azure: EastUS, SouthEastAsia y WestEurope.

Disponibilidad general del contenedor de Texto a voz neuronal

Gracias al contenedor de texto a voz neuronal, los desarrolladores pueden ejecutar síntesis de voz con las voces digitales más naturales en su propio entorno, para cumplir con los requisitos específicos de seguridad y control de los datos. Consulte Cómo instalar contenedores de voz.

Nuevas características

Voz personalizada: se permite a los usuarios copiar un modelo de voz de una región a otra; también se admiten tanto la suspensión como la reanudación de los puntos de conexión. Vaya al portal que está aquí.
Compatibilidad con la etiqueta de silencio de SSML.
Mejoras generales en la calidad de la voz de TTS: Precisión del nivel de pronunciación de palabra mejorada en nb-NO. El error de pronunciación se ha reducido en un 53 %.

Puede obtener más información en este blog técnico.

Versión de octubre de 2020

Nuevas características

Jenny admite un nuevo estilo newscast. Consulte cómo usar los estilos del habla en SSML.
Se han actualizado las voces neuronales al vocoder HiFiNet, que ofrece mayor fidelidad de audio y velocidad de síntesis más rápida. Esto supone una ventaja para los clientes cuyo escenario se basa en el audio de alta fidelidad o en las interacciones largas, como el doblaje de vídeo, los libros de audio o los materiales de educación en línea. Conozca más detalles de la historia y escuche las muestras de voz en nuestro blog de la comunidad de tecnología.
Voz personalizada y Creación de contenido de audio se han localizado a 17 configuraciones regionales. Los usuarios pueden cambiar fácilmente la interfaz de usuario a un idioma local para una experiencia más agradable.
Creación de contenido de audio: control de grado de estilo agregado para XiaoxiaoNeural; se ha ajustado la característica de interrupción personalizada para incluir saltos incrementales de 50 ms.

Mejoras generales de calidad de voz TTS

Se ha mejorado la precisión de la pronunciación en el nivel de palabra en pl-PL (reducción de la tasa de errores: 51 %) y en fi-FI (reducción de la tasa de errores: 58 %).
Se ha mejorado la lectura de una sola palabra en ja-JP para el escenario del diccionario. El error de pronunciación se ha reducido en un 80 %.
zh-CN-XiaoxiaoNeural: se ha mejorado la calidad de voz de los estilos de opinión/servicio de atención al cliente/telediario/alegre/enfadado.
zh-CN: se ha mejorado la pronunciación de erhua y la prosodia de tono ligero y espaciado preciso, lo que mejora en gran medida la inteligibilidad.

Versión de septiembre de 2020

Nuevas características

Texto a voz neuronal
- Se ha ampliado para admitir 18 nuevos idiomas o configuraciones regionales. Son alemán (Austria), alemán (Suiza), búlgaro, checo, croata, eslovaco, esloveno, francés (Suiza), griego, hebreo, húngaro, indonesio, inglés (Irlanda), malayo, rumano, tamil, telugu y vietnamita.
- Se han agregado 14 voces nuevas para enriquecer la variedad en los idiomas existentes. Consulte la lista completa de idiomas y voces.
- Nuevos estilos de habla para las voces de en-US y zh-CN. Jenny, la nueva voz en inglés (EE. UU.), es compatible con los estilos de bot de chat, servicio de atención al cliente y asistente. La voz de zh-CN, XiaoXiao, dispone de diez nuevos estilos de habla. Además, la voz neuronal de XiaoXiao admite el ajuste de StyleDegree. Consulte cómo usar los estilos del habla en SSML.
Containers: publicación del contenedor de texto a voz neuronal en versión preliminar pública con 16 voces disponibles en 14 idiomas. Más información sobre cómo implementar contenedores de Voz para la conversión de texto a voz neuronal

Lea el anuncio completo de las actualizaciones de TTS para Ignite 2020.

Versión de agosto de 2020

Nuevas características

Texto a voz neuronal: nuevo estilo de habla para la en-US voz de Aria. AriaNeural puede parecer un locutor al leer las noticias. El estilo "newscast-formal" suena más serio, mientras que el estilo "newscast-casual" es más flexible e informal. Consulte cómo usar los estilos del habla en SSML.
Voz personalizada: se publica una nueva característica para comprobar automáticamente la calidad de los datos de entrenamiento. Al cargar los datos, el sistema examinará diversos aspectos de los datos de audio y transcripción, y corregirá o filtrará los problemas automáticamente para mejorar la calidad del modelo de voz. Abarca el volumen del audio, el nivel de ruido, la precisión de pronunciación de la voz, la alineación de la voz con el texto normalizado, el silencio en el audio, además del formato de audio y de script.
Creación de contenido de audio: un conjunto de nuevas características para habilitar capacidades de administración de audio y de ajuste de voz más eficaces.
- Pronunciación: la característica de ajuste de la pronunciación se actualiza con el conjunto de fonemas más reciente. Puede seleccionar el elemento de fonema correcto en la biblioteca y refinar la pronunciación de las palabras que ha seleccionado.
- Descargar: La característica "Descargar"/"Exportar" de audio se ha mejorado para admitir la generación de audio por párrafo. Puede editar el contenido en el mismo archivo o SSML, mientras genera varias salidas de audio. La estructura de archivos de "Descargar" también se ha refinado. Ahora, puede colocar fácilmente todos los archivos de audio en una carpeta.
- Estado de la tarea: se ha mejorado la experiencia de exportación de varios archivos. Cuando se exportaban varios archivos en el pasado, si se producía un error en uno de los archivos, se producía un error en toda la tarea. Pero ahora todos los demás archivos se exportarán correctamente. El informe de tareas se enriquece con información más detallada y estructurada. Ahora puede comprobar los registros de todos los archivos y oraciones con errores con el informe.
- Documentación de SSML: vinculado a un documento SSML para ayudarle a comprobar las reglas sobre cómo usar todas las características de optimización.
La API de lista de voces se ha actualizado e incluye un nombre para mostrar del usuario que es descriptivo y los estilos del habla admitidos para las voces neuronales.

Mejoras generales de calidad de voz TTS

Se ha reducido el porcentaje de errores de pronunciación de nivel de palabra para ru-RU (en un 56 %) y para sv-SE (en un 49 %).
Se ha mejorado la lectura de palabras polifónicas en voces neuronales en-US en un 40 %. Entre los ejemplos de palabras polifónicas se incluyen "read", "live", "content", "record", "object", etc.
Se ha mejorado la naturalidad del tono de la pregunta en fr-FR. MOS (puntuación de opinión media): +0,28.
Se han actualizado los vocoders para las siguientes voces, con mejoras de fidelidad y velocidad de rendimiento general en un 40 %.

Configuración regional Voz

en-GB Mia

es-MX Dalia

fr-CA Sylvie

fr-FR Denise

ja-JP Nanami

ko-KR Sun-Hi

Configuración regional	Voz
`en-GB`	Mia
`es-MX`	Dalia
`fr-CA`	Sylvie
`fr-FR`	Denise
`ja-JP`	Nanami
`ko-KR`	Sun-Hi

Correcciones de errores

Se han corregido varios errores de la herramienta Creación de contenido de audio
- Corrección del problema con la actualización automática.
- Corrección de los problemas con los estilos de voz en zh-CN de la región del Sudeste Asiático.
- Corrección del problema de estabilidad, incluido un error de exportación con la etiqueta "break" y errores en signos de puntuación.

Versión de mayo de 2024

Valoración de la pronunciación

Voz Valoración de la pronunciación ahora admite 24 idiomas disponibles con carácter general (con un nuevo idioma agregado), con 7 idiomas más disponibles en versión preliminar pública. Para obtener más información, consulte la lista completa de idiomas para Pronunciation Assessment.

Idioma	Configuración regional (BCP-47)
Árabe (Egipto)	`ar-EG`¹
Árabe (Arabia Saudí)	`ar-SA`
Catalán	`ca-ES`¹
Chino (cantonés, tradicional)	`zh-HK`¹
Chino (mandarín, simplificado)	`zh-CN`
Chino (mandarín taiwanés, tradicional)	`zh-TW`¹
Neerlandés (Países Bajos)	`nl-NL`
Inglés (Australia)	`en-AU`
Inglés (Canadá)	`en-CA`
Inglés (India)	`en-IN`
Inglés (Reino Unido)	`en-GB`
Spanish (Traditional Sort) - Spain	`en-US`
Finés (Finlandia)	`fi-FI`¹
Francés (Canadá)	`fr-CA`
Francés (Francia)	`fr-FR`
Alemán (Alemania)	`de-DE`
Hindi (India)	`hi-IN`
Italiano (Italia)	`it-IT`
Japonés (Japón)	`ja-JP`
Coreano (Corea)	`ko-KR`
Malayo (Malasia)	`ms-MY`
Bokmål noruego (Noruega)	`nb-NO`
Polaco (Polonia)	`pl-PL`¹
Portugués (Brasil)	`pt-BR`
Portugués (Portugal)	`pt-PT`¹
Ruso (Rusia)	`ru-RU`
Español (México)	`es-MX`
Español (España)	`es-ES`
Sueco (Suecia)	`sv-SE`
Tamil (India)	`ta-IN`
Vietnamita (Vietnam)	`vi-VN`

¹ El idioma está en versión preliminar pública para la evaluación de la pronunciación.

Versión de abril de 2024

Traducción automática de voz multilingüe (versión preliminar)

La traducción automática de voz multilingüe está disponible en versión preliminar pública. Esta innovadora característica revoluciona la forma de superar las barreras lingüísticas, ofreciendo capacidades sin precedentes para una comunicación sin problemas a través de diversos paisajes lingüísticos.

Aspectos destacados más importantes

Idioma de entrada no especificado: la traducción de voz multilingüe puede recibir audio en una amplia gama de idiomas, y no es necesario especificar cuál es el idioma de entrada esperado. Es una característica inestimable para entender y colaborar en contextos globales sin necesidad de preconfiguración.
Cambio de idioma: la traducción de voz multilingüe permite hablar en varios idiomas durante la misma sesión y traducirlos todos al mismo idioma de destino. No es necesario reiniciar una sesión cuando cambia el idioma de entrada o cualquier otra acción por su parte.

Funcionamiento

Intérprete de viajes: la traducción de voz multilingüe puede mejorar la experiencia de los turistas que visitan destinos en el extranjero proporcionándoles información y asistencia en su idioma preferido. Los servicios de conserjería de los hoteles, las visitas guiadas y los centros de visitantes pueden utilizar esta tecnología para atender diversas necesidades lingüísticas.
Conferencias internacionales: la traducción de voz multilingüe puede facilitar la comunicación entre participantes de distintas regiones que hablen varios idiomas utilizando subtítulos traducidos en directo. Los asistentes pueden hablar en su lengua materna sin necesidad de especificarla, lo que garantiza un entendimiento y una colaboración fluidos.
Encuentros educativos: en aulas multiculturales o entornos de aprendizaje en línea, la traducción de voz multilingüe puede favorecer la diversidad lingüística entre alumnos y profesores. Permite una comunicación y participación fluidas sin necesidad de especificar el idioma de cada alumno o instructor.

Cómo obtener acceso

Para obtener una introducción detallada, visite Introducción a la traducción de voz. Además, puede consultar los ejemplos de código en cómo traducir voz. Esta nueva característica es totalmente compatible con todas las versiones del SDK de la versión 1.37.0 en adelante.

Conversión de voz en texto en tiempo real con diarización (GA)

La conversión de voz en texto en tiempo real con diarización ahora está disponible con carácter general.

Puede crear aplicaciones de conversión de voz en texto que usen la diarización para distinguir entre los distintos hablantes que participan en la conversación. Para obtener más información sobre la diarización en tiempo real, consulte el inicio rápido de diarización en tiempo real.

Actualización del modelo de conversión de voz en texto

Conversión de voz en texto en tiempo real ha lanzado nuevos modelos con funcionalidades bilingües. El modelo en-IN ahora admite escenarios bilingües en inglés e hindi y ofrece una mayor precisión. Las configuraciones regionales árabes (ar-AE, ar-BH, ar-DZ, ar-IL, ar-IQ, ar-KW, ar-LB, ar-LY, ar-MA, ar-OM, ar-PS, ar-QA, ar-SA, ar-SY, ar-TN, ar-YE) están ahora equipadas con soporte bilingüe en inglés, mayor precisión y soporte técnico del centro de llamadas.

La transcripción por lotes proporciona modelos con una nueva arquitectura para estas configuraciones regionales: es-ES, es-MX, fr-FR, it-IT, ja-JP, ko-KR, pt-BR y zh-CN. Estos modelos mejoran significativamente la legibilidad y el reconocimiento de entidades.

Versión de marzo de 2024

Disponibilidad general de Whisper (GA)

El modelo de voz de susurro a texto con Voz de Azure AI ahora está disponible con carácter general.

Consulte ¿Qué es el modelo Whisper? para obtener más información sobre cuándo usar Voz de Azure AI frente a Azure OpenAI Service.

Versión de febrero de 2024

Valoración de la pronunciación

La evaluación de la pronunciación de voz ahora admite 23 idiomas con carácter general, (con 5 nuevos idiomas agregados), con 3 idiomas más disponibles en versión preliminar pública. Para obtener más información, consulte la lista completa de idiomas para Pronunciation Assessment.

Lista de frases

Se ha agregado soporte de listas de frases para las siguientes configuraciones regionales: ar-SA, de-CH, en-IE, en-ZA, es-US, id-ID, nl-NL, pl-PL, pt-PT, ru-RU, sv-SE, th-TH, vi-VN, zh-HK, zh-TW.

Versión de noviembre de 2023

Presentación del modelado de voz bilingüe

Estamos encantados de revelar una adición innovadora a nuestro modelado de voz en tiempo real: el modelo de voz bilingüe. Esta mejora significativa permite que nuestro modelo de voz admita sin problemas pares de idiomas bilingües, como inglés y español, así como inglés y francés. Esta característica permite a los usuarios cambiar sin esfuerzo entre idiomas durante las interacciones en tiempo real, lo que marca un momento fundamental en nuestro compromiso con mejorar las experiencias de comunicación.

Aspectos destacados más importantes:

Compatibilidad bilingüe: con nuestra versión más reciente, los usuarios pueden cambiar sin problemas entre inglés y español o entre inglés y francés durante las interacciones de voz en tiempo real. Esta funcionalidad se adapta a los hablantes bilingües que suelen realizar una transición entre estos dos idiomas.
Experiencia de usuario mejorada: los hablantes bilingües, ya sea en el trabajo, en casa o en varios entornos de la comunidad, encontrarán esta característica inmensamente beneficiosa. La capacidad del modelo para comprender y responder tanto al inglés como al español en tiempo real abre nuevas posibilidades para una comunicación eficaz y fluida.

Modo de uso:

Elija es-US (español e inglés) o fr-CA (francés e inglés) cuando llame a la API Speech Service o pruébelo en Speech Studio. No dude en hablar cualquiera de los idiomas o mézclelos juntos: el modelo está diseñado para adaptarse dinámicamente, lo que proporciona respuestas precisas y conscientes del contexto en ambos idiomas.

Es el momento de elevar su juego de comunicación con nuestra versión de actualización de características más reciente; comunicación multilingüe sin problemas a su alcance.

Actualización de modelos de conversión de voz en texto

Nos complace presentar una importante actualización de nuestros modelos de voz, que promete una mayor precisión, una legibilidad mejorada y un reconocimiento de entidades perfeccionado. Esta actualización incluye una nueva estructura sólida, reforzada por un conjunto de datos de entrenamiento expandido, lo que garantiza un avance acentuado en el rendimiento general. Incluye modelos recién lanzados para en-US, zh-CN, ja-JP, it-IT, pt-BR, es-MX, es-ES, fr-FR, de-DE, ko-KR, tr-TR, sv-SE y he-IL.

Aspectos destacados:

Mayor precisión con la nueva estructura del modelo: la estructura del modelo perfeccionada, junto con un conjunto de datos de entrenamiento más completo, eleva los niveles de precisión, lo que promete una salida de voz más precisa.
Mejora de la legibilidad: nuestro último modelo aporta un aumento sustancial de la legibilidad, lo que mejora la coherencia y la claridad del contenido hablado.
Reconocimiento avanzado de entidades: el reconocimiento de entidades recibe una actualización sustancial, lo que da lugar a resultados más precisos y matizados.

Impactos potenciales: a pesar de estos avances, es fundamental tener en cuenta los posibles impactos:

Característica de tiempo de espera de silencio personalizada: los usuarios que emplean el tiempo de espera de silencio personalizado, especialmente con una configuración baja, pueden encontrarse con una segmentación excesiva y posibles omisiones de frases de una sola palabra.
El nuevo modelo podría presentar problemas de compatibilidad con la característica de prefijo de palabra clave y se recomienda a los usuarios evaluar su rendimiento en sus aplicaciones específicas.
Palabras o frases de disfluencia reducidas: los usuarios podrían observar una reducción de las palabras o frases de disfluencia como "um" o "uh" en la salida de voz.
Inexactitudes en la duración de la marca de tiempo de palabras: algunas palabras de disfluencia pueden mostrar imprecisiones en la duración de la marca de tiempo, lo que requiere atención en aplicaciones que dependen de un tiempo preciso.
Varianza de distribución de puntuación de confianza: los usuarios que dependen de las puntuaciones de confianza y los umbrales asociados deben tener en cuenta las posibles variaciones en la distribución, que requieren ajustes para obtener un rendimiento óptimo.
La mejora de la precisión de la característica de lista de frases puede verse afectada por el reconocimiento erróneo de ciertas frases.

Le recomendamos que explore estas mejoras y considere los posibles problemas para una transición sin problemas y, como siempre, sus comentarios son fundamentales para perfeccionar y hacer avanzar nuestros servicios.

Valoración de la pronunciación

La evaluación de la pronunciación de voz ahora admite 18 idiomas con carácter general, con 6 idiomas más disponibles en versión preliminar pública. Para obtener más información, consulte la lista completa de idiomas para Pronunciation Assessment.
Nos complace anunciar que la evaluación de la pronunciación presenta nuevas características a partir del 1 de noviembre de 2023: Prosodia, Gramática, Vocabulario y Tema. Estas mejoras tienen como objetivo proporcionar una experiencia de aprendizaje de lenguaje aún más completa para las evaluaciones de lectura y habla. Actualice a la versión 1.35.0 o posterior del SDK para explorar más detalles en Cómo usar la evaluación de la pronunciación y Evaluación de pronunciación en Speech Studio.

Versión de septiembre de 2023

Versión preliminar pública de Whisper

Voz de Azure AI ahora admite el modelo Whisper de OpenAI a través de la API de transcripción por lotes. Para más información, consulte la guía Creación de una transcripción por lotes.

Nota:

Azure OpenAI Service también admite el modelo Whisper de OpenAI para la conversión de voz en texto con una API de REST sincrónica. Para obtener más información, consulte el inicio rápido.

Consulte ¿Qué es el modelo Whisper? para obtener más información sobre cuándo usar Voz de Azure AI frente a Azure OpenAI Service.

Versión preliminar pública de la API de REST de conversión de voz en texto v3.2

La API de REST de la conversión de voz en texto v3.2 está disponible en versión preliminar. La API de REST de la conversión de voz en texto v3.1 está disponible con carácter general. La API de REST de la conversión de voz en texto v3.0 se retirará el 1 de abril de 2026. Para obtener más información, consulte las guías de migración de la API de REST de la conversión de voz en texto v3.0 a v3.1 y v3.1 a v3.2.

Versión de agosto de 2023

Nuevas configuraciones regionales de conversión de voz en texto:

La conversión de voz en texto admite dos configuraciones regionales nuevas, como se muestra en la tabla siguiente. Consulte la lista completa de idiomas aquí.

Configuración regional	Idioma
`pa-IN`	Punjabí (India)
`ur-IN`	Urdu (India)

Valoración de la pronunciación

La valoración de la pronunciación de Voz ahora admite 3 idiomas adicionales disponibles con carácter general en inglés (Canadá), inglés (India) y francés (Canadá), con 3 idiomas adicionales disponibles en versión preliminar. Para obtener más información, consulte la lista completa de idiomas para Pronunciation Assessment.

Versión de mayo de 2023

Valoración de la pronunciación

La evaluación de la pronunciación de Voz ahora admite 3 idiomas adicionales disponibles con carácter general en alemán (Alemania), japonés (Japón) y español (México), con 4 idiomas adicionales disponibles en versión preliminar. Para obtener más información, consulte la lista completa de idiomas para Pronunciation Assessment.
Ahora puede usar el nivel de compromiso estándar de Speech to Text para la evaluación de la pronunciación en todas las regiones públicas. Si compra un nivel de compromiso para la conversión de voz en texto estándar, el gasto para la evaluación de la pronunciación tiende a alcanzar el del compromiso. Consulte Precios del nivel de compromiso.

Versión de febrero de 2023

Valoración de la pronunciación

Pronunciation Assessment de Voz ahora admite cinco idiomas adicionales disponibles con carácter general: inglés (Reino Unido), inglés (Australia), francés (Francia), español (España) y chino (mandarín, simplificado), con otros idiomas disponibles en la versión preliminar.
Se han agregado códigos de ejemplo que muestran cómo usar Pronunciation Assessment en modo de streaming en su propia aplicación.
- C#: consulte código de ejemplo.
- C++: consulte código de ejemplo.
- java: consulte código de ejemplo.
- javascript: consulte código de ejemplo.
- Objective-C: consulte el código de ejemplo.
- Python: consulte el código de ejemplo.
- Swift: consulte el código de ejemplo.

Voz personalizada

Se ha agregado compatibilidad con audio y transcripción etiquetada por usuarios para las configuraciones regionales de-AT.

Versión de enero de 2023

Voz personalizada

Se ha agregado compatibilidad con audio y transcripción etiquetada por usuarios para configuraciones regionales adicionales: ar-BH, ar-DZ, ar-EG, ar-MA, ar-SA, ar-TN, ar-YE y ja-JP.

Se ha agregado compatibilidad con la adaptación de texto estructurado para la configuración regional de-AT.

Versión de diciembre de 2022

API de REST de Conversión de voz en texto

La API de REST de conversión de voz en texto versión 3.1 está disponible con carácter general. Se retirará la versión 3.0 de la API de REST de conversión de voz en texto. Para obtener más información sobre cómo migrar, consulte la guía.

Versión de octubre de 2022

Nueva configuración regional de conversión de voz en texto

Se ha agregado compatibilidad de Malayalam (India) con la configuración regional ml-IN. Consulte la lista completa de idiomas aquí.

Versión de julio de 2022

Nuevas configuraciones regionales de conversión de voz en texto:

Se han agregado 7 configuraciones regionales nuevas, como se muestra en la tabla siguiente. Consulte la lista completa de idiomas aquí.

Configuración regional	Idioma
`bs-BA`	Bosnio (Bosnia y Herzegovina)
`yue-CN`	Chino (cantonés, simplificado)
`zh-CN-sichuan`	Chino (mandarín suroeste, simplificado)
`wuu-CN`	Chino (wu, simplificado)
`ps-AF`	Pastún (Afganistán)
`so-SO`	Somalí (Somalia)
`cy-GB`	Galés (Reino Unido)

Versión de junio de 2022

Nuevas configuraciones regionales de conversión de voz en texto:

Se agregaron 10 configuraciones regionales nuevas, como se muestra en la tabla siguiente. Consulte la lista completa de idiomas aquí.

Configuración regional	Idioma
`sq-AL`	Albanés (Albania)
`hy-AM`	Armenio (Armenia)
`az-AZ`	Azerbaiyano (Azerbaiyán)
`eu-ES`	Vasco
`gl-ES`	Gallego
`ka-GE`	Georgiano (Georgia)
`it-CH`	Italiano (Suiza)
`kk-KZ`	Kazajo (Kazajistán)
`mn-MN`	Mongol (Mongolia)
`ne-NP`	Nepalí (Nepal)

Versión de abril de 2022

Nuevas configuraciones regionales de conversión de voz en texto:

A continuación, se muestra una lista de las nuevas configuraciones regionales. Consulte la lista completa de idiomas aquí.

Configuración regional	Idioma
`bn-IN`	Bengali (India)

Versión de enero de 2022

Nuevas configuraciones regionales de conversión de voz en texto:

A continuación, se muestra una lista de las nuevas configuraciones regionales. Consulte la lista completa de idiomas aquí.

Configuración regional	Idioma
`af-ZA`	Afrikáans (Sudáfrica)
`am-ET`	Amárico (Etiopía)
`de-CH`	Alemán (Suiza)
`fr-BE`	Francés (Bélgica)
`is-IS`	Islandés (Islandia)
`jv-ID`	Javanés (Indonesia)
`km-KH`	Jemer (Camboya)
`kn-IN`	Canarés (India)
`lo-LA`	Lao (Laos)
`mk-MK`	Macedonio (Macedonia del Norte)
`my-MM`	Birmano (Myanmar)
`nl-BE`	Neerlandés (Bélgica)
`si-LK`	Cingalés (Sri Lanka)
`sr-RS`	Serbio (Serbia)
`sw-TZ`	Swahili (Tanzania)
`uk-UA`	Ucraniano (Ucrania)
`uz-UZ`	Uzbeko (Uzbekistán)
`zu-ZA`	Zulú (Sudáfrica)

Versión de julio de 2021

Nuevas configuraciones regionales de conversión de voz en texto:

A continuación, se muestra una lista de las nuevas configuraciones regionales. Consulte la lista completa de idiomas aquí.

Configuración regional	Idioma
`ar-DZ`	Árabe (Argelia)
`ar-LY`	Árabe (Libia)
`ar-MA`	Árabe (Marruecos)
`ar-TN`	Árabe (Túnez)
`ar-YE`	Árabe (Yemen)
`bg-BG`	Búlgaro (Bulgaria)
`el-GR`	Griego (Grecia)
`et-EE`	Estonio (Estonia)
`fa-IR`	Persa (Irán)
`ga-IE`	Irlandés (Irlanda)
`hr-HR`	Croata (Croacia)
`lt-LT`	Lituano (Lituania)
`lv-LV`	Letón (Letonia)
`mt-MT`	Maltés (Malta)
`ro-RO`	Rumano (Rumanía)
`sk-SK`	Eslovaco (Eslovaquia)
`sl-SI`	Esloveno (Eslovenia)
`sw-KE`	Swahili (Kenia)

Versión de enero de 2021

Nuevas configuraciones regionales de conversión de voz en texto:

A continuación, se muestra una lista de las nuevas configuraciones regionales. Consulte la lista completa de idiomas aquí.

Configuración regional	Idioma
`ar-AE`	Árabe (Emiratos Árabes Unidos)
`ar-IL`	Árabe (Israel)
`ar-IQ`	Árabe (Iraq)
`ar-OM`	Árabe (Omán)
`ar-PS`	Árabe (Autoridad Palestina)
`de-AT`	Alemán (Austria)
`en-GH`	Inglés (Ghana)
`en-KE`	Inglés (Kenia)
`en-NG`	Inglés (Nigeria)
`en-TZ`	Inglés (Tanzania)
`es-GQ`	Español (Guinea Ecuatorial)
`fil-PH`	Filipino (Filipinas)
`fr-CH`	Francés (Suiza)
`he-IL`	Hebreo (Israel)
`id-ID`	Indonesio (Indonesia)
`ms-MY`	Malayo (Malasia)
`vi-VN`	Vietnamita (Vietnam)

Versión de agosto de 2020

Nuevas configuraciones regionales de conversión de voz en texto:

La conversión de voz en texto ha publicado 26 nuevas configuraciones regionales en agosto: 2 idiomas europeos cs-CZ y hu-HU, 5 configuraciones regionales en inglés y 19 configuraciones regionales en español que cubren la mayoría de los países o regiones de Sudamérica. A continuación, se muestra una lista de las nuevas configuraciones regionales. Consulte la lista completa de idiomas aquí.

Configuración regional	Idioma
`cs-CZ`	Checo (República Checa)
`en-HK`	Inglés (Región Administrativa Especial de Hong Kong)
`en-IE`	Inglés (Irlanda)
`en-PH`	Inglés (Filipinas)
`en-SG`	Inglés (Singapur)
`en-ZA`	Inglés (Sudáfrica)
`es-AR`	Español (Argentina)
`es-BO`	Español (Bolivia)
`es-CL`	Español (Chile)
`es-CO`	Español (Colombia)
`es-CR`	Español (Costa Rica)
`es-CU`	Español (Cuba)
`es-DO`	Español (República Dominicana)
`es-EC`	Español (Ecuador)
`es-GT`	Español (Guatemala)
`es-HN`	Español (Honduras)
`es-NI`	Español (Nicaragua)
`es-PA`	Español (Panamá)
`es-PE`	Español (Perú)
`es-PR`	Español (Puerto Rico)
`es-PY`	Español (Paraguay)
`es-SV`	Español (El Salvador)
`es-US`	Español (EE. UU.)
`es-UY`	Español (Uruguay)
`es-VE`	Español (Venezuela)
`hu-HU`	Húngaro (Hungría)

Versión de febrero de 2024

Se ha agregado compatibilidad con las versiones más recientes de los modelos:

Conversión de voz personalizada en texto 4.6.0
Conversión de voz en texto 4.6.0
Texto neuronal a voz 3.1.0

Actualice la voz a los componentes de texto a la versión más reciente. Actualice todos los modelos regionales de es a la versión más reciente. Aumente el búfer de transformación de medios para casos de uso de voz a texto.

Versión de noviembre de 2023

Se ha agregado compatibilidad con las versiones más recientes de los modelos:

Conversión de voz en texto personalizada 4.5.0
Conversión de voz en texto 4.5.0
Texto a voz neuronal 2.19.0

versión de octubre de 2023

Se ha agregado compatibilidad con las versiones más recientes de los modelos:

Conversión de voz en texto personalizada 4.4.0
Conversión de voz en texto 4.4.0
Texto a voz neuronal 2.18.0

Corrija un montón de problemas de vulnerabilidad de alto riesgo.

Quite los registros redundantes de los contenedores.

Actualice el componente multimedia interno a la versión más reciente.

Agregar compatibilidad con la voz en-IN-NeerjaNeural.

Versión de septiembre de 2023

Se ha agregado compatibilidad con las versiones más recientes de los modelos:

Identificación del idioma de voz 1.12.0
Conversión de voz en texto personalizada 4.3.0
Conversión de voz en texto 4.3.0
Texto a voz neuronal 2.17.0

Actualice la conversión de voz en texto personalizada y a la conversión de voz en texto en el marco más reciente.

Se han corregido problemas de vulnerabilidad.

Agregar compatibilidad con la voz ar-AE-FatimaNeural.

versión de julio de 2023

Se ha agregado compatibilidad con las versiones más recientes de los modelos:

Conversión de voz en texto personalizada 4.1.0
Conversión de voz en texto 4.1.0
Texto a voz neuronal 2.15.0

Se ha corregido el problema de ejecución del contenedor de voz en texto a través de opciones de montaje de docker con archivos de modelo personalizados locales.

Se ha corregido el problema que provocaba que, en algunos casos, el evento RECOGNIZING no apareciera en respuesta a través del SDK de Voz.

Se han corregido problemas de vulnerabilidad.

Versión de junio de 2023

Se ha agregado compatibilidad con las versiones más recientes de los modelos:

Conversión de voz en texto personalizada 4.0.0
Conversión de voz en texto 4.0.0
Texto a voz neuronal 2.14.0

Las imágenes de conversión de voz en texto en el entorno local se actualizan a .NET 6.0

Actualización de modelos de presentación para configuraciones regionales, incluidos en-us, ar-eg, ar-bh, ja-jp, ko-kr y más.

Actualice el componente de contenedor de conversión de voz en texto para solucionar problemas de vulnerabilidad.

Agregue compatibilidad con voces de configuración local de-DE-AmalaNeural, de-AT-IngridNeural, de-AT-JonasNeural y en-US-JennyMultilingualNeural

Versión de mayo de 2023

Se ha agregado compatibilidad con las versiones más recientes de los modelos:

Conversión de voz en texto personalizada 3.14.0
Conversión de voz en texto 3.14.0
Texto a voz neuronal 2.13.0

Corrección del problema de puntuación he-IL

Corrección de problemas de vulnerabilidad

Agregar nueva voz de configuración regional en-US-MichelleNeural y es-MX-CandelaNeural

Versión de abril de 2023

Actualizaciones de seguridad

Corrección de problemas de vulnerabilidad

Versión de marzo de 2023

Se ha agregado compatibilidad con las versiones más recientes de los modelos:

Conversión de voz en texto personalizada 3.12.0
Conversión de voz en texto 3.12.0
Identificación de idioma de la voz 1.11.0
Texto a voz neuronal 2.11.0

Corrección de problemas de vulnerabilidad

Corrección del problema de mayúsculas y minúsculas tr-TR

Actualización de en-US modelos de presentación de conversión de voz en texto

Se ha agregado compatibilidad con la voz para la región neuronal precompilada de texto a voz ar-AE-HamdanNeural

versión de febrero de 2023

Nuevas versiones de contenedor

Se ha agregado compatibilidad con las versiones más recientes de los modelos:

Conversión de voz en texto personalizada 3.11.0
Conversión de voz en texto 3.11.0
Texto a voz neuronal 2.10.0

Corrección de problemas de vulnerabilidad

Actualización normal de los modelos de voz

Agregue nuevas configuraciones regionales de árabe:

ar-IL
ar-PS

Actualizar los modos de presentación de hebreo y turco

Versión de enero de 2023

Nuevas versiones de contenedor

Se ha agregado compatibilidad con las versiones más recientes de los modelos:

Conversión de voz en texto personalizada 3.10.0
Conversión de voz en texto 3.10.0
Texto a voz neuronal 2.9.0

Corrección del problema del modo hipótesis

Corrección del problema del proxy HTTP

Modo de desconexión del contenedor de conversión de voz en texto personalizada

Adición de compatibilidad con contenedores desconectados de CNV al front-end de TTS

Agregue compatibilidad con estas voces de configuración regional:

da-DK-ChristelNeural
da-DK-JeppeNeural
en-IN-PrabhatNeural

Versión de diciembre de 2022

Nuevas versiones de contenedor

Se ha agregado compatibilidad con las versiones más recientes de los modelos:

Conversión de voz en texto personalizada 3.9.0
Conversión de voz en texto 3.9.0
Texto a voz neuronal 2.8.0

Corrección del problema de ipv4/ipv6

Corrección del problema de vulnerabilidad

Versión de noviembre de 2022

Nuevas versiones de contenedor

Se ha agregado compatibilidad con las versiones más recientes de los modelos:

Conversión de voz en texto personalizada 3.8.0
Conversión de voz en texto 3.8.0
Texto a voz neuronal 2.7.0

Versión de octubre de 2022

Nuevas versiones de contenedor

Se ha agregado compatibilidad con las versiones más recientes de los modelos:

Conversión de voz en texto personalizada 3.7.0
Conversión de voz en texto 3.7.0
Texto a voz neuronal 2.6.0

Versión de septiembre de 2022

Conversión de voz en texto 3.6.0-amd64

Agregue compatibilidad con las versiones más recientes del modelo.

Agregue compatibilidad con estas configuraciones regionales:

az-az
bn-in
bs-ba
cy-gb
eu-es
fa-ir
gl-es
he-il
hy-am
it-ch
ka-ge
kk-kz
mk-mk
mn-mn
ne-np
ps-af
so-so
sq-al
wuu-cn
yue-cn
zh-cn-sichuan

Actualizaciones mensuales periódicas incluidas las actualizaciones de seguridad y las correcciones de vulnerabilidades.

Conversión de voz en texto personalizada 3.6.0-amd64

Actualizaciones mensuales periódicas incluidas las actualizaciones de seguridad y las correcciones de vulnerabilidades.

Texto a voz neuronal v2.5.0

Agregue compatibilidad con estas voces neuronales pregeneradas:

az-az-babekneural
az-az-banuneural
fa-ir-dilaraneural
fa-ir-faridneural
fil-ph-angeloneural
fil-ph-blessicaneural
he-il-avrineural
he-il-hilaneural
id-id-ardineural
id-id-gadisneural
ka-ge-ekaneural
ka-ge-giorgineural

Actualizaciones mensuales periódicas incluidas las actualizaciones de seguridad y las correcciones de vulnerabilidades.

Versión de mayo de 2022

Speech-language-detection Container v1.9.0-amd64-preview

Correcciones de errores para speech-language-detection.

Versión de marzo de 2022

Contenedor de conversión de voz en texto personalizada v3.1.0

Se ha agregado compatibilidad para obtener modelos de visualización.

Versión de enero de 2022

Contenedor de conversión de voz en texto v3.0.0

Agregue compatibilidad con el uso de contenedores en entornos desconectados.

Contenedor de conversión de voz en texto v2.18.0

Actualizaciones mensuales periódicas incluidas las actualizaciones de seguridad y las correcciones de vulnerabilidades.

Contenedor de texto a voz neuronal v1.12.0

Agregue compatibilidad con estas voces neuronales pregeneradas: am-et-amehaneural, am-et-mekdesneural, so-so-muuseneural y so-so-ubaxneural.

Actualizaciones mensuales periódicas incluidas las actualizaciones de seguridad y las correcciones de vulnerabilidades.