Voz de Azure AI se actualiza de forma continua. Para mantenerse al día con los avances recientes, en este artículo se proporciona información sobre las nuevas versiones y características.
Aspectos destacados recientes
La transcripción rápida ahora está disponible con carácter general. Puede transcribir el audio mucho más rápido que la duración real del audio. Para más información, consulte la guía de la API de Transcripción rápida.
La extensión del kit de herramientas Voz de Azure AI ya está disponible para los usuarios de Visual Studio Code. Contiene una lista de inicios rápidos de voz y ejemplos de escenarios que se pueden compilar y ejecutar fácilmente con clics sencillos. Para más información, consulte Kit de herramientas de Voz de Azure AI en el marketplace de Visual Studio Code.
Las voces de alta definición (HD) de Voz de Azure AI están disponibles en versión preliminar pública. Las voces HD pueden comprender el contenido, detectar automáticamente las emociones en el texto de entrada y ajustar el tono de habla en tiempo real para que coincida con la opinión. Para más información, vea ¿Qué son las voces de alta definición (HD) de Voz de Azure AI?.
Ya está disponible la traducción de vídeo en el servicio de Voz Azure AI. Para obtener más información, consulte ¿Qué es la traducción de vídeo?.
Java: se han agregado API de registro de diagnóstico mediante clases de FileLogger, MemoryLogger, EventLogger y SpxTrace.
Compatibilidad con el envío de la propiedad JSON "details" del participante de la reunión al servicio
Go: se ha agregado el id. de propiedad pública SpeechServiceConnection_ProxyHostBypass para especificar los hosts para los que no se usa el proxy.
JavaScript, Go: se ha agregado el identificador de propiedad pública Speech_SegmentationStrategy para determinar cuándo ha finalizado una frase hablada y se debe generar un resultado reconocido final (incluida la segmentación semántica)
JavaScript, Go: se ha agregado el identificador de propiedad pública Speech_SegmentationMaximumTimeMs que determina el final de una frase hablada en función del tiempo en Java, Python, C#, C++
Correcciones de error
Se ha corregido la carga de voz TTS (re)insertada para cada síntesis si no se establece el nombre de voz.
Se han corregido problemas de cálculo de desplazamiento al usar MeetingTranscriber en algunos escenarios.
Se ha corregido un posible interbloqueo al registrar varios agentes de escucha de eventos de diagnóstico en paralelo.
(JavaScript) Se corrigieron los posibles resultados de NoMatch perdidos cuando se encuentra al final del audio. Esta corrección también alinea el comportamiento al final de la voz con los otros lenguajes del SDK y puede provocar que algunos eventos vacíos ya no se generen.
(JavaScript) Desplazamientos de corrección en JSON de resultado para alinearse con el desplazamiento en los objetos de resultado. Anteriormente, solo se corrigió la propiedad offset del objeto de resultado hasta tener en cuenta las reconexión de servicio.
Se han corregido los desplazamientos de resultados en la transcripción de reuniones cuando se produce una reconexión al servicio.
Se ha corregido un interbloqueo en el registro.
Ejemplos
Se han actualizado ejemplos de C# para usar .NET 8.0.
En el ejemplo de Java se usa la API de registro de diagnósticos que muestra el uso de las nuevas clases de registro de diagnósticos.
Versión de noviembre de 2024
Extensión del kit de herramientas Voz de Azure AI para Visual Studio Code
La extensión del kit de herramientas Voz de Azure AI ya está disponible para los usuarios de Visual Studio Code. Contiene una lista de inicios rápidos de voz y ejemplos de escenarios que se pueden compilar y ejecutar fácilmente con clics sencillos. Para más información, consulte Kit de herramientas de Voz de Azure AI en el marketplace de Visual Studio Code.
Ejemplos de código de avatar de texto a voz
Hemos agregado ejemplos de código de avatar de texto a voz para Android e iOS. En estos ejemplos se muestra cómo usar avatares de texto a voz en tiempo real en las aplicaciones móviles.
SDK de Voz 1.41.1: versión de octubre de 2024
Nuevas características
Se ha agregado compatibilidad con Amazon Linux 2023 y Azure Linux 3.0.
Se ha agregado el id. de propiedad pública SpeechServiceConnection_ProxyHostBypass para especificar los hosts para los que no se usa el proxy.
Se agregaron propiedades para controlar nuevas estrategias de segmentación de frases.
Correcciones de errores
Se ha corregido la compatibilidad incompleta para los modelos avanzados de reconocimiento de palabras clave producidos después de agosto de 2024.
Tenga en cuenta que con Swift en iOS su proyecto debe utilizar MicrosoftCognitiveServicesSpeech-EmbeddedXCFramework-1.41.1.zip (de https://aka.ms/csspeech/iosbinaryembedded) o el pod MicrosoftCognitiveServicesSpeechEmbedded-iOS que incluye el soporte del modelo avanzados.
Se ha corregido una pérdida de memoria en C# relacionada con el uso de cadenas.
Se ha corregido que no podía obtener SPXAutoDetectSourceLanguageResult de SPXConversationTranscriptionResult en Objective-C y Swift.
Se ha corregido un bloqueo ocasional al utilizar Microsoft Audio Stack en el reconocimiento.
Se ha quitado la compatibilidad con el reconocimiento de palabras clave en Windows ARM de 32 bits debido a que el entorno de ejecución de ONNX necesario no está disponible para esta plataforma.
SDK de Voz 1.40: versión de agosto de 2024
Nota
La versión 1.39.0 del SDK de Voz era una versión interna y no es que falte.
Nuevas características
Se ha agregado compatibilidad con el streaming de audio comprimido G.722 en el reconocimiento de voz.
Se ha agregado compatibilidad con la configuración de tono, velocidad y volumen en streaming de texto de entrada en síntesis de voz.
Se ha agregado compatibilidad con el streaming de texto de entrada de voz personal mediante la introducción de PersonalVoiceSynthesisRequest en la síntesis de voz. Esta API está en versión preliminar y está sujeta a cambios en versiones futuras.
Se ha agregado compatibilidad con la diarización de los resultados intermedios cuando se usa ConversationTranscriber.
El uso de modelos de voz insertados ahora requiere una licencia de modelo en lugar de una clave de modelo. Si es un cliente de voz insertado existente y desea actualizarlo, póngase en contacto con su persona de soporte técnico en Microsoft para obtener más información sobre las actualizaciones del modelo.
Se ha corregido el problema que al implementar una aplicación para UWP, las bibliotecas y el modelo del paquete MAS NuGet no se copiaban en la ubicación de implementación.
Se han actualizado los ejemplos de voz insertados para usar una licencia de modelo en lugar de una clave.
SDK de Voz 1.38.0: Versión de junio de 2024
Nuevas características
Actualización de los requisitos de la plataforma Linux del SDK de Voz:
La nueva línea base mínima es Ubuntu 20.04 LTS o compatible con glibc 2.31 o posterior.
Los archivos binarios para Linux x86 se quitan de acuerdo con la compatibilidad con la plataforma Ubuntu 20.04.
Tenga en cuenta que RHEL/CentOS 7 permanecen admitidos hasta el 30 de junio (final de CentOS 7 y el final del soporte de mantenimiento 2 de RHEL 7). Los archivos binarios para ellos se quitarán en la versión 1.39.0 del SDK de Voz.
Agregue compatibilidad con OpenSSL 3 en Linux.
Agregue compatibilidad con el formato de salida de audio g722-16khz-64kbps con sintetizador de voz.
Agregue compatibilidad para enviar mensajes a través de un objeto de conexión con sintetizador de voz.
Agregue las API Start/StopKeywordRecognition en Objective-C y Swift.
Agregue API para seleccionar una categoría de modelo de traducción personalizada.
Actualice el uso de GStreamer con el sintetizador de voz.
Corrección de errores
Se ha corregido el error "El tamaño del mensaje de Websocket no puede superar los 65,536 bytes" durante Start/StopKeywordRecognition.
Corrija un error de segmentación de Python durante la síntesis de voz.
Ejemplos
Actualice los ejemplos de C# para usar .NET 6.0 de forma predeterminada.
SDK de Voz 1.37.0: versión de abril de 2024
Nuevas características
Se ha agregado compatibilidad con la transmisión de texto de entrada en la síntesis de voz.
Cambie la voz de síntesis de voz predeterminada a en-US-AvaMultilingualNeural.
Actualice las compilaciones de Android para usar OpenSSL 3.x.
Se ha actualizado para las nuevas características.
SDK de Voz 1.36.0: versión de marzo de 2024
Nuevas características
Se ha agregado compatibilidad con la identificación del idioma en la traducción multilingüe en puntos de conexión v2 mediante AutoDetectSourceLanguageConfig::FromOpenRange().
Corrección de errores
Corregir el evento SynthesisCanceled no se desencadena si se llama a stop durante el evento SynthesisStarted.
Se ha corregido un problema de ruido en la síntesis de voz insertada.
Se ha corregido un bloqueo en el reconocimiento de voz incrustado al ejecutar varios reconocedores en paralelo.
Corrija la configuración del modo de detección de frases en los puntos de conexión v1/v2.
Corrige varios problemas con Microsoft Audio Stack.
Ejemplos
Actualizaciones de nuevas características.
SDK de Voz 1.35.0: versión de febrero de 2024
Nuevas características
Cambie la voz de conversión de texto a voz predeterminada de en-US-JennyMultilingualNeural a en-US-AvaNeural.
Admitir detalles de nivel de palabra en los resultados de la traducción de voz insertada mediante el formato de salida detallado.
Corrección de errores
Corregir la API de captador de posición AudioDataStream en Python.
Corregir la traducción de voz mediante puntos de conexión v2 sin detección de idioma.
Corregir un bloqueo aleatorio y eventos de límite de palabra duplicados en la conversión de texto a voz insertado.
Devolver un código de error de cancelación correcto para un error interno del servidor en conexiones WebSocket.
Corregir el error al cargar la biblioteca FPIEProcessor.dll cuando se usa MAS con C#.
Ejemplos
Actualizaciones de formato secundarias para ejemplos de reconocimiento insertado.
SDK de Voz 1.34.1: versión de enero de 2024
Cambios importantes
Solo correcciones de errores
Nuevas características
Solo correcciones de errores
Corrección de errores
Se ha corregido la regresión introducida en la versión 1.34.0, donde la dirección URL del punto de conexión de servicio se construyó con información regional incorrecta para los usuarios de varias regiones de China.
SDK de Voz 1.34.0: versión de noviembre de 2023
Cambios importantes
SpeechRecognizer se ha actualizado para usar un nuevo punto de conexión de forma predeterminada (es decir, cuando no se especifica explícitamente una dirección URL), que ya no admite parámetros de cadena de consulta para la mayoría de las propiedades. En lugar de establecer parámetros de cadena de consulta directamente con ServicePropertyChannel.UriQueryParameter, use las funciones de API correspondientes.
Compatibilidad con métricas de rendimiento de voz insertadas que se pueden usar para evaluar la capacidad de un dispositivo para ejecutar voz insertada.
Compatibilidad con la identificación del idioma de origen en la traducción multilingüe insertada.
Compatibilidad con la conversión de voz en texto incrustada, texto a voz y traducción para iOS y Swift/Objective-C publicada en versión preliminar.
La compatibilidad insertada se proporciona en MicrosoftCognitiveServicesSpeechEmbedded-iOS Cocoapod.
Corrección de errores
Corrección para el SDK de iOS dos veces el crecimiento de tamaño binario · Incidencia 2113 · Azure-Samples/cognitive-services-speech-sdk (github.com)
Corrección para No se pueden obtener marcas de tiempo de nivel de palabra de la API de conversión de voz en texto de Azure· Incidencia 2156 · Azure-Samples/cognitive-services-speech-sdk (github.com)
Se ha corregido la fase de destrucción dialogServiceConnector para desconectar los eventos correctamente. Esto provocaba bloqueos ocasionales.
Corrección para la excepción durante la creación de un reconocedor cuando se usa MAS.
FPIEProcessor.dll del paquete NuGet Microsoft.CognitiveServices.Speech.Extension.MAS para Windows UWP x64 y Arm64 tenían dependencia de bibliotecas en runtime de VC para C++nativo. La incidencia se ha rectificado actualizando la dependencia para corregir las bibliotecas en runtime de VC (para UWP).
Corrección para las llamadas recurrentes a recognizeOnceAsync que conducen a SPXERR_ALREADY_INITIALIZED al usar MAS · Incidencia 2124 · Azure-Samples/cognitive-services-speech-sdk (github.com)
Se ha corregido el bloqueo del reconocimiento de voz incrustado cuando se usan listas de frases.
Ejemplos
Ejemplos de iOS insertados para conversión de voz en texto, texto a voz y traducción.
CLI de Voz 1.34.0: versión de noviembre de 2023
Nuevas características
Compatibilidad con la salida de eventos de límite de palabras al sintetizar voz.
Corrección de errores
Se ha actualizado la dependencia de JMESPath a la versión más reciente y se han mejorado las evaluaciones de cadenas
SDK de Voz 1.33.0: versión de octubre de 2023
Aviso de cambio importante
Ahora es necesario que las aplicaciones que utilicen Microsoft Audio Stack (MAS) incluyan el nuevo paquete NuGet añadido para MAS en sus archivos de configuración de paquetes.
Nuevas características
Se ha agregado el nuevo paquete NuGet Microsoft.CognitiveServices.Speech.Extension.MAS.nupkg, que proporciona un rendimiento mejorado de cancelación de eco al usar MAS
Evaluación de la pronunciación: se ha agregado compatibilidad con la evaluación de la prosodia y el contenido, que puede evaluar el discurso hablado en términos de prosodia, vocabulario, gramática y tema.
Correcciones de errores
Se han corregido los desplazamientos de resultados del reconocimiento de palabras clave para que coincidan correctamente con la secuencia de audio de entrada desde el principio. La corrección se aplica tanto al reconocimiento de palabras clave independiente como al reconocimiento de voz desencadenado por palabras clave.
Se ha corregido el problema de importación de Mac Catalyst en el módulo Swift Compatibilidad del módulo Swift para Mac Catalyst con Apple Silicon. Problema n.º 1948
La compatibilidad con la diarización en tiempo real está disponible en versión preliminar pública con el SDK de Voz 1.31.0. Esta característica está disponible en los siguientes SDK: C#, C++, Java, JavaScript, Python y Objective-C/Swift.
Eventos de límite de palabra de síntesis de voz sincronizada y visema con reproducción de audio
Últimos cambios
El primer escenario de "transcripción de conversaciones" cambia de nombre a "transcripción de reuniones". Por ejemplo, use MeetingTranscriber en lugar de ConversationTranscriber, y use CreateMeetingAsync en lugar de CreateConversationAsync. Aunque los nombres de los objetos y métodos del SDK han cambiado, el cambio de nombre no cambia la propia característica. Use objetos de transcripción de reuniones para la transcripción de reuniones con perfiles de usuario y firmas de voz. Consulte Transcripción de reuniones para obtener más información. Estos cambios no afectan a los objetos y métodos de "traducción de conversaciones". Todavía puede usar el objeto ConversationTranslator y sus métodos para escenarios de traducción de reuniones.
Para la diarización en tiempo real, se introduce un nuevo objeto ConversationTranscriber. El nuevo modelo de objetos "transcripción de conversaciones" y los patrones de llamada son similares al reconocimiento continuo con el objeto SpeechRecognizer. Una diferencia clave es que el objeto ConversationTranscriber está diseñado para usarse en un escenario de conversación en el que se desea diferenciar varios hablantes (diarización). Los perfiles de usuario y las firmas de voz no son aplicables. Consulte el inicio rápido de diarización en tiempo real para obtener más información.
En esta tabla, se muestran los nombres de objeto anteriores y nuevos para la diarización en tiempo real y la transcripción de reuniones. El nombre del escenario se encuentra en la primera columna; los nombres de objeto anteriores se encuentran en la segunda columna; y los nuevos nombres de objeto se encuentran en la tercera columna.
1 Los objetos Participant, ParticipantChangedReason y User son aplicables tanto a escenarios de transcripción de reuniones como de traducción de reuniones.
2 El objeto Meeting es nuevo y se usa con el objeto MeetingTranscriber.
Se ha resuelto un problema por el que la característica Evaluación de pronunciación identificaba inexactamente las pronunciaciones totalmente correctas como erróneas, especialmente en situaciones en las que las palabras podían tener varias pronunciaciones válidas. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1530
C++, C#, Java: se ha agregado compatibilidad con DisplayWords en el resultado detallado del reconocimiento de voz insertado.
Objective-C/Swift: se ha agregado compatibilidad con el evento ConnectionMessageReceived en Objective-C/Swift.
Objective-C/Swift: modelos de detección de palabras clave mejorados para iOS. Este cambio ha aumentado el tamaño de determinados paquetes que contienen archivos binarios de iOS (como NuGet, XCFramework). Estamos trabajando para reducir el tamaño en las futuras versiones.
Correcciones de errores
Se ha corregido una fuga de memoria al usar el reconocedor de voz con PhraseListGrammar, según lo notificado por un cliente (problema de GitHub).
Se ha corregido un interbloqueo en texto a la API de conexión abierta de voz.
Más notas
Java: algunos métodos de API de Java public, usados internamente, se cambiaron a un paquete internal, protected o private. Este cambio no debe tener ningún efecto en los desarrolladores, ya que no esperamos que las aplicaciones usen estos paquetes. Se indica esto aquí para fines de transparencia.
Ejemplos
Nuevos ejemplos de evaluación de pronunciación sobre cómo especificar un lenguaje de aprendizaje en su propia aplicación
C++, C#, Java: Versión preliminar de las API de traducción de voz integrada. Ahora puede realizar la traducción de voz sin conexión en la nube.
JavaScript: Identificación continua de idioma (LID) ahora habilitada para traducción de voz.
JavaScript: Contribución de la comunidad para agregar la propiedad LocaleName a la clase VoiceInfo. Gracias, usuario de GitHub, shivsarthak por la solicitud de incorporación de cambios.
C++, C#, Java: se ha agregado compatibilidad para volver a muestrear la salida de texto a voz integrada de 16 kHz a 48 kHz de frecuencia de muestreo.
Se agregó compatibilidad con la configuración regional hi-IN en Reconocedor de intenciones (Intent Recognizer) con coincidencia de patrones simple.
Corrección de errores
Se corrigió un bloqueo causado por una condición de carrera en el Reconocedor de voz durante la destrucción de objetos, como se vio en algunas de nuestras pruebas de Android
Se corrigieron posibles interbloqueos en Reconocedor de intenciones (Intent Recognizer) con coincidencia de patrones simple
Ejemplos
Nuevos ejemplos de traducción de voz insertada
SDK de Voz 1.28.0: versión de mayo de 2023
Cambio importante
SDK de JavaScript: se quitó el Protocolo de estado de certificado en línea (OCSP). Esto permite a los clientes ajustarse mejor a los estándares del explorador y de los nodos para la gestión de certificados. La versión 1.28 y posteriores ya no incluirán nuestro módulo OCSP personalizado.
Características nuevas
El reconocimiento de voz insertado ahora devuelve NoMatchReason::EndSilenceTimeout cuando se produce un tiempo de espera de silencio al final de una expresión. Esto coincide con el comportamiento al realizar el reconocimiento mediante el servicio de voz en tiempo real.
SDK de JavaScript: definir propiedades en SpeechTranslationConfig mediante valores de enumeración de PropertyId.
Corrección de errores
C# en Windows: corregir la posible condición de carrera o interbloqueo en la extensión de audio de Windows. En escenarios que eliminan rápidamente el representador de audio y también usan el método Sintetizador para dejar de hablar, el evento subyacente no se restablece por detención y podría hacer que el objeto representador nunca se elimine, todo mientras que podría contener un bloqueo global para su eliminación, inmovilizando el subproceso de GC de dotnet.
Ejemplos
Se ha agregado un ejemplo de voz insertado para MAUI.
Se ha actualizado el ejemplo de voz insertado para Java de Android para que incluya texto a voz.
SDK de voz 1.27.0: versión de abril de 2023
Notificación acerca de los próximos cambios
Tenemos previsto quitar el Protocolo de estado de certificados en línea (OCSP) en la próxima versión del SDK de JavaScript. Esto permite a los clientes ajustarse mejor a los estándares del explorador y de los nodos para la gestión de certificados. La versión 1.27 es la última versión que incluye nuestro módulo OCSP personalizado.
Características nuevas
JavaScript: se ha agregado compatibilidad con la entrada de micrófono desde el explorador con la verificación e identificación del hablante.
Reconocimiento de voz insertado: se ha actualizado la compatibilidad con la configuración PropertyId::Speech_SegmentationSilenceTimeoutMs.
Corrección de errores
General: actualizaciones de confiabilidad en la lógica de reconexión de servicio (todos los lenguajes de programación excepto JavaScript).
General: corrección de las conversiones de cadenas que pierden memoria en Windows (todos los lenguajes de programación pertinentes excepto JavaScript).
Reconocimiento de voz insertado: se ha corregido el bloqueo en el reconocimiento de voz en francés al usar determinadas entradas de lista gramatical.
Documentación del código fuente: correcciones en los comentarios de la documentación de referencia del SDK relacionados con el registro de audio en el servicio.
Reconocimiento de intención: corrija las prioridades de las coincidencias de patrones relacionadas con las entidades de lista.
Ejemplos
Controlar correctamente el error de autenticación en el ejemplo de transcripción de conversaciones (CTS) en C#.
Se ha agregado un ejemplo de evaluación de pronunciación de streaming para Python, JavaScript, Objective-C y Swift.
SDK de Voz 1.26.0: versión de marzo de 2023
Cambios importantes
Bitcode se ha deshabilitado en todos los destinos de iOS en los siguientes paquetes: Cocoapod con xcframework, Nuget (para Xamarin y MAUI) y Unity. El cambio se debe a que Apple ha dejado de admitir bitcode de Xcode 14 y versiones posteriores. Este cambio también significa que si usa la versión 13 de Xcode o si ha habilitado explícitamente el bitcode en la aplicación mediante el SDK de Voz, puede producirse un error que indique que "el marco no contiene bitcode y debe recompilarlo". Para resolver este problema, asegúrese de que los destinos han deshabilitado bitcode.
El destino de implementación de iOS mínimo se ha actualizado a la versión 11.0 en esta versión, lo que significa que ya no se admite armv7 HW.
Nuevas características
El reconocimiento de voz integrado (en el dispositivo) ahora admite audio de entrada de frecuencia de muestreo de 8 y 16 kHz (16 bits por muestra, PCM mono).
La síntesis de voz ahora notifica latencias de conexión, red y servicio en el resultado para contribuir a la optimización de la latencia de un extremo a otro.
Nuevas reglas de desempate para Reconocimiento de la intención con coincidencia de patrones simples. Cuantos más bytes de caracteres coincidan, ganarán las coincidencias de patrones con un número de bytes de caracteres inferior. Ejemplo: El patrón "Seleccione {algo} en la parte superior derecha" le ganará a "Seleccione {algo}"
Correcciones de errores
Síntesis de voz: corrija el error en el que el emoji no es correcto en eventos de límite de palabra.
Las intenciones del flujo de trabajo de orquestador de CLU aparecen ahora correctamente.
El resultado JSON ya está disponible a través del id. de propiedad LanguageUnderstandingServiceResponse_JsonResult.
Reconocimiento de voz con activación de palabras clave: se ha corregido el audio de ~150 ms que faltaba después de un reconocimiento de palabras clave.
Corrección de la compilación de versión de NuGet para iOS MAUI del SDK de Voz, notificada por el cliente (problema de GitHub)
Ejemplos
Corrección del ejemplo de Swift iOS, notificado por el cliente (problema de GitHub)
SDK de voz 1.25.0: versión de enero de 2023
Cambios importantes
Se han simplificado las API de identificación de idioma (versión preliminar). Si actualiza el SDK de Voz 1.25 y ve un salto de compilación, visite la página Identificación de idioma para obtener información sobre la nueva propiedad SpeechServiceConnection_LanguageIdMode. Esta propiedad única reemplaza a las dos anteriores SpeechServiceConnection_SingleLanguageIdPriority y SpeechServiceConnection_ContinuousLanguageIdPriority. La priorización entre baja latencia y alta precisión ya no es necesaria después de las mejoras recientes del modelo. Ahora, solo tiene que seleccionar si ejecutar la identificación de idioma al principio o la identificación de idioma continua al realizar el reconocimiento de voz continuo o la traducción.
Nuevas características
C#/C++/Java: el SDK de voz insertado se publica ahora en versión preliminar pública controlada. Consulte la documentación Voz insertada (versión preliminar). Ahora puede realizar conversión de voz en texto en el dispositivo y de texto a voz cuando la conectividad en la nube es intermitente o no está disponible. Compatible con plataformas Android, Linux, macOS y Windows
MAUI de C#: compatibilidad agregada para destinos de iOS y Mac Catalyst en NuGet del SDK de voz (incidencia del cliente)
Unity: arquitectura de x86_64 de Android agregada al paquete de Unity (incidencia del cliente)
Go:
Compatibilidad con streaming directo de ALAW/MULAW agregada para el reconocimiento de voz (incidencia del cliente)
Se ha agregado compatibilidad con PhraseListGrammar. Gracias al usuario de GitHub czkoko por la contribución a la comunidad.
C#/C++: Intent Recognizer ahora admite modelos de reconocimiento del lenguaje conversacional en C++ y C# con orquestación en el servicio Microsoft.
Corrección de errores
Corrección de un bloqueo ocasional en KeywordRecognizer al intentar detenerlo
Python:
Corrección para obtener los resultados de la evaluación de pronunciación cuando se establece PronunciationAssessmentGranularity.FullText (incidencia del cliente)
Corrección de la propiedad de género para las voces masculinas que no se recuperan al obtener voces de síntesis de voz
JavaScript
Corrección para analizar algunos archivos WAV que se grabaron en dispositivos iOS (incidencia del cliente)
Conversation Translator ahora establece correctamente el punto de conexión de servicio cuando se usa una instancia de speechConfig creada mediante SpeechConfig.fromEndpoint()
Ejemplos
Se han agregado ejemplos que muestran cómo usar la voz insertada.
Se ha agregado un ejemplo de conversión de voz en texto para MAUI
No hay características nuevas, solo una corrección del motor insertado para admitir nuevos archivos de modelo.
Corrección de errores
Todos los lenguajes de programación
Se ha corregido un problema con el cifrado de modelos de reconocimiento de voz insertados.
SDK de voz 1.24.1: versión de noviembre de 2022
Nuevas características
Paquetes publicados para la versión preliminar de Embedded Speech. Consulte https://aka.ms/embedded-speech para obtener más información.
Corrección de errores
Todos los lenguajes de programación
Se ha corregido el bloqueo de TTS incrustado cuando no se admite la fuente de voz
Se ha corregido que stopSpeaking() no pudiera detener la reproducción en Linux (#1686)
SDK de JavaScript
Se ha corregido la regresión en cómo el transcriptor de conversación transmitía el audio.
Java
Se publicaron temporalmente archivos POM y Javadocs actualizados en Maven Central para permitir que la canalización de documentos actualice los documentos de referencia en línea.
Python
Se ha corregido la regresión en la que speak_text(ssml) de Python devuelve void.
SDK de Voz 1.24.0: versión de octubre de 2022
Nuevas características
Todos los lenguajes de programación: AMR-WB (16 khz) se ha agregado a la lista admitida de formatos de salida de audio de texto a voz
Python: se ha agregado un paquete para Linux arm64 para distribuciones de Linux compatibles.
C#/C++/Java/Python: se ha agregado compatibilidad con el streaming directo de ALAW y MULAW al servicio de voz (además de la secuencia PCM existente) mediante AudioStreamWaveFormat.
MAUI de C#: actualización del paquete NuGet para admitir destinos de Android para desarrolladores de .NET MAUI (Incidencia del cliente)
Mac: se ha agregado XCframework independiente para Mac, que no contiene ningún archivo binario de iOS. Esto ofrece una opción para los desarrolladores que solo necesitan archivos binarios de Mac mediante un paquete XCframework más pequeño.
Microsoft Audio Stack (MAS):
Cuando se especifican ángulos de formación de haz, el sonido que se origina fuera del intervalo especificado se suprimirá mejor.
Reducción aproximada del 70 % en el tamaño de libMicrosoft.CognitiveServices.Speech.extension.mas.so para Linux ARM32 y Linux arm64.
Reconocimiento de la intención mediante coincidencia de patrones:
Se ha agregado compatibilidad con ortografía para los idiomas fr, de, es, jp
Se ha agregado compatibilidad con enteros pregenerados para el idioma es.
Correcciones de errores
iOS: corrección del error de síntesis de voz en iOS 16 causado por un error de descodificación de audio comprimido (Incidencia del cliente).
JavaScript:
Corrección del token de autenticación que no funciona al obtener la lista de voz de síntesis de voz (Incidencia del cliente).
Creación de un worklet de procesador de audio solo cuando AudioWorklet se admita en el explorador (Incidencia del cliente). Esta fue una contribución comunitaria de William Wong. ¡Gracias William!
Corrección de la devolución de llamada reconocida cuando la respuesta connectionMessage de LUIS está vacía (Incidencia del cliente).
Establecimiento correcto del tiempo de espera de segmentación de voz.
Reconocimiento de la intención mediante coincidencia de patrones:
Los caracteres que no son json dentro de los modelos ahora se cargan correctamente.
Corrección del problema de bloqueo cuando se llamó a recognizeOnceAsync(text) durante el reconocimiento continuo.
SDK de Voz 1.23.0: versión de julio de 2022
Nuevas características
C#, C++, Java: se ha agregado compatibilidad para los idiomas zh-cn y zh-hk en Reconocimiento de la intención con coincidencia de patrones.
C#: se ha agregado compatibilidad con compilaciones de .NET Framework de AnyCPU.
Corrección de errores
Android: se ha corregido la vulnerabilidad CVE-2022-2068 de OpenSSL mediante la actualización de OpenSSL a 1.1.1q
Python: se ha corregido el bloqueo al usar PushAudioInputStream
iOS: se ha corregido el error "EXC_BAD_ACCESS: Se ha intentado desreferenciar un puntero nulo" como se notificó en iOS (problema de GitHub)
SDK de Voz 1.22.0: versión de junio de 2022
Nuevas características
Java: API IntentRecognitionResult para getEntities(), applyLanguageModels() y recognizeOnceAsync(text) se ha agregado para admitir el motor de "coincidencia de patrones simples".
Unity: se ha agregado compatibilidad con Mac M1 (Apple Silicon) para el paquete de Unity (incidencia de GitHub)
C#: Se ha agregado compatibilidad con x86_64 para Xamarin Android (incidencia de GitHub)
Linux: se ha agregado compatibilidad con Debian 11 y Ubuntu 22.04 LTS. Para Ubuntu 22.04 LTS se necesita la instalación manual de libssl1.1 como un paquete binario desde aquí (por ejemplo, libssl1.1_1.1.1l-1ubuntu1.3_amd64.deb o posterior para x64), o la compilación desde código fuente.
Corrección de errores
UWP: la dependencia de OpenSSL se ha quitado de las bibliotecas de UWP y se ha reemplazado por las API websocket y HTTP de WinRT para satisfacer el cumplimiento de seguridad y una superficie binaria más pequeña.
Mac: se ha corregido el problema "No se ha podido encontrar el módulo MicrosoftCognitiveServicesSpeech" al usar proyectos de Swift destinados a la plataforma macOS
Windows, Mac: se ha corregido un problema específico de la plataforma por el que los orígenes de audio configurados mediante propiedades para transmitir a una velocidad en tiempo real a veces se retrasaban y, finalmente, superaban la capacidad
C#: se han actualizado los ejemplos de .NET Framework para usar v4.6.2
Unity: se ha corregido el ejemplo de asistente virtual para Android y UWP
Unity: los ejemplos de Unity se ha actualizado para la versión de Unity 2020 LTS
SDK de Voz 1.21.0: versión de abril de 2022
Nuevas características
Java y JavaScript: se ha agregado compatibilidad con la identificación continua de idioma al usar el objeto SpeechRecognizer.
JavaScript: se han agregado la API de diagnóstico para habilitar el nivel de registro de consola y el registro de archivos (solo nodo) para ayudar a Microsoft a solucionar problemas notificados por el cliente.
Python: se ha agregado compatibilidad con la transcripción de conversaciones.
Go: se ha agregado compatibilidad con Speaker Recognition.
C++ y C#: se ha agregado compatibilidad con un grupo requerido de palabras en Intent Recognizer (coincidencia de patrones simple). Por ejemplo: "(set|start|begin) un temporizador", donde "set", "start" o "begin" deben estar presentes para que se reconozca la intención.
Todos los lenguajes de programación, síntesis de voz: se ha agregado la propiedad duration en los eventos de límite de palabras. Se ha agregado compatibilidad con el límite de puntuación y el límite de oración.
Objective-C/Swift/Java: se han agregado resultados de nivel de palabra en el objeto de resultado de evaluación de pronunciación (similar a C#). La aplicación ya no necesita analizar una cadena de resultado JSON para obtener información de nivel de palabra (problema de GitHub).
Plataforma iOS: se ha agregado compatibilidad experimental para la arquitectura ARMv7.
Corrección de errores
Plataforma iOS: se ha corregido para permitir la compilación para el destino "Cualquier dispositivo iOS", al usar CocoaPod (problema de GitHub)
Plataforma Android: la versión de OpenSSL se ha actualizado a la versión 1.1.1n para corregir la vulnerabilidad de seguridad CVE-2022-0778
JavaScript: se ha corregido un problema por el que el encabezado wav no se actualizaba con el tamaño de archivo (problema de GitHub)
JavaScript: se ha corregido el problema de desincronización del identificador de solicitud: escenarios de traducción importantes (problema de GitHub)
JavaScript: se ha corregido un problema al crear una instancia de SpeakerAudioDestination sin secuencia (problema de GitHub]
C++: se han corregido los encabezados de C++ para quitar una advertencia al compilar para C++17 o una versión más reciente.
Nuevos ejemplos de Java para reconocimiento de voz con identificación de idioma
Nuevos ejemplos de Python y Java para transcripción de conversaciones
Nuevo ejemplo de Go para Speaker Recognition
Nueva herramienta de C++ y C# para Windows que enumera todos los dispositivos de representación y captura de audio para buscar su identificador de dispositivo. El SDK de Voz necesita este identificador si planea capturar audio o representar audio en un dispositivo no predeterminado.
SDK de voz 1.20.0: versión de enero de 2022
Nuevas características
Objective-C, Swift y Python: se ha agregado compatibilidad con DialogServiceConnector, que se usa en escenarios de Asistente de voz.
Unity: el SDK de voz ahora es compatible con las aplicaciones de Unity en Linux.
C++, C#: IntentRecognizer con coincidencia de patrones ahora se admite en C#. Además, los escenarios con entidades personalizadas, grupos opcionales y roles de entidad ahora se admiten en C++ y C#.
C++, C#: registro de seguimiento de diagnóstico mejorado mediante las nuevas clases FileLogger, MemoryLogger y EventLogger. Los registros del SDK son una herramienta importante para el diagnóstico por parte de Microsoft de los problemas notificados por los clientes. Estas nuevas clases facilitan a los clientes la integración de los registros del SDK de voz en su propio sistema de registro.
Todos los lenguajes de programación: PronunciationAssessmentConfig ahora tiene propiedades para establecer el alfabeto de fonemas deseado (IPA o SAPI) y N-Best Phoneme Count (lo que evita la necesidad de crear un archivo JSON de configuración según la incidencia 1284 de GitHub). Además, ahora se admite la salida de nivel de sílaba.
Android, iOS y macOS (todos los lenguajes de programación): GStreamer ya no es necesario para admitir redes de ancho de banda limitado. SpeechSynthesizer ahora usa las funcionalidades de descodificación de audio del sistema operativo para descodificar el audio comprimido transmitido desde el servicio de texto a voz.
Todos los lenguajes de programación: SpeechSynthesizer ahora admite tres nuevos formatos de salida sin procesar (sin contenedor), que se usan ampliamente en escenarios de streaming en vivo.
JavaScript: se ha agregado la API getVoicesAsync() a SpeechSynthesizer para recuperar la lista de voces de síntesis admitidas (incidencia 1350 de GitHub)
JavaScript: se ha agregado la API getWaveFormat() a AudioStreamFormat para admitir formatos de onda que no son PCM (incidencia 452 de GitHub)
JavaScript: se han agregado API de getter/setter y mute()/unmute() a SpeakerAudioDestination (incidencia 463 de GitHub)
Corrección de errores
C++, C#, Java, JavaScript, Objective-C y Swift: corrección para quitar un retraso de 10 segundos al detener un reconocedor de voz que usa pushAudioInputStream. Esto es para el caso en el que no se inserta ningún audio nuevo después de llamar a StopContinuousRecognition (incidencias 1318, 331 de GitHub)
Unity en Android y UWP: se han corregido los metadatos de Unity para UWP, Android Arm64 y el subsistema de Windows para Android (WSA) Arm64 (incidencia 1360 de GitHub)
iOS: ahora se ha corregido la compilación de la aplicación del SDK de voz en cualquier dispositivo iOS al usar CocoaPods (incidencia 1320 de GitHub)
iOS: cuando SpeechSynthesizer está configurado para transmitir audio directamente a un hablante, la reproducción se detiene al principio en condiciones poco frecuentes. Este problema se ha corregido.
JavaScript: use la reserva del procesador de scripts para la entrada del micrófono si no se encuentra ningún worklet de audio (incidencia 455 de GitHub)
JavaScript: se ha agregado el protocolo al agente para mitigar los errores encontrados con la integración de Sentry (incidencia 465 de GitHub)
Ejemplos de C++, C#, Python y Java que muestran cómo obtener resultados detallados del reconocimiento. Los detalles incluyen resultados de reconocimiento alternativos, puntuación de confianza, forma léxica, formulario normalizado, formulario normalizado enmascarado, con temporización de nivel de palabra para cada uno.
Se ha agregado un ejemplo de iOS mediante AVFoundation como origen de audio externo.
Se ha agregado un ejemplo de Java para mostrar cómo obtener el formato SRT (texto SubRip) mediante el evento WordBoundary.
C++, C# que muestran el uso de las nuevas clases de registro de diagnóstico.
SDK de Voz 1.19.0: versión de noviembre de 2021
Aspectos destacados
El servicio Speaker Recognition ya está disponible con carácter general (GA). Las API del SDK de Voz están disponibles en C++, C#, Java y JavaScript. Con Speaker Recognition puede verificar de forma precisa a los hablantes e identificarlos por sus características de voz únicas. Para más información sobre este tema, consulte la documentación.
Se ha eliminado la compatibilidad con Ubuntu 16.04 junto con Azure DevOps y GitHub. Ubuntu 16.04 llegó al final de su ciclo de vida en abril de 2021. Migre los flujos de trabajo de Ubuntu 16.04 a Ubuntu 18.04 o posterior.
La vinculación de OpenSSL en archivos binarios de Linux ha cambiado a dinámica. El tamaño de archivo binario de Linux se ha reducido en aproximadamente un 50 %.
Se ha agregado compatibilidad con Mac M1 basado en ARM de silicio.
Nuevas características
C++/C#/Java: se han agregado nuevas API para habilitar la compatibilidad del procesamiento de audio con la entrada de voz con Microsoft Audio Stack. Se documenta aquí.
C++ : nuevas API para el reconocimiento de la intención a fin de facilitar una coincidencia de patrones más avanzada. Esto incluye las entidades List y Prebuilt Integer, así como la compatibilidad con la agrupación de intenciones y entidades como modelos (la documentación, las actualizaciones y los ejemplos están en desarrollo y se van a publicar en un futuro próximo).
Mac: compatibilidad con Silicon basado en Arm64 (M1) para paquetes CocoaPod, Python, Java y NuGet relacionados con el problema 1244 de GitHub.
iOS/Mac: los archivos binarios de iOS y macOS ahora se empaquetan en paquetes xcframework relacionados con el problema 919 de GitHub.
Linux: nuevo paquete tar agregado para CentOS7 Acerca del SDK de Voz. El paquete .tar de Linux ahora contiene bibliotecas específicas para RHEL/CentOS 7 en lib/centos7-x64. Las bibliotecas del SDK de Voz de lib/x64 todavía son aplicables a todas las demás distribuciones x64 de Linux compatibles (incluido RHEL/CentOS 8) y no funcionan en RHEL/CentOS 7.
JavaScript: API de VoiceProfile y SpeakerRecognizer ahora admiten async/await.
JavaScript: se ha agregado compatibilidad con las regiones de Azure del gobierno de los Estados Unidos.
Windows: se ha agregado compatibilidad con la reproducción en Plataforma universal de Windows (UWP).
Corrección de errores
Android: actualización de seguridad de OpenSSL (actualizado a la versión 1.1.1l) para paquetes Android.
Python: se ha resuelto un error que se generaba al seleccionar un dispositivo de altavoz en Python.
Core: vuelve a conectarse automáticamente cuando se produce un error en un intento de conexión.
iOS: compresión de audio deshabilitada en paquetes iOS debido a problemas de compilación de bitcode e inestabilidad al usar GStreamer. Los detalles están disponibles en el problema 1209 de GitHub.
Ubuntu 16.04 alcanzó el final del ciclo de vida en abril de 2021. Con Azure DevOps y GitHub, se quitará la compatibilidad con la versión 16.04 en septiembre de 2021. Migre los flujos de trabajo de ubuntu-16.04 a ubuntu-18.04 o posterior antes de ese momento.
C++/C#/Java: se ha agregado una nueva API GetActivationPhrasesAsync() a la clase VoiceProfileClient para recibir una lista de frases de activación válidas en la fase de inscripción de Speaker Recognition para escenarios de reconocimiento independientes.
Importante: la característica Speaker Recognition está en versión preliminar. Todos los perfiles de voz creados en la versión preliminar se interrumpirán 90 días después de que la característica Speaker Recognition se haya movido de la versión preliminar a disponibilidad general. En ese momento, los perfiles de voz de la versión preliminar dejarán de funcionar.
Python: se ha agregado un nuevo objeto de Python llamado SourceLanguageRecognizer para realizar una operación de LID única o continua (sin reconocimiento ni traducción).
JavaScript: se ha agregado la API getActivationPhrasesAsync a la clase VoiceProfileClient para recibir una lista de frases de activación válidas en la fase de inscripción de Speaker Recognition para escenarios de reconocimiento independientes.
JavaScript: la API enrollProfileAsync de VoiceProfileClient ahora se puede esperar asincrónicamente. Consulte este código de identificación independiente para ver un ejemplo de uso.
Mejoras
Java: se ha agregado compatibilidad con AutoCloseable a muchos objetos de Java. Ahora se admite el modelo try-with-resources para liberar recursos. Consulte este ejemplo que usa try-with-resources. Consulte también el tutorial de la documentación de Java de Oracle sobre la instrucción try-with-resources para obtener información sobre este patrón.
Se ha reducido significativamente la superficie de disco para muchas plataformas y arquitecturas. Ejemplos del archivo binario Microsoft.CognitiveServices.Speech.core: en Linux x64 es 475 KB más pequeño (reducción del 8,0 %), en Windows UWP Arm64 es 464 KB más pequeño (reducción del 11,5 %), en Windows x86 es 343 KB más pequeño (reducción del 17,5 %) y en Windows x64 es 451 KB más pequeño (reducción del 19,4 %).
Corrección de errores
Java: se ha corregido un error de síntesis cuando el texto de síntesis contiene caracteres suplentes. Consulte los detalles aquí.
JavaScript: el procesamiento de audio del micrófono del explorador ahora usa AudioWorkletNode en lugar de ScriptProcessorNode (en desuso). Consulte los detalles aquí.
JavaScript: se mantienen correctamente las conversaciones activas durante escenarios de traducción de conversación de larga duración. Consulte los detalles aquí.
JavaScript: se ha corregido un problema con la reconexión del reconocedor a una secuencia multimedia en el reconocimiento continuo. Consulte los detalles aquí.
JavaScript: se ha corregido un problema con la reconexión del reconocedor a un elemento pushStream en el reconocimiento continuo. Consulte los detalles aquí.
JavaScript: se ha corregido el cálculo de desplazamiento de nivel de palabra en los resultados detallados del reconocimiento. Consulte los detalles aquí.
Ejemplos
Puede encontrar ejemplos de inicios rápidos de Java actualizados aquí.
Ejemplos de Speaker Recognition de JavaScript actualizados para mostrar el nuevo uso de enrollProfileAsync(). Consulte los ejemplos aquí.
Superficie más pequeña: seguimos disminuyendo la superficie de memoria y disco del SDK de voz y sus componentes.
Una nueva API de identificación de idioma independiente permite reconocer qué idioma se habla.
Desarrolle aplicaciones de realidad mixta y juegos habilitadas para voz con Unity en macOS.
Ahora puede usar la característica de Texto a voz además del reconocimiento de voz con el lenguaje de programación Go.
Varias correcciones de errores para solucionar los problemas que nuestros valiosos clientes han marcado en GitHub. Gracias. No deje de enviar sus comentarios.
Nuevas características
C++/C#: nueva detección de idioma continua y al inicio gracias a la API SourceLanguageRecognizer. Si solo quiere detectar los idiomas hablados en el contenido del audio, esta es la API para hacerlo. Consulte los detalles para C++ y C#.
C++/C#: el reconocimiento de voz y el reconocimiento de traducción ahora admiten la identificación de idioma continua y al inicio para que pueda determinar mediante programación qué idiomas se hablan antes de que se transcriban o traduzcan. Consulte la documentación aquí sobre el reconocimiento de voz y aquí sobre la traducción de voz.
C#: se ha agregado compatibilidad con Unity para macOS (x64). Esta funcionalidad hace posible los casos de uso de reconocimiento de voz y síntesis de voz en realidad mixta y juegos.
Go: se ha agregado compatibilidad con la síntesis de voz/texto a voz al lenguaje de programación Go para que la síntesis de voz esté disponible incluso en más casos de uso. Consulte nuestro inicio rápido o nuestra documentación de referencia.
C++/C#/Java/Python/Objective-C/Go: el sintetizador de voz ahora admite el objeto connection. Este objeto ayuda a administrar y supervisar la conexión al servicio Voz y es especialmente útil para conectarse previamente a fin de reducir la latencia. Consulte la documentación aquí.
C++/C#/Java/Python/Objective-C/Go: ahora se expone la latencia y el tiempo en ejecución en SpeechSynthesisResult para ayudarle a supervisar y diagnosticar los problemas de latencia de la síntesis de voz. Consulte los detalles para C++, C#, Java, Python, Objective-C y Go.
C++/C#/Java/Python/Objective-C/Go: hemos agregado una propiedad Gender a la información de síntesis de voz para facilitar la selección de voces en función del sexo. Así se soluciona el problema n.º 1055 de GitHub.
C++, C#, Java, JavaScript: ahora se admiten retrieveEnrollmentResultAsync, getAuthorizationPhrasesAsync y getAllProfilesAsync() en Speaker Recognition para facilitar la administración de usuarios de todos los perfiles de voz de una cuenta dada. Consulte la documentación de C++, C#, Java, JavaScript. Así se soluciona el problema n.º 338 de GitHub.
JavaScript: se han agregado reintentos para errores de conexión que harán que las aplicaciones de voz basadas en JavaScript sean más sólidas.
Mejoras
Los archivos binarios del SDK de voz de Linux y Android se han actualizado para usar la versión más reciente de OpenSSL (1.1.1k).
Mejoras en el tamaño del código:
Language Understanding ahora se divide en una biblioteca "lu" independiente.
El tamaño del archivo binario principal de Windows x64 disminuyó en un 14,4 %.
El tamaño de archivo binario del núcleo Arm64 de Android disminuyó en un 13,7 %.
El tamaño de otros componentes también ha disminuido.
Corrección de errores
Todos: se ha corregido el problema n.º 842 de GitHub para ServiceTimeout. Ahora puede transcribir archivos de audio largos mediante el SDK de voz sin que la conexión al servicio termine con este error. Sin embargo, todavía se recomienda usar la transcripción por lotes para archivos largos.
C# : se ha corregido el problema n.º 947 de GitHub donde ninguna entrada de voz podía dejar la aplicación en mal estado.
Java: se ha corregido el problema n.º 997 de GitHub donde el SDK de voz para Java 1.16 se bloqueaba al usar DialogServiceConnector sin una conexión de red o una clave de suscripción no válida.
Se ha corregido un bloqueo al detener repentinamente el reconocimiento de voz (por ejemplo, mediante CTRL+C en la aplicación de consola).
Java: se ha agregado una corrección para eliminar archivos temporales en Windows cuando se usa el SDK de voz para Java.
Java: se ha corregido el problema n.º994 de GitHub donde al llamar a DialogServiceConnector.stopListeningAsync podía producirse un error.
JavaScript: se ha corregido el problema n.º 366 de GitHub donde ConversationTranslator producía el error "this.cancelSpeech no es una función".
JavaScript: se ha corregido el problema n.º 298 de GitHub donde el ejemplo "Get result as an in-memory stream" (Obtener resultado como una secuencia en memoria) reproducido sonaba muy alto.
JavaScript: se ha corregido el problema n.º 350 de GitHub donde al llamar a AudioConfig podía producirse el error "ReferenceError: MediaStream no está definido".
JavaScript: se ha corregido una advertencia UnhandledPromiseRejection en Node.js en sesiones de larga duración.
Ejemplos
Se ha actualizado la documentación de ejemplos de Unity para macOS aquí.
Ahora hay un ejemplo de React Native para el servicio de reconocimiento de Voz de Azure AI disponible aquí.
SDK de Voz 1.16.0: versión marzo de 2021
Nota
El SDK de voz en Windows depende de Microsoft Visual C++ Redistributable compartido para Visual Studio 2015, 2017 y 2019. Descárguela aquí.
Nuevas características
C++/C#/Java/Python: se ha pasado a la versión más reciente de GStreamer (1.18.3) para agregar compatibilidad con la transcripción de cualquier formato multimedia en Windows, Linux y Android. Consulte la documentación aquí.
C++/C#/Java/Objective-C/Python: se ha agregado compatibilidad con la descodificación de TTS/audio sintetizado comprimidos en el SDK. Si establece el formato de audio de salida en PCM y GStreamer está disponible en el sistema, el SDK solicitará automáticamente el audio comprimido del servicio para ahorrar ancho de banda y descodificar el audio en el cliente. Para deshabilitar esta función, puede configurar SpeechServiceConnection_SynthEnableCompressedAudioTransmission a false. Detalles de C++, C#, Java, Objective-C, Python.
C++/C#/Java/Objective-C/Python: se ha agregado el método GetVoicesAsync() para que TTS devuelva todas las voces de síntesis disponibles. Detalles de C++, C#, Java, Objective-C, Python.
C++/C#Java/JavaScript/Objective-C/Python: se ha agregado un evento VisemeReceived para la síntesis de voz y TTS para devolver la animación sincrónica de visema. Consulte la documentación aquí.
C++/C#/Java/JavaScript/Objective-C/Python: evento BookmarkReached agregado para TTS. Puede establecer marcadores en el SSML de entrada y obtener los desplazamientos de audio de cada marcador. Consulte la documentación aquí.
Java: se ha agregado compatibilidad con las API de Speaker Recognition. Consulte los detalles aquí.
C++/C#/Java/JavaScript/Objective-C/Python: se han agregado dos nuevos formatos de audio de salida con el contenedor WebM para TTS (Webm16Khz16BitMonoOpus y Webm24Khz16BitMonoOpus). Se trata de formatos mejores para el streaming de audio con el códec Opus. Detalles de C++, C#, Java, JavaScript, Objective-C, Python.
C++/C#/Java: se ha agregado compatibilidad con la recuperación del perfil de voz para el escenario de Speaker Recognition. Detalles de C++, C# y Java.
C++/C#/Java/Objective-C/Python: se ha agregado compatibilidad con una biblioteca compartida independiente para el micrófono de audio y el control de altavoces, Esto permite al desarrollador usar el SDK en entornos que no tienen dependencias de biblioteca de audio necesarias.
Objective-C/Swift: se ha agregado compatibilidad con el marco de módulos con encabezado umbrella. Esto permite al desarrollador importar el SDK de voz como un módulo en las aplicaciones de Objective-C/Swift de iOS/Mac. Esto soluciona el problema de GitHub n.º 452.
C++/C#/Java:DialogServiceConnector no se puede utilizar CustomCommandsConfig para tener acceso a una aplicación de comandos personalizados y, en su lugar, se producirá un error de conexión. Esto puede solucionarse agregando manualmente el id. de la aplicación a la solicitud con config.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter). El comportamiento esperado de CustomCommandsConfig se restaurará en la próxima versión.
Mejoras
Como parte de nuestro esfuerzo para reducir el uso de la memoria y la superficie de memoria de disco del SDK de voz, los archivos binarios de Android ahora son entre un 3 % y un 5 % más pequeños.
Además, se han mejorado la precisión y la legibilidad. Consulte también las secciones de nuestra documentación de referencia de C# aquí.
Corrección de errores
JavaScript: los encabezados de archivos WAV grandes ahora se analizan correctamente (aumenta el sector del encabezado a 512 bytes). Esto soluciona el problema de GitHub n.º 962.
JavaScript: problema corregido de temporización del micrófono si la secuencia de micro finaliza antes de detener el reconocimiento, solucionar un problema con el reconocimiento de voz no funciona en Firefox.
JavaScript: ahora se controla correctamente la promesa de inicialización cuando el explorador fuerza el micrófono antes de que se complete la activación.
JavaScript: se ha reemplazado la dependencia de la dirección URL con el análisis de direcciones URL. Esto soluciona el problema de GitHub n.º 264.
Android: las devoluciones de llamada fijas no funcionan cuando minifyEnabled se establece en true.
C++/C#/Java/Objective-C/Python: se TCP_NODELAY establecerá correctamente en la E/S de socket subyacente para TTS a fin de reducir la latencia.
C++/C#Java/Python/Objective-C/Go: se corrigió un bloqueo ocasional cuando el reconocedor se destruyó justo después de iniciar un reconocimiento.
C++/C#/Java: se ha corregido un bloqueo ocasional en la destrucción del reconocedor del hablante.
Ejemplos
JavaScript: las muestras del explorador ya no requieren la descarga de archivos de biblioteca de JavaScript independiente.
SDK de Voz 1.15.0: Versión de enero de 2021
Nota
El SDK de voz en Windows depende de Microsoft Visual C++ Redistributable compartido para Visual Studio 2015, 2017 y 2019. Descárguela aquí.
Resumen de los aspectos destacados
Menor superficie de memoria y disco para que el SDK sea más eficaz.
Formatos de salida con una mayor fidelidad disponibles para la versión preliminar privada de la voz neuronal personalizada.
Ahora el Reconocedor de intenciones puede devolverse más que la intención superior, lo que le ofrece la posibilidad de realizar una evaluación independiente de la intención del cliente.
Ahora es más fácil configurar el asistente para voz o los bots, y puede hacer que deje de escuchar inmediatamente, y ejercer un mayor control sobre cómo responde a los errores.
Se ha mejorado el rendimiento del dispositivo haciendo que la compresión sea opcional.
Use el SDK de Voz en ARM/Arm64 de Windows.
Se ha mejorado la depuración de nivel inferior.
La característica de evaluación de la pronunciación está ahora más disponible.
Varias correcciones de errores para solucionar los problemas que nuestros valiosos clientes han marcado en GitHub. Gracias. No deje de enviar sus comentarios.
Mejoras
El SDK de Voz es ahora más eficaz y ligero. Se ha iniciado un esfuerzo en versiones múltiples para reducir el uso de memoria y la superficie del disco del SDK de voz. Como primer paso, se han reducido considerablemente los tamaños de archivo en las bibliotecas compartidas de la mayoría de las plataformas. En comparación con la versión 1.14:
Las bibliotecas de Windows compatibles con UWP de 64 bits son aproximadamente un 30 % más pequeñas.
En las bibliotecas de Windows de 32 bits todavía no se ha mejorado el tamaño.
Las bibliotecas de Linux son entre un 20-25 % más pequeñas.
Las bibliotecas de Android son entre un 3-5 % más pequeñas.
Nuevas características
Todos: nuevos formatos de salida de 48 KHz disponibles para la versión preliminar privada de voz neuronal personalizada a través de la API de síntesis de voz de TTS: Audio48Khz192KBitRateMonoMp3, audio-48khz-192kbitrate-mono-mp3, Audio48Khz96KBitRateMonoMp3, audio-48khz-96kbitrate-mono-mp3, Raw48Khz16BitMonoPcm, raw-48khz-16bit-mono-pcm, Riff48Khz16BitMonoPcm, riff-48khz-16bit-mono-pcm.
Todos: Voz personalizada también es más fácil de usar. Se ha agregado compatibilidad para configurar Voz personalizada mediante EndpointId (EndpointId, C#, Java, JavaScript, Objective-C, Python). Antes de este cambio, los usuarios de Voz personalizada debían establecer la dirección URL del punto de conexión con el método FromEndpoint. Ahora los clientes pueden usar el método FromSubscription como si fueran voces precompiladas. Después, pueden especificar el id. de implementación mediante el establecimiento de EndpointId. Esto simplifica la configuración de voces personalizadas.
C++/C#/Java/Objective-C/Python: consiga más intenciones que la principal con IntentRecognizer. Ahora admite la configuración del resultado JSON que contiene todas las intenciones y no solo la principal con el método LanguageUnderstandingModel FromEndpoint mediante el parámetro de URI verbose=true. Esto soluciona el problema nº 880 de GitHub. Vea aquí la documentación actualizada.
C++/C#/Java: haga que el asistente para voz o el bot dejen de escuchar de forma inmediata. DialogServiceConnector (C++, C#, Java) ahora tiene un método StopListeningAsync() para acompañar a ListenOnceAsync(). Esto detiene de forma inmediata la captura de audio y espera correctamente un resultado, lo que lo convierte en perfecto para su uso con escenarios de pulsación de botones "Detener ahora".
C++/C#/Java/JavaScript: Haga que el asistente para voz o el bot reaccione mejor a los errores del sistema subyacentes. DialogServiceConnector (C++, C#, Java, JavaScript) ahora tiene un nuevo controlador de eventos TurnStatusReceived. Estos eventos opcionales se corresponden con todas las resoluciones ITurnContext del bot y notificarán los errores de ejecución cuando se produzcan, por ejemplo, como resultado de una excepción no controlada, un tiempo de espera o una caída de la red entre Direct Line Speech y el bot. TurnStatusReceived facilita la respuesta a las condiciones de error. Por ejemplo, si un bot tarda demasiado en una consulta de la base de datos de back-end (por ejemplo, al buscar un producto), TurnStatusReceived permite que el cliente sepa que tiene que volver a preguntar con "Lo sentimos, no lo he entendido, vuelva a intentarlo" o algo similar.
C++/C# : Use el SDK de Voz en más plataformas. Ahora el paquete NuGet del SDK de Voz es compatible con los archivos binarios nativos de escritorio ARM/Arm64 de Windows (UWP ya lo era antes), con el fin de que el SDK de Voz sea más útil en más tipos de máquinas.
Java: DialogServiceConnector ahora tiene un método setSpeechActivityTemplate() que antes se había excluido accidentalmente del lenguaje. Esto equivale a establecer la propiedad Conversation_Speech_Activity_Template y solicitará que todas las actividades futuras de Bot Framework originadas por el servicio Direct Line Speech combinen el contenido proporcionado en sus cargas de JSON.
Java: se ha mejorado la depuración de bajo nivel. Ahora la clase Connection tiene un evento MessageReceived, similar a otros lenguajes de programación (C++, C#). Este evento proporciona acceso de bajo nivel a los datos entrantes del servicio y puede ser útil para tareas de diagnóstico y depuración.
JavaScript: configuración más sencilla para los asistentes de voz y bots mediante BotFrameworkConfig, que ahora tiene los métodos de fábrica fromHost() y fromEndpoint() que simplifican el uso de ubicaciones de servicio personalizadas frente a la configuración manual de propiedades. También se ha estandarizado la especificación opcional de botId para usar un bot no predeterminado en los generadores de configuración.
JavaScript: Se ha mejorado el rendimiento del dispositivo mediante la propiedad de control de cadena agregada para la compresión de WebSocket. Por motivos de rendimiento, se ha deshabilitado la compresión de WebSocket de forma predeterminada. Se puede volver a habilitar en el caso de escenarios de ancho de banda bajo. Más detalles aquí. Esto soluciona el problema de GitHub n.º 242.
JavaScript: Se ha agregado compatibilidad con la evaluación de la pronunciación para permitir la evaluación de la pronunciación de voz. Vea este inicio rápido.
Corrección de errores
Todos (excepto JavaScript): Se ha corregido una regresión en la versión 1.14, en la que el reconocedor asignaba demasiada memoria.
C++: se ha corregido un problema de recolección de elementos no utilizados con DialogServiceConnector, lo que soluciona el problema de GitHub n.º 794.
C# : Se ha corregido un problema con el cierre de subprocesos que provocaba el bloqueo de los objetos durante aproximadamente un segundo al eliminarlos.
C++/C#/Java: se ha corregido una excepción que impide que una aplicación establezca el token de autorización de voz o la plantilla de actividad más de una vez en un objeto DialogServiceConnector.
C++/C#/Java: Se ha corregido un bloqueo del reconocedor debido a una condición de carrera en el desmontaje.
JavaScript: DialogServiceConnector no respetaba anteriormente el parámetro botId opcional especificado en las fábricas de BotFrameworkConfig. Por esto era necesario establecer el parámetro de cadena de consulta botId manualmente para usar un bot no predeterminado. El error se ha corregido y se respetarán y usarán los valores botId proporcionados para los generadores de BotFrameworkConfig, incluidas las nuevas adiciones de fromHost() y fromEndpoint(). Esto también se aplica al parámetro applicationId para CustomCommandsConfig.
JavaScript: Se ha corregido la incidencia 881 de GitHub, lo que permite volver a usar el objeto de reconocedor.
JavaScript: se ha corregido un problema que hacía que el SKD enviara speech.config varias veces en una sesión de TTS, lo que desperdiciaba ancho de banda.
JavaScript: se ha simplificado el control de errores en la autorización del micrófono, lo que permite que se muestre un mensaje más descriptivo cuando el usuario no ha permitido la entrada del micrófono en el explorador.
JavaScript: se ha corregido el problema de GitHub n.º 249 en el que los errores de tipo en ConversationTranslator y ConversationTranscriber generaban un error de compilación para los usuarios de TypeScript.
Objective-C: Se ha corregido un problema por el que se producía un error en la compilación de GStreamer para iOS en Xcode 11.4, lo que soluciona el problema de GitHub n.º 911.
Python: se ha corregido el problema 870 de GitHub y se quita "DeprecationWarning: el módulo imp ha quedado en desuso en favor de importlib".
C#, C++, Java: se agregó la función FromDialogServiceConnector() a la clase Connection, que se puede utilizar para supervisar los eventos de conexión y desconexión de DialogServiceConnector. Lea la documentación de referencia aquí (C#), aquí (C++) y aquí (Java).
C++/C#/Java/Python/Objective-C/Swift: se ha agregado compatibilidad con la evaluación de la pronunciación, que evalúa la pronunciación de la voz y ofrece a los oradores información sobre la precisión y la fluidez del audio hablado. Consulte la documentación aquí.
Cambio importante
JavaScript: PullAudioOutputStream.read() tiene un cambio del tipo de retorno de una promesa interna a una promesa de JavaScript nativa.
Correcciones de errores
En todos: se corrigió la regresión de 1.13 en SetServiceProperty, donde se omitían los valores con determinados caracteres especiales.
C# : se corrigieron ejemplos de la consola de Windows en Visual Studio 2019 en los que no se podían encontrar los archivos DLL nativos.
C#: se corrigió el bloqueo con la administración de memoria cuando se usaba la secuencia como entrada KeywordRecognizer.
ObjectiveC/Swift: se corrigió el bloqueo con la administración de memoria cuando se usaba la secuencia como entrada del reconocedor.
Windows: se corrigió el problema de coexistencia con BT HFP/A2DP en UWP.
JavaScript: se corrigió la asignación de identificadores de sesión para mejorar el registro y la ayuda en las correlaciones internas de depuración y servicio.
JavaScript: se agregó una corrección para que DialogServiceConnector deshabilite las llamadas a ListenOnce después de realizar la primera llamada.
JavaScript: se corrigió un problema que hacía que la salida de resultados solo fuera "simple".
JavaScript: se corrigió un problema de reconocimiento continuo en Safari en macOS.
JavaScript: mitigación de la carga de CPU en escenarios de procesamiento elevado de solicitudes.
JavaScript: se permite el acceso a los detalles del resultado de la inscripción de perfil de voz.
JavaScript: se agregó una corrección para el reconocimiento continuo en IntentRecognizer.
C++/C#/Java/Python/Swift/ObjectiveC: se corrigió una dirección URL incorrecta para australiaeast y brazilsouth en IntentRecognizer.
C++/C#: se agregó VoiceProfileType como argumento al crear un objeto VoiceProfile.
C++/C#/Java/Python/Swift/ObjectiveC: se corrigió el argumento potencial SPX_INVALID_ARG al intentar leer AudioDataStream desde una posición determinada.
IOS: se corrigió un bloqueo con el reconocimiento de voz en Unity.
Ejemplos
ObjectiveC: se agregó un ejemplo para el reconocimiento de palabras clave aquí.
C#/JavaScript: se agregó un inicio rápido para la transcripción de conversaciones aquí (C#) y aquí (JavaScript).
C++/C#/Java/Python/Swift/ObjectiveC: se ha agregado un ejemplo de evaluación de la pronunciación aquí
Problema conocido
El certificado DigiCert Global Root G2 no se admite de forma predeterminada en HoloLens 2 y Android 4.4 (KitKat) y debe agregarse al sistema para que el SDK de voz sea funcional. El certificado se agregará a las imágenes del sistema operativo de HoloLens 2 en un futuro próximo. Los clientes de Android 4.4 deben agregar el certificado actualizado al sistema.
Pruebas reducidas ante la COVID-19
Debido al trabajo de forma remota en las últimas semanas, no pudimos realizar tantas pruebas manuales de comprobación de como normalmente hacemos. No hemos hecho ningún cambio que creemos que pueda haber generado algún error y se han superado todas las pruebas automatizadas. En el improbable caso de que falte algo, háganoslo saber en GitHub.
Y sigan sanos.
SDK de voz 1.13.0: versión de julio de 2020
Nota
El SDK de voz en Windows depende de Microsoft Visual C++ Redistributable compartido para Visual Studio 2015, 2017 y 2019. Descárguelo e instálelo aquí.
Nuevas características
C# : se ha agregado compatibilidad para la transcripción de conversaciones asincrónicas. Consulte la documentación aquí.
JavaScript: se ha agregado compatibilidad con Speaker Recognition tanto para el explorador como para Node.js.
JavaScript: se ha agregado compatibilidad para la identificación del idioma. Consulte la documentación aquí.
Python: se ha agregado compatibilidad con audio comprimido para Python en Windows y Linux. Consulte la documentación aquí.
Corrección de errores
Todos: se ha corregido un problema que provocaba que KeywordRecognizer no hiciera avanzar los flujos después de un reconocimiento.
Todos: se ha corregido un problema que provocaba que el flujo obtenido de KeywordRecognitionResult no incluyera la palabra clave.
Todos: se ha corregido un problema por el que SendMessageAsync no enviaba realmente el mensaje a través de la conexión después de que hubiese terminado la espera de los usuarios.
Todos: se ha corregido un bloqueo en las API de Speaker Recognition cuando los usuarios llamaban al método VoiceProfileClient::SpeakerRecEnrollProfileAsync varias veces y no esperaban a que las llamadas finalizaran.
Todos: se ha corregido la habilitación del registro de archivos en las clases VoiceProfileClient y SpeakerRecognizer.
JavaScript: se ha corregido un problema con la limitación al minimizar el explorador.
JavaScript: se ha corregido un problema con la fuga de memoria en los flujos.
JavaScript: se ha agregado almacenamiento en caché para las respuestas de OCSP de NodeJS.
Java: se ha corregido un problema que provocaba que los campos BigInteger devolvieran siempre 0.
iOS: Se ha corregido un problema con la publicación de aplicaciones basadas en el SDK de Voz en iOS App Store.
Ejemplos
C++ : se ha agregado código de ejemplo para Speaker Recognition aquí.
Pruebas reducidas ante la COVID-19
Debido al trabajo de forma remota en las últimas semanas, no pudimos realizar tantas pruebas manuales de comprobación de como normalmente hacemos. No hemos hecho ningún cambio que creemos que pueda haber generado algún error y se han superado todas las pruebas automatizadas. En el improbable caso de que falte algo, háganoslo saber en GitHub.
Y sigan sanos.
SDK de voz 1.12.1: Versión de junio de 2020
Nuevas características
C#, y C++ : Versión preliminar de Speaker Recognition: Esta característica permite la identificación del hablante (¿quién habla?) y la verificación del hablante (¿es quien dice ser?). Consulte la documentación de información general.
Corrección de errores
C#, C++: se ha corregido la grabación del micrófono que no funcionaba en la versión 1.12 de Speaker Recognition.
JavaScript: correcciones para la conversión de texto a voz en Firefox y Safari, tanto en macOS como en iOS.
Corrección del bloqueo por infracción de acceso del comprobador de aplicaciones Windows en la transcripción de conversaciones cuando se usa el flujo de ocho canales.
Corrección del bloqueo de la violación del acceso al comprobador de aplicaciones Windows en la traducción de conversaciones entre varios dispositivos.
Java: ejemplo de código para el reconocimiento de la intención en Android.
Pruebas reducidas ante la COVID-19
Debido al trabajo de forma remota en las últimas semanas, no pudimos realizar tantas pruebas manuales de comprobación de como normalmente hacemos. No hemos hecho ningún cambio que creemos que pueda haber generado algún error y se han superado todas las pruebas automatizadas. En el improbable caso de que falte algo, háganoslo saber en GitHub.
Y sigan sanos.
JavaScript: se ha agregado compatibilidad con el explorador para texto a voz. Consulte la documentación aquí.
C++, C#, Java: nuevo objeto KeywordRecognizer y las API compatibles con las plataformas Windows, Android, Linux e iOS. Consulte la documentación aquí. Para ver el código de ejemplo, consulte la sección Ejemplos más adelante.
Java: Se ha agregado la conversación con varios dispositivos con compatibilidad con traducción. Vea el documento de referencia aquí.
Mejoras y optimizaciones
JavaScript: Implementación optimizada del micrófono del explorador para mejorar la precisión del reconocimiento de voz.
Java: enlaces refactorizados mediante la implementación directa de JNI sin SWIG. Este cambio reduce en 10 veces el tamaño de los enlaces de todos los paquetes de Java usados para Windows, Android, Linux y Mac, y facilita el desarrollo de la implementación de Java del SDK de voz.
Linux: Documentación de compatibilidad actualizada con las notas específicas de RHEL 7 más recientes.
Se ha mejorado la lógica de conexión para intentar conectarse varias veces cuando se producen errores de servicio y de red.
Se ha actualizado la página de inicio rápido de Voz de portal.azure.com para ayudar a los desarrolladores a realizar el siguiente paso en el recorrido de Voz de Azure AI.
Corrección de errores
C#, Java: Se ha corregido un problema con la carga de bibliotecas de SDK en Linux ARM (de 32 y 64 bits).
C#: se ha corregido la cancelación explícita de identificadores nativos para los objetos TranslationRecognizer, IntentRecognizer y Connection.
C# : Se ha corregido la administración de la duración de la entrada de audio para el objeto ConversationTranscriber.
Se ha corregido un problema por el que la razón del resultado de IntentRecognizer no se establecía correctamente al reconocer la intención de frases simples.
Se ha corregido un problema por el que el desplazamiento del resultado de SpeechRecognitionEventArgs no se establecía correctamente.
Se ha corregido una condición de carrera en la que el SDK intentaba enviar un mensaje de red antes de abrir la conexión de WebSocket. Era reproducible para TranslationRecognizer al agregar participantes.
Se han corregido las fugas de memoria en el motor de reconocedor de palabras clave.
Ejemplos de reconocimiento de palabras clave para C# y Java (Android).
Pruebas reducidas ante la COVID-19
Debido al trabajo de forma remota en las últimas semanas, no pudimos realizar tantas pruebas manuales de comprobación de como normalmente hacemos. No hemos hecho ningún cambio que creemos que pueda haber generado algún error y se han superado todas las pruebas automatizadas. Si falta algo, háganoslo saber en GitHub.
Y sigan sanos.
SDK de voz 1.11.0: Versión de marzo de 2020
Nuevas características
Linux: Se ha agregado compatibilidad con Red Hat Enterprise Linux (RHEL)/CentOS 7 x64.
Linux: se ha agregado compatibilidad con C# de .Net Core en Linux ARM32 y Arm64. Obtenga más información aquí.
C#, C++: se ha agregado UtteranceId en ConversationTranscriptionResult, un identificador coherente en todos los intermedios y el resultado final del reconocimiento de voz. Detalles de C#, C++.
Python: se ha agregado compatibilidad con Language ID Consulte speech_sample.py en el repositorio de GitHub.
Windows: se ha agregado compatibilidad con el formato de entrada de audio comprimido en la plataforma Windows para todas las aplicaciones de consola win32. Consulte los detalles aquí.
JavaScript: compatibilidad con síntesis de voz (texto a voz) en NodeJS. Obtenga más información aquí.
JavaScript: se han agregado nuevas API para habilitar la inspección de todos los mensajes enviados y recibidos. Obtenga más información aquí.
Corrección de errores
C#, C++: se ha corregido un problema y ahora SendMessageAsync envía el mensaje binario como tipo binario. Detalles de C#, C++.
C#, C++: se ha corregido un problema por el cual el uso del evento Connection MessageReceived puede causar un bloqueo si se elimina Recognizer antes del objeto Connection. Detalles de C#, C++.
Android: el tamaño del búfer del audio desde el micrófono ha disminuido de 800 ms a 100 ms para mejorar la latencia.
Android: se ha corregido un problema con el emulador de Android para x86 en Android Studio.
JavaScript: se ha agregado compatibilidad con regiones en China con la API fromSubscription. Consulte los detalles aquí.
JavaScript: se ha agregado más información para los errores de conexión de NodeJS.
Ejemplos
Unity: se ha corregido el ejemplo público de reconocimiento de la intención, en el que se produjo un error en la importación de JSON de LUIS. Consulte los detalles aquí.
Python: Ejemplo agregado para Language ID. Consulte los detalles aquí.
Pruebas abreviadas de COVID-19: Debido al trabajo de forma remota en las últimas semanas, no pudimos realizar tantas pruebas manuales de comprobación de dispositivos como normalmente hacemos. Por ejemplo, no hemos podido probar la entrada y salida del micrófono en Linux, iOS y macOS. No hemos hecho ningún cambio que creemos que pudiera haber producido algún error en estas plataformas y todas las pruebas automatizadas han pasado. En el improbable caso de que falte algo, háganoslo saber en GitHub.
Gracias por su asistencia continuada. Como siempre, publique las preguntas o comentarios en GitHub o en Stack Overflow.
Y sigan sanos.
Speech SDK 1.10.0: versión de febrero de 2020
Nuevas características
Se han agregado paquetes de Python para admitir la nueva versión 3.8 de Python.
Compatibilidad con Red Hat Enterprise Linux (RHEL) y CentOS 8 x64 (C++, C#, Java y Python).
Compatibilidad de Linux ARM32 con Debian y Ubuntu.
DialogServiceConnector ahora admite un parámetro opcional "bot ID" en BotFrameworkConfig. Este parámetro permite el uso de varios bots de Direct Line Speech con un solo recurso de voz. Si no se especifica el parámetro, se utilizará el bot predeterminado (el que se determine en la página de configuración del canal de Direct Line Speech).
DialogServiceConnector ahora tiene una propiedad SpeechActivityTemplate. Direct Line Speech usará el contenido de esta cadena JSON para rellenar previamente una amplia variedad de campos admitidos en todas las actividades que llegan a un bot de Direct Line Speech, incluidas las actividades generadas automáticamente en respuesta a eventos como el reconocimiento de voz.
TTS ahora usa la clave de suscripción para la autenticación, lo que reduce la latencia del primer byte del primer resultado de la síntesis después de crear un sintetizador.
Se han actualizado los modelos de reconocimiento de voz de 19 configuraciones regionales, con lo que se ha logrado una reducción media de la tasa de errores de palabras del 18,6 % (es-ES, es-MX, FR-CA, fr-FR, TI-IT, ja-JP, ko-KR, pt-BR, zh-CN, ZH-HK, NB-NO, fi-FL, ru-RU, pl-PL, CA-ES, zh-TW, TH-TH, pt-PT y tr-TR). Los nuevos modelos aportan mejoras significativas en varios dominios, entre los que se incluyen los escenarios de dictado, transcripción del centro de llamadas e indexación de vídeo.
Corrección de errores
Corrección del error por el que la transcripción de conversaciones no esperaba correctamente en las API de Java
Adición de métodos Property (Get|Set) a AudioConfig
Corrección de un error de TTS en el que audioDataStream no se puede detener cuando se produce un error en la conexión
El uso de un punto de conexión sin una región provocaría errores en el USP para el traductor de conversaciones
La generación de identificadores en las aplicaciones universales de Windows ahora usa un algoritmo de GUID único; cuyo valor predeterminado anterior y no intencionado es una implementación con código auxiliar que a menudo producía colisiones en conjuntos de interacciones grandes.
Acerca del SDK de Voz 1.9.0: Versión de enero de 2020
Nuevas características
Conversación entre varios dispositivos: conecte varios dispositivos a la misma conversación basada en texto o en voz y, opcionalmente, traduzca los mensajes que se envían entre ellos. Más información en este artículo.
Se ha agregado compatibilidad con el reconocimiento de palabras clave para el paquete .aar de Android y se ha agregado compatibilidad con las versiones x86 y x64.
Objective-C: se han agregado los métodos SendMessage y SetMessageProperty al objeto Connection. Consulte la documentación aquí.
La API de C++ para TTS ahora admite std::wstring como entrada de texto de síntesis, lo que elimina la necesidad de convertir un valor wstring en string antes de pasarlo al SDK. Consulte los detalles aquí.
JavaScript: se ha agregado una característica al objeto Connection para pasar por los mensajes personalizados desde el servicio de Voz como objeto receivedServiceMessage de devolución de llamada.
JavaScript: se ha agregado compatibilidad con FromHost API para facilitar su uso con contenedores locales y nubes soberanas. Consulte la documentación aquí.
JavaScript: ahora se admite NODE_TLS_REJECT_UNAUTHORIZED gracias a una contribución de NODE_TLS_REJECT_UNAUTHORIZED. Consulte los detalles aquí.
Cambios importantes
OpenSSL se ha actualizado a la versión 1.1.1b y está vinculada estáticamente a la biblioteca principal del SDK de Voz para Linux. Esto puede producir una interrupción si la bandeja de entrada OpenSSL no se ha instalado en el directorio /usr/lib/ssl del sistema. Consulte nuestra documentación en los documentos sobre el SDK de Voz para solucionar el problema.
Se ha cambiado el tipo de datos devuelto para C# WordLevelTimingResult.Offset de int a long para permitir el acceso a WordLevelTimingResults cuando los datos de voz duren más de 2 minutos.
PushAudioInputStream y PullAudioInputStream envían ahora información de los encabezados WAV al servicio de Voz basado en AudioStreamFormat, que se especificó como opción cuando se crearon. Los clientes deben utilizar ahora el formato de entrada de audio admitido. Cualquier otro formato obtendrá resultados de reconocimiento no óptimos o podría causar otros problemas.
Corrección de errores
Consulte la actualización de OpenSSL en cambios importantes anteriores. Hemos corregido un bloqueo intermitente y un problema de rendimiento (contención de bloqueo bajo carga alta) en Linux y Java.
Java: Se han realizado mejoras en la clausura de objetos en escenarios de alta simultaneidad.
Se ha reestructurado nuestro paquete NuGet. Se han eliminado las tres copias de Microsoft.CognitiveServices.Speech.core.dll y Microsoft.CognitiveServices.Speech.extension.kws.dll en las carpetas lib, con lo cual el paquete NuGet es ahora más pequeño y su descarga es más rápida, y se han agregado los encabezados necesarios para compilar algunas aplicaciones nativas en C++.
Aquí puede encontrar ejemplos corregidos del inicio rápido. Estos estaban saliendo sin mostrar la excepción "No se encontró el micrófono" en Linux, macOS y Windows.
Se ha corregido un bloqueo del SDK por el que se producían resultados de reconocimientos de voz largos en determinadas rutas de acceso al código como en este ejemplo.
Se ha corregido un error en la implementación del SDK en el entorno de Azure Web App para solucionar este problema del cliente.
Se ha corregido un error de TTS al usar varias etiquetas <voice> o <audio> para solucionar <voice>.
Se ha corregido un error TTS 401 cuando se recupera el SDK del estado suspendido.
JavaScript: Se ha corregido una importación circular de datos de audio gracias a una contribución de euirim.
JavaScript: se ha agregado compatibilidad para establecer las propiedades del servicio, como se hizo en 1.7.
JavaScript: se ha corregido un problema por el que un error de conexión podría provocar intentos de reconexión de WebSocket continuos e incorrectos.
Ejemplos
Se ha agregado el ejemplo de reconocimiento de palabras clave para Android aquí.
Se ha agregado el ejemplo de TTS para el escenario de servidor aquí.
Se han agregado inicios rápidos de conversación entre varios dispositivos para C# y C++ aquí.
Otros cambios
Se ha optimizado el tamaño de la biblioteca principal del SDK en Android.
El SDK de las versiones 1.9.0 y posteriores admite los tipos int y string en el campo Versión de la firma de voz para la transcripción de conversaciones.
SDK de Voz 1.8.0: Versión de noviembre de 2019
Nuevas características
Se ha agregado una API FromHost() para facilitar su uso con contenedores locales y nubes soberanas.
Se ha agregado la identificación del idioma de origen para el reconocimiento de voz (en Java y C++)
Se ha agregado el objeto SourceLanguageConfig para el reconocimiento de voz, que se usa para especificar los idiomas de origen esperados (en Java y C++).
Se ha agregado compatibilidad con KeywordRecognizer en Windows (UWP), Android e iOS mediante los paquetes de NuGet y Unity.
Se ha agregado la API de Java de conversación remota para realizar la transcripción de conversaciones en lotes asincrónicos.
Cambios importantes
Las funcionalidades de transcripción de conversaciones se han movido al espacio de nombres Microsoft.CognitiveServices.Speech.Transcription.
Partes de los métodos de transcripción de conversaciones se han movido a la nueva clase Conversation.
Compatibilidad eliminada para iOS de 32 bits (ARMv7 y x86)
Corrección de errores
Se ha corregido un bloqueo si se usa KeywordRecognizer local sin una clave de suscripción válida al servicio de voz.
Ejemplos
Ejemplo de Xamarin para KeywordRecognizer
Ejemplo de Unity para KeywordRecognizer
Ejemplos de C++ y Java de identificación automática del idioma de origen.
SDK de voz 1.7.0: versión de septiembre de 2019
Nuevas características
Compatibilidad con la versión beta agregada para Xamarin en la Plataforma universal de Windows (UWP), Android e iOS
Compatibilidad con iOS agregada para Unity
Se ha agregado compatibilidad de entrada Compressed para ALaw, Mulaw, FLAC, en Android, iOS y Linux.
Se ha agregado SendMessageAsync en la clase Connection para enviar un mensaje al servicio.
Se ha agregado SetMessageProperty en la clase Connection para establecer la propiedad de un mensaje.
TTS agregó enlaces para Java (JRE y Android), Python, Swift y Objective-C.
TTS agregó compatibilidad de reproducción para macOS, iOS y Android
Se ha agregado información de "límite de palabras" para TTS
Corrección de errores
Se ha corregido un problema de compilación de IL2CPP en Unity 2019 para Android
Se ha corregido un problema con los encabezados con formato incorrecto en la entrada de archivo WAV que se procesa de forma incorrecta
Se ha corregido un problema con UUID que no es único en algunas propiedades de conexión
Se han corregido algunas advertencias sobre los especificadores de nulabilidad en los enlaces SWIFT (puede que se requieran pequeños cambios en el código)
Se ha corregido un error que provocaba que las conexiones de WebSocket se cerraran de manera incorrecta en la carga de red
Se ha corregido un problema en Android que a veces provoca que DialogServiceConnector use identificadores de impresión duplicados.
Se han introducido mejoras en la estabilidad de las conexiones entre interacciones multiproceso y la generación de informes de errores (a través de eventos Canceled) cuando se producen con DialogServiceConnector.
Los inicios de sesión de DialogServiceConnector ahora proporcionarán eventos correctamente, incluso si se llama a ListenOnceAsync() durante una operación StartKeywordRecognitionAsync() activa.
Se ha resuelto un bloqueo asociado a la recepción de actividades DialogServiceConnector.
Ejemplos
Inicio rápido para Xamarin
Se ha actualizado el inicio rápido de CPP con información de Arm64 de Linux
Se ha actualizado el inicio rápido de Unity con información de iOS
SDK de Voz 1.6.0: versión de junio de 2019
Ejemplos
Ejemplos de inicio rápido para Texto a voz en UWP y Unity
Ejemplo de inicio rápido para Swift en iOS
Ejemplos de Unity para Traducción y Reconocimiento de la intención comunicativa y Voz
Ejemplos de inicios rápidos actualizados para DialogServiceConnector
Mejoras y cambios
Espacio de nombres de cuadro de diálogo:
El nombre de SpeechBotConnector ha cambiado a DialogServiceConnector
El nombre de BotConfig ha cambiado a DialogServiceConfig
BotConfig::FromChannelSecret() se ha reasignado a DialogServiceConfig::FromBotSecret()
Todos los clientes de Voz de Direct Line existentes siguen siendo compatibles después del cambio de nombre
Actualización del adaptador REST de TTS para admitir una conexión persistente de proxy
Un mejor mensaje de error cuando se pasa una región no válida
Swift/Objective-C:
Mejores informes de errores: los métodos que pueden generar un error ahora se encuentran en dos versiones: una que expone un objeto NSError para el control de errores y una que genera una excepción. La primera se expone a Swift. Este cambio requiere adaptaciones en el código Swift existente.
Mejor control de eventos
Corrección de errores
Corrección de TTS: donde el futuro de SpeakTextAsync se devolvió sin esperar al fin de la representación del audio
Corrección para la serialización de las cadenas en C# para permitir la compatibilidad total con idiomas
Corrección del problema de las aplicaciones centrales de .NET para cargar la biblioteca principal con un marco de destino net461 en ejemplos
Corrección de problemas ocasionales para implementar bibliotecas nativas en la carpeta de salida en los ejemplos
Corrección para cerrar el socket web de manera confiable
Corrección de un posible bloqueo al abrir una conexión con sobrecarga en Linux
Corrección de metadatos faltantes en el paquete de marcos para macOS
Corrección de problemas con pip install --user en Windows
Speech SDK 1.5.1
Se trata de una versión de corrección de errores y solo afecta al SDK nativo o administrado. No afecta a la versión de JavaScript del SDK.
Corrección de errores
Corrección de FromSubscription cuando se usa con la transcripción de la conversación.
Corrección de errores en la detección de palabras clave en los asistentes para voz.
Speech SDK 1.5.0 Versión de mayo de 2019
Nuevas características
La detección de palabras clave (KWS) ahora está disponible para Windows y Linux. La funcionalidad KWS podría funcionar con cualquier tipo de micrófono; no obstante, la compatibilidad oficial de KWS está limitada actualmente a las matrices de micrófonos que se encuentran en el hardware de Azure Kinect DK o el SDK de dispositivos de voz.
La funcionalidad de sugerencia de frases está disponible a través del SDK. Para más información, consulte esta página.
La funcionalidad de transcripción de conversaciones está disponible a través del SDK.
Compatibilidad agregada con los asistentes para voz mediante el canal Direct Line Speech.
Ejemplos
Se han agregado ejemplos para nuevas características o nuevos servicios admitidos por el SDK.
Mejoras y cambios
Se han agregado varias propiedades de reconocimiento para ajustar el comportamiento del servicio o los resultados del servicio (por ejemplo, enmascaramiento de palabras soeces etc.).
Ahora puede configurar el reconocimiento a través de las propiedades de configuración estándar, incluso si ha creado el valor de FromEndpoint del reconocedor.
Objective-C: se agregó la propiedad OutputFormat a SPXSpeechConfiguration.
El SDK ahora admite Debian 9 como una distribución de Linux.
Corrección de errores
Se ha corregido un problema donde el recurso de altavoz se destruía demasiado pronto en la conversión de texto a voz.
Speech SDK 1.4.2
Se trata de una versión de corrección de errores y solo afecta al SDK nativo o administrado. No afecta a la versión de JavaScript del SDK.
Speech SDK 1.4.1
Esta es una versión solo para JavaScript. No se agregó ninguna característica. Se realizaron las siguientes correcciones:
Se impide que el paquete web cargue https-proxy-agent.
Speech SDK 1.4.0 Versión de abril de 2019
Nuevas características
El SDK admite ahora el servicio de Texto a voz en versión beta. Se admite en Windows y Linux Desktop desde C++ y C#. Para más información, consulte la información general sobre Texto a voz.
El SDK ahora admite archivos de audio MP3 y Opus/OGG como archivos de entrada de secuencia. Esta característica solo está disponible en Linux desde C++ y C# y está actualmente en versión beta (más detalles aquí).
Speech SDK para Java, .NET Core, C++ y Objective-C ha conseguido compatibilidad con macOS. La compatibilidad de Objective-C con macOS está actualmente en versión beta.
iOS: Speech SDK para iOS (Objective-C) ahora también se publica como una instancia de CocoaPod.
JavaScript: compatibilidad con micrófono no predeterminada como dispositivo de entrada.
JavaScript: compatibilidad con servidores proxy para Node.js.
Ejemplos
se han agregado ejemplos para usar Speech SDK con C++ y con Objective-C en macOS.
Se han agregado ejemplos que muestran el uso del servicio de Texto a voz.
Mejoras y cambios
Python: ahora se exponen propiedades adicionales de los resultados del reconocimiento mediante la propiedad properties.
Para la compatibilidad adicional con el desarrollo y la depuración, puede redirigir la información de registro y diagnóstico del SDK a un archivo de registro (más información aquí).
JavaScript: mejora del rendimiento del procesamiento de audio.
Corrección de errores
Mac/iOS: se corrigió un error que daba lugar a una larga espera cuando no se podía establecer una conexión con el servicio de Voz.
Python: mejora del control de errores en los argumentos de las devoluciones de llamada de Python.
JavaScript: se corrigieron los informes de estado erróneos de la voz que finalizaban en RequestSession.
Speech SDK 1.3.1 Actualización de febrero de 2019
Se trata de una versión de corrección de errores y solo afecta al SDK nativo o administrado. No afecta a la versión de JavaScript del SDK.
Corrección de error
Se ha corregido una fuga de memoria cuando se usa la entrada de micrófono. No afecta a la entrada de archivos o basada en secuencias.
Speech SDK 1.3.0: versión de febrero de 2019
Nuevas características
El SDK de voz admite la selección del micrófono de entrada mediante la clase AudioConfig. Esto permite transmitir datos de audio al servicio de voz desde un micrófono no predeterminado. Para más información, consulte la documentación en la que se describe cómo seleccionar un dispositivo de entrada de audio. Esta característica aún no está disponible en JavaScript.
Speech SDK ahora es compatible con Unity en una versión beta. Proporcione sus comentarios en la sección de problemas en el repositorio de ejemplos de GitHub. Esta versión es compatible con Unity en Windows x86 y x64 (aplicaciones de escritorio o de la Plataforma universal de Windows) y Android (ARM32/64, x86). Puede encontrar más información en nuestra guía de inicio rápido sobre Unity.
El archivo Microsoft.CognitiveServices.Speech.csharp.bindings.dll (incluido en versiones anteriores) ya no es necesario. La funcionalidad está ahora integrada en el SDK principal.
Mensajes de error y verificación de parámetros mejorada en SpeechConfig.
Adición de compatibilidad para el objeto Connection.
Compatibilidad con Python (x86) de 32 bits en Windows.
Speech SDK para Python ya no está disponible como beta.
iOS
El SDK ahora se compila en función de la versión 12.1 del SDK de iOS.
El SDK ahora es compatible con las versiones 9.2 y posteriores de iOS.
Documentación de referencia mejorada y corrección de varios nombres de propiedad.
JavaScript
Adición de compatibilidad para el objeto Connection.
Archivos de definición de tipos agregados para JavaScript agrupado.
Compatibilidad e implementación iniciales para sugerencias de frases.
Colección de propiedades devuelta con JSON del servicio para reconocimiento.
Los archivos DLL de Windows contienen ahora un recurso de versión.
Si crea un valor de FromEndpoint de reconocedor, puede agregar parámetros directamente a la dirección URL del punto de conexión. Con FromEndpoint no puede configurar el reconocedor mediante las propiedades de configuración estándar.
Corrección de errores
La contraseña de proxy y el nombre de usuario de proxy vacíos no se administraron correctamente. Con esta versión, si establece el nombre de usuario de proxy y la contraseña de proxy en una cadena vacía, no se enviarán al conectarse al proxy.
El identificador de sesión creado por el SDK no siempre es realmente aleatorio para algunos lenguajes o entornos. Se ha agregado la inicialización del generador aleatorio para corregir este problema.
Control mejorado del token de autorización. Si desea usar un token de autorización, especifíquelo en SpeechConfig y deje la clave de suscripción vacía. A continuación, cree el reconocedor como de costumbre.
En algunos casos, el objeto Connection no se publicó correctamente. Ahora se ha corregido.
Se corrigió el ejemplo de JavaScript para admitir la salida de audio para la síntesis de traducción también en Safari.
Speech SDK 1.2.1
Esta es una versión solo para JavaScript. No se agregó ninguna característica. Se realizaron las siguientes correcciones:
Activar el final del flujo en turn.end, y no en speech.end.
Corrección del error de la bomba de audio por el que no se programaba el siguiente envío en caso de error del envío actual.
Corregir el reconocimiento continuo con el token de autenticación.
Corrección de errores de diferentes reconocedores y puntos de conexión.
Mejoras en la documentación.
Speech SDK 1.2.0: Versión de diciembre de 2018
Nuevas características
Python
La versión beta de la compatibilidad con Python (3.5 y versiones posteriores) está disponible con esta versión. Para más información, consulte aquí](quickstart-python.md).
JavaScript
Speech SDK para JavaScript ha sido de código abierto. El código fuente está disponible en GitHub.
Ya se admite Node.js; puede encontrar más información aquí.
Se quitó la restricción de longitud para las sesiones de audio; la reconexión se realizará automáticamente en la portada.
Objecto Connection
Desde el objeto Recognizer, puede acceder al objeto Connection. Este objeto le permite iniciar la conexión al servicio y suscribirse para conectar y desconectar eventos explícitamente.
(Esta característica no está disponible aún ni en JavaScript ni en Python).
Compatibilidad con Ubuntu 18.04.
Android
Compatibilidad con ProGuard habilitada durante la generación del APK.
Mejoras
Mejoras en el uso de subprocesos internos, lo que reduce el número de subprocesos, bloqueos y exclusiones mutuas.
Se mejoraron los informes de errores y la información. En algunos casos, los mensajes de error no se propagan totalmente.
Se actualizaron las dependencias de desarrollo en JavaScript para usar los módulos actualizados.
Corrección de errores
Se han corregido las fugas de causadas por un error de coincidencia de tipos en RecognizeAsync.
En algunos casos, se perdieron excepciones.
Corrección de las fugas de memoria en los argumentos de eventos de traducción.
Se ha corregido un problema de bloqueo al volver a conectar en sesiones de larga ejecución.
Se ha corregido un problema que podría dar lugar a que faltase el resultado final para las traducciones con errores.
C#: Si no se esperaba una operación async en el subproceso principal, es posible que se pudiese desechar el reconocedor antes de completarse la tarea asincrónica.
Java: Se ha corregido un problema que provocaba un bloqueo de la VM de Java.
Objective-C: Se ha corregido la asignación de la enumeración; se devolvió RecognizedIntent en lugar de RecognizingIntent.
JavaScript: Se ha establecido el formato de salida predeterminado en "simple" en SpeechConfig.
JavaScript: Se ha quitado una incoherencia entre las propiedades del objeto de configuración en JavaScript y otros lenguajes.
Ejemplos
Se han actualizado y corregido varios ejemplos, como las voces de salida para la traducción, etc.
Compatibilidad con proxy: En el objeto SpeechConfig, ahora puede llamar a una función para establecer la información del proxy (nombre de host, puerto, nombre de usuario y contraseña). Esta característica no está disponible aún en iOS.
Mensajes y códigos de error mejorados. Si un reconocimiento devolvió un error, esto ya ha establecido Reason (en el evento cancelado) o CancellationDetails (en el resultado del reconocimiento) en Error. El evento cancelado ahora contiene dos miembros adicionales, ErrorCode y ErrorDetails. Si el servidor devolvió información de error adicional con el error notificado, ahora estará disponible en los nuevos miembros.
Mejoras
Verificación adicional agregada en la configuración del reconocedor y mensaje de error adicional agregado.
Control mejorado del silencio prolongado en medio de un archivo de audio.
Paquete NuGet: para proyectos de .NET Framework, evita la compilación con la configuración de AnyCPU.
Corrección de errores
En los reconocedores se han encontrado varias excepciones corregidas. Además, las excepciones se detectan y se convierten en un evento Canceled.
Corrección de una fuga de memoria en la administración de propiedades.
Se corrigió el error en el que un archivo de entrada de audio podría bloquear el reconocedor.
Se corrigió un error donde se podrían recibir eventos después de un evento de detención de la sesión.
Se corrigieron algunas condiciones de subprocesos.
Se corrigió un problema de compatibilidad de iOS que podría dar lugar a un bloqueo.
Mejoras de estabilidad para la compatibilidad del micrófono en Android.
Se corrigió un error donde un reconocedor en JavaScript ignoraría el lenguaje de reconocimiento.
Se corrigió un error que impedía establecer el valor EndpointId (en algunos casos) en JavaScript.
Se cambió el orden de los parámetros en AddIntent en JavaScript y se agregó la firma de JavaScript AddIntent que faltaba.
Ejemplos
Se han agregado ejemplos de C++ y C# para el uso de transmisiones de inserción y extracción en el repositorio de ejemplos.
Speech SDK 1.0.1
Mejoras en la confiabilidad y correcciones de errores:
Corrección de un potencial error grave debido a una condición de carrera al desechar un reconocedor
Corrección de un posible error grave cuando hay propiedades sin establecer.
Comprobación adicional de errores y parámetros.
Objective-C: corrección de posibles errores graves causados por la invalidación de nombres en NSString.
Objective-C: ajuste de visibilidad en la API
JavaScript: corrección con respecto a los eventos y sus cargas.
Con esta versión se presentan una serie de cambios importantes.
Consulte esta página para más información.
SDK de Voz de Azure AI 0.6.0: versión de agosto de 2018
Nuevas características
Ahora, las aplicaciones de UWP creadas con SDK de Voz superan el Kit para la certificación de aplicaciones en Windows (WACK).
Consulte la Guía de inicio rápido de UWP.
Compatibilidad con .NET Standard 2.0 en Linux (Ubuntu 16.04 x64).
Se expone más información detallada sobre los errores de conexión.
Cambios importantes
En Java (Android), la función SpeechFactory.configureNativePlatformBindingWithDefaultCertificate ya no requiere un parámetro de ruta de acceso. Ahora, la ruta de acceso se detecta automáticamente en todas las plataformas compatibles.
En Java y C#, se ha quitado el descriptor de acceso get- de la propiedad EndpointUrl.
Corrección de errores
En Java, se implementa ahora el resultado de la síntesis de audio en el reconocedor de traducción.
Se ha corregido un error que podía provocar subprocesos inactivos y un mayor número de sockets abiertos y sin usar.
Se ha corregido un problema por el que un proceso de reconocimiento de larga ejecución podía terminar en mitad de la transmisión.
Se ha corregido una condición de carrera en el proceso de apagado del reconocedor.
SDK de Voz de Azure AI 0.5.0: versión de julio de 2018
Nuevas características
Compatibilidad con la plataforma Android (API 23: Android Marshmallow 6.0 o posterior). Consulte el inicio rápido de Android.
Tenga en cuenta que las aplicaciones para UWP creadas con el SDK de Voz aún no pasan el kit para la certificación de aplicaciones en Windows (WACK).
Compatibilidad con el reconocimiento de ejecución prolongada con reconexión automática.
Cambios funcionales
StartContinuousRecognitionAsync() admite reconocimiento de ejecución prolongada.
El resultado del reconocimiento contiene más campos. Tienen un desplazamiento desde el principio del audio y la duración (ambos en tics) del texto reconocido y valores adicionales que representan el estado de reconocimiento, por ejemplo, InitialSilenceTimeout e InitialBabbleTimeout.
Compatibilidad con AuthorizationToken para la creación de instancias de fábrica.
Cambios importantes
Eventos de reconocimiento: el tipo de evento NoMatch se combina con el evento Error.
SpeechOutputFormat en C# se llama ahora OutputFormat para concordar con C++.
El tipo de valor devuelto de algunos métodos de la interfaz AudioInputStream se ha modificado ligeramente:
En Java, el método read ahora devuelve long en lugar de int.
En C#, el método Read ahora devuelve uint en lugar de int.
En C++, los métodos Read y GetFormat ahora devuelven size_t en lugar de int.
C++: las instancias de secuencias de entrada de audio ahora solo se pueden pasar como un valor shared_ptr.
Corrección de errores
Se han corregido los valores devueltos incorrectos cuando se agota el tiempo de espera de RecognizeAsync().
Se ha eliminado la dependencia de las bibliotecas de Media Foundation en Windows. El SDK ahora usa las API de audio básicas.
Corrección de la documentación: se ha agregado una página de regiones para describir cuáles son las regiones admitidas.
Problema conocido
SDK de Voz para Android no informa de los resultados de la síntesis de voz para la traducción. Este problema se solucionará en la próxima versión.
SDK de Voz de Azure AI 0.4.0: versión de junio de 2018
Cambios funcionales
AudioInputStream
Un reconocedor ahora puede consumir una secuencia como origen de audio. Para más información, consulte la guía de procedimientos relacionada.
Formato de salida detallado
Al crear un elemento SpeechRecognizer, puede solicitar el formato de salida Detailed o Simple. DetailedSpeechRecognitionResult contiene una puntuación de confianza, texto reconocido, formato léxico sin formato, formato normalizado y formato normalizado con palabras soeces enmascaradas.
Cambio importante
En C# se cambia de SpeechRecognitionResult.RecognizedText a SpeechRecognitionResult.Text.
Corrección de errores
Se ha corregido un posible problema de devolución de llamada en la capa USP durante el apagado.
Si un reconocedor usaba un archivo de entrada de audio, mantenía el identificador de archivo más tiempo del necesario.
Se han eliminado varios interbloqueos entre el suministro de mensajes y el reconocedor.
Se desencadena un resultado NoMatch cuando se agota la respuesta del servicio.
Las bibliotecas de Media Foundation en Windows son de carga retrasada. Esta biblioteca solo es necesaria para la entrada del micrófono.
La velocidad de carga de los datos de audio se limita al doble de la velocidad de audio original.
En Windows, los ensamblados .NET de C# ahora son de nombre seguro.
Corrección de la documentación: Region necesita información para crear un reconocedor.
SDK de Voz de Azure AI 0.2.12733: versión de mayo de 2018
Esta versión es la primera versión preliminar pública del SDK de Voz de Azure AI.
CLI de Voz 1.40.0: versión de agosto de 2024
Actualizado para usar Speech SDK 1.40.0
Nuevas características
None
Corrección de errores
None
CLI de Voz 1.38.0: Versión de junio de 2024
Se ha actualizado para usar Speech SDK 1.38.0
Nuevas características
None
Corrección de errores
None
CLI de Voz 1.37.0: versión de abril de 2024
Se ha actualizado para usar Speech SDK 1.37.0
Nuevas características
None
Corrección de errores
None
CLI de Voz 1.36.0: versión de marzo de 2024
Se ha actualizado para usar SDK de Voz 1.36.0
Nuevas características
None
Corrección de errores
None
CLI de Voz 1.35.0: versión de febrero de 2024
Se ha actualizado para usar SDK de Voz 1.35.0
Nuevas características
None
Corrección de errores
Actualizar la dependencia de JMESPath a la versión más reciente
CLI de Voz 1.34.0: versión de noviembre de 2023
Se ha actualizado para usar SDK de Voz 1.34.0
CLI de voz 1.33.0: versión de octubre de 2023
Se ha actualizado para usar Speech SDK 1.33.0
CLI de Voz 1.31.0: versión de agosto de 2023
Se actualizó para usar el SDK de Voz 1.31.0
CLI de Voz 1.30.0: versión de julio de 2023
Se actualizó para usar el SDK de Voz 1.30.0
CLI de Voz 1.29.0: versión de junio de 2023
Se actualizó para usar SDK de Voz 1.29.0
CLI de Voz 1.28.0: versión de mayo de 2023
Se ha actualizado para usar SDK de Voz 1.28.0
CLI de Voz 1.27.0: versión de abril de 2023
Actualizaciones
Se ha actualizado para usar SDK de Voz 1.27.0
Actualice el punto de conexión predeterminado a fin de usar las API REST v3.1 para el reconocimiento de habla personalizada y el reconocimiento de voz por lotes.
Corrección de errores
Correcciones relacionadas con cómo se analizan o configuran los parámetros de consulta.
CLI de Voz 1.26.0: versión de marzo de 2023
Se ha actualizado para usar SDK de Voz 1.26.0.
CLI de Voz 1.25.0: versión de enero de 2023
Se ha actualizado para usar SDK de Voz 1.25.0.
CLI de Voz 1.24.0: versión de octubre de 2022
Usa el SDK de Voz 1.24.0.
Nuevas características
Se ha expandido "spx check" para admitir consultas de JMESPath en todos los eventos spx
Corrección de errores
Varias mejoras en la solidez con respecto a las evaluaciones de consultas de JMESPath
Corrección para truncamientos en escritura de archivos que pueden producirse en máquinas restringidas por recursos
CLI de Voz 1.23.0: versión de julio de 2022
Usa el SDK de Voz 1.23.0.
Nuevas características
Mejores subtítulos (--output vtt y --output srt) y división de resultados grandes (37 caracteres máximo, 3 líneas)
Se han documentado las opciones spx synthesize--format (consulte spx help synthesize format)
Documentados la mayoría de loscomandos/opciones spx csr (ver spx help csr)
Se ha agregado el comando spx csr model copy (consulte spx help csr model copy).
Se ha agregado la opción --check result mediante consultas JMES (consulte spx help check result).
Mensajes de error mejorados al especificar opciones de comando no válidas
Se ha trasladado de .NET Core 3.1 a .NET 6.0. Para ejecutar la CLI de Voz, tendrá que instalar el entorno de ejecución de .NET 6.0 (o superior).
Corrección de errores
Se han actualizado todas las direcciones URL para quitar el idioma (por ejemplo, "en-US")
Se ha corregido la información de versión para notificar correctamente en todos los casos (anteriormente, a veces, aparecía un espacio en blanco).
CLI de Voz 1.22.0: versión de junio de 2022
Usa el SDK de Voz 1.22.0.
Nuevas características
Se ha agregado el comando spx init para guiar a los usuarios por la creación de la clave de recurso de Voz sin ir al portal web de Azure.
Ahora los contenedores de Docker de Voz tienen la CLI de Azure incluida, por lo que el comando spx init funciona de forma predeterminada.
Se ha agregado la marca de tiempo como opción de salida de eventos para que SPX sea más útil al calcular latencias.
CLI de Voz 1.21.0: versión de abril de 2022
Usa el SDK de Voz 1.21.0.
Nuevas características
Generación de subtítulos de WEBVTT
Se ha agregado compatibilidad de --output vtt con spx translate
Admite --output vtt file FILENAME para invalidar el nombre de archivo VTT predeterminado.
Admite --output vtt file - para escribir en la salida estándar.
Los archivos VTT individuales se crean para cada idioma de destino (por ejemplo, --target en;de;fr)
Generación de subtítulos de SRT
Se ha agregado compatibilidad con --output srt, spx recognize, spx intent y spx translate.
Admite --output srt file FILENAME para invalidar el nombre de archivo de SRT predeterminado.
Admite --output srt file - para escribir en la salida estándar.
Para los archivos SRT individuales de spx translate se crean para cada idioma de destino (por ejemplo, --target en;de;fr)
Corrección de errores
Salida de intervalo de tiempo WEBVTT corregida para usar correctamente el formato hh:mm:ss.fff.
CLI de Voz 1.20.0: versión de enero de 2022
Nuevas características
Reconocimiento del hablante
spx profile enroll y spx speaker [identify/verify] ahora admiten la entrada de micrófono
Reconocimiento de intenciones (spx intent).
--keyword FILE.table
--pattern y --patterns
--output all/each intentid
--output all/each entity json
--output all/each ENTITY entity
--once, --once+, --continuous (ahora continuo de forma predeterminada)
Comprobación y creación de la expectativa de salida de la consola de la CLI:
Compatibilidad con --expect PATTERN y --not expect PATTERN en todos los comandos.
--auto expect para ayudar a crear patrones esperados.
Comprobación y creación de expectativas de salida de registro del SDK
Compatibilidad con --log expect PATTERN y --not log expect PATTERN en todos los comandos.
Compatibilidad con --log auto expect [FILTER] en todos los comandos.
Compatibilidad con --log FILE en spx profile y spx speaker
Entrada de archivo de audio
Compatibilidad con --format ANY en todos los comandos.
Compatibilidad con --file - (lectura de la entrada estándar, que permite escenarios de canalización)
Salida de archivo de audio
Escritura de --audio output - en la salida estándar, lo que permite escenarios de canalización.
Archivos de salida
Escritura de --output all/each file - en la salida estándar.
Escritura de --output batch file - en la salida estándar.
Escritura de --output vtt file - en la salida estándar.
Escritura de --output json file - en la salida estándar, para los comandos spx csr y spx batch.
Propiedades de salida
--output […] result XXX property (PropertyId o cadena)
--output […] connection message received XXX property (PropertyId o cadena)
--output […] recognizer XXX property (PropertyId o cadena)
Integración de Azure WebJobs
spx webjob ahora sigue el patrón de subcomando.
Se ha actualizado la ayuda de WebJob para reflejar el patrón de subcomando (consulte spx help webjob).
Corrección de errores
Se ha corregido un error cuando se usan --output vtt FILE y --output batch FILE al mismo tiempo.
spx [...] --zip ZIPFILENAME ahora incluye todos los archivos binarios necesarios para todos los escenarios (si existe).
Los comandos spx profile y spx speaker ahora devuelven información de error detallada sobre la cancelación.
Versión de mayo de 2021
Nuevas características
SPX ahora admite perfil, identificador del hablante y verificación del hablante: pruebe spx profile y spx speaker desde la línea de comandos.
También se ha agregado compatibilidad con diálogos; pruebe spx dialog desde la línea de comandos.
Se ha mejorado la ayuda de spx. Para enviarnos comentarios sobre cómo funciona esta mejora, abra una incidencia de GitHub.
Se ha reducido el tamaño de la instalación de la herramienta .NET.
Pruebas reducidas ante la COVID-19
Mientras la pandemia actual siga exigiendo que nuestros ingenieros trabajen desde casa, los scripts de verificación manual anteriores a la pandemia se han reducido significativamente. Las pruebas se realizan en menos dispositivos con menos configuraciones y es posible que aumente la probabilidad de que se produzcan errores específicos del entorno. Se siguen realizando validaciones rigurosas con un gran conjunto de automatización. En el improbable caso de que falte algo, háganoslo saber en GitHub.
Y sigan sanos.
Versión de marzo de 2021
Nuevas características
Se ha agregado el comando spx intent para el reconocimiento de intención y se reemplaza spx recognize intent.
El reconocimiento y la intención ahora pueden usar Azure Functions para calcular la tasa de errores de palabra mediante spx recognize --wer url <URL>.
Recognize ahora puede generar resultados como archivos VTT mediante spx recognize --output vtt file <FILENAME>.
La información de clave confidencial ahora está oculta en la salida de depuración/verbose.
Se ha agregado la comprobación de URL y el mensaje de error para el campo de contenido en la creación de transcripción por lotes.
Pruebas reducidas ante la COVID-19
Mientras la pandemia actual siga exigiendo que nuestros ingenieros trabajen desde casa, los scripts de verificación manual anteriores a la pandemia se han reducido significativamente. Las pruebas se realizan en menos dispositivos con menos configuraciones y es posible que aumente la probabilidad de que se produzcan errores específicos del entorno. Se siguen realizando validaciones rigurosas con un gran conjunto de automatización. En el improbable caso de que falte algo, háganoslo saber en GitHub.
Y sigan sanos.
Versión de enero de 2021
Nuevas características
Ahora la CLI de Voz está disponible como paquete NuGet y se puede instalar a través de la CLI de .NET como una herramienta global de .NET a la que se puede llamar desde la línea de comandos o el shell.
Mientras la pandemia actual siga exigiendo que nuestros ingenieros trabajen desde casa, los scripts de verificación manual anteriores a la pandemia se han reducido significativamente. Las pruebas se realizan en menos dispositivos con menos configuraciones y es posible que aumente la probabilidad de que se produzcan errores específicos del entorno. Se siguen realizando validaciones rigurosas con un gran conjunto de automatización. En el improbable caso de que falte algo, háganoslo saber en GitHub.
Y sigan sanos.
versión de octubre de 2020
SPX es la interfaz de línea de comandos para usar el servicio de Voz sin escribir código.
Descargue la última versión aquí.
Nuevas características
spx csr dataset upload --kind audio|language|acoustic: creación de conjuntos de datos a partir de datos locales, no solo desde direcciones URL.
spx csr evaluation create|status|list|update|delete: comparación de nuevos modelos con los modelos verdaderos de base de referencia y de otro tipo.
spx * list: admite la experiencia no paginada (no se requiere --top X --skip X).
spx * --http header A=B: admite encabezados personalizados (se agregaron para Office para la autenticación personalizada).
spx help: texto mejorado y código de color del texto con comillas simples (azul).
Versión de junio de 2020
Se han agregado las características de búsqueda en la ayuda en la CLI:
spx help find --text TEXT
spx help find --topic NAME
Se ha actualizado para que funcione con la versión 3.0 de las API Batch y de habla personalizada:
spx help batch examples
spx help csr examples
Pruebas reducidas ante la COVID-19
Debido al trabajo de forma remota en las últimas semanas, no pudimos realizar tantas pruebas manuales de comprobación de como normalmente hacemos. No hemos hecho ningún cambio que creemos que pueda haber generado algún error y se han superado todas las pruebas automatizadas. En el improbable caso de que falte algo, háganoslo saber en GitHub.
Y sigan sanos.
CLI de Voz (también conocida como SPX): versión de mayo de 2020
SPX es una nueva herramienta de línea de comandos que permite realizar el reconocimiento, la síntesis, la traducción, la transcripción por lotes y la administración de habla personalizada desde la línea de comandos. Úsela para probar el servicio de Voz o para crear scripts de las tareas de dicho servicio que debe realizar. Descargue la herramienta y lea la documentación aquí.
Versión de enero de 2025
Entrenamiento de avatar personalizado
Ahora puede entrenar avatares personalizados en Speech Studio. Antes, tenía que esperar a que Microsoft entrenara a su avatar personalizado.
Presenta cuatro versiones turbo de voces de Azure OpenAI en versión preliminar pública: en-US-EchoTurboMultilingualNeural, en-US-FableTurboMultilingualNeural, en-US-OnyxTurboMultilingualNeural y en-US-ShimmerTurboMultilingualNeural. La versión Turbo de las voces de Azure OpenAI tiene el rol de voz similar a las voces de Azure OpenAI, pero admite características adicionales. Las voces Turbo admiten el conjunto completo de elementos SSML y más características, como el límite de palabras, al igual que otras voces de Voz de Azure AI. Consulte la lista de idiomas y voces completa para más información.
Estas voces ahora están disponibles con carácter general:
Configuración regional (BCP-47)
Nombre de voz
de-DE
SeraphinaMultilingualNeural
de-DE
FlorianMultilingualNeural
en-GB
AdaMultilingualNeural
en-GB
OllieMultilingualNeural
en-US
LunaNeural
en-US
KaiNeural
en-US
CoraMultilingualNeural
en-US
ChristopherMultilingualNeural
en-US
BrandonMultilingualNeural
es-ES
IsidoraMultilingualNeural
es-ES
ArabellaMultilingualNeural
es-ES
TristanMultilingualNeural
es-ES
XimenaMultilingualNeural
fr-FR
LucienMultilingualNeural
fr-FR
VivienneMultilingualNeural
fr-FR
RemyMultilingualNeural
it-IT
IsabellaMultilingualNeural
it-IT
MarcelloMultilingualNeural
it-IT
AlessioMultilingualNeural
it-IT
GiuseppeMultilingualNeural
ko-KR
HyunsuMultilingualNeural
pt-BR
ThalitaMultilingualNeural
pt-BR
MacerioMultilingualNeural
Voz neuronal precompilada de alta definición (HD)
Las voces de alta definición (HD) de Voz de Azure AI están disponibles en versión preliminar pública. Las voces HD pueden comprender el contenido, detectar automáticamente las emociones en el texto de entrada y ajustar el tono de habla en tiempo real para que coincida con la opinión. Las voces HD mantienen un rol de voz coherente a partir de sus homólogos neuronales (y no HD), y ofrecen aún más valor mediante características mejoradas. Para más información, vea ¿Qué son las voces de alta definición (HD) de Voz de Azure AI?.
Voz neuronal personalizada
Anteriormente, algunas configuraciones regionales solo se admitían con V3 para la receta de entrenamiento. Ahora estas configuraciones regionales también admiten V9, lo que permite mejorar la calidad del entrenamiento y las características ampliadas. Para obtener estas configuraciones regionales, consulte la tabla siguiente:
Configuración regional (BCP-47)
Lenguaje
ar-EG
Árabe (Egipto)
ar-SA
Árabe (Arabia Saudí)
ca-ES
Catalán
cs-CZ
Checo (Chequia)
da-DK
Danés (Dinamarca)
de-AT
Alemán (Austria)
de-CH
Alemán (Suiza)
el-GR
Griego (Grecia)
en-IN
Inglés (India)
fi-FI
Finés (Finlandia)
fr-CH
Francés (Suiza)
he-IL
Hebreo (Israel)
hi-IN
Hindi (India)
hu-HU
Húngaro (Hungría)
ms-MY
Malayo (Malasia)
nb-NO
Bokmål noruego (Noruega)
nl-NL
Neerlandés (Países Bajos)
pl-PL
Polaco (Polonia)
pt-PT
Portugués (Portugal)
ro-RO
Rumano (Rumanía)
ru-RU
Ruso (Rusia)
sk-SK
Eslovaco (Eslovaquia)
sv-SE
Sueco (Suecia)
th-TH
Tailandés (Tailandia)
r-TR
Turco (Turquía)
vi-VN
Vietnamita (Vietnam)
zh-HK
Chino (cantonés, tradicional)
zh-TW
Chino (mandarín taiwanés, tradicional)
Ahora Voz neuronal personalizada Pro admite las siguientes configuraciones regionales nuevas:
El avatar de texto a voz ya está disponible con carácter general. Para obtener más información, vea texto al avatar de voz.
Voz neuronal pregenerada
Presenta dos versiones turbo de voces de Azure OpenAI en versión preliminar pública: en-US-AlloyTurboMultilingualNeural y en-US-NovaTurboMultilingualNeural. La versión Turbo de las voces de Azure OpenAI tiene el rol de voz similar a las voces de Azure OpenAI, pero admite características adicionales. Las voces Turbo admiten el conjunto completo de elementos SSML y más características, como el límite de palabras, al igual que otras voces de Voz de Azure AI. Consulte la lista de idiomas y voces completa para más información.
Presenta dos nuevas voces multilingües en versión preliminar pública: zh-CN-YunfanMultilingualNeural y zh-CN-YunxiaoMultilingualNeural. Consulte la lista de idiomas y voces completa para más información.
Voz neuronal incrustada
La voz en-US-JennyMultilingual se publica en producción y admite hasta 24 configuraciones regionales para la experiencia en el dispositivo. Para obtener las configuraciones regionales admitidas, vea la tabla siguiente.
Configuración regional
Lenguaje
da-DK
Danés (Dinamarca)
de-DE
Alemán (Alemania)
en-AU
Inglés (Australia)
en-GB
Inglés (Reino Unido)
en-IN
Inglés (India)
en-US
Spanish (Traditional Sort) - Spain
es-ES
Español (España)
es-MX
Español (México)
fr-CA
Francés (Canadá)
fr-FR
Francés (Francia)
he-IL
Hebreo (Israel)
it-IT
Italiano (Italia)
ja-JP
Japonés (Japón)
ko-KR
Coreano (Corea)
nb-NO
Bokmål noruego (Noruega)
nl-NL
Neerlandés (Países Bajos)
pl-PL
Polaco (Polonia)
pt-PT
Portugués (Portugal)
sv-SE
Sueco (Suecia)
th-TH
Tailandés (Tailandia)
tr-TR
Turco (Turquía)
zh-CN
Chino (mandarín, simplificado)
zh-HK
Chino (cantonés, tradicional)
zh-TW
Chino (mandarín taiwanés, tradicional)
Versión de junio de 2024
Voz neuronal pregenerada
Presentación de 6 nuevas voces en versión preliminar pública disponibles en regiones específicas: Este de Asia, Sudeste de Asia, Este de EE. UU., Oeste de EE. UU. y Centro de la India.
El avatar de texto a voz ahora admite las siguientes regiones: Sudeste de Asia, Norte de Europa, Oeste de Europa, Centro de Suecia, Centro-sur de EE. UU. y Oeste de EE. UU. 2. Para más información, consulte Regiones del servicio de voz.
Versión de mayo de 2024
Voz personal (GA)
La voz personal ya está disponible con carácter general. Con la voz personal, puede obtener la replicación generada por IA de la voz (o los usuarios de la aplicación) en unos segundos. Proporcione un ejemplo de voz de un minuto como símbolo del sistema de audio y después úselo para generar voz en cualquiera de los más de 90 idiomas admitidos en más de 100 configuraciones regionales. Para obtener más información, consulte la información general de voz personal.
Voz neuronal pregenerada
Introduce 8 nuevas voces multilingües en versión preliminar pública: en-GB-AdaMultilingualNeural, en-GB-OllieMultilingualNeural, es-ES-ArabellaMultilingualNeural, es-ES-IsidoraMultilingualNeural, it-IT-AlessioMultilingualNeural, it-IT-IsabellaMultilingualNeural, it-IT-MarcelloMultilingualNeural, y pt-BR-ThalitaMultilingualNeural. Consulte la lista de idiomas y voces completa para más información.
Presenta 2 nuevas voces de en-US optimizadas para el escenario del Centro de llamadas en versión preliminar pública: en-US-LunaNeural y en-US-KaiNeural. Consulte la lista de idiomas y voces completa para más información.
Versión de abril de 2024
Avatar de texto a voz
Ahora puede establecer una imagen de fondo estática para sus avatares. Para usar esta característica, simplemente use la propiedad avatarConfig.backgroundImage y especifique una dirección URL que apunte a la imagen deseada. Para obtener más detalles, consulte Cómo editar el fondo.
Versión de marzo de 2024
Voz neuronal pregenerada
9 voces multilingües están disponibles con carácter general en todas las regiones: en-US-AvaMultilingualNeural, en-US-AndrewMultilingualNeural, en-US-EmmaMultilingualNeural, en-US-BrianMultilingualNeural, de-DE-FlorianMultilingualNeural, de-DE-SeraphinaMultilingualNeural, fr-FR-RemyMultilingualNeural, fr-FR-VivienneMultilingualNeural y zh-CN-XiaoxiaoMultilingualNeural. Consulte la lista de idiomas y voces completa para más información.
Presentación de una nueva voz multilingüe para la versión preliminar pública: ja-JP-MasaruMultilingualNeural. Consulte la lista de idiomas y voces completa para más información.
Actualizaciones adicionales:
en-US-RyanMultilingualNeural está disponible con carácter general en todas las regiones.
en-US-JennyMultilingualV2Neural está disponible con carácter general en todas las regiones, en combinación con en-US-JennyMultilingualNeural.
Versión preliminar disponible para los nuevos estilos actualizados en-IN-NeerjaNeural y hi-IN-SwaraNeural, con 3 nuevos estilos en Este de EE. UU., Oeste de Europa y Sudeste de Asia.
Versión preliminar disponible para las nuevas voces femeninas en Centro de la India: en-IN-KavyaNeural, en-IN-AnanyaNeural, en-IN-AashiNeural, hi-IN-KavyaNeural y hi-IN-AnanyaNeural.
Precios del avatar de texto publicado en voz. Consulte la página de precios para obtener más información. Tenga en cuenta que los precios del avatar solo estarán visibles para las regiones de servicio donde la característica esté disponible.
Versión de febrero de 2024
Voces de OpenAI
El servicio Voz de Azure AI admite voces de conversión de texto a voz de OpenAI en las siguientes regiones: Centro-norte de EE. UU. y Centro de Suecia. Al igual que las voces de Voz de Azure AI, las voces de texto a voz de OpenAI ofrecen una síntesis de voz de alta calidad para convertir texto escrito en audio hablado de sonido natural. Esto desbloquea una amplia gama de posibilidades para experiencias de usuario envolventes e interactivas. Para obtener más información, consulte ¿Qué son las voces de conversión de texto a voz de OpenAI?
Nota
Las voces de conversión de texto a voz de OpenAI también están disponibles en Azure OpenAI Service.
Con esta actualización, se ajustaron los precios de las voces neuronales precompiladas con Voz de Azure AI. Consulte los precios actualizados aquí.
Voz personal
La característica de voz personal ahora admite modelos DragonLatestNeural y PhoenixLatestNeural. Con estos nuevos modelos, las voces sintetizadas tienen un sonido más natural, que se asemeja más a las características de la voz en la consulta. Para obtener más información, consulte Integrar voz personal en la aplicación.
Los modelos de voz recién entrenados ahora admiten la frecuencia de muestreo de 48 kHz, independientemente de la versión del modelo. Para los modelos de voz entrenados anteriormente, es necesario actualizar la versión del motor al menos la versión 2023.11.13.0 para mejorar la frecuencia de muestreo a 48 kHz.
Voz neuronal pregenerada
Presentación de nuevas voces multilingües para la versión preliminar pública:
Configuración regional (BCP-47)
Idioma
Voces de Texto a voz
de-DE
Alemán (Alemania)
de-DE-FlorianMultilingualNeural (masculina)
de-DE
Alemán (Alemania)
de-DE-SeraphinaMultilingualNeural (femenina)
en-US
Spanish (Traditional Sort) - Spain
en-US-AvaMultilingualNeural (femenina)
en-US
Spanish (Traditional Sort) - Spain
en-US-EmmaMultilingualNeural (femenina)
fr-FR
Francés (Francia)
fr-FR-RemyMultilingualNeural (masculina)
en-US
Spanish (Traditional Sort) - Spain
en-US-BrianMultilingualNeural (masculina)
en-US
Spanish (Traditional Sort) - Spain
en-US-AndrewMultilingualNeural (masculina)
fr-FR
Francés (Francia)
fr-FR-VivienneMultilingualNeural (femenina)
zh-CN
Chino (mandarín, simplificado)
zh-CN-XiaoxiaoMultilingualNeural (femenina)
zh-CN
Chino (mandarín, simplificado)
zh-CN-XiaochenMultilingualNeural (femenina)
zh-CN
Chino (mandarín, simplificado)
zh-CN-YunyiMultilingualNeural (masculina)
Presentación de nuevas voces zh-CN-XiaoxiaoDialectsNeural para la versión preliminar pública que admite varios dialectos y acentos chinos:
Voicename
Lenguaje secundario
Dialecto/Acento
zh-CN-XiaoxiaoDialectsNeural
zh-CN-shaanxi
Chino (mandarín zhongyuan de Shaanxi, simplificado)
zh-CN-sichuan
Chino (mandarín suroeste, simplificado)
zh-CN-shanxi
Chino (mandarín con acento de Guangxi, simplificado)
nan-CN
Chino (min del sur, simplificado)
zh-CN-anhui
Chino (mandarín jianghuai de Anhui, simplificado)
zh-CN-hunan
Chino (mandarín con acento de Hunan, simplificado)
zh-CN-gansu
Chino (mandarín lanyin de Gansu, simplificado)
zh-CN-shandong
Chino (mandarín jilu, simplificado)
zh-CN-henan
Chino (mandarín zhongyuan de Henan, simplificado)
zh-CN-liaoning
Chino (mandarín del nordeste, simplificado)
zh-TW
Chino (mandarín taiwanés, tradicional)
Versión de noviembre de 2023
Voz personal
La voz personal está disponible en versión preliminar en las siguientes regiones: Oeste de Europa, Este de EE. UU. y Sudeste de Asia. Con voz personal (versión preliminar), puede obtener la replicación generada por IA de la voz (o los usuarios de la aplicación) en unos segundos. Proporcione un ejemplo de voz de un minuto como símbolo del sistema de audio y después úselo para generar voz en cualquiera de los más de 90 idiomas admitidos en más de 100 configuraciones regionales.
Para obtener más información, consulte voz personal.
Avatar de texto a voz
El avatar de texto a voz está disponible en versión preliminar en las siguientes regiones: Oeste de EE. UU. 2, Oeste de Europa y Sudeste Asiático.
El avatar de texto a voz convierte el texto en un vídeo digital de un ser humano fotorrealista (ya sea un avatar precompilado o un avatar de texto a voz personalizado) que habla con una voz de sonido natural. El vídeo del avatar de texto a voz se puede sintetizar de forma asincrónica o en tiempo real. Los desarrolladores pueden compilar aplicaciones integradas con el avatar de texto a voz a través de una API o usar una herramienta de creación de contenido en Speech Studio para crear contenido de vídeo sin codificar.
Se ha agregado compatibilidad con las 24 nuevas configuraciones regionales para la voz entre idiomas. Consulte la lista de idiomas completa para más información.
Voz neuronal pregenerada
Presentación de nuevas voces para la versión preliminar pública:
Configuración regional (BCP-47)
Idioma
Voces de Texto a voz
de-DE
Alemán (Alemania)
SeraphinaNeural (femenina)
es-ES
Español (España)
XimenaNeural (femenina)
fr-CA
Francés (Canadá)
ThierryNeural (masculina)
fr-FR
Francés (Francia)
VivienneNeural (femenina)
it-IT
Italiano (Italia)
GiuseppeNeural (masculina)
ko-KR
Coreano (Corea)
HyunsuNeural (masculina)
pt-BR
Portugués (Brasil)
ThalitaNeural (femenina)
Modelos actualizados con errores corregidos y mejoras de calidad:
Se ha agregado compatibilidad con las 12 nuevas configuraciones regionales con la voz neuronal personalizada Pro. Consulte la lista de idiomas completa para más información.
Versión de septiembre de 2023
Voz neuronal pregenerada
Presentación de nuevas voces para la versión preliminar pública:
Las 147 configuraciones regionales (excepto fa-IR, persa (Irán)) están disponibles de forma inmediata con una voz femenina y una voz masculina seleccionadas.
Versión de agosto de 2023
Voz neuronal personalizada
La versión más reciente de la receta de entrenamiento de CNV Lite se ha publicado ahora. Esta versión aporta varias mejoras en la calidad de los modelos de lenguaje. Prueba Speech Studio.
Se han agregado dos nuevas configuraciones regionales para la voz entre idiomas: id-ID y nl-NL. Consulte la lista de idiomas y voces completa para más información.
Voces TTS neuronales precompiladas
Introducción a la nueva voz de género neutro en-US para la versión preliminar pública:
Configuración regional (BCP-47)
Idioma
Voces de Texto a voz
en-US
Spanish (Traditional Sort) - Spain
en-US-BlueNeural (Neutra)
Presentación de nuevas voces multilingües para la versión preliminar pública:
Configuración regional (BCP-47)
Idioma
Voces de Texto a voz
en-US
Spanish (Traditional Sort) - Spain
en-US-JennyMultilingualV2Neural (femenina)
en-US
Spanish (Traditional Sort) - Spain
en-US-RyanMultilingualNeural (masculina)
Las voces multilingües en-US-JennyMultilingualV2Neural y en-US-RyanMultilingualNeural detectan automáticamente el idioma del texto de entrada. Sin embargo, todavía puede usar el elemento <lang> para ajustar el idioma de habla para estas voces.
Estas nuevas voces multilingües pueden hablar en 41 idiomas y acentos: Arabic (Egypt), Arabic (Saudi Arabia), Catalan, Czech (Czechia), Danish (Denmark), German (Austria), German (Switzerland), German (Germany), English (Australia), English (Canada), English (United Kingdom), English (Hong Kong SAR), English (Ireland), English (India), English (United States), Spanish (Spain), Spanish (Mexico), Finnish (Finland), French (Belgium), French (Canada), French (Switzerland), French (France), Hindi (India), Hungarian (Hungary), Indonesian (Indonesia), Italian (Italy), Japanese (Japan), Korean (Korea), Norwegian Bokmål (Norway), Dutch (Belgium), Dutch (Netherlands), Polish (Poland), Portuguese (Brazil), Portuguese (Portugal), Russian (Russia), Swedish (Sweden), Thai (Thailand), Turkish (Türkiye), Chinese (Mandarin, Simplified), Chinese (Cantonese, Traditional), Chinese (Taiwanese Mandarin, Traditional).
Estas voces multilingües no admiten completamente ciertos elementos SSML, como pausa, énfasis, silencio y sub.
Importante
La voz en-US-JennyMultilingualV2Neural se proporciona temporalmente en versión preliminar pública exclusivamente con fines de evaluación. Se eliminará en el futuro.
Para hablar en un idioma distinto del inglés, la implementación actual de la voz en-US-JennyMultilingualNeural requiere que establezca el elemento <lang xml:lang>. Se prevé que durante el trimestre 4 del año natural 2023, la voz en-US-JennyMultilingualNeural se actualizará para hablar en el idioma del texto de entrada sin el elemento <lang xml:lang>. Esto estará en paridad con la voz en-US-JennyMultilingualV2Neural.
Introducción a las nuevas características en versión preliminar pública para las voces siguientes:
Se ha agregado una entrada latina para las voces sr-RS serbias (Serbia): sr-latn-RS-SophieNeural y sr-latn-RS-NicholasNeural.
Se ha agregado compatibilidad con la pronunciación en inglés para las voces sq-AL albanesas (Albania): sq-AL-AnilaNeural y sq-AL-IlirNeural.
Versión de mayo de 2023
Audio Content Creation
Todas las voces preconfiguradas con estilos de habla y las voces personalizadas multiestilo admiten el ajuste del grado de estilo.
Ahora puede corregir la pronunciación de una palabra enunciando la palabra y grabándola. Los fonemas se pueden reconocer automáticamente desde la grabación. La característica Recognize by speaking está ahora en la versión preliminar pública.
Versión de abril de 2023
Voces TTS neuronales precompiladas
Las siguientes características de estas voces pasaron de la versión preliminar pública a la disponibilidad general:
Estilo
Voces de Texto a voz
style="chat"
en-GB-RyanNeural, es-MX-JorgeNeural y it-IT-IsabellaNeural
style="cheerful"
en-GB-RyanNeural, en-GB-SoniaNeural, es-MX-JorgeNeural, fr-FR-DeniseNeural, fr-FR-HenriNeural y it-IT-IsabellaNeural
style="sad"
en-GB-SoniaNeural, fr-FR-DeniseNeural y fr-FR-HenriNeural
Mejora de la pronunciación en inglés para las voces hi-IN, ta-IN y te-IN, ahora lanzada como paquete piloto en regiones de versión preliminar pública
El lenguaje de marcado de síntesis de voz (SSML) se actualiza para admitir elementos del procesador de efectos de audio que optimizan la calidad de la salida de voz sintetizada para escenarios específicos en los dispositivos. Obtenga más información en marcado de síntesis de voz.
API REST de síntesis por lotes (versión preliminar)
Batch synthesis API se encuentra actualmente en versión preliminar pública. Una vez que esté disponible con carácter general, Long Audio API está en desuso. Para obtener más información, consulte Migración a Batch synthesis API.
Se ha agregado la siguiente compatibilidad con la configuración regional para la voz neuronal personalizada. Consulte la lista de idiomas y voces completa para más información.
Se ha agregado compatibilidad con la configuración regional fr-BE con voz neuronal personalizada Pro.
Se ha agregado compatibilidad con la configuración regional es-ES con la voz neuronal personalizada lite.
Calidad mejorada para las voces fil-PH-AngeloNeural y fil-PH-BlessicaNeural.
Las reglas de normalización de texto se actualizan para las voces con las configuraciones regionales español (Chile) es-CL y Uzbek (Uzbekistán) uz-UZ.
Se han agregado letras en inglés para las voces con las configuraciones regionales albanés (Albania) sq-AL y azerbaiyano (Azerbaiyán) az-AZ.
Se ha mejorado la pronunciación del inglés para la voz zh-HK-WanLungNeural.
Tono de pregunta mejorado para las voces nl-NL-MaartenNeural y pt-BR-AntonioNeural.
Se ha agregado compatibilidad de la etiqueta <lang ="en-US"> para una mejor pronunciación del inglés con las siguientes voces: de-DE-ConradNeural, de-DE-KatjaNeural, es-ES-AlvaroNeural, es-MX-DaliaNeural, es-MX-JorgeNeural, fr-CA-SylvieNeural, fr-FR-DeniseNeural, fr-FR-HenriNeural, it-IT-DiegoNeural y it-IT-IsabellaNeural.
Se ha agregado compatibilidad de la etiqueta style="chat" con las voces siguientes: en-GB-RyanNeural, es-MX-JorgeNeural y it-IT-IsabellaNeural.
Se ha agregado compatibilidad de la etiqueta style="cheerful" con las voces siguientes: en-GB-RyanNeural, en-GB-SoniaNeural, es-MX-JorgeNeural, fr-FR-DeniseNeural, fr-FR-HenriNeural y it-IT-IsabellaNeural.
Se ha agregado compatibilidad de la etiqueta style="sad" con las voces siguientes: en-GB-SoniaNeural, fr-FR-DeniseNeural y fr-FR-HenriNeural.
Versión de septiembre de 2022
Voz TTS neuronal precompilada
Todas las voces neuronales precompiladas se han actualizado a voces de alta fidelidad con frecuencia de muestreo de 48 kHz.
Versión de agosto de 2022
Voz TTS neuronal precompilada
Se han publicado nuevas voces en versión preliminar pública:
Voces para inglés (Estados Unidos): en-US-AIGenerate1Neural y en-US-AIGenerate2Neural.
Voces para idiomas regionales chinos: zh-CN-henan-YundengNeural, zh-CN-shaanxi-XiaoniNeural y zh-CN-shandong-YunxiangNeural.
Se han agregado 5 nuevas voces de chino (mandarín, simplificado) (zh-CN) y 1 nueva voz de inglés (Estados Unidos) (en-US) en versión preliminar pública. Consulte la lista completa de idiomas y voces.
Estilos y roles admitidos para las voces neuronales agregadas.
Voz
Estilos
Grado de estilo
Roles
Versión preliminar pública de zh-CN-XiaomengNeural
chat
Compatible
Versión preliminar pública de zh-CN-XiaoyiNeura
affectionate, angry, cheerful, disgruntled, embarrassed, fearful, gentle, sad, serious
Compatible
Versión preliminar pública de zh-CN-XiaozhenNeural
angry, cheerful, disgruntled, fearful, sad, serious
Compatible
Versión preliminar pública de zh-CN-YunhaoNeural
angry, calm, cheerful, fearful, sad
Compatible
versión preliminar pública de zh-CN-YunhaoNeural
angry, calm, cheerful, depressed, disgruntled, documentary-narration, fearful, sad, serious
Compatible
Compatible
Obtención de la posición facial con visema
Se ha agregado compatibilidad con formas de combinación para impulsar los movimientos faciales de un personaje 3D diseñado por el usuario. Obtenga más información sobre cómo obtener la posición facial con visema.
Se han agregado 9 nuevos idiomas y variantes para la conversión de texto a voz neuronal:
Idioma
Configuración regional
Sexo
Nombre de voz
Compatibilidad de estilo
Árabe (Líbano)
ar-LB
Femenino
ar-LB-LaylaNeuralNuevo
General
Árabe (Líbano)
ar-LB
Male
ar-LB-RamiNeuralNuevo
General
Árabe (Omán)
ar-OM
Femenino
ar-OM-AyshaNeuralNuevo
General
Árabe (Omán)
ar-OM
Male
ar-OM-AbdullahNeuralNuevo
General
Azerbaiyano (Azerbaiyán)
az-AZ
Femenino
az-AZ-BabekNeuralNuevo
General
Azerbaiyano (Azerbaiyán)
az-AZ
Male
az-AZ-BanuNeuralNuevo
General
Bosnio (Bosnia y Herzegovina)
bs-BA
Femenino
bs-BA-VesnaNeuralNuevo
General
Bosnio (Bosnia y Herzegovina)
bs-BA
Male
bs-BA-GoranNeuralNuevo
General
Georgiano (Georgia)
ka-GE
Femenino
ka-GE-EkaNeuralNuevo
General
Georgiano (Georgia)
ka-GE
Male
ka-GE-GiorgiNeuralNuevo
General
Mongol (Mongolia)
mn-MN
Femenino
mn-MN-YesuiNeuralNuevo
General
Mongol (Mongolia)
mn-MN
Male
mn-MN-BataaNeuralNuevo
General
Nepalí (Nepal)
ne-NP
Femenino
ne-NP-HemkalaNeuralNuevo
General
Nepalí (Nepal)
ne-NP
Male
ne-NP-SagarNeuralNuevo
General
Albanés (Albania)
sq-AL
Femenino
sq-AL-AnilaNeuralNuevo
General
Albanés (Albania)
sq-AL
Male
sq-AL-IlirNeuralNuevo
General
Tamil (Malasia)
ta-MY
Femenino
ta-MY-KaniNeuralNuevo
General
Tamil (Malasia)
ta-MY
Male
ta-MY-SuryaNeuralNuevo
General
Disponibilidad general de 36 voces de versión preliminar pública para en-GB inglés (Reino Unido), fr-FR francés (Francia) y de-DE alemán (Alemania):
Idioma
Configuración regional
Sexo
Nombre de voz
Compatibilidad de estilo
Inglés (Reino Unido)
en-GB
Female
en-GB-AbbiNeural
General
Inglés (Reino Unido)
en-GB
Female
en-GB-BellaNeural
General
Inglés (Reino Unido)
en-GB
Female
en-GB-HollieNeural
General
Inglés (Reino Unido)
en-GB
Female
en-GB-MaisieNeural
General, voz de niño
Inglés (Reino Unido)
en-GB
Female
en-GB-OliviaNeural
General
Inglés (Reino Unido)
en-GB
Female
en-GB-SoniaNeural
General
Inglés (Reino Unido)
en-GB
Male
en-GB-AlfieNeural
General
Inglés (Reino Unido)
en-GB
Male
en-GB-ElliotNeural
General
Inglés (Reino Unido)
en-GB
Male
en-GB-EthanNeural
General
Inglés (Reino Unido)
en-GB
Male
en-GB-NoahNeural
General
Inglés (Reino Unido)
en-GB
Male
en-GB-OliverNeural
General
Inglés (Reino Unido)
en-GB
Male
en-GB-ThomasNeural
General
Francés (Francia)
fr-FR
Female
fr-FR-BrigitteNeural
General
Francés (Francia)
fr-FR
Female
fr-FR-CelesteNeural
General
Francés (Francia)
fr-FR
Female
fr-FR-CoralieNeural
General
Francés (Francia)
fr-FR
Female
fr-FR-EloiseNeural
General, voz de niño
Francés (Francia)
fr-FR
Female
fr-FR-JacquelineNeural
General
Francés (Francia)
fr-FR
Female
fr-FR-JosephineNeural
General
Francés (Francia)
fr-FR
Female
fr-FR-YvetteNeural
General
Francés (Francia)
fr-FR
Male
fr-FR-AlainNeural
General
Francés (Francia)
fr-FR
Male
fr-FR-ClaudeNeural
General
Francés (Francia)
fr-FR
Male
fr-FR-JeromeNeural
General
Francés (Francia)
fr-FR
Male
fr-FR-MauriceNeural
General
Francés (Francia)
fr-FR
Male
fr-FR-YvesNeural
General
Alemán (Alemania)
de-DE
Female
de-DE-AmalaNeural
General
Alemán (Alemania)
de-DE
Female
de-DE-ElkeNeural
General
Alemán (Alemania)
de-DE
Female
de-DE-GiselaNeural
General, voz de niño
Alemán (Alemania)
de-DE
Female
de-DE-KlarissaNeural
General
Alemán (Alemania)
de-DE
Female
de-DE-LouisaNeural
General
Alemán (Alemania)
de-DE
Female
de-DE-MajaNeural
General
Alemán (Alemania)
de-DE
Female
de-DE-TanjaNeural
General
Alemán (Alemania)
de-DE
Male
de-DE-BerndNeural
General
Alemán (Alemania)
de-DE
Male
de-DE-ChristophNeural
General
Alemán (Alemania)
de-DE
Male
de-DE-KasperNeural
General
Alemán (Alemania)
de-DE
Male
de-DE-KillianNeural
General
Alemán (Alemania)
de-DE
Male
de-DE-KlausNeural
General
Alemán (Alemania)
de-DE
Male
de-DE-RalfNeural
General
Se han agregado 40 nuevas voces de es-MX español (México), it-ITitaliano (Italia), pt-BR portugués (Brasil) y 2 acentos para zh-CN chino (mandarín, simplificado) en versión preliminar pública:
Idioma
Configuración regional
Sexo
Nombre de voz
Compatibilidad de estilo
Español (México)
es-MX
Female
es-MX-BeatrizNeuralNuevo
General
Español (México)
es-MX
Female
es-MX-CarlotaNeuralNuevo
General
Español (México)
es-MX
Female
es-MX-NuriaNeuralNuevo
General
Español (México)
es-MX
Female
es-MX-RenataNeuralNuevo
General
Español (México)
es-MX
Female
es-MX-LarissaNeuralNuevo
General
Español (México)
es-MX
Female
es-MX-CandelaNeuralNuevo
General
Español (México)
es-MX
Female
es-MX-MarinaNeuralNuevo
General
Italiano (Italia)
it-IT
Female
it-IT-FiammaNeuralNuevo
General
Italiano (Italia)
it-IT
Female
it-IT-IrmaNeuralNuevo
General
Italiano (Italia)
it-IT
Female
it-IT-FabiolaNeuralNuevo
General
Italiano (Italia)
it-IT
Female
it-IT-PalmiraNeuralNuevo
General
Italiano (Italia)
it-IT
Female
it-IT-ImeldaNeuralNuevo
General
Italiano (Italia)
it-IT
Female
it-IT-PierinaNeuralNuevo
General
Portugués (Brasil)
pt-BR
Female
pt-BR-ElzaNeuralNuevo
General
Portugués (Brasil)
pt-BR
Female
pt-BR-ManuelaNeuralNuevo
General
Portugués (Brasil)
pt-BR
Female
pt-BR-BrendaNeuralNuevo
General
Portugués (Brasil)
pt-BR
Female
pt-BR-LeilaNeuralNuevo
General
Portugués (Brasil)
pt-BR
Female
pt-BR-YaraNeuralNuevo
General
Portugués (Brasil)
pt-BR
Female
pt-BR-GiovannaNeuralNuevo
General
Portugués (Brasil)
pt-BR
Female
pt-BR-LeticiaNeuralNuevo
General
Español (México)
es-MX
Male
es-MX-CecilioNeuralNuevo
General
Español (México)
es-MX
Male
es-MX-LibertoNeuralNuevo
General
Español (México)
es-MX
Male
es-MX-LucianoNeuralNuevo
General
Español (México)
es-MX
Male
es-MX-PelayoNeuralNuevo
General
Español (México)
es-MX
Male
es-MX-YagoNeuralNuevo
General
Español (México)
es-MX
Male
es-MX-GerardoNeuralNuevo
General
Italiano (Italia)
it-IT
Male
it-IT-BenignoNeuralNuevo
General
Italiano (Italia)
it-IT
Male
it-IT-CataldoNeuralNuevo
General
Italiano (Italia)
it-IT
Male
it-IT-LisandroNeuralNuevo
General
Italiano (Italia)
it-IT
Male
it-IT-CalimeroNeuralNuevo
General
Italiano (Italia)
it-IT
Male
it-IT-RinaldoNeuralNuevo
General
Italiano (Italia)
it-IT
Male
it-IT-GianniNeuralNuevo
General
Portugués (Brasil)
pt-BR
Male
pt-BR-DonatoNeuralNuevo
General
Portugués (Brasil)
pt-BR
Male
pt-BR-HumbertoNeuralNuevo
General
Portugués (Brasil)
pt-BR
Male
pt-BR-FabioNeuralNuevo
General
Portugués (Brasil)
pt-BR
Male
pt-BR-JulioNeuralNuevo
General
Portugués (Brasil)
pt-BR
Male
pt-BR-ValerioNeuralNuevo
General
Portugués (Brasil)
pt-BR
Male
pt-BR-NicolauNeuralNuevo
General
Chino (mandarín, simplificado)
zh-CN-sichuan
Male
zh-CN-sichuan-YunxiSichuanNeuralNuevo
General, acento de Sichuan
Chino (mandarín, simplificado)
zh-CN-liaoning
Female
zh-CN-liaoning-XiaobeiNeuralNuevo
General, acento de Liaoning
Calidad mejorada para en-SG-LunaNeural y en-SG-WayneNeural
Compatibilidad de salida de 48 kHz para la versión preliminar pública con en-US-JennyNeural, en-US-AriaNeural y zh-CN-XiaoxiaoNeural
Se ha habilitado para ordenar de manera global por nombre, tipo de archivo y hora de actualización en la página del archivo de trabajo.
Versión de mayo de 2022
Voz TTS neuronal precompilada
Se han lanzado cinco voces nuevas en versión preliminar pública con varios estilos para enriquecer la variedad de inglés americano. Consulte la lista completa de idiomas y voces.
Se admiten los nuevos estilos Angry, Excited, Friendly, Hopeful, Sad, Shouting, Unfriendly, Terrified y Whispering en versión preliminar pública para en-US-AriaNeural.
Se admiten los nuevos estilos Angry, Cheerful, Excited, Friendly, Hopeful, Sad, Shouting, Unfriendly, Terrified y Whispering en versión preliminar pública para en-US-GuyNeural y en-US-JennyNeural.
Se admiten los nuevos estilos Excited, Friendly, Hopeful, Shouting, Unfriendly, Terrified y Whispering en versión preliminar pública para en-US-SaraNeural. Consulte estilos y roles de voz.
Se han publicado nuevas voces zh-CN-YunjianNeural, zh-CN-YunhaoNeural y zh-CN-YunfengNeural en versión preliminar pública. Consulte la lista completa de idiomas y voces.
Se admiten dos nuevos estilos sports-commentary, sports-commentary-excited en la versión preliminar pública para zh-CN-YunjianNeural. Consulte estilos y roles de voz.
Se admite un nuevo estilo advertisement-upbeat en la versión preliminar pública para zh-CN-YunhaoNeural. Consulte estilos y roles de voz.
Los estilos cheerful y sad para fr-FR-DeniseNeural están disponibles con carácter general en todas las regiones.
Se ha actualizado SSML a fin de admitir elementos MathML para las voces en-US y en-AU. Obtenga más información en marcado de síntesis de voz.
Voz neuronal personalizada
Se ha habilitado para cancelar el entrenamiento durante el entrenamiento del modelo de voz. Obtenga más información sobre cómo cancelar el entrenamiento.
Se han admitido más regiones de entrenamiento. Consulte las regiones admitidas.
Se admiten 10 configuraciones regionales para la voz neuronal personalizada lite (versión preliminar). Consulte los idiomas admitidos.
Herramienta de Creación de contenido de audio
Se ha habilitado para probar la herramienta Creación de contenido de audio sin iniciar sesión.
Se ha mejorado el diseño para ajustar los fonemas.
Se ha mejorado el rendimiento: se ha especificado el número máximo (200) de archivos que se van a cargar al mismo tiempo.
Se ha mejorado el rendimiento: se ha especificado el nivel máximo de profundidad de directorio (5 niveles).
Versión de marzo de 2022
Voz TTS neuronal precompilada
Se ha agregado compatibilidad en la versión preliminar pública para los estilos Cheerful y Sad con fr-FR-DeniseNeural. Consulte estilos y roles de voz.
Se ha actualizado el tamaño de archivo y el límite de simultaneidad de los recursos de nivel libre (F0) para que la experiencia sea coherente con el SDK de Voz y las API. Consulte cuotas y límites del servicio Voz.
Pronunciación mejorada de palabras en inglés para todas las voces de he-IL.
Se ha mejorado la precisión de la pronunciación a nivel de palabra para cs-CZ y da-DK.
Se ha mejorado el control de los diacríticos árabes y los nikud hebreos.
Se ha mejorado la lectura de entidades para ja-JP.
Speech Studio
Voz neuronal personalizada: habilitó pruebas de modelos adicionales mediante la API por lotes (API de audio larga)
Creación de contenido de audio: se han habilitado más formatos de salida
Versión de octubre de 2021
Nuevos idiomas y voces
Se han agregado 49 nuevos idiomas y 98 voces para la conversión de texto a voz neuronal:
Adri en af-ZA afrikáans (Sudáfrica), Willem en af-ZA afrikáans (Sudáfrica), Mekdes en am-ET amárico (Etiopía), Ameha en am-ET amárico (Etiopía), Fátima en ar-AE árabe (Emiratos Árabes Unidos), Hamdan en ar-AE árabe (Emiratos Árabes Unidos), Laila en ar-BH árabe (Bahréin), Ali en ar-BH árabe (Bahréin), Amina en ar-DZ árabe (Argelia), Ismael en ar-DZ árabe (Argelia), Rana en ar-IQ árabe (Irak), Bassel en ar-IQ árabe (Irak), Sana en ar-JO árabe (Jordania), Taim en ar-JO árabe (Jordania), Noura en ar-KW árabe (Kuwait), Fahed en ar-KW árabe (Kuwait), Iman en ar-LY árabe (Libia), Omar en ar-LY árabe (Libia), Mouna en ar-MA árabe (Marruecos), Jamal en ar-MA árabe (Marruecos), Amal en ar-QA árabe (Catar), Moaz en ar-QA árabe (Catar), Amany en ar-SY árabe (Siria), Laith en ar-SY árabe (Siria), Reem en ar-TN árabe (Túnez), Hedi en ar-TN árabe (Túnez), Maryam en ar-YE árabe (Yemen ), Saleh en ar-YE árabe (Yemen), Nabanita en bn-BD bengalí (Bangladesh), Pradeep en bn-BD bengalí (Bangladesh), Asilia en en-KE inglés (Kenia), Chilemba en en-KE inglés (Kenia), Ezinne en en-NG inglés (Nigeria), Abeo en en-NG inglés (Nigeria), Imani en en-TZ inglés (Tanzania), Elimu en en-TZ inglés (Tanzania), Sofia en es-BO español (Bolivia), Marcelo en es-BO español (Bolivia), Catalina en es-CL español (Chile), Lorenzo en es-CL español (Chile), María en es-CR español (Costa Rica), Juan en es-CR español (Costa Rica), Belkys en es-CU español (Cuba), Manuel en es-CU español (Cuba), Ramona en es-DO español (República Dominicana), Emilio en es-DO español (República Dominicana), Andrea en es-EC español (Ecuador), Luis en es-EC español (Ecuador), Teresa en es-GQ español (Guinea Ecuatorial), Javier en es-GQ español (Guinea Ecuatorial), Marta en es-GT español (Guatemala), Andrés en es-GT español (Guatemala), Karla en es-HN español (Honduras), Carlos en es-HN español (Honduras), Yolanda en es-NI español (Nicaragua), Federico en es-NI español (Nicaragua), Margarita en es-PA español (Panamá), Roberto en es-PA español (Panamá), Camila en es-PE español (Perú), Alex en es-PE español (Perú), Karina en es-PR español (Puerto Rico), Víctor en es-PR español (Puerto Rico), Tania en es-PY español (Paraguay), Mario en es-PY español (Paraguay), Lorena en es-SV español (El Salvador), Rodrigo en es-SV español (El Salvador), Valentina en es-UY español (Uruguay), Mateo en es-UY español (Uruguay), Paola en es-VE español (Venezuela), Sebastián en es-VE español (Venezuela), Dilara en fa-IR persa (Irán), Farid en fa-IR persa (Irán), Blessica en fil-PH filipino (Filipinas), Angelo en fil-PH filipino (Filipinas), Sabela en gl-ES gallego (España), Roi en gl-ES gallego (España), Siti en jv-ID javanés (Indonesia), Dimas en jv-ID javanés (Indonesia), Sreymom en km-KH jemer (Camboya), Piseth en km-KH jemer (Camboya), Nilar en my-MM birmano (Myanmar), Thiha en my-MM birmano (Myanmar), Ubax en so-SO somalí (Somalia), Muuse en so-SO somalí (Somalia), Tuti en su-ID sundanés (Indonesia), Jajang en su-ID sundanés (Indonesia), Rehema en sw-TZ swahili (Tanzania), Daudi en sw-TZ swahili (Tanzania), Saranya en ta-LK tamil (Sri Lanka), Kumar en ta-LK tamil (Sri Lanka), Venba en ta-SG tamil (Singapur), Anbu en ta-SG tamil (Singapur), Gul en ur-IN urdu (India), Salman en ur-IN urdu (India), Madina en uz-UZ uzbeko (Uzbekistán), Sardor en uz-UZ uzbeko (Uzbekistán), Thando en zu-ZA zulú (Sudáfrica), Themba en zu-ZA zulú (Sudáfrica).
Versión de septiembre de 2021
Nueva voz del bot de chat en inglés en-US (EE. UU.): Sara, representa a una mujer joven adulta que habla de manera más informal y se adapta mejor a los escenarios de bots de chat.
Nuevos estilos agregados para la ja-JP voz japonesa de Nanami: ahora hay tres estilos nuevos disponibles con el chat, el servicio al cliente y el ambiente.
Mejora general de la pronunciación: Ardi en id-ID, Premwadee en th-TH, Christel en da-DK, HoaiMy y NamMinh en vi-VN.
Dos nuevas voces en zh-CN chino (mandarín, China) en versión preliminar: Xiaochen y Xiaoyan, optimizadas para situaciones de habla espontánea y servicio al cliente.
Versión de julio de 2021
Actualizaciones de texto a voz neuronal
Se han reducido los errores de pronunciación en hebreo en un 20 %.
Actualizaciones de Speech Studio
Voz neuronal personalizada: Se ha actualizado la canalización de entrenamiento a UniTTSv3, con lo que se mejora la calidad del modelo, mientras que el tiempo de entrenamiento se reduce en un 50 % para los modelos acústicos.
Creación de contenido de audio: se ha corregido el problema de rendimiento al "Exportar" y el error en la selección de voz neuronal personalizada.
Versión de junio de 2021
Actualizaciones de Speech Studio
Voz neuronal personalizada: Se ha extendido el entrenamiento de Voz neuronal personalizada para admitir el Sudeste de Asia. Nuevas características publicadas para admitir la comprobación de estado de carga de datos.
Creación de contenido de audio: se ha publicado una nueva característica para admitir léxico personalizado. Con esta característica, los usuarios pueden crear fácilmente sus archivos de léxico y definir la pronunciación personalizada para su salida de audio.
Versión de mayo de 2021
Se han agregado nuevos idiomas y voces a TTS neuronal
Se han introducido diez nuevos idiomas: 20 nuevas voces en 10 nuevas configuraciones regionales se han agregado a la lista de idiomas de TTS neuronales: Yan en en-HK inglés (Hong Kong), Sam en en-HK inglés (Hong Kong), Molly en en-NZ inglés (Nueva Zelanda), Mitchell en en-NZ inglés (Nueva Zelanda), Luna en en-SG inglés (Singapur), Wayne en en-SG inglés (Singapur), Leah en en-ZA inglés (Sudáfrica), Luke en en-ZA inglés (Sudáfrica), Dhwani en gu-IN gujarati (India), Niranjan en gu-IN gujarati (India), Aarohi en mr-IN marathi (India), Manohar en mr-IN marathi (India), Elena en es-AR español (Argentina), Tomás en es-AR español (Argentina), Salomé en es-CO español (Colombia), Gonzalo en es-CO español (Colombia), Paloma in es-US español (Estados Unidos), Alonso en es-US español (Estados Unidos), Zuri en sw-KE swahili (Kenya), Rafiki en sw-KE swahili (Kenya).
Once nuevas voces de en-US en versión preliminar: se han agregado 11 nuevas voces de en-US en versión preliminar a inglés americano, que son: Ashley, Amber, Ana, Brandon, Christopher, Cora, Elizabeth, Eric, Michelle, Monica, Jacob.
Cinco zh-CN voces chinas (mandarín, simplificado) están disponibles con carácter general: cinco voces chinas (mandarín, simplificado) han cambiado de versión preliminar a disponible con carácter general. Y son Yunxi, Xiaomo, Xiaoman, Xiaoxuan, Xiaorui. Ahora, estas voces están disponibles en todas las regiones. Yunxi se ha agregado con un nuevo estilo de "asistente", que es adecuado para los bots de chat y el agente de voz. Los estilos de voz de Xiaomo se refinan para que sean más naturales y característicos.
Versión de abril de 2021
La conversión de texto a voz neuronal está disponible en 21 regiones
Se han agregado doce nuevas regiones - Texto a voz neuronal ya está disponible en estas 12 nuevas regiones: Japan East, Japan West, Korea Central, North Central US, North Europe, South Central US, Southeast Asia, UK South, west Central US, West Europe, West US, West US 2. Consulte aquí la lista completa de las 21 regiones admitidas.
Versión de marzo de 2021
Se han agregado nuevos idiomas y voces a TTS neuronal
Se han introducido seis nuevos idiomas: doce nuevas voces en seis nuevas configuraciones regionales se agregan a la lista de idiomas de TTS neuronal: Nia en cy-GB galés (Reino Unido), Aled en cy-GB galés (Reino Unido), Rosa en en-PH inglés (Filipinas), James en en-PH inglés (Filipinas), Charline en fr-BE francés (Bélgica), Gerard en fr-BE francés (Bélgica), Dena en nl-BE holandés (Bélgica), Arnaud en nl-BE holandés (Bélgica), Polina en uk-UA ucraniano (Ucrania), Ostap en uk-UA ucraniano (Pakistán), Uzma en ur-PK urdu (Pakistán) y ur-PK Asad en urdu (Pakistán).
Cinco idiomas de la versión preliminar a disponibilidad general: diez voces en cinco configuraciones regionales introducidas en noviembre ahora son de disponibilidad general: Kert en estonio et-EE (Estonia), Colm en ga-IE irlandés (Irlanda), Nils en lv-LV letón (Letonia), Leonas en lt-LT lituano (Lituania), Joseph en mt-MT maltés (Malta).
Se ha agregado una nueva voz de masculina para francés (Canadá): hay una nueva voz, Antoine, disponible para fr-CA francés (Canadá).
Aumento de la calidad - reducción de la tasa de errores en la pronunciación en hu-HU húngaro: 48,17 %, nb-NO noruego: 52,76 % y nl-NL neerlandés (Países Bajos): 22,11 %.
Con esta versión, ahora se admiten un total de 142 voces neuronales en 60 idiomas o configuraciones regionales. Además, hay disponibles más de 70 voces estándar en 49 idiomas o configuraciones regionales. Consulte Compatibilidad con idiomas para obtener la lista completa.
Obtención de eventos de postura facial para animar caracteres
Texto a voz neuronal ahora incluye el evento viseme. Los eventos viseme permiten a los usuarios obtener una secuencia de poses faciales junto con voz sintetizada. Los eventos viseme se pueden usar para controlar el movimiento de los modelos de avatar 2D y 3D, de modo que los movimientos de la boca coincidan con la voz sintetizada. Por ahora, los eventos viseme solo están disponibles para la voz en-US-AriaNeural.
Incorporación del elemento marcador en el lenguaje de marcado de síntesis de voz (SSML)
El elemento marcador permite insertar marcadores personalizados en SSML para obtener el desplazamiento de cada marcador en la secuencia de audio. Se puede usar para hacer referencia a una ubicación específica en la secuencia de texto o etiqueta.
Versión de febrero de 2021
Voz neuronal personalizada en versión GA
La voz neuronal personalizada está disponible en febrero en 13 idiomas: chino (mandarín, simplificado), inglés (Australia), inglés (India), inglés (Reino Unido), inglés (Estados Unidos), francés (Canadá), francés (Francia), alemán (Alemania), italiano (Italia), japonés (Japón), coreano (Corea), portugués (Brasil), español (México) y español (España). Obtenga más información sobre qué es Voz neuronal personalizada y cómo usarla de manera responsable.
La característica de voz neuronal personalizada requiere registro y Microsoft puede limitar el acceso en función de los criterios de idoneidad de Microsoft. Más información sobre la limitación del acceso.
Versión de diciembre de 2020
Nuevas voces neuronales disponibles de forma general y en versión preliminar
Se han lanzado 51 voces nuevas para un total de 129 voces neuronales en 54 idiomas o configuraciones regionales:
46 nuevas voces en configuraciones regionales con GA: Shakir en ar-EG árabe (Egipto), Hamed en ar-SA árabe (Arabia Saudí), Borislav en bg-BG búlgaro (Bulgaria), Joana en ca-ES catalán, Antonin en cs-CZ checo (República Checa), Jeppe en da-DK danés (Dinamarca), Jonas en de-AT alemán (Austria), Jan en de-CH alemán (Suiza), Nestoras en el-GR griego (Grecia), Liam en en-CA inglés (Canadá), Connor en en-IE inglés (Irlanda), Madhur en en-IN hindi (India), Mohan en en-IN telugu (India), Prabhat en en-IN inglés (India), Valluvar enen-IN tamil (India), Enric en es-ES catalán, Kert en et-EE estonio (Estonia), Harri en fi-FI finés (Finlandia), Selma en fi-FI finés (Finlandia), Fabrice en fr-CH francés (Suiza), Colm en ga-IE irlandés (Irlanda), Avri en he-IL hebreo (Israel), Srecko en hr-HR croata (Croacia), Tamas en hu-HU húngaro (Hungría), Gadis en id-ID indonesio (Indonesia), Leonas en lt-LT lituano (Lituania), Nils en lv-LV letón (Letonia), Osman en ms-MY malayo (Malasia), Joseph en mt-MT maltés (Malta), Finn en nb-NO noruego, Bokmål (Noruega), Pernille en nb-NO noruego, Bokmål (Noruega), Fenna en nl-NL neerlandés (Países Bajos), Maarten en nl-NL neerlandés (Países Bajos), Agnieszka en pl-PL polaco (Polonia), Marek en pl-PL polaco (Polonia), Duarte en pt-BR portugués (Brasil), Raquel en pt-PT portugués (Portugal), Emil en ro-RO rumano (Rumanía), Dmitry en ru-RU ruso (Rusia), Svetlana en ru-RU ruso (Rusia), Lukas en sk-SK eslovaco (Eslovaquia), Rok en sl-SI esloveno (Eslovenia), Mattias en sv-SE sueco (Suecia), Sofie en sv-SE sueco (Suecia), Niwat en th-TH tailandés (Tailandia), Ahmet en tr-TR turco (Turquía), NamMinh en vi-VN vietnamita (Vietnam), HsiaoChen en zh-TW mandarín taiwanés (Taiwán), YunJhe en zh-TW mandarín taiwanés (Taiwán), HiuMaan en zh-HK chino cantonés (Región Administrativa Especial de Hong Kong), WanLung en zh-HK chino cantonés (Región Administrativa Especial de Hong Kong).
5 nuevas voces en configuraciones regionales en versión preliminar: Kert en et-EE estonio (Estonia), Colm en ga-IE irlandés (Irlanda), Nils en lv-LV letón (Letonia), Leonas en lt-LT lituano (Lituania), Joseph en mt-MT maltés (Malta).
Con esta versión, ahora se admiten un total de 129 voces neuronal en 54 idiomas o configuraciones regionales. Además, hay disponibles más de 70 voces estándar en 49 idiomas o configuraciones regionales. Consulte Compatibilidad con idiomas para obtener la lista completa.
Actualizaciones para la creación de contenido de audio
Interfaz de usuario de selección con voz mejorada, con categorías de voz y descripciones detalladas de voz.
Se ha habilitado la optimización de la entonación en todas las voces neuronales de distintos idiomas.
Se ha automatizado la localización de la interfaz de usuario en función del idioma del explorador.
Se han habilitado controles StyleDegree en todas las voces neuronales de zh-CN.
Consulte la herramienta de creación de contenido de audio para echar un vistazo a las nuevas características.
Actualizaciones para las voces de zh-CN
Se actualizaron todas voces neuronales de zh-CN para que admitan el inglés.
Se han habilitado todas las voces neuronales de zh-CN para admitir el ajuste de entonación. La herramienta de creación de contenido de audio o SSML se puede usar para obtener la mejor entonación.
Se actualizaron todas voces neuronales de zh-CN de estilo múltiple para admitir el control StyleDegree. La intensidad de las emociones (suave o fuerte) es ajustable.
Se ha actualizado zh-CN-YunyeNeural para que admita varios estilos que pueden mostrar diferentes emociones.
Versión de noviembre de 2020
Nuevas configuraciones regionales y voces en versión preliminar
Se han agregado cinco voces e idiomas nuevos en la cartera de texto a voz neuronal. Son las siguientes: Grace en maltés (Malta), Ona en lituano (Lituania), Anu en estonio (Estonia), Orla en irlandés (Irlanda) y Everita en letón (Letonia).
Cinco nuevas voces de zh-CN con varios estilos y roles que admiten: Xiaohan, Xiaomo, Xiaorui, Xiaoxuan y Yunxi.
Estas voces están disponibles en la versión preliminar pública de tres regiones de Azure: EastUS, SouthEastAsia y WestEurope.
Disponibilidad general del contenedor de Texto a voz neuronal
Gracias al contenedor de texto a voz neuronal, los desarrolladores pueden ejecutar síntesis de voz con las voces digitales más naturales en su propio entorno, para cumplir con los requisitos específicos de seguridad y control de los datos. Consulte Cómo instalar contenedores de voz.
Nuevas características
Voz personalizada: se permite a los usuarios copiar un modelo de voz de una región a otra; también se admiten tanto la suspensión como la reanudación de los puntos de conexión. Vaya a Azure Portal aquí.
Mejoras generales en la calidad de la voz de TTS: Precisión del nivel de pronunciación de palabra mejorada en nb-NO. El error de pronunciación se ha reducido en un 53 %.
Se han actualizado las voces neuronales al vocoder HiFiNet, que ofrece mayor fidelidad de audio y velocidad de síntesis más rápida. Esto supone una ventaja para los clientes cuyo escenario se basa en el audio de alta fidelidad o en las interacciones largas, como la traducción de vídeo, los libros de audio o los materiales de educación en línea. Conozca más detalles de la historia y escuche las muestras de voz en nuestro blog de la comunidad de tecnología.
Voz personalizada y Creación de contenido de audio se han localizado a 17 configuraciones regionales. Los usuarios pueden cambiar fácilmente la interfaz de usuario a un idioma local para una experiencia más agradable.
Creación de contenido de audio: control de grado de estilo agregado para XiaoxiaoNeural; se ha ajustado la característica de interrupción personalizada para incluir saltos incrementales de 50 ms.
Mejoras generales de calidad de voz TTS
Se ha mejorado la precisión de la pronunciación en el nivel de palabra en pl-PL (reducción de la tasa de errores: 51 %) y en fi-FI (reducción de la tasa de errores: 58 %).
Se ha mejorado la lectura de una sola palabra en ja-JP para el escenario del diccionario. El error de pronunciación se ha reducido en un 80 %.
zh-CN-XiaoxiaoNeural: se ha mejorado la calidad de voz de los estilos de opinión/servicio de atención al cliente/telediario/alegre/enfadado.
zh-CN: se ha mejorado la pronunciación de erhua y la prosodia de tono ligero y espaciado preciso, lo que mejora en gran medida la inteligibilidad.
Versión de septiembre de 2020
Nuevas características
Texto a voz neuronal
Se ha ampliado para admitir 18 nuevos idiomas o configuraciones regionales. Son alemán (Austria), alemán (Suiza), búlgaro, checo, croata, eslovaco, esloveno, francés (Suiza), griego, hebreo, húngaro, indonesio, inglés (Irlanda), malayo, rumano, tamil, telugu y vietnamita.
Se han agregado 14 voces nuevas para enriquecer la variedad en los idiomas existentes. Consulte la lista completa de idiomas y voces.
Nuevos estilos de habla para las voces de en-US y zh-CN. Jenny, la nueva voz en inglés (EE. UU.), es compatible con los estilos de bot de chat, servicio de atención al cliente y asistente. La voz de zh-CN, XiaoXiao, dispone de diez nuevos estilos de habla. Además, la voz neuronal de XiaoXiao admite el ajuste de StyleDegree. Consulte cómo usar los estilos del habla en SSML.
Texto a voz neuronal: nuevo estilo de habla para la en-US voz de Aria. AriaNeural puede parecer un locutor al leer las noticias. El estilo "newscast-formal" suena más serio, mientras que el estilo "newscast-casual" es más flexible e informal. Consulte cómo usar los estilos del habla en SSML.
Voz personalizada: se publica una nueva característica para comprobar automáticamente la calidad de los datos de entrenamiento. Al cargar los datos, el sistema examinará diversos aspectos de los datos de audio y transcripción, y corregirá o filtrará los problemas automáticamente para mejorar la calidad del modelo de voz. Abarca el volumen del audio, el nivel de ruido, la precisión de pronunciación de la voz, la alineación de la voz con el texto normalizado, el silencio en el audio, además del formato de audio y de script.
Creación de contenido de audio: un conjunto de nuevas características para habilitar capacidades de administración de audio y de ajuste de voz más eficaces.
Pronunciación: la característica de ajuste de la pronunciación se actualiza con el conjunto de fonemas más reciente. Puede seleccionar el elemento de fonema correcto en la biblioteca y refinar la pronunciación de las palabras que ha seleccionado.
Descargar: La característica "Descargar"/"Exportar" de audio se ha mejorado para admitir la generación de audio por párrafo. Puede editar el contenido en el mismo archivo o SSML, mientras genera varias salidas de audio. La estructura de archivos de "Descargar" también se ha refinado. Ahora, puede colocar fácilmente todos los archivos de audio en una carpeta.
Estado de la tarea: se ha mejorado la experiencia de exportación de varios archivos. Cuando se exportaban varios archivos en el pasado, si se producía un error en uno de los archivos, se producía un error en toda la tarea. Pero ahora todos los demás archivos se exportarán correctamente. El informe de tareas se enriquece con información más detallada y estructurada. Ahora puede comprobar los registros de todos los archivos y oraciones con errores con el informe.
Documentación de SSML: vinculado a un documento SSML para ayudarle a comprobar las reglas sobre cómo usar todas las características de optimización.
La API de lista de voces se ha actualizado e incluye un nombre para mostrar del usuario que es descriptivo y los estilos del habla admitidos para las voces neuronales.
Mejoras generales de calidad de voz TTS
Se ha reducido el porcentaje de errores de pronunciación de nivel de palabra para ru-RU (en un 56 %) y para sv-SE (en un 49 %).
Se ha mejorado la lectura de palabras polifónicas en voces neuronales en-US en un 40 %. Entre los ejemplos de palabras polifónicas se incluyen "read", "live", "content", "record", "object", etc.
Se ha mejorado la naturalidad del tono de la pregunta en fr-FR. MOS (puntuación de opinión media): +0,28.
Se han actualizado los vocoders para las siguientes voces, con mejoras de fidelidad y velocidad de rendimiento general en un 40 %.
Configuración regional
Voz
en-GB
Mia
es-MX
Dalia
fr-CA
Sylvie
fr-FR
Denise
ja-JP
Nanami
ko-KR
Sun-Hi
Correcciones de errores
Se han corregido varios errores de la herramienta Creación de contenido de audio
Corrección del problema con la actualización automática.
Corrección de los problemas con los estilos de voz en zh-CN de la región del Sudeste Asiático.
Corrección del problema de estabilidad, incluido un error de exportación con la etiqueta "break" y errores en signos de puntuación.
Versión de noviembre de 2024
API de REST de conversión de voz en texto, versión 2024-11-15
La versión 2024-05-15-preview de la API de REST de voz en texto está en desuso.
Transcripción rápida (GA)
La transcripción rápida ahora está disponible con carácter general a través de la API de REST de voz a texto, versión 2024-11-15. Transcripción rápida permite transcribir archivos de audio a texto de forma precisa y sincrónica, con un factor de alta velocidad. Puede transcribir el audio mucho más rápido que la duración real del audio. Para más información, consulte la guía de la API de Transcripción rápida.
Versión de octubre de 2024
Conversión de voz en texto en tiempo real (bilingüe)
Se han realizado mejoras significativas en la calidad de reconocimiento de términos cortos en español mediante los modelos bilingües es-US. El modelo es bilingüe y también admite inglés. También se ha mejorado la calidad del reconocimiento en inglés.
La transcripción rápida ahora admite la diarización para reconocer y separar varios altavoces en el archivo de audio monocanal. Para más información, consulte la Guía de la API de Transcripción rápida.
Versión de agosto de 2024
Aprendizaje de idiomas (versión preliminar)
El aprendizaje de idiomas ya está disponible en versión preliminar pública. El aprendizaje interactivo de idiomas puede hacer que la experiencia de aprendizaje sea más atractiva y eficaz. Para más información, vea Aprendizaje de idiomas interactivo con evaluación de pronunciación.
Transcripción rápida ya está disponible en versión preliminar pública. Transcripción rápida permite transcribir archivos de audio a texto de forma precisa y sincrónica, con un factor de alta velocidad. Puede transcribir el audio mucho más rápido que la duración real del audio. Para más información, consulte la guía de la API de Transcripción rápida.
Las versiones preliminares 3.2-preview.1 y 3.2-preview.2 se retiran a partir de septiembre de 2024.
La API de REST de conversión de voz en texto v3.1 se retirará en una fecha que se anunciará. La API de REST de la conversión de voz en texto v3.0 se retirará el 1 de abril de 2026. Para obtener más información sobre la actualización, vea las guías de migración de conversión de voz en texto de la API de RESTv3.0 a v3.1 y v3.1 to v3.2
Versión de mayo de 2024
Traducción de vídeo (versión preliminar)
La traducción de vídeo ya está disponible en versión preliminar pública. La traducción de vídeo es una característica de Voz de Azure AI que le permite traducir y generar automáticamente vídeos en varios idiomas sin problemas. Esta característica está diseñada para ayudarle a localizar el contenido de vídeo para atender a diversos públicos de todo el mundo. Puede crear de forma eficaz vídeos envolventes y localizados en varios casos de uso, como videoblogs, educación, noticias, formación empresarial, publicidad, cine, programas de televisión, etc. Para obtener más información, consulte la introducción a la traducción de vídeo.
Valoración de la pronunciación
Voz Valoración de la pronunciación ahora admite 24 idiomas disponibles con carácter general (con un nuevo idioma agregado), con 7 idiomas más disponibles en versión preliminar pública. Para obtener más información, consulte la lista completa de idiomas para Pronunciation Assessment.
Versión de abril de 2024
Traducción automática de voz multilingüe (versión preliminar)
La traducción automática de voz multilingüe está disponible en versión preliminar pública. Esta innovadora característica revoluciona la forma de superar las barreras lingüísticas, ofreciendo capacidades sin precedentes para una comunicación sin problemas a través de diversos paisajes lingüísticos.
Aspectos destacados más importantes
Idioma de entrada no especificado: la traducción de voz multilingüe puede recibir audio en una amplia gama de idiomas, y no es necesario especificar cuál es el idioma de entrada esperado. Es una característica inestimable para entender y colaborar en contextos globales sin necesidad de preconfiguración.
Cambio de idioma: la traducción de voz multilingüe permite hablar en varios idiomas durante la misma sesión y traducirlos todos al mismo idioma de destino. No es necesario reiniciar una sesión cuando cambia el idioma de entrada o cualquier otra acción por su parte.
Funcionamiento
Intérprete de viajes: la traducción de voz multilingüe puede mejorar la experiencia de los turistas que visitan destinos en el extranjero proporcionándoles información y asistencia en su idioma preferido. Los servicios de conserjería de los hoteles, las visitas guiadas y los centros de visitantes pueden utilizar esta tecnología para atender diversas necesidades lingüísticas.
Conferencias internacionales: la traducción de voz multilingüe puede facilitar la comunicación entre participantes de distintas regiones que hablen varios idiomas utilizando subtítulos traducidos en directo. Los asistentes pueden hablar en su lengua materna sin necesidad de especificarla, lo que garantiza un entendimiento y una colaboración fluidos.
Encuentros educativos: en aulas multiculturales o entornos de aprendizaje en línea, la traducción de voz multilingüe puede favorecer la diversidad lingüística entre alumnos y profesores. Permite una comunicación y participación fluidas sin necesidad de especificar el idioma de cada alumno o instructor.
Cómo obtener acceso
Para obtener una introducción detallada, visite Introducción a la traducción de voz. Además, puede consultar los ejemplos de código en cómo traducir voz. Esta nueva característica es totalmente compatible con todas las versiones del SDK de la versión 1.37.0 en adelante.
Conversión de voz en texto en tiempo real con diarización (GA)
La conversión de voz en texto en tiempo real con diarización ahora está disponible con carácter general.
Puede crear aplicaciones de conversión de voz en texto que usen la diarización para distinguir entre los distintos hablantes que participan en la conversación. Para obtener más información sobre la diarización en tiempo real, consulte el inicio rápido de diarización en tiempo real.
Actualización del modelo de conversión de voz en texto
Conversión de voz en texto en tiempo real ha lanzado nuevos modelos con funcionalidades bilingües. El modelo en-IN ahora admite escenarios bilingües en inglés e hindi y ofrece una mayor precisión. Las configuraciones regionales árabes (ar-AE, ar-BH, ar-DZ, ar-IL, ar-IQ, ar-KW, ar-LB, ar-LY, ar-MA, ar-OM, ar-PS, ar-QA, ar-SA, ar-SY, ar-TN, ar-YE) están ahora equipadas con soporte bilingüe en inglés, mayor precisión y soporte técnico del centro de llamadas.
La transcripción por lotes proporciona modelos con una nueva arquitectura para estas configuraciones regionales: es-ES, es-MX, fr-FR, it-IT, ja-JP, ko-KR, pt-BR y zh-CN. Estos modelos mejoran significativamente la legibilidad y el reconocimiento de entidades.
Versión de marzo de 2024
Disponibilidad general de Whisper (GA)
El modelo de voz de susurro a texto con Voz de Azure AI ahora está disponible con carácter general.
Consulte ¿Qué es el modelo Whisper? para obtener más información sobre cuándo usar Voz de Azure AI frente a Azure OpenAI Service.
Versión de febrero de 2024
Valoración de la pronunciación
La evaluación de la pronunciación de voz ahora admite 23 idiomas con carácter general, (con 5 nuevos idiomas agregados), con 3 idiomas más disponibles en versión preliminar pública. Para obtener más información, consulte la lista completa de idiomas para Pronunciation Assessment.
Lista de frases
Se ha agregado soporte de listas de frases para las siguientes configuraciones regionales: ar-SA, de-CH, en-IE, en-ZA, es-US, id-ID, nl-NL, pl-PL, pt-PT, ru-RU, sv-SE, th-TH, vi-VN, zh-HK, zh-TW.
Versión de noviembre de 2023
Presentación del modelado de voz bilingüe
Estamos encantados de revelar una adición innovadora a nuestro modelado de voz en tiempo real: el modelo de voz bilingüe. Esta mejora significativa permite que nuestro modelo de voz admita sin problemas pares de idiomas bilingües, como inglés y español, así como inglés y francés. Esta característica permite a los usuarios cambiar sin esfuerzo entre idiomas durante las interacciones en tiempo real, lo que marca un momento fundamental en nuestro compromiso con mejorar las experiencias de comunicación.
Aspectos destacados más importantes:
Compatibilidad bilingüe: con nuestra versión más reciente, los usuarios pueden cambiar sin problemas entre inglés y español o entre inglés y francés durante las interacciones de voz en tiempo real. Esta funcionalidad se adapta a los hablantes bilingües que suelen realizar una transición entre estos dos idiomas.
Experiencia de usuario mejorada: los hablantes bilingües, ya sea en el trabajo, en casa o en varios entornos de la comunidad, encontrarán esta característica inmensamente beneficiosa. La capacidad del modelo para comprender y responder tanto al inglés como al español en tiempo real abre nuevas posibilidades para una comunicación eficaz y fluida.
Modo de uso:
Elija es-US (español e inglés) o fr-CA (francés e inglés) cuando llame a la API Speech Service o pruébelo en Speech Studio. No dude en hablar cualquiera de los idiomas o mézclelos juntos: el modelo está diseñado para adaptarse dinámicamente, lo que proporciona respuestas precisas y conscientes del contexto en ambos idiomas.
Es el momento de elevar su juego de comunicación con nuestra versión de actualización de características más reciente; comunicación multilingüe sin problemas a su alcance.
Actualización de modelos de conversión de voz en texto
Nos complace presentar una importante actualización de nuestros modelos de voz, que promete una mayor precisión, una legibilidad mejorada y un reconocimiento de entidades perfeccionado. Esta actualización incluye una nueva estructura sólida, reforzada por un conjunto de datos de entrenamiento expandido, lo que garantiza un avance acentuado en el rendimiento general. Incluye modelos recién lanzados para en-US, zh-CN, ja-JP, it-IT, pt-BR, es-MX, es-ES, fr-FR, de-DE, ko-KR, tr-TR, sv-SE y he-IL.
Aspectos destacados:
Mayor precisión con la nueva estructura del modelo: la estructura del modelo perfeccionada, junto con un conjunto de datos de entrenamiento más completo, eleva los niveles de precisión, lo que promete una salida de voz más precisa.
Mejora de la legibilidad: nuestro último modelo aporta un aumento sustancial de la legibilidad, lo que mejora la coherencia y la claridad del contenido hablado.
Reconocimiento avanzado de entidades: el reconocimiento de entidades recibe una actualización sustancial, lo que da lugar a resultados más precisos y matizados.
Impactos potenciales: a pesar de estos avances, es fundamental tener en cuenta los posibles impactos:
Característica de tiempo de espera de silencio personalizada: los usuarios que emplean el tiempo de espera de silencio personalizado, especialmente con una configuración baja, pueden encontrarse con una segmentación excesiva y posibles omisiones de frases de una sola palabra.
El nuevo modelo podría presentar problemas de compatibilidad con la característica de prefijo de palabra clave y se recomienda a los usuarios evaluar su rendimiento en sus aplicaciones específicas.
Palabras o frases de disfluencia reducidas: los usuarios podrían observar una reducción de las palabras o frases de disfluencia como "um" o "uh" en la salida de voz.
Inexactitudes en la duración de la marca de tiempo de palabras: algunas palabras de disfluencia pueden mostrar imprecisiones en la duración de la marca de tiempo, lo que requiere atención en aplicaciones que dependen de un tiempo preciso.
Varianza de distribución de puntuación de confianza: los usuarios que dependen de las puntuaciones de confianza y los umbrales asociados deben tener en cuenta las posibles variaciones en la distribución, que requieren ajustes para obtener un rendimiento óptimo.
La mejora de la precisión de la característica de lista de frases puede verse afectada por el reconocimiento erróneo de ciertas frases.
Le recomendamos que explore estas mejoras y considere los posibles problemas para una transición sin problemas y, como siempre, sus comentarios son fundamentales para perfeccionar y hacer avanzar nuestros servicios.
Nos complace anunciar que la evaluación de la pronunciación presenta nuevas características a partir del 1 de noviembre de 2023: Prosodia, Gramática, Vocabulario y Tema. Estas mejoras tienen como objetivo proporcionar una experiencia de aprendizaje de lenguaje aún más completa para las evaluaciones de lectura y habla. Actualice a la versión 1.35.0 o posterior del SDK para explorar más detalles en Cómo usar la evaluación de la pronunciación y Evaluación de pronunciación en Speech Studio.
Versión de septiembre de 2023
Versión preliminar pública de Whisper
Voz de Azure AI ahora admite el modelo Whisper de OpenAI a través de la API de transcripción por lotes. Para más información, consulte la guía Creación de una transcripción por lotes.
Nota
Azure OpenAI Service también admite el modelo Whisper de OpenAI para la conversión de voz en texto con una API de REST sincrónica. Para obtener más información, consulte el inicio rápido.
Consulte ¿Qué es el modelo Whisper? para obtener más información sobre cuándo usar Voz de Azure AI frente a Azure OpenAI Service.
Versión preliminar pública de la API de REST de conversión de voz en texto v3.2
La API de REST de la conversión de voz en texto v3.2 está disponible en versión preliminar. La API de REST de la conversión de voz en texto v3.1 está disponible con carácter general. La API de REST de la conversión de voz en texto v3.0 se retirará el 1 de abril de 2026. Para obtener más información, consulte las guías de migración de la API de REST de la conversión de voz en texto v3.0 a v3.1 y v3.1 a v3.2.
Versión de agosto de 2023
Nuevas configuraciones regionales de conversión de voz en texto:
La conversión de voz en texto admite dos configuraciones regionales nuevas, como se muestra en la tabla siguiente. Consulte la lista completa de idiomas aquí.
Configuración regional
Idioma
pa-IN
Punjabí (India)
ur-IN
Urdu (India)
Valoración de la pronunciación
La valoración de la pronunciación de Voz ahora admite 3 idiomas adicionales disponibles con carácter general en inglés (Canadá), inglés (India) y francés (Canadá), con 3 idiomas adicionales disponibles en versión preliminar. Para obtener más información, consulte la lista completa de idiomas para Pronunciation Assessment.
Versión de mayo de 2023
Valoración de la pronunciación
La evaluación de la pronunciación de Voz ahora admite 3 idiomas adicionales disponibles con carácter general en alemán (Alemania), japonés (Japón) y español (México), con 4 idiomas adicionales disponibles en versión preliminar. Para obtener más información, consulte la lista completa de idiomas para Pronunciation Assessment.
Ahora puede usar el nivel de compromiso estándar de Speech to Text para la evaluación de la pronunciación en todas las regiones públicas. Si compra un nivel de compromiso para la conversión de voz en texto estándar, el gasto para la evaluación de la pronunciación tiende a alcanzar el del compromiso. Consulte Precios del nivel de compromiso.
Versión de febrero de 2023
Valoración de la pronunciación
Pronunciation Assessment de Voz ahora admite cinco idiomas adicionales disponibles con carácter general: inglés (Reino Unido), inglés (Australia), francés (Francia), español (España) y chino (mandarín, simplificado), con otros idiomas disponibles en la versión preliminar.
Se han agregado códigos de ejemplo que muestran cómo usar Pronunciation Assessment en modo de streaming en su propia aplicación.
Se ha agregado compatibilidad con audio y transcripción etiquetada por usuarios para las configuraciones regionales de-AT.
Versión de enero de 2023
Voz personalizada
Se ha agregado compatibilidad con audio y transcripción etiquetada por usuarios para configuraciones regionales adicionales: ar-BH, ar-DZ, ar-EG, ar-MA, ar-SA, ar-TN, ar-YE y ja-JP.
Se ha agregado compatibilidad con la adaptación de texto estructurado para la configuración regional de-AT.
Versión de diciembre de 2022
API de REST de Conversión de voz en texto
La API de REST de conversión de voz en texto versión 3.1 está disponible con carácter general. Se retirará la versión 3.0 de la API de REST de conversión de voz en texto. Para obtener más información sobre cómo migrar, consulte la guía.
Versión de octubre de 2022
Nueva configuración regional de conversión de voz en texto
Se ha agregado compatibilidad de Malayalam (India) con la configuración regional ml-IN. Consulte la lista completa de idiomas aquí.
Versión de julio de 2022
Nuevas configuraciones regionales de conversión de voz en texto:
Se han agregado 7 configuraciones regionales nuevas, como se muestra en la tabla siguiente. Consulte la lista completa de idiomas aquí.
Configuración regional
Idioma
bs-BA
Bosnio (Bosnia y Herzegovina)
yue-CN
Chino (cantonés, simplificado)
zh-CN-sichuan
Chino (mandarín suroeste, simplificado)
wuu-CN
Chino (wu, simplificado)
ps-AF
Pastún (Afganistán)
so-SO
Somalí (Somalia)
cy-GB
Galés (Reino Unido)
Versión de junio de 2022
Nuevas configuraciones regionales de conversión de voz en texto:
Se agregaron 10 configuraciones regionales nuevas, como se muestra en la tabla siguiente. Consulte la lista completa de idiomas aquí.
Configuración regional
Idioma
sq-AL
Albanés (Albania)
hy-AM
Armenio (Armenia)
az-AZ
Azerbaiyano (Azerbaiyán)
eu-ES
Vasco
gl-ES
Gallego
ka-GE
Georgiano (Georgia)
it-CH
Italiano (Suiza)
kk-KZ
Kazajo (Kazajistán)
mn-MN
Mongol (Mongolia)
ne-NP
Nepalí (Nepal)
Versión de abril de 2022
Nuevas configuraciones regionales de conversión de voz en texto:
A continuación, se muestra una lista de las nuevas configuraciones regionales. Consulte la lista completa de idiomas aquí.
Configuración regional
Idioma
bn-IN
Bengali (India)
Versión de enero de 2022
Nuevas configuraciones regionales de conversión de voz en texto:
A continuación, se muestra una lista de las nuevas configuraciones regionales. Consulte la lista completa de idiomas aquí.
Configuración regional
Idioma
af-ZA
Afrikáans (Sudáfrica)
am-ET
Amárico (Etiopía)
de-CH
Alemán (Suiza)
fr-BE
Francés (Bélgica)
is-IS
Islandés (Islandia)
jv-ID
Javanés (Indonesia)
km-KH
Jemer (Camboya)
kn-IN
Canarés (India)
lo-LA
Lao (Laos)
mk-MK
Macedonio (Macedonia del Norte)
my-MM
Birmano (Myanmar)
nl-BE
Neerlandés (Bélgica)
si-LK
Cingalés (Sri Lanka)
sr-RS
Serbio (Serbia)
sw-TZ
Swahili (Tanzania)
uk-UA
Ucraniano (Ucrania)
uz-UZ
Uzbeko (Uzbekistán)
zu-ZA
Zulú (Sudáfrica)
Versión de julio de 2021
Nuevas configuraciones regionales de conversión de voz en texto:
A continuación, se muestra una lista de las nuevas configuraciones regionales. Consulte la lista completa de idiomas aquí.
Configuración regional
Idioma
ar-DZ
Árabe (Argelia)
ar-LY
Árabe (Libia)
ar-MA
Árabe (Marruecos)
ar-TN
Árabe (Túnez)
ar-YE
Árabe (Yemen)
bg-BG
Búlgaro (Bulgaria)
el-GR
Griego (Grecia)
et-EE
Estonio (Estonia)
fa-IR
Persa (Irán)
ga-IE
Irlandés (Irlanda)
hr-HR
Croata (Croacia)
lt-LT
Lituano (Lituania)
lv-LV
Letón (Letonia)
mt-MT
Maltés (Malta)
ro-RO
Rumano (Rumanía)
sk-SK
Eslovaco (Eslovaquia)
sl-SI
Esloveno (Eslovenia)
sw-KE
Swahili (Kenia)
Versión de enero de 2021
Nuevas configuraciones regionales de conversión de voz en texto:
A continuación, se muestra una lista de las nuevas configuraciones regionales. Consulte la lista completa de idiomas aquí.
Configuración regional
Idioma
ar-AE
Árabe (Emiratos Árabes Unidos)
ar-IL
Árabe (Israel)
ar-IQ
Árabe (Iraq)
ar-OM
Árabe (Omán)
ar-PS
Árabe (Autoridad Palestina)
de-AT
Alemán (Austria)
en-GH
Inglés (Ghana)
en-KE
Inglés (Kenia)
en-NG
Inglés (Nigeria)
en-TZ
Inglés (Tanzania)
es-GQ
Español (Guinea Ecuatorial)
fil-PH
Filipino (Filipinas)
fr-CH
Francés (Suiza)
he-IL
Hebreo (Israel)
id-ID
Indonesio (Indonesia)
ms-MY
Malayo (Malasia)
vi-VN
Vietnamita (Vietnam)
Versión de agosto de 2020
Nuevas configuraciones regionales de conversión de voz en texto:
La conversión de voz en texto ha publicado 26 nuevas configuraciones regionales en agosto: 2 idiomas europeos cs-CZ y hu-HU, 5 configuraciones regionales en inglés y 19 configuraciones regionales en español que cubren la mayoría de los países o regiones de Sudamérica. A continuación, se muestra una lista de las nuevas configuraciones regionales. Consulte la lista completa de idiomas aquí.
Configuración regional
Idioma
cs-CZ
Checo (República Checa)
en-HK
Inglés (Región Administrativa Especial de Hong Kong)
en-IE
Inglés (Irlanda)
en-PH
Inglés (Filipinas)
en-SG
Inglés (Singapur)
en-ZA
Inglés (Sudáfrica)
es-AR
Español (Argentina)
es-BO
Español (Bolivia)
es-CL
Español (Chile)
es-CO
Español (Colombia)
es-CR
Español (Costa Rica)
es-CU
Español (Cuba)
es-DO
Español (República Dominicana)
es-EC
Español (Ecuador)
es-GT
Español (Guatemala)
es-HN
Español (Honduras)
es-NI
Español (Nicaragua)
es-PA
Español (Panamá)
es-PE
Español (Perú)
es-PR
Español (Puerto Rico)
es-PY
Español (Paraguay)
es-SV
Español (El Salvador)
es-US
Español (EE. UU.)
es-UY
Español (Uruguay)
es-VE
Español (Venezuela)
hu-HU
Húngaro (Hungría)
Versión de octubre de 2024
Se ha agregado compatibilidad con las versiones más recientes de los modelos:
Identificación del idioma de voz 1.16.0
Texto neuronal a voz 3.5.0
Crear en-us-ariacpuneural de un alias en en-us-jessacpuneural
Actualizar la versión del motor de conversión de texto a voz
Conversión de voz en texto 4.10.0
Compatibilidad con la restauración de la configuración regional uk-UA
Corregir la configuración de silencio para trabajar con largos períodos de silencio en el audio
Se ha agregado compatibilidad con las versiones más recientes de los modelos:
Identificación del idioma de voz 1.14.0
Actualización de .NET 8.0
Mitigación de vulnerabilidades
Texto neuronal a voz 3.3.0
Actualización de .NET 8.0
Mitigación de vulnerabilidades
Conversión de voz en texto 4.8.0
Actualización de .NET 8.0
Mitigación de vulnerabilidades
Actualizar motor de reconocimiento
Corrija el problema por el que PropertyId.Speech_SegmentationSilenceTimeoutMs se ignoraba.
Actualizar modelos en desuso
Quitar la configuración regional de uk-UA
Versión de febrero de 2024
Se ha agregado compatibilidad con las versiones más recientes de los modelos:
Conversión de voz personalizada en texto 4.6.0
Conversión de voz en texto 4.6.0
Texto neuronal a voz 3.1.0
Actualice la voz a los componentes de texto a la versión más reciente.
Actualice todos los modelos regionales de es a la versión más reciente.
Aumente el búfer de transformación de medios para casos de uso de voz a texto.
Versión de noviembre de 2023
Se ha agregado compatibilidad con las versiones más recientes de los modelos:
Conversión de voz en texto personalizada 4.5.0
Conversión de voz en texto 4.5.0
Texto a voz neuronal 2.19.0
versión de octubre de 2023
Se ha agregado compatibilidad con las versiones más recientes de los modelos:
Conversión de voz en texto personalizada 4.4.0
Conversión de voz en texto 4.4.0
Texto a voz neuronal 2.18.0
Corrija un montón de problemas de vulnerabilidad de alto riesgo.
Quite los registros redundantes de los contenedores.
Actualice el componente multimedia interno a la versión más reciente.
Agregar compatibilidad con la voz en-IN-NeerjaNeural.
Versión de septiembre de 2023
Se ha agregado compatibilidad con las versiones más recientes de los modelos:
Identificación del idioma de voz 1.12.0
Conversión de voz en texto personalizada 4.3.0
Conversión de voz en texto 4.3.0
Texto a voz neuronal 2.17.0
Actualice la conversión de voz en texto personalizada y a la conversión de voz en texto en el marco más reciente.
Se han corregido problemas de vulnerabilidad.
Agregar compatibilidad con la voz ar-AE-FatimaNeural.
versión de julio de 2023
Se ha agregado compatibilidad con las versiones más recientes de los modelos:
Conversión de voz en texto personalizada 4.1.0
Conversión de voz en texto 4.1.0
Texto a voz neuronal 2.15.0
Se ha corregido el problema de ejecución del contenedor de voz en texto a través de opciones de montaje de docker con archivos de modelo personalizados locales.
Se ha corregido el problema que provocaba que, en algunos casos, el evento RECOGNIZING no apareciera en la respuesta desde el SDK de Voz.
Se han corregido problemas de vulnerabilidad.
Versión de junio de 2023
Se ha agregado compatibilidad con las versiones más recientes de los modelos:
Conversión de voz en texto personalizada 4.0.0
Conversión de voz en texto 4.0.0
Texto a voz neuronal 2.14.0
Las imágenes de conversión de voz en texto en el entorno local se actualizan a .NET 6.0
Actualización de modelos de presentación para configuraciones regionales, incluidos en-us, ar-eg, ar-bh, ja-jp, ko-kr y más.
Actualice el componente de contenedor de conversión de voz en texto para solucionar problemas de vulnerabilidad.
Agregue compatibilidad con voces de configuración local de-DE-AmalaNeural, de-AT-IngridNeural, de-AT-JonasNeural y en-US-JennyMultilingualNeural
Versión de mayo de 2023
Se ha agregado compatibilidad con las versiones más recientes de los modelos:
Conversión de voz en texto personalizada 3.14.0
Conversión de voz en texto 3.14.0
Texto a voz neuronal 2.13.0
Corrección del problema de puntuación he-IL
Corrección de problemas de vulnerabilidad
Agregar nueva voz de configuración regional en-US-MichelleNeural y es-MX-CandelaNeural
Versión de abril de 2023
Actualizaciones de seguridad
Corrección de problemas de vulnerabilidad
Versión de marzo de 2023
Se ha agregado compatibilidad con las versiones más recientes de los modelos:
Conversión de voz en texto personalizada 3.12.0
Conversión de voz en texto 3.12.0
Identificación de idioma de la voz 1.11.0
Texto a voz neuronal 2.11.0
Corrección de problemas de vulnerabilidad
Corrección del problema de mayúsculas y minúsculas tr-TR
Actualización de en-US modelos de presentación de conversión de voz en texto
Se ha agregado compatibilidad con la voz para la región neuronal precompilada de texto a voz ar-AE-HamdanNeural
versión de febrero de 2023
Nuevas versiones de contenedor
Se ha agregado compatibilidad con las versiones más recientes de los modelos:
Conversión de voz en texto personalizada 3.11.0
Conversión de voz en texto 3.11.0
Texto a voz neuronal 2.10.0
Corrección de problemas de vulnerabilidad
Actualización normal de los modelos de voz
Agregue nuevas configuraciones regionales de árabe:
ar-IL
ar-PS
Actualizar los modos de presentación de hebreo y turco
Versión de enero de 2023
Nuevas versiones de contenedor
Se ha agregado compatibilidad con las versiones más recientes de los modelos:
Conversión de voz en texto personalizada 3.10.0
Conversión de voz en texto 3.10.0
Texto a voz neuronal 2.9.0
Corrección del problema del modo hipótesis
Corrección del problema del proxy HTTP
Modo de desconexión del contenedor de conversión de voz en texto personalizada
Adición de compatibilidad con contenedores desconectados de CNV al front-end de TTS
Agregue compatibilidad con estas voces de configuración regional:
da-DK-ChristelNeural
da-DK-JeppeNeural
en-IN-PrabhatNeural
Versión de diciembre de 2022
Nuevas versiones de contenedor
Se ha agregado compatibilidad con las versiones más recientes de los modelos:
Conversión de voz en texto personalizada 3.9.0
Conversión de voz en texto 3.9.0
Texto a voz neuronal 2.8.0
Corrección del problema de ipv4/ipv6
Corrección del problema de vulnerabilidad
Versión de noviembre de 2022
Nuevas versiones de contenedor
Se ha agregado compatibilidad con las versiones más recientes de los modelos:
Conversión de voz en texto personalizada 3.8.0
Conversión de voz en texto 3.8.0
Texto a voz neuronal 2.7.0
Versión de octubre de 2022
Nuevas versiones de contenedor
Se ha agregado compatibilidad con las versiones más recientes de los modelos:
Conversión de voz en texto personalizada 3.7.0
Conversión de voz en texto 3.7.0
Texto a voz neuronal 2.6.0
Versión de septiembre de 2022
Conversión de voz en texto 3.6.0-amd64
Agregue compatibilidad con las versiones más recientes del modelo.
Agregue compatibilidad con estas configuraciones regionales:
az-az
bn-in
bs-ba
cy-gb
eu-es
fa-ir
gl-es
he-il
hy-am
it-ch
ka-ge
kk-kz
mk-mk
mn-mn
ne-np
ps-af
so-so
sq-al
wuu-cn
yue-cn
zh-cn-sichuan
Actualizaciones mensuales periódicas incluidas las actualizaciones de seguridad y las correcciones de vulnerabilidades.
Conversión de voz en texto personalizada 3.6.0-amd64
Actualizaciones mensuales periódicas incluidas las actualizaciones de seguridad y las correcciones de vulnerabilidades.
The Speech service supports numerous languages for speech to text and text to speech conversion, along with speech translation. This article provides a comprehensive list of language support by service feature.
The Speech service provides speech to text, text to speech, and speech translation capabilities with an Azure resource. Add speech to your applications, tools, and devices with the Speech SDK, Speech Studio, or REST APIs.