Nota
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Con Habla personalizada puede evaluar y mejorar la precisión del reconocimiento de voz de sus aplicaciones y productos. Se puede usar un modelo de voz personalizado para la conversión de voz en texto en tiempo real, la traducción de voz y la transcripción por lotes.
De forma predeterminada, el reconocimiento de voz utiliza un modelo de lenguaje universal como modelo base que se entrena con datos que son propiedad de Microsoft y refleja el idioma hablado que se usa habitualmente. El modelo base está entrenado previamente con dialectos y fonética representando varios dominios comunes. Al hacer una solicitud de reconocimiento de voz, el modelo base más reciente para cada idioma admitido se usa de manera predeterminada. El modelo base funciona bien en la mayoría de los escenarios de reconocimiento de voz.
Se puede usar un modelo personalizado para aumentar el modelo base para mejorar el reconocimiento del vocabulario concreto del dominio específico de la aplicación proporcionando datos de texto para entrenar el modelo. También se puede usar para mejorar el reconocimiento basado en las condiciones de audio específicas de la aplicación proporcionando datos de audio con transcripciones de referencia.
También puede entrenar un modelo con texto estructurado cuando los datos siguen un patrón, especificar pronunciaciones personalizadas y personalizar el formato de texto para mostrar con normalización de texto inversa personalizada, reescritura personalizada y filtrado de palabras soeces personalizado.
¿Cómo funciona?
Gracias a Voz personalizada, puede cargar sus propios datos, probar y entrenar un modelo personalizado, comparar la precisión entre modelos e implementar un modelo en un punto de conexión personalizado.
A continuación encontrará más información sobre la secuencia de pasos mostrada en el diagrama anterior:
Cree un proyecto y elija un modelo. Si entrena un modelo personalizado con datos de audio, seleccione un recurso de servicio en una región con hardware dedicado para entrenar datos de audio. Para obtener más información consulte las notas al pie en la tabla de regiones.
Carga de datos de prueba. Cargue datos de prueba para evaluar la oferta de conversión de voz en texto para las aplicaciones, herramientas y productos.
Entrenamiento de un modelo. Proporcione transcripciones escritas y texto relacionado, junto con los datos de audio correspondientes. Probar un modelo antes y después del entrenamiento es opcional, pero se recomienda.
Nota
Se paga por el uso del modelo de voz personalizada y el hospedaje del punto de conexión. También se le cargará por el entrenamiento del modelo de voz personalizado si el modelo base se creó el 1 de octubre de 2023 y versiones posteriores. No se le cobrará por el entrenamiento si el modelo base se creó antes de octubre de 2023. Para más información, consulte Precios de Azure Speech en Foundry Tools y la sección Cargo por adaptación en la guía de migración de voz a texto 3.2.
Prueba de la calidad del reconocimiento. Use Speech Studio para reproducir el audio cargado e inspeccionar la calidad del reconocimiento de voz de los datos de prueba.
Prueba del modelo de forma cuantitativa. Evalúe y mejore la precisión del modelo de conversión de voz a texto. El servicio Voz proporciona una tasa de errores por palabra (WER) cuantitativa que puede usar para determinar si se necesita más entrenamiento.
Implementación de un modelo. Una vez que esté satisfecho con los resultados de la prueba, implemente el modelo en un punto de conexión personalizado. Excepto con la transcripción por lotes, tiene que implementar un punto de conexión personalizado para usar un modelo de voz personalizada.
Sugerencia
No se requiere un punto de conexión de implementación hospedado para usar la voz personalizada con la API de transcripción de Batch. Es posible conservar los recursos si el modelo de voz personalizado solo se usa para la transcripción por lotes. Para más información, consulte Precios del servicio de voz.
Elección del modelo
Existen algunos enfoques para usar modelos de voz personalizada:
- El modelo base proporciona reconocimiento de voz preciso de fábrica para una variedad de escenarios. Los modelos base se actualizan periódicamente para mejorar la precisión y la calidad. Se recomienda que, si usa modelos base, utilice los modelos base predeterminados más recientes. Si una funcionalidad de personalización necesaria solo está disponible con un modelo anterior, puede elegir un modelo base anterior.
- Un modelo personalizado aumenta el modelo base para incluir vocabulario específico del dominio compartido en todas las áreas del dominio personalizado.
- Se pueden usar varios modelos personalizados cuando el dominio personalizado tiene varias áreas, cada una con un vocabulario específico.
Una manera recomendada de ver si el modelo base será suficiente es analizar la transcripción generada a partir de este y compararla con una transcripción generada por el usuario para el mismo audio. Puede comparar las transcripciones y obtener una puntuación de tasa de error de palabra (WER). Si la puntuación de WER es alta, se recomienda entrenar un modelo personalizado para reconocer las palabras identificadas incorrectamente.
Si el vocabulario varía entre las áreas de dominio, se recomiendan varios modelos. Por ejemplo, los comentaristas olímpicos informan sobre diversos eventos, cada uno de ellos asociado a su propia lengua vernácula. Dado que el vocabulario de cada evento olímpico difiere significativamente de otros, la creación de un modelo personalizado específico de un evento aumenta la precisión al limitar los datos de expresión relativos a ese evento en particular. Como resultado, el modelo no necesita examinar los datos no relacionados para hacer una coincidencia. En cualquier caso, el entrenamiento sigue requiriendo una buena variedad de datos de entrenamiento. Incluya audio de varios comentaristas cuyo acento, edad, genero, etc., sean distintos.
Estabilidad y ciclo de vida del modelo
Un modelo base o un modelo personalizado implementado en un punto de conexión mediante voz personalizada es fijo hasta que decide actualizarlo. La precisión y la calidad del reconocimiento de voz seguirán siendo uniformes, incluso cuando se publique un nuevo modelo base. Esto le permite bloquear el comportamiento de un modelo específico hasta que decida usar un modelo más reciente.
Tanto si entrena su propio modelo como si usa una instantánea de un modelo base, puede usar el modelo durante un tiempo limitado. Para más información, consulte Ciclo de vida del modelo y el punto de conexión.
Inteligencia artificial responsable
Los sistemas de inteligencia artificial no solo incluyen la tecnología, sino también las personas que la usan, las que se ven afectadas por ella y el entorno en el que se implementan. Lea las notas de transparencia para obtener información sobre el uso y la implementación de IA responsable en los sistemas.
- Nota de transparencia y casos de uso
- Características y limitaciones
- Integración y uso responsable
- Datos, privacidad y seguridad